工作原理
默认情况下,本工具不会调用任何 AI,也没有内置的默认模型或隐藏 API Key。它会由服务端抓取你输入的网站首页和有限数量的同域名链接,
读取页面标题、meta description、H1-H3 标题、导航链接和正文片段,再用规则模板整理成一份可编辑的 llms.txt 草稿。
当你勾选“Refine with custom LLM API”并填写兼容 OpenAI Chat Completions 格式的 Endpoint、Model 和 API Key 时,
工具会先读取首页和候选链接,再让你配置的模型判断哪些同站页面值得继续深入抓取,例如文档、产品介绍、API 参考、指南、价格、支持和政策页面。
随后工具会抓取这些由 LLM 选择的页面,最后再把页面正文、标题、链接、维护者说明和规则草稿交给模型生成最终 llms.txt。
页面顶部的状态说明会标记本次生成是规则生成、LLM 引导生成,还是 LLM 失败后的规则回退。
使用方法
- 在“Website domain or URL”中输入网站域名或完整 URL,例如 example.com 或 https://example.com/docs。
- 在“Extra context”中补充网站定位、产品说明、重点页面或你希望模型理解的背景信息。
- 设置“Crawl page limit”控制最多抓取的页面数量。页面越多,分析越充分,但耗时也会增加。
- 如果只需要规则生成,直接点击“Generate llms.txt”。如果希望 AI 优化内容,再启用自定义 LLM API。
- 生成后可以复制结果,也可以下载为 llms.txt,并在发布前人工检查准确性。
输出内容
生成结果通常包含网站摘要、站点地址、维护者补充说明、关键页面、文档/产品/公司/支持等分类链接,以及自动抓取说明。
启用 LLM 后,页面描述会更倾向于基于实际正文和标题进行人性化概括,而不是简单复制某个页面的 description。
这些内容适合放在网站根目录的 llms.txt,帮助大语言模型更快理解网站结构和重要入口。
排查与安全
如果生成失败,页面会在输出框和“Error details”中显示详细错误,包括错误代码、HTTP 状态、抓取 URL、content-type 或部分响应内容。
如果自定义 LLM API 连接失败、超时或返回不可用内容,工具会保留规则生成的 llms.txt,并在“Error details”中说明这是一次回退结果。
出于安全考虑,工具会阻止抓取 localhost 和私有网络地址。生产环境建议继续增加请求频率限制、DNS 后私有 IP 检查和管理员级 API Key 配置。