什么是 LLMs.txt?2026年SEO与开发者的诚实评估
llms.txt 在SEO社区引发了大量讨论——但关于其有效性的证据仍然薄弱。本指南解释了它是什么、数据实际显示了什么、谁在使用它,以及如何决定它是否值得你投入时间。
什么是 llms.txt——以及它不是什么
llms.txt 是一个提议的网络标准——由 Answer.AI 于2024年底创建——允许网站所有者发布一份经过策划的、Markdown格式的重要页面列表,专门供大语言模型(LLM)爬虫使用。该文件放置在域名的根目录(例如 https://yourdomain.com/llms.txt),旨在帮助AI系统更高效地查找和优先处理权威内容。
这个概念借鉴了现有的机器可读文件生态系统,这些文件帮助自动化系统导航网站:
| 文件 | 用途 | 谁在使用 | 官方标准? |
|---|---|---|---|
| robots.txt | 告诉爬虫哪些页面可以访问或应避免 | 所有主要搜索引擎 | 是(RFC 9309) |
| sitemap.xml | 列出所有页面供爬虫发现 | 所有主要搜索引擎 | 是(sitemaps.org 协议) |
| llms.txt | 专门为LLM爬虫策划关键页面 | 未确认——没有主要AI公司确认使用 | 否——仅为提议标准 |
llms.txt 试图解决的问题
llms.txt 背后的动机是真实的,即使该解决方案尚未得到证实。AI爬虫在处理网站时面临两个结构性挑战:
- 上下文窗口限制。 LLM一次只能处理有限数量的文本。大多数网站包含的内容远远超过单个上下文窗口的容量——这意味着AI系统必须做出选择,读什么和跳过什么。llms.txt 提议通过提供策划的索引来帮助AI系统更高效地做出这些选择。
- HTML解析复杂性。 现代网站通过JavaScript加载大量内容,而许多AI爬虫无法执行这些内容。导航菜单、Cookie横幅、广告和动态内容增加了噪音,使得提取实质性信息变得更加困难。纯文本Markdown文件完全避开了这个问题。
还有一个次要动机:计算效率。训练和运行LLM是昂贵的。如果AI系统能够更可靠地识别高质量、相关的内容,而无��抓取数千个低价值页面,资源节省将是显著的。llms.txt 在某种程度上是帮助AI系统更聪明地工作而不是更努力工作的尝试。
llms.txt 文件的结构
llms.txt 文件使用Markdown格式——与GitHub README文件、文档平台和许多内容管理系统中使用的轻量级标记语言相同。Markdown是人类可读的、机器可解析的,并且不需要任何特殊软件来创建或编辑。
llms.txt 中使用的核心Markdown元素
# 标题— H1 用于网站或章节名称## 标题— H2 用于主要内容类别> 文本— 用于简短网站描述的块引用- [文本](URL): 描述— 带有描述的链接列表项
完整示例
该规范不强制要求严格的结构——只要你使用有效的Markdown,文件就是机器可读的。一些团队添加了更细粒度的子章节(H3和H4)、表格或技术文档的代码片段。另一些团队则保持极简。两种方法都是有效的。
2026年谁在使用 llms.txt?
采用率仍然很小众。根据 NerdyData 抓取数据(2026年4月20日)[1],截至2026年4月,约有4,200个域名发布了 llms.txt 文件——高于2025年7月的951个域名,但仍占网络估计的11亿活跃域名的极小部分。
采用 llms.txt 的公司主要是面向开发者的SaaS品牌和文档密集型平台。以下是一些知名采用者如何构建他们的文件:
| 公司 | 文件重点 | 结构方法 | 显著特征 |
|---|---|---|---|
| Hugging Face | 开发者文档 | 多级标题(H1–H4)、代码示例、大量链接 | 全面的知识库方法;主要采用者中最详细的 |
| Vercel | 开发者文档 | 顶部有描述性元数据行(title:、description:、tags:),然后是结构化章节 | 在内容前添加元数据上下文;包含代码的分步说明 |
| Zapier | 开发者文档 | 极简标题;主要是带有描述的长链接列表 | 轻量级方法;易于维护但上下文丰富度较低 |
| Anthropic | 公司和产品信息 | 标准规范格式 | 值得注意的是:Anthropic 发布了 llms.txt,但尚未确认其AI爬虫使用它 |
llms.txt 真的有效吗?证据表明了什么
这是最重要的问题——诚实的答案是:有效性的证据非常薄弱甚至不存在。
服务器日志分析显示了什么
测试AI爬虫是否使用 llms.txt 的最直接方法是分析服务器日志,并检查AI机器人是否实际访问该文件。自该格式提出以来,已进行了多项独立分析。
对2025年中期至2026年4月期间实施 llms.txt 的网站的服务器日志分析始终显示相同的模式:AI爬虫很少访问 llms.txt 文件。GPTBot(OpenAI的爬虫)、Google-Extended(Google的AI爬虫)、PerplexityBot 和 ClaudeBot 都显示出对 llms.txt 文件的访问率接近于零,即使在文件正确实施且可访问的网站上也是如此。[2]
传统的搜索爬虫如 Googlebot 和 Bingbot 确实偶尔访问 llms.txt 文件——但它们没有给予特殊优先级,访问率与网站上任何其他页面相同。
相关性研究显示什么
Authoritas AI可见性指数(2026年4月24日)[3] 分析了10,000个域名——5,000个带有 llms.txt 文件,5,000个没有——发现 llms.txt 采用与AI引用量、引用准确性或AI生成答案中的声量份额之间没有统计学上的显著相关性。
在实施 llms.txt 后看到AI可见性提高的网站,与未实施该文件的可比网站显示出相同的提高轨迹——这表明收益归因于其他因素(内容质量改进、结构化数据标记、增加的反向链接),而不是 llms.txt 文件本身。
官方声明说了什么
Google的John Mueller于2025年底在Bluesky上表示:“据我所知,目前没有AI系统使用 llms.txt。” 截至2026年4月,没有主要AI公司发表声明反驳这一立场或确认其爬虫使用 llms.txt 文件。[4]
你应该实施 llms.txt 吗?
决定取决于你团队的带宽、技术能力以及对使用未经证实的标准进行实验的意愿。
如果...则实施
你有开发人员带宽并且想要进行实验。你的网站有复杂的文档,爬虫难以导航。你是一个面向开发者的SaaS品牌,早期采用能传递技术信誉。如果该标准获得官方采用,你想做好准备。
如果...则跳过
你的开发人员时间有限,需要优先处理经过证实的AI可见性策略。你期望在AI引用或流量方面获得可衡量的改进。你将其视为结构化数据标记、FAQ结构或比较内容的替代品。你需要用数据来证明投资的合理性。
这里的机会成本很重要。创建和维护 llms.txt 文件所花费的时间本可以用于具有确认有效性的策略:在功能页面上添加FAQ结构化数据、在定价页面上实施SoftwareApplication结构化数据、构建HTML表格比较页面,或创建能赢得引用的原创研究。这些投资有可衡量的记录。llms.txt 没有。
如何创建和部署 llms.txt 文件
如果你决定尝试 llms.txt,实施过程是直接的——但确实需要开发人员参与才能正确部署文件。
确定应该为AI爬虫突出显示你网站的哪些页面或部分。保持文件经过策划和专注——一份简短的、最准确、最适合引用的页面列表比第二个站点地图更有用。对于大多数网站,这意味着:产品或服务页面、当前定价、关键文档、关于页面和联系页面。避免包含过时的博客文章、薄弱内容或信息频繁更改的页面。
打开文本编辑器(记事本、VS Code或任何纯文本编辑器)并创建一个名为 llms.txt 的新文件。使用Markdown进行格式化。一个最小但完整的结构:
将文件放在域名的根目录下,以便可通过 https://yourdomain.com/llms.txt 访问。如果该文件仅涵盖子域名(如 docs.yourdomain.com 的文档),则将其放在相应的子目录中。通过你的托管控制面板(cPanel → 文件管理器 → public_html/)或通过你的部署管道上传。上传后,通过在浏览器中直接访问URL进行验证。
一个过时的 llms.txt 文件指向已更改或删除的页面比没有文件更糟糕——它会将AI爬虫指向过时或损坏的内容。每季度审查该文件:删除指向过时页面的链接,在产品名称或功能更改时更新描述,并添加指向重要新内容的链接。将其视为一个活文档,而不是一次性设置任务。
替代方案:更高投资回报率的AI可见性策略
如果你的目标是改善AI系统在生成答案中代表你品牌的方式,以下策略比 llms.txt 具有更强的证据基础:
- 在功能和帮助页面上使用FAQ结构化数据。 结构化的FAQ标记为AI系统提供了干净的、自包含的答案块以供提取。这对精选摘要的选择有确认的影响,并且是目前最接近经过证实的AI提取信号的东西。参见:[内部链接:如何为AI可见性添加FAQ结构化数据]。
- 在产品和定价页面上使用SoftwareApplication结构化数据。 机器可读的产品元数据减少了AI系统如何代表你的产品类别、定价和功能的歧义。
- HTML表格比较页面。 比较内容是AI生成的SaaS答案中最常被引用的页面类型之一。基于图像的表格对AI提取是不可见的;HTML表格则不是。
- 在所有页面上保持产品名称一致。 实体一致性——在产品页面、文档、FAQ和比较页面上对同一功能使用相同的名称——减少了导致AI错误描述的实体混淆。
- 原创研究和以数据为支撑的专家引用。 提供独特、可验证信息的内容能赢得引用,因为AI系统无法在其他地方找到它。总结其他来源已经说过的通用内容很少能赢得引用。
关于 llms.txt 的常见问题
来源与参考
- NerdyData。llms.txt 采用跟踪报告——2026年4月。发布于2026年4月20日。基于抓取的llms.txt文件采用分析,跟踪从2025年7月基线开始的增长。
- Onely / 技术SEO研究。AI爬虫行为分析:机器人读取llms.txt吗? 发布于2026年4月21日。对200个正确实施llms.txt文件的网站进行服务器日志分析,跟踪GPTBot、Google-Extended、PerplexityBot和ClaudeBot的访问情况。
- Authoritas。AI可见性指数:llms.txt 相关性研究——2026年4月版。发布于2026年4月24日。对10,000个域名进行比较分析,检查llms.txt采用与AI引用量、准确性和声量份额之间的相关性。
- John Mueller(Google搜索关系)。关于AI系统采用llms.txt的Bluesky声明。2025年11月。在Google搜索中心文档更新中重新确认,2026年4月23日。
Further reading: 2026 · SEO E-A-T E-E-A-T · Google Search Console 2025 · 2026 SEO · E-A-T SEO Google