什么是 llms.txt——以及它不是什么

llms.txt 是一个提议的网络标准——由 Answer.AI 于2024年底创建——允许网站所有者发布一份经过策划的、Markdown格式的重要页面列表,专门供大语言模型(LLM)爬虫使用。该文件放置在域名的根目录(例如 https://yourdomain.com/llms.txt),旨在帮助AI系统更高效地查找和优先处理权威内容。

这个概念借鉴了现有的机器可读文件生态系统,这些文件帮助自动化系统导航网站:

文件用途谁在使用官方标准?
robots.txt 告诉爬虫哪些页面可以访问或应避免 所有主要搜索引擎 是(RFC 9309)
sitemap.xml 列出所有页面供爬虫发现 所有主要搜索引擎 是(sitemaps.org 协议)
llms.txt 专门为LLM爬虫策划关键页面 未确认——没有主要AI公司确认使用 否——仅为提议标准
关键区别
robots.txt 和 sitemap.xml 是官方的、被广泛采用的标准,已得到 Google、Bing 和其他主要搜索引擎的确认支持。llms.txt 是一个社区提议,截至2026年4月尚未被任何主要AI公司采用。将它们视为等同将是一个重大的错误描述。

llms.txt 试图解决的问题

llms.txt 背后的动机是真实的,即使该解决方案尚未得到证实。AI爬虫在处理网站时面临两个结构性挑战:

  • 上下文窗口限制。 LLM一次只能处理有限数量的文本。大多数网站包含的内容远远超过单个上下文窗口的容量——这意味着AI系统必须做出选择,读什么和跳过什么。llms.txt 提议通过提供策划的索引来帮助AI系统更高效地做出这些选择。
  • HTML解析复杂性。 现代网站通过JavaScript加载大量内容,而许多AI爬虫无法执行这些内容。导航菜单、Cookie横幅、广告和动态内容增加了噪音,使得提取实质性信息变得更加困难。纯文本Markdown文件完全避开了这个问题。

还有一个次要动机:计算效率。训练和运行LLM是昂贵的。如果AI系统能够更可靠地识别高质量、相关的内容,而无��抓取数千个低价值页面,资源节省将是显著的。llms.txt 在某种程度上是帮助AI系统更聪明地工作而不是更努力工作的尝试。

核心理念
llms.txt 本质上是AI系统的策划目录——一种表达“这是我网站上最值得你关注的页面,以及每个页面涵盖的内容”的方式。这个概念是合理的。但AI系统是否真的使用它是另一个问题——目前的证据表明它们基本上不使用。

llms.txt 文件的结构

llms.txt 文件使用Markdown格式——与GitHub README文件、文档平台和许多内容管理系统中使用的轻量级标记语言相同。Markdown是人类可读的、机器可解析的,并且不需要任何特殊软件来创建或编辑。

llms.txt 中使用的核心Markdown元素

  • # 标题 — H1 用于网站或章节名称
  • ## 标题 — H2 用于主要内容类别
  • > 文本 — 用于简短网站描述的块引用
  • - [文本](URL): 描述 — 带有描述的链接列表项

完整示例

# llms.txt — 示例结构 # 你的公司名称 > 简要描述你的公司做什么以及为谁服务。 重要说明: - 关于你产品的关键差异化因素或重要细节 - 你的产品不做什么(帮助AI避免错误描述) - 合规认证或安全态势(SOC 2、GDPR等) ## 产品 - [产品名称](https://example.com/product):核心用例和主要优势 - [定价](https://example.com/pricing):计划层级、起始价格和计费选项 ## 文档 - [入门指南](https://example.com/docs/start):新用户设置指南 - [API参考](https://example.com/api):包含身份验证的完整API文档 - [集成](https://example.com/integrations):支持的第三方工具和连接指南 ## 公司 - [关于](https://example.com/about):公司背景、使命和团队 - [安全](https://example.com/security):安全态势、认证和数据处理 - [联系](https://example.com/contact):如何联系团队

该规范不强制要求严格的结构——只要你使用有效的Markdown,文件就是机器可读的。一些团队添加了更细粒度的子章节(H3和H4)、表格或技术文档的代码片段。另一些团队则保持极简。两种方法都是有效的。

2026年谁在使用 llms.txt?

采用率仍然很小众。根据 NerdyData 抓取数据(2026年4月20日)[1],截至2026年4月,约有4,200个域名发布了 llms.txt 文件——高于2025年7月的951个域名,但仍占网络估计的11亿活跃域名的极小部分。

4,200
截至2026年4月拥有 llms.txt 文件的域名(NerdyData,2026年4月20日)
4.4×
从2025年7月到2026年4月的采用率增长——但基数非常小
0%
的主要AI公司已官方确认他们在抓取时使用 llms.txt 文件

采用 llms.txt 的公司主要是面向开发者的SaaS品牌和文档密集型平台。以下是一些知名采用者如何构建他们的文件:

公司文件重点结构方法显著特征
Hugging Face 开发者文档 多级标题(H1–H4)、代码示例、大量链接 全面的知识库方法;主要采用者中最详细的
Vercel 开发者文档 顶部有描述性元数据行(title:、description:、tags:),然后是结构化章节 在内容前添加元数据上下文;包含代码的分步说明
Zapier 开发者文档 极简标题;主要是带有描述的长链接列表 轻量级方法;易于维护但上下文丰富度较低
Anthropic 公司和产品信息 标准规范格式 值得注意的是:Anthropic 发布了 llms.txt,但尚未确认其AI爬虫使用它
Anthropic 悖论
Anthropic——Claude背后的公司——在其自己的网站上发布了 llms.txt 文件。这经常被引用为该格式具有合法性的证据。然而,发布文件和使用其他人发布的文件是完全不同的事情。Anthropic 尚未确认 ClaudeBot 在抓取其他网站时读取 llms.txt 文件。这两个事实是无关的。

llms.txt 真的有效吗?证据表明了什么

这是最重要的问题——诚实的答案是:有效性的证据非常薄弱甚至不存在

服务器日志分析显示了什么

测试AI爬虫是否使用 llms.txt 的最直接方法是分析服务器日志,并检查AI机器人是否实际访问该文件。自该格式提出以来,已进行了多项独立分析。

对2025年中期至2026年4月期间实施 llms.txt 的网站的服务器日志分析始终显示相同的模式:AI爬虫很少访问 llms.txt 文件。GPTBot(OpenAI的爬虫)、Google-Extended(Google的AI爬虫)、PerplexityBot 和 ClaudeBot 都显示出对 llms.txt 文件的访问率接近于零,即使在文件正确实施且可访问的网站上也是如此。[2]

传统的搜索爬虫如 Googlebot 和 Bingbot 确实偶尔访问 llms.txt 文件——但它们没有给予特殊优先级,访问率与网站上任何其他页面相同。

相关性研究显示什么

Authoritas AI可见性指数(2026年4月24日)[3] 分析了10,000个域名——5,000个带有 llms.txt 文件,5,000个没有——发现 llms.txt 采用与AI引用量、引用准确性或AI生成答案中的声量份额之间没有统计学上的显著相关性。

在实施 llms.txt 后看到AI可见性提高的网站,与未实施该文件的可比网站显示出相同的提高轨迹——这表明收益归因于其他因素(内容质量改进、结构化数据标记、增加的反向链接),而不是 llms.txt 文件本身。

官方声明说了什么

Google的John Mueller于2025年底在Bluesky上表示:“据我所知,目前没有AI系统使用 llms.txt。” 截至2026年4月,没有主要AI公司发表声明反驳这一立场或确认其爬虫使用 llms.txt 文件。[4]

证据总结
三条独立的证据线——服务器日志分析、相关性研究和官方声明——都指向相同的结论:llms.txt 目前不影响AI爬虫行为或AI引用结果。如果主要AI公司采用该标准,这种情况可能会改变,但目前没有确认的时间表。

你应该实施 llms.txt 吗?

决定取决于你团队的带宽、技术能力以及对使用未经证实的标准进行实验的意愿。

如果...则实施

你有开发人员带宽并且想要进行实验。你的网站有复杂的文档,爬虫难以导航。你是一个面向开发者的SaaS品牌,早期采用能传递技术信誉。如果该标准获得官方采用,你想做好准备。

如果...则跳过

你的开发人员时间有限,需要优先处理经过证实的AI可见性策略。你期望在AI引用或流量方面获得可衡量的改进。你将其视为结构化数据标记、FAQ结构或比较内容的替代品。你需要用数据来证明投资的合理性。

这里的机会成本很重要。创建和维护 llms.txt 文件所花费的时间本可以用于具有确认有效性的策略:在功能页面上添加FAQ结构化数据、在定价页面上实施SoftwareApplication结构化数据、构建HTML表格比较页面,或创建能赢得引用的原创研究。这些投资有可衡量的记录。llms.txt 没有。

正确的思维模型
将 llms.txt 视为你在早期阶段对待任何实验性网络标准的方式:实施成本低,上行空间未知,没有确认的下行风险。如果你有带宽,这是一个合理的实验。如果你没有,这是一个合理的跳过事项。它本身并不是一项有意义的AI可见性策略。

如何创建和部署 llms.txt 文件

如果你决定尝试 llms.txt,实施过程是直接的——但确实需要开发人员参与才能正确部署文件。

1
决定要突出显示的内容

确定应该为AI爬虫突出显示你网站的哪些页面或部分。保持文件经过策划和专注——一份简短的、最准确、最适合引用的页面列表比第二个站点地图更有用。对于大多数网站,这意味着:产品或服务页面、当前定价、关键文档、关于页面和联系页面。避免包含过时的博客文章、薄弱内容或信息频繁更改的页面。

2
使用Markdown创建文件

打开文本编辑器(记事本、VS Code或任何纯文本编辑器)并创建一个名为 llms.txt 的新文件。使用Markdown进行格式化。一个最小但完整的结构:

# 你的网站名称 > 一句话描述你的网站或产品做什么。 ## 产品 - [产品名称](https://example.com/product):它做什么以及为谁服务 - [定价](https://example.com/pricing):计划层级和起始价格 ## 文档 - [入门指南](https://example.com/docs):设置和入门指南 - [API参考](https://example.com/api):完整API文档 ## 公司 - [关于](https://example.com/about):公司背景和使命 - [联系](https://example.com/contact):如何联系团队
3
上传到正确的目录

将文件放在域名的根目录下,以便可通过 https://yourdomain.com/llms.txt 访问。如果该文件仅涵盖子域名(如 docs.yourdomain.com 的文档),则将其放在相应的子目录中。通过你的托管控制面板(cPanel → 文件管理器 → public_html/)或通过你的部署管道上传。上传后,通过在浏览器中直接访问URL进行验证。

4
随时间维护文件

一个过时的 llms.txt 文件指向已更改或删除的页面比没有文件更糟糕——它会将AI爬虫指向过时或损坏的内容。每季度审查该文件:删除指向过时页面的链接,在产品名称或功能更改时更新描述,并添加指向重要新内容的链接。将其视为一个活文档,而不是一次性设置任务。

替代方案:更高投资回报率的AI可见性策略

如果你的目标是改善AI系统在生成答案中代表你品牌的方式,以下策略比 llms.txt 具有更强的证据基础:

  • 在功能和帮助页面上使用FAQ结构化数据。 结构化的FAQ标记为AI系统提供了干净的、自包含的答案块以供提取。这对精选摘要的选择有确认的影响,并且是目前最接近经过证实的AI提取信号的东西。参见:[内部链接:如何为AI可见性添加FAQ结构化数据]
  • 在产品和定价页面上使用SoftwareApplication结构化数据。 机器可读的产品元数据减少了AI系统如何代表你的产品类别、定价和功能的歧义。
  • HTML表格比较页面。 比较内容是AI生成的SaaS答案中最常被引用的页面类型之一。基于图像的表格对AI提取是不可见的;HTML表格则不是。
  • 在所有页面上保持产品名称一致。 实体一致性——在产品页面、文档、FAQ和比较页面上对同一功能使用相同的名称——减少了导致AI错误描述的实体混淆。
  • 原创研究和以数据为支撑的专家引用。 提供独特、可验证信息的内容能赢得引用,因为AI系统无法在其他地方找到它。总结其他来源已经说过的通用内容很少能赢得引用。
优先级顺序
如果你正在分配有限的技术SEO带宽,请按以下顺序优先处理:(1) FAQ结构化数据,(2) SoftwareApplication结构化数据,(3) HTML比较表格,(4) 实体一致性审计,(5) 原创研究。llms.txt 排在所有这些之后——如果你还有剩余的带宽。

关于 llms.txt 的常见问题

llms.txt 能提高AI搜索可见性吗?
截至2026年4月,没有确凿证据表明 llms.txt 能提高AI搜索可见性。服务器日志分析显示AI爬虫很少访问该文件,相关性研究发现 llms.txt 采用与AI引用量或准确性之间没有统计学上的显著关系。如果主要AI公司官方采用该标准,它可能会变得更加相关,但目前没有确认的时间表。
llms.txt 是官方网络标准吗?
不是。llms.txt 是由 Answer.AI 创建的提议标准,并非 W3C 或 IETF 的官方标准。截至2026年4月,它尚未被 OpenAI、Google、Anthropic、Perplexity 或任何其他主要AI公司采用。这将其与 robots.txt(RFC 9309)和 sitemap.xml(sitemaps.org 协议)区分开来,后者是具有主要搜索引擎确认支持的官方标准。
我应该把 llms.txt 文件放在哪里?
将你的 llms.txt 文件放在域名的根目录下,可通过 https://yourdomain.com/llms.txt 访问。如果该文件仅涵盖子域名(如 docs.yourdomain.com 的文档),则将其放在相应的子目录中。上传后,通过在浏览器中直接访问URL进行验证以确认其可访问。
我应该在2026年实施 llms.txt 吗?
仅当你有开发人员带宽并且想要尝试未经证实的标准时才实施。llms.txt 对于任何主要AI平台来说都不是确认的排名或引用信号。在投入时间到 llms.txt 之前,优先处理FAQ结构化数据、SoftwareApplication结构化数据、HTML比较表格和实体一致性。如果你确实实施了它,请保持文件小巧、经过策划并及时更新。
Anthropic 的 Claude 使用 llms.txt 文件吗?
Anthropic 在其自己的网站上发布了 llms.txt 文件,但尚未确认 ClaudeBot 在抓取其他网站时读取 llms.txt 文件。发布文件和使用其他人发布的文件是完全不同的事情。截至2026年4月,没有主要AI公司确认其爬虫使用 llms.txt 文件。
llms.txt 会损害我网站的SEO吗?
没有证据表明实施 llms.txt 会对传统SEO产生负面影响。该文件是一个纯文本Markdown文档,不会干扰 robots.txt、站点地图或结构化数据标记。主要风险是机会成本——花在 llms.txt 上的时间本可以用于具有更强AI可见性改进证据基础的策略。