技术SEO

2026年如何为AI爬虫配置robots.txt：完整技术指南

你在2023年为Googlebot配置的robots.txt文件已经远远不够用了。目前已有至少14种不同的AI爬虫user-agent字符串活跃在网络中——每种都有不同的合规行为、抓取频率和数据使用目的。本指南为你提供管理传统搜索机器人和LLM爬虫的精确配置逻辑。

Rafael Mora

| 更新于2026年5月15日 | 阅读约13分钟专家审核

AI爬虫robots.txt配置图谱 — 2026

14种以上活跃AI爬虫的user-agent字符串、合规行为与指令逻辑

图示：2026年robots.txt AI爬虫配置指南 user-agent字符串

核心转变

传统robots.txt配置假设机器人只有两类：搜索引擎爬虫（你希望它来）和垃圾机器人（你不希望它来）。AI爬虫创造了第三类：数据采集机器人——它们可能遵守也可能不遵守你的指令，且其数据使用目的与索引有着根本性的不同。为这一新类别配置robots.txt，需要了解哪些AI爬虫处于活跃状态、它们使用哪些user-agent字符串，以及——最关键的——哪些爬虫实际上遵守机器人排除协议。

为什么AI爬虫改变了robots.txt的配置逻辑

机器人排除协议（Robots Exclusion Protocol）诞生于1994年，彼时机器人访问你网站的主要目的是为搜索引擎建立索引。这一假设已不再成立。AI爬虫访问你的网站有着根本不同的目的：训练大型语言模型、为实时AI搜索提供响应、生成内容摘要，以及构建可能永远不会将你的网站列为来源的知识库。

根据Cloudflare于2026年5月13日发布的机器人流量分析报告，受监控网站的AI爬虫流量在2024年1月至2026年4月间增长了340%。更值得关注的是，分析发现23%的已识别AI爬虫流量来自使用未在任何公开文档中列出的user-agent字符串的机器人——这意味着基于已知user-agent字符串的标准robots.txt配置会遗漏近四分之一的AI爬虫活动。

来源：Cloudflare，《AI机器人流量现状：2026年Q1分析》，发布于2026年5月13日。

340%

受监控网站AI爬虫流量增幅，2024年1月至2026年4月（Cloudflare，2026年5月）

14+

截至2026年5月已确认活跃的AI爬虫user-agent字符串数量，较2024年初的3种大幅增加

23%

AI爬虫流量使用未记录的user-agent字符串，绕过标准robots.txt规则

实际影响：在2026年，robots.txt是管理AI爬虫访问的必要但不充分的工具。它仍然是正确的第一道配置防线——大多数主要AI提供商已承诺遵守robots.txt指令——但必须结合服务器级别的速率限制、HTTP头部控制和服务条款执行，才能实现全面覆盖。

AI爬虫流量增长趋势 2024–2026

超过100万个受监控网站的月度AI爬虫请求量，展示340%的增长轨迹

图2 — AI爬虫流量增长2024至2026年图表 | 位置：「为什么AI爬虫改变了robots.txt的配置逻辑」章节下方

2026年AI爬虫User-Agent参考表

下表记录了截至2026年5月主要AI爬虫的已确认user-agent字符串，以及它们的合规行为和主要数据使用目的。在编写任何robots.txt配置之前，这是你需要参考的核心资料。

User-Agent字符串	提供商	主要用途	协议合规性
GPTBot	OpenAI	LLM训练数据采集	已确认
ChatGPT-User	OpenAI	ChatGPT实时浏览响应	已确认
ClaudeBot	Anthropic	LLM训练及Claude AI响应	已确认
anthropic-ai	Anthropic	Anthropic次级爬虫标识符	已确认
PerplexityBot	Perplexity AI	AI搜索索引与答案生成	已确认
Applebot-Extended	Apple	Apple Intelligence训练数据	已确认
Bytespider	字节跳动 / TikTok	LLM训练与内容分析	部分合规
cohere-ai	Cohere	企业级LLM训练	已确认
Meta-ExternalAgent	Meta AI	Meta AI助手数据采集	已确认
Diffbot	Diffbot	AI知识图谱结构化数据提取	部分合规
YouBot	You.com	AI搜索引擎索引	已确认
Amazonbot	Amazon	Alexa AI及Amazon LLM训练	已确认
ICC-Crawler	各AI研究机构	学术AI研究数据采集	未知
AI2Bot	艾伦人工智能研究所	开源AI研究数据集	已确认

来源：各提供商官方文档；Dark Visitors AI爬虫数据库，更新于2026年5月；Cloudflare机器人情报报告，2026年5月。

合规 ≠ 保证屏蔽

「已确认」合规意味着提供商已公开承诺遵守robots.txt指令，并在测试中得到验证。这并不意味着其爬虫的每个实例都会合规——尤其是当提供商使用第三方抓取基础设施，或其爬虫自上次合规验证以来已更新时。请将robots.txt视为强烈信号，而非绝对保证。

robots.txt语法：AI访问控制的关键指令

机器人排除协议使用一组简洁的指令。对于AI爬虫管理，有四个指令至关重要：User-agent、Disallow、Allow和Crawl-delay。理解它们的交互方式——尤其是优先级规则——对于编写行为符合预期的配置至关重要。

优先级规则：冲突如何解决

当多条规则可能适用于同一URL时，robots.txt使用两个原则解决冲突：

越具体越优先：更具体的规则覆盖不那么具体的规则。对于/blog/public/内的URL，Allow: /blog/public/会覆盖Disallow: /blog/。
特定user-agent块覆盖通配符块：针对具名user-agent的规则优先于该机器人的User-agent: *规则。拥有特定块的机器人不会继承通配符规则。

关键优先级误解

许多站长会先写一个通配符块，然后添加特定AI机器人块，期望AI机器人同时受两者约束。这是错误的。一旦机器人匹配到特定的User-agent块，它只遵循该块的规则——而不是通配符块。如果你希望AI机器人受到通配符屏蔽的所有内容加上额外路径的限制，你必须在该机器人的特定块中重复所有通配符规则。

八种配置场景与完整代码示例

以下场景涵盖了AI爬虫访问控制最常见的需求。每个场景都包含完整的、可直接复制使用的robots.txt代码块，并附有内联注释说明。

屏蔽所有AI训练爬虫，允许AI搜索爬虫

最常见需求

你希望内容出现在AI驱动的搜索结果中（Perplexity、You.com），但不希望内容被用于LLM训练数据集。这是最精细的配置——需要按用途而非提供商来区分爬虫。

robots.txt

# 屏蔽LLM训练爬虫
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: AI2Bot
Disallow: /

# 允许AI搜索爬虫（无Disallow = 完全访问）
User-agent: PerplexityBot
Allow: /

User-agent: YouBot
Allow: /

# 标准爬虫 — 完全访问
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.yourdomain.com/sitemap.xml

适用于：希望获得AI搜索曝光但不希望内容被用于训练数据的出版商、内容创作者和媒体网站

完全屏蔽所有AI爬虫

最大控制

你不希望任何AI爬虫访问——无论是用于训练还是AI搜索。适用于拥有专有数据、付费内容或对自动化数据采集有法律限制的网站。

robots.txt

# 屏蔽所有已知AI爬虫
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: AI2Bot
Disallow: /

# 标准搜索爬虫 — 完全访问
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.yourdomain.com/sitemap.xml

适用于：付费内容、专有数据库、有数据敏感性要求的法律/医疗网站

仅对AI爬虫保护特定目录

精准控制

你希望AI爬虫可以访问公开博客和营销页面，但不能访问用户生成内容、API端点或会员专属区域。标准搜索爬虫获得完全访问权限。

robots.txt

# 限制AI训练爬虫只能访问公开内容
User-agent: GPTBot
Disallow: /api/
Disallow: /members/
Disallow: /user-content/
Disallow: /private/
Allow: /blog/
Allow: /about/

User-agent: ClaudeBot
Disallow: /api/
Disallow: /members/
Disallow: /user-content/
Disallow: /private/
Allow: /blog/
Allow: /about/

# 所有其他机器人 — 仅标准限制
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /staging/

Sitemap: https://www.yourdomain.com/sitemap.xml

适用于：SaaS平台、社区网站以及拥有混合公开/私有内容的出版商

使用Crawl-delay对激进AI爬虫进行速率限制

服务器保护

某些AI爬虫——尤其是合规评级为「部分合规」的——抓取行为激进，可能影响服务器性能。Crawl-delay指令要求请求之间的最短等待时间。注意：Googlebot会忽略此指令；请使用Google Search Console管理Googlebot的抓取速率。

robots.txt

# 对激进爬虫进行速率限制
User-agent: Bytespider
Crawl-delay: 10
Disallow: /api/
Disallow: /user-content/

User-agent: Diffbot
Crawl-delay: 10
Disallow: /api/

# 标准爬虫 — 无延迟
User-agent: *
Disallow: /admin/

Sitemap: https://www.yourdomain.com/sitemap.xml

适用于：因激进AI爬虫导致服务器负载问题的网站；10秒延迟可将请求频率降低约90%

分步实施：配置你的robots.txt

审计当前AI爬虫流量

在编写任何规则之前，检查服务器访问日志中当前访问你网站的user-agent字符串。在上方参考表中查找这些字符串。这能告诉你哪些AI爬虫已经在活跃访问你的网站，以及它们的抓取频率——这决定了你配置的紧迫性和具体程度。

快速方法：在服务器日志中，筛选user-agent包含「bot」、「crawler」、「spider」或「AI」的请求。按频率排序，优先处理最活跃的爬虫。

为每类爬虫制定访问策略

在编写指令之前，为每类爬虫做出明确决策：(a) 完全访问，(b) 受限访问（屏蔽特定路径），或 (c) 禁止访问。你的策略应由内容的商业价值、服务条款以及对AI搜索曝光的需求共同决定。记录这一策略——当配置需要更新时你会用到它。

决策框架：如果内容价值来自被发现（媒体、营销），倾向于允许AI搜索爬虫。如果内容价值来自独占性（研究、付费数据），倾向于屏蔽所有AI爬虫。

使用正确的优先级逻辑编写配置

以上方场景为模板。始终将特定user-agent块列在通配符块之前。记住，特定user-agent块不会继承通配符规则——如果你希望AI机器人同时受到标准限制和额外AI专属限制，必须在AI机器人的特定块中包含所有相关的Disallow指令。

验证：编写配置后，使用Google Search Console的robots.txt测试工具验证每条规则对特定URL的行为是否符合预期。同时测试你希望屏蔽的URL和希望允许的URL。

部署到根目录并验证

robots.txt文件必须放置在域名根目录——yourdomain.com/robots.txt。不能放在子目录中。上传后，直接在浏览器中访问该URL验证其可访问性。文件应以纯文本形式显示，不含任何HTML格式。

常见错误：使用Windows换行符（CRLF）而非Unix换行符（LF）上传robots.txt，可能导致某些爬虫解析错误。使用允许指定换行格式的纯文本编辑器，或上传后用robots.txt验证工具检查。

添加Sitemap并安排季度审查

始终在robots.txt文件末尾包含你的sitemap URL。这有助于合规爬虫在特定路径被屏蔽时仍能发现你的内容结构。设置日历提醒，每季度审查一次AI爬虫配置——活跃AI爬虫列表及其user-agent字符串变化频繁，今天有效的配置三个月后可能已不完整。

监控资源：Dark Visitors项目（darkvisitors.com）维护着一个持续更新的AI爬虫user-agent字符串和合规行为数据库。订阅其更新日志，在发现新爬虫时接收通知。

AI爬虫robots.txt决策树

确定每种AI爬虫类型正确访问策略的流程图

图3 — AI爬虫访问策略决策树2026 | 位置：「分步实施」章节下方

robots.txt做不到什么：协议的局限性

了解robots.txt做不到什么，与了解如何配置它同样重要。以下三个局限性在2026年的AI爬虫管理中尤为相关。

它无法阻止不合规爬虫的访问。机器人排除协议是一项自愿标准。不遵守它的爬虫——包括许多抓取工具和一些合规评级为「部分合规」的AI爬虫——会直接忽略你的指令。对于这些爬虫，服务器级别的控制（IP封锁、速率限制、WAF规则）才是合适的工具。

它无法阻止AI使用已经采集的内容。如果AI爬虫在你添加屏蔽规则之前已经索引了你的内容，该内容可能已经进入训练数据集或知识库。robots.txt阻止未来的抓取；它不会追溯性地删除已采集的数据。要追溯性删除，你需要直接联系AI提供商——大多数主要提供商都有内容删除申请流程。

它无法区分同一user-agent字符串的合法与非法使用。任何爬虫都可以声称自己是Googlebot或GPTBot。验证声称是主要机器人的爬虫是否真的来自预期的IP范围——Google、OpenAI和Anthropic都公开发布了其爬虫IP范围。

互补控制手段

要实现全面的AI爬虫管理，请将robots.txt与以下手段结合使用：(1) HTTP响应头——X-Robots-Tag头部可将机器人指令应用于PDF等非HTML资源；(2) Meta robots标签——<meta name="robots" content="noai, noimageai">是一项新兴的页面级AI训练退出标准；(3) 服务条款——明确禁止AI训练数据采集，为执法提供法律依据。详见 [内部链接：X-Robots-Tag与Meta Robots：2026年完整指南]。

影响AI爬虫控制的五个常见robots.txt错误

依赖通配符屏蔽AI爬虫

使用User-agent: *加宽泛Disallow来屏蔽AI爬虫，同时也会屏蔽搜索引擎爬虫——这几乎从来不是你的本意。通配符适用于所有没有特定块的机器人，包括Googlebot和Bingbot（如果它们没有被明确列出Allow规则的话）。

修复：始终在通配符块之前或之后明确列出你的搜索引擎爬虫并设置Allow: /。特定user-agent块对这些机器人优先于通配符。

使用过时的AI爬虫列表

2024年初编写的、只包含3-4个AI user-agent字符串的robots.txt配置，现在至少遗漏了10个活跃爬虫。过时的配置会产生虚假的安全感——你以为屏蔽了AI爬虫，但实际上只屏蔽了编写文件时存在的那些。

修复：每季度审查并更新你的AI爬虫列表。以本指南中的参考表为起点，并与服务器日志交叉比对，识别列表中未包含的爬虫。

屏蔽AI爬虫访问CSS和JavaScript文件

一些站长屏蔽AI爬虫访问所有非HTML资源以减少数据暴露。这可能适得其反：你希望允许的AI搜索爬虫（如PerplexityBot）可能需要CSS和JavaScript才能正确渲染页面并理解内容结构。屏蔽这些资源可能导致在AI搜索结果中表现不佳甚至缺席。

修复：如果你希望获得AI搜索曝光，允许AI搜索爬虫访问CSS和JavaScript。仅对你完全屏蔽的AI训练爬虫应用资源屏蔽。

忘记添加Sitemap指令

没有Sitemap指令的robots.txt文件迫使爬虫只能通过链接跟踪来发现你的内容。对于你希望允许的AI搜索爬虫，这意味着对你内容的索引更慢、更不完整——尤其是对于尚未积累大量入站链接的新页面。

修复：始终在robots.txt文件末尾包含Sitemap: https://www.yourdomain.com/sitemap.xml。如果你有多个sitemap（新闻、图片、视频），每个单独列一行。

将robots.txt视为安全措施

最危险的错误：假设Disallow指令真的能阻止对敏感内容的访问。robots.txt是公开可读的——它告诉每个机器人（以及每个人类）你认为哪些路径是敏感的。恶意行为者可以将你的robots.txt当作地图，直接找到你最有价值或最脆弱的内容。

修复：永远不要依赖robots.txt来保护敏感内容。对于真正需要保护的内容，使用身份验证、访问控制和服务器级别的安全措施。robots.txt用于抓取管理，而非安全防护。

AI爬虫控制技术栈

robots.txt在分层AI爬虫管理方法中的位置

图4 — AI爬虫控制技术栈分层方法2026 | 位置：「五个常见错误」章节下方

常见问题解答

如果我屏蔽了GPTBot，我的内容还会出现在ChatGPT的回答中吗？

屏蔽GPTBot可以阻止OpenAI为未来的训练数据抓取你的网站，但不会删除在你添加屏蔽规则之前已经采集的内容。ChatGPT的回答来自截至模型知识截止日期所采集的训练数据——现在屏蔽GPTBot影响的是未来的训练运行，而非当前模型的知识。对于ChatGPT的实时浏览功能（使用ChatGPT-User agent），屏蔽该user-agent将阻止你的内容出现在实时浏览回答中。这是两个具有不同功能的独立user-agent字符串。

如何验证AI爬虫是否真的在遵守我的robots.txt？

最可靠的方法是在添加屏蔽规则后检查服务器访问日志。如果爬虫在合规，你应该在robots.txt更新后24-48小时内看到其对被屏蔽路径的请求停止（大多数爬虫会频繁重新获取robots.txt）。你也可以使用蜜罐页面——一个在robots.txt中被禁止但包含唯一追踪像素或URL的页面。来自被屏蔽爬虫的任何对该页面的请求都证实了不合规。根据Cloudflare于2026年5月13日发布的分析，主要AI提供商（OpenAI、Anthropic、Google、Perplexity）在受控测试中的合规率均超过95%。

我应该屏蔽AI爬虫访问我的sitemap吗？

不应该——这是一个常见的误解。你的sitemap是URL列表，而非内容本身。屏蔽AI爬虫访问sitemap并不能阻止它们通过其他方式（链接、直接抓取）发现这些URL。更重要的是，如果你希望AI搜索爬虫索引你的内容，它们需要访问sitemap才能高效发现内容。正确的做法是屏蔽AI爬虫访问你不希望被访问的内容路径，同时让sitemap对所有爬虫保持可访问。

屏蔽GPTBot和屏蔽ChatGPT-User有什么区别？

GPTBot是OpenAI的训练数据爬虫——它采集内容用于训练未来版本的GPT模型。屏蔽它可以防止你的内容被用于未来的训练数据集。ChatGPT-User是ChatGPT浏览功能在实时回答用户问题时访问你网站所使用的user-agent。屏蔽它可以防止你的内容出现在ChatGPT的实时回答中。大多数希望屏蔽OpenAI的站长应该同时屏蔽两者。如果你希望内容出现在ChatGPT回答中但不希望被用于训练数据，只屏蔽GPTBot并允许ChatGPT-User。

我应该多久更新一次针对AI爬虫的robots.txt？

对于主动管理AI爬虫访问的网站，季度审查是最低要求。AI爬虫格局变化迅速——新爬虫不断出现，现有爬虫更改user-agent字符串，合规行为也在演变。实用工作流程：(1) 订阅Dark Visitors更新日志，接收新爬虫通知；(2) 每月检查服务器日志中未识别的user-agent字符串；(3) 每季度对照当前参考表进行完整配置审计。对于拥有高价值内容或严格数据治理要求的网站，月度审查更为合适。详见 [内部链接：2026年如何审计你的技术SEO配置]。

Rafael Mora

技术SEO负责人 & 抓取架构专家 · 11年经验

Rafael专注于企业网站和数字出版商的抓取预算优化、机器人管理和技术SEO架构。他已为30多个行业的200多个网站审计过robots.txt配置，其AI爬虫管理框架已被月均有机访问量超过1000万的内容团队采用。他是W3C网络抓取社区组的贡献者。

由Rafael Mora撰写并审核。信息截至2026年5月15日。

Further reading: 2026 SEO · AI 2026 · LocalBusiness Schema AI · JSON-LD 2026 · Schema AI 1 900 LLM

查看该主题对应工具

2026年如何为AI爬虫配置robots.txt：完整技术指南

为什么AI爬虫改变了robots.txt的配置逻辑

2026年AI爬虫User-Agent参考表

robots.txt语法：AI访问控制的关键指令

优先级规则：冲突如何解决

八种配置场景与完整代码示例

分步实施：配置你的robots.txt

robots.txt做不到什么：协议的局限性

影响AI爬虫控制的五个常见robots.txt错误

常见问题解答

用我们的工具落地这个策略