technical-seo

2026年如何为AI爬虫配置robots.txt:完整技术指南

AI爬虫从根本上改变了robots.txt的配置方式。本2026年指南涵盖了管理传统搜索机器人和LLM爬虫所需的精确user-agent字符串、指令逻辑和访问策略。

Eden Clarke · · 4 min read

2026年如何为AI爬虫配置robots.txt:完整技术指南

你在2023年为Googlebot配置的robots.txt文件已经远远不够用了。目前已有至少14种不同的AI爬虫user-agent字符串活跃在网络中——每种都有不同的合规行为、抓取频率和数据使用目的。本指南为你提供管理传统搜索机器人和LLM爬虫的精确配置逻辑。

AI爬虫robots.txt配置图谱 — 2026
14种以上活跃AI爬虫的user-agent字符串、合规行为与指令逻辑
图示:2026年robots.txt AI爬虫配置指南 user-agent字符串
核心转变

传统robots.txt配置假设机器人只有两类:搜索引擎爬虫(你希望它来)和垃圾机器人(你不希望它来)。AI爬虫创造了第三类:数据采集机器人——它们可能遵守也可能不遵守你的指令,且其数据使用目的与索引有着根本性的不同。为这一新类别配置robots.txt,需要了解哪些AI爬虫处于活跃状态、它们使用哪些user-agent字符串,以及——最关键的——哪些爬虫实际上遵守机器人排除协议。

为什么AI爬虫改变了robots.txt的配置逻辑

机器人排除协议(Robots Exclusion Protocol)诞生于1994年,彼时机器人访问你网站的主要目的是为搜索引擎建立索引。这一假设已不再成立。AI爬虫访问你的网站有着根本不同的目的:训练大型语言模型、为实时AI搜索提供响应、生成内容摘要,以及构建可能永远不会将你的网站列为来源的知识库。

根据Cloudflare于2026年5月13日发布的机器人流量分析报告,受监控网站的AI爬虫流量在2024年1月至2026年4月间增长了340%。更值得关注的是,分析发现23%的已识别AI爬虫流量来自使用未在任何公开文档中列出的user-agent字符串的机器人——这意味着基于已知user-agent字符串的标准robots.txt配置会遗漏近四分之一的AI爬虫活动。

来源:Cloudflare,《AI机器人流量现状:2026年Q1分析》,发布于2026年5月13日。
340%
受监控网站AI爬虫流量增幅,2024年1月至2026年4月(Cloudflare,2026年5月)
14+
截至2026年5月已确认活跃的AI爬虫user-agent字符串数量,较2024年初的3种大幅增加
23%
AI爬虫流量使用未记录的user-agent字符串,绕过标准robots.txt规则

实际影响:在2026年,robots.txt是管理AI爬虫访问的必要但不充分的工具。它仍然是正确的第一道配置防线——大多数主要AI提供商已承诺遵守robots.txt指令——但必须结合服务器级别的速率限制、HTTP头部控制和服务条款执行,才能实现全面覆盖。

AI爬虫流量增长趋势 2024–2026
超过100万个受监控网站的月度AI爬虫请求量,展示340%的增长轨迹
图2 — AI爬虫流量增长2024至2026年图表 | 位置:「为什么AI爬虫改变了robots.txt的配置逻辑」章节下方

2026年AI爬虫User-Agent参考表

下表记录了截至2026年5月主要AI爬虫的已确认user-agent字符串,以及它们的合规行为和主要数据使用目的。在编写任何robots.txt配置之前,这是你需要参考的核心资料。

User-Agent字符串 提供商 主要用途 协议合规性
GPTBot OpenAI LLM训练数据采集 已确认
ChatGPT-User OpenAI ChatGPT实时浏览响应 已确认
ClaudeBot Anthropic LLM训练及Claude AI响应 已确认
anthropic-ai Anthropic Anthropic次级爬虫标识符 已确认
PerplexityBot Perplexity AI AI搜索索引与答案生成 已确认
Applebot-Extended Apple Apple Intelligence训练数据 已确认
Bytespider 字节跳动 / TikTok LLM训练与内容分析 部分合规
cohere-ai Cohere 企业级LLM训练 已确认
Meta-ExternalAgent Meta AI Meta AI助手数据采集 已确认
Diffbot Diffbot AI知识图谱结构化数据提取 部分合规
YouBot You.com AI搜索引擎索引 已确认
Amazonbot Amazon Alexa AI及Amazon LLM训练 已确认
ICC-Crawler 各AI研究机构 学术AI研究数据采集 未知
AI2Bot 艾伦人工智能研究所 开源AI研究数据集 已确认
来源:各提供商官方文档;Dark Visitors AI爬虫数据库,更新于2026年5月;Cloudflare机器人情报报告,2026年5月。
合规 ≠ 保证屏蔽
「已确认」合规意味着提供商已公开承诺遵守robots.txt指令,并在测试中得到验证。这并不意味着其爬虫的每个实例都会合规——尤其是当提供商使用第三方抓取基础设施,或其爬虫自上次合规验证以来已更新时。请将robots.txt视为强烈信号,而非绝对保证。

robots.txt语法:AI访问控制的关键指令

机器人排除协议使用一组简洁的指令。对于AI爬虫管理,有四个指令至关重要:User-agentDisallowAllowCrawl-delay。理解它们的交互方式——尤其是优先级规则——对于编写行为符合预期的配置至关重要。

优先级规则:冲突如何解决

当多条规则可能适用于同一URL时,robots.txt使用两个原则解决冲突:

  • 越具体越优先:更具体的规则覆盖不那么具体的规则。对于/blog/public/内的URL,Allow: /blog/public/会覆盖Disallow: /blog/
  • 特定user-agent块覆盖通配符块:针对具名user-agent的规则优先于该机器人的User-agent: *规则。拥有特定块的机器人不会继承通配符规则。
关键优先级误解
许多站长会先写一个通配符块,然后添加特定AI机器人块,期望AI机器人同时受两者约束。这是错误的。一旦机器人匹配到特定的User-agent块,它只遵循该块的规则——而不是通配符块。如果你希望AI机器人受到通配符屏蔽的所有内容加上额外路径的限制,你必须在该机器人的特定块中重复所有通配符规则。

八种配置场景与完整代码示例

以下场景涵盖了AI爬虫访问控制最常见的需求。每个场景都包含完整的、可直接复制使用的robots.txt代码块,并附有内联注释说明。

1
屏蔽所有AI训练爬虫,允许AI搜索爬虫
最常见需求
你希望内容出现在AI驱动的搜索结果中(Perplexity、You.com),但不希望内容被用于LLM训练数据集。这是最精细的配置——需要按用途而非提供商来区分爬虫。
robots.txt
# 屏蔽LLM训练爬虫
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: AI2Bot
Disallow: /

# 允许AI搜索爬虫(无Disallow = 完全访问)
User-agent: PerplexityBot
Allow: /

User-agent: YouBot
Allow: /

# 标准爬虫 — 完全访问
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.yourdomain.com/sitemap.xml
适用于:希望获得AI搜索曝光但不希望内容被用于训练数据的出版商、内容创作者和媒体网站
2
完全屏蔽所有AI爬虫
最大控制
你不希望任何AI爬虫访问——无论是用于训练还是AI搜索。适用于拥有专有数据、付费内容或对自动化数据采集有法律限制的网站。
robots.txt
# 屏蔽所有已知AI爬虫
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: AI2Bot
Disallow: /

# 标准搜索爬虫 — 完全访问
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.yourdomain.com/sitemap.xml
适用于:付费内容、专有数据库、有数据敏感性要求的法律/医疗网站
3
仅对AI爬虫保护特定目录
精准控制
你希望AI爬虫可以访问公开博客和营销页面,但不能访问用户生成内容、API端点或会员专属区域。标准搜索爬虫获得完全访问权限。
robots.txt
# 限制AI训练爬虫只能访问公开内容
User-agent: GPTBot
Disallow: /api/
Disallow: /members/
Disallow: /user-content/
Disallow: /private/
Allow: /blog/
Allow: /about/

User-agent: ClaudeBot
Disallow: /api/
Disallow: /members/
Disallow: /user-content/
Disallow: /private/
Allow: /blog/
Allow: /about/

# 所有其他机器人 — 仅标准限制
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /staging/

Sitemap: https://www.yourdomain.com/sitemap.xml
适用于:SaaS平台、社区网站以及拥有混合公开/私有内容的出版商
4
使用Crawl-delay对激进AI爬虫进行速率限制
服务器保护
某些AI爬虫——尤其是合规评级为「部分合规」的——抓取行为激进,可能影响服务器性能。Crawl-delay指令要求请求之间的最短等待时间。注意:Googlebot会忽略此指令;请使用Google Search Console管理Googlebot的抓取速率。
robots.txt
# 对激进爬虫进行速率限制
User-agent: Bytespider
Crawl-delay: 10
Disallow: /api/
Disallow: /user-content/

User-agent: Diffbot
Crawl-delay: 10
Disallow: /api/

# 标准爬虫 — 无延迟
User-agent: *
Disallow: /admin/

Sitemap: https://www.yourdomain.com/sitemap.xml
适用于:因激进AI爬虫导致服务器负载问题的网站;10秒延迟可将请求频率降低约90%

分步实施:配置你的robots.txt

1
审计当前AI爬虫流量
在编写任何规则之前,检查服务器访问日志中当前访问你网站的user-agent字符串。在上方参考表中查找这些字符串。这能告诉你哪些AI爬虫已经在活跃访问你的网站,以及它们的抓取频率——这决定了你配置的紧迫性和具体程度。
快速方法:在服务器日志中,筛选user-agent包含「bot」、「crawler」、「spider」或「AI」的请求。按频率排序,优先处理最活跃的爬虫。
2
为每类爬虫制定访问策略
在编写指令之前,为每类爬虫做出明确决策:(a) 完全访问,(b) 受限访问(屏蔽特定路径),或 (c) 禁止访问。你的策略应由内容的商业价值、服务条款以及对AI搜索曝光的需求共同决定。记录这一策略——当配置需要更新时你会用到它。
决策框架:如果内容价值来自被发现(媒体、营销),倾向于允许AI搜索爬虫。如果内容价值来自独占性(研究、付费数据),倾向于屏蔽所有AI爬虫。
3
使用正确的优先级逻辑编写配置
以上方场景为模板。始终将特定user-agent块列在通配符块之前。记住,特定user-agent块不会继承通配符规则——如果你希望AI机器人同时受到标准限制和额外AI专属限制,必须在AI机器人的特定块中包含所有相关的Disallow指令。
验证:编写配置后,使用Google Search Console的robots.txt测试工具验证每条规则对特定URL的行为是否符合预期。同时测试你希望屏蔽的URL和希望允许的URL。
4
部署到根目录并验证
robots.txt文件必须放置在域名根目录——yourdomain.com/robots.txt。不能放在子目录中。上传后,直接在浏览器中访问该URL验证其可访问性。文件应以纯文本形式显示,不含任何HTML格式。
常见错误:使用Windows换行符(CRLF)而非Unix换行符(LF)上传robots.txt,可能导致某些爬虫解析错误。使用允许指定换行格式的纯文本编辑器,或上传后用robots.txt验证工具检查。
5
添加Sitemap并安排季度审查
始终在robots.txt文件末尾包含你的sitemap URL。这有助于合规爬虫在特定路径被屏蔽时仍能发现你的内容结构。设置日历提醒,每季度审查一次AI爬虫配置——活跃AI爬虫列表及其user-agent字符串变化频繁,今天有效的配置三个月后可能已不完整。
监控资源:Dark Visitors项目(darkvisitors.com)维护着一个持续更新的AI爬虫user-agent字符串和合规行为数据库。订阅其更新日志,在发现新爬虫时接收通知。
AI爬虫robots.txt决策树
确定每种AI爬虫类型正确访问策略的流程图
图3 — AI爬虫访问策略决策树2026 | 位置:「分步实施」章节下方

robots.txt做不到什么:协议的局限性

了解robots.txt做不到什么,与了解如何配置它同样重要。以下三个局限性在2026年的AI爬虫管理中尤为相关。

它无法阻止不合规爬虫的访问。机器人排除协议是一项自愿标准。不遵守它的爬虫——包括许多抓取工具和一些合规评级为「部分合规」的AI爬虫——会直接忽略你的指令。对于这些爬虫,服务器级别的控制(IP封锁、速率限制、WAF规则)才是合适的工具。

它无法阻止AI使用已经采集的内容。如果AI爬虫在你添加屏蔽规则之前已经索引了你的内容,该内容可能已经进入训练数据集或知识库。robots.txt阻止未来的抓取;它不会追溯性地删除已采集的数据。要追溯性删除,你需要直接联系AI提供商——大多数主要提供商都有内容删除申请流程。

它无法区分同一user-agent字符串的合法与非法使用。任何爬虫都可以声称自己是GooglebotGPTBot。验证声称是主要机器人的爬虫是否真的来自预期的IP范围——Google、OpenAI和Anthropic都公开发布了其爬虫IP范围。

互补控制手段
要实现全面的AI爬虫管理,请将robots.txt与以下手段结合使用:(1) HTTP响应头——X-Robots-Tag头部可将机器人指令应用于PDF等非HTML资源;(2) Meta robots标签——<meta name="robots" content="noai, noimageai">是一项新兴的页面级AI训练退出标准;(3) 服务条款——明确禁止AI训练数据采集,为执法提供法律依据。详见 [内部链接:X-Robots-Tag与Meta Robots:2026年完整指南]

影响AI爬虫控制的五个常见robots.txt错误

依赖通配符屏蔽AI爬虫
使用User-agent: *加宽泛Disallow来屏蔽AI爬虫,同时也会屏蔽搜索引擎爬虫——这几乎从来不是你的本意。通配符适用于所有没有特定块的机器人,包括Googlebot和Bingbot(如果它们没有被明确列出Allow规则的话)。
修复:始终在通配符块之前或之后明确列出你的搜索引擎爬虫并设置Allow: /。特定user-agent块对这些机器人优先于通配符。
使用过时的AI爬虫列表
2024年初编写的、只包含3-4个AI user-agent字符串的robots.txt配置,现在至少遗漏了10个活跃爬虫。过时的配置会产生虚假的安全感——你以为屏蔽了AI爬虫,但实际上只屏蔽了编写文件时存在的那些。
修复:每季度审查并更新你的AI爬虫列表。以本指南中的参考表为起点,并与服务器日志交叉比对,识别列表中未包含的爬虫。
屏蔽AI爬虫访问CSS和JavaScript文件
一些站长屏蔽AI爬虫访问所有非HTML资源以减少数据暴露。这可能适得其反:你希望允许的AI搜索爬虫(如PerplexityBot)可能需要CSS和JavaScript才能正确渲染页面并理解内容结构。屏蔽这些资源可能导致在AI搜索结果中表现不佳甚至缺席。
修复:如果你希望获得AI搜索曝光,允许AI搜索爬虫访问CSS和JavaScript。仅对你完全屏蔽的AI训练爬虫应用资源屏蔽。
忘记添加Sitemap指令
没有Sitemap指令的robots.txt文件迫使爬虫只能通过链接跟踪来发现你的内容。对于你希望允许的AI搜索爬虫,这意味着对你内容的索引更慢、更不完整——尤其是对于尚未积累大量入站链接的新页面。
修复:始终在robots.txt文件末尾包含Sitemap: https://www.yourdomain.com/sitemap.xml。如果你有多个sitemap(新闻、图片、视频),每个单独列一行。
将robots.txt视为安全措施
最危险的错误:假设Disallow指令真的能阻止对敏感内容的访问。robots.txt是公开可读的——它告诉每个机器人(以及每个人类)你认为哪些路径是敏感的。恶意行为者可以将你的robots.txt当作地图,直接找到你最有价值或最脆弱的内容。
修复:永远不要依赖robots.txt来保护敏感内容。对于真正需要保护的内容,使用身份验证、访问控制和服务器级别的安全措施。robots.txt用于抓取管理,而非安全防护。
AI爬虫控制技术栈
robots.txt在分层AI爬虫管理方法中的位置
图4 — AI爬虫控制技术栈分层方法2026 | 位置:「五个常见错误」章节下方

常见问题解答

如果我屏蔽了GPTBot,我的内容还会出现在ChatGPT的回答中吗?
屏蔽GPTBot可以阻止OpenAI为未来的训练数据抓取你的网站,但不会删除在你添加屏蔽规则之前已经采集的内容。ChatGPT的回答来自截至模型知识截止日期所采集的训练数据——现在屏蔽GPTBot影响的是未来的训练运行,而非当前模型的知识。对于ChatGPT的实时浏览功能(使用ChatGPT-User agent),屏蔽该user-agent将阻止你的内容出现在实时浏览回答中。这是两个具有不同功能的独立user-agent字符串。
如何验证AI爬虫是否真的在遵守我的robots.txt?
最可靠的方法是在添加屏蔽规则后检查服务器访问日志。如果爬虫在合规,你应该在robots.txt更新后24-48小时内看到其对被屏蔽路径的请求停止(大多数爬虫会频繁重新获取robots.txt)。你也可以使用蜜罐页面——一个在robots.txt中被禁止但包含唯一追踪像素或URL的页面。来自被屏蔽爬虫的任何对该页面的请求都证实了不合规。根据Cloudflare于2026年5月13日发布的分析,主要AI提供商(OpenAI、Anthropic、Google、Perplexity)在受控测试中的合规率均超过95%。
我应该屏蔽AI爬虫访问我的sitemap吗?
不应该——这是一个常见的误解。你的sitemap是URL列表,而非内容本身。屏蔽AI爬虫访问sitemap并不能阻止它们通过其他方式(链接、直接抓取)发现这些URL。更重要的是,如果你希望AI搜索爬虫索引你的内容,它们需要访问sitemap才能高效发现内容。正确的做法是屏蔽AI爬虫访问你不希望被访问的内容路径,同时让sitemap对所有爬虫保持可访问。
屏蔽GPTBot和屏蔽ChatGPT-User有什么区别?
GPTBot是OpenAI的训练数据爬虫——它采集内容用于训练未来版本的GPT模型。屏蔽它可以防止你的内容被用于未来的训练数据集。ChatGPT-User是ChatGPT浏览功能在实时回答用户问题时访问你网站所使用的user-agent。屏蔽它可以防止你的内容出现在ChatGPT的实时回答中。大多数希望屏蔽OpenAI的站长应该同时屏蔽两者。如果你希望内容出现在ChatGPT回答中但不希望被用于训练数据,只屏蔽GPTBot并允许ChatGPT-User。
我应该多久更新一次针对AI爬虫的robots.txt?
对于主动管理AI爬虫访问的网站,季度审查是最低要求。AI爬虫格局变化迅速——新爬虫不断出现,现有爬虫更改user-agent字符串,合规行为也在演变。实用工作流程:(1) 订阅Dark Visitors更新日志,接收新爬虫通知;(2) 每月检查服务器日志中未识别的user-agent字符串;(3) 每季度对照当前参考表进行完整配置审计。对于拥有高价值内容或严格数据治理要求的网站,月度审查更为合适。详见 [内部链接:2026年如何审计你的技术SEO配置]
RM
Rafael Mora
技术SEO负责人 & 抓取架构专家 · 11年经验
Rafael专注于企业网站和数字出版商的抓取预算优化、机器人管理和技术SEO架构。他已为30多个行业的200多个网站审计过robots.txt配置,其AI爬虫管理框架已被月均有机访问量超过1000万的内容团队采用。他是W3C网络抓取社区组的贡献者。
由Rafael Mora撰写并审核。信息截至2026年5月15日

Further reading: 2026 · AI YouTube · 2026 10 Google Ads · SEO YMYL 2026 · 2026 AI robots txt

查看该主题对应工具

用我们的工具落地这个策略

  • 将当前主题快速转成结构化草稿,并对齐搜索意图。
  • 生成可发布的内容模块,保持 SEO 友好结构。