2026年如何为AI爬虫配置robots.txt:完整技术指南
你在2023年为Googlebot配置的robots.txt文件已经远远不够用了。目前已有至少14种不同的AI爬虫user-agent字符串活跃在网络中——每种都有不同的合规行为、抓取频率和数据使用目的。本指南为你提供管理传统搜索机器人和LLM爬虫的精确配置逻辑。
传统robots.txt配置假设机器人只有两类:搜索引擎爬虫(你希望它来)和垃圾机器人(你不希望它来)。AI爬虫创造了第三类:数据采集机器人——它们可能遵守也可能不遵守你的指令,且其数据使用目的与索引有着根本性的不同。为这一新类别配置robots.txt,需要了解哪些AI爬虫处于活跃状态、它们使用哪些user-agent字符串,以及——最关键的——哪些爬虫实际上遵守机器人排除协议。
为什么AI爬虫改变了robots.txt的配置逻辑
机器人排除协议(Robots Exclusion Protocol)诞生于1994年,彼时机器人访问你网站的主要目的是为搜索引擎建立索引。这一假设已不再成立。AI爬虫访问你的网站有着根本不同的目的:训练大型语言模型、为实时AI搜索提供响应、生成内容摘要,以及构建可能永远不会将你的网站列为来源的知识库。
根据Cloudflare于2026年5月13日发布的机器人流量分析报告,受监控网站的AI爬虫流量在2024年1月至2026年4月间增长了340%。更值得关注的是,分析发现23%的已识别AI爬虫流量来自使用未在任何公开文档中列出的user-agent字符串的机器人——这意味着基于已知user-agent字符串的标准robots.txt配置会遗漏近四分之一的AI爬虫活动。
来源:Cloudflare,《AI机器人流量现状:2026年Q1分析》,发布于2026年5月13日。实际影响:在2026年,robots.txt是管理AI爬虫访问的必要但不充分的工具。它仍然是正确的第一道配置防线——大多数主要AI提供商已承诺遵守robots.txt指令——但必须结合服务器级别的速率限制、HTTP头部控制和服务条款执行,才能实现全面覆盖。
2026年AI爬虫User-Agent参考表
下表记录了截至2026年5月主要AI爬虫的已确认user-agent字符串,以及它们的合规行为和主要数据使用目的。在编写任何robots.txt配置之前,这是你需要参考的核心资料。
| User-Agent字符串 | 提供商 | 主要用途 | 协议合规性 |
|---|---|---|---|
| GPTBot | OpenAI | LLM训练数据采集 | 已确认 |
| ChatGPT-User | OpenAI | ChatGPT实时浏览响应 | 已确认 |
| ClaudeBot | Anthropic | LLM训练及Claude AI响应 | 已确认 |
| anthropic-ai | Anthropic | Anthropic次级爬虫标识符 | 已确认 |
| PerplexityBot | Perplexity AI | AI搜索索引与答案生成 | 已确认 |
| Applebot-Extended | Apple | Apple Intelligence训练数据 | 已确认 |
| Bytespider | 字节跳动 / TikTok | LLM训练与内容分析 | 部分合规 |
| cohere-ai | Cohere | 企业级LLM训练 | 已确认 |
| Meta-ExternalAgent | Meta AI | Meta AI助手数据采集 | 已确认 |
| Diffbot | Diffbot | AI知识图谱结构化数据提取 | 部分合规 |
| YouBot | You.com | AI搜索引擎索引 | 已确认 |
| Amazonbot | Amazon | Alexa AI及Amazon LLM训练 | 已确认 |
| ICC-Crawler | 各AI研究机构 | 学术AI研究数据采集 | 未知 |
| AI2Bot | 艾伦人工智能研究所 | 开源AI研究数据集 | 已确认 |
robots.txt语法:AI访问控制的关键指令
机器人排除协议使用一组简洁的指令。对于AI爬虫管理,有四个指令至关重要:User-agent、Disallow、Allow和Crawl-delay。理解它们的交互方式——尤其是优先级规则——对于编写行为符合预期的配置至关重要。
优先级规则:冲突如何解决
当多条规则可能适用于同一URL时,robots.txt使用两个原则解决冲突:
- 越具体越优先:更具体的规则覆盖不那么具体的规则。对于
/blog/public/内的URL,Allow: /blog/public/会覆盖Disallow: /blog/。 - 特定user-agent块覆盖通配符块:针对具名user-agent的规则优先于该机器人的
User-agent: *规则。拥有特定块的机器人不会继承通配符规则。
User-agent块,它只遵循该块的规则——而不是通配符块。如果你希望AI机器人受到通配符屏蔽的所有内容加上额外路径的限制,你必须在该机器人的特定块中重复所有通配符规则。八种配置场景与完整代码示例
以下场景涵盖了AI爬虫访问控制最常见的需求。每个场景都包含完整的、可直接复制使用的robots.txt代码块,并附有内联注释说明。
# 屏蔽LLM训练爬虫 User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: cohere-ai Disallow: / User-agent: AI2Bot Disallow: / # 允许AI搜索爬虫(无Disallow = 完全访问) User-agent: PerplexityBot Allow: / User-agent: YouBot Allow: / # 标准爬虫 — 完全访问 User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://www.yourdomain.com/sitemap.xml
# 屏蔽所有已知AI爬虫 User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: Bytespider Disallow: / User-agent: cohere-ai Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Diffbot Disallow: / User-agent: YouBot Disallow: / User-agent: Amazonbot Disallow: / User-agent: AI2Bot Disallow: / # 标准搜索爬虫 — 完全访问 User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://www.yourdomain.com/sitemap.xml
# 限制AI训练爬虫只能访问公开内容 User-agent: GPTBot Disallow: /api/ Disallow: /members/ Disallow: /user-content/ Disallow: /private/ Allow: /blog/ Allow: /about/ User-agent: ClaudeBot Disallow: /api/ Disallow: /members/ Disallow: /user-content/ Disallow: /private/ Allow: /blog/ Allow: /about/ # 所有其他机器人 — 仅标准限制 User-agent: * Disallow: /admin/ Disallow: /private/ Disallow: /staging/ Sitemap: https://www.yourdomain.com/sitemap.xml
Crawl-delay指令要求请求之间的最短等待时间。注意:Googlebot会忽略此指令;请使用Google Search Console管理Googlebot的抓取速率。# 对激进爬虫进行速率限制 User-agent: Bytespider Crawl-delay: 10 Disallow: /api/ Disallow: /user-content/ User-agent: Diffbot Crawl-delay: 10 Disallow: /api/ # 标准爬虫 — 无延迟 User-agent: * Disallow: /admin/ Sitemap: https://www.yourdomain.com/sitemap.xml
分步实施:配置你的robots.txt
yourdomain.com/robots.txt。不能放在子目录中。上传后,直接在浏览器中访问该URL验证其可访问性。文件应以纯文本形式显示,不含任何HTML格式。robots.txt做不到什么:协议的局限性
了解robots.txt做不到什么,与了解如何配置它同样重要。以下三个局限性在2026年的AI爬虫管理中尤为相关。
它无法阻止不合规爬虫的访问。机器人排除协议是一项自愿标准。不遵守它的爬虫——包括许多抓取工具和一些合规评级为「部分合规」的AI爬虫——会直接忽略你的指令。对于这些爬虫,服务器级别的控制(IP封锁、速率限制、WAF规则)才是合适的工具。
它无法阻止AI使用已经采集的内容。如果AI爬虫在你添加屏蔽规则之前已经索引了你的内容,该内容可能已经进入训练数据集或知识库。robots.txt阻止未来的抓取;它不会追溯性地删除已采集的数据。要追溯性删除,你需要直接联系AI提供商——大多数主要提供商都有内容删除申请流程。
它无法区分同一user-agent字符串的合法与非法使用。任何爬虫都可以声称自己是Googlebot或GPTBot。验证声称是主要机器人的爬虫是否真的来自预期的IP范围——Google、OpenAI和Anthropic都公开发布了其爬虫IP范围。
X-Robots-Tag头部可将机器人指令应用于PDF等非HTML资源;(2) Meta robots标签——<meta name="robots" content="noai, noimageai">是一项新兴的页面级AI训练退出标准;(3) 服务条款——明确禁止AI训练数据采集,为执法提供法律依据。详见 [内部链接:X-Robots-Tag与Meta Robots:2026年完整指南]。影响AI爬虫控制的五个常见robots.txt错误
User-agent: *加宽泛Disallow来屏蔽AI爬虫,同时也会屏蔽搜索引擎爬虫——这几乎从来不是你的本意。通配符适用于所有没有特定块的机器人,包括Googlebot和Bingbot(如果它们没有被明确列出Allow规则的话)。Allow: /。特定user-agent块对这些机器人优先于通配符。Sitemap: https://www.yourdomain.com/sitemap.xml。如果你有多个sitemap(新闻、图片、视频),每个单独列一行。常见问题解答
Further reading: 2026 · AI YouTube · 2026 10 Google Ads · SEO YMYL 2026 · 2026 AI robots txt