點樣為AI爬蟲配置robots.txt?2026年完整指南
AI爬蟲已經從少數幾個變成超過14個活躍嘅用戶代理——每個都有唔同嘅目的同合規行為。呢個指南提供你需要嘅確切配置,附帶完整代碼示例,以及點解大多數現有配置已經過時嘅解釋。
robots.txt通過用戶代理字符串控制AI爬蟲訪問。關鍵係區分訓練數據爬蟲(GPTBot、ClaudeBot)同AI搜索爬蟲(PerplexityBot)——佢哋有唔同嘅目的,你可能想要唔同地對待它們。大多數2024年之前寫嘅配置已經遺漏咗至少10個而家活躍嘅AI爬蟲。
點解AI爬蟲改變咗robots.txt管理
機器人排除協議(REP)自1994年以來基本上冇變化。但係AI爬蟲嘅激增——以及佢哋嘅目的同傳統搜索引擎爬蟲根本唔同——創造咗一個新嘅管理挑戰,現有嘅robots.txt最佳實踐冇有解決。
根據Cloudflare 2026年5月13日發佈嘅分析,AI爬蟲而家佔所有機器人流量嘅38%,比2024年初嘅12%大幅上升。更重要嘅係,呢個流量係由具有根本唔同目的嘅爬蟲組成:一些係為LLM訓練數據集收集內容,一些係為AI驅動嘅搜索結果提供實時索引,一些係為用戶查詢提供即時瀏覽。
資料來源:Cloudflare,「2026年機器人流量分析:AI爬蟲嘅崛起」,2026年5月13日發佈。2026年AI爬蟲用戶代理完整參考表
以下表格涵蓋截至2026年5月所有已識別嘅活躍AI爬蟲。合規狀態基於提供商文檔同獨立測試。
| 用戶代理 | 提供商 | 主要用途 | REP合規 |
|---|---|---|---|
| GPTBot | OpenAI | GPT模型訓練數據 | 已確認 |
| ChatGPT-User | OpenAI | ChatGPT實時瀏覽功能 | 已確認 |
| ClaudeBot | Anthropic | Claude模型訓練數據 | 已確認 |
| anthropic-ai | Anthropic | Anthropic AI研究爬蟲 | 已確認 |
| PerplexityBot | Perplexity AI | AI搜索索引 | 已確認 |
| Applebot-Extended | Apple | Apple Intelligence訓練數據 | 已確認 |
| Bytespider | ByteDance | AI訓練數據(TikTok母公司) | 部分合規 |
| cohere-ai | Cohere | Cohere LLM訓練數據 | 已確認 |
| Meta-ExternalAgent | Meta | Meta AI模型訓練數據 | 已確認 |
| Diffbot | Diffbot | AI知識圖譜數據收集 | 部分合規 |
| YouBot | You.com | AI搜索索引 | 已確認 |
| Amazonbot | Amazon | Alexa AI訓練數據 | 已確認 |
| ICC-Crawler | 各AI研究機構 | 學術AI研究數據收集 | 未知 |
| AI2Bot | Allen Institute for AI | 開源AI研究數據集 | 已確認 |
robots.txt語法:AI訪問控制嘅關鍵指令
機器人排除協議使用一小組指令。對於AI爬蟲管理,四個指令係相關嘅:User-agent、Disallow、Allow同Crawl-delay。了解它們如何相互作用——特別係優先級規則——對於寫出按預期行為嘅配置至關重要。
優先級規則:衝突如何解決
當多個規則可以應用於單個URL時,robots.txt使用兩個原則解決衝突:
- 具體性優先:更具體嘅規則覆蓋較不具體嘅規則。
Allow: /blog/public/覆蓋Disallow: /blog/對/blog/public/內URL嘅規則。 - 特定用戶代理塊覆蓋通配符塊:命名用戶代理嘅規則優先於該機器人嘅
User-agent: *規則。有特定塊嘅機器人唔繼承通配符規則。
User-agent塊,它只遵循該塊嘅規則——而唔係通配符塊。如果你想讓AI機器人被通配符屏蔽嘅所有內容加上額外路徑屏蔽,你必須在特定機器人嘅塊中重複所有通配符規則。八個配置場景及完整代碼示例
以下場景涵蓋AI爬蟲最常見嘅訪問控制需求。每個都包含一個完整嘅、可直接複製嘅robots.txt塊。
# 屏蔽LLM訓練爬蟲 User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: cohere-ai Disallow: / User-agent: AI2Bot Disallow: / # 允許AI搜索爬蟲(無Disallow = 完全訪問) User-agent: PerplexityBot Allow: / User-agent: YouBot Allow: / # 標準爬蟲 — 完全訪問 User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://www.yourdomain.com/sitemap.xml
# 屏蔽所有已知AI爬蟲 User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: Bytespider Disallow: / User-agent: cohere-ai Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Diffbot Disallow: / User-agent: YouBot Disallow: / User-agent: Amazonbot Disallow: / User-agent: AI2Bot Disallow: / # 標準搜索爬蟲 — 完全訪問 User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / Sitemap: https://www.yourdomain.com/sitemap.xml
# 限制AI訓練爬蟲只訪問公開內容 User-agent: GPTBot Disallow: /api/ Disallow: /members/ Disallow: /user-content/ Disallow: /private/ Allow: /blog/ Allow: /about/ User-agent: ClaudeBot Disallow: /api/ Disallow: /members/ Disallow: /user-content/ Disallow: /private/ Allow: /blog/ Allow: /about/ # 所有其他機器人 — 只有標準限制 User-agent: * Disallow: /admin/ Disallow: /private/ Disallow: /staging/ Sitemap: https://www.yourdomain.com/sitemap.xml
Crawl-delay指令請求請求之間嘅最短等待時間。注意:Googlebot忽略呢個指令;改用Google Search Console管理Googlebot爬取速率。# 限制激進爬蟲嘅速率 User-agent: Bytespider Crawl-delay: 10 Disallow: /api/ Disallow: /user-content/ User-agent: Diffbot Crawl-delay: 10 Disallow: /api/ # 標準爬蟲 — 無延遲 User-agent: * Disallow: /admin/ Sitemap: https://www.yourdomain.com/sitemap.xml
逐步實施你嘅robots.txt配置
yourdomain.com/robots.txt。它唔能放置喺子目錄中。上傳後,通過直接喺瀏覽器中訪問URL來驗證它係可訪問嘅。文件應該顯示為純文本,冇HTML格式。robots.txt做唔到嘅事:協議嘅限制
了解robots.txt做唔到咩同了解點樣配置它一樣重要。三個限制對2026年嘅AI爬蟲管理特別相關。
它唔能阻止不合規爬蟲嘅訪問。機器人排除協議係一個自願標準。唔遵守它嘅爬蟲——包括許多抓取器同一些部分合規評級嘅AI爬蟲——會簡單地忽略你嘅指令。對於呢些爬蟲,服務器級別嘅控制(IP屏蔽、速率限制、WAF規則)係適當嘅工具。
它唔能阻止AI使用它已經收集嘅內容。如果AI爬蟲喺你添加屏蔽規則之前索引咗你嘅內容,該內容可能已經喺訓練數據集或知識庫中。robots.txt阻止未來嘅爬取;它唔會追溯性地刪除之前收集嘅數據。對於追溯性刪除,你需要直接聯繫AI提供商——大多數主要提供商都有內容刪除請求流程。
它唔能區分同一用戶代理字符串嘅合法同非法使用。任何爬蟲都可以聲稱係Googlebot或GPTBot。驗證聲稱係主要機器人嘅爬蟲實際上係來自預期嘅IP範圍——Google、OpenAI同Anthropic都公開發佈佢哋嘅爬蟲IP範圍。
X-Robots-Tag標頭將機器人指令應用於PDF等非HTML資源;(2)Meta robots標籤——<meta name="robots" content="noai, noimageai">係頁面級AI訓練退出嘅新興標準;(3)服務條款——明確禁止AI訓練數據收集為執法創造法律依據。請參閱 [內部連結:X-Robots-Tag同Meta Robots:2026年完整指南] 以獲取實施細節。五個影響AI爬蟲控制嘅常見robots.txt錯誤
User-agent: *加廣泛Disallow屏蔽AI爬蟲,同時亦屏蔽咗搜索引擎爬蟲——呢幾乎從來唔係意圖。通配符適用於每個冇特定塊嘅機器人,包括Googlebot同Bingbot,如果它們冇被明確列出Allow規則嘅話。Allow: /。特定用戶代理塊對那些機器人優先於通配符。Sitemap: https://www.yourdomain.com/sitemap.xml。如果你有多個sitemap(新聞、圖片、視頻),每個單獨列在一行。常見問題
Further reading: 2026 · 2026 · AI YouTube · 2026 10 Google Ads · SEO 2026 YMYL