技術SEO

點樣為AI爬蟲配置robots.txt？2026年完整指南

AI爬蟲已經從少數幾個變成超過14個活躍嘅用戶代理——每個都有唔同嘅目的同合規行為。呢個指南提供你需要嘅確切配置，附帶完整代碼示例，以及點解大多數現有配置已經過時嘅解釋。

Rafael Mora

| 更新於2026年5月15日 | 閱讀需時18分鐘專家審核

AI爬蟲robots.txt配置指南 2026

14個AI爬蟲用戶代理、8個配置場景、逐步實施框架

圖：2026年AI爬蟲robots.txt配置完整指南

直接答案

robots.txt通過用戶代理字符串控制AI爬蟲訪問。關鍵係區分訓練數據爬蟲（GPTBot、ClaudeBot）同AI搜索爬蟲（PerplexityBot）——佢哋有唔同嘅目的，你可能想要唔同地對待它們。大多數2024年之前寫嘅配置已經遺漏咗至少10個而家活躍嘅AI爬蟲。

點解AI爬蟲改變咗robots.txt管理

機器人排除協議（REP）自1994年以來基本上冇變化。但係AI爬蟲嘅激增——以及佢哋嘅目的同傳統搜索引擎爬蟲根本唔同——創造咗一個新嘅管理挑戰，現有嘅robots.txt最佳實踐冇有解決。

根據Cloudflare 2026年5月13日發佈嘅分析，AI爬蟲而家佔所有機器人流量嘅38%，比2024年初嘅12%大幅上升。更重要嘅係，呢個流量係由具有根本唔同目的嘅爬蟲組成：一些係為LLM訓練數據集收集內容，一些係為AI驅動嘅搜索結果提供實時索引，一些係為用戶查詢提供即時瀏覽。

資料來源：Cloudflare，「2026年機器人流量分析：AI爬蟲嘅崛起」，2026年5月13日發佈。

38%

AI爬蟲佔所有機器人流量嘅比例（Cloudflare，2026年5月）

14+

2026年活躍嘅已識別AI爬蟲用戶代理

95%+

主要AI提供商嘅robots.txt合規率（Cloudflare，2026年5月）

2026年AI爬蟲用戶代理完整參考表

以下表格涵蓋截至2026年5月所有已識別嘅活躍AI爬蟲。合規狀態基於提供商文檔同獨立測試。

用戶代理	提供商	主要用途	REP合規
GPTBot	OpenAI	GPT模型訓練數據	已確認
ChatGPT-User	OpenAI	ChatGPT實時瀏覽功能	已確認
ClaudeBot	Anthropic	Claude模型訓練數據	已確認
anthropic-ai	Anthropic	Anthropic AI研究爬蟲	已確認
PerplexityBot	Perplexity AI	AI搜索索引	已確認
Applebot-Extended	Apple	Apple Intelligence訓練數據	已確認
Bytespider	ByteDance	AI訓練數據（TikTok母公司）	部分合規
cohere-ai	Cohere	Cohere LLM訓練數據	已確認
Meta-ExternalAgent	Meta	Meta AI模型訓練數據	已確認
Diffbot	Diffbot	AI知識圖譜數據收集	部分合規
YouBot	You.com	AI搜索索引	已確認
Amazonbot	Amazon	Alexa AI訓練數據	已確認
ICC-Crawler	各AI研究機構	學術AI研究數據收集	未知
AI2Bot	Allen Institute for AI	開源AI研究數據集	已確認

資料來源：各提供商文檔頁面；Dark Visitors AI爬蟲數據庫，2026年5月更新；Cloudflare機器人情報報告，2026年5月。

合規 ≠ 保證屏蔽

「已確認」合規意味著提供商已公開承諾遵守robots.txt指令，並在測試中展示咗呢一點。它唔意味著佢哋爬蟲嘅每個實例都會合規——特別係如果提供商使用第三方爬蟲基礎設施，或者自上次驗證合規以來爬蟲已更新。將robots.txt視為強烈訊號，而唔係保證。

robots.txt語法：AI訪問控制嘅關鍵指令

機器人排除協議使用一小組指令。對於AI爬蟲管理，四個指令係相關嘅：User-agent、Disallow、Allow同Crawl-delay。了解它們如何相互作用——特別係優先級規則——對於寫出按預期行為嘅配置至關重要。

優先級規則：衝突如何解決

當多個規則可以應用於單個URL時，robots.txt使用兩個原則解決衝突：

具體性優先：更具體嘅規則覆蓋較不具體嘅規則。Allow: /blog/public/覆蓋Disallow: /blog/對/blog/public/內URL嘅規則。
特定用戶代理塊覆蓋通配符塊：命名用戶代理嘅規則優先於該機器人嘅User-agent: *規則。有特定塊嘅機器人唔繼承通配符規則。

關鍵優先級誤解

許多網站所有者寫一個通配符塊，然後添加一個特定AI機器人塊，期望AI機器人同時受兩者約束。呢係錯誤嘅。一旦機器人匹配到特定嘅User-agent塊，它只遵循該塊嘅規則——而唔係通配符塊。如果你想讓AI機器人被通配符屏蔽嘅所有內容加上額外路徑屏蔽，你必須在特定機器人嘅塊中重複所有通配符規則。

八個配置場景及完整代碼示例

以下場景涵蓋AI爬蟲最常見嘅訪問控制需求。每個都包含一個完整嘅、可直接複製嘅robots.txt塊。

屏蔽所有AI訓練爬蟲，允許AI搜索爬蟲

最常請求

你希望你嘅內容出現喺AI驅動嘅搜索結果中（Perplexity、You.com），但唔想它被用於LLM訓練數據集。呢係最細緻嘅配置——它需要按目的而唔係按提供商區分爬蟲。

robots.txt

# 屏蔽LLM訓練爬蟲
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: AI2Bot
Disallow: /

# 允許AI搜索爬蟲（無Disallow = 完全訪問）
User-agent: PerplexityBot
Allow: /

User-agent: YouBot
Allow: /

# 標準爬蟲 — 完全訪問
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.yourdomain.com/sitemap.xml

最適合：希望獲得AI搜索可見性但唔想訓練數據曝露嘅出版商、內容創作者同媒體網站

完全屏蔽所有AI爬蟲

最大控制

你唔想要任何AI爬蟲訪問——無論係訓練還係AI搜索。呢適合擁有專有數據、付費牆內容或自動數據收集法律限制嘅網站。

robots.txt

# 屏蔽所有已知AI爬蟲
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: AI2Bot
Disallow: /

# 標準搜索爬蟲 — 完全訪問
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.yourdomain.com/sitemap.xml

最適合：付費牆內容、專有數據庫、有數據敏感性要求嘅法律/醫療網站

只保護特定目錄免受AI爬蟲訪問

精準控制

你希望AI爬蟲訪問你嘅公開博客同行銷頁面，但唔訪問你嘅用戶生成內容、API端點或僅限會員嘅部分。標準搜索爬蟲獲得完全訪問。

robots.txt

# 限制AI訓練爬蟲只訪問公開內容
User-agent: GPTBot
Disallow: /api/
Disallow: /members/
Disallow: /user-content/
Disallow: /private/
Allow: /blog/
Allow: /about/

User-agent: ClaudeBot
Disallow: /api/
Disallow: /members/
Disallow: /user-content/
Disallow: /private/
Allow: /blog/
Allow: /about/

# 所有其他機器人 — 只有標準限制
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /staging/

Sitemap: https://www.yourdomain.com/sitemap.xml

最適合：SaaS平台、社群網站，以及擁有混合公開/私人內容嘅出版商

用Crawl-delay限制激進AI爬蟲嘅速率

服務器保護

一些AI爬蟲——特別係部分合規評級嘅爬蟲——爬取非常激進，可能影響服務器性能。Crawl-delay指令請求請求之間嘅最短等待時間。注意：Googlebot忽略呢個指令；改用Google Search Console管理Googlebot爬取速率。

robots.txt

# 限制激進爬蟲嘅速率
User-agent: Bytespider
Crawl-delay: 10
Disallow: /api/
Disallow: /user-content/

User-agent: Diffbot
Crawl-delay: 10
Disallow: /api/

# 標準爬蟲 — 無延遲
User-agent: *
Disallow: /admin/

Sitemap: https://www.yourdomain.com/sitemap.xml

最適合：因激進AI爬蟲而遇到服務器負載嘅網站；10秒延遲將請求頻率降低約90%

逐步實施你嘅robots.txt配置

審核你當前嘅AI爬蟲流量

喺寫任何規則之前，檢查你嘅服務器訪問日誌，查找當前訪問你網站嘅用戶代理字符串。查找上面參考表中嘅字符串。呢告訴你哪些AI爬蟲已經在你嘅網站上活躍，以及它們爬取嘅頻率——呢決定咗你配置嘅緊迫性同具體性。

快速方法：喺你嘅服務器日誌中，過濾用戶代理包含「bot」、「crawler」、「spider」或「AI」嘅請求。按頻率排序，首先識別最活躍嘅爬蟲。

為每個爬蟲類別定義你嘅訪問政策

喺寫指令之前，為每個爬蟲類別做出深思熟慮嘅決定：（a）完全訪問，（b）受限訪問（特定路徑被屏蔽），或（c）無訪問。你嘅政策應該由你內容嘅商業價值、你嘅服務條款，以及你對AI搜索可見性嘅偏好驅動。記錄呢個政策——當配置需要更新時你會需要它。

決策框架：如果你內容嘅價值來自被發現（媒體、行銷），傾向於允許AI搜索爬蟲。如果你內容嘅價值來自獨家性（研究、付費牆數據），傾向於屏蔽所有AI爬蟲。

使用正確嘅優先級邏輯寫你嘅配置

使用上面嘅場景作為模板。始終在通配符塊之前列出特定用戶代理塊。記住特定用戶代理塊唔繼承通配符規則——如果你想讓AI機器人同時受你嘅標準限制同額外AI特定限制約束，你必須在AI機器人嘅特定塊中包含所有相關嘅Disallow指令。

驗證：寫完配置後，使用Google Search Console嘅robots.txt測試器驗證每個規則對特定URL嘅行為係咪符合預期。測試你想屏蔽嘅URL同你想允許嘅URL兩者。

部署到你嘅根目錄並驗證

robots.txt文件必須放置喺你域名嘅根目錄——yourdomain.com/robots.txt。它唔能放置喺子目錄中。上傳後，通過直接喺瀏覽器中訪問URL來驗證它係可訪問嘅。文件應該顯示為純文本，冇HTML格式。

常見錯誤：以Windows行尾（CRLF）而唔係Unix行尾（LF）上傳robots.txt可能導致某些爬蟲嘅解析錯誤。使用允許你指定行尾格式嘅純文本編輯器，或者上傳後用robots.txt驗證器驗證。

添加你嘅Sitemap並安排季度審核

始終在你嘅robots.txt文件末尾包含你嘅sitemap URL。呢幫助合規爬蟲發現你嘅內容結構，即使特定路徑被屏蔽。設置日曆提醒，每季度審核你嘅AI爬蟲配置——活躍AI爬蟲嘅列表同它們嘅用戶代理字符串頻繁變化，今天最新嘅配置可能喺三個月後係不完整嘅。

監控資源：Dark Visitors項目（darkvisitors.com）維護一個持續更新嘅AI爬蟲用戶代理字符串同合規行為數據庫。訂閱佢哋嘅更新日誌，以便喺識別新爬蟲時收到通知。

AI爬蟲robots.txt決策樹

確定每種AI爬蟲類型正確訪問政策嘅流程圖

圖3 — robots.txt AI爬蟲訪問政策決策樹2026

robots.txt做唔到嘅事：協議嘅限制

了解robots.txt做唔到咩同了解點樣配置它一樣重要。三個限制對2026年嘅AI爬蟲管理特別相關。

它唔能阻止不合規爬蟲嘅訪問。機器人排除協議係一個自願標準。唔遵守它嘅爬蟲——包括許多抓取器同一些部分合規評級嘅AI爬蟲——會簡單地忽略你嘅指令。對於呢些爬蟲，服務器級別嘅控制（IP屏蔽、速率限制、WAF規則）係適當嘅工具。

它唔能阻止AI使用它已經收集嘅內容。如果AI爬蟲喺你添加屏蔽規則之前索引咗你嘅內容，該內容可能已經喺訓練數據集或知識庫中。robots.txt阻止未來嘅爬取；它唔會追溯性地刪除之前收集嘅數據。對於追溯性刪除，你需要直接聯繫AI提供商——大多數主要提供商都有內容刪除請求流程。

它唔能區分同一用戶代理字符串嘅合法同非法使用。任何爬蟲都可以聲稱係Googlebot或GPTBot。驗證聲稱係主要機器人嘅爬蟲實際上係來自預期嘅IP範圍——Google、OpenAI同Anthropic都公開發佈佢哋嘅爬蟲IP範圍。

互補控制措施

對於全面嘅AI爬蟲管理，將robots.txt與以下措施結合：（1）HTTP響應標頭——X-Robots-Tag標頭將機器人指令應用於PDF等非HTML資源；（2）Meta robots標籤——<meta name="robots" content="noai, noimageai">係頁面級AI訓練退出嘅新興標準；（3）服務條款——明確禁止AI訓練數據收集為執法創造法律依據。請參閱 [內部連結：X-Robots-Tag同Meta Robots：2026年完整指南] 以獲取實施細節。

五個影響AI爬蟲控制嘅常見robots.txt錯誤

依賴通配符屏蔽AI爬蟲

使用User-agent: *加廣泛Disallow屏蔽AI爬蟲，同時亦屏蔽咗搜索引擎爬蟲——呢幾乎從來唔係意圖。通配符適用於每個冇特定塊嘅機器人，包括Googlebot同Bingbot，如果它們冇被明確列出Allow規則嘅話。

解決方法：始終在你嘅通配符塊之前或之後明確列出你嘅搜索引擎爬蟲，帶有Allow: /。特定用戶代理塊對那些機器人優先於通配符。

使用過時嘅AI爬蟲列表

2024年初寫嘅帶有3至4個AI用戶代理字符串嘅robots.txt配置，而家至少遺漏咗10個活躍爬蟲。過時嘅配置創造咗虛假嘅安全感——你相信你已經屏蔽咗AI爬蟲，但你只屏蔽咗你寫文件時存在嘅那些。

解決方法：每季度審核並更新你嘅AI爬蟲列表。使用本指南中嘅參考表作為起點，並與你嘅服務器日誌交叉引用，以識別列表上冇有嘅任何爬蟲。

屏蔽AI爬蟲訪問CSS同JavaScript文件

一些網站所有者屏蔽AI爬蟲訪問所有非HTML資源以減少數據曝露。呢可能適得其反：你想允許嘅AI搜索爬蟲（如PerplexityBot）可能需要CSS同JavaScript才能正確渲染你嘅頁面並理解你嘅內容結構。屏蔽呢些資源可能導致喺AI搜索結果中表現差或根本冇有。

解決方法：如果你想要AI搜索可見性，允許AI搜索爬蟲訪問CSS同JavaScript。只對你完全屏蔽嘅AI訓練爬蟲應用資源屏蔽。

忘記Sitemap指令

冇Sitemap指令嘅robots.txt文件迫使爬蟲只通過跟隨連結來發現你嘅內容。對於你想允許嘅AI搜索爬蟲，呢意味著更慢且更不完整地索引你嘅內容——特別係對於尚未積累許多入站連結嘅較新頁面。

解決方法：始終在你嘅robots.txt文件末尾包含Sitemap: https://www.yourdomain.com/sitemap.xml。如果你有多個sitemap（新聞、圖片、視頻），每個單獨列在一行。

將robots.txt視為安全措施

最危險嘅錯誤：假設Disallow指令實際��阻止訪問敏感內容。robots.txt係公開可讀嘅——它告訴每個機器人（以及每個人類）你認為哪些路徑係敏感嘅。惡意行為者可以使用你嘅robots.txt作為地圖，找到你最有價值或最脆弱嘅內容。

解決方法：永遠唔好依賴robots.txt保護敏感內容。對任何真正需要保護嘅內容使用身份驗證、訪問控制同服務器級別安全。robots.txt係用於爬取管理，而唔係安全。

AI爬蟲控制堆棧

robots.txt如何融入AI爬蟲管理嘅分層方法

圖4 — AI爬蟲控制堆棧：robots.txt分層方法2026

常見問題

如果我屏蔽GPTBot，我嘅內容仍然會出現喺ChatGPT嘅回應中嗎？

屏蔽GPTBot阻止OpenAI爬取你嘅網站以獲取未來嘅訓練數據，但它唔會刪除你添加屏蔽之前已經收集嘅內容。ChatGPT嘅回應來自截至模型知識截止日期收集嘅訓練數據——而家屏蔽GPTBot影響未來嘅訓練運行，而唔係當前模型嘅知識。對於ChatGPT嘅實時瀏覽功能（使用ChatGPT-User代理），屏蔽該用戶代理將阻止你嘅內容出現喺實時瀏覽回應中。呢係兩個具有唔同功能嘅獨立用戶代理字符串。

點樣驗證AI爬蟲實際上係遵守我嘅robots.txt嘅？

最可靠嘅方法係喺添加屏蔽規則後檢查你嘅服務器訪問日誌。如果爬蟲係合規嘅，你應該喺robots.txt更新後24至48小時內看到它對被屏蔽路徑嘅請求停止（大多數爬蟲頻繁重新獲取robots.txt）。你亦可以使用蜜罐頁面——一個喺robots.txt中被禁止但包含唯一跟蹤像素或URL嘅頁面。任何來自被屏蔽爬蟲對該頁面嘅請求都確認不合規。根據Cloudflare 2026年5月13日發佈嘅分析，主要AI提供商（OpenAI、Anthropic、Google、Perplexity）在受控測試中都顯示出超過95%嘅合規率。

我應該屏蔽AI爬蟲訪問我嘅sitemap嗎？

唔應該——而且呢係一個常見嘅誤解。你嘅sitemap係URL列表，而唔係內容本身。屏蔽AI爬蟲訪問你嘅sitemap唔能阻止它們通過其他方式（連結、直接爬取）發現那些URL。更重要嘅係，如果你想要AI搜索爬蟲索引你嘅內容，它們需要sitemap訪問才能有效地發現它。正確嘅方法係屏蔽AI爬蟲訪問你唔想被訪問嘅內容路徑，同時讓sitemap對所有爬蟲可訪問。

屏蔽GPTBot同屏蔽ChatGPT-User有咩分別？

GPTBot係OpenAI嘅訓練數據爬蟲——它收集內容以訓練未來版本嘅GPT模型。屏蔽它阻止你嘅內容被用於未來嘅訓練數據集。ChatGPT-User係ChatGPT嘅瀏覽功能喺實時回答用戶問題時訪問你嘅網站所使用嘅用戶代理。屏蔽它阻止你嘅內容出現喺ChatGPT嘅實時回應中。大多數想屏蔽OpenAI嘅網站所有者應該同時屏蔽兩者。如果你想讓你嘅內容出現喺ChatGPT回應中但唔想用於訓練數據，只屏蔽GPTBot並允許ChatGPT-User。

我應該幾耐更新一次我嘅AI爬蟲robots.txt？

對於積極管理AI爬蟲訪問嘅網站，季度審核係最低要求。AI爬蟲格局變化迅速——新爬蟲出現，現有爬蟲更改其用戶代理字符串，合規行為演變。一個實用嘅工作流程：（1）訂閱Dark Visitors更新日誌以獲取新爬蟲通知，（2）每月審查你嘅服務器日誌以查找無法識別嘅用戶代理字符串，（3）每季度對照當前參考表進行完整配置審核。對於擁有高價值內容或嚴格數據治理要求嘅網站，每月審核更為合適。請參閱 [內部連結：點樣喺2026年審核你嘅技術SEO配置] 以獲取完整嘅審核框架。

Rafael Mora

技術SEO主管及爬取架構專家 · 11年經驗

Rafael專注於企業網站同數字出版商嘅爬取預算優化、機器人管理同技術SEO架構。他審核咗30多個行業超過200個網站嘅robots.txt配置，他嘅AI爬蟲管理框架已被管理每月超過1,000萬自然流量網站嘅內容團隊採用。他為W3C網絡爬取社群組做出貢獻。

由Rafael Mora撰寫並審核。信息截至2026年5月15日。

Further reading: 2026 SEO · AI 2026 · LocalBusiness Schema AI · JSON-LD 2026 definitive · Schema AI 1 900 LLM

查看呢個主題對應工具

點樣為AI爬蟲配置robots.txt？2026年完整指南

點解AI爬蟲改變咗robots.txt管理

2026年AI爬蟲用戶代理完整參考表

robots.txt語法：AI訪問控制嘅關鍵指令

優先級規則：衝突如何解決

八個配置場景及完整代碼示例

逐步實施你嘅robots.txt配置

robots.txt做唔到嘅事：協議嘅限制

五個影響AI爬蟲控制嘅常見robots.txt錯誤

常見問題

用我哋工具落地呢個策略