technical-seo

點樣為AI爬蟲配置robots.txt?2026年完整指南

學習點樣為AI爬蟲正確配置robots.txt。包含2026年14個AI爬蟲用戶代理參考表、8個配置場景完整代碼示例,以及逐步實施指南。

Eden Clarke · · 4 min read

點樣為AI爬蟲配置robots.txt?2026年完整指南

AI爬蟲已經從少數幾個變成超過14個活躍嘅用戶代理——每個都有唔同嘅目的同合規行為。呢個指南提供你需要嘅確切配置,附帶完整代碼示例,以及點解大多數現有配置已經過時嘅解釋。

AI爬蟲robots.txt配置指南 2026
14個AI爬蟲用戶代理、8個配置場景、逐步實施框架
圖:2026年AI爬蟲robots.txt配置完整指南
直接答案

robots.txt通過用戶代理字符串控制AI爬蟲訪問。關鍵係區分訓練數據爬蟲(GPTBot、ClaudeBot)同AI搜索爬蟲(PerplexityBot)——佢哋有唔同嘅目的,你可能想要唔同地對待它們。大多數2024年之前寫嘅配置已經遺漏咗至少10個而家活躍嘅AI爬蟲。

點解AI爬蟲改變咗robots.txt管理

機器人排除協議(REP)自1994年以來基本上冇變化。但係AI爬蟲嘅激增——以及佢哋嘅目的同傳統搜索引擎爬蟲根本唔同——創造咗一個新嘅管理挑戰,現有嘅robots.txt最佳實踐冇有解決。

根據Cloudflare 2026年5月13日發佈嘅分析,AI爬蟲而家佔所有機器人流量嘅38%,比2024年初嘅12%大幅上升。更重要嘅係,呢個流量係由具有根本唔同目的嘅爬蟲組成:一些係為LLM訓練數據集收集內容,一些係為AI驅動嘅搜索結果提供實時索引,一些係為用戶查詢提供即時瀏覽。

資料來源:Cloudflare,「2026年機器人流量分析:AI爬蟲嘅崛起」,2026年5月13日發佈。
38%
AI爬蟲佔所有機器人流量嘅比例(Cloudflare,2026年5月)
14+
2026年活躍嘅已識別AI爬蟲用戶代理
95%+
主要AI提供商嘅robots.txt合規率(Cloudflare,2026年5月)

2026年AI爬蟲用戶代理完整參考表

以下表格涵蓋截至2026年5月所有已識別嘅活躍AI爬蟲。合規狀態基於提供商文檔同獨立測試。

用戶代理 提供商 主要用途 REP合規
GPTBot OpenAI GPT模型訓練數據 已確認
ChatGPT-User OpenAI ChatGPT實時瀏覽功能 已確認
ClaudeBot Anthropic Claude模型訓練數據 已確認
anthropic-ai Anthropic Anthropic AI研究爬蟲 已確認
PerplexityBot Perplexity AI AI搜索索引 已確認
Applebot-Extended Apple Apple Intelligence訓練數據 已確認
Bytespider ByteDance AI訓練數據(TikTok母公司) 部分合規
cohere-ai Cohere Cohere LLM訓練數據 已確認
Meta-ExternalAgent Meta Meta AI模型訓練數據 已確認
Diffbot Diffbot AI知識圖譜數據收集 部分合規
YouBot You.com AI搜索索引 已確認
Amazonbot Amazon Alexa AI訓練數據 已確認
ICC-Crawler 各AI研究機構 學術AI研究數據收集 未知
AI2Bot Allen Institute for AI 開源AI研究數據集 已確認
資料來源:各提供商文檔頁面;Dark Visitors AI爬蟲數據庫,2026年5月更新;Cloudflare機器人情報報告,2026年5月。
合規 ≠ 保證屏蔽
「已確認」合規意味著提供商已公開承諾遵守robots.txt指令,並在測試中展示咗呢一點。它唔意味著佢哋爬蟲嘅每個實例都會合規——特別係如果提供商使用第三方爬蟲基礎設施,或者自上次驗證合規以來爬蟲已更新。將robots.txt視為強烈訊號,而唔係保證。

robots.txt語法:AI訪問控制嘅關鍵指令

機器人排除協議使用一小組指令。對於AI爬蟲管理,四個指令係相關嘅:User-agentDisallowAllowCrawl-delay。了解它們如何相互作用——特別係優先級規則——對於寫出按預期行為嘅配置至關重要。

優先級規則:衝突如何解決

當多個規則可以應用於單個URL時,robots.txt使用兩個原則解決衝突:

  • 具體性優先:更具體嘅規則覆蓋較不具體嘅規則。Allow: /blog/public/覆蓋Disallow: /blog//blog/public/內URL嘅規則。
  • 特定用戶代理塊覆蓋通配符塊:命名用戶代理嘅規則優先於該機器人嘅User-agent: *規則。有特定塊嘅機器人唔繼承通配符規則。
關鍵優先級誤解
許多網站所有者寫一個通配符塊,然後添加一個特定AI機器人塊,期望AI機器人同時受兩者約束。呢係錯誤嘅。一旦機器人匹配到特定嘅User-agent塊,它只遵循該塊嘅規則——而唔係通配符塊。如果你想讓AI機器人被通配符屏蔽嘅所有內容加上額外路徑屏蔽,你必須在特定機器人嘅塊中重複所有通配符規則。

八個配置場景及完整代碼示例

以下場景涵蓋AI爬蟲最常見嘅訪問控制需求。每個都包含一個完整嘅、可直接複製嘅robots.txt塊。

1
屏蔽所有AI訓練爬蟲,允許AI搜索爬蟲
最常請求
你希望你嘅內容出現喺AI驅動嘅搜索結果中(Perplexity、You.com),但唔想它被用於LLM訓練數據集。呢係最細緻嘅配置——它需要按目的而唔係按提供商區分爬蟲。
robots.txt
# 屏蔽LLM訓練爬蟲
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: AI2Bot
Disallow: /

# 允許AI搜索爬蟲(無Disallow = 完全訪問)
User-agent: PerplexityBot
Allow: /

User-agent: YouBot
Allow: /

# 標準爬蟲 — 完全訪問
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.yourdomain.com/sitemap.xml
最適合:希望獲得AI搜索可見性但唔想訓練數據曝露嘅出版商、內容創作者同媒體網站
2
完全屏蔽所有AI爬蟲
最大控制
你唔想要任何AI爬蟲訪問——無論係訓練還係AI搜索。呢適合擁有專有數據、付費牆內容或自動數據收集法律限制嘅網站。
robots.txt
# 屏蔽所有已知AI爬蟲
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: AI2Bot
Disallow: /

# 標準搜索爬蟲 — 完全訪問
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://www.yourdomain.com/sitemap.xml
最適合:付費牆內容、專有數據庫、有數據敏感性要求嘅法律/醫療網站
3
只保護特定目錄免受AI爬蟲訪問
精準控制
你希望AI爬蟲訪問你嘅公開博客同行銷頁面,但唔訪問你嘅用戶生成內容、API端點或僅限會員嘅部分。標準搜索爬蟲獲得完全訪問。
robots.txt
# 限制AI訓練爬蟲只訪問公開內容
User-agent: GPTBot
Disallow: /api/
Disallow: /members/
Disallow: /user-content/
Disallow: /private/
Allow: /blog/
Allow: /about/

User-agent: ClaudeBot
Disallow: /api/
Disallow: /members/
Disallow: /user-content/
Disallow: /private/
Allow: /blog/
Allow: /about/

# 所有其他機器人 — 只有標準限制
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /staging/

Sitemap: https://www.yourdomain.com/sitemap.xml
最適合:SaaS平台、社群網站,以及擁有混合公開/私人內容嘅出版商
4
用Crawl-delay限制激進AI爬蟲嘅速率
服務器保護
一些AI爬蟲——特別係部分合規評級嘅爬蟲——爬取非常激進,可能影響服務器性能。Crawl-delay指令請求請求之間嘅最短等待時間。注意:Googlebot忽略呢個指令;改用Google Search Console管理Googlebot爬取速率。
robots.txt
# 限制激進爬蟲嘅速率
User-agent: Bytespider
Crawl-delay: 10
Disallow: /api/
Disallow: /user-content/

User-agent: Diffbot
Crawl-delay: 10
Disallow: /api/

# 標準爬蟲 — 無延遲
User-agent: *
Disallow: /admin/

Sitemap: https://www.yourdomain.com/sitemap.xml
最適合:因激進AI爬蟲而遇到服務器負載嘅網站;10秒延遲將請求頻率降低約90%

逐步實施你嘅robots.txt配置

1
審核你當前嘅AI爬蟲流量
喺寫任何規則之前,檢查你嘅服務器訪問日誌,查找當前訪問你網站嘅用戶代理字符串。查找上面參考表中嘅字符串。呢告訴你哪些AI爬蟲已經在你嘅網站上活躍,以及它們爬取嘅頻率——呢決定咗你配置嘅緊迫性同具體性。
快速方法:喺你嘅服務器日誌中,過濾用戶代理包含「bot」、「crawler」、「spider」或「AI」嘅請求。按頻率排序,首先識別最活躍嘅爬蟲。
2
為每個爬蟲類別定義你嘅訪問政策
喺寫指令之前,為每個爬蟲類別做出深思熟慮嘅決定:(a)完全訪問,(b)受限訪問(特定路徑被屏蔽),或(c)無訪問。你嘅政策應該由你內容嘅商業價值、你嘅服務條款,以及你對AI搜索可見性嘅偏好驅動。記錄呢個政策——當配置需要更新時你會需要它。
決策框架:如果你內容嘅價值來自被發現(媒體、行銷),傾向於允許AI搜索爬蟲。如果你內容嘅價值來自獨家性(研究、付費牆數據),傾向於屏蔽所有AI爬蟲。
3
使用正確嘅優先級邏輯寫你嘅配置
使用上面嘅場景作為模板。始終在通配符塊之前列出特定用戶代理塊。記住特定用戶代理塊唔繼承通配符規則——如果你想讓AI機器人同時受你嘅標準限制同額外AI特定限制約束,你必須在AI機器人嘅特定塊中包含所有相關嘅Disallow指令。
驗證:寫完配置後,使用Google Search Console嘅robots.txt測試器驗證每個規則對特定URL嘅行為係咪符合預期。測試你想屏蔽嘅URL同你想允許嘅URL兩者。
4
部署到你嘅根目錄並驗證
robots.txt文件必須放置喺你域名嘅根目錄——yourdomain.com/robots.txt。它唔能放置喺子目錄中。上傳後,通過直接喺瀏覽器中訪問URL來驗證它係可訪問嘅。文件應該顯示為純文本,冇HTML格式。
常見錯誤:以Windows行尾(CRLF)而唔係Unix行尾(LF)上傳robots.txt可能導致某些爬蟲嘅解析錯誤。使用允許你指定行尾格式嘅純文本編輯器,或者上傳後用robots.txt驗證器驗證。
5
添加你嘅Sitemap並安排季度審核
始終在你嘅robots.txt文件末尾包含你嘅sitemap URL。呢幫助合規爬蟲發現你嘅內容結構,即使特定路徑被屏蔽。設置日曆提醒,每季度審核你嘅AI爬蟲配置——活躍AI爬蟲嘅列表同它們嘅用戶代理字符串頻繁變化,今天最新嘅配置可能喺三個月後係不完整嘅。
監控資源:Dark Visitors項目(darkvisitors.com)維護一個持續更新嘅AI爬蟲用戶代理字符串同合規行為數據庫。訂閱佢哋嘅更新日誌,以便喺識別新爬蟲時收到通知。
AI爬蟲robots.txt決策樹
確定每種AI爬蟲類型正確訪問政策嘅流程圖
圖3 — robots.txt AI爬蟲訪問政策決策樹2026

robots.txt做唔到嘅事:協議嘅限制

了解robots.txt做唔到咩同了解點樣配置它一樣重要。三個限制對2026年嘅AI爬蟲管理特別相關。

它唔能阻止不合規爬蟲嘅訪問。機器人排除協議係一個自願標準。唔遵守它嘅爬蟲——包括許多抓取器同一些部分合規評級嘅AI爬蟲——會簡單地忽略你嘅指令。對於呢些爬蟲,服務器級別嘅控制(IP屏蔽、速率限制、WAF規則)係適當嘅工具。

它唔能阻止AI使用它已經收集嘅內容。如果AI爬蟲喺你添加屏蔽規則之前索引咗你嘅內容,該內容可能已經喺訓練數據集或知識庫中。robots.txt阻止未來嘅爬取;它唔會追溯性地刪除之前收集嘅數據。對於追溯性刪除,你需要直接聯繫AI提供商——大多數主要提供商都有內容刪除請求流程。

它唔能區分同一用戶代理字符串嘅合法同非法使用。任何爬蟲都可以聲稱係GooglebotGPTBot。驗證聲稱係主要機器人嘅爬蟲實際上係來自預期嘅IP範圍——Google、OpenAI同Anthropic都公開發佈佢哋嘅爬蟲IP範圍。

互補控制措施
對於全面嘅AI爬蟲管理,將robots.txt與以下措施結合:(1)HTTP響應標頭——X-Robots-Tag標頭將機器人指令應用於PDF等非HTML資源;(2)Meta robots標籤——<meta name="robots" content="noai, noimageai">係頁面級AI訓練退出嘅新興標準;(3)服務條款——明確禁止AI訓練數據收集為執法創造法律依據。請參閱 [內部連結:X-Robots-Tag同Meta Robots:2026年完整指南] 以獲取實施細節。

五個影響AI爬蟲控制嘅常見robots.txt錯誤

依賴通配符屏蔽AI爬蟲
使用User-agent: *加廣泛Disallow屏蔽AI爬蟲,同時亦屏蔽咗搜索引擎爬蟲——呢幾乎從來唔係意圖。通配符適用於每個冇特定塊嘅機器人,包括Googlebot同Bingbot,如果它們冇被明確列出Allow規則嘅話。
解決方法:始終在你嘅通配符塊之前或之後明確列出你嘅搜索引擎爬蟲,帶有Allow: /。特定用戶代理塊對那些機器人優先於通配符。
使用過時嘅AI爬蟲列表
2024年初寫嘅帶有3至4個AI用戶代理字符串嘅robots.txt配置,而家至少遺漏咗10個活躍爬蟲。過時嘅配置創造咗虛假嘅安全感——你相信你已經屏蔽咗AI爬蟲,但你只屏蔽咗你寫文件時存在嘅那些。
解決方法:每季度審核並更新你嘅AI爬蟲列表。使用本指南中嘅參考表作為起點,並與你嘅服務器日誌交叉引用,以識別列表上冇有嘅任何爬蟲。
屏蔽AI爬蟲訪問CSS同JavaScript文件
一些網站所有者屏蔽AI爬蟲訪問所有非HTML資源以減少數據曝露。呢可能適得其反:你想允許嘅AI搜索爬蟲(如PerplexityBot)可能需要CSS同JavaScript才能正確渲染你嘅頁面並理解你嘅內容結構。屏蔽呢些資源可能導致喺AI搜索結果中表現差或根本冇有。
解決方法:如果你想要AI搜索可見性,允許AI搜索爬蟲訪問CSS同JavaScript。只對你完全屏蔽嘅AI訓練爬蟲應用資源屏蔽。
忘記Sitemap指令
冇Sitemap指令嘅robots.txt文件迫使爬蟲只通過跟隨連結來發現你嘅內容。對於你想允許嘅AI搜索爬蟲,呢意味著更慢且更不完整地索引你嘅內容——特別係對於尚未積累許多入站連結嘅較新頁面。
解決方法:始終在你嘅robots.txt文件末尾包含Sitemap: https://www.yourdomain.com/sitemap.xml。如果你有多個sitemap(新聞、圖片、視頻),每個單獨列在一行。
將robots.txt視為安全措施
最危險嘅錯誤:假設Disallow指令實際��阻止訪問敏感內容。robots.txt係公開可讀嘅——它告訴每個機器人(以及每個人類)你認為哪些路徑係敏感嘅。惡意行為者可以使用你嘅robots.txt作為地圖,找到你最有價值或最脆弱嘅內容。
解決方法:永遠唔好依賴robots.txt保護敏感內容。對任何真正需要保護嘅內容使用身份驗證、訪問控制同服務器級別安全。robots.txt係用於爬取管理,而唔係安全。
AI爬蟲控制堆棧
robots.txt如何融入AI爬蟲管理嘅分層方法
圖4 — AI爬蟲控制堆棧:robots.txt分層方法2026

常見問題

如果我屏蔽GPTBot,我嘅內容仍然會出現喺ChatGPT嘅回應中嗎?
屏蔽GPTBot阻止OpenAI爬取你嘅網站以獲取未來嘅訓練數據,但它唔會刪除你添加屏蔽之前已經收集嘅內容。ChatGPT嘅回應來自截至模型知識截止日期收集嘅訓練數據——而家屏蔽GPTBot影響未來嘅訓練運行,而唔係當前模型嘅知識。對於ChatGPT嘅實時瀏覽功能(使用ChatGPT-User代理),屏蔽該用戶代理將阻止你嘅內容出現喺實時瀏覽回應中。呢係兩個具有唔同功能嘅獨立用戶代理字符串。
點樣驗證AI爬蟲實際上係遵守我嘅robots.txt嘅?
最可靠嘅方法係喺添加屏蔽規則後檢查你嘅服務器訪問日誌。如果爬蟲係合規嘅,你應該喺robots.txt更新後24至48小時內看到它對被屏蔽路徑嘅請求停止(大多數爬蟲頻繁重新獲取robots.txt)。你亦可以使用蜜罐頁面——一個喺robots.txt中被禁止但包含唯一跟蹤像素或URL嘅頁面。任何來自被屏蔽爬蟲對該頁面嘅請求都確認不合規。根據Cloudflare 2026年5月13日發佈嘅分析,主要AI提供商(OpenAI、Anthropic、Google、Perplexity)在受控測試中都顯示出超過95%嘅合規率。
我應該屏蔽AI爬蟲訪問我嘅sitemap嗎?
唔應該——而且呢係一個常見嘅誤解。你嘅sitemap係URL列表,而唔係內容本身。屏蔽AI爬蟲訪問你嘅sitemap唔能阻止它們通過其他方式(連結、直接爬取)發現那些URL。更重要嘅係,如果你想要AI搜索爬蟲索引你嘅內容,它們需要sitemap訪問才能有效地發現它。正確嘅方法係屏蔽AI爬蟲訪問你唔想被訪問嘅內容路徑,同時讓sitemap對所有爬蟲可訪問。
屏蔽GPTBot同屏蔽ChatGPT-User有咩分別?
GPTBot係OpenAI嘅訓練數據爬蟲——它收集內容以訓練未來版本嘅GPT模型。屏蔽它阻止你嘅內容被用於未來嘅訓練數據集。ChatGPT-User係ChatGPT嘅瀏覽功能喺實時回答用戶問題時訪問你嘅網站所使用嘅用戶代理。屏蔽它阻止你嘅內容出現喺ChatGPT嘅實時回應中。大多數想屏蔽OpenAI嘅網站所有者應該同時屏蔽兩者。如果你想讓你嘅內容出現喺ChatGPT回應中但唔想用於訓練數據,只屏蔽GPTBot並允許ChatGPT-User。
我應該幾耐更新一次我嘅AI爬蟲robots.txt?
對於積極管理AI爬蟲訪問嘅網站,季度審核係最低要求。AI爬蟲格局變化迅速——新爬蟲出現,現有爬蟲更改其用戶代理字符串,合規行為演變。一個實用嘅工作流程:(1)訂閱Dark Visitors更新日誌以獲取新爬蟲通知,(2)每月審查你嘅服務器日誌以查找無法識別嘅用戶代理字符串,(3)每季度對照當前參考表進行完整配置審核。對於擁有高價值內容或嚴格數據治理要求嘅網站,每月審核更為合適。請參閱 [內部連結:點樣喺2026年審核你嘅技術SEO配置] 以獲取完整嘅審核框架。
RM
Rafael Mora
技術SEO主管及爬取架構專家 · 11年經驗
Rafael專注於企業網站同數字出版商嘅爬取預算優化、機器人管理同技術SEO架構。他審核咗30多個行業超過200個網站嘅robots.txt配置,他嘅AI爬蟲管理框架已被管理每月超過1,000萬自然流量網站嘅內容團隊採用。他為W3C網絡爬取社群組做出貢獻。
由Rafael Mora撰寫並審核。信息截至2026年5月15日

Further reading: 2026 · 2026 · AI YouTube · 2026 10 Google Ads · SEO 2026 YMYL

查看呢個主題對應工具

用我哋工具落地呢個策略

  • 將當前主題快速轉成結構化草稿,並對齊搜尋意圖。
  • 生成可發布內容模塊,保持 SEO 友好結構。