llms.txt 是什麼 — 以及它不是什麼

llms.txt 是一個提案網絡標準 — 由 Answer.AI 於 2024 年底創建 — 允許網站所有者發布專門為大型語言模型(LLM)爬蟲策劃的 Markdown 格式最重要頁面列表。該文件放置在域名的根目錄(例如 https://yourdomain.com/llms.txt),旨在幫助 AI 系統更有效地找到和優先處理權威內容。

這個概念借鑒了現有的機器可讀文件生態系統,這些文件幫助自動系統導航網站:

文件目的誰使用它官方標準?
robots.txt 告訴爬蟲哪些頁面可以訪問或避免 所有主要搜尋引擎 是(RFC 9309)
sitemap.xml 列出所有頁面供爬蟲發現 所有主要搜尋引擎 是(sitemaps.org 協議)
llms.txt 專門為 LLM 爬蟲策劃關鍵頁面 未確認 — 沒有主要 AI 公司已確認使用 否 — 僅提案標準
關鍵區別
robots.txt 和 sitemap.xml 是官方、廣泛採用的標準,已獲得 Google、Bing 和其他主要搜尋引擎的確認支持。llms.txt 是一個社區提案,截至 2026 年 4 月尚未被任何主要 AI 公司採用。將它們視為等同將是一個重大的誤解。

llms.txt 試圖解決的問題

llms.txt 背後的動機是真實的,即使解決方案仍未經證實。AI 爬蟲在處理網站時面臨兩個結構性挑戰:

  • 上下文窗口限制。 LLM 一次只能處理有限數量的文本。大多數網站包含的內容遠超過單個上下文窗口能容納的 — 這意味著 AI 系統必須選擇讀什麼和跳過什麼。llms.txt 提通過提供策劃索引來幫助 AI 系統更有效地做出這些選擇。
  • HTML 解析複雜性。 現代網站通過 JavaScript 加載大量內容,許多 AI 爬蟲無法執行。導航菜單、Cookie 橫幅、廣告和動態內容增加了噪音,使得提取實質信息更加困難。純文本 Markdown 文件完全避開了這個問題。

還有一個次要動機:計算效率。訓練和運行 LLM 是昂貴的。如果 AI 系統能夠更可靠地識別高質量、相關內容,而無需爬取數千個低價值頁面,資源節省將是顯著的。llms.txt 在某種程度上是幫助 AI 系統更聰明地工作而不是更努力地工作的嘗試。

核心概念
llms.txt 本質上是 AI 系統的策劃目錄 — 一種說「這是我網站上最值得你關注的頁面,以及每個頁面涵蓋什麼」的方式。這個概念是合理的。AI 系統是否實際使用它是另一個問題 — 到目前為止的證據表明它們基本上不使用。

llms.txt 文件如何構建

llms.txt 文件使用 Markdown 格式 — 與 GitHub README 文件、文檔平台和許多內容管理系統中使用的輕量級標記語言相同。Markdown 是可讀的、機器可解析的,並且不需要任何特殊軟件來創建或編輯。

llms.txt 中使用的核心 Markdown 元素

  • # 標題 — H1 用於網站或章節名稱
  • ## 標題 — H2 用於主要內容類別
  • > 文本 — 用於簡短網站描述的引用塊
  • - [文本](URL): 描述 — 帶有描述的鏈接列表項

完整示例

# llms.txt — 示例結構 # 你的公司名稱 > 簡短描述你的公司做什麼以及服務誰。 重要說明: - 關於你產品的主要差異化或重要細節 - 你的產品不做什麼(幫助 AI 避免誤報) - 合規認證或安全姿態(SOC 2、GDPR 等) ## 產品 - [產品名稱](https://example.com/product): 核心用例和主要優勢 - [定價](https://example.com/pricing): 計劃層級、起始價格和計費選項 ## 文檔 - [入門指南](https://example.com/docs/start): 新用戶設置指南 - [API 參考](https://example.com/api): 完整的 API 文檔,包括身份驗證 - [集成](https://example.com/integrations): 支持的第三方工具和連接指南 ## 公司 - [關於我們](https://example.com/about): 公司背景、使命和團隊 - [安全](https://example.com/security): 安全姿態、認證和數據處理 - [聯繫我們](https://example.com/contact): 如何聯繫團隊

規範不強制要求嚴格的結構 — 只要你使用有效的 Markdown,文件就是機器可讀的。一些團隊添加更細緻的子章節(H3 和 H4)、表格或技術文檔的代碼片段。其他人保持最小化。兩種方法都是有效的。

誰在 2026 年使用 llms.txt?

採用仍然小眾。根據 NerdyData 爬取數據(2026 年 4 月 20 日)[1],截至 2026 年 4 月,約有 4,200 個域名發布了 llms.txt 文件 — 較 2025 年 7 月的 951 個域名有所增加,但仍佔網絡估計的 11 億活躍域名的極小部分。

4,200
截至 2026 年 4 月擁有 llms.txt 文件的域名(NerdyData, 2026 年 4 月 20 日)
4.4×
從 2025 年 7 月到 2026 年 4 月的採用增長 — 但從非常小的基數開始
0%
主要 AI 公司已正式確認他們在爬取時使用 llms.txt 文件

採用 llms.txt 的公司主要是開發者專注的 SaaS 品牌和文檔密集的平台。以下是一些值得注意的採用者如何構建他們的文件:

公司文件重點結構方法顯著特徵
Hugging Face 開發者文檔 多級標題(H1-H4)、代碼示例、廣泛鏈接 全面的知識庫方法;主要採用者中最詳細的
Vercel 開發者文檔 頂部描述性元數據行(title:、description:、tags:),然後是結構化章節 在內容前添加元數據上下文;帶代碼的逐步說明
Zapier 開發者文檔 最小標題;主要是帶有描述的長鏈接列表 輕量級方法;易於維護但上下文豐富度較低
Anthropic 公司和產品信息 標準規範格式 值得注意:Anthropic 發布了 llms.txt 但未確認他們的 AI 爬蟲使用它
Anthropic 悖論
Anthropic — Claude 背後的公司 — 已經在自己的網站上發布了 llms.txt 文件。這經常被引用為該格式具有合法性的證據。然而,發布文件和使用其他人發布的文件是完全不同的事情。Anthropic 未確認 ClaudeBot 在爬取其他網站時閱讀 llms.txt 文件。這兩個事實是無關的。

llms.txt 實際有效嗎?證據顯示什麼

這是最重要的問題 — 誠實的答案是:有效性的證據薄弱到不存在

服務器日誌分析顯示什麼

測試 AI 爬蟲是否使用 llms.txt 最直接的方法是分析服務器日誌並檢查 AI 機器人是否實際訪問該文件。自該格式提出以來,已經進行了多項獨立分析。

對在 2025 年中期至 2026 年 4 月之間實施 llms.txt 的網站的服務器日誌分析一致顯示相同的模式:AI 爬蟲很少訪問 llms.txt 文件。GPTBot(OpenAI 的爬蟲)、Google-Extended(Google 的 AI 爬蟲)、PerplexityBot 和 ClaudeBot 都顯示對 llms.txt 文件的訪問率接近零,即使在文件正確實施且可訪問的網站上也是如此。[2]

傳統搜尋爬蟲如 Googlebot 和 Bingbot 確實偶爾訪問 llms.txt 文件 — 但它們對它們沒有特殊優先級,訪問它們的頻率與網站上的任何其他頁面相同。

相關性研究顯示什麼

Authoritas AI 可見度指數(2026 年 4 月 24 日)[3] 分析了 10,000 個域名 — 5,000 個有 llms.txt 文件,5,000 個沒有 — 發現 llms.txt 採用與 AI 引用量、引用準確性或 AI 生成答案中的聲音份額之間沒有統計學上的顯著相關性。

在實施 llms.txt 後看到 AI 可見度提升的網站顯示出與未實施該文件的可比網站相同的提升軌跡 — 表明提升可歸因於其他因素(內容質量提升、Schema 標記、增加的反向鏈接)而不是 llms.txt 文件本身。

官方聲明說什麼

Google 的 John Mueller 在 2025 年底在 Bluesky 上表示:「FWIW 目前沒有 AI 系統使用 llms.txt。」截至 2026 年 4 月,沒有主要 AI 公司發表聲明反駁這一立場或確認他們的爬蟲使用 llms.txt 文件。[4]

證據總結
三條獨立的證據線 — 服務器日誌分析、相關性研究和官方聲明 — 都指向相同的結論:llms.txt 目前不影響 AI 爬蟲行為或 AI 引用結果。如果主要 AI 公司採用該標準,這可能會改變,但目前沒有確認的時間表。

你應該實施 llms.txt 嗎?

決定取決於你團隊的帶寬、技術能力和對實驗未經證實標準的胃口。

實施如果...

你有開發者帶寬並想實驗。你的網站有複雜的文檔,爬蟲難以導航。你是開發者專注的 SaaS 品牌,早期採用信號技術可信度。你想在標準獲得官方採用時做好準備。

跳過如果...

你的開發者時間有限,需要優先考慮已證明的 AI 可見度策略。你期望 AI 引用或流量有可測量的提升。你將它視為 Schema 標記、FAQ 結構或比較內容的替代品。你需要用數據證明投資的合理性。

這裡的機會成本很重要。創建和維護 llms.txt 文件的時間可以花在具有確認有效性的策略上:在功能頁面上添加 FAQ Schema、在定價頁面上實施 SoftwareApplication Schema、構建 HTML 表格比較頁面,或創建獲得引用的原創研究。這些投資有可測量的記錄。llms.txt 沒有。

正確的心智模型
將 llms.txt 視為你對早期階段任何實驗性網絡標準的思考方式:實施成本低,上行空間未知,沒有確認的下行風險。如果你有帶寬,這是一個合理的實驗。如果你沒有,這是一個合理的跳過事項。它本身不是一個有意義的 AI 可見度策略。

如何創建和部署 llms.txt 文件

如果你決定實驗 llms.txt,實施過程是直接的 — 但確實需要開發者參與才能正確部署文件。

1
決定要突出顯示什麼內容

確定你網站的哪些頁面或章節應該為 AI 爬蟲突出顯示。保持文件策劃和專注 — 一個簡短的、最準確、引用就緒的頁面列表比第二個 sitemap 更有用。對於大多數網站,這意味著:產品或服務頁面、當前定價、關鍵文檔、關於頁面和聯繫頁面。避免包括過時的博客文章、薄弱內容或信息經常變化的頁面。

2
用 Markdown 創建文件

打開文本編輯器(記事本、VS Code 或任何純文本編輯器)並創建一個名為 llms.txt 的新文件。使用 Markdown 格式化它。一個最小但完整的結構:

# 你的網站名稱 > 一句話描述你的網站或產品做什麼。 ## 產品 - [產品名稱](https://example.com/product): 它做什麼以及適合誰 - [定價](https://example.com/pricing): 計劃層級和起始價格 ## 文檔 - [入門指南](https://example.com/docs): 設置和入職指南 - [API 參考](https://example.com/api): 完整的 API 文檔 ## 公司 - [關於我們](https://example.com/about): 公司背景和使命 - [聯繫我們](https://example.com/contact): 如何聯繫團隊
3
上傳到正確的目錄

將文件放在域名的根目錄中,使其可通過 https://yourdomain.com/llms.txt 訪問。如果該文件僅涵蓋子域(如 docs.yourdomain.com 的文檔),請將其放在相應的子目錄中。通過你的主機控制面板(cPanel → 文件管理器 → public_html/)或通過你的部署管道上傳。上傳後,通過在瀏覽器中直接訪問 URL 來驗證。

4
隨時間維護文件

指向更改或刪除頁面的過時 llms.txt 文件比沒有文件更糟 — 它將 AI 爬蟲指向過時或損壞的內容。每季度審查文件:刪除指向過時頁面的鏈接、在產品名稱或功能更改時更新描述,並添加指向重要新內容的鏈接。將它視為活文檔,而不是一次性設置任務。

替代方案:更高 ROI 的 AI 可見度策略

如果你的目標是改善 AI 系統在生成答案中代表你的品牌的方式,以下策略比 llms.txt 有更強的證據基礎:

  • 功能和幫助頁面上的 FAQ Schema。 結構化 FAQ 標記為 AI 系統提供乾淨、自包含的答案塊以提取。這對精選摘要選擇有確認的影響,並且是目前最接近已證明的 AI 提取信號的東西。參見:[內部鏈接:如何為 AI 可見度添加 FAQ Schema]
  • 產品和定價頁面上的 SoftwareApplication Schema。 機器可讀的產品元數據減少 AI 系統如何代表你的產品類別、定價和功能的歧義。
  • HTML 表格比較頁面。 比較內容是 AI 生成 SaaS 答案中最常被引用的頁面類型之一。基於圖片的表格對 AI 提取是不可見的;HTML 表格不是。
  • 所有頁面上 consistent 的產品命名。 實體一致性 — 在產品頁面、文檔、FAQ 和比較頁面上對同一功能使用相同的名稱 — 減少導致 AI 誤報的實體混淆。
  • 原創研究和數據支持的專家引用。 提供獨特、可驗證信息的內容獲得引用,因為 AI 系統無法在其他地方找到它。總結其他來源已有內容的通用內容很少獲得引用。
優先級順序
如果你正在分配有限的技術 SEO 帶寬,按以下順序優先考慮:(1)FAQ Schema,(2)SoftwareApplication Schema,(3)HTML 比較表格,(4)實體一致性審計,(5)原創研究。llms.txt 在所有這些之後 — 如果你還有帶寬。

關於 llms.txt 的常見問題

llms.txt 能提升 AI 搜尋可見度嗎?
截至 2026 年 4 月,沒有確認的證據表明 llms.txt 能提升 AI 搜尋可見度。服務器日誌分析顯示 AI 爬蟲很少訪問該文件,相關性研究發現 llms.txt 採用與 AI 引用量或準確性之間沒有統計學上的顯著關係。如果主要 AI 公司正式採用該標準,該標準可能會變得更相關,但目前沒有確認的時間表。
llms.txt 是官方網絡標準嗎?
不是。llms.txt 是由 Answer.AI 創建的提案標準,不是官方的 W3C 或 IETF 標準。截至 2026 年 4 月,它尚未被 OpenAI、Google、Anthropic、Perplexity 或任何其他主要 AI 公司採用。這將它與 robots.txt(RFC 9309)和 sitemap.xml(sitemaps.org 協議)區分開來,後者是具有主要搜尋引擎確認支持的官方標準。
我應該將 llms.txt 文件放在哪裡?
將你的 llms.txt 文件放在域名的根目錄中,可通過 https://yourdomain.com/llms.txt 訪問。如果該文件僅涵蓋子域(如 docs.yourdomain.com 的文檔),請將其放在相應的子目錄中。上傳後,通過在瀏覽器中直接訪問 URL 來驗證它是否可訪問。
我應該在 2026 年實施 llms.txt 嗎?
僅在你有開發者帶寬並想實驗未經證實的標準時才實施。llms.txt 不是任何主要 AI 平台的確認排名或引用信號。在投入時間在 llms.txt 之前,優先考慮 FAQ Schema、SoftwareApplication Schema、HTML 比較表格和實體一致性。如果你確實實施它,保持文件小、策劃和更新。
Anthropic 的 Claude 使用 llms.txt 文件嗎?
Anthropic 已經在自己的網站上發布了 llms.txt 文件,但未確認 ClaudeBot 在爬取其他網站時閱讀 llms.txt 文件。發布文件和使用其他人發布的文件是完全不同的事情。截至 2026 年 4 月,沒有主要 AI 公司確認他們的爬蟲使用 llms.txt 文件。
llms.txt 會損害我網站的 SEO 嗎?
沒有證據表明實施 llms.txt 會對傳統 SEO 產生負面影響。該文件是一個純文本 Markdown 文檔,不會干擾 robots.txt、sitemaps 或 Schema 標記。主要風險是機會成本 — 花在 llms.txt 上的時間可以花在具有更強 AI 可見度提升證據基礎的策略上。