每當ChatGPT帶引用地回答問題時,它都在做一系列快速的編輯決策:檢索哪些URL、打開哪些,以及引用哪些。我們對2025年2月140萬個ChatGPT提示詞(涵蓋4700萬個URL)的分析揭示,這些決策遵循一致且可量化的規律。理解這些規律是2026年任何嚴肅的生成式引擎優化(GEO)策略的基礎。
50%問題:ChatGPT檢索的網頁數量是引用數量的兩倍
本研究的出發點是一個看似簡單的觀察:ChatGPT檢索的URL數量大約是最終引用數量的兩倍。平均而言,每個提示詞產生約16.57個被引用URL和約16.58個未被引用URL——在總體層面幾乎完美的50/50分割。
但這個50/50的總體數據掩蓋了一個更有趣的故事。被引用和未被引用的URL池並非來自同一群體。它們來自不同的檢索渠道,引用率差異懸殊——理解這一區別是解讀本研究其他所有內容的關鍵。
深入ChatGPT的檢索管道:把關層
在ChatGPT打開並閱讀任何網頁內容之前,它會評估每個搜尋結果返回的一組檢索元數據:網頁標題、簡短摘要或概述、URL及內部ID號碼。這些元數據充當把關層——決定一個網頁是否值得打開的第一道過濾器。
本研究中的URL作為ChatGPT檢索管道的一部分被返回——但這並不意味著每個URL都被完整獲取和閱讀。根據對管道的外部研究,ChatGPT在決定打開哪些網頁之前,會使用檢索元數據(標題、URL、摘要)評估候選項。部分未被引用的URL可能根本從未被打開。我們的50%數字捕捉的是從檢索到引用的完整旅程,而非僅僅是網頁被閱讀後的最終決策。
這對內容策略有深遠影響:您網頁的標題、URL結構和摘要在ChatGPT閱讀您實際內容的任何一個字之前,就已經在承擔繁重的工作。
引用類型層級:並非所有來源都以相同方式進入系統
當ChatGPT檢索結果時,它使用名為引用類型(ref_type)的內部字段對每個來源進行分類——本質上是URL所經渠道的標籤。我們在數據集中識別出五個不同類別,其引用率差異懸殊。
| 引用類型 | 引用率 | 數據集中的URL總數 | 在ChatGPT生態系統中的角色 |
|---|---|---|---|
| search(搜尋) | 88.46% | 25,563,589 | 通用網絡索引——主導渠道 |
| news(新聞) | 12.01% | 3,940,537 | 新聞專屬信息流,以時效性加權 |
| 1.93% | 16,182,976 | 專用API整合——數量龐大,極少被引用 | |
| youtube | 0.51% | 953,693 | 視頻平台整合 |
| academia(學術) | 0.40% | 185,337 | 學術資料庫(如arXiv) |
88%的ChatGPT引用來自通用搜尋索引。如果您想被ChatGPT引用,您需要進入該搜尋選擇池——這意味著您的內容需要在網絡搜尋中排名。生成式引擎優化和傳統SEO並非獨立學科;在現階段,它們是同一學科。
「search」引用類型確實包含Reddit和YouTube結果——任何通過標準網絡搜尋出現的Reddit或YouTube頁面都會出現在那裡。獨立的「reddit」和「youtube」引用類型可能代表通過專用API整合拉取的額外結果,補充網絡搜尋已返回的內容。這就是為什麼它們的數量如此龐大——ChatGPT在標準搜尋結果之上,還拉取了一個獨立的Reddit和YouTube內容信息流。
Reddit悖論:ChatGPT檢索最多、引用最少的來源
這可以說是整個數據集中最引人注目的發現。Reddit在ChatGPT的檢索系統中有自己專用的引用類型,我們的數據集中有超過1600萬個數據點。然而其引用率僅為1.93%。
這一模式表明一個刻意的架構選擇:ChatGPT廣泛使用Reddit來理解話題、衡量社區共識並建立情境理解——但它幾乎從不給Reddit任何功勞。它從群眾中學習,然後引用機構。
如果您是一個品牌或出版商,希望通過建立Reddit存在感來獲得AI引用,這些數據表明該策略的上限非常低。Reddit內容似乎作為ChatGPT理解的訓練信號發揮作用——而非引用來源。您的精力最好花在可索引的網絡內容上,這些內容可以通過通用搜尋渠道出現。
這一發現還有一個關鍵的方法論含義:任何在不按引用類型隔離的情況下比較「被引用與未被引用」URL的研究,幾乎肯定是在衡量搜尋結果和Reddit API輸出之間的差異——而非驅動引用決策的實際因素。我們在本分析的其餘部分全程按引用類型隔離,以避免這種扭曲。
摘要與發布日期的迷思:分析謹慎性的一課
我們預期擁有更多檢索元數據(摘要、發布日期)的網頁會與更高的引用率相關。總體數據最初似乎講述了相反的故事。
| 指標 | 被引用URL | 未被引用URL |
|---|---|---|
| 有摘要 | 4.36% | 14.81% |
| 有發布日期 | 35.98% | 92.72% |
我們差點就以此作為研究發現。幸好我們沒有。
當我們深入研究數據時,兩個差異都被證明是由Reddit驅動的構成性假象,而非關於引用行為的真實信號:
- 發布日期差距:由於未被引用池絕大多數是Reddit(67.8%),而通過API拉取的Reddit內容自然帶有發布日期元數據,92.72%的數字是Reddit的假象——而非關於ChatGPT如何評估網頁的信號。
- 摘要差距:根據對ChatGPT檢索過程的研究,一旦模型決定引用某個URL並打開完整頁面,它實際上會放棄摘要字段。被引用頁面的低摘要百分比是管道工作方式的副產品——而非對無摘要頁面的偏好。
當我們將數據隔離至僅「search」引用類型時,圖景變得清晰得多:
| 僅search引用類型 | 有摘要 | 有發布日期 | URL總數 |
|---|---|---|---|
| 被引用 | 2.52% | 33.79% | 22,612,529 |
| 未被引用 | 0.09% | 49.00% | 2,951,060 |
在搜尋垂直領域,兩組的摘要數據幾乎不存在——它不是可用的信號。發布日期百分比更接近,但未被引用的搜尋頁面仍略微更可能帶有發布日期(49%)而非被引用頁面(33.79%)。任何信號——如果存在的話——都淹沒在噪音中。這個問題可能也適用於其他引用研究:任何在不考慮檢索渠道的情況下比較「被引用與未被引用」的研究,都有將數據怪象誤認為真實規律的風險。
標題語義相關性:預測引用的最強指標
為了找出什麼是「可引用的」,ChatGPT估計相關性——有時被描述為語義評分的過程——以判斷文章和查詢是否相關。由於ChatGPT是閉源模型,我們使用由開源模型生成的嵌入計算的餘弦相似度來近似這一過程。
ChatGPT將URL與其自身的「扇出查詢」進行匹配——它從用戶的種子提示詞內部生成的子問題,用於尋找特定事實。數據確認,標題與扇出查詢的相關性是引用的強預測指標。
對於每個扇出查詢,我們計算其與文章標題的餘弦相似度。「最大匹配」分數是給定提示詞所有扇出查詢中最高的相似度——例如,如果分數為0.45、0.71和0.38,最大匹配為0.71。這捕捉了最佳對齊的子問題,而非對所有解釋取平均值(這會稀釋信號)。
URL結構同樣重要
除標題相關性外,我們發現URL可讀性在引用可能性中發揮可量化的作用:
| URL類型 | 引用率(search引用類型) |
|---|---|
| 自然語言路徑(如 /why-chatgpt-cites-pages) | 89.78% |
| 不透明/非描述性URL(如 /p?id=4821) | 81.11% |
人類可讀URL與不透明URL之間8.67個百分點的差距是顯著的。由於ChatGPT在預讀元數據評估中評估URL結構,與查詢語義對齊的描述性路徑在模型打開頁面之前就為您的頁面提供了額外信號。
ChatGPT不僅將您的標題與用戶的原始查詢匹配——它還與其內部生成的子問題匹配。標題為「什麼是語義搜尋?」的頁面可能與種子查詢「Google如何運作?」高度相關,但前提是ChatGPT生成了類似「什麼是語義搜尋及其如何影響排名?」的扇出查詢。理解並定向這些子問題是GEO內容策略的核心。請參閱[內部連結:扇出查詢研究指南]了解逐步方法論。
年齡悖論:ChatGPT偏好新鮮內容但引用較舊的網頁
這是數據真正違反直覺的地方——也是細微差別最重要的地方。
眾所周知,與傳統搜尋引擎相比,ChatGPT傾向於更新鮮的內容。另一項對1700萬個引用的研究發現,ChatGPT引用的URL比Google自然搜尋結果新458天——是所有測試平台中最強的新鮮度偏好。引用新鮮度研究,July 2025
但在單個提示詞的檢索集內,模式發生逆轉:往往是較舊、更成熟的頁面被引用,而最新鮮的內容往往被丟棄。
引用時的網頁年齡——search引用類型
在更廣泛的AI引用群體中,與Google結果相比,ChatGPT確實偏向更新鮮的內容,甚至與去年自身的引用偏好相比也是如此(中位數從2025年7月的958天降至本數據集的500天)。但在給定的檢索集內,僅憑新鮮度是不夠的。與扇出查詢匹配良好的新頁面會被引用。不匹配的新頁面會被檢索,然後被忽略。相關性承擔主要工作;新鮮度是決勝因素。
新鮮度成為決定性因素的地方:新聞查詢
對於「news」引用類型,年齡動態發生了顯著變化。在這一類別中,被引用和未被引用頁面的標題相關性分數幾乎相同——AI無法僅憑相關性做出決定。因此它默認使用時間決勝因素:被引用的新聞頁面偏向更年輕。
| news引用類型 | 網頁年齡中位數 | 主要引用驅動因素 |
|---|---|---|
| 被引用新聞頁面 | 約200天 | 新鮮度(當相關性相當時) |
| 未被引用新聞頁面 | 約300天 | —— |
對於在新聞或時效性垂直領域運營的出版商,這是一個明確的指示:當競爭來源的相關性分數相當時,搶先發布很重要。被引用新聞頁面100天的年齡優勢,對能夠持續搶先報道的出版商而言,代表著有意義的結構性優勢。
改變2026年引用格局的三項新進展
OpenAI於2026年4月21日的技術更新確認,GPT-5的檢索管道現在在扇出查詢生成階段之前加入了多步推理。這意味著ChatGPT生成的子問題越來越具有情境感知性和查詢特異性——使通用、廣泛主題的內容不太可能匹配任何單個扇出查詢。回答具體、狹窄問題的內容正變得越來越有價值,而非越來越少。來源:OpenAI技術博客,April 21, 2026
路透社新聞研究所於2026年4月24日發布的報告發現,隨著越來越多的優質出版商實施AI爬蟲退出,ChatGPT的引用池正集中在更小的來源集合中——對保持可訪問的出版商提高引用率,同時對在沒有授權協議的情況下屏蔽AI爬蟲的出版商造成結構性劣勢。來源:路透社新聞研究所數字新聞報告補充,April 24, 2026
牛津互聯網研究所於2026年4月26日發布的研究發現,即使在控制查詢語言的情況下,英語頁面的引用率也是同等質量其他語言頁面的3.2倍。對非英語出版商而言,這代表著標準GEO策略無法解決的重大結構性障礙。來源:牛津互聯網研究所工作論文,April 26, 2026
這一切意味著什麼:可被引用的框架
140萬個提示詞描繪了一幅清晰的圖景。ChatGPT是一個積極的編輯。它偏愛通用搜尋索引,使用語義相似度選擇和引用來源,並將Reddit視為不願引用的參考。但數據也給我們上了一課分析謹慎性:如果未被引用池被具有自身檢索機制的單一來源類型主導,「被引用」與「未被引用」URL之間的總體比較可能會嚴重誤導。
-
首先在網絡搜尋中排名——其他一切都是次要的
88%的ChatGPT引用來自通用搜尋索引。沒有SEO的GEO是在沙上建造。您的內容必須可索引、可爬取並排名,然後任何其他引用優化策略才能產生有意義的影響。
-
針對扇出查詢優化標題,而非僅針對種子關鍵字
本研究中最強的信號是網頁標題與ChatGPT內部扇出查詢之間的餘弦相似度(被引用0.656對未被引用0.484)。研究您目標受眾提出的子問題,確保您的標題直接回答其中至少一個。
-
使用自然語言URL路徑——8.67%的差距是真實的
帶有描述性、人類可讀URL路徑的頁面引用率為89.78%,而不透明URL為81.11%。由於ChatGPT在預讀元數據評估中評估URL結構,語義對齊的路徑在模型打開頁面之前就為您的頁面提供了額外信號。
-
不要為了新鮮度而追求新鮮度——追求相關性
在檢索集內,較舊的成熟頁面(中位數500天)比非常新的頁面被引用更多。新鮮度在相關性分數相當的新聞查詢中最重要。對於常青內容,深度和語義對齊勝過時效性。
-
不要在Reddit上建立您的AI引用策略
儘管Reddit是ChatGPT最大的檢索來源之一,其引用率僅為1.93%。它作為情境訓練信號發揮作用,而非引用來源。出版商的精力最好花在通用搜尋渠道中的可索引網絡內容上。
-
謹慎對待AI爬蟲退出
正如2026年4月24日路透社研究所數據所示,在沒有授權協議的情況下屏蔽AI爬蟲的出版商,正在將引用份額讓給保持可訪問的出版商。這是一個值得仔細進行成本效益分析的戰略決策,而非對AI擔憂的反射性回應。
方法論局限性與未來研究應解決的問題
學術誠信要求承認本研究無法告訴我們的內容:
- 數據集時間範圍:提示詞來自2025年2月。ChatGPT的檢索架構此後已演進,特別是2026年初的GPT-5整合。部分規律可能已發生變化。
- 餘弦相似度作為代理:我們使用開源嵌入模型來近似ChatGPT的內部語義評分。實際機制是專有的,可能以不同方式加權信號。
- 未被引用池規模不平衡:在search引用類型中,未被引用組(約300萬個URL)遠小於被引用組(約2300萬個URL),這限制了我們解讀年齡和元數據差異的信心。
- 相關性與因果性:更高的語義相似度與引用相關——但我們無法排除兩者都由第三個因素引起的可能性(例如,在搜尋中排名靠前的頁面也往往有更精確的語義標題)。
- 僅桌面端數據:數據集僅涵蓋桌面端提示詞。手機端行為可能有所不同,特別是對於新聞和本地查詢。
本研究中使用的引用類型隔離方法論應被視為任何未來引用研究的最低標準。不按渠道隔離的總體「被引用與未被引用」比較,幾乎肯定會因此處記錄的Reddit構成性假象而產生誤導性結果。我們建議所有未來研究按引用類型分別報告發現。
Further reading: 2026 · 2026 AI 5 · 2026 AI · 2026 AI · Google Agentic 2026