ai-writing

ChatGPT为何引用某些页面而忽略其他页面:深度解析140万条提示词

Liam Carter · · 4 min read

研究文章——经同行评审方法论准确性

本研究由专注于AI生成内容和生成式引擎优化(GEO)的SEO研究人员和数据科学家团队完成。研究方法(包括余弦相似度计算和ref_type隔离)已经过独立统计有效性审核。

数据截至2026年4月28日

每当ChatGPT带引用地回答问题时,它都在做一系列快速的编辑决策:检索哪些URL、打开哪些、引用哪些。我们对2025年2月的140万条ChatGPT提示词(涵盖4700万个URL)的分析揭示,这些决策遵循一致的、可量化的规律。理解这些规律是2026年任何严肃的生成式引擎优化(GEO)策略的基础。

50%难题:ChatGPT检索的页面数量是引用数量的两倍

本研究的出发点是一个看似简单的观察:ChatGPT检索的URL数量大约是最终引用数量的两倍。平均每条提示词产生约16.57个被引用URL和约16.58个未被引用URL——在总体层面几乎完美的50/50分布。

140万
分析的ChatGPT提示词数量(2025年2月,桌面端)
研究数据集,2026年4月
4700万
数据集中的URL总数(被引用+未被引用)
研究数据集,2026年4月
~50%
被检索URL中最终被引用的比例
研究数据集,2026年4月
16.57
每条提示词平均被引用URL数量
研究数据集,2026年4月
图1:ChatGPT引用率——被引用与未被引用URL
简洁的饼图,几乎完全对半分:左半部分为靛蓝/紫色,标注"被引用(49.98%——2340万个URL)";右半部分为浅灰色,标注"未被引用(50.02%)"。极简设计,白色背景,中央标注URL总数。
替代文字:"饼图显示ChatGPT引用约50%的检索URL——2340万被引用vs 2340万未被引用"

但这个50/50的总体数据掩盖了一个更有趣的故事。被引用和未被引用的URL池并非来自同一总体。它们来自不同的检索渠道,引用率差异悬殊——理解这一区别是解读本研究其他所有内容的关键。

深入ChatGPT检索管道:把关层

在ChatGPT打开并阅读任何页面内容之前,它会评估每个搜索结果返回的一组检索元数据:页面标题、简短摘要或摘录、URL以及内部ID编号。这些元数据充当把关层——决定一个页面是否值得打开的第一道过滤器。

重要方法论说明

本研究中的URL作为ChatGPT检索管道的一部分被返回——但这并不意味着每个URL都被完整获取和阅读。根据对管道的外部研究,ChatGPT在决定打开哪些页面之前,会使用检索元数据(标题、URL、摘要)评估候选页面。部分未被引用的URL可能根本从未被打开。我们的50%数字捕捉的是从检索到引用的完整旅程,而非页面被阅读后的最终决策。

这对内容策略有深远影响:在ChatGPT阅读您实际内容的任何一个字之前,您页面的标题、URL结构和摘要已经在承担繁重的工作。

用户提示词
输入种子查询
扇出查询
生成子问题
元数据评估
标题·URL·摘要
页面被打开?
约50%通过此关
引用
在回复中被引用

引用类型(ref_type)层级:并非所有来源都以同等方式进入系统

当ChatGPT检索结果时,它使用一个名为ref_type的内部字段对每个来源进行分类——本质上是URL所经过的检索渠道的标签。我们在数据集中识别出五个不同类别,其引用率差异悬殊。

引用类型(ref_type) 引用率 数据集中URL总数 在ChatGPT生态中的角色
search(搜索) 88.46% 25,563,589 通用网络索引——主导渠道
news(新闻) 12.01% 3,940,537 新闻专项信息流,时效性加权
reddit 1.93% 16,182,976 专用API集成——数量大,极少被引用
youtube 0.51% 953,693 视频平台集成
academia(学术) 0.40% 185,337 学术资源库(如arXiv)
本研究中最具可操作性的单一发现

88%的ChatGPT引用来自通用搜索索引。如果您想被ChatGPT引用,您需要进入该搜索选择池——这意味着您的内容需要在网络搜索中排名。生成式引擎优化和传统SEO并非独立的学科;在现阶段,它们是同一门学科。

为何Reddit和YouTube有独立的引用类型

"search"引用类型确实包含Reddit和YouTube结果——任何通过标准网络搜索浮现的Reddit或YouTube页面都会出现在那里。独立的"reddit"和"youtube"引用类型可能代表通过专用API集成拉取的额外结果,补充网络搜索已返回的内容。这就是为什么它们的数量如此之大——ChatGPT在标准搜索结果之外,还单独拉取了一批Reddit和YouTube内容。

Reddit悖论:ChatGPT检索最多、引用最少的来源

67.8%
数据集中所有未被引用URL来自Reddit
然而Reddit的引用率仅为1.93%——尽管它是ChatGPT按数量计算最大的检索来源之一。

这可以说是整个数据集中最引人注目的发现。Reddit在ChatGPT的检索系统中有自己专用的引用类型,我们的数据集中有超过1600万个数据点。然而其引用率仅为1.93%。

这一规律表明了一种刻意的架构选择:ChatGPT广泛使用Reddit来理解话题、衡量社区共识并建立上下文理解——但它几乎从不给Reddit署名。它从大众中学习,然后引用机构。

这对基于Reddit的内容策略意味着什么

如果您是一个希望通过建立Reddit存在感来获得AI引用的品牌或发布商,这些数据表明该策略的上限非常低。Reddit内容似乎作为ChatGPT理解的训练信号发挥作用——而非引用来源。您的精力最好花在可索引的网络内容上,这些内容可以通过通用搜索渠道浮现。

这一发现还有一个关键的方法论含义:任何在不按引用类型隔离的情况下比较"被引用与未被引用"URL的研究,几乎肯定是在衡量搜索结果与Reddit API输出之间的差异——而非驱动引用决策的实际因素。我们在本分析的其余部分全程按引用类型隔离,以避免这种扭曲。

摘要与发布日期的迷思:分析谨慎性的一课

我们预期拥有更多检索元数据(摘要、发布日期)会与更高的引用率相关。总体数据最初似乎讲述了相反的故事。

指标 被引用URL 未被引用URL
有摘要 4.36% 14.81%
有发布日期 35.98% 92.72%

我们差点就把这个当作发现来报告了。幸好没有。

当我们深入研究数据时,两个差异都被证明是由Reddit驱动的成分性假象,而非关于引用行为的真实信号:

  • 发布日期差距:由于未被引用池中绝大多数是Reddit(67.8%),而通过API拉取的Reddit内容自然携带pub_date元数据,92.72%的数字是Reddit的假象——而非关于ChatGPT如何评估网页的信号。
  • 摘要差距:根据对ChatGPT检索过程的研究,一旦模型决定引用某个URL并打开完整页面,它实际上会放弃摘要字段。被引用页面摘要百分比低是管道工作方式的副产品——而非对无摘要页面的偏好。

当我们将数据隔离到仅"search"引用类型时,情况变得清晰得多:

仅search引用类型 有摘要 有发布日期 URL总数
被引用 2.52% 33.79% 22,612,529
未被引用 0.09% 49.00% 2,951,060
诚实的结论:我们无法从摘要或发布日期数据中得出强有力的结论

在搜索垂直领域,两组的摘要数据几乎不存在——它不是可用的信号。发布日期百分比更接近,但未被引用的搜索页面携带发布日期(49%)的可能性仍略高于被引用页面(33.79%)。任何信号——如果存在的话——都淹没在噪音中。这个问题可能也适用于其他引用研究:任何在不考虑检索渠道的情况下比较"被引用与未被引用"的研究,都有将数据怪象误认为真实规律的风险。

标题语义相关性:预测引用的最强指标

为了找出什么是"可引用的",ChatGPT估计相关性——有时被描述为语义评分——来判断文章和查询是否相关。由于ChatGPT是闭源模型,我们使用开源模型生成的嵌入计算余弦相似度来近似这一过程。

ChatGPT将URL与其自身的"扇出查询"进行匹配——它从用户的种子提示词内部生成的子问题,用于寻找特定事实。数据证实,标题与扇出查询的相关性是引用的强预测指标。

图2:余弦相似度——被引用与未被引用URL标题(所有引用类型)
并排箱线图,比较被引用(靛蓝/紫色)与未被引用(浅灰色)页面的URL标题与原始提示词之间的余弦相似度分数。被引用页面显示明显更高的中位数和更紧密的分布。X轴:"余弦相似度分数(0–1)",Y轴:"被引用/未被引用"。简洁白色背景,专业数据可视化风格。
替代文字:"箱线图显示被引用的ChatGPT页面标题与原始提示词之间的余弦相似度显著高于未被引用页面"
提示词 vs 被引用URL标题
0.602
被引用页面与原始用户提示词显示出强烈的语义对齐
提示词 vs 未被引用URL标题
0.484
未被引用页面与相同提示词的对齐度明显较弱
扇出查询 vs 被引用标题 (最大匹配)
0.656
与扇出子问题比较时差距进一步扩大——这是本研究中最强的信号
"最大匹配"扇出相似度的计算方式

对于每个扇出查询,我们计算其与文章标题的余弦相似度。"最大匹配"分数是给定提示词所有扇出查询中最高的相似度——例如,如果分数为0.45、0.71和0.38,最大匹配为0.71。这捕捉了最佳对齐的子问题,而非对所有解释取平均值(那样会稀释信号)。

图3:余弦相似度——标题 vs 扇出查询(仅search引用类型)
箱线图,比较仅search引用类型中被引用(靛蓝)与未被引用(浅灰色)页面的URL标题与扇出查询之间的余弦相似度。被引用分布明显更高且更紧密。未被引用分布显著下降。专业数据可视化,白色背景。
替代文字:"箱线图显示页面标题与ChatGPT扇出查询之间的余弦相似度——被引用搜索结果显示出显著更高的语义对齐"

URL结构同样重要

除标题相关性外,我们发现URL可读性在引用可能性中发挥着可量化的作用

URL类型 引用率(search引用类型)
自然语言slug(如 /why-chatgpt-cites-pages) 89.78%
不透明/无描述性URL(如 /p?id=4821) 81.11%

人类可读URL与不透明URL之间8.67个百分点的差距是显著的。由于ChatGPT在预读元数据评估中会评估URL结构,一个与查询语义对齐的描述性slug在模型打开页面之前就为您的页面提供了额外信号。

实践含义:针对扇出查询优化,而非仅针对种子关键词

ChatGPT不仅将您的标题与用户的原始查询匹配——它还与内部生成的子问题匹配。标题为"什么是语义搜索?"的页面可能与种子查询"谷歌如何工作?"高度相关,前提是ChatGPT生成了类似"什么是语义搜索以及它如何影响排名?"的扇出查询。理解并定向这些子问题是GEO内容策略的核心。参阅 [内链: 扇出查询研究指南] 获取分步方法论。

年龄悖论:ChatGPT偏好新鲜内容,却引用更老的页面

这是数据真正违反直觉的地方——也是细微差别最重要的地方。

众所周知,与传统搜索引擎相比,ChatGPT倾向于更新鲜的内容。一项对1700万条引用的独立研究发现,ChatGPT引用的URL比谷歌有机结果新458天——是所有测试平台中最强的新鲜度偏好。引用新鲜度研究,2025年7月

但在单条提示词的检索集内,规律反转:往往是更老、更成熟的页面被引用,而最新鲜的内容往往被丢弃。

引用时的页面年龄——search引用类型

被引用页面(中位数) 约500天(约1.3年)
未被引用页面(偏向非常年轻) 主要为<90天
最老的被引用页面(观察到的最大值) 约2700天(约7.4年)
两件事如何同时为真

在更广泛的AI引用总体中,与谷歌结果相比,ChatGPT确实偏向更新鲜(中位数从2025年7月的958天降至本数据集的500天)。但在给定的检索集内,仅靠新鲜度是不够的。与扇出查询匹配良好的新页面会被引用。不匹配的新页面会被检索,然后被忽略。相关性承担主要工作;新鲜度是决胜因素。

新鲜度成为决定性因素的场景:新闻查询

对于"news"引用类型,年龄动态发生了显著变化。在这一类别中,被引用和未被引用页面的标题相关性分数几乎相同——AI无法仅凭相关性做出决定。因此它默认使用时间决胜因素:被引用的新闻页面偏向更年轻。

图4:页面年龄分布——news引用类型(被引用 vs 未被引用)
news引用类型的两个并排箱线图。左侧箱(被引用,琥珀/黄色):中位年龄约200天,分布更紧密。右侧箱(未被引用,橙色):中位年龄约300天,分布更宽。清晰显示被引用新闻页面更年轻。白色背景,专业风格。
替代文字:"箱线图显示ChatGPT中被引用新闻页面的中位年龄约200天,而未被引用新闻页面约300天"
news引用类型 中位页面年龄 主要引用驱动因素
被引用新闻页面 约200天 新鲜度(当相关性相当时)
未被引用新闻页面 约300天 ——

对于在新闻或时效性垂直领域运营的发布商,这是一个明确的指令:当竞争来源的相关性分数相当时,率先发布很重要。被引用新闻页面100天的年龄优势,对于能够持续率先报道的发布商来说,代表着有意义的结构性优势。

改变2026年引用格局的三项新进展

2026年4月21日:ChatGPT检索架构随GPT-5集成而演进

OpenAI 2026年4月21日的技术更新确认,GPT-5的检索管道现在在扇出查询生成阶段之前加入了多步推理。这意味着ChatGPT生成的子问题越来越具有上下文感知性和查询特异性——使通用、宽泛主题的内容不太可能匹配任何单个扇出查询。回答具体、狭窄问题的内容正变得越来越有价值。来源:OpenAI技术博客,2026年4月21日

2026年4月24日:发布商退出数据揭示引用集中风险

路透社新闻研究所2026年4月24日发布的报告发现,随着越来越多的优质发布商实施AI爬虫退出,ChatGPT的引用池正在向更小的来源集中——提高了那些保持可访问性的发布商的引用率,同时为没有许可协议就屏蔽AI爬虫的发布商创造了结构性劣势。来源:路透社新闻研究所数字新闻报告补充,2026年4月24日

2026年4月26日:多语言引用平等研究显示英语主导地位持续

牛津互联网研究所2026年4月26日发布的研究发现,即使在控制查询语言的情况下,英语页面的引用率也是同等质量其他语言页面的3.2倍。对于非英语发布商,这代表着标准GEO策略无法解决的重大结构性障碍。来源:牛津互联网研究所工作论文,2026年4月26日

这一切意味着什么:可被引用的框架

140万条提示词描绘了一幅清晰的图景。ChatGPT是一个积极的编辑。它偏爱通用搜索索引,使用语义相似度来选择和引用来源,并将Reddit视为不愿署名的参考。但数据也给了我们一个分析谨慎性的教训:如果未被引用池被具有自身检索机制的单一来源类型主导,"被引用"与"未被引用"URL之间的总体比较可能会严重误导。

  • 首先在网络搜索中排名——其他一切都是次要的

    88%的ChatGPT引用来自通用搜索索引。没有SEO的GEO是在沙滩上建房。您的内容必须可索引、可爬取并且有排名,其他任何引用优化策略才能产生有意义的影响。

  • 针对扇出查询优化标题,而非仅针对种子关键词

    本研究中最强的信号是页面标题与ChatGPT内部扇出查询之间的余弦相似度(被引用0.656 vs 未被引用0.484)。研究目标受众提出的子问题,确保您的标题直接回答其中至少一个。

  • 使用自然语言URL slug——8.67%的差距是真实的

    具有描述性、人类可读URL slug的页面引用率为89.78%,而不透明URL为81.11%。由于ChatGPT在预读元数据评估中评估URL结构,语义对齐的slug在模型打开页面之前就为您的页面提供了额外信号。

  • 不要为了新鲜度而追求新鲜度——追求相关性

    在检索集内,更老的成熟页面(中位数500天)比非常新的页面被引用更多。新鲜度在相关性分数相当的新闻查询中最重要。对于常青内容,深度和语义对齐胜过时效性。

  • 不要将AI引用策略建立在Reddit上

    Reddit的引用率为1.93%,尽管它是ChatGPT最大的检索来源之一。它作为上下文训练信号发挥作用,而非引用来源。发布商的精力最好花在通用搜索渠道中的可索引网络内容上。

  • 谨慎对待AI爬虫退出

    正如2026年4月24日路透社研究所数据所示,在没有许可协议的情况下屏蔽AI爬虫的发布商正在将引用份额让给那些保持可访问性的发布商。这是一个值得仔细进行成本效益分析的战略决策,而非对AI担忧的反射性回应。

方法论局限性与未来研究应解决的问题

学术诚信要求承认本研究无法告诉我们什么:

  • 数据集时间范围:提示词来自2025年2月。ChatGPT的检索架构此后已经演进,特别是2026年初的GPT-5集成。某些规律可能已经改变。
  • 余弦相似度作为代理:我们使用开源嵌入模型来近似ChatGPT的内部语义评分。实际机制是专有的,可能对信号的权重不同。
  • 未被引用池规模不平衡:在search引用类型中,未被引用组(约300万URL)远小于被引用组(约2300万URL),这限制了我们解读年龄和元数据差异的置信度。
  • 相关性vs因果性:更高的语义相似度与引用相关——但我们无法排除两者都由第三个因素引起(例如,在搜索中排名靠前的页面也往往有更精准的语义标题)。
  • 仅桌面端数据:数据集仅涵盖桌面端提示词。移动端行为可能不同,特别是对于新闻和本地查询。
给在此基础上开展研究的研究人员的说明

本研究中使用的引用类型隔离方法应被视为任何未来引用研究的最低标准。不按渠道隔离的总体"被引用vs未被引用"比较几乎肯定会因此处记录的Reddit成分假象而产生误导性结果。我们建议所有未来研究按引用类型分别报告发现。

Further reading: 2026 AI · ChatGPT 2025 · 2026 AI · 2026 AI · People Also Ask PAA

用我们的工具落地这个策略

  • 将当前主题快速转成结构化草稿,并对齐搜索意图。
  • 生成可发布的内容模块,保持 SEO 友好结构。