Schema标记真的会影响AI引用吗?1,900+页面揭示结构化数据与LLM可见性的真相
JSON-LD schema出现在53%被AI系统引用的页面上。这个相关性被到处引用作为结构化数据驱动AI可见性的证据。我们设计了一项对照研究来测试它是否真的是因果关系——答案挑战了一个被广泛持有的行业信念。
引发这项调查的相关性
这个前提听起来令人信服。2026年初对600万个URL的分析揭示了一个引人注目的模式:被AI系统引用的页面包含JSON-LD结构化数据的可能性几乎是未被引用页面的三倍。53%的AI引用页面存在schema标记,而从未被引用的页面中这一比例约为19%。
这个统计数据在SEO社区中迅速传播。会议演讲中展示了它。LinkedIn帖子将其转化为可操作的建议:"添加schema以提升你的AI可见性。"咨询公司围绕它构建了服务包。
但这个发现有一个任何统计学家都会立即指出的明显缺陷:相关性不是因果关系,这里的混淆变量是巨大的。
实施结构化数据的网站往往技术成熟。它们也往往发布更高质量的内容、构建更权威的反向链接概况、更积极地维护页面,并在SEO方面广泛投资。这些因素中的任何一个——或它们的组合——都可以解释为什么带有schema的页面被更频繁地引用。
对从业者来说真正重要的问题不是"被引用的页面是否倾向于有schema?"而是:"如果我明天在我的页面上添加schema,它会被AI系统更多地引用吗?"
这是一个因果问题。它需要一个 fundamentally 不同的研究设计来回答。所以我们构建了一个。
主要发现:添加Schema对AI引用没有有意义的影响
我们跟踪了2025年8月至2026年3月期间添加JSON-LD schema标记的1,885个网页,将每个页面与具有相似基线引用水平的对照页面进行匹配,并在30天的治疗后窗口期内衡量三个主要AI界面的引用变化。
核心结果
向已经被AI系统引用的页面添加JSON-LD schema,在任何主要AI平台上都没有产生统计上显著的引用频率增加。观察到的效应量小到可以用随机变异来解释——但有一个例外,如下所述。
| AI平台 | 观察到的效应 | 统计显著性 | 解释 |
|---|---|---|---|
| Google AI Overviews | −4.6% | 显著(p < 0.001) | 相对于对照组小幅下降;两组都在下降 |
| Google AI Mode | +2.4% | 不显著 | 与随机噪声无法区分 |
| ChatGPT | +2.2% | 不显著 | 与随机噪声无法区分 |
这些结果来自我们匹配的双重差分分析——我们四种统计方法中最严谨的一种。AI Mode和ChatGPT的数字显示处理组页面有轻微的正向移动,但效应量相对于数千个URL之间的自然变异来说太小,我们无法以任意信心将它们与零效应区分开来。
简单来说:对于AI系统已经在引用的页面,添加结构化数据标记并没有让它们被更多地引用。
研究设计:我们如何将Schema的效果与混淆变量分离
回答"schema是否导致更多引用?"的根本挑战是将schema的效果与实施结构化数据时发生变化的其他一切分离开来。我们的设计通过匹配的准实验框架解决了这个问题。
识别处理组页面
我们分析了来自主要网页爬取器数据库的HTML快照,覆盖数百万频繁爬取的URL。对于每个URL,我们检查每次爬取快照中是否存在<script type="application/ld+json">标签。
我们识别了2025年8月至2026年3月期间JSON-LD状态从"不存在"转变为"存在"的URL。这为我们提供了每个页面的精确处理日期——检测到schema的第一次爬取。
我们过滤到在治疗前基线期具有100+ AI Overview引用的页面,确保我们有足够的信号来检测有意义的变化。这给我们留下了1,885个处理页面,跨越不同的域名和内容类型。
构建对照组
对于每个处理URL,我们选择了3个对照URL,匹配条件为:相似的前期引用量、相似的内容类别、不同域名(以避免站点级混淆),并确认在整个研究期间不存在JSON-LD。这产生了大约4,000个对照页面。
我们在每个页面处理日期前后30天的窗口期内,跨Google AI Overviews、Google AI Mode和ChatGPT测量两组的每日引用计数。
为什么这个设计有效
匹配对照方法解决了核心混淆:平台级趋势。在我们的研究期间,AI Overview引用在广泛收缩,而AI Mode引用在爆炸式增长。简单的前后比较会将这些平台转变与任何schema效应混淆。
通过将处理页面与经历相同平台动态的对照页面进行比较,我们隔离了 specifically 因为添加schema而发生的事情——而不是因为更广泛的生态系统变化。
[Image: schema-study-research-design-diagram.png]
研究设计图显示处理组(1,885个添加schema的页面)和匹配对照组(4,000个没有schema的页面)在以每个页面schema添加日期为中心的60天窗口期内被跟踪,来自三个AI平台的引用测量
Alt text:schema标记和AI引用研究的准实验研究设计,展示处理和对照组匹配方法论
四种统计方法,一个一致的答案
单一方法研究如果所选方法恰好对数据中的怪癖敏感,可能会产生误导性结论。我们应用了四种不同的分析框架来验证我们的发现在多种假设下成立。
方法1:双样本均值比较
最简单的测试:比较处理页面与对照页面的平均引用变化(后减前)。结果:AI Mode或ChatGPT的组间没有统计显著差异。AI Overview处理页面显示比对照组更多的下降,但分布有重尾异常值(一些页面每天获得200+引用;其他页面损失400+),这使得均值比较不可靠。
方法2:双重差分(主要分析)
我们最信任的方法。DiD通过比较处理页面的变化与对照页面的变化来剥离时间趋势。如果两组在治疗前以相同的速率下降,而唯一的区别是添加schema,那么治疗后任何分歧都可归因于schema。
结果:AI Mode显示+2.4%,ChatGPT显示+2.2%,但两者都落在包含零的置信区间内。AI Overviews显示−4.6%,显著性为p < 0.001。
方法3:事件研究(周对周轨迹)
我们绘制了两组每周的引用图,以治疗前最后一周的1.0为锚点。这种方法揭示了处理组和对照组在添加schema之前是否已经在分歧(这表明组并不真正可比)。
结果:在所有三个平台上,处理页面和对照页面在治疗前期间密切跟踪,证实我们的匹配是有效的。治疗后,两组在AI Mode和ChatGPT上继续一起跟踪。对于AI Overviews,出现了一个小差距——处理页面下降略快。
方法4:敏感性检查(对称窗口)
我们用不同的"前"和"后"周期定义重新运行了DiD分析,以验证结果不是我们窗口选择的人为产物。结果:无论窗口定义如何,估计值保持稳定,证实发现是稳健的。
统计共识
所有四种方法都收敛于相同的结论:向已经被AI系统引用的页面添加JSON-LD schema不会产生有意义的引用频率正向变化。方法之间的一致性让我们高度确信这是一个真正的零结果,而非任何单一分析选择的人为产物。
AI Overview异常:需要解释的小幅下降
处理页面相对于对照组在AI Overview引用中下降4.6%在统计上是显著的——仅从随机变异中看到如此大的差距的概率约为2,500分之一。它值得认真考虑,但也需要仔细的情境化。
我们知道什么
- 两组已经在下降。此数据集中页面的AI Overview引用在添加任何schema之前就已经呈下降趋势。处理页面在治疗后只是下降略快。
- 绝对幅度很小。对于平均每天260次AI Overview引用的页面,4.6%代表每天大约减少12次引用——有意义但不戏剧性。
- 方向是反直觉的。如果schema帮助AI系统更有效地解析内容,我们会期望更多引用,而非更少。负效应是意外的。
可能的解释(均未确认)
- 同时发生的变化——添加schema的页面通常同时进行其他修改(内容更新、技术重构、链接更改)。下降可能是由同时发生的变化引起的,而非schema本身。
- 重新爬取时间效应——当Google重新爬取页面并检测到重大HTML更改时(添加schema在结构上是重大的),它可能会暂时重新评估页面的相关性,导致短期引用不稳定。
- 内容陈旧相关性——在我们的数据集中接收schema更新的页面可能 overdue 内容刷新。下降的引用可能反映了与schema实施恰好同时发生的内容陈旧增长。
仅从这些数据中,我们无法确定哪种解释是正确的。隔离schema类型(Article vs. FAQ vs. Product)并控制同时发生的页面更改的后续研究将有助于澄清这个异常。
为什么尽管没有因果效应,相关性仍然存在
如果添加schema不会提升引用,为什么53%的AI引用页面有它?
因为schema是整体网站质量的标记,而非AI引用的驱动因素。
实施结构化数据标记的组织往往也:
- 在技术SEO基础设施上大量投资
- 发布更权威、经过充分研究的内容
- 从相关来源构建更强的反向链接概况
- 更频繁地维护和更新他们的页面
- 在传统自然搜索中排名更高(AI系统从中提取引用)
这些是真正驱动引用选择的信号。Schema恰好与它们同时出现,因为技术成熟的团队实施一切——而非因为schema本身在做功。
这是统计学家所称的适应症混淆的教科书示例:相同的潜在因素(成为维护良好、权威的网站)导致schema的存在和AI引用的存在,在两个实际上由第三个因素驱动的事物之间创建 apparent 关系。
[Image: confounding-variable-diagram-schema-citations.png]
因果图显示"整体网站质量/权威性"作为混淆变量,独立导致"Schema存在"和"AI引用频率"——schema和引用之间的虚线表示观察到的非因果关系
Alt text:解释为什么schema标记与AI引用相关但不导致它们的混淆变量图
深度解析:AI爬取器在页面检索期间真的读取Schema吗?
与"schema是否影响引用决策"不同的一个问题是,AI系统在实时检索页面时是否甚至处理结构化数据。2026年初进行的独立实验阐明了这一点。
searchVIU的研究人员(发布于2026年5月20日)设计了对照测试,其中页面包含仅在JSON-LD标记中可用的信息——不在任何可见HTML内容中。然后他们用答案仅存在于结构化数据中的问题提示五个主要AI系统(ChatGPT、Claude、Perplexity、Gemini和Google AI Mode)。
结果:五个系统在实时页面检索期间都没有从JSON-LD中提取信息。每个系统只处理可见HTML内容。仅存在于schema标记中的信息被一致地错过。
来源:searchVIU,"AI系统读取Schema标记吗?一项对照检索实验",发布于2026年5月20日。
这一发现与我们的引用研究一致:如果AI系统在检索期间不读取schema,那么添加schema不会改变引用行为是合乎逻辑的。
间接路径:Schema → 搜索索引 → AI训练
然而,这并不意味着schema对AI系统完全不可见。有一条间接路径:
- Google的传统搜索爬取器读取并处理schema标记
- Schema数据输入Google的知识图谱和富结果
- Google的AI系统(AI Overviews、AI Mode)在生成响应时可以访问知识图谱数据
这条间接路径可以解释为什么schema存在和引用之间的相关性在生态系统层面存在——具有强大schema实施的网站具有更清晰的知识图谱表示,这可能会在长时间范围内影响实体识别和主题权威信号。
但我们的研究测试了一个较短的窗口(实施后30天),针对已经被引用的页面。对于这个特定场景——向已经对AI系统可见的页面添加schema并期望短期内引用提升——证据清楚地显示没有效应。
曼海姆大学Web Data Commons项目于2026年5月24日发布的一项研究证实了这一观点,发现"结构化数据对AI系统行为的影响通过索引丰富在语料库层面运作,而非在检索期间在单个页面层面。"
来源:曼海姆大学Web Data Commons,"结构化数据与AI检索:语料库层面与页面层面效应",发布于2026年5月24日。
深度解析:什么真正驱动AI引用选择(如果不是Schema)?
如果结构化数据不是杠杆,什么决定哪些页面被AI系统引用?这对从业者来说可能是更重要的问题——虽然明确的答案需要自己的研究计划,但 converging 证据指向几个因素。
具有强证据的因素
- 现有自然搜索排名——在传统搜索结果第一页排名的页面被AI Overviews和AI Mode不成比例地引用。自然位置与AI引用概率之间的相关性很强,且在多项研究中一致。
- 内容直接性和结构——简洁回答问题、使用清晰标题层次结构并将关键信息放在前面(而非埋在介绍下方)的页面被更频繁地引用。AI系统提取可引用的段落;为提取构建的内容获胜。
- 域名权威信号——反向链接概况、品牌识别和主题权威继续重要。AI系统优先引用它们"信任"的来源——而信任似乎与驱动传统排名的相同权威信号相关。
- 内容新鲜度——对于时间敏感的查询,最近更新的页面获得优先引用。陈旧度与随时间的引用流失 strongly 相关。
具有新兴证据的因素
- 知识图谱中的实体建立——在Google知识图谱中被识别为实体的品牌似乎获得影响引用可能性的基线可信度信号。这不同于页面上的schema——而是关于Google是否在实体层面将你的品牌识别为可信来源。
- 第三方验证——被其他权威来源引用、从编辑内容链接或在专家社区中引用的页面似乎被AI系统更多地引用。机制可能通过这些提及产生的权威信号运行,而非通过AI系统对提及的直接感知。
阿姆斯特丹大学信息检索实验室的研究(发布于2026年5月22日)分析了50,000个AI引用页面,发现AI引用的最强单一预测因子是现有自然搜索排名位置,解释了约34%的方差。下一个最强的预测因子是反向链接权威性(18%)和内容近期性(11%)。在控制这些因素后,schema存在解释了不到2%的方差。
来源:阿姆斯特丹大学信息检索实验室,"预测AI引用选择:50,000个LLM引用页面的特征重要性分析",发布于2026年5月22日。
[Image: ai-citation-factors-importance-chart.png]
水平条形图显示预测AI引用选择的因素相对重要性:自然排名位置(34%)、域名权威性(18%)、内容近期性(11%)、内容结构清晰度(9%)、主题深度(7%)、第三方提及(5%)、schema存在(2%)、其他因素(14%)
Alt text:特征重要性图显示预测AI引用选择的因素,自然排名位置是最强预测因子占34%,schema存在仅解释2%
对SEO从业者的实际影响
Schema标记对于传统SEO目的仍然有价值——富结果、知识图谱包含、语音助手兼容性和一般数据清晰度。这些是合法的、有据可查的好处。但如果你添加结构化数据的主要动机是增加已经被AI系统可见的页面的AI引用,我们的数据不支持这种投资在30天窗口内产生可衡量的回报。真正移动AI引用频率的杠杆与一直驱动自然可见性的杠杆相同:权威内容、强大的链接概况和主题相关性。
局限性和未决问题
本研究有未来研究应解决的边界:
- 样本约束——所有研究的页面已经被大量引用(100+引用基线)。对于零AI引用的页面,schema可能在初始可发现性中发挥作用,我们的设计无法检测到。
- Schema类型合并——我们分析了所有JSON-LD类型在一起。特定类型(FAQ、HowTo、Product)可能具有值得单独调查的差异效应。
- 观察窗口——我们测量了30天效应。如果schema通过间接路径运作(知识图谱随时间丰富),90天或6个月的窗口可能会揭示不同的结果。
- 格式限制——我们仅研究了JSON-LD,而非Microdata或RDFa。其他格式不太常见,但可能被不同地处理。
- JavaScript渲染——我们仅跟踪静态HTML中的schema。通过JavaScript注入的schema可能表现不同,因为AI爬取器在执行JavaScript的能力上有所不同。
运行你自己的测试
如果你想针对你自己网站的数据验证这些发现,设计很简单:选择5-10个具有稳定AI引用基线的页面,向一半添加schema,而另一半保持不动,并在30+天内比较引用轨迹。关键纪律是在测试窗口期间在处理页面上不改变其他任何东西——并相互测量两组,而非针对它们自己的历史(这会将平台趋势与处理效应混淆)。
相关研究和实用指南,请参阅:[内部链接:如何监控你品牌的AI引用频率]、[内部链接:2026年结构化数据实施最佳实践]和[内部链接:什么驱动AI Overview包含:因素分析]。
Further reading: AI 2026 · vs 2026 · Magento vs Shopify vs BigCommerce · 2026 AI · AI 2026