为什么语言模型会产生幻觉
作者
- 亚当·塔乌曼·卡莱
OpenAI
- 奥菲尔·纳胡姆
OpenAI
- 桑托什·S·文帕拉
Georgia Tech
- 埃文·张
OpenAI
摘要
就像面对难题的学生一样,大型语言模型在不确定时有时会进行猜测,产生看似合理但不正确的陈述,而不是承认不确定性。这种“幻觉”即使在最先进的系统中仍然存在,并削弱了信任。我们认为语言模型之所以会产生幻觉,是因为训练和评估程序更奖励猜测而非承认不确定性,我们也分析了现代训练流水线中幻觉的统计原因。幻觉并不一定神秘——它们仅仅是二分类错误的产物。如果错误陈述无法与事实区分,那么预训练语言模型中的幻觉就会通过自然的统计压力产生。随后我们认为幻觉之所以持续存在,是因为大多数评估的评分方式——语言模型被优化为优秀的测验考生,而在不确定时进行猜测会提升测验成绩。这种对不确定回答的“流行病”只能通过社会技术的缓解来解决:修改现有基准的评分体系,使其与真正需要的目标对齐并主导排行榜,而不是引入额外的幻觉评估。这样的改变可能会引导该领域朝着更可信的 AI 系统发展。
arXiv: 2509.04664 (v1) — abs: https://arxiv.org/abs/2509.04664, html: https://arxiv.org/html/2509.04664v1, pdf: https://arxiv.org/pdf/2509.04664
目录
[目录]
1 引言
语言模型已知会产生过度自信、看似可信的虚假信息,削弱其效用和可信度。此类错误模式被称为“hallucination,”,但它与人类感知体验本质上不同。尽管已取得显著进展,幻觉仍在该领域困扰,并且在最新模型中仍然存在(OpenAI,1)。请考虑以下提示:
在三次单独尝试中,使用了一个最先进的开源语言模型111。该语言模型为 DeepSeek-V3(600B 参数),通过 DeepSeek 应用在 2025 年 5 月 11 日访问。它输出了三个错误日期:“03-07”、 “15-06” 和 “01-01”,即使只在已知时才请求响应。正确的日期是在秋季。脚注 4 提供了更复杂幻觉的示例。
幻觉是语言模型产生的错误的重要特殊案例,我们将其更一般地使用计算学习理论进行分析(例如 Kearns 和 Vazirani,2)。我们考虑一般的错误集合 {\mathcal{E}},即一组可行字符串的任意子集 {\mathcal{X}}={\mathcal{E}}\cup{\mathcal{V}},而其他可行字符串 {\mathcal{V}} 被称为有效。随后我们分析这些错误的统计性质,并将结果应用于感兴趣的错误类型:被称为幻觉的可行虚假信息。我们的形式化方法还包括语言模型必须响应的提示概念。
语言的分布最初是从训练样本语料库中学习得到的,该语料库不可避免地包含错误和半真。 然而,我们展示了即使训练数据没有错误,语言模型训练期间优化的目标也会导致生成错误。 在包含不同程度错误的现实训练数据下,错误率可能会更高。因此,我们对错误的下界适用于更现实的设置,正如传统计算学习理论所示(Kearns 和 Vazirani,3)。
我们的错误分析是通用的,但对幻觉具有特定的含义。它广泛适用,包括推理和搜索检索语言模型,且该分析不依赖于下一个词预测或基于Transformer的神经网络的属性。它仅考虑现代训练范式的两个阶段:预训练和后训练,以下进行描述。对于幻觉,分类(Maynez 等,4;Ji 等,5)通常进一步区分与用户提示相矛盾的内在幻觉,例如:
DeepSeek-V3 在十次独立试验中返回了“2”或“3”;Meta AI 和 Claude 3.7 Sonnet222https://meta.ai 与 https://claude.ai, 于 2025 年 5 月 9 日访问。表现类似,包括答案达到“6”和“7”。我们的理论也阐明了外在幻觉,亦即与训练数据或外部现实相矛盾的情况。
| ChatGPT: (GPT-4o) | Adam Tauman Kalai’s Ph.D. dissertation (completed in 2002 at CMU) is entitled: “Boosting, Online Algorithms, and Other Topics in Machine Learning.” |
| DeepSeek: | “Algebraic Methods in Interactive Machine Learning”…at Harvard University in 2005. |
| Llama: | “Efficient Algorithms for Learning and Playing Games”…in 2007 at MIT. |
1.1 预训练导致的错误
在预训练期间,基础模型学习大文本语料库中语言的分布。我们展示,即使训练数据无误,预训练过程中所最小化的统计目标也会导致语言模型产生错误。证明这一点并不简单,因为有些模型不产生错误,例如始终输出“I don’t know”(IDK)的模型,或仅仅记忆并重现一个无错误语料库的模型。我们的分析解释了预训练后应预期出现哪些类型的错误。
为此,我们将其与二元分类联系起来。考虑形如“这是否是一个有效的语言模型输出?”的问题。生成有效输出在某种意义上比回答这些是/否问题更难,因为生成隐式要求回答“这是否有效”关于每个候选响应。形式上,我们考虑 Is-It-Valid (IIV) 二元分类问题,该问题的训练集由大量响应组成,每个响应标记为有效(+)或错误(-),如图 1 所示。对于这个监督学习问题,训练和测试数据都是 50/50 的混合,其中有效示例标记为 +(即预训练数据,因为我们假设它是有效的),以及来自 {\mathcal{E}} 的均匀随机错误标记为 -。我们随后展示如何将任何语言模型用作 IIV 分类器。由此可建立生成错误(如幻觉)与 IIV 错误分类率之间的数学关系:
\text{(generative error rate)}\gtrsim 2\cdot\text{(IIV misclassification rate)}.
Is-It-Valid 需要学习识别使用标记为 \pm 的有效生成示例(左)。 Classifiers(虚线) 在某些概念上,例如拼写,可能准确,但错误往往因模型糟糕(中间)或当数据中没有模式时产生的任意事实(底部)而出现。
语言模型避免了许多类型的错误,例如拼写错误,并非所有错误都是幻觉。将IIV误分类降维到生成过程揭示了生成性错误的统计本质。分析表明预训练直接导致错误。此外,它显示在二元分类中导致错误的相同统计因素也会导致语言模型错误。数十年的研究阐明了误分类错误的多面性(Domingos, 6)。图 1(右侧)直观展示了这些因素:顶部,数据可分且被准确分类;中部,线性分隔器在圆形区域上的模型表现不佳;底部,没有简明的模式。第 3.3 节分析了若干因素,包括在数据中没有模式时的以下具有知识不确定性的理想化设置。
该归约将之前涵盖不同类型事实的工作联系在一起。例如,Kalai 与 Vempala (7) 研究了一个任意事实的特殊情况,即数据中没有可学习的模式,例如早期的生日幻觉示例。我们展示了 IIV 归约如何涵盖此情况,并恢复了他们的界限,即预训练后幻觉率至少为训练事实中仅出现一次的比例。例如,如果20%的生日事实仅在预训练数据中出现一次,则预期基础模型至少会在20%的生日事实上产生幻觉。实际上,我们的分析强化了他们的结果,加入了提示和 IDK 响应,这两者都是幻觉的重要组成部分。
1.2 为什么幻觉在后期训练中持续存在
第二阶段,即后期训练,细化基础模型,通常目标是减少幻觉。虽然预训练的分析更普遍地涵盖了错误,但我们对后期训练的分析聚焦于为什么会产生过度自信的幻觉,而不是省略信息或表达不确定性(如 IDK)。我们提供了一种社会技术层面的解释,说明后期训练后幻觉为何仍然存在,并讨论了该领域如何抑制它们。
作为一个类比,考虑以下情境:人类有时也会制造听起来合理的虚假信息。当不确定时,学生可能会在多项选择考试中猜答案,甚至在书面考试中进行虚张声势,提交看似合理但缺乏信心的答案。语言模型同样会受到类似的测试。无论在哪种情境下,未确定时的猜测在二元 0‑1 制度下都能最大化期望得分,该制度对正确答案给 1 分,对空白或“不知道”不给分。虚张声势往往过度自信且具体,例如在询问日期时回答“9 月 30 日”而不是“秋季某个时间”。许多语言模型基准测试模仿标准化的人类考试,使用诸如准确率或合格率等二元指标。优化模型以通过这些基准可能会促使模型产生幻觉。人类在校外的生活——所谓的“硬碰硬”——学习表达不确定性的价值。另一方面,语言模型主要通过惩罚不确定性的考试进行评估。因此,它们始终处于“考试模式”。简而言之,大多数评估并未与实际需求对齐。
我们并非第一个意识到二进制评分并不能衡量幻觉。然而,关于幻觉评估的先前工作通常追求难以捉摸的“完美幻觉评估”。在第4节中,我们认为这不足够。我们观察到现有的主要评估压倒性地惩罚不确定性,因而根本问题是大量评估与对齐不一致。假设模型A是一个已对齐的模型,能够正确表明不确定性并且从不出现幻觉。让模型B与模型A相似,但它从不表明不确定性,总是在不确定时“猜测”。在0-1评分(大多数当前基准的基础)下,模型B将优于模型A。这造成了一种“流行病”,即惩罚不确定性和回避,而我们认为仅有少量的幻觉评估并不足够。众多主要评估必须进行调整,以停止惩罚在不确定时的回避。
我们识别幻觉的主要统计驱动因素,从它们的预训练起源到后训练的持续性。一个将监督学习与无监督学习联系起来的新颖关系阐明了它们的起源,即使训练数据包含IDK。幻觉的持续性,尽管在该问题上已有广泛研究,解释为幻觉式猜测在大多数主要评估中被奖励。我们讨论对现有评估的统计严格修改,为有效缓解铺平道路。
2 相关工作
根据我们的最佳了解,本研究中提出的将监督学习(二元分类)降至无监督学习(密度估计或自监督学习)的转化是新的。学习问题之间的降维方法,但它是一种已被广泛确立的技术,用于证明一个问题至少与另一个问题一样困难(例如,参见Beygelzimer等人,8)。
大量调查和研究探讨了语言模型幻觉的根本原因。Sun et al. (9) 引用的因素包括模型过度自信(Yin 等,10)、解码随机性(Lee 等,11)、滚雪球效应(Zhang 等,12)、长尾训练样本(Sun 等,13)、误导性对齐训练(Wei 等,14)、虚假相关(Li 等,15)、曝光偏差(Bengio 等,16)、逆转诅咒(Berglund 等,17)以及上下文劫持(Jeong,18)。类似的错误来源长期以来已在更广泛的机器学习和统计环境中得到研究(Russell 和 Norvig,19)。
最接近的相关理论工作来自 Kalai 与 Vempala (20),我们表明它是我们归约的一个特殊情况。他们将 Good‑Turing 缺失质量估计(Good, 21)与幻觉联系起来,这启发了定理 3。然而,该工作并未涉及不确定性表达(例如 IDK)、与监督学习的联系、后训练修改,且其模型不包含提示。Hanneke 等人 (22) 分析了一种交互式学习算法,该算法查询有效性 oracle(例如人类)以无偏地训练一个最小化幻觉的语言模型。他们的方法在统计上是高效的,需要合理量的数据,但计算上并不高效。其他近期理论研究(Kalavasis 等人, 23; Kleinberg 与 Mullainathan, 24)形式化了一致性(避免无效输出)与广度(生成多样且语言丰富内容)之间的固有权衡。这些工作表明,对于广泛语言类别,任何超出其训练数据泛化的模型都将要么产生无效幻觉输出,要么发生模式崩溃,无法生成完整范围的有效响应。
多种后训练技术——如基于人类反馈的强化学习(RLHF)(Ouyang 等人, 25)、基于 AI 反馈的强化学习(RLAIF)(Bai 等人, 26)、以及直接偏好优化(DPO)(Rafailov 等人, 27)——已被证明能降低幻觉,包括阴谋论和常见误解。Gekhman 等人 (28) 表明,对新信息进行简单微调最初可以降低幻觉率,随后又会升高。进一步的研究表明,自然语言查询和内部模型激活均编码了关于事实准确性和模型不确定性的预测信号(例如 Kadavath 等人, 29)。如我们在引言中讨论的那样,模型对语义相关查询的答案不一致性也可被用于检测或缓解幻觉(Manakul 等人, 30; Xue 等人, 31; Agrawal 等人, 32)。
已有许多其他方法被证明能有效减轻幻觉;例如,Ji 等人的调查(33)和 Tian 等人的调查(34)。在评估方面,最近已经引入了若干综合基准和排行榜(例如,Bang 等人,35;Hong 等人,36)。然而,关于它们采用障碍的研究相对较少。2025 年 AI Index 报告(Maslej 等人,37)例如指出,幻觉基准“已难以在 AI 社区获得关注”。
除了二元确定性表达外,已提出更细致的语言结构来传达不确定性的程度(Mielke 等人,38;Lin 等人,39;Damani 等人,40)。此外,探究语义如何被语境塑造的语用学领域对于理解和改进语言模型传递信息的方式正变得愈发重要(Ma 等人,41)。
3 预训练错误
预训练产生了一个基本语言模型 \hat{p},它近似于从其训练分布 p 中抽取的文本分布。这就是无监督学习中的经典“密度估计”问题,其中密度仅仅是对数据的概率分布。在语言模型的情形下,分布是关于文本,或者如果包含的话,也包括多模态输入。
证明基础模型会出现错误的主要挑战在于,许多语言模型并不会出现错误。始终输出 IDK 的退化模型也避免了错误(假设 IDK 不是错误)。同样,假设训练数据无错误,简单的基础模型从随机训练样例中复制文本也不会出现错误。然而,这两个语言模型在密度估计方面失败,而密度估计是下面定义的统计语言建模的基本目标。最优的基础模型 \hat{p}=p(匹配训练分布)也可以避免错误,但该模型需要极其庞大的训练数据。尽管如此,我们表明训练良好的基础模型仍应产生某些类型的错误。
我们的分析表明,生成有效输出(即避免错误)比分类输出有效性更困难。 这一归约使我们能够将计算学习理论的视角——错误是可预期且可理解的——应用于生成模型的错误机制。 语言模型最初被定义为文本的概率分布,随后加入提示(参见第3.2节);这两种设置共享相同的直觉。 未使用提示的示例包括像图1所示的生日声明,而使用提示的模型可能会被询问特定个体的生日。
我们的分析适用于一般的密度估计,而不仅仅是“下一个词预测器”,尽管许多语言模型是通过自监督学习训练的,基于前面的词来预测每个词。 人们很容易将幻觉归因于选择不佳的前缀(例如,“Adam Kalai was born on”),对于这些前缀,语言模型无法提供有效的完成。 然而,从纯粹的统计角度看,忽略计算,autocomplete view555Mathematically,任何分布 p 都会为其支持中的每个词前缀 w_{1}\ldots w_{i-1} 产生一个完成分布 p(w_{i}w_{i+1}\ldots\mid w_{1}w_{2}\ldots w_{i-1})。 语言模型并不比任何人类一次说一句话更重要。 我们的分析表明,错误的产生源于模型正被拟合到基础语言分布这一事实,尽管特定的架构可能引入额外的错误。
3.1 无提示下的归约
没有提示时,基本模型 \hat{p} 是一个关于集合 {\mathcal{X}} 的概率分布。 如前所述,每个例子 x\in{\mathcal{X}} 代表一个“可信”的字符串,例如一个文档。666We assume that {\mathcal{X}} 是有限的,出于简化考虑。 参见第5节以获取有关错误和可信度的进一步讨论。 例子 {\mathcal{X}}={\mathcal{E}}\cup{\mathcal{V}} 被划分为错误 {\mathcal{E}} 和有效例子 {\mathcal{V}},对应非空不交集 {\mathcal{E}},{\mathcal{V}}。 基本模型 \hat{p} 的错误率记为,
\operatorname{err}:=\hat{p}({\mathcal{E}})=\Pr_{x\sim\hat{p}}[x\in{\mathcal{E}}]. \tag{1}
训练数据被假设来自无噪声训练分布 p({\mathcal{X}}),也即为 p({\mathcal{E}})=0。正如讨论所述,使用噪声训练数据和部分正确的陈述时,错误率可能会高于我们的下界。
IIV 通过待学习的目标函数 f:{\mathcal{X}}\rightarrow\{-,+\}(成员关系在 {\mathcal{V}})以及分布 D 在示例 {\mathcal{X}} 上(来自 p 的样本与均匀随机错误的 50/50 混合)来指定:
D(x):=\begin{cases}p(x)/2&\text{ if }x\in{\mathcal{V}},\\ 1/2|{\mathcal{E}}|&\text{ if }x\in{\mathcal{E}},\end{cases}\text{ and }f(x):=\begin{cases}+&\text{ if }x\in{\mathcal{V}},\\ -&\text{ if }x\in{\mathcal{E}}.\end{cases}
我们的分析将错误率 \operatorname{err}=\hat{p}({\mathcal{E}}) 在 IIV 先前提到的误分类率 \operatorname{err}_{\mathrm{iiv}} 的基础上给出下界:
\operatorname{err}_{\mathrm{iiv}}:=\Pr_{x\sim D}\left[\hat{f}(x)\neq f(x)\right],\text{ where }\hat{f}(x):=\begin{cases}+&\text{ if }\hat{p}(x)>1/|{\mathcal{E}}|,\\ -&\text{ if }\hat{p}(x)\leq 1/|{\mathcal{E}}|.\end{cases} \tag{2}
因此,在我们的归约中,基模型被用作 IIV 分类器,通过在某个阈值 1/|{\mathcal{E}}| 对基模型的概率进行阈值化。请注意,这样的概率 \hat{p}(x) 通常可以高效计算(尽管高效计算并非对下界具有意义是必要的)。
对于任何满足 p({\mathcal{V}})=1 的训练分布 p 以及任何基模型 \hat{p},
\operatorname{err}\geq 2\cdot\operatorname{err}_{\mathrm{iiv}}-\frac{|{\mathcal{V}}|}{|{\mathcal{E}}|}-\delta,
对来自公式 1 和 2 的 \operatorname{err},\operatorname{err}_{\mathrm{iiv}} 以及 {\mathcal{A}}:=\left\{x\in{\mathcal{X}}~\middle|~\hat{p}(x)>1/|{\mathcal{E}}|\right\} 的 \delta:=\left|\hat{p}({\mathcal{A}})-p({\mathcal{A}})\right|。
由于该关系适用于任何基础模型 \hat{p},它立即意味着所有基础模型都会在本质上不可学习的 IIV 事实(例如训练数据中缺失的生日)上犯错误,在这些情况下 \operatorname{err}_{\mathrm{iiv}} 必然很大,而 \delta 和 |{\mathcal{V}}|/|{\mathcal{E}}| 很小(例如,对于每个人,在 {\mathcal{E}} 中错误的生日声明比在 {\mathcal{V}} 中正确的声明多 364 倍,此外还有 IDK)。上述推论立即作为定理 1 的一个特殊情况得出,定理 1 覆盖了带提示的更一般情况。后续的定理 2 使用这一一般结果为直观的特殊情况提供下界。定理 3 和 4 处理小型 |{\mathcal{E}}|,例如 |{\mathcal{E}}|=1 用于真/假问题。上面界限中的常数 2 相对紧凑:对于大型 |{\mathcal{E}}| 和小型 \delta,\operatorname{err}_{\mathrm{iiv}} 可能接近 1/2,表示不可学习的概念,而 \operatorname{err}\leq 1。推论 1 还意味着 \operatorname{err}_{\mathrm{iiv}}\lesssim 1/2。
为了将误差分析应用于幻觉(hallucinations),可以将 {\mathcal{E}} 视为包含(一个或多个)合理错误陈述的可行生成集合。请注意,幻觉的常见替代定义是指不以训练数据(或提示)为根基的生成。幸运的是,上述下界也适用于这一概念,因为我们假设仅使用有效的训练数据,即生成的事实错误不能基于事实正确的训练数据。
我们现在论证为什么 |\delta| 是一种在预训练后很小的 (mis)calibration 度量。请注意,在没有任何语言知识的情况下,单纯采用均匀分布 \hat{p}(x)=1/|{\mathcal{X}}| 就可以实现 \delta=0,因此 \delta=0 并不需要 p=\hat{p}。审计员可以通过比较满足 \hat{p}(x)>1/|{\mathcal{E}}| 与满足 \hat{p}(\hat{x})>1/|{\mathcal{E}}| 的响应比例,使用训练样本集 x\sim p 和合成生成 \hat{x}\sim\hat{p},从而轻易估计 \delta。受到 Dawid (42) 的启发,人们可以将其类比为天气预报员预测每日降雨概率。最基本的校准要求是他们的平均预测是否与平均降雨比例相匹配。也可以要求在预测值为 >t 的某个阈值 t\in[0,1] 的日子里,这两者匹配。Dawid (43) 引入了更严格的要求,即对于每个 t\in[0,1],在预测为 t 的日子里,大约 t 的比例会下雨。
下面是一个特别简单的理由,说明为什么 \delta 通常在标准预训练交叉熵目标下很小,
{\mathcal{L}}(\hat{p})=\operatorname*{\mathbb{E}}_{x\sim p}[-\log\hat{p}(x)]. \tag{3}
考虑通过因子 s>0 对正标签样本的概率进行重新缩放并归一化:
\hat{p}_{s}(x):\propto\begin{cases}s\cdot\hat{p}(x)&\text{if }\hat{p}(x)>1/|{\mathcal{E}}|,\\ \hat{p}(x)&\text{if }\hat{p}(x)\leq 1/|{\mathcal{E}}|.\end{cases}
随后,简单计算表明 \delta 是损失相对于缩放因子 s 的导数的幅度,在 s=1 处评估时:
\delta=\left|~\frac{d}{ds}{\mathcal{L}}(\hat{p}_{s})\Big{|}_{s=1}~\right|.
如果 \delta\neq 0,则通过某个 s\neq 1 的重新缩放会降低损失,因此损失并未达到局部最小值。对于足够强大的语言模型类,能够近似这种简单的重新缩放,局部优化应产生较小的 \delta。请注意,\delta 定义在单个阈值 t=1/|{\mathcal{E}}| 处,它比诸如期望校准误差 (ECE) 之类的概念弱,后者在阈值 t 上进行积分。
许多人认为幻觉是不可避免的(Jones,44;Leffer,45;Xu 等,46)。然而,一个不产生幻觉的模型可以很容易地构建:使用问答数据库和计算器,回答一组固定问题,如“金的化学符号是什么?”以及规范的数学运算,如“3 + 8”,其余情况则输出 IDK。此外,推论 1 的误差下界意味着不犯错的语言模型不能被校准,即 \delta 必须很大。正如我们的推导所示,校准——因此误差——是标准交叉熵目标的自然结果。事实上,经验研究(图 2)表明,基础模型往往被发现是已校准的,而经过后期训练的模型可能偏离交叉熵,倾向于强化学习。
GPT-4 的校准直方图在强化学习前(左)和后(右)(OpenAI,2023a,图 8,经许可转载)。这些图用于多项选择查询,可能的答案仅为 A、B、C 或 D。预训练模型的校准良好。
3.2 带提示的归约
从此,我们将第 3.1 节的设置泛化为包含提示(上下文)c\in{\mathcal{C}},这些提示从提示分布 \mu 中抽取。每个示例 x=(c,r) 现在由提示 c 和可行答案 r 组成。上述分析对应于 \mu 对空提示赋予概率 1 的特殊情况。对于给定的提示 c\in{\mathcal{C}},设 {\mathcal{V}}_{c}:=\{r\mid(c,r)\in{\mathcal{V}}\} 为合法答案,{\mathcal{E}}_{c}:=\{r\mid(c,r)\in{\mathcal{E}}\} 为错误答案。训练分布和基础模型现在是条件响应分布 p(r\mid c),\hat{p}(r\mid c)。为便于符号记号,我们将它们扩展为对 {\mathcal{X}} 的联合分布,分别由 p(c,r):=\mu(c)p(r\mid c) 和 \hat{p}(c,r):=\mu(c)\hat{p}(r\mid c) 给出,仍然满足 \operatorname{err}:=\hat{p}({\mathcal{E}})=\sum_{(c,r)\in{\mathcal{E}}}\mu(c)\hat{p}(r\mid c) 与 p({\mathcal{E}})=0。
训练分布示例因此对应有效的“对话”,正如蒸馏中的情况(Chiang 等人,47; Anand 等人,48)。虽然假设训练数据包含来自相同提示分布的模型对话是不现实的,但当假设失败时,甚至可能出现更高的错误率。提示的 IIV 问题具有相同的目标函数 f(x):=+ 当且仅当 x\in\mathcal{V},但泛化分布 D 以相等概率选择 x\sim p 或 x=(c,r) 作为 c\sim\mu 并且均匀随机 r\in{\mathcal{E}}_{c}。最后,分类器 \hat{f}(c,r) 现在是 + 当且仅当 \hat{p}(r\mid c)>1/\min_{c}|{\mathcal{E}}_{c}|。推论 1 因此明显是……
\operatorname{err}\geq 2\cdot\operatorname{err}_{\mathrm{iiv}}-\frac{\max_{c}|{\mathcal{V}}_{c}|}{\min_{c}|{\mathcal{E}}_{c}|}-\delta,
其中 \delta:=\left|\hat{p}({\mathcal{A}})-p({\mathcal{A}})\right| 对于 {\mathcal{A}}:=\left\{(c,r)\in{\mathcal{X}}~\middle|~\hat{p}(r\mid c)>1/\min_{c}|{\mathcal{E}}_{c}|\right\}.
将 rescaling \hat{p}_{s}(r\mid c)(按提示归一化,仍使用单个参数 s)推广后,再次为一个小的 \delta=\bigl{|}\frac{d}{ds}{\mathcal{L}}(\hat{p}_{s})|_{s=1}\bigr{|} 提供了理由,现在用于 {\mathcal{L}}(\hat{p}):=\sum_{(c,r)\in{\mathcal{X}}}-\mu(c)\log\hat{p}(r\mid c)。
3.3 基础模型的错误因素
数十年的研究阐明了导致误分类(二分类错误)的统计因素。我们可以利用这种先前的认识来列举导致幻觉和其他生成错误的因素,包括:统计复杂性,例如在生日问题中(第 3.3.1 节);糟糕的模型,例如在字母计数中(第 3.3.2 节);以及其他因素,如 GIGO,例如在阴谋论中(第 3.4 节)。
3.3.1 任意事实幻觉
当没有简洁的模式解释 target function 时,会产生 epistemic uncertainty,意味着必要的知识缺失于训练数据中。 The Vapnik-Chervonenkis dimension (Vapnik and Chervonenkis, 49) \mathrm{VC}({\mathcal{F}}) 描述了在高概率下学习一个 {\mathcal{F}} 的函数族 f:{\mathcal{X}}\rightarrow\{-,+\} 所需样本数的最坏情况。 Families with high \mathrm{VC}({\mathcal{F}}) dimension may require prohibitively many samples to learn。 We consider a natural special case of high VC dimension: random arbitrary facts。 In particular, this section considers valid responses (除 IDK 之外) which are random and independent across prompts。
以下内容为固定:一个任意的提示分布 \mu(c),一个 {\mathrm{IDK}} 响应,且对于每个提示 c:一个响应集 {\mathcal{R}}_{c} 以及回答概率 \alpha_{c}\in[0,1]。独立地,对于每个 c,一个正确答案 a_{c}\in{\mathcal{R}}_{c} 被均匀随机选择。最后,对于每个 c\in{\mathcal{C}},有 p(a_{c}\mid c)=\alpha_{c} 和 p({\mathrm{IDK}}\mid c)=1-\alpha_{c}。因此有 {\mathcal{E}}_{c}={\mathcal{R}}_{c}\setminus\{a_{c}\} 和 {\mathcal{V}}_{c}=\{a_{c},{\mathrm{IDK}}\}。
假设存在一种书写任何给定事实的唯一方式,正如在主生日示例中已指定格式的那样。然而,我们再次指出,使用多种方式表述每个事实可能会导致更多的幻觉。在固定格式生日的情况下,|\mathcal{E}_{c}|=364 以及经常讨论其生日的知名人士将具有高 \mu(c)。诸如爱因斯坦的著名生日会出现多次,而其他人可能仅出现一次,例如在讣告中。大型语言模型很少在经常引用的事实上出错,例如爱因斯坦的生日或论文标题。
我们的对幻觉的下限基于训练数据中仅出现一次的提示占比,忽略 IDKs。
提示 c\in{\mathcal{C}} 是单例,如果它在 N 训练数据 \bigl{\langle}(c^{(i)},r^{(i)})\bigr{\rangle}_{i=1}^{N} 中仅出现一次且未有放弃,即 |\{i:c^{(i)}=c\wedge r^{(i)}\neq{\mathrm{IDK}}\}|=1。设 {\mathcal{S}}\subseteq{\mathcal{C}} 为单例集合和
\operatorname{sr}=\frac{|{\mathcal{S}}|}{N}
表示训练单例的比例。
单例率基于阿兰·图灵优雅的“缺失质量”估计器(Good, 50),该估计器衡量在从一个分布中抽样时,尚未出现的结果仍被分配了多少概率。具体而言,图灵对未见事件概率的估计是仅出现一次的样本比例。直观地说,单例可作为你在进一步抽样中可能遇到更多新颖结果的代理,因此它们的经验份额成为整个“缺失”部分分布的估计。我们现在给出针对任意事实的界限。
在任意事实模型中,任何接受 N 个训练样本并输出 \hat{p} 的算法,都满足在 \vec{a}=\langle a_{c}\rangle_{c\in{\mathcal{C}}} 上以概率 \geq 99\%,以及 N 个训练样本上的满足性:
\operatorname{err}\geq\operatorname{sr}-\frac{2}{\min_{c}|{\mathcal{E}}_{c}|}-\frac{35+6\ln N}{\sqrt{N}}-\delta.
此外,存在一种高效算法输出校准后的 \hat{p} (\delta=0),其在概率 \geq 99\% 下,
\operatorname{err}\leq\operatorname{sr}-\frac{\operatorname{sr}}{\max_{c}|{\mathcal{E}}_{c}|+1}+\frac{13}{\sqrt{N}}.
本论文的早期版本提出了一个相关定理,省略了提示和放弃(Kalai 和 Vempala, 51)。证明见附录 B。后续工作 Miao 和 Kearns (52) 提供了对幻觉、单例率和校准的实证研究。
3.3.2 差模型
错误分类也可能在底层模型不佳时出现,原因是:(a) 模型族无法很好地表示该概念,例如线性分隔器近似圆形区域,或(b) 模型族足够表达力但模型本身不适合。无知学习(Kearns 等,53)通过定义给定族 {\mathcal{G}} 的任何分类器 g:{\mathcal{X}}\rightarrow\{-,+\} 的最小错误率来解决 (a)。
\mathrm{opt}({\mathcal{G}}):=\min_{g\in{\mathcal{G}}}\Pr_{x\sim D}[g(x)\neq f(x)]\in[0,1].
如果 \mathrm{opt}({\mathcal{G}}) 很大,那么任何属于 {\mathcal{G}} 的分类器都会有较高的错误分类率。在我们的例子中,给定一个由 \theta\in\Theta 参数化的语言模型 \hat{p}_{\theta},考虑阈值化语言模型分类器族:
{\mathcal{G}}:=\bigl{\{}g_{\theta,t}~\bigm{|}~\theta\in\Theta,t\in[0,1]\bigr{\}},\text{ where }g_{\theta,t}(c,r):=\begin{cases}+&\text{ if }\hat{p}_{\theta}(r\mid c)>t,\\ -&\text{ if }\hat{p}_{\theta}(r\mid c)\leq t.\end{cases}
由定理 1 可以立即得出以下结论
\operatorname{err}\geq 2\cdot\mathrm{opt}({\mathcal{G}})-\frac{\max_{c}|{\mathcal{V}}_{c}|}{\min_{c}|{\mathcal{E}}_{c}|}-\delta.
当每个上下文只有一个正确答案时(即标准多项选择题,不包含 IDK),可以移除校准项,并且即使对 C=2 选项也能实现界限。
假设所有 c\in{\mathcal{C}} 满足 |{\mathcal{V}}_{c}|=1,并且设 C=\min_{c}|{\mathcal{E}}_{c}|+1 为选项数。那么,
\operatorname{err}\geq 2\left(1-\frac{1}{C}\right)\cdot\mathrm{opt}(\mathcal{G})
举例说明,考虑经典的三元组语言模型,其中每个单词仅基于前两个单词进行预测,即仅包含两个单词的上下文窗口。三元组模型在1980年代和1990年代占主导地位。然而,三元组模型经常输出语法错误的句子。请考虑以下提示和回答:
此处,V_{c_{1}}:=E_{c_{2}}:=\{r_{1}\} 和 V_{c_{2}}:=E_{c_{1}}:=\{r_{2}\}。
设 \mu 在 \{c_{1},c_{2}\} 上均匀分布。那么任何三元组模型的生成错误率至少为 1/2。
这源于定理3,因为 C=2 和 \mathrm{opt}({\mathcal{G}})=1/2 对三元组模型成立。定理3和推论2的证明见附录C。虽然 n-gram 模型能够捕获更长范围的依赖关系,适用于更大的 n,但数据需求随着 n 指数级增长。
现在我们重新审视引言中的字母计数示例。要看出这是一个模型欠佳的问题,请注意 DeepSeek-R1 推理模型能可靠地计数字母,例如生成一个 377 步的思路链,包含:
假设训练数据相似,这表明 R1 在此任务上比 DeepSeek-V3 模型更好。推理克服的一个表征挑战是,现代语言模型用令牌来表示提示,例如 D/EEP/SEE/K,而不是单个字符(DeepSeek-AI 等,54)。
3.4 其他因素
错误可能由多种因素的组合引起,包括上述讨论的因素以及其他几个因素。此处,我们重点介绍其中一些。
• 计算难度。即使是具有超人能力的人工智能,在经典计算机上运行的任何算法也无法违反计算复杂性理论的法则。事实上,人工智能系统在处理计算上困难的问题时会出现错误(Xu 等人,55)。附录 D 的观察 2 说明了定理 1 如何适用于形式为“c 的解密是什么?”的难解查询,并且 IDK 是一个有效答案。
• 分布漂移。二分类中一个众所周知的挑战是训练和测试数据分布往往会偏离(Quiñonero-Candela 等人,56;Moreno-Torres 等人,57)。类似地,语言模型中的错误往往源于与训练分布显著不同的离散分布(OOD)提示。比如,“羽毛磅比铅磅更重吗?” 这类问题在训练数据中可能不常见,可能导致某些模型产生错误答案。同样,分布漂移可能是上述字母计数例子中的一个因素,尽管推理模型能正确计数字母,但糟糕的模型可能更受其影响。
• GIGO:垃圾输入,垃圾输出。大型训练语料库通常包含大量事实错误,基模型可能会复制这些错误。GIGO在分类和预训练中的统计相似性显而易见,因此我们不做正式处理。然而,重要的是在统计因素中识别GIGO,因为语言模型已被证明会复制训练数据中的错误(Lin 等人,58;Levy 等人,59;Alber 等人,60)。
GIGO 也为后训练话题提供了自然的衔接点,后训练可减少某些 GIGO 错误,例如常见误解和阴谋论(Ouyang 等人,61;OpenAI,62;Costello 等人,63)。下一节解释了为何某些幻觉仍然存在——甚至可能因当前的后训练流程而被放大。
4 后训练与幻觉
训练后应将模型从像自动完成模型那样训练的状态转变为不输出有自信的虚假信息的状态(除非在适当情况下,例如被要求创作虚构作品)。然而,我们认为进一步降低幻觉仍是艰巨任务,因为现有的基准测试和排行榜强化了某些类型的幻觉。为此,我们讨论如何停止这种强化。这在一定程度上是一个社会技术问题,因为不仅需要修改现有评估,还需要在有影响力的排行榜上采用这些变化。
4.1 评估如何强化幻觉
语言模型的二元评估强加了一种错误的对错二分法,未给出不确定性答案、忽略可疑细节或要求澄清的答案赋予任何信用。这类指标,包括准确率和通过率,仍是该领域的主流标准,正如下文所述。在二元评分下,回避是严格的次优策略。IDK(我不知道)类型的响应被最大化惩罚,而过度自信的“最佳猜测”则是最优的。其动机结合了两个理想因素:(a) 语言模型输出中准确率的比例,以及 (b) 响应的全面性。然而,重视(a) 多于(b) 对减少幻觉至关重要。
形式上,对于任何以提示 c 形式给出的提问,设可行响应集合(有效或错误)为 {\mathcal{R}}_{c}:=\{r\mid(c,r)\in{\mathcal{X}}\}。此外,假设存在一组可行回避响应 {\mathcal{A}}_{c}\subset{\mathcal{R}}_{c}(例如 IDK)。如果对所有 r\in{\mathcal{A}}_{c},评卷者 g_{c}:{\mathcal{R}}_{c}\rightarrow\mathbb{R} 同时满足 \{g_{c}(r)\mid r\in{\mathcal{R}}_{c}\}=\{0,1\} 与 g_{c}(r)=0,则该评卷者被称为二元评卷者。问题由 (c,{\mathcal{R}}_{c},{\mathcal{A}}_{c},g_{c}) 定义,其中考生知道 c,{\mathcal{R}}_{c},{\mathcal{A}}_{c}。我们假设考生知道评分标准是二元的,但未被告知正确答案,此时为 g_{c}(r)=1。考生对正确答案的信念可以视为对二元 g_{c} 的后验分布 \rho_{c}。对于任何此类信念,最佳响应不是回避。
令 c 为一个提示。对于任何关于二元评卷者的分布 \rho_{c},最佳响应不是回避,即
{\mathcal{A}}_{c}\cap\operatorname*{arg\,max}_{r\in{\mathcal{R}}_{c}}\operatorname*{\mathbb{E}}_{g_{c}\sim\rho_{c}}[g_{c}(r)]=\emptyset.
虽然证明很简单(参见附录E),观察1表明现有评估可能需要修改。表2总结了附录F中的简短元评估分析,发现大多数流行评估采用二元评分。因此,当主要评估惩罚诚实报告置信度和不确定性时,额外的幻觉评估可能不足够。这并不削弱现有的幻觉评估工作,而是指出,即使是理想的幻觉评估和理想的后训练方法,产生诚实的不确定性报告,也可能因为在大多数现有评估上的表现较差而被淹没。
| Benchmark | Scoring method | Binary grading | IDK credit |
|---|---|---|---|
| GPQA | Multiple‑choice accuracy | Yes | None |
| MMLU‑Pro | Multiple‑choice accuracy | Yes | None |
| IFEval | Programmatic instruction verification | Yesa | None |
| Omni‑MATH | Equivalence grading∗ | Yes | None |
| WildBench | LM‑graded rubric∗ | No | Partialb |
| BBH | Multiple-choice / exact‑match | Yes | None |
| MATH (L5 split) | Equivalence grading∗ | Yes | None |
| MuSR | Multiple‑choice accuracy | Yes | None |
| SWE‑bench | Patch passes unit tests | Yes | None |
| HLE | Multiple-choice / equivalence grading∗ | Yes | None |
* 采用语言模型进行评分,因此不正确的欺骗有时可能被评为正确。
a IFEval 将若干二元评分细项合并为综合分数。
b 评分准则(1-10 级)表明 IDK 可能比带幻觉的“公平”回答得分更低,从而强化幻觉。
4.2 明确的置信度目标
人类测试同样大多为二元评分,并且已认识到它们也奖励过度自信的欺骗。当然,考试只是人类学习的一小部分,例如伪造生日很快会导致尴尬。尽管如此,一些标准化的国家考试采用或曾采用对错误答案的惩罚(或等效于不作答的部分学分),包括印度的 JEE、NEET 和 GATE 考试;美国数学协会的 AMC 测试;以及早期的美国标准化 SAT、AP 和 GRE 测试。重要的是,评分系统在说明中被清晰陈述,考生通常知道超过某个置信阈值后最好做出最佳猜测。
同样,我们建议评估在说明中明确阐述置信度目标,包含在提示(或系统消息)中。例如,可以在每个问题后追加如下声明:
有几个 t 的自然取值,包括 t=0.5(惩罚1)、t=0.75(惩罚2)和 t=0.9(惩罚9)。阈值 t=0 对应二进制评分,并可以描述为,例如“尽力猜测,即使不确定,好像你正在考试”。一个简单的计算表明,提供答案的期望分数超过 IDK(分数0)当且仅当其置信度(即正确概率)为 >t。
这些惩罚已在幻觉研究中得到充分研究(Ji 等人,64)。然而,我们提出了两种细微变化,具有统计学影响。首先,我们建议在说明中明确置信度阈值,而之前的工作在说明中基本上忽略了提及置信度目标或惩罚。(一个值得注意的例外是 Wu 等人(65)引入了带有明确惩罚的“risk-informing”提示。)理想的惩罚可能反映现实世界中可能出现的危害,但这在实践中不切实际,因为它特定于问题、目标应用和用户群体。没有在说明中透明规范,语言模型创建者难以就正确阈值达成共识。同样,学生可能会争论说给分不公平,因为说明中没有指定错误的惩罚。相反,在每个问题的说明中明确指定置信度阈值,即使所选阈值有些任意甚至随机,也能支持客观评分。若阈值明确,单一模型可能在所有阈值下最佳。但如果阈值未声明,则存在固有的权衡,通常没有单一模型在一般情况下最佳(除非是始终正确的模型)。
其次,我们建议将置信度目标纳入现有主流评估中,例如流行的SWE-bench(Jimenez 等,66),该评估涉及软件补丁的二元评分,而大多数先前工作则在定制的幻觉评估中引入了隐式错误惩罚。仅仅添加带有隐式错误惩罚的评估会面临前述的准确率-错误率权衡。另一方面,将置信度目标纳入已有的评估中,已经在使用的评估,可以降低对适当表达不确定性的惩罚。因此,它可能增强针对幻觉的评估效果。
有了明确的置信度目标后,存在一种行为同时对所有目标都是最优的——在其正确性概率超过目标的例子中输出 IDK。我们将此称为行为校准——而不是要求模型输出概率性的置信度(Lin 等,67),它必须制定最有用的回答,并且至少具备 t 的置信度。行为校准可以通过比较不同阈值下的准确率和错误率来审计,并且可以规避可能存在指数多种方式来表述正确回答的问题(Farquhar 等,68)。现有模型可能有或没有表现出行为校准,但它可能在客观评估中有用。
5 讨论与局限性
由于幻觉具有多面性,领域难以就如何定义、评估和减少幻觉达成共识。一个统计框架必须优先考虑某些方面并省略其他方面,以便简化。关于本文使用的框架的范围和局限性,有几点需要说明。
幻觉是一种可信的虚假陈述,通过仅考虑可信字符串 {\mathcal{X}},我们的分析忽略了生成无意义字符串的可能性(尖端语言模型很少生成此类字符串)。然而,定理 1 的陈述与证明在采用修改后的无意义示例定义 {\mathcal{N}},以及划分 {\mathcal{X}}={\mathcal{N}}\cup{\mathcal{E}}\cup{\mathcal{V}}、\operatorname{err}:=\hat{p}({\mathcal{N}}\cup{\mathcal{E}})、D({\mathcal{N}})=0,并假设 p({\mathcal{V}})=1 的情况下仍然成立。
为便于说明,本文中呈现的示例都面向单一事实性问题。然而,在开放式提示(如“写一篇关于……的传记”)下,幻觉往往会出现。我们可以将其纳入框架,即将包含一个或多个错误的回答视为错误。然而,在这种情况下,自然会根据错误数量来考虑幻觉程度。
多项研究已表明,结合搜索或检索增强生成(RAG)的语言模型能降低幻觉(Lewis 等,69;Shuster 等,70;Nakano 等,71;Zhang 与 Zhang,72)。然而,观察 1 对任意语言模型同样适用,包括使用 RAG 的模型。特别是,当搜索未能提供有信心的答案时,二进制评分系统仍会奖励猜测。此外,搜索可能无法帮助纠正诸如字母计数示例中的错误计算,或其他内在幻觉。
有些错误无法仅通过提示和回答来判断。例如,假设用户提问关于手机,而语言模型给出了关于手机的回答,但实际上问题意图是关于固定电话。这些歧义不符合我们的错误定义,因为该定义不依赖于提示和回答之外的上下文。若能扩展模型以允许“隐藏上下文”——这些上下文不包含在给语言模型的提示中,但可用于判定错误并关联随机不确定性——将是有趣的。
我们的形式化方法不区分不同幅度或不确定度的错误。显然,正确/错误/我不知道(IDK)类别也不完整。尽管统计理想可能是按我们在下游应用中希望评估语言模型的方式为每一次评估打分,明确的置信度目标为主流评估提供了实用且客观的修改,并且错误的三分法至少能提供一个 IDK 选项,而非错误的二分法。
有许多种方式可以表达不确定性,例如使用缓和语、省略细节以及提问。最终,语言模型可能会遵循诸如语言校准(Mielke 等,73; Damani 等,74)等信心概念。然而,语言的语用现象(Austin,75; Grice,76)是细致入微的。例如,虽然在某些情况下,语言模型明确给出概率性置信估计(Lin 等,77)可能是有用的,但这也可能导致不自然的表达,例如,“I’m 1/365 certain that Kalai’s birthday is March 7th.”本文聚焦于关于何时表达的顶层决策的统计因素。
6 结论
本文阐明了现代语言模型中幻觉的成因,从预训练期间的起源到后续训练中的持续存在。在预训练阶段,我们表明生成错误与监督学习中的误分类相似,它们并不神秘,并且自然地源于交叉熵损失的最小化。
许多语言模型的不足可以通过一次评估来捕捉。例如,过度使用开场词“Certainly”可以通过一次“Certainly”评估(Amodei 和 Fridman,78)来解决,因为以“Certainly”开头的回答并不会显著影响其他评估。相反,我们认为大多数主流评估奖励幻觉行为。对主流评估进行简单修改可以重新调整激励,奖励适当的不确定性表达而不是惩罚它们。这可以消除抑制幻觉的障碍,并为未来在细致语言模型方面的工作打开大门,例如具有更丰富语用能力的模型(Ma 等,79)。
我们要感谢 Alex Beutel、Tom Cunningham、Yann Dubois、Parikshit Gopalan、Johannes Heidecke、Zoe Hitzig、Saachi Jain、Manas Joglekar、Sanjay Kairam、Ehud Kalai、Amin Karbasi、Alan Luo、Anay Mehrotra、Eric Mitchell、Cameron Raymond、David G. Robinson、Mandip Shah、Joshua Vendrow、Grigoris Velegkas、Rose Wang、Zhigang Wang、Jason Wolfe 和 Jason Wei,感谢他们的宝贵讨论。
参考文献
[1]
[2] Ayush Agrawal, Mirac Suzgun, Lester Mackey, 与 Adam Kalai. 2024. 语言模型是否知道它们在引用中出现幻觉?. In Findings of the Association for Computational Linguistics: EACL 2024. Association for Computational Linguistics, St. Julian’s, Malta, 912–928. https://doi.org/10.18653/v1/2024.findings-eacl.62
[3] Daniel Alexander Alber, Zihao Yang, Anton Alyakin, Eunice Yang, Sumedha Rai, Aly A. Valliani, et al. 2025. 医疗大语言模型易受数据中毒攻击. Nature Medicine 31, 2 (2025), 618–626. https://doi.org/10.1038/s41591-024-03445-1
[4] Dario Amodei and Lex Fridman. 2024. Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity — Lex Fridman Podcast #452 (Transcript). Lex Fridman Podcast. https://lexfridman.com/dario-amodei-transcript/
[5] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. 2023. GPT4All: Training an Assistant-Style Chatbot with Large-Scale Data Distillation from GPT-3.5-Turbo. https://github.com/nomic-ai/gpt4all
[6] J. L. Austin. 1962. 如何用言语行动. Oxford University Press, Oxford. Edited by J. O. Urmson and Marina Sbisà.
[7] Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, and Jared Kaplan. 2022. 《Constitutional AI: Harmlessness from AI Feedback》. arXiv:2212.08073 [cs.CL] https://arxiv.org/abs/2212.08073
[8] Yejin Bang, Ziwei Ji, Alan Schelten, Anthony Hartshorn, Tara Fowler, Cheng Zhang, Nicola Cancedda, and Pascale Fung. 2025. 《HalluLens: LLM Hallucination Benchmark》. 在《计算机语言协会第63届年会论文集》(第1卷:长篇论文)中发表。计算机语言协会,维也纳,奥地利,24128–24156. https://doi.org/10.18653/v1/2025.acl-long.1176
[9] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. 2015. 《Scheduled sampling for sequence prediction with recurrent neural networks》. Advances in neural information processing systems 28 (2015).
[10] Lukas Berglund, Meg Tong, Maximilian Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, and Owain Evans. 2024. 反转诅咒:LLMs 训练于 “A 是 B” 未能学习 “B 是 A”。 In The Twelfth International Conference on Learning Representations.
[11] Alina Beygelzimer, Hal Daumé III, John Langford, and Paul Mineiro. 2016. 真正有效的学习降维. Proc. IEEE 104, 1 (2016), 136–147. https://doi.org/10.1109/JPROC.2015.2494118
[12] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. 2023. Vicuna:一款开源聊天机器人,以90%* ChatGPT质量打动 GPT-4. https://lmsys.org/blog/2023-03-30-vicuna/
[13] Thomas H. Costello, Gordon Pennycook, and David G. Rand. 2024. 通过与 AI 的对话持续降低阴谋信仰. Science 385, 6714 (Sept. 2024), eadq1814. https://doi.org/10.1126/science.adq1814
[14] Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, and Jacob Andreas. 2025. 超越二元奖励:训练 LM 理解其不确定性. https://doi.org/10.48550/arXiv.2507.16806 arXiv:2507.16806 [cs.LG]
[15] A. P. Dawid. 1982. 良好校准的贝叶斯. J. Amer. Statist. Assoc. 77, 379 (Sept. 1982), 605–610. https://doi.org/10.1080/01621459.1982.10477856
[16] DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, and 178 others. 2025. DeepSeek-R1:通过强化学习激励LLMs的推理能力. https://doi.org/10.48550/arXiv.2501.12948 arXiv:2501.12948 [cs.CL]
[17] Pedro Domingos. 2012. 关于机器学习的一些有用知识. Commun. ACM 55, 10 (2012), 78–87. https://doi.org/10.1145/2347736.2347755
[18] Lizhou Fan, Wenyue Hua, Lingyao Li, Haoyang Ling, and Yongfeng Zhang. 2024. NPHardEval:通过复杂度类对大型语言模型推理能力的动态基准. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024). Association for Computational Linguistics, Bangkok, Thailand, 4092–4114. https://doi.org/10.18653/v1/2024.acl-long.225
[19] Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn, and Yarin Gal. 2024. 利用语义熵检测大型语言模型中的幻觉现象. Nature 630 (jun 2024), 625–630. https://doi.org/10.1038/s41586-024-07421-0
[20] Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, and Baobao Chang. 2024a. Omni-MATH:面向大型语言模型的通用奥林匹克级数学基准. https://doi.org/10.48550/arXiv.2410.07985 arXiv:2410.07985 [cs.CL]
[21] Leo Gao, Jonathan Tow, Baber Abbasi, Stella Biderman, Sid Black, Anthony DiPofi, Charles Foster, Laurence Golding, Jeffrey Hsu, Alain Le Noac’h, Haonan Li, Kyle McDonell, Niklas Muennighoff, Chris Ociepa, Jason Phang, Laria Reynolds, Hailey Schoelkopf, Aviya Skowron, Lintang Sutawika, Eric Tang, Anish Thite, Ben Wang, Kevin Wang, and Andy Zou. 2024b. 语言模型评估工具包. https://doi.org/10.5281/zenodo.12608602
[22] Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, and Jonathan Herzig. 2024. 在新知识上微调LLMs是否会鼓励幻觉现象? In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen (Eds.). Association for Computational Linguistics, Miami, Florida, USA, 7765–7784. https://doi.org/10.18653/v1/2024.emnlp-main.444
[23] Oded Goldreich. 2001. 密码学基础:卷一,基本工具. Cambridge University Press, Cambridge, United Kingdom.
[24] I. J. Good. 1953. 《物种种群频率与种群参数估计》. Biometrika 40, 3-4 (1953年12月), 237–264. https://doi.org/10.1093/biomet/40.3-4.237
[25] Google DeepMind. 2025. Gemini 2.5 Pro 模型卡. https://storage.googleapis.com/model-cards/documents/gemini-2.5-pro.pdf. 访问日期:2025年6月27日..
[26] H. P. Grice. 1975. 《逻辑与会话》. In 《句法与语义》, Vol. 3: Speech Acts, Peter Cole and Jerry L. Morgan (Eds.). Academic Press, New York, 41–58.
[27] Steve Hanneke, Adam Tauman Kalai, Gautam Kamath, and Christos Tzamos. 2018. 主动避免生成模型中的无意义. In 第31届学习理论会议论文集 (机器学习研究论文集, Vol. 75), Sébastien Bubeck, Vianney Perchet, and Philippe Rigollet (Eds.). PMLR, Stockholm, Sweden, 209–227. https://proceedings.mlr.press/v75/hanneke18a.html
[28] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. 2021. 使用 MATH 数据集衡量数学问题求解. arXiv:2103.03874 [cs.LG] https://arxiv.org/abs/2103.03874
[29] Giwon Hong, Aryo Pradipta Gema, Rohit Saxena, Xiaotang Du, Ping Nie, Yu Zhao, Laura Perez-Beltrachini, Max Ryabinin, Xuanli He, Clémentine Fourrier, and Pasquale Minervini. 2024. 幻觉排行榜 – 一项公开努力衡量大型语言模型中的幻觉. arXiv:2404.05904 [cs.CL] https://arxiv.org/abs/2404.05904
[30] Hugging Face. 2024. Open LLM Leaderboard v2 Collection. https://huggingface.co/spaces/open-llm-leaderboard/blog. 访问时间: 2025年6月26日.
[31] Joonhyun Jeong. 2024. 在大型多模态模型中劫持上下文. In ICLR 2024 可靠与负责任基础模型工作坊.
[32] Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Delong Chen, Wenliang Dai, Ho Shu Chan, Andrea Madotto, and Pascale Fung. 2023. 关于自然语言生成中的幻觉的调查。 Comput. Surveys 55, 12, Article 248 (2023), 248:1–248:38 pages. https://doi.org/10.1145/3571730
[33] Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik R. Narasimhan. 2024. SWE-bench: 语言模型能解决现实世界的 GitHub 问题吗? In Proceedings of the 12th International Conference on Learning Representations (ICLR). https://proceedings.iclr.cc/paper/2024/hash/edac78c3e300629acfe6cbe9ca88fb84
[34] Nicola Jones. 2025. AI 幻觉无法被阻止——但这些技术可以限制其损害。 Nature 637, 8047 (Jan. 2025), 778–780. https://doi.org/10.1038/d41586-025-00068-5
[35] Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield-Dodds, Nova Dassarma, Eli Tran-Johnson, Scott Johnston, Sheer El-Showk, Andy Jones, Nelson Elhage, Tristan Hume, Anna Chen, Yuntao Bai, Sam Bowman, Stanislav Fort, Deep Ganguli, Danny Hernandez, Josh Jacobson, Jackson Kernion, Shauna Kravec, Liane Lovitt, Kamal Ndousse, Catherine Olsson, Sam Ringer, Dario Amodei, Tom B. Brown, Jack Clark, Nicholas Joseph, Benjamin Mann, Sam McCandlish, Chris Olah, and Jared Kaplan. 2022. 语言模型(大多)知道它们所知道的。 ArXiv abs/2207.05221 (2022). https://arxiv.org/abs/2207.05221
[36] Adam Kalai. 2001. 机器学习中的概率与在线方法。 PhD Thesis. Carnegie Mellon University.
[37] Adam Tauman Kalai 和 Santosh S. Vempala。2024。校准的语言模型必须幻想。发表于第56届ACM理论计算机学会年会(Vancouver, BC, Canada)(STOC 2024)。Association for Computing Machinery,纽约,NY,USA,160–171。 https://doi.org/10.1145/3618260.3649777
[38] Alkis Kalavasis、Anay Mehrotra 和 Grigoris Velegkas。2025。关于语言生成的极限:幻想与模式崩溃之间的权衡。发表于第57届ACM理论计算机学会年会(STOC ’25),Michal Koucký 和 Nikhil Bansal(Eds.)。Association for Computing Machinery,Prague,Czechia,1732–1743。 https://doi.org/10.1145/3717823.3718108
[39] Michael J. Kearns、Robert E. Schapire 和 Linda M. Sellie。1994。Toward efficient agnostic learning。Machine Learning 17,2-3(Nov. 1994),115–141。 https://doi.org/10.1007/BF00993468
[40] Michael J. Kearns 和 Umesh V. Vazirani。1994。An Introduction to Computational Learning Theory。MIT Press,Cambridge,MA,USA.
[41] Jon Kleinberg 和 Sendhil Mullainathan. 2024. Language Generation in the Limit. In Advances in Neural Information Processing Systems 37 (NeurIPS 2024). Curran Associates, Inc., 66058–66079. https://proceedings.neurips.cc/paper_files/paper/2024/hash/7988e9b3876ad689e921ce05d711442f-Abstract-Conference.html
[42] Nayeon Lee, Wei Ping, Peng Xu, Mostofa Patwary, Pascale Fung, Mohammad Shoeybi, 和 Bryan Catanzaro. 2022. Factuality Enhanced Language Models for Open-Ended Text Generation. arXiv:2206.04624 [cs.CL] https://arxiv.org/abs/2206.04624
[43] Lauren Leffer. 2024. AI Chatbots Will Never Stop Hallucinating. Scientific American. https://www.scientificamerican.com/article/chatbot-hallucinations-inevitable/
[44] Sharon Levy, Michael Saxon, 和 William Yang Wang. 2021. Investigating Memorization of Conspiracy Theories in Text Generation. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Association for Computational Linguistics, Online, 4718–4729. https://doi.org/10.18653/v1/2021.findings-acl.416
[45] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, 和 Douwe Kiela. 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Advances in Neural Information Processing Systems, H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan, and H. Lin (Eds.), Vol. 33. Curran Associates, Inc., 9459–9474. https://proceedings.neurips.cc/paper_files/paper/2020/file/6b493230205f780e1bc26945df7481e5-Paper.pdf
[46] Shaobo Li, Xiaoguang Li, Lifeng Shang, Zhenhua Dong, Chengjie Sun, Bingquan Liu, Zhenzhou Ji, Xin Jiang, 和 Qun Liu. 2022. How Pre-Trained Language Models Capture Factual Knowledge? A Causal-Inspired Analysis. arXiv:2203.16747 [cs.CL] https://arxiv.org/abs/2203.16747
[47] Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D Manning, Christopher Re, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue WANG, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri S. Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Andrew Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, 和 Yuta Koreeda. 2023. Holistic Evaluation of Language Models. Transactions on Machine Learning Research (2023).
https://openreview.net/forum?id=iO4LZibEqW
[48] Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, and Yejin Choi. 2025. WildBench:在野外环境中使用真实用户的挑战性任务对大型语言模型进行基准测试。 In 《第13届学习表征国际会议(ICLR)论文集》 https://openreview.net/forum?id=MKEHCx25xp
[49] Stephanie Lin, Jacob Hilton, and Owain Evans. 2022a. 教学模型用文字表达不确定性。 Transactions on Machine Learning Research 2022 (2022). https://openreview.net/forum?id=8s8K2UZGTZ
[50] Stephanie Lin, Jacob Hilton, and Owain Evans. 2022b. TruthfulQA:衡量模型模仿人类谬误的程度。 In 《第60届计算语言学协会年会论文集(第1卷:长篇论文)》 Association for Computational Linguistics, Dublin, Ireland, 3214–3252. https://doi.org/10.18653/v1/2022.acl-long.229
[51] Bolei Ma, Yuting Li, Wei Zhou, Ziwei Gong, Yang Janet Liu, Katja Jasinskaja, Annemarie Friedrich, Julia Hirschberg, Frauke Kreuter, and Barbara Plank. 2025. 大语言模型时代的语用学:关于数据集、评估、机遇与挑战的综述。 In 《第63届计算语言学协会年会论文集(第1卷:长篇论文)》, Wanxiang Che, Joyce Nabende, Ekaterina Shutova, and Mohammad Taher Pilehvar (Eds.). Association for Computational Linguistics, Vienna, Austria, 8679–8696. https://doi.org/10.18653/v1/2025.acl-long.425
[52] Potsawee Manakul, Adian Liusie, and Mark Gales. 2023. SelfCheckGPT:零资源黑盒幻觉检测用于生成式大型语言模型。 In 《2023年自然语言处理经验方法会议论文集》, Houda Bouamor, Juan Pino, and Kalika Bali (Eds.). Association for Computational Linguistics, Singapore, 9004–9017. https://doi.org/10.18653/v1/2023.emnlp-main.557
[53] Nestor Maslej, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Njenga Kariuki, Emily Capstick, Anka Reuel, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Russell Wald, Tobi Walsh, Armin Hamrah, Lapo Santarlasci, Julia Betts Lotufo, Alexandra Rome, Andrew Shi, and Sukrut Oak. 2025. 人工智能指数报告 2025。 Annual Report. AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA. https://hai.stanford.edu/ai-index/2025-ai-index-report Accessed: 27 Jun 2025.
[54] Joshua Maynez, Shashi Narayan, Bernd Bohnet, 和 Ryan McDonald. 2020. 《抽象摘要中的忠实度与真实性》. 载于《第58届计算语言学协会年会论文集(ACL)》。计算语言学协会,在线,1906–1919. https://aclanthology.org/2020.acl-main.173
[55] David McAllester 与 Luis Ortiz. 2003. 《对缺失质量和直方图规则误差的浓缩不等式》. Journal of Machine Learning Research 4, Oct (2003), 895–911.
[56] David A. McAllester and Robert E. Schapire. 2000. 关于Good–Turing估计器收敛速率的研究. In Proceedings of the Thirteenth Annual Conference on Computational Learning Theory (COLT 2000). Morgan Kaufmann, Palo Alto, California, USA, 1–6. https://www.learningtheory.org/colt2000/papers/McAllesterSchapire.pdf
[57] Colin McDiarmid. 1989. 关于有界差分方法. In Surveys in Combinatorics, 1989: Invited Papers at the Twelfth British Combinatorial Conference, J. Siemons (Ed.). London Mathematical Society Lecture Note Series, Vol. 141. Cambridge University Press, Cambridge, UK, 148–188. https://doi.org/10.1017/CBO9781107359949.008
[58] Miranda Muqing Miao and Michael Kearns. 2025. 幻觉、单一事实与校准失调:一项经验调查. arXiv:2502.08666 [cs.CL] https://arxiv.org/abs/2502.08666
[59] Sabrina J. Mielke, Arthur Szlam, Emily Dinan, and Y-Lan Boureau. 2022. 通过语言校准降低会话代理的过度自信. Transactions of the Association for Computational Linguistics 10 (2022), 857–872. https://doi.org/10.1162/tacl_a_00494
[60] José G. Moreno-Torres, Troy Raeder, Rocío Alaiz-Rodríguez, Nitesh V. Chawla, and Francisco Herrera. 2012. 对分类中数据集偏移的统一视角. Pattern Recognition 45, 1 (2012), 521–530.
[61] Aidar Myrzakhan, Sondos Mahmoud Bsharat, 和 Zhiqiang Shen. 2024. Open-llm-leaderboard: 从多项选择到开放式问题的 llms 评估、基准和竞技场。 https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard. arXiv preprint arXiv:2406.07545 (2024).
[62] Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, and John Schulman. 2021. WebGPT:浏览器辅助的问答系统,带有人类反馈。CoRR abs/2112.09332 (2021). https://arxiv.org/abs/2112.09332
[63] OpenAI. 2023a. GPT-4 Technical Report. http://arxiv.org/abs/2303.08774 arXiv:2303.08774 [cs].
[64] OpenAI. 2023b. 通过过程监督提升数学推理能力。https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/. Research blog post published 31 May 2023. Accessed: 27 Jun 2025..
[65] OpenAI. 2024. 利用大型语言模型学习推理。https://openai.com/index/learning-to-reason-with-llms/. Research blog post published 12 September 2024. Accessed: 27 Jun 2025..
[66] OpenAI. 2025a. GPT-5系统卡。Technical Report. https://cdn.openai.com/gpt-5-system-card.pdf Accessed: 2025-09-02..
[67] OpenAI. 2025b. 介绍Deep Research。https://openai.com/index/introducing-deep-research/. Blog post published 2 February 2025. Accessed: 27 Jun 2025..
[68] OpenAI. 2025c. 介绍GPT-4.1在API中的应用。https://openai.com/index/gpt-4-1/. Blog post published 14 April 2025. Accessed: 27 Jun 2025..
[69] OpenAI. 2025d. OpenAI o3和o4-mini系统卡。https://openai.com/index/o3-o4-mini-system-card/. Accessed: 8 May 2025.
[70] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul F. Christiano, Jan Leike, and Ryan Lowe. 2022. 训练语言模型以遵循指令与人类反馈. 在《神经信息处理系统进展》, Vol. 35. 27730–27744. https://doi.org/10.5555/3600270.3602281
[71] Alicia Parrish, Angelica Chen, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Jana Thompson, Phu Mon Htut, and Samuel Bowman. 2022. BBQ:手工构建的问答偏见基准. 在《计算语言学协会会议论文集:ACL 2022》, Smaranda Muresan, Preslav Nakov, and Aline Villavicencio (Eds.). Association for Computational Linguistics, Dublin, Ireland, 2086–2105. https://doi.org/10.18653/v1/2022.findings-acl.165
[72] Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Chen Bo Calvin Zhang, Mohamed Shaaban, John Ling, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Richard Ren, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Dmitry Dodonov, Tung Nguyen, Jaeho Lee, and 1000+ others. 2025. 人类的最后考试. https://doi.org/10.48550/arXiv.2501.14249 arXiv:2501.14249 [cs.LG]
[73] Joaquin Quiñonero-Candela, Masashi Sugiyama, Anton Schwaighofer, and Neil D. Lawrence (Eds.). 2009. 机器学习中的数据集偏移. MIT Press, Cambridge, MA.
[74] Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn. 2023. 直接偏好优化:你的语言模型暗地里是一个奖励模型。 Proceedings of the 37th International Conference on Neural Information Processing Systems (NeurIPS) (2023). https://dl.acm.org/doi/10.5555/3666122.3668460
[75] David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, and Samuel R. Bowman. 2024. GPQA:一个能够抵御Google的研究生级问答基准。 In Proceedings of the 1st Conference on Language Modeling (COLM 2024). https://openreview.net/forum?id=Ti67584b98
[76] Stuart J. Russell and Peter Norvig. 2020. 人工智能:一种现代方法(第4版)。 Pearson, Boston, MA, USA. http://aima.cs.berkeley.edu/
[77] Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela, and Jason Weston. 2021. 检索增强减少对话中的幻觉。 In Findings of the Association for Computational Linguistics: EMNLP 2021. Association for Computational Linguistics, Punta Cana, Dominican Republic, 3784–3803. https://doi.org/10.18653/v1/2021.findings-emnlp.320
[78] Zayne Sprague, Xi Ye, Kaj Bostrom, Swarat Chaudhuri, and Greg Durrett. 2024. MuSR:使用多步软推理测试链式思维的极限。 In Proceedings of the Twelfth International Conference on Learning Representations (ICLR 2024). OpenReview, Vienna, Austria. https://openreview.net/forum?id=jenyYQzue1
[79] Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, et al. 2023. 超越模仿游戏:量化并推断语言模型的能力。 https://openreview.net/forum?id=uyTL5Bvosj
[80] Kai Sun, Yifan Ethan Xu, Hanwen Zha, Yue Liu, and Xin Luna Dong. 2023. 从头到尾:大型语言模型有多知识丰富?亦称:LLM会取代知识图谱吗? arXiv:2308.10168 [cs.CL] https://arxiv.org/abs/2308.10168
[81] Yiyou Sun, Yu Gai, Lijie Chen, Abhilasha Ravichander, Yejin Choi, and Dawn Song. 2025. LLM为何以及如何产生幻觉:通过子序列关联连接点。 https://doi.org/10.48550/arXiv.2504.12691 arXiv:2504.12691 [cs.CL]
[82] Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou, and Jason Wei. 2023. 挑战 BIG-Bench 任务以及链式思维是否能解决它们. 发表于《计算语言学协会研究成果》: ACL 2023. 计算语言学协会, 加拿大多伦多, 13003–13051. https://doi.org/10.18653/v1/2023.findings-acl.824
[83] Jianheng Tang, Qifan Zhang, Yuhan Li, Nuo Chen, and Jia Li. 2025. GraphArena:评估与探索大型语言模型在图计算上的表现。 https://openreview.net/forum?id=Y1r9yCMzeA
[84] Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, and Chelsea Finn. 2024. Fine–Tuning Language Models for Factuality. In Proceedings of the Twelfth International Conference on Learning Representations (ICLR 2024). 维也纳, 奥地利. https://openreview.net/forum?id=WPZ2yPag4K
[85] Vladimir N Vapnik 和 A Ya Chervonenkis. 1971. 事件相对频率趋于其概率的统一收敛性. Theory of Probability & Its Applications 16, 2 (1971), 264–280.
[86] Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, and Wenhu Chen. 2024. MMLU-Pro:更稳健且更具挑战性的多任务语言理解基准。 In Advances in Neural Information Processing Systems 37 (NeurIPS 2024), Datasets and Benchmarks Track. arXiv:2406.01574 [cs.CL] https://papers.nips.cc/paper_files/paper/2024/hash/ad236edc564f3e3156e1b2feafb99a24-Abstract-Datasets_and_Benchmarks_Track.html
[87] Jerry Wei, Da Huang, Yifeng Lu, Denny Zhou, and Quoc V Le. 2023. 简单合成数据减少大型语言模型中的附和行为。 arXiv:2308.03958 [cs.CL] https://arxiv.org/abs/2308.03958
[88] Cheng-Kuang Wu, Zhi Rui Tam, Chieh-Yen Lin, Yun-Nung Chen, and Hung yi Lee. 2025. 回答、拒绝还是猜测?探究语言模型中的风险感知决策制定。 arXiv:2503.01332 [cs.CL] https://arxiv.org/abs/2503.01332
[89] Jialiang Xu, Yifan Mai, and Percy Liang. 2025. HELM 能力:逐项评估语言模型能力。 https://crfm.stanford.edu/2025/03/20/helm-capabilities.html. Stanford CRFM Blog.
[90] Ziwei Xu, Sanjay Jain, and Mohan Kankanhalli. 2024. 幻觉是不可避免的:大型语言模型的内在局限. arXiv:2401.11817 [cs.CL] https://arxiv.org/abs/2401.11817
[91] Yihao Xue, Kristjan Greenewald, Youssef Mroueh, and Baharan Mirzasoleiman. 2025. 在不确定时进行验证:黑盒幻觉检测中的自洽性之外. arXiv:2502.15845 [cs.CL] https://arxiv.org/abs/2502.15845
[92] Zhangyue Yin, Qiushi Sun, Qipeng Guo, Jiawen Wu, Xipeng Qiu, and Xuanjing Huang. 2023. 大型语言模型知道它们不知道什么吗? arXiv:2305.18153 [cs.CL] https://arxiv.org/abs/2305.18153
[93] Muru Zhang, Ofir Press, William Merrill, Alisa Liu, and Noah A Smith. 2023. 语言模型幻觉如何产生雪崩。 arXiv:2305.13534 [cs.CL] https://arxiv.org/abs/2305.13534
[94] Wan Zhang and Jing Zhang. 2025. 检索增强型大型语言模型的幻觉缓解:综述。 Mathematics 13, 5 (2025), 856. https://doi.org/10.3390/math13050856
[95] Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. 2023. 大型语言模型的指令遵循评估。 https://doi.org/10.48550/arXiv.2311.07911 arXiv:2311.07911 [cs.CL]