arXiv:2401.15884v3 [cs.CL] 2024年10月7日

纠正检索增强生成

Shi-Qi Yan¹*, Jia-Chen Gu²*, Yun Zhu³, Zhen-Hua Ling¹

¹中国科学技术大学语音与语言信息处理国家工程研究中心,合肥,中国

²加州大学洛杉矶分校计算机科学系

³谷歌 DeepMind

[email protected], [email protected], [email protected], [email protected]

摘要

大型语言模型(LLMs)不可避免地会出现幻觉,因为仅凭它们所包含的参数化知识无法保证生成文本的准确性。虽然检索增强生成(RAG)是对 LLMs 的一种可行补充,但它高度依赖检索文档的相关性,这引发了关于检索错误时模型行为的担忧。为此,我们提出了 纠正检索增强生成(CRAG),以提升生成的鲁棒性。具体而言,设计了一个轻量级检索评估器,用于评估查询检索文档的整体质量,并根据评估返回置信度,从而触发不同的知识检索动作。由于从静态且有限的语料库检索只能返回次优文档,本文利用大规模网络搜索作为扩展,以增强检索结果。此外,本文为检索文档设计了拆分-再合成算法,能够有选择地聚焦关键信息并过滤其中的无关信息。CRAG 可即插即用,能够无缝衔接各种基于 RAG 的方法。在覆盖短篇与长篇生成任务的四个数据集上进行的实验表明,CRAG 能显著提升基于 RAG 方法的性能。¹

1 引言

大型语言模型(LLMs)已受到越来越多的关注,并展现出令人印象深刻的理解指令和生成流畅语言文本的能力(Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023a)。然而,LLMs 由于在事实错误方面的挣扎(Mallen et al., 2023; Min et al., 2023)以及无法仅凭自身确保生成文本的准确性,必然会出现幻觉(Ji et al., 2023)

图 1:示例表明,低质量检索器容易引入大量无关信息,阻碍生成器获取准确知识,并可能误导它们。

它们所包含的参数化知识(Zhang et al., 2023b; Muhlgay et al., 2023)。

先前的研究已经引入了检索技术,以整合与输入相关的知识并增强生成,例如检索增强生成(RAG)(Lewis et al., 2020)。在该框架中,模型的输入通过在其前面追加从外部知识库检索到的相关文档(Guu et al., 2020)来增强。虽然 RAG 作为 LLM 的实用补充,但其效果取决于检索文档的相关性和准确性(Li et al., 2022; Tan et al., 2022)。生成对检索知识的高度依赖,使得在检索失败或返回不准确结果的情况下,对模型行为和性能产生重大担忧(Shi et al., 2023)。如图 1 所示,低质量检索器易于引入

¹代码可在 github.com/HuskyInSalt/CRAG 获取


大量不相关信息阻碍模型获取准确知识,并可能误导它们,导致如幻觉等问题(Zhang et al., 2023b)。然而,大多数传统的 RAG 方法不加区分地整合检索到的文档,无论这些文档是否相关(Rony et al., 2022)。此外,当前的方法在检索和利用时大多将完整文档视为参考知识。但这些检索到文档中相当一部分文本往往对生成并非必需,且不应被同等引用并参与 RAG。

鉴于上述问题,本文特别研究检索器返回不准结果的场景。提出一种名为 Corrective Retrieval-Augmented Generation(CRAG)的方法,以自我纠正检索器结果并提升文档在生成中的利用率。设计了轻量级检索评估器,用以评估查询检索文档的整体质量。该评估器在 RAG 中是关键组件,通过审查和评估检索文档的相关性与可靠性,为信息丰富的生成提供支持。根据量化的置信度,可触发 {Correct, Incorrect, Ambiguous} 三种知识检索动作。对于后两种动作,结合大规模网络搜索(Piktus et al., 2021; Komeili et al., 2022)作为战略扩展,因为从静态且有限语料库检索只能在范围与多样性方面返回次优文档。该扩展旨在拓宽检索信息的范围,利用网络的广阔与动态性来补充并丰富最初获取的文档。进一步,为消除检索文档中对 RAG 无益的冗余语境,本文在整个检索与利用过程中精心设计了拆分-再重组算法。该算法确保对检索信息的细化,优化关键洞察的提取,最小化非必要元素的包含,从而提升检索数据的利用效率。

CRAG 是即插即用的,并已实验性地集成到 RAG(Lewis 等,2020)和 Self‑RAG(Asai 等,2024)中,以展示其对基于 RAG 的方法的适应性。结果来自

四个数据集——PopQA(Mallen 等,2023)、Biography(Min 等,2023)、Pub Health(Zhang 等,2023a)以及 Arc‑Challenge(Bhakthavatsalam 等,2021)表明 CRAG 可以显著提升标准 RAG 和最先进的 Self‑RAG 的性能,展示其在短篇与长篇生成任务中的通用性。为便于他人复现我们的结果,我们将随后发布所有源代码。

总之,本文的贡献三方面:1)本文研究检索器返回不准结果的场景,并据我们所知首次尝试为 RAG 设计纠错策略以提升其鲁棒性。2)提出一种名为 CRAG 的即插即用方法,以提升自动自纠的能力和对检索文档的高效利用。3)实验结果广泛表明 CRAG 对基于 RAG 的方法具有适应性,并在短篇与长篇生成任务中具备通用性。

2 相关工作

LLM 的幻觉 虽然 LLM 已展示出令人印象深刻的理解指令和生成流利语言文本的能力(Bang 等,2023;Qin 等,2023;Zhong 等,2023),但 LLM 仍面临的最严重问题之一是幻觉。正如许多研究所发现的(Tonmoy 等,2024;Zhang 等,2023b;Shuster 等,2021),无论是过时的信息还是被激活的错误知识,都会严重导致幻觉。大规模未经监管的训练数据收集、低比例的高质量抽样数据、输入空间中数据分配的不完善,以及其他许多现实因素,都可能影响 LLM 并加剧这些问题。因此,缺乏准确、具体的知识显然会导致误导甚至不准的生成,这将严重影响大多数实际应用中的用户体验。

检索增强生成 RAG (Lewis et al., 2020; Guu et al., 2020) 被认为是一种有用的方法来解决上述问题,它通过检索到的文档增强生成式LM的输入问题。它通常提供来自特定语料库(即维基百科)的额外知识来源,这极大地提升了LM在多种任务中的表现,尤其是在知识密集型任务中。所提出的


methods generally leverage information retrieval to

supply documents containing relevant knowledge

for generative LLMs. Earlier studies adopt either

sparse or dense retrievers at the front end of a pre-

trained language model that specializes in response

generation. Despite this, the methods above usually

ignore a question, what if the retrieval goes wrong?

Since the purpose of introducing a retrieval is to

secure that generative LMs can obtain relevant and

accurate knowledge. If retrieved documents are

irrelevant, the retrieval system can even exacerbate

语言模型所犯的事实错误。

高级 RAG 近年来,许多高级方法在原始RAG的基础上发展出来(Zhang等人,2024;Kim等人,2024;Wang等人,2024;Liu等人,2024)。考虑到在某些查询中检索有时是不必要的,相反,无检索的响应在许多情况下更为准确。Self-RAG(Asai等人,2024)提出了选择性检索知识并引入批评模型以决定是否检索。Yoran等人(2024)设计了一种NLI模型,用于识别不相关的上下文并提升鲁棒性。SAIL(Luo等人,2023)在指令上进行微调,以在指令之前插入检索到的文档。而Toolformer(Schick等人,2023)则预训练用于调用诸如Wikipedia等API。此外,在某些长文本生成任务中,外部知识需要多次使用,何时检索也应当考虑。Jiang等人(2023)积极预判未来内容,并在长篇生成中决定何时以及检索哪些内容。

与我们工作最相关的最近研究(Schick等人,2023;Luo等人,2023;Asai等人,2024)相比,应突出一个主要差异。这些方法侧重于利用检索作为增强生成的有用工具,或者检索是否必要,而本研究特别关注检索器返回不准确信息的情形。据我们所知,本文首次尝试探索并设计纠正策略,以提升RAG的生成鲁棒性。

3 任务表述

遵循先前工作(Lewis等人,2020;Asai

et al., 2024),给定输入 𝒳 和可访问

包含大量知识的语料库

文档 𝒞 = {d₁, ..., dN},系统预期生成输出 𝒴。整个

预期生成输出 𝒴。整个

框架通常被划分为检索器 𝒜

以及生成器 𝒜。检索器 𝒜 旨在检索

顶级 K 文档 𝒪 = {dr₁, ..., dr_k},它们是

与输入 𝒳 相关,来自语料库 𝒞。基于

在输入 𝒳 和检索结果 𝒪 之后,

生成器 𝒜 负责生成输出

𝒴。该框架可表述为:

P(\mathcal{Y}|\mathcal{X}) = P(\mathcal{D}|\mathcal{X})P(\mathcal{Y}, \mathcal{D}|\mathcal{X}). \quad (1)

它表明检索器和生成器是无缝-

无缝耦合,显示出低风险容忍度。任何

未成功检索可能导致不满意-

的响应,无论生成器的令人印象深刻的能力

生成器。此正是本文关注的焦点

论文旨在提升生成的鲁棒性。

4 CRAG

4.1 模型推理概述

图 2 与算法 1 展示了 CRAG 在推理阶段的概览,旨在设计纠正策略以提升生成的鲁棒性。给定一个输入查询和来自任意检索器的检索文档,构建一个轻量级检索评估器来估计检索文档与输入查询的相关性分数(Section 4.2)。该相关性分数被量化为三种置信度等级,并随后触发相应的动作:{Correct, Incorrect, Ambiguous}(Section 4.3)。若触发 Correct 动作,检索文档将被细化为更精准的知识片段。此细化过程涉及知识分解、过滤和重组(Section 4.4)。若触发 Incorrect 动作,检索文档将被丢弃。相反,将改为使用网络搜索并视其为补充的知识来源用于修正(Section 4.5)。最终,当无法自信地做出正确或错误判断时,将触发一个柔和且平衡的 Ambiguous 动作,结合两者。优化检索结果后,可采用任意生成模型。

4.2 检索评估器

在使用检索文档之前,天然会想它们是否准确,这一点很重要,因为通过这种方式可以识别无关或误导性信息。检索评估器的准确性无疑在塑造整体系统性能方面发挥着关键作用,因为它会影响后续过程的结果。


图 2:推理时所提出的 CRAG 的概览。构建了一个检索评估器,用于评估检索到的文档与输入的相关性,并估计置信度,基于此可以触发不同的知识检索动作 {Correct, Incorrect, Ambiguous}。

我们的目标是在检索文档不相关时进行纠正。具体而言,采用 T5-large (Raffel et al., 2020) 进行检索评估器的初始化并进行微调。其参数规模远小于当前最先进的 LLMs (Touvron et al., 2023a,b; Chowdhery et al., 2023; Anil et al., 2023; Brown et al., 2020; Ouyang et al., 2022; OpenAI, 2023)。为确保所有实验结果可与 Self-RAG (Asai et al., 2024) 对比,我们在实验中也采用了 Self-RAG 提供的通过 Contriever (Izacard et al., 2022) 获得的相同检索结果。可从现有数据集中收集用于微调评估器的相关性信号。例如,PopQA (Mallen et al., 2023) 为每个问题提供了来自 Wikipedia 的黄金主体维基标题。我们可以利用它来追踪一种虽然不是 100% 相关但质量相当高的段落。我们将其用作微调检索评估器的相关性信号。² 另一方面,用于微调的负样本全部随机从检索结果中抽取,且与输入查询相当相似但

不相关。有关此微调步骤的更多细节可参见附录 B.3。对于每个问题,通常检索到大约 10 篇文档。将问题与每个单独文档连接作为输入,评估器会为每个问题-文档对单独预测相关性分数。我们还尝试提示 ChatGPT 识别检索相关性以进行比较,但其表现不佳,详见第 5.5 节。基于这些计算得到的相关性分数,最终判断检索是否与行动触发器关联并正确。我们提出的框架在相对较低的成本下评估检索质量,无需访问大型昂贵的 LLM。与 Self-RAG(Asai 等人,2024)中指令微调的 LLaMA-2(7B)批评模型相比,CRAG 中设计的评估器展示了轻量级(0.77B)的优势。

²https://huggingface.co/datasets/akariasai/PopQA


Algorithm 1: CRAG 推理


要求 : E (检索评估器), W (查询重写器), G (生成器)

输入 : x (问题输入), D = {d₁, d₂, ..., dₖ} (检索文档)

输出 : y (生成回答)


1   scoreᵢ = E 评估每个对 (x, dᵢ) 的相关性,dᵢ ∈ D

2   Confidence = 根据 {score₁, score₂, ...scoreₖ} 计算并给出最终判断

    // Confidence 有 3 个可选值: [CORRECT], [INCORRECT] 或 [AMBIGUOUS]

3   如果 Confidence == [CORRECT]

4     Internal_Knowledge = Knowledge_Refine(x, D)

5     k = Internal_Knowledge

6   否则如果 Confidence == [INCORRECT]

7     External_Knowledge = Web(W 重写 x 以进行搜索)

8     k = External_Knowledge

9   否则如果 Confidence == [AMBIGUOUS]

10     Internal_Knowledge = Knowledge_Refine(x, D)

11     External_Knowledge = Web_SEARCH(W 重写 x 用于搜索)

12     k = Internal_Knowledge + External_Knowledge

13 结束

14 G 预测 y 给定 xk

4.3 动作触发

为了纠正不相关的文档并细化 the

目标文档需要时,操作应当执行-

精准执行。基于上述

每个检索文档的置信分数,三个

动作类型被设计并按需触发accord-

在上限和下限阈值设定时。

如果置信分数高于上限

阈值,检索文档被识别为

正确,而如果低于则识别为错误

下限阈值。否则,更柔和且

中间操作,即模糊操作被执行。

每个检索文档单独进行

并最终整合。

Correct 这里,当置信分数至少有一份检索文档高于上限阈值时,检索被认为是正确的。如果是这样,说明检索结果中有相关文档,并且来自检索结果的知识应该更可靠、更准确。然而,即使可以找到相关文档,文档中不可避免地存在一些嘈杂的知识条纹。为提取文档中最关键的知识条纹,进一步设计了一个知识细化方法,后将在第4.4节中详细阐述。

Incorrect 此外,检索被认为是

Incorrect 当所有检索文档的置信分数

检索到的 documents* 低于下限阈值。

这表明所有检索到的文档都是

被认为是无关的,这些对

生成。只要检索到的知识

结果被判定为不准确,最好不要

仍然陷入其中,这很可能导致

虚假信息。因此,我们需要寻找新的

知识来源以进行纠正。在这里,网络

搜索被引入,以便从互联网搜索为

在第4.5节中详细说明。这种纠正措施

有助于克服在此处面临的尴尬挑战

无法参考可靠的知识。

模糊 除了上述两种情况,

其余将被分配到中间的模糊动作。

这通常发生在

检索准确性难以区分

而评估者给出中间分数。

由于检索评估者对其不自信,

判断,已处理的知识类型

正确和不正确被组合以补-

充每个彼此。

实施这种调节

和软策略可以显著贡献于

加强系统的稳健性和韧性

系统,培养更适应的框架以

最佳性能。

讨论 初步实验使用-

仅使用正确和不正确动作显示

CRAG 的效果很容易受到影响的

检索评估器的准确性。原因

案件,无论他们的置信度水平如何

判断。模糊动作的设计


显著帮助减轻对

检索评估器准确性的。

4.4 知识精炼

给定检索到的相关文档,分解-

再组合知识精炼方法

旨在进一步提取最关键的

知识片段。为了获得细粒度

检索结果,我们将检索结果分段

成内部片段。如果检索结果仅为

一句或两句,它被视为单个

片段,否则,检索文档需要

拆分为更小的单位,通常由

几句话组成,依据总长度。

规模被假设为包含一个独立

信息片段,过滤基于

这些片段。然后,检索评估器微-

调校于第4.2节,被用来计算

每个知识片段的相关性分数。基于

基于这些分数,非相关知识片段被

过滤掉,而相关的通过

按顺序拼接,即内部知识。

4.5 网页搜索

如果系统本身

能够确定其现有知识库

无法很好地解决问题并转向

额外的外部知识以获得帮助。在

相反,即使系统知道现有

知识无法解决问题,但仍然

坚持有限的知识语料库,它只能

最终给出一个虚构的事实,这被称为

幻觉.. 因此,非常重要

寻求补充的外部知识,如果

检索到的结果全部被认为无关紧要,

并且我们认为一个知道自己

不知道并且无法回答的是什么

比坚持有限知识的人更聪明

知识并且无法寻求外部

知识。由于从静态和有限

语料库只能返回次优文档

在范围和多样性方面,规模庞大的网络

搜索(Piktus 等人,2021;Komeili 等人,2022)

被整合为 RAG 的战略扩展。

具体而言,输入被重写为查询

由 ChatGPT 组成的关键词来模拟

搜索引擎的日常使用。提示用于

重写过程如附录 A 所示。在 CRAG,

一个公开且可访问的商业网络搜索

API 被采用来生成一系列 URL 链接

用于每个查询。³ 考虑到知识

来自规模庞大的网络搜索可能引入

偏见或不可靠信息,权威且

受监管的网站如 Wikipedia 更受青睐,

这可以显著帮助缓解这些问题。

此外,我们利用 URL 链接来导航

网页,转录其内容,并采用

与第 4.4 节相同的知识精炼方法

以推导相关网络知识,即

外部知识。

5 实验

我们进行了广泛的实验来彻底演示-

strate CRAG的适应性至RAG-based ap-

proaches及其在短-

和长篇生成任务。

5.1 任务、数据集和度量

CRAG 在四个数据集上进行了评估,包括 PopQA (Mallen et al., 2023) (短篇生成), Biography (Min et al., 2023) (长篇生成), PubHealth (Zhang et al., 2023a) (真伪问题), 和 Arc-Challenge (Bhakthavatsalam et al., 2021) (多选问题)。遵循以往工作,准确率被采用为 PopQA、PubHealth 和 Arc-Challenge 的评估指标。FactScore (Min et al., 2023) 被采用为 Biography 的评估指标。读者可参考附录 B.1 以获取更多细节。由于我们使用与以往工作相同的检索结果,所用指标与以往研究相同,因此指标相同。不同之处在于我们的动机是通过纠正系统判断为低质量的检索结果来提升检索质量。这可以类比于 RAG 对独立参数化语言模型的增强,我们进一步通过纠正策略增强 RAG。

5.2 基线

我们主要将 CRAG 与两种 ap-

proaches 进行有无检索的比较,其中

后者可进一步拆分为标准 RAG 和

最新先进 RAG,包括:

无检索基线。 我们评估了一些公开的 LLMs,LLaMA2-7B,13B (Touvron et al., 2023b),指令微调模型,Alpaca-7B,13B (Dubois et al., 2023),以及 CoVE65B (Dhuliawala et al., 2024),该模型引入了迭代工程

³本研究中使用了 Google Search API 进行搜索。


MethodPopQA
(Accuracy)
Bio
(FactScore)
Pub
(Accuracy)
ARC
(Accuracy)
LMs trained with propriety data
LLaMA2-c13B20.055.949.438.4
Ret-LLaMA2-c13B51.879.952.137.9
ChatGPT29.371.870.175.3
Ret-ChatGPT50.8-54.775.3
Perplexity.ai-71.2--
Baselines without retrieval
LLaMA27B14.744.534.221.8
Alpaca7B23.645.849.845.0
LLaMA213B14.753.429.429.4
Alpaca13B24.450.255.554.9
CoVE65B-71.2--
Baselines with retrieval
LLaMA27B38.278.030.048.0
Alpaca7B46.776.640.248.0
SAIL--69.248.4
LLaMA213B45.777.530.226.0
Alpaca13B46.177.751.157.6
LLaMA2-hf-7b
RAG50.544.948.943.4
CRAG54.947.759.553.7
Self-RAG*29.032.20.723.9
Self-CRAG49.069.10.627.9
SelfRAG-LLaMA2-7b
RAG52.859.239.053.2
CRAG59.874.175.668.6
Self-RAG54.981.272.467.3
Self-CRAG61.886.274.867.2

表 1:四个数据集测试集上的总体评估结果。结果按生成 LLM 区分。加粗 数字表示所有方法和 LLM 中的最佳表现。灰色加粗 分数表示使用特定 LLM 的最佳表现。* 表示我们重现的结果,其余结果非我们所作均引用自原论文。

以提高 LLM 生成的事实性。诸如 LLaMA2-chat13B 和 ChatGPT 等专有 LLM 也被包含在内。

标准 RAG。 我们评估了标准 RAG(Lewis 等,2020),其中一个 LM 在查询前追加最相关检索到的文档(使用与我们系统相同的检索器)后生成输出。在此我们采用了若干公开的指令微调 LLM,包括 LLaMA2-7B、13B(Touvron 等,2023b)、Alpaca-7B、13B(Dubois 等,2023)以及在 Self‑RAG(Asai 等,2024)中指令微调的 LLaMA2-7B。

高级 RAG。 (1) SAIL(Luo 等,2023)在 Alpaca 指令微调数据上对 LM 进行指令微调,并插入了最相关检索到的文档

在指令之前插入。 (2) Self‑RAG(Asai 等,2024)在包含若干组反思标记的指令微调数据上对 LLaMA2 进行微调,这些标记由 GPT‑4(OpenAI,2023)标注。 (3) 继 Asai 等(2024)之后,我们还引用了使用私有数据训练的检索增强基线的结果:Ret‑ChatGPT 和 Ret‑LLaMA‑chat,它们采用上述相同的增强技术,以及基于 InstructGPT 的生产搜索系统 perplexity.ai。

5.3 结果

表 1 展示了四个数据集上的结果。将所提出的方法与标准 RAG 结合的模型被命名为 CRAG,与 Self‑RAG 结合的模型被命名为 Self‑CRAG。读者可以参考


附录 B.3,了解我们所提出方法的更多实现细节。根据这些结果,我们可以得出以下结论:

首先,所提出的方法能够显著提升 RAG 和 Self-RAG 的性能。具体而言,正如表 1 所示,CRAG 在基于 SelfRAG-LLaMA2-7b 的情况下,在 PopQA 上比 RAG 提升了 7.0% 的准确率,在 Biography 上提升了 14.9% 的 FactScore,在 PubHealth 上提升了 36.6% 的准确率,在 Arc-Challenge 上提升了 15.4% 的准确率;在基于 LLaMA2-hf-7b 的情况下,则分别在 PopQA 上提升了 4.4% 的准确率,在 Biography 上提升了 2.8% 的 FactScore,在 Arc-Challenge 上提升了 10.3%。与当前最先进的 Self-RAG 相比,Self-CRAG 在基于 LLaMA2-hf-7b 的情况下,在 PopQA 上以 20.0% 的准确率优势领先,在 Biography 上以 36.9% 的 FactScore 领先,在 Arc-Challenge 上以 4.0% 的准确率优势领先;在基于 SelfRAG-LLaMA2-7b 的情况下,则在 PopQA 上提升了 6.9% 的准确率,在 Biography 上提升了 5.0% 的 FactScore,在 PubHealth 上提升了 2.4% 的准确率。这些结果证明了 CRAG 的适应性,它是即插即用的,并且可以应用于基于 RAG 的方法。

其次,所提出的方法在多种生成任务中展示了出色的泛化能力。尤其是表 1 中报告的这些基准分别代表了不同的实际场景,包括短文本实体生成(PopQA)、长文本生成(Biography)以及封闭集合任务(PubHealth、Arc-Challenge)。这些结果验证了 CRAG 的持续有效性。它在多种任务中的多功能性凸显了其强大的能力和在多样化场景中的泛化性。

第三,所提出的方法在替换底层 LLM 生成器方面表现出更大的灵活性。可以看到,当底层 LLM 从 SelfRAG-LLaMA2-7b 换成 LLaMA2-hf-7b 时,CRAG 仍保持了竞争力,而 Self-RAG 的性能显著下降,甚至在若干基准上低于标准 RAG。产生这些结果的原因在于 Self-RAG 需要使用人工或 LLM 注释数据进行指令微调,以学习在需要时输出特殊的批判性标记,而常见的 LLM 并未学习到这一能力。CRAG 对此没有任何要求。正如你所想象的那样,当未来出现更先进的 LLM 时,它们可以轻松与 CRAG 配合,而 Self-RAG 仍需要额外的指令微调。

LLaMA2-hf-7bSelfRAG-LLaMA2-7b
CRAG54.959.8
w/o. Correct53.258.3
w/o. Incorrect54.459.5
w/o. Ambiguous54.059.0
Self-CRAG49.061.8
w/o. Correct43.659.6
w/o. Incorrect47.760.8
w/o. Ambiguous48.161.5

表 2:关于在 PopQA 数据集上逐一移除每个单一动作的准确率消融研究。

LLaMA2-hf-7bSelfRAG-LLaMA2-7b
CRAG54.959.8
w/o. refinement49.854.2
w/o. rewriting51.756.2
w/o. selection50.958.6
Self-CRAG49.061.8
w/o. refinement35.952.2
w/o. rewriting37.258.4
w/o. selection24.957.9

表 3:PopQA 上按准确率删除每个知识利用操作的消融研究。

5.4 消融研究

每个触发动作的影响。 为进一步验证检索评估器中设计的触发动作的有效性,针对所提出方法中每个单独动作的移除,进行了消融测试,如表 2 所示。对 PopQA 数据集的评估旨在展示准确率方面的性能变化。具体而言,当移除动作 Correct 或 Incorrect 时,它们与 Ambiguous 合并,使原本触发 Correct 或 Incorrect 的比例转而触发 Ambiguous。另一方面,当移除动作 Ambiguous 时,则只有一个阈值,所有输入查询清晰地触发 Correct 或 Incorrect。由这些结果可见,无论移除哪个动作,性能都会下降,说明每个动作都为提升生成的鲁棒性做出了贡献。为进一步说明该研究,亦进行了仅一次触发单一动作的实验,附录中展示的结果亦证明了其一致性。


Accuracy
Our Retrieval Evaluator (T5-based)84.3
ChatGPT58.0
ChatGPT-CoT62.4
ChatGPT-few-shot64.7

表 4:我们的检索评估器和 ChatGPT 在 PopQA 数据集上的检索结果评估。

每个知识利用操作的影响。 表3展示了如果移除关键知识利用操作,性能会如何变化。我们在PopQA数据集上以准确率为指标,分别移除文档细化、检索查询重写和外部知识选择三种知识利用操作进行评估。移除文档细化意味着将原始检索到的文档直接输入后续生成器,类似大多数现有工作。此外,移除查询重写表示在知识检索时不将问题重写为包含关键词的查询。最终,移除知识选择意味着所有检索到的网页内容都被视为外部知识,无任何筛选。结果表明,无论移除哪种知识利用操作,最终系统的性能都会下降,进一步证明每种知识利用操作都对提升知识利用率起到了积极作用。

5.5 检索评估器的准确性

检索评估器的质量显著决定了整个系统的性能。给定文档检索结果,我们评估检索评估器是否能够准确判断这些结果的整体质量。在PopQA数据集上,我们的检索评估器与商业LLM ChatGPT在文档检索结果上的评估准确率如表4所示。我们实验中使用的ChatGPTChatGPT-CoTChatGPT-few-shot提示可参考附录A。结果显示,轻量化的基于T5的检索评估器在所有设置下均显著优于竞争者ChatGPT。

5.6 对检索性能的鲁棒性

为进一步验证所提出方法对检索性能的鲁棒性,我们研究了在不同条件下生成性能的变化

图 3:在 PopQA 数据集上使用 SelfRAG-LLaMA-7b 时,Self-RAG 与 Self-CRAG 在不同检索性能下的生成性能。下方的水平线展示了不使用检索时生成器的性能。

LLaMA2-hf-7bSelfRAG-LLaMA2-7b
PopQA
CRAG54.959.8
RAG50.552.8
RAG w. web52.253.8
Self-CRAG49.061.8
Self-RAG29.054.9
Self-RAG w. web24.957.9

表 5:CRAG、Self-CRAG 与 RAG、Self-RAG 在相同输入下的准确率比较结果。

检索性能。 部分准确的检索结果被随机删除,以模拟低质量检索器并评估性能变化。 图 3 展示了 Self-CRAG 与 Self-RAG 在 PopQA 数据集上的性能变化。 可以看出,随着检索性能下降,Self-CRAG 与 Self-RAG 的生成性能也随之下降,表明生成器在很大程度上依赖检索器的质量。 此外,随着检索性能下降,Self-CRAG 的生成性能下降幅度比 Self-RAG 更小。 这些结果表明,Self-CRAG 在提升对检索性能的鲁棒性方面优于 Self-RAG。

5.7 一致补充网络搜索知识

本文强调在初始检索结果不相关且不可靠时,通过加入额外信息来增强检索上下文的必要性。 同时,确认我们方法的主要改进来自自我纠错机制也至关重要-


TFLOPs per tokenexecuting time(s)
RAG26.50.363
CRAG27.20.512
Self-RAG26.5~132.40.741
Self-CRAG27.2~80.20.908

表 6:RAG、CRAG、Self-CRAG 与 Self-RAG 在 GPU 上每个 token 的 FLOPs 以及每个实例的执行时间的计算开销评估。Self-CRAG 的上限更低,因为仅提供了三段输入(正确、错误和含糊不清的内容)。表中所有数据仅代表生成阶段的粗略估计,检索和数据处理阶段未包含其中。

anism,而非仅仅来自通过网络搜索获取的补充信息。为进一步展示所提自我纠错机制的有效性,RAG 和 Self-RAG 一直被补充了网络搜索知识,以确保它们能够访问相同范围的检索知识。表 5 的结果表明,持续为 RAG 或 Self-RAG 补充网络搜索知识可以在大多数情况下提升性能(使用原始 LLaMA2 模型的 Self-RAG w. web 除外),但提升仍然有限。此外,在所有情况下,将 RAG 或 Self-RAG 与所提自我纠错机制相结合,明显优于持续补充网络搜索知识的模型。这一发现确认,所观察到的进步主要归功于所提自我纠错机制。

5.8 计算开销分析

为说明我们的自我纠错机制是对各种 RAG 基础框架的轻量级、即插即用解决方案,我们测量了其计算开销。我们采用 Narayanan 等人(2021)的 FLOPs 预测公式,结果展示在表 6 中,表 6 显示了 GPU 上每个 token 的预测 FLOPs。由于 Self-RAG 的自适应特性,即根据输入改变生成策略,计算开销无法精确确定。因此,我们给出一个估计范围。此外,我们在 PopQA 上开展实验,以评估实际中每个实例的平均执行时间,详细情况见表 6。研究结果表明,自我纠错机制仅产生适度的计算开销

同时显著提升性能,从而验证其轻量级特性。

6 结论与局限

本文研究了当检索错误时,基于 RAG 的方法所面临的挑战,从而使不准确信息和误导性知识暴露给生成式 LMs。我们提出了 Corrective Retrieval Augmented Generation(CRAG)以提升生成的鲁棒性。本质上,CRAG 通过一个轻量级检索评估器来估计并差异化触发三种知识检索动作。进一步利用网络搜索和优化的知识利用后,CRAG 在自动自我纠错以及高效利用检索文档方面显著提升了能力。实验充分展示了其对基于 RAG 方法的适应性以及在短篇和长篇生成任务中的泛化性。虽然我们主要从纠错视角改进了 RAG 框架,并且 CRAG 能够无缝耦合多种基于 RAG 的方法,但微调外部检索评估器是不可避免的。如何消除这一外部评估器并为 LLM 配备更好的检索评估能力,将是我们的未来工作。

参考文献


Tafjord, and Peter Clark. 2021. 你认为已经解决了直接答案问题回答吗?尝试 arc-da,直接答案 AI2 推理挑战。CoRR, abs/2102.03315.

Tom B Brown, Benjamin Mann, Nick Ryder, et al. 2020. 语言模型是少样本学习者。In Advances in neural information processing systems, pages 1877–1901.

Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. 2023. Palm:使用路径进行语言模型的规模化。J. Mach. Learn. Res., 24:240:1–240:113.

Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, and Jason Weston. 2024. 链式验证减少大型语言模型的幻觉。pages 3563–3578.

Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. 2023. Alpaca-farm:用于从人类反馈学习方法的仿真框架。CoRR, abs/2305.14387.

Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Ming-Wei Chang. 2020. 检索增强型语言模型预训练。在 Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, volume 119 of Proceedings of Machine Learning Research, pages 3929–3938. PMLR.

Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, and Edouard Grave. 2022. 使用对比学习的无监督密集信息检索. Trans. Mach. Learn. Res., 2022.

Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Andrea Madotto, and Pascale Fung. 2023. 自然语言生成中幻觉现象的综述. ACM Comput. Surv., 55(12):248:1–248:38.

Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, and Graham Neubig. 2023. 主动检索增强生成. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, Singapore, December 6-10, 2023, pages 7969–7992. Association for Computational Linguistics.

Jaehyung Kim, Jaehyun Nam, Sangwoo Mo, Jongjin Park, Sang-Woo Lee, Minjoon Seo, Jung-Woo Ha, and Jinwoo Shin. 2024. Sure:利用答案候选者对检索结果进行总结,以实现大型语言模型的开放域问答. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net.

Mojtaba Komeili, Kurt Shuster, and Jason Weston. 2022. 基于互联网增强的对话生成. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2022, Dublin, Ireland, May 22-27, 2022, pages 8460–8478. Association for Computational Linguistics.

Patrick S. H. Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. 2020. 用于知识密集型自然语言处理任务的检索增强生成. In Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual.

Huayang Li, Yixuan Su, Deng Cai, Yan Wang, and Lemao Liu. 2022. 检索增强文本生成的综述. CoRR, abs/2202.01110.

Yanming Liu, Xinyue Peng, Xuhong Zhang, Weihao Liu, Jianwei Yin, Jiannan Cao, and Tianyu Du. 2024. RA-ISF:通过检索增强与迭代自我反馈学习回答与理解. 在 Association for Computational Linguistics 会议论文集, ACL 2024, 泰国曼谷与线上会议, 2024年8月11-16日, 页码 4730–4749. Association for Computational Linguistics.

Hongyin Luo, Tianhua Zhang, Yung-Sung Chuang, Yuan Gong, Yoon Kim, Xixin Wu, Helen Meng, and James R. Glass. 2023. 搜索增强指令学习. 在 Association for Computational Linguistics 会议论文集: EMNLP 2023, 新加坡, 2023年12月6-10日, 页码 3717–3729. Association for Computational Linguistics.

Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, and Hannaneh Hajishirzi. 2023. 何时不信任语言模型:探究参数化与非参数化记忆的有效性. 在 Association for Computational Linguistics 会议论文集(第61届年会,卷1:长篇论文), ACL 2023, 加拿大多伦多, 2023年7月9-14日, 页码 9802–9822. Association for Computational Linguistics.


Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang Wei Koh, Mohit Iyyer, Luke Zettlemoyer, and Hannaneh Hajineh. 2023. Factscore:对长文本生成中事实精确度的细粒度原子评估. 在 Empirical Methods in Natural Language Processing 会议论文集, EMNLP 2023, 新加坡, 2023年12月6-10日, 页码 12076–12100. Association for Computational Linguistics.

Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. 2023. Toolformer:语言模型能够自我学习使用工具.

Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan, Ed H. Chi, Nathanael Schärli, and Denny Zhou. 2023. 大型语言模型容易被无关上下文分散注意. 在 Machine Learning Research 会议论文集(第40届国际机器学习会议,卷202), 页码 31210–31227. PMLR.

Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela, and Jason Weston. 2021. 检索增强减少对话中的幻觉. In Findings of the Association for Computational Linguistics: EMNLP 2021, Virtual Event / Punta Cana, Dominican Republic, 16-20 November, 2021, pages 3784–3803. Association for Computational Linguistics.

Chao-Hong Tan, Jia-Chen Gu, Chongyang Tao, Zhen-Hua Ling, Can Xu, Huang Hu, Xiubo Geng, and Daxin Jiang. 2022. Tegtok:通过任务特定和开放世界知识增强文本生成. In Findings of the Association for Computational Linguistics: ACL 2022, Dublin, Ireland, May 22-27, 2022, pages 1597–1609. Association for Computational Linguistics.

S. M. Towhidul Islam Tonmoy, S. M. Mehedi Zaman, Vinija Jain, Anku Rani, Vipula Rawte, Aman Chadha, and Amitava Das. 2024. 大型语言模型中幻觉缓解技术的综合综述. CoRR, abs/2401.01313.

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurélien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. 2023a. Llama:开放且高效的基础语言模型. CoRR, abs/2302.13971.

Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, et al. 2023b. Llama 2:开放式基础和微调聊天模型. CoRR, abs/2307.09288.

Zihao Wang, Anji Liu, Haowei Lin, Jiaqi Li, Xiaojian Ma, and Yitao Liang. 2024. RAT:检索增强思想激发长期生成中的情境感知推理. CoRR, abs/2403.05313.

Ori Yoran, Tomer Wolfson, Ori Ram, and Jonathan Berant. 2024. 使检索增强语言模型对无关上下文具有鲁棒性.

NAACL 2022, Seattle, WA, United States, July 10-15, 2022, pages 2557–2571. 计算语言学协会.


Tianhua Zhang, Hongyin Luo, Yung-Sung Chuang, Wei Fang, Luc Gaitskell, Thomas Hartvigsen, Xixin Wu, Danny Fox, Helen Meng, and James R. Glass. 2023a. 可解释的统一语言检查. CoRR, abs/2304.03728.

Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, and Joseph E. Gonzalez. 2024. RAFT:将语言模型适配到特定领域的RAG. CoRR, abs/2403.10131.

Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, Longyue Wang, Anh Tuan Luu, Wei Bi, Freda Shi, and Shuming Shi. 2023b. AI海洋中的海妖之歌:大型语言模型幻觉综述. CoRR, abs/2309.01219.

Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, and Dacheng Tao. 2023. ChatGPT也能理解吗?ChatGPT与微调BERT的比较研究. CoRR, abs/2302.10198.


A 任务提示

用于生成知识关键词的提示

正如表 7 所示,作为网络搜索查询。

表 7:用于将知识关键词生成为网络搜索查询的 GPT-3.5 Turbo 少量样本提示。

Extract at most three keywords separated by comma from the following dialogues and questions as queries for the web search, including topic background within dialogues and main intent within questions.
question: What is Henry Feilden's occupation?
query: Henry Feilden, occupation
question: In what city was Billy Carlson born?
query: city, Billy Carlson, born
question: What is the religion of John Gwynn?
query: religion of John Gwynn
question: What sport does Kiribati men's national basketball team play?
query: sport, Kiribati men's national basketball team play
question: [question]
query:

用于指导 ChatGPT 作为评估器的提示-

评估器如表 8、表 9 和表 10 所示

分别。

表 8:直接提示 GPT-3.5 Turbo 作为评估器的

评估器。

Given a question, does the following document have exact information to answer the question? Answer yes or no only.
Question: [question]
Document: [document]

表 9:带 Chain-of-Thought 的 GPT-3.5 Turbo 提示,用作评估器。

Given a question, does the following document have exact information to answer the question?
Question: [question]
Document: [document]
Think Step by step, and answer with yes or no only.

表 10:少量样本提示 GPT-3.5 Turbo 作为评估器。

Given a question, does the following document have exact information to answer the question? Answer yes or no only.
Question: In what city was Abraham Raimbach born?
Document: Bancroft was born on November 25, 1839 in New Ipswich, New Hampshire to James Bancroft and Sarah Kimball. At an early age he was cared for by Mr. and Mrs. Patch of Ashby, Massachusetts, the neighboring town. While not legally adopted, they named him Cecil Franklin Patch Bancroft, adding Franklin Patch after the son Mr. and Mrs. Patch had who recently died. He attended public schools in Ashby as well as the Appleton Academy in New Ipswich. He entered Dartmouth College in 1856 at the age of sixteen and graduated in 1860 near the top of his class. Bancroft continued his education as he began his career in teaching. He took classes at the Union Theological Seminary in New York City during the 1864-65 academic year. While there he was a member of the United States Christian Commission, traveling to support soldiers during the Civil War. He then transferred to the Andover Theological Seminary where he would graduate in 1867.
Answer: No.
Question: In what country is Wilcza Jama, Sokółka County?
Document: Wilcza Jama is a village in the administrative district of Gmina Sokółka, within Sokółka County, Podlaskie Voivodeship, in north-eastern Poland, close to the border with Belarus.
Answer: Yes.
Question: What sport does 2004 Legg Mason Tennis Classic play?
Document: The 2004 Legg Mason Tennis Classic was the 36th edition of this tennis tournament and was played on outdoor hard courts. The tournament was part of the International Series of the 2004 ATP Tour. It was held at the William H.G. FitzGerald Tennis Center in Washington, D.C. from August 16 through August 22, 2004.
Answer: Yes.
Question: Who is the author of Skin?
Document: The Skin We're In: A Year of Black Resistance and Power is a book by Desmond Cole published by Doubleday Canada in 2020. The Skin We're In describes the struggle against racism in Canada during the year 2017, chronicling Cole's role as an anti-racist activist and the impact of systemic racism in Canadian society. Among the events it discusses are the aftermath of the assault of Dafonte Miller in late 2016 and Canada 150. The work argues that Canada is not immune to the anti-Black racism that characterizes American society. Due to an error by the publisher, the initial printing of the book's cover did not include word Black in the subtitle. The mistake was later corrected. The book won the Toronto Book Award for 2020. In 2021, the book was nominated for the Shaughnessy Cohen Prize for Political Writing.
Answer: No.
Question: [question]
Document: [document]
Answer:

B 实验

B.1 任务、数据集与指标

CRAG 在四个公开领域并且已授权用于研究目的的数据集上进行了评估,包括:

PopQA (Mallen et al., 2023) 是一个短篇生成任务。通常,每个单一问题只期望回答一个事实知识实体。在我们的实验中,我们严格遵循 Self-RAG (Asai et al., 2024) 的设置,该设置在包含 1,399 个每月维基百科页面浏览量不到 100 的稀有实体查询的长尾子集上评估方法。准确率被采用为评估指标。

Biography (Min et al., 2023) 是一个长篇生成任务,任务是生成关于某个实体的详细传记。遵循之前的工作,采用 FactScore (Min et al., 2023) 来评估生成的传记。

PubHealth (Zhang et al., 2023a) 是医疗健康领域的一个任务,由真伪判断题组成。声称以事实信息描述健康内容,模型的任务是验证真实性并给出判断。准确率被采用为评估指标。

Arc-Challenge (Bhakthavatsalam et al., 2021) 是一个关于日常常识科学现象的多项选择题任务。给定日常生活中发生的科学事件,模型需要在 3 或 4 个选项中挑选出正确的描述。准确率同样被采用为评估指标。

B.2 实验计算资源

我们使用 NVIDIA A800 80GB GPU 进行实验。对于 LLaMA-2 (7B) 的生成,在推理过程中占用超过 40GB 内存。相比之下,T5-large (0.77B) 的微调占用的内存要少得多。

B.3 实现细节

检索评估器: 我们基于轻量化的 T5-large (Raffel et al., 2020) 预训练模型对检索评估器进行了微调。我们使用的数据集是 Self-RAG (Asai et al., 2024) 提供的版本。具体来说,原始 PopQA 数据集包含 14k 样本,其中 1,399 个用于测试,遵循 Self-RAG (Asai et al., 2024),其余用于微调以避免信息泄漏。此外,微调后的评估器已被迁移并且还

在推理期间,在 Bio、Pub 和 ARC 数据集上使用。正样本标签为 1,负样本标签为 -1。推理时,评估器为每份文档评分,相关性范围从 -1 到 1。触发三种动作之一的两个置信阈值是经验设定的。具体而言,PopQA 中为 (0.59, -0.99),PubQA 与 Arc-Challenge 中为 (0.5, -0.91),Biography 中为 (0.95, -0.91)。

内部知识: 为了获得细粒度检索结果,我们将检索结果划分为内部条带。如果检索结果仅为一两句话,则视为单个条带;否则,检索文档需拆分为更小的单元,通常按总长度划分为若干句。假设该尺度包含独立信息,并基于这些段落进行过滤。我们再次直接采用评估器对知识条带进行过滤,top‑k 设为 5,过滤阈值为 -0.5。

外部知识: 使用 Google Search API 搜索相关 URL,top‑k 设为 5,并优先加入来自 Wikipedia 的页面。搜索得到的网页通常为 HTML 文件,内容通过特殊标记如 <p></p> 进行分割。因此不需要像知识精炼那样额外进行分段,相关知识段落可直接用评估器像内部知识一样挑选。这样可以保证搜索结果的准确性,同时不影响生成所用信息的质量与相关性。

生成器: 由于 CRAG 是一个即插即用的方法,所有可用于 RAG 的生成模型同样适用于我们的方案。为与基线保持一致,我们采用了 LLaMA2(Touvron 等,2023b)进行生成。我们首先使用 huggingface 上的 LLaMA2-hf-7b 来生成回答。由于 Self‑RAG(Asai 等,2024)对 LLaMA2 进行微调,并在多个任务上取得新的最优性能,我们进一步使用发布的模型 SelfRAG-LLaMA2-7b 作为新的生成器,以保持与其工作的一致性,并研究我们方法的具体提升。

Self-CRAG: 我们的插件即插即用方法可以在其他并行研究中使用,为此我们特别设计了将我们的CRAG插入 Self-RAG(Asai 等,2024)框架,并将其命名为 Self-CRAG。Self-RAG


表 11:在 PopQA 数据集上仅移除单一动作的消融研究,评估准确率。

LLaMA2-hf-7bSelfRAG-LLaMA2-7b
CRAG54.959.8
only Correct52.456.7
only Incorrect47.048.5
only Ambiguous52.758.0
Self-CRAG49.061.8
only Correct48.657.2
only Incorrect40.853.3
only Ambiguous44.959.8

是一种先进的 RAG 方法,提出了一个批评模型,用来决定是否检索以及检索到哪些文档用于生成。它满足了我们决定触发哪种动作的需求,因此我们将 Self‑RAG 中检索到的项目替换为我们处理过的内部知识(用于 Correct)、外部知识(用于 Incorrect)以及组合知识(用于 Ambiguous)。

B.4 更详细的结果

消融研究: 表 11 中的以下结果演示了通过仅为所有实例触发一个动作来进行消融研究。

B.5 PubHealth 与 Arc-Challenge 上的结果

值得一提的是,基于 LLaMA2-hf-7b 的 PubHealth 性能远不如其他模型。我们研究了这些案例,发现 LLaMA2-hf-7b 在指令理解方面相对较弱。大多数案例无法在此类二选一问题任务中生成 True 或 False,导致评估时准确率较低。这种情况在 Arc-Challenge 中也有所出现,当模型被要求生成候选项的索引时。