RAPTOR:树组织检索的递归抽象处理

作者

斯坦福大学

[email protected]

摘要

检索增强语言模型能够更好地适应世界状态的变化并整合长尾知识。然而,大多数现有方法仅从检索语料库中检索短的连续片段,限制了对整体文档上下文的整体理解。我们提出了一种递归嵌入、聚类和摘要文本块的新方法,从底部向上构建具有不同摘要级别的树。在推理时,我们的RAPTOR模型从这棵树中检索信息,在不同抽象层次上整合长篇文档的信息。受控实验表明,递归摘要检索在多个任务上相对于传统检索增强LMs提供了显著改进。在涉及复杂多步推理的问答任务上,我们展示了最先进的结果;例如,通过将RAPTOR检索与GPT-4结合使用,我们可以将QuALITY基准的最佳性能提高绝对准确率20%。

arXiv: 2401.18059 (v1) — abs: https://arxiv.org/abs/2401.18059, html: https://arxiv.org/html/2401.18059v1, pdf: https://arxiv.org/pdf/2401.18059

目录

[TOC]

RAPTOR:树结构检索的递归抽象处理

作者

斯坦福大学

[email protected]

摘要

检索增强语言模型能够更好地适应世界状态的变化并整合长尾知识。然而,大多数现有方法仅从检索语料库中检索短连续块,限制了对整体文档上下文的整体理解。我们提出了一种新颖的方法,即递归嵌入、聚类和摘要文本块,从底部向上构建具有不同摘要级别的树。在推理时,我们的 RAPTOR 模型从该树中检索信息,整合跨长文档在不同抽象层次的信息。受控实验表明,使用递归摘要的检索在多个任务上显著优于传统检索增强 LMs。在涉及复杂多步骤推理的问题回答任务中,我们展示了最先进的结果;例如,通过将 RAPTOR 检索与 GPT‑4 的使用相结合,我们可以在 QuALITY 基准上将最佳性能提高 20% 的绝对准确率。

arXiv: 2401.18059 (v1) — abs: https://arxiv.org/abs/2401.18059, html: https://arxiv.org/html/2401.18059v1, pdf: https://arxiv.org/pdf/2401.18059

目录

[TOC]

1 引言

大型语言模型(LLM)已成为变革性工具,在许多任务中表现出令人印象深刻的性能。 随着LLM规模的不断扩大,它们可以单独作为非常有效的知识库,事实被编码在其参数中(Petroni 等,1; Jiang 等,2; Talmor 等,3; Rae 等,4; Hoffmann 等,5; Chowdhery 等,6; Bubeck 等,7; Kandpal 等,8)并且模型可以通过在下游任务上进行微调进一步改进(Roberts 等,9)。 然而,即使是大型模型也不具备足够的特定领域知识来满足特定任务,而且世界不断变化,使LLM中的事实失效。 通过额外微调或编辑来更新这些模型的知识是困难的,尤其是在处理庞大文本语料库时(Lewis 等,10; Mitchell 等,11)。 一种替代方法——在开放域问答系统中首次提出(Chen 等,12; Yu 等,13)——是将大量文本进行索引,在将其拆分为块(段落)后,在单独的信息检索系统中进行索引。 检索到的信息随后与问题一起作为上下文呈现给LLM(“检索增强”,Lewis 等,14; Izacard 等,15; Min 等,16; Ram 等,17),这使得为系统提供特定领域的最新知识变得容易,并实现易于解释和来源追溯,而LLM的参数知识则不透明且难以追溯其来源(Akyurek 等,18)。

Tree construction process: RAPTOR recursively clusters chunks of text based on their vector embeddings and generates text summaries of those clusters, constructing a tree from the bottom up. Nodes clustered together are siblings; a parent node contains the text summary of that cluster.

树构建过程:RAPTOR 根据其向量嵌入递归聚类文本块,并生成这些聚类的文本摘要,从底向上构建树。聚类在一起的节点是兄弟节点;父节点包含该聚类的文本摘要。

然而,现有的检索增强方法也存在缺陷。我们要解决的问题是,大多数现有方法仅检索少量短且连续的文本片段,这限制了它们对大规模话语结构的表示和利用能力。这在需要整合文本多部分知识的主题性问题中特别重要,例如在 NarrativeQA 数据集(Kočiskỳ 等,19)中理解整本书。考虑灰姑娘的童话故事,以及问题 “灰姑娘是如何走向幸福结局的?”。前 k 检索到的短连续文本不足以提供回答该问题所需的足够上下文。

为了解决这个问题,我们设计了一套索引与检索系统,该系统采用树形结构来捕捉文本的高层与细节层信息。如图 1 所示,我们的系统 RAPTOR 对文本块进行聚类,生成这些聚类的文本摘要,然后重复该过程,从底层向上生成树形结构。该结构使 RAPTOR 能够将代表不同层级文本的块加载到 LLM’s 的上下文中,从而能够有效且高效地回答不同层级的问题。

我们的主要贡献是提出使用文本摘要来实现不同尺度下的检索增强,并在长文档集合的实验中展示其有效性。我们对三种语言模型(UnifiedQA(Khashabi 等,20)、GPT-3(Brown 等,21)和 GPT-4(OpenAI,22))进行了受控实验,结果表明 RAPTOR 超越了当前的检索增强技术。除此之外,RAPTOR 与 GPT-4 结合,甚至有时与 UnifiedQA 结合,已在三项 QA 任务上实现了新的最先进成果:针对书籍和电影的自由文本回答问题(NarrativeQA,Kočiskỳ 等,23)、全文 NLP 论文(QASPER,Dasigi 等,24)以及基于中等长度段落的多项选择题(QuALITY,Pang 等,25)。111 我们将在此公开发布 RAPTOR 的代码。

2 相关工作

近年的硬件和算法进步确实扩展了模型能够处理的上下文长度,从而引发了关于检索系统必要性的问题(Dai 等人,26;Dao 等人,27;Liu 等人,28)。然而,正如 Liu 等人(29)和 Sun 等人(30)所指出的,模型往往低估了长距离上下文,并且随着上下文长度的增加,性能递减,尤其是当相关信息嵌入在冗长上下文中时。此外,从实际角度来看,使用长上下文既昂贵又慢。这表明,为知识密集型任务挑选最相关的信息仍然至关重要。

检索增强语言模型(RALMs)在各个组件上都取得了进步:检索器、阅读器以及端到端系统训练。检索方法已从传统的基于词项的技术,如 TF-IDF(Spärck Jones,31)和 BM25(Robertson 等人,32;Roberts 等人,33)转向基于深度学习的策略(Karpukhin 等人,34;Khattab & Zaharia,35;Sachan 等人,36)。最近的一些工作提出使用大型语言模型作为检索器,因为它们能够记忆大量知识(Yu 等人,37;Sun 等人,38)。关于阅读器组件的研究包括 Fusion-in-Decoder(FiD)(Izacard & Grave,39),该方法在检索时同时使用 DPR 和 BM25,并在编码器中独立处理段落;以及 RETRO(Borgeaud 等人,40;Wang 等人,41),它利用跨块注意力和块级检索来生成基于检索上下文的文本。

End-to-end 系统训练工作包括 Atlas(Izacard 等人,42),该模型将编码器-解码器模型与检索器一起微调;REALM(Guu 等人,43),一种双向、掩码语言模型,专门为开放域问答微调;以及 RAG(检索增强生成,Retrieval-Augmented Generation)(Lewis 等人,44),它将预训练的序列到序列模型与神经检索器相结合。Min 等人(45)提出了 Joint Passage Retrieval(JPR)模型,该模型使用树形解码算法来处理多答案检索中的段落多样性和相关性。Dense Hierarchical Retrieval(DHR)和 Hybrid Hierarchical Retrieval(HHR)通过将文档级和段落级检索相结合,并分别集成稀疏和密集检索方法,代表了检索精度的进步(Liu 等人,46;Arivazhagan 等人,47)。

尽管方法多样,但模型的检索组件主要依赖标准方法,即对语料进行分块并使用基于 BERT 的检索器进行编码。尽管这种方法被广泛采用,Nair 等人(48)指出了一个潜在的缺陷:连续分段可能无法捕捉文本的完整语义深度。从技术或科学文献中提取的片段可能缺乏重要背景,使其难以阅读甚至产生误导。(Cohan & Goharian,49;Newman 等人,50;Zhang 等人,51)。

摘要技术为文档提供了一个压缩视图,使我们能够更专注地与内容互动(Angelidis & Lapata,52)。Gao 等人提出的摘要/片段模型(53)使用段落的摘要和片段,这在大多数数据集上提高了准确性,但有时也会导致信息损失。吴等人提出的递归抽象摘要模型(54)采用任务分解来总结较小的文本块,然后将它们整合以形成更大章节的摘要。虽然这种方法在捕捉更广泛主题方面有效,但可能会忽略细粒度细节。LlamaIndex(Liu,55)通过类似的方式总结相邻文本块,同时保留中间节点,从而存储不同层级的细节,保持细粒度细节。然而,这两种方法由于依赖相邻性来分组或摘要相邻节点,可能仍会忽略文本中较远的相互依赖关系,我们可以通过 RAPTOR 发现并组合它们。

3 方法

基于长文本通常呈现子主题和层级结构的观点(Cao & Wang,56;Dong 等人,57),RAPTOR 通过构建递归树结构来解决阅读中的语义深度和连接问题,平衡更广泛的主题理解与细粒度细节,并允许节点根据语义相似性而非仅仅文本顺序进行分组。

RAPTOR 树的构建首先将检索语料库分割成长度为 100 的短且连续的文本片段,类似于传统的检索增强技术。如果一句话超过 100 词的限制,我们会将整句话移动到下一个块,而不是在句子中间切断。这保持了每个块内文本的语境和语义连贯性。这些文本随后使用 SBERT(基于 BERT 的编码器 multi-qa-mpnet-base-cos-v1)进行嵌入(Reimers & Gurevych,58)。这些块及其对应的 SBERT 嵌入构成了我们树结构的叶节点。

为了将相似的文本块分组,我们使用聚类算法。一旦聚类完成,就使用语言模型对分组后的文本进行摘要。随后将摘要文本再次嵌入,并且嵌入、聚类和摘要的循环继续进行,直到进一步聚类变得不可行,从而得到原始文档的结构化、多层次树形表示。RAPTOR 的一个重要方面是其计算效率。系统在构建时间和令牌消耗方面都线性扩展,使其适合处理大型且复杂的语料库。关于 RAPTOR 可扩展性的综合讨论,请参阅附录 A。

在该树中进行查询时,我们引入了两种不同的策略:树遍历和折叠树。树遍历方法逐层遍历树,剪枝并在每一层选择最相关的节点。折叠树方法则对所有层的节点进行整体评估,以找到最相关的节点。

聚类在构建RAPTOR树中起着关键作用,将文本片段组织成连贯的组。此步骤将相关内容聚集在一起,有助于后续的检索过程。

我们聚类方法的独特之处之一是使用软聚类,即节点可以属于多个簇而不需要固定的簇数。这种灵活性至关重要,因为单个文本片段往往包含与不同主题相关的信息,从而值得它们被纳入多个摘要。

我们的聚类算法基于高斯混合模型(GMM),这是一种既灵活又具有概率框架的方法。GMM假设数据点是由若干高斯分布的混合产生的。

给定一组 N 文本片段,每个片段以 d 维的稠密向量嵌入表示,文本向量 \mathbf{x} 的似然性(在其所属的 k^{th} 高斯分布中)表示为 P(\mathbf{x}|k)=\mathcal{N}(\mathbf{x};\mathbf{\mu}_{k},\mathbf{\Sigma}_{k})。整体概率分布是一个加权组合 P(\mathbf{x})=\sum_{k=1}^{K}\pi_{k}\mathcal{N}(\mathbf{x};\mathbf{\mu}_{k},\mathbf{\Sigma}_{k}),其中 \pi_{k} 表示 k^{\mathrm{th}} 高斯分布的混合权重。

向量嵌入的高维度性为传统 GMM 提供了挑战,因为在高维空间中使用距离度量来衡量相似性时,度量可能表现不佳(Aggarwal 等人,59)。为了解决这一问题,我们采用 Uniform Manifold Approximation and Projection (UMAP),一种用于降维的流形学习技术(McInnes 等人,60)。UMAP 中最近邻参数 n\_neighbors 决定了局部与全局结构保持之间的平衡。我们的算法通过改变 n\_neighbors 来构建分层聚类结构:首先识别全局聚类,然后在这些全局聚类内执行局部聚类。该两步聚类过程捕获了文本数据之间广泛的关系范围,从宏观主题到具体细节。

如果局部聚类的综合上下文超过摘要模型的 token 阈值,我们的算法会在该聚类内递归地执行聚类,确保上下文保持在 token 阈值之内。

为了确定最佳聚类数量,我们使用贝叶斯信息准则(BIC)进行模型选择。BIC 不仅惩罚模型复杂度,还奖励拟合优度(Schwarz,61)。给定 GMM 的 BIC 为 BIC=\ln(N)k-2\ln(\hat{L}),其中 N 是文本段落(或数据点)的数量,k 是模型参数的数量,\hat{L} 是模型似然函数的最大化值。在 GMM 的背景下,参数数量 k 是输入向量维度和聚类数量的函数。

在确定最佳聚类数量后,期望最大化(EM)算法用于估计 GMM 参数,即均值、协方差和混合权重。

虽然 GMM 的高斯假设可能与文本数据的本质不完全一致,而文本数据往往表现为稀疏且偏斜的分布,但我们的经验观察表明,它为我们的目的提供了一个有效的模型。我们对比了 GMM 聚类与连续块摘要的消融实验,并在附录 B 中提供了详细信息。

聚类完成后,使用高斯混合模型对节点进行聚类,每个聚类中的节点随后被送入语言模型进行摘要处理。此步骤使模型能够将大块文本转化为对所选节点的简洁、连贯的摘要。在我们的实验中,我们使用 gpt‑3.5‑turbo 生成摘要。摘要步骤将可能庞大的检索信息压缩为可管理的规模。我们在附录 C 中提供了摘要压缩的统计数据,并在附录 D 中给出了用于摘要的提示语。

虽然摘要模型通常能生成可靠的摘要,但一次聚焦式注释研究显示,大约 4% 的摘要中包含轻微的幻觉。这些幻觉并未传播到父节点,也未对问答任务产生可察觉的影响。欲了解幻觉的深入分析,请参阅附录 E。

Illustration of the tree traversal and collapsed tree retrieval mechanisms. Tree traversal starts at the root level of the tree and retrieves the top-k (here, top-1) node(s) based on cosine similarity to the query vector. At each level, it retrieves the top-k node(s) from the child nodes of the previous layer’s top-k. Collapsed tree collapses the tree into a single layer and retrieves nodes until a threshold number of tokens is reached, based on cosine similarity to the query vector. The nodes on which cosine similarity search is performed are highlighted in both illustrations.

树遍历和压缩树检索机制的示意图。 树遍历从树的根层开始,根据查询向量与节点的余弦相似度检索 top-k(此处为 top-1)节点。 在每一层,它从上一层的 top-k 节点的子节点中检索 top-k 节点。 压缩树将树压缩为单层,并根据查询向量的余弦相似度检索节点,直到达到阈值的 token 数量。 在两幅示意图中,进行余弦相似度搜索的节点已被高亮显示。

本节中,我们详细阐述 RAPTOR 所采用的两种查询机制:树遍历和压缩树。这些方法为遍历多层 RAPTOR 树以检索相关信息提供了独特的方式,每种方法都有其优势和权衡。我们在附录 F 中给出了两种方法的伪代码。请注意,我们使用 SBERT 嵌入所有节点。

树遍历方法首先根据查询嵌入与根节点之间的余弦相似度,选择前 k 个最相关的根节点。接着将这些已选择节点的子节点视为下一层,并再次基于其与查询向量的余弦相似度,从该子节点池中选择前 k 个节点。上述过程会反复进行,直到到达叶子节点。最后,将所有已选择节点的文本拼接在一起,形成检索到的上下文。算法的步骤如下所示:

    1. 从 RAPTOR 树的根层开始。计算查询嵌入与该初始层中所有节点嵌入之间的余弦相似度。
    1. 根据最高余弦相似度得分,选择前 k 个节点,形成集合 S_{1}
    1. 前往集合 S_{1} 中元素的子节点。计算查询向量与这些子节点向量嵌入之间的余弦相似度。
    1. 选择与查询余弦相似度最高的前 k 个子节点,形成集合 S_{2}
    1. d 层递归地继续此过程,产生集合 S_{1},S_{2},\ldots,S_{d}
    1. 将集合 S_{1}S_{d} 进行拼接,以组装与查询相关的上下文。

通过调整深度 d 以及每层选取的节点数 k,树遍历方法可以控制检索信息的特异性与广度。该算法首先通过考虑树的顶部层级,形成宽泛的视角,并在向下进入更低层时逐步聚焦于更细粒度的细节。

压缩树方法通过一次性考虑树中的所有节点,提供了一种更简便的方式来搜索相关信息,如图 2 所示。与逐层进行相比,该方法将多层树展平成单层,基本上将所有节点放置在同一层级以进行比较。此方法的步骤如下所示:

    1. 首先,将整个 RAPTOR 树压缩成单层。这个新节点集合,记作 C,包含原始树中每一层的节点。
    1. 接下来,计算查询嵌入与压缩集合 C 中所有节点嵌入之间的余弦相似度。
    1. 最后,挑选与查询具有最高余弦相似度得分的前 k 个节点。继续向结果集合中添加节点,直到达到预设的最大 token 数量,确保不会超过模型输入限制。

我们在 QASPER 数据集的 20 个故事上测试了这两种方法。图 3 展示了不同 top- 大小的树遍历和不同最大 token 数量的压缩树的性能。压缩树方法始终表现更好。我们认为压缩树检索更优,因为它提供了比树遍历更大的灵活性;也就是说,通过一次性搜索所有节点,它检索到的信息能够在正确的粒度级别上满足给定问题。相比之下,使用相同的 dk 值进行树遍历时,来自树的每个层级的节点比例将保持不变。因此,层次化主题信息与细粒度细节的比例无论问题如何都保持不变。

然而,压缩树方法的一个缺点是它需要在树中的所有节点上执行余弦相似度搜索。然而,这可以通过使用诸如 FAISS(Johnson 等人,62)等快速 k 最近邻库来提高效率。

Comparison of querying methods. Results on 20 stories from the QASPER dataset using tree traversal with different top-k values, and collapsed tree with different context lengths. Collapsed tree with 2000 tokens produces the best results, so we use this querying strategy for our main results.

查询方法比较。使用不同 top‑k 值的树遍历和不同上下文长度的压缩树,在 QASPER 数据集的 20 条故事上获得结果。使用 2000 个 token 的压缩树产生最佳结果,因此我们在主要结果中使用此查询策略。

总体而言,考虑到折叠树方法的更大灵活性以及其在 QASPER 数据集子集上的卓越表现,我们采用了这种查询方式。具体而言,我们使用最大 2000 个令牌的折叠树,这大约相当于检索前 20 个节点。采用基于令牌的方法可确保上下文不会超过模型的上下文限制,因为不同节点的令牌数可能不同。对于 UnifiedQA 模型的实验,我们提供 400 个令牌的上下文,因为 UnifiedQA 的最大上下文长度为 512 个令牌。我们为 RAPTOR 和基线模型提供相同数量的上下文令牌。

我们进行定性分析,以了解 RAPTOR 的检索过程相对于 Dense Passage Retrieval (DPR) 方法的优势。我们的研究聚焦于使用 1500 字 Cinderella 童话的主题多跳问题。正如图 4 所示,RAPTOR 的基于树的检索使其能够从不同树层选择节点,匹配问题的细节层级。这种方法通常比 DPR 提供更相关、更全面的下游任务信息。关于详细讨论和示例,包括 RAPTOR 与 DPR 针对特定问题检索到的文本,请参阅附录 G。

4 实验

我们在三个问答数据集上衡量 RAPTOR 的性能:NarrativeQA、QASPER 和 QuALITY。

NarrativeQA 是一个包含基于书籍全文和电影剧本的问答对的数据集,共计 1,572 篇文档(Kočiskỳ 等人,63;Wu 等人,64)。NarrativeQA-Story 任务要求对整个叙事进行全面理解,以准确回答其问题,从而测试模型在文学领域处理更长文本的能力。我们使用标准 BLEU(B‑1、B‑4)、ROUGE(R‑L)和 METEOR(M)指标衡量该数据集上的性能。更多关于我们实验中使用的 NarrativeQA 评估脚本细节,请参阅附录 H。

QASPER 数据集包含 5,049 个问题,跨越 1,585 篇 NLP 论文,每个问题都在全文中探测嵌入的信息(Dasigi 等人,65)。QASPER 的答案类型分为可回答/不可回答、是/否、抽象型和抽取型。准确率使用标准 F1 评估。

最后,QuALITY 数据集包含多项选择题,每题附带平均约 5,000 个标记长度的上下文段落(Pang 等人,66)。该数据集要求对整个文档进行推理以完成 QA 任务,从而能够衡量我们的检索系统在中等长度文档上的表现。该数据集包含一个具有挑战性的子集 QuALITY-HARD,其中大多数人工标注者在快速设置下对问题的答案错误。我们报告了整个测试集和 HARD 子集的准确率。

Querying Process: Illustration of how RAPTOR retrieves information for two questions about the Cinderella story: “What is the central theme of the story?” and “How did Cinderella find a happy ending?”. Highlighted nodes indicate RAPTOR’s selections, while arrows point to DPR’s leaf nodes. Notably, RAPTOR’s context often encompasses the information retrieved by DPR, either directly or within higher-layer summaries.

查询过程:演示 RAPTOR 如何检索关于灰姑娘故事的两个问题的信息:“故事的核心主题是什么?”和“灰姑娘是如何获得幸福结局的?”。高亮节点表示 RAPTOR 的选择,而箭头指向 DPR 的叶节点。值得注意的是,RAPTOR 的上下文往往包含 DPR 检索到的信息,要么直接,要么在更高层摘要中。

我们首先使用 UnifiedQA 3B 作为阅读器,分别在三大数据集(QASPER、NarrativeQA 和 QuALITY)上进行受控比较,使用 SBERT(Reimers & Gurevych,67)、BM25(Robertson 等人,68; 69)和 DPR(Karpukhin 等人,70)作为嵌入模型,分别考虑有无 RAPTOR 树结构。正如表 1 和表 2 所示,我们的结果表明,RAPTOR 与任何检索器结合时,在所有数据集上均能持续优于对应的检索器。222For 表 1 和表 2 中的 DPR 实验,我们使用了 dpr-multiset-base 模型,而非此前实验中使用的 dpr-single-nq-base。此决定基于 Karpukhin 等人(71)中观察到的表现,dpr-multiset-base 显示出更优的结果。

由于 RAPTOR 与 SBERT 的性能最佳,我们在所有后续实验中使用它。我们现在比较 RAPTOR 与 BM25、DPR,使用三种不同的大型语言模型:GPT-3、GPT-4 和 UnifiedQA。如表 3 所示,RAPTOR 在 QASPER 数据集上,三种语言模型的表现均持续优于 BM25 与 DPR。RAPTOR 的 F-1 Match 分数在使用 GPT-3、GPT-4 和 UnifiedQA 时分别为 53.1%、55.7% 和 36.6%。这些分数分别比 DPR 高出 1.8、2.7、4.5 分,且比 BM25 高出 6.5、5.5、10.2 分。QASPER 需要在 NLP 论文中综合信息,因此 RAPTOR 的高级摘要节点能优于仅能提取最相似的前 k 片段的方式也就不足为奇,后者单独可能不包含正确答案。

Model ROUGE BLEU-1 BLEU-4 METEOR
SBERT with RAPTOR 30.87% 23.50% 6.42% 19.20%
SBERT without RAPTOR 29.26% 22.56% 5.95% 18.15%
BM25 with RAPTOR 27.93% 21.17% 5.70% 17.03%
BM25 without RAPTOR 23.52% 17.73% 4.65% 13.98%
DPR with RAPTOR 30.94% 23.51% 6.45% 19.05%
DPR without RAPTOR 29.56% 22.84% 6.12% 18.44%

同样,在 QuALITY 数据集(如表 5 所示)中,RAPTOR 的准确率达到 62.4%,比 DPR 和 BM25 提升了 2% 与 5.1%。当使用 UnifiedQA 时,类似趋势出现,RAPTOR 分别比 DPR 和 BM25 提升 2.7% 与 6.7%。

最后,在 NarrativeQA 数据集(如表 6 所示)中,RAPTOR 在多项指标上表现优异。对于 ROUGE-L,RAPTOR 分别比 BM25 与 DPR 高出 7.3 与 2.7 分。其他指标如 BLEU-1、BLEU-4 与 METEOR,RAPTOR 的优势分别在 1.7 至 5.8 分和 0.7 至 2.1 分之间。

Model Accuracy (QuALITY) Answer F1 (QASPER)
SBERT with RAPTOR 56.6% 36.70%
SBERT without RAPTOR 54.9% 36.23%
BM25 with RAPTOR 52.1% 27.00%
BM25 without RAPTOR 49.9% 26.47%
DPR with RAPTOR 54.7% 32.23%
DPR without RAPTOR 53.1% 31.70%
Retriever GPT-3 F-1 Match GPT-4 F-1 Match UnifiedQA F-1 Match
Title + Abstract 25.2 22.2 17.5
BM25 46.6 50.2 26.4
DPR 51.3 53.0 32.1
RAPTOR 53.1 55.7 36.6
Model GPT-3 Acc. UnifiedQA Acc.
BM25 57.3 49.9
DPR 60.4 53.9
RAPTOR 62.4 56.6
Model F-1 Match
LongT5 XL (Guo et al., 2022) 53.1
CoLT5 XL (Ainslie et al., 2023) 53.9
RAPTOR + GPT-4 55.7

在已有的对比基础上,我们考察 RAPTOR 相较于其他最先进模型的表现。如表 5 所示,RAPTOR 结合 GPT-4 在 QASPER 上设定了新基准,F-1 分数达到 55.7%,超过 CoLT5 XL 的 53.9%。

在 QuALITY 数据集(如表 7 所示)中,RAPTOR 结合 GPT-4 达成新技术高度,准确率为 82.6%,超过此前最佳结果 62.3%。尤其在 QuALITY-HARD 上,它比 CoLISA 提升了 21.5%,该子集包含人类需要异常长时间才能正确回答的问题,需反复阅读文本、艰难推理或两者兼备。

在 NarrativeQA 数据集(如表 6 所示)中,RAPTOR 与 UnifiedQA 组合达成了新的 METEOR 领先记录。与吴等人(72)提出的递归摘要模型(同样使用 UnifiedQA)相比,RAPTOR 在所有指标上均优于其模型。吴等人(73)仅依赖树结构顶层根节点的摘要,而 RAPTOR 通过其中间层和聚类方法获益,从而能够捕捉从整体主题到具体细节的各类信息,为其整体强劲表现做出贡献。

Model ROUGE-L BLEU-1 BLEU-4 METEOR
BiDAF (Kočiskỳ et al., 2018) 6.26.2 5.75.7 0.30.3 3.73.7
BM25 + BERT (Mou et al., 2020) 15.515.5 14.514.5 1.41.4 5.05.0
Recursively Summarizing Books (Wu et al., 2021) 21.621.6 22.322.3 4.24.2 10.610.6
Retriever + Reader (Izacard & Grave, 2022) 32.0 35.3 7.5 11.111.1
RAPTOR + UnifiedQA 30.8 23.5 6.4 19.1
Model Accuracy
Test Set Hard Subset
Longformer-base (Beltagy et al., 2020) 39.539.5 35.335.3
DPR and DeBERTaV3-large (Pang et al., 2022) 55.455.4 46.146.1
CoLISA (DeBERTaV3-large) (Dong et al., 2023a) 62.362.3 54.754.7
RAPTOR + GPT-4 82.6 76.2

4.1 树结构的贡献

Layers Queried / Start Layer Layer 0 (Leaf Nodes) Layer 1 Layer 2
1 layer 57.9 57.8 57.9
2 layers - 52.6 63.15
3 layers - - 73.68

我们考察了每一层节点对 RAPTOR 检索能力的贡献。我们假设上层节点在处理需要更广泛文本理解的主题或多跳查询时起着关键作用。

我们通过定量和定性方法验证了这一假设。定性分析见附录 G。为定量理解上层节点的贡献,我们使用了 QuALITY 数据集中的故事。正如第 3 节所述,RAPTOR 树为每个故事构建。然而,在检索时,我们将搜索限制在不同的层子集。例如,我们仅从叶节点和每一上层节点检索,也仅从不同连续的层子集检索。我们在表 8 中展示了针对单个故事的发现,显示完整树搜索(使用所有层)优于仅聚焦于特定层的检索策略。

这些发现凸显了完整树结构在 RAPTOR 中的重要性。通过同时为检索提供原始文本和更高级别的摘要,RAPTOR 能有效处理更广泛的问题,从高级主题查询到细节导向的问题。更多故事的详细结果以及关于层贡献的消融研究见附录 I。

5 结论

本文提出了 RAPTOR,一种新型基于树的检索系统,通过在不同抽象层级提供上下文信息来增强大型语言模型的参数知识。通过递归聚类和摘要技术,RAPTOR 构建了一个层次化的树结构,能够合成检索语料库各部分的信息。在查询阶段,RAPTOR 利用该树结构实现更有效的检索。我们的对照实验表明,RAPTOR 不仅优于传统检索方法,还在多个问答任务上设定了新的性能基准。

6 可复现性声明

我们的 RAPTOR 实验中使用了四种语言模型:GPT-3 和 GPT-4 用于问答任务,GPT-3.5-turbo 用于摘要。gpt-3、gpt-4 和 gpt-3.5-turbo 模型可通过 API 调用(OpenAI API)访问。用于问答任务的 UnifiedQA 已公开发布在 Hugging Face。

我们实验中使用的三个评估数据集——QuALITY、QASPER 和 NarrativeQA——均可公开获取。这些数据集保证了本研究中进行的检索和问答测试可以被复现。

RAPTOR 的源代码将公开可用,链接见此处。

1 引言

大型语言模型(LLM)已成为具有变革性的工具,在许多任务上表现出色。随着LLM规模的不断扩大,它们可以单独作为非常有效的知识库,事实被编码在其参数中(Petroni 等,74;Jiang 等,75;Talmor 等,76;Rae 等,77;Hoffmann 等,78;Chowdhery 等,79;Bubeck 等,80;Kandpal 等,81),模型还可以通过在下游任务上微调进一步改进(Roberts 等,82)。然而,即使是大型模型也不具备足够的领域特定知识来满足特定任务,并且世界持续变化,导致LLM中的事实失效。通过额外微调或编辑来更新这些模型的知识是困难的,特别是在处理大量文本语料时(Lewis 等,83;Mitchell 等,84)。一种替代方法在开放域问答系统中得到开创(Chen 等,85;Yu 等,86),即在将文本分割为块(段落)后,在单独的信息检索系统中索引大量文本。检索到的信息随后与问题一起呈现给LLM作为上下文(“检索增强”,Lewis 等,87;Izacard 等,88;Min 等,89;Ram 等,90),这使得为系统提供当前、特定领域的知识变得容易,并实现易于解释和来源追踪,而LLM的参数知识则不透明且难以追溯其来源(Akyurek 等,91)。

Tree construction process: RAPTOR recursively clusters chunks of text based on their vector embeddings and generates text summaries of those clusters, constructing a tree from the bottom up. Nodes clustered together are siblings; a parent node contains the text summary of that cluster.

树构建过程:RAPTOR 根据其向量嵌入递归地聚类文本块,并生成这些聚类的文本摘要,从而从底部向上构建树。聚在一起的节点是同级节点;父节点包含该聚类的文本摘要。

然而,现有的检索增强方法也存在缺陷。我们要解决的问题是,大多数现有方法只检索少量短且连续的文本块,这限制了它们表示和利用大规模话语结构的能力。这一点在需要整合文本多部分知识的主题性问题中尤为重要,例如理解整本书,如 NarrativeQA 数据集(Kočiskỳ 等,92)。以灰姑娘的童话为例,问题是“灰姑娘是如何达到幸福结局的?”。前k个检索到的短连续文本不足以提供足够的上下文来回答该问题。

为了解决这一问题,我们设计了一个采用树结构来捕捉文本高层和低层细节的索引与检索系统。如图 1 所示,我们的系统 RAPTOR 对文本块进行聚类,生成这些聚类的文本摘要,然后反复进行,按自底向上的方式生成树。该结构使得 RAPTOR 能够在 LLM 的上下文中加载表示不同层级文本的块,从而能够有效且高效地回答不同层级的问题。

我们的主要贡献是提出使用文本摘要来实现不同尺度的上下文检索增强,并在长文档集合的实验中展示其有效性。使用三种语言模型(UnifiedQA(Khashabi 等,93)、GPT-3(Brown 等,94)和 GPT-4(OpenAI,95))进行的受控实验表明,RAPTOR 超越了当前的检索增强方法。此外,RAPTOR 与 GPT-4 配合使用,甚至有时与 UnifiedQA 配合,分别在三项 QA 任务上取得了新的最先进结果:书籍和电影的自由文本回答问题(NarrativeQA,Kočiskỳ 等,96)、全文 NLP 论文(QASPER,Dasigi 等,97)以及基于中等长度段落的多项选择题(QuALITY,Pang 等,98)。111 我们将在此公开发布 RAPTOR 的代码。

2 相关工作

最近在硬件和算法方面的进步确实扩展了模型可处理的上下文长度,从而引发了关于检索系统必要性的讨论(Dai 等人,99;Dao 等人,100;Liu 等人,101)。然而,正如 Liu 等人(102)和 Sun 等人(103)所指出的,模型往往未能充分利用长距离上下文,随着上下文长度的增加,性能递减,尤其是当相关信息嵌入在冗长的上下文中时。此外,在实践中,使用长上下文既昂贵又缓慢。这表明,为知识密集型任务选择最相关的信息仍然至关重要。

检索增强语言模型(RALMs)在多个组件上都有所改进:检索器、阅读器以及端到端系统训练。检索方法已从传统的基于词项的技术,如 TF-IDF(Spärck Jones,104)和 BM25(Robertson 等人,105;Roberts 等人,106)转变为基于深度学习的策略(Karpukhin 等人,107;Khattab & Zaharia,108;Sachan 等人,109)。一些近期工作提出利用大型语言模型作为检索器,因为它们能够记忆大量知识(Yu 等人,110;Sun 等人,111)。关于阅读器组件的研究包括 Fusion-in-Decoder(FiD)(Izacard & Grave,112),它在检索时同时使用 DPR 和 BM25,并在编码器中独立处理段落;以及 RETRO(Borgeaud 等人,113;Wang 等人,114),它利用跨块注意力和块级检索来生成基于检索上下文的文本。

端到端系统训练工作包括 Atlas (Izacard 等人,115),它在检索器的配合下对编码器-解码器模型进行微调;REALM (Guu 等人,116),一种双向掩码语言模型,针对开放域问答进行微调;以及 RAG (Retrieval-Augmented Generation) (Lewis 等人,117),它将预训练的序列到序列模型与神经检索器相结合。Min 等人 (118) 引入了 Joint Passage Retrieval (JPR) 模型,该模型使用树解码算法来处理多答案检索中的段落多样性和相关性。Dense Hierarchical Retrieval (DHR) 和 Hybrid Hierarchical Retrieval (HHR) 通过组合文档级和段落级检索,并整合稀疏与密集检索方法,分别代表了检索精度的进步 (Liu 等人,119; Arivazhagan 等人,120)。

尽管方法多样,模型的检索组件主要依赖标准做法,即将语料分块并使用基于 BERT 的检索器进行编码。虽然这种方法被广泛采用,但 Nair 等人 (121) 指出潜在缺陷:连续分块可能无法捕捉文本的完整语义深度。从技术或科学文档中提取的片段可能缺乏重要上下文,使其难以阅读甚至具有误导性 (Cohan & Goharian, 122; Newman 等人,123; Zhang 等人,124)。

摘要技术为文档提供浓缩视图,使读者能够更专注地与内容互动 (Angelidis & Lapata, 125)。Gao 等人提出的摘要/片段模型 (126) 利用段落摘要和片段,提升了大多数数据集的准确性,但有时可能成为信息损失的压缩方式。Wu 等人提出的递归抽象式摘要模型 (127) 通过任务分解对更小的文本块进行摘要,随后再将它们合并形成更大章节的摘要。虽然此方法在捕捉更宏观主题方面有效,却可能忽略细粒度细节。LlamaIndex (Liu, 128) 通过类似方式对相邻文本块进行摘要,同时保留中间节点,存储不同层级的细节,从而保持细粒度信息。然而,鉴于这两种方法都依赖相邻关系来分组或摘要相邻节点,仍可能忽视文本中远程相互依赖关系,而我们可以通过 RAPTOR 发现并归组这些关系。

3 方法

基于长文本通常呈现子主题和层级结构的观点 (Cao & Wang, 129; Dong et al., 130), RAPTOR通过构建递归树结构来解决阅读中的语义深度和连接问题,该结构在更广泛的主题理解与细粒度细节之间取得平衡,并允许基于语义相似性而非仅仅文本顺序来分组节点。

RAPTOR 树的构建始于将检索语料库划分为长度为 100 的短连续文本,类似于传统的检索增强技术。若句子超出 100 词限制,我们将整句移动到下一个块,而非在句子中间截断。这样可保留每个块内文本的上下文与语义连贯性。随后使用 SBERT(BERT 基础编码器,multi-qa-mpnet-base-cos-v1)(Reimers & Gurevych, 131)对这些文本进行嵌入。这些块及其对应的 SBERT 嵌入构成树结构的叶节点。

为聚合相似文本块,我们使用聚类算法。聚类完成后,使用语言模型对聚合后的文本进行摘要。随后将这些摘要重新嵌入,并持续进行嵌入、聚类和摘要的循环,直到进一步聚类变得不可行,从而得到原始文档的结构化多层树表示。RAPTOR的一个重要方面是其计算效率。系统在构建时间和代币消耗方面都线性扩展,使其适用于处理大型且复杂的数据集。关于RAPTOR可扩展性的全面讨论,请参阅附录A。

针对该树中的查询,我们引入了两种不同的策略:树遍历和压缩树。树遍历方法按层级逐层遍历树,在每个层级修剪并选择最相关的节点。压缩树方法则跨所有层级整体评估节点,以寻找最相关的节点。

聚类在构建RAPTOR树中起着关键作用,将文本片段组织成连贯的组。此步骤将相关内容聚合在一起,有助于后续的检索过程。

我们聚类方法的一个独特之处是使用软聚类,其中节点可以属于多个聚类,而不需要固定的聚类数量。这种灵活性至关重要,因为单个文本片段通常包含与多个主题相关的信息,从而需要将其纳入多个摘要中。

我们的聚类算法基于高斯混合模型(GMM),这是一种既灵活又具有概率框架的方法。GMM假设数据点是由若干高斯分布的混合产生的。

给定一组 N 文本片段,每个片段以 d 维的密集向量嵌入表示,则文本向量 \mathbf{x} 在其所属的 k^{th} 高斯分布下的似然性由 P(\mathbf{x}|k)=\mathcal{N}(\mathbf{x};\mathbf{\mu}_{k},\mathbf{\Sigma}_{k}) 表示。总体概率分布是加权组合 P(\mathbf{x})=\sum_{k=1}^{K}\pi_{k}\mathcal{N}(\mathbf{x};\mathbf{\mu}_{k},\mathbf{\Sigma}_{k}),其中 \pi_{k} 表示 k^{\mathrm{th}} 高斯分布的混合权重。

向量嵌入的高维性对传统高斯混合模型(GMM)构成挑战,因为在高维空间中使用距离度量来衡量相似度往往表现不佳(Aggarwal 等人,132)。为缓解这一问题,我们采用统一流形逼近与投影(Uniform Manifold Approximation and Projection,UMAP),这是一种用于降维的流形学习技术(McInnes 等人,133)。UMAP 中最近邻参数 n\_neighbors 决定了局部结构与全局结构保持之间的平衡。我们的算法通过改变 n\_neighbors 来构建层次聚类结构:首先识别全局聚类,然后在这些全局聚类内部执行局部聚类。该两步聚类过程捕捉了文本数据之间从宏观主题到细节的广泛关系。

如果本地聚类的综合上下文超过摘要模型的令牌阈值,我们的算法会在该聚类内递归应用聚类,确保上下文保持在令牌阈值之内。

为了确定最佳聚类数,我们采用贝叶斯信息准则(BIC)进行模型选择。BIC不仅对模型复杂度进行惩罚,也奖励拟合优度(Schwarz,134)。给定GMM的BIC为 BIC=\ln(N)k-2\ln(\hat{L}),其中 N 为文本段落(或数据点)的数量,k 为模型参数的数量,\hat{L} 为模型似然函数的最大化值。在GMM的背景下,参数数量 k 是输入向量维度和聚类数的函数。

在通过BIC确定最佳聚类数后,随后使用期望最大化(EM)算法来估计GMM参数,即均值、协方差和混合权重。

尽管GMM中的高斯假设可能并不完全符合文本数据的本质,而文本数据往往呈现稀疏且偏斜的分布,但我们的经验观察表明它为我们的目的提供了一个有效的模型。我们进行了一项消融实验,比较了GMM聚类与对连续块进行摘要的差异,并在附录B中提供了详细信息。

在使用高斯混合模型对节点进行聚类后, 每个聚类中的节点会被发送到语言模型进行摘要。 这一步骤使模型能够将大块文本转化为简洁、连贯的选定节点摘要。 在我们的实验中,我们使用 gpt-3.5-turbo 生成摘要。 摘要步骤将可能的大量检索信息压缩为可管理的大小。 我们在附录 C 中提供了摘要导致的压缩统计,并在附录 D 中给出了用于摘要的提示。

虽然摘要模型通常生成可靠的摘要,但一次针对性的注释研究发现,大约 4% 的摘要包含轻微的幻觉。 这些幻觉没有传播到父节点,也没有对问答任务产生可辨别的影响。 如需对幻觉进行深入分析,请参阅附录 E。

Illustration of the tree traversal and collapsed tree retrieval mechanisms. Tree traversal starts at the root level of the tree and retrieves the top-k (here, top-1) node(s) based on cosine similarity to the query vector. At each level, it retrieves the top-k node(s) from the child nodes of the previous layer’s top-k. Collapsed tree collapses the tree into a single layer and retrieves nodes until a threshold number of tokens is reached, based on cosine similarity to the query vector. The nodes on which cosine similarity search is performed are highlighted in both illustrations.

树遍历和压缩树检索机制的示意图。 树遍历从树的根层开始,并根据查询向量的余弦相似度检索 top-k(此处为 top-1)节点。 在每一层,它从上一层 top-k 的子节点中检索 top-k 节点。 压缩树将树压缩为单层,并根据查询向量的余弦相似度检索节点,直到达到阈值 token 数量。 余弦相似度搜索执行的节点在两幅图中均已高亮显示。

本节详细阐述了 RAPTOR 所采用的两种查询机制:树遍历和压缩树。 这些方法为遍历多层 RAPTOR 树以检索相关信息提供了独特方式,每种方法都有其优势和权衡。 我们在附录 F 中提供了两种方法的伪代码。 请注意,我们使用 SBERT 嵌入所有节点。

树遍历方法首先根据它们与查询嵌入的余弦相似度,选择 top‑k 最相关的根节点。随后在下一层考虑这些已选节点的子节点,并再次根据与查询向量的余弦相似度从该池中选择 top‑k 节点。此过程会一直重复,直到达到叶节点。最后,将所有已选节点的文本串联起来,构成检索到的上下文。算法步骤如下所示:

    1. 在 RAPTOR 树的根层开始。计算查询嵌入与该初始层所有节点嵌入之间的余弦相似度。
    1. 根据最高余弦相似度分数,选择 top-k 个节点,形成集合 S_{1}
    1. 继续进入集合 S_{1} 中元素的子节点。计算查询向量与这些子节点向量嵌入之间的余弦相似度。
    1. 选取与查询具有最高余弦相似度分数的前 k 个子节点,形成集合 S_{2}
    1. 递归地对 d 层执行此过程,产生集合 S_{1},S_{2},\ldots,S_{d}
    1. 将集合 S_{1}S_{d} 进行串联,以组装与查询相关的上下文。

通过调整深度 d 以及每层选取的节点数 k,树遍历方法可以控制检索信息的特异性和广度。算法从考虑树的上层开始,采用宽视角,随后随着向下穿越更低层级,逐渐聚焦细节。

压缩树方法通过一次性考虑树中所有节点,提供了一种更简单的检索相关信息方式,如图 2 所示。与逐层遍历不同,该方法将多层树展开为单层,实质上将所有节点置于同一层以进行比较。该方法的步骤如下所示:

    1. 首先,将整个 RAPTOR 树压缩为单层。这个新节点集合,记作 C,包含原始树的每一层的节点。
    1. 接下来,计算查询嵌入与压缩集合 C 中所有节点嵌入之间的余弦相似度。
    1. 最后,挑选与查询具有最高余弦相似度分数的前 k 个节点。继续向结果集合添加节点,直到达到预定义的最大 token 数,确保不超过模型的输入限制。

我们在 QASPER 数据集的 20 条故事上测试了两种方法。图 3 显示了不同 top- 大小的树遍历以及不同最大 token 数量的压缩树的性能。压缩树方法始终表现更好。我们认为压缩树检索更优,因为它提供了比树遍历更大的灵活性;也就是说,通过同时搜索所有节点,它检索到的信息在给定问题的正确粒度级别。相比之下,在使用相同的 dk 值进行树遍历时,树中各层节点的比例将保持恒定。因此,高阶主题信息与细粒度细节的比例将不论问题如何都保持相同。

然而,压缩树方法的一个缺点是它需要对树中所有节点执行余弦相似度搜索。不过,这可以通过使用快速 k-nearest neighbor 库(如 FAISS (Johnson et al., 135))来提高效率。

Comparison of querying methods. Results on 20 stories from the QASPER dataset using tree traversal with different top-k values, and collapsed tree with different context lengths. Collapsed tree with 2000 tokens produces the best results, so we use this querying strategy for our main results.

查询方法比较。使用不同 top-k 值的树遍历以及不同上下文长度的压缩树,在 QASPER 数据集的 20 条故事上的结果。使用 2000 tokens 的压缩树产生了最佳结果,因此我们在主要结果中采用此查询策略。

总体而言,考虑到折叠树方法的更大灵活性以及在 QASPER 数据集子集上的卓越性能,我们采用此查询方法。具体而言,我们使用最大 2000 个 token 的折叠树,这大约相当于检索前 20 个节点。基于 token 的方法可确保上下文不超过模型的上下文限制,因为不同节点的 token 数量可能不同。对于 UnifiedQA 模型的实验,我们提供 400 个 token 的上下文,因为 UnifiedQA 的最大上下文长度为 512 tokens。我们为 RAPTOR 以及基线模型提供相同数量的上下文 token。

我们进行定性分析,以了解 RAPTOR 的检索过程相较于 Dense Passage Retrieval (DPR) 方法的优势。我们的研究聚焦于使用 1500 字长的灰姑娘童话进行主题多跳问题。正如图 4 所示,RAPTOR 的树状检索可以从不同树层选择节点,以匹配问题的细节层次。该方法往往比 DPR 更能提供与下游任务更相关、更全面的信息。有关详细讨论和示例,包括 RAPTOR 与 DPR 针对特定问题检索到的文本,请参见附录 G。

4 实验

我们测量 RAPTOR 在三个问答数据集中的表现:NarrativeQA、QASPER 和 QuALITY。

NarrativeQA 是一个包含基于书籍和电影剧本全文的问答对的数据集,总计 1,572 个文档(Kočiskỳ 等,136;Wu 等,137)。NarrativeQA-Story 任务要求对完整叙事有全面理解,以便准确回答其问题,从而测试模型在文学领域处理更长文本的理解能力。我们使用标准 BLEU(B‑1, B‑4)、ROUGE(R‑L)和 METEOR(M)指标来衡量该数据集的性能。请参阅附录 H 了解我们实验中使用的 NarrativeQA 评估脚本的更多细节。

QASPER 数据集包含 5,049 道问题,跨越 1,585 篇 NLP 论文,每个问题都在全文中探测嵌入的信息 (Dasigi 等人,138)。QASPER 的答案类型被归类为可回答/不可回答、是/否、抽象式和提取式。准确率使用标准 F1 衡量。

最后,QuALITY 数据集由多项选择题组成,每题都附有平均约 5,000 个 token 的上下文段落 (Pang 等人,139)。该数据集要求对完整文档进行推理,以满足问答任务,从而使我们能够评估检索系统在中等长度文档上的表现。该数据集包含一个具有挑战性的子集 QuALITY-HARD,其中大多数人工标注者在快速评估中错误回答了问题。我们报告整个测试集和 HARD 子集的准确率。

Querying Process: Illustration of how RAPTOR retrieves information for two questions about the Cinderella story: “What is the central theme of the story?” and “How did Cinderella find a happy ending?”. Highlighted nodes indicate RAPTOR’s selections, while arrows point to DPR’s leaf nodes. Notably, RAPTOR’s context often encompasses the information retrieved by DPR, either directly or within higher-layer summaries.

查询过程:展示 RAPTOR 如何为两个关于灰姑娘故事的问题检索信息:“故事的核心主题是什么?”以及“灰姑娘是如何获得幸福结局的?”高亮节点表示 RAPTOR 的选择,而箭头指向 DPR 的叶节点。值得注意的是,RAPTOR 的上下文往往包含 DPR 检索到的信息,可能是直接检索,也可能在更高层的摘要中包含。

我们首先使用 UnifiedQA 3B 作为阅读器,呈现受控比较,采用 SBERT(Reimers & Gurevych,140)、BM25(Robertson 等人,141142)和 DPR(Karpukhin 等人,143)作为嵌入模型,分别在有无 RAPTOR 树结构的条件下,对三个数据集:QASPER、NarrativeQA 和 QuALITY 进行实验。如表 1 和表 2 所示,我们的结果表明,RAPTOR 与任何检索器结合时,始终优于对应的检索器,在所有数据集上均表现更好。222For the DPR experiments in Tables 1 and 2, we used the dpr-multiset-base model as opposed to dpr-single-nq-base which was used in rest of the experiments done earlier. This decision was based on the performance observed in Karpukhin et al. (144), where dpr-multiset-base showed superior results.

由于RAPTOR与SBERT具有最佳性能,我们在所有后续实验中使用它。 我们现在比较RAPTOR与BM25和DPR,使用三种不同的大型语言模型:GPT-3、GPT-4和UnifiedQA。 正如表3所示,RAPTOR在QASPER数据集上,在三种语言模型中始终优于BM25和DPR。 RAPTOR的F-1匹配得分分别为53.1%、55.7%和36.6%,使用GPT-3、GPT-4和UnifiedQA时。 与DPR相比,这些得分分别高出1.8、2.7和4.5个百分点,优于BM25分别高出6.5、5.5和10.2个百分点。 QASPER需要在NLP论文中综合信息,因此RAPTOR的更高级别摘要节点能够优于仅能提取最相似的top-k原始文本块的方法并不令人惊讶,这些文本块单独可能不包含正确答案。

Model ROUGE BLEU-1 BLEU-4 METEOR
SBERT with RAPTOR 30.87% 23.50% 6.42% 19.20%
SBERT without RAPTOR 29.26% 22.56% 5.95% 18.15%
BM25 with RAPTOR 27.93% 21.17% 5.70% 17.03%
BM25 without RAPTOR 23.52% 17.73% 4.65% 13.98%
DPR with RAPTOR 30.94% 23.51% 6.45% 19.05%
DPR without RAPTOR 29.56% 22.84% 6.12% 18.44%

同样,在QuALITY数据集中,如表5所示,RAPTOR的准确率为62.4%,比DPR和BM25分别提高了2%和5.1%。 当使用UnifiedQA时,也观察到类似趋势,RAPTOR分别比DPR和BM25高出2.7%和6.7%。

最后,在NarrativeQA数据集中,如表6所示,RAPTOR在多项指标上表现出色。 对于ROUGE-L,它分别比BM25和DPR高出7.3和2.7个百分点。 在其他指标如BLEU-1、BLEU-4和METEOR上,RAPTOR分别比BM25和DPR高出1.7到5.8和0.7到2.1个百分点。

Model Accuracy (QuALITY) Answer F1 (QASPER)
SBERT with RAPTOR 56.6% 36.70%
SBERT without RAPTOR 54.9% 36.23%
BM25 with RAPTOR 52.1% 27.00%
BM25 without RAPTOR 49.9% 26.47%
DPR with RAPTOR 54.7% 32.23%
DPR without RAPTOR 53.1% 31.70%
Retriever GPT-3 F-1 Match GPT-4 F-1 Match UnifiedQA F-1 Match
Title + Abstract 25.2 22.2 17.5
BM25 46.6 50.2 26.4
DPR 51.3 53.0 32.1
RAPTOR 53.1 55.7 36.6
Model GPT-3 Acc. UnifiedQA Acc.
BM25 57.3 49.9
DPR 60.4 53.9
RAPTOR 62.4 56.6
Model F-1 Match
LongT5 XL (Guo et al., 2022) 53.1
CoLT5 XL (Ainslie et al., 2023) 53.9
RAPTOR + GPT-4 55.7

在我们的受控对比基础上,我们考察RAPTOR相对于其他最先进模型的表现。如表5所示,RAPTOR使用GPT-4在QASPER上设定了新的基准,获得55.7%的F-1分数,超过CoLT5 XL的53.9%分数。

在QuALITY数据集中,如表7所示,RAPTOR与GPT-4配合设定了新的最先进水平,准确率达到82.6%,超过之前最佳结果62.3%。 特别是在QuALITY-HARD上,它比CoLISA高出21.5%,该子集代表人类需要异常长时间才能正确回答的问题,需重新阅读文本部分、进行困难推理或两者兼有。

对于 NarrativeQA 数据集,如表 6 所示,RAPTOR 与 UnifiedQA 配合设置了新的 METEOR 业界最佳得分。与吴等人(Wu et al.,145)的递归总结模型(同样使用 UnifiedQA)相比,RAPTOR 在所有指标上都优于它。吴等人(Wu et al.,146)仅依赖树结构顶层节点的摘要,而 RAPTOR 利用其中间层和聚类方法,从而能够捕获从整体主题到具体细节的各类信息,提升了整体表现。

Model ROUGE-L BLEU-1 BLEU-4 METEOR
BiDAF (Kočiskỳ et al., 2018) 6.26.2 5.75.7 0.30.3 3.73.7
BM25 + BERT (Mou et al., 2020) 15.515.5 14.514.5 1.41.4 5.05.0
Recursively Summarizing Books (Wu et al., 2021) 21.621.6 22.322.3 4.24.2 10.610.6
Retriever + Reader (Izacard & Grave, 2022) 32.0 35.3 7.5 11.111.1
RAPTOR + UnifiedQA 30.8 23.5 6.4 19.1
Model Accuracy
Test Set Hard Subset
Longformer-base (Beltagy et al., 2020) 39.539.5 35.335.3
DPR and DeBERTaV3-large (Pang et al., 2022) 55.455.4 46.146.1
CoLISA (DeBERTaV3-large) (Dong et al., 2023a) 62.362.3 54.754.7
RAPTOR + GPT-4 82.6 76.2

4.1 树结构的贡献

Layers Queried / Start Layer Layer 0 (Leaf Nodes) Layer 1 Layer 2
1 layer 57.9 57.8 57.9
2 layers - 52.6 63.15
3 layers - - 73.68

我们考察了各层节点对 RAPTOR 检索能力的贡献。我们假设上层节点在处理需要更广泛文本理解的主题或多跳查询中起着关键作用。

我们在定量和定性上验证了这一假设。定性分析见附录 G。为定量了解上层节点的贡献,我们使用了 QuALITY 数据集中的故事。正如第 3 节所述,RAPTOR 树为每个故事构建。然而,在检索时,我们将搜索限制在不同层级子集。例如,我们仅从叶节点和每个上层节点,以及不同连续层级子集检索。我们在表 8 中展示了一个故事的具体发现,表明完整树搜索,利用所有层级,优于仅关注特定层级的检索策略。

这些发现强调了 RAPTOR 中完整树结构的重要性。通过为检索提供原始文本和更高级别的摘要,RAPTOR 能够有效处理更广泛的问题,从高阶主题查询到细节导向的问题。其他故事的详细结果以及关于层级贡献的消融研究见附录 I。

5 结论

本文提出了 RAPTOR,一种新型的基于树结构的检索系统,它在大型语言模型的参数知识基础上,加入了多层抽象的上下文信息。通过递归聚类和摘要技术,RAPTOR 构建了一个层次化的树结构,能够整合检索语料库各个部分的信息。在查询阶段,RAPTOR 利用这一树结构实现更高效的检索。我们的对照实验表明,RAPTOR 不仅优于传统检索方法,还在多个问答任务上树立了新的性能基准。

6 可复现性声明

我们在 RAPTOR 实验中使用了四种语言模型:GPT-3 和 GPT-4 用于问答任务,GPT-3.5-turbo 用于摘要。gpt-3、gpt-4 和 gpt-3.5-turbo 模型可通过 API 调用(OpenAI API)访问。UnifiedQA(用于问答任务)可在 Hugging Face 上公开获取。

我们实验中使用的三个评估数据集——QuALITY、QASPER 和 NarrativeQA——均公开可获取。这些数据集保证了本研究所做的检索和问答测试可被复现。

RAPTOR 的源代码将在此公开提供。

参考文献

[1] Charu C Aggarwal, Alexander Hinneburg, and Daniel A Keim. 高维空间中距离度量的惊人行为. In Database Theory—ICDT 2001: 8th International Conference London, UK, January 4–6, 2001 Proceedings 8, pp. 420–434. Springer, 2001. URL https://link.springer.com/chapter/10.1007/3-540-44503-x_27.

[2] Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, et al. CoLT5: 更快长距离变压器与条件计算. arXiv preprint arXiv:2303.09752, 2023. URL https://arxiv.org/abs/2303.09752.

[3] Ekin Akyurek, Tolga Bolukbasi, Frederick Liu, Binbin Xiong, Ian Tenney, Jacob Andreas, and Kelvin Guu. Towards tracing knowledge in language models back to the training data. In Findings of the Association for Computational Linguistics: EMNLP 2022, pp. 2429–2446, Abu Dhabi, United Arab Emirates, December 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.findings-emnlp.180. URL https://aclanthology.org/2022.findings-emnlp.180.

[4] Stefanos Angelidis and Mirella Lapata. Summarizing opinions: Aspect extraction meets sentiment prediction and they are both weakly supervised. arXiv preprint arXiv:1808.08858, 2018. URL https://arxiv.org/abs/1808.08858.

[5] Manoj Ghuhan Arivazhagan, Lan Liu, Peng Qi, Xinchi Chen, William Yang Wang, and Zhiheng Huang. Hybrid hierarchical retrieval for open-domain question answering. In Anna Rogers, Jordan Boyd-Graber, and Naoaki Okazaki (eds.), Findings of the Association for Computational Linguistics: ACL 2023, pp. 10680–10689, Toronto, Canada, July 2023. Association for Computational Linguistics. doi: 10.18653/v1/2023.findings-acl.679. URL https://aclanthology.org/2023.findings-acl.679.

[6] Iz Beltagy, Matthew E. Peters, and Arman Cohan. Longformer: The Long-document Transformer, 2020. URL https://arxiv.org/abs/2004.05150. arXiv preprint arXiv:2004.05150.

[7] Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George Bm Van Den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. 通过检索数万亿个令牌来改进语言模型。 In International conference on machine learning, pp. 2206–2240. PMLR, 2022. URL https://arxiv.org/abs/2112.04426.

[8] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 语言模型是少样本学习者。 In H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan, and H. Lin (eds.), Advances in Neural Information Processing Systems, volume 33, pp. 1877–1901. Curran Associates, Inc., 2020. URL https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.

[9] Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, et al. 人工通用智能的火花:GPT-4 的早期实验。 arXiv preprint arXiv:2303.12712, 2023. URL https://arxiv.org/abs/2303.12712.

[10] Shuyang Cao and Lu Wang. HIBRIDS:用于结构感知长文档摘要的层级偏置注意力。 In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 786–807, Dublin, Ireland, May 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.58. URL https://aclanthology.org/2022.acl-long.58.

[11] Danqi Chen, Adam Fisch, Jason Weston, and Antoine Bordes. 阅读维基百科以回答开放域问题。 In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1870–1879, Vancouver, Canada, July 2017. Association for Computational Linguistics. doi: 10.18653/v1/P17-1171. URL https://aclanthology.org/P17-1171.

[12] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM:使用路径扩展语言建模。 arXiv preprint arXiv:2204.02311, 2022. URL https://arxiv.org/abs/2204.02311.

[13] Arman Cohan and Nazli Goharian. 使用词嵌入和领域知识为科学摘要情境化引用。

在第40届国际ACM SIGIR信息检索研究与发展会议论文集,pp. 1133–1136,2017年。URL https://dl.acm.org/doi/abs/10.1145/3077136.3080740.

[14] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc Le, 和 Ruslan Salakhutdinov. Transformer-XL:超越固定长度上下文的注意力语言模型。在第57届计算语言学协会年会论文集中,pp. 2978–2988,意大利佛罗伦萨,2019年7月。计算语言学协会。doi: 10.18653/v1/P19-1285. URL https://aclanthology.org/P19-1285.

[15] Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, 和 Christopher Ré. FlashAttention:具有IO意识的快速且内存高效的精确注意力。神经信息处理系统进展,35:16344–16359,2022年。URL https://arxiv.org/abs/2205.14135.

[16] Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, 和 Matt Gardner. 基于研究论文的信息检索问题与答案数据集。在2021年北美计算语言学协会章节会议论文集:人类语言技术,pp. 4599–4610,在线,2021年6月。计算语言学协会。doi: 10.18653/v1/2021.naacl-main.365. URL https://aclanthology.org/2021.naacl-main.365.

[17] Mengxing Dong, Bowei Zou, Yanling Li, 和 Yu Hong. CoLISA:通过对比学习实现多项选择阅读理解的内在交互。在信息检索进展:第45届欧洲信息检索会议,ECIR 2023,爱尔兰都柏林,2023年4月2–6日,论文集,第一部分,pp. 264–278。Springer,2023a。URL https://link.springer.com/chapter/10.1007/978-3-031-28244-7_17.

[18] Zican Dong, Tianyi Tang, Lunyi Li, 和 Wayne Xin Zhao. 关于使用变压器进行长文本建模的综述。arXiv 预印本 arXiv:2302.14502,2023b。URL https://arxiv.org/abs/2302.14502.

[19] Tianyu Gao, Howard Yen, Jiatong Yu, 和 Danqi Chen. 使大型语言模型能够生成带引用的文本。arXiv 预印本 arXiv:2305.14627,2023。URL https://arxiv.org/abs/2305.14627.

[20] Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, 和 Yinfei Yang. LongT5:面向长序列的高效文本转文本变压器。在计算语言学协会会议记录:NAACL 2022,pp. 724–736,美国西雅图,2022年7月。计算语言学协会。doi: 10.18653/v1/2022.findings-naacl.55。URL https://aclanthology.org/2022.findings-naacl.55.

[21] Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, 和 Mingwei Chang. Retrieval Augmented Language Model Pre-Training。发表于国际机器学习会议,pp.

3929–3938. PMLR, 2020. URL https://doi.org/10.48550/arXiv.2002.08909.

[22] Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. 训练计算最优的大型语言模型. arXiv preprint arXiv:2203.15556, 2022. URL https://arxiv.org/abs/2203.15556.

[23] Gautier Izacard and Edouard Grave. 从阅读器到检索器的知识蒸馏,用于问答, 2022. URL https://arxiv.org/abs/2012.04584. arXiv preprint arXiv:2012.04584.

[24] Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. 基于检索增强的少量样本学习语言模型. arXiv 预印本 arXiv:2208.03299, 2022. URL https://arxiv.org/abs/2208.03299.

[25] Zhengbao Jiang, Frank F Xu, Jun Araki, and Graham Neubig. 我们如何了解语言模型所知之物? Transactions of the Association for Computational Linguistics, 8:423–438, 2020. URL https://arxiv.org/abs/1911.12543.

[26] Jeff Johnson, Matthijs Douze, and Hervé Jégou. 使用 GPU 进行十亿级别相似度搜索. IEEE Transactions on Big Data, 7(3):535–547, 2019. URL https://arxiv.org/abs/1702.08734.

[27] Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace, and Colin Raffel. 大型语言模型在学习长尾知识方面存在困难. In International Conference on Machine Learning, pp. 15696–15707. PMLR, 2023. URL https://proceedings.mlr.press/v202/kandpal23a/kandpal23a.pdf.

[28] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. 用于开放领域问答的稠密段落检索. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 6769–6781, Online, November 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.emnlp-main.550. URL https://aclanthology.org/2020.emnlp-main.550.

[29] Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. UNIFIEDQA:用单一 QA 系统跨越格式边界. In Findings of the Association for Computational Linguistics: EMNLP 2020, pp. 1896–1907, Online, November 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.findings-emnlp.171. URL https://aclanthology.org/2020.findings-emnlp.171.

[30] Omar Khattab and Matei Zaharia. ColBERT:通过上下文化后期交互在 BERT 上实现高效且有效的段落检索. In Proceedings of the 43rd International ACM SIGIR conference on research and development in Information Retrieval, pp. 39–48, 2020. URL https://arxiv.org/abs/2004.12832.

[31] Tomáš Kočiskỳ, Jonathan Schwarz, Phil Blunsom, Chris Dyer, Karl Moritz Hermann, Gábor Melis, and Edward Grefenstette. NarrativeQA 阅读理解挑战. Transactions of the Association for Computational Linguistics, 6:317–328, 2018. URL https://arxiv.org/abs/1712.07040.

[32] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. 面向知识密集型 NLP 任务的检索增强生成.

神经信息处理系统进展,33:9459–9474,2020年。URL https://doi.org/10.48550/arXiv.2005.11401.

[33] 杰瑞·刘。LlamaIndex,2022年。URL https://github.com/jerryjliu/llama_index.

[34] 尼尔森·F·刘,凯文·林,约翰·赫维特,阿什温·帕拉尼帕,米歇尔·贝维拉奎,法比奥·佩特罗尼,和佩西·梁。失而复得:语言模型如何使用长上下文。arXiv 预印本 arXiv:2307.03172,2023年。URL https://arxiv.org/abs/2307.03172.

[35] Ye Liu,Kazuma Hashimoto,Yingbo Zhou,Semih Yavuz,Caiming Xiong,和 Philip Yu。密集层次检索用于开放域问答。在 Marie-Francine Moens,Xuanjing Huang,Lucia Specia,和 Scott Wen-tau Yih(编辑),《计算语言学协会发现:EMNLP 2021》, 第188–200页,普塔卡纳,多米尼加共和国,2021年11月。计算语言学协会。doi: 10.18653/v1/2021.findings-emnlp.19。URL https://aclanthology.org/2021.findings-emnlp.19.

[36] Leland McInnes,John Healy,和 James Melville。UMAP:统一流形近似与投影用于降维,2018年。URL https://arxiv.org/abs/1802.03426. arXiv 预印本 arXiv:1802.03426。

[37] Sewon Min, Kenton Lee, Ming-Wei Chang, Kristina Toutanova, and Hannaneh Hajishirzi. 针对多答案检索的联合段落排序. In Marie-Francine Moens, Xuanjing Huang, Lucia Specia, and Scott Wen-tau Yih (eds.), Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 6997–7008, Online and Punta Cana, Dominican Republic, November 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.emnlp-main.560. URL https://aclanthology.org/2021.emnlp-main.560.

[38] Sewon Min, Weijia Shi, Mike Lewis, Xilun Chen, Wen-tau Yih, Hannaneh Hajishirzi, and Luke Zettlemoyer. 非参数化遮掩语言建模. In Findings of the Association for Computational Linguistics: ACL 2023, pp. 2097–2118, Toronto, Canada, July 2023. Association for Computational Linguistics. doi: 10.18653/v1/2023.findings-acl.132. URL https://aclanthology.org/2023.findings-acl.132.

[39] Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D Manning, and Chelsea Finn. 大规模基于记忆的模型编辑. In International Conference on Machine Learning, pp. 15817–15831. PMLR, 2022. URL https://proceedings.mlr.press/v162/mitchell22a/mitchell22a.pdf.

[40] Xiangyang Mou, Mo Yu, Bingsheng Yao, Chenghao Yang, Xiaoxiao Guo, Saloni Potdar, and Hui Su. 针对书籍问答的极难证据检索. In Proceedings of the First Joint Workshop on Narrative Understanding, Storylines, and Events, pp. 108–113, Online, July 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.nuse-1.13. URL https://aclanthology.org/2020.nuse-1.13.

[41] Inderjeet Nair, Aparna Garimella, Balaji Vasan Srinivasan, Natwar Modani, Niyati Chhaya, Srikrishna Karanam, and Sumit Shekhar. 基于神经CRF的层次化线性文本分割方法. In Findings of the Association for Computational Linguistics: EACL 2023, pp. 883–893, Dubrovnik, Croatia, May 2023. Association for Computational Linguistics. doi: 10.18653/v1/2023.findings-eacl.65. URL https://aclanthology.org/2023.findings-eacl.65.

[42] Benjamin Newman, Luca Soldaini, Raymond Fok, Arman Cohan, and Kyle Lo. 可控问答基础的去上下文化框架. arXiv preprint arXiv:2305.14772, 2023. URL https://arxiv.org/pdf/2305.14772.pdf.

[43] OpenAI. GPT-4 技术报告. ArXiv, abs/2303.08774, 2023. URL https://arxiv.org/abs/2303.08774.

[44] Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia, Jason Phang, Angelica Chen, Vishakh Padmakumar, Johnny Ma, Jana Thompson, He He, and Samuel Bowman. QuALITY:长文本输入的问答,Yes!

发表于2022年北美计算语言学协会(Association for Computational Linguistics)人类语言技术分会会议(North American Chapter of the Association for Computational Linguistics: Human Language Technologies)论文集,第5336–5358页,地点美国西雅图,2022年7月。计算语言学协会。URL https://aclanthology.org/2022.naacl-main.391.

[45] Fabio Petroni, Tim Rocktäschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H Miller, and Sebastian Riedel. 语言模型是知识库吗?arXiv 预印本 arXiv:1909.01066,2019年。URL https://arxiv.org/abs/1909.01066.

[46] Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young 等。扩展语言模型:来自训练 Gopher 的方法、分析与洞察。arXiv 预印本 arXiv:2112.11446,2021年。URL https://arxiv.org/abs/2112.11446.

[47] Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, 和 Yoav Shoham。基于上下文检索增强的语言模型。arXiv 预印本 arXiv:2302.00083,2023年。URL https://arxiv.org/abs/2302.00083.

[48] Nils Reimers 和 Iryna Gurevych。Sentence-BERT:使用孪生 BERT 网络的句子嵌入。发表于2019年自然语言处理经验方法与第九届国际联合会议(EMNLP-IJCNLP)论文集,第3982–3992页,中国香港,2019年11月。计算语言学协会。doi: 10.18653/v1/D19-1410。URL https://aclanthology.org/D19-1410.

[49] Adam Roberts, Colin Raffel, 和 Noam Shazeer。你能把多少知识打包进语言模型的参数中?发表于2020年自然语言处理经验方法会议(EMNLP)论文集,第5418–5426页,线上,2020年11月。计算语言学协会。doi: 10.18653/v1/2020.emnlp-main.437。URL https://aclanthology.org/2020.emnlp-main.437.

[50] Stephen Robertson, Hugo Zaragoza 等。概率相关性框架:BM25 及其超越。信息检索的基础与趋势,3(4):333–389,2009年。URL https://doi.org/10.1561/1500000019.

[51] Stephen E Robertson, Steve Walker, Susan Jones, Micheline M Hancock-Beaulieu, Mike Gatford 等。Okapi 在 TREC-3。NIST 特别出版物 SP,109:109,1995年。URL https://www.microsoft.com/en-us/research/publication/okapi-at-trec-3/.

[52] Devendra Singh Sachan, Mike Lewis, Dani Yogatama, Luke Zettlemoyer, Joelle Pineau, 和 Manzil Zaheer。问题是训练密集段检索器所需的一切。计算语言学协会交易,11:600–616,2023年。doi: 10.1162/tacl˙a˙00564。URL https://aclanthology.org/2023.tacl-1.35.

[53] Gideon Schwarz。估计模型维度。

The annals of statistics, pp. 461–464, 1978. URL https://projecteuclid.org/journals/annals-of-statistics/volume-6/issue-2/Estimating-the-Dimension-of-a-Model/10.1214/aos/1176344136.full.

[54] Karen Spärck Jones. 对词条特异性的统计解释及其在检索中的应用。Journal of documentation, 28(1):11–21, 1972. URL https://doi.org/10.1108/eb026526.

[55] Simeng Sun, Kalpesh Krishna, Andrew Mattarella-Micke, and Mohit Iyyer. 长距语言模型真的会使用长距上下文吗?In Marie-Francine Moens, Xuanjing Huang, Lucia Specia, and Scott Wen-tau Yih (eds.), 2021年经验方法自然语言处理会议论文集, pp. 807–822, 在线及多米尼加共和国潘塔卡纳, 2021年11月。Association for Computational Linguistics. doi: 10.18653/v1/2021.emnlp-main.62. URL https://aclanthology.org/2021.emnlp-main.62.

[56] Zhiqing Sun, Xuezhi Wang, Yi Tay, Yiming Yang, and Denny Zhou. 递述增强语言模型。arXiv preprint arXiv:2210.01296, 2022. URL https://arxiv.org/abs/2210.01296.

[57] Alon Talmor, Yanai Elazar, Yoav Goldberg, and Jonathan Berant. oLMpics– 语言模型预训练捕捉的内容。Transactions of the Association for Computational Linguistics, 8:743–758, 2020. URL https://arxiv.org/abs/1912.13283.

[58] Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, et al. 我们应该预训练自回归语言模型以检索吗?一项综合研究。arXiv preprint arXiv:2304.06762, 2023. URL https://arxiv.org/abs/2304.06762.

[59] Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, and Paul Christiano. 递归总结书籍以人工反馈,2021。URL https://arxiv.org/abs/2109.10862.

[60] Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, and Quoc V. Le. QANet: 结合局部卷积与全局自注意力的阅读理解,2018。URL https://arxiv.org/abs/1804.09541. arXiv preprint arXiv:1804.09541.

[61] Wenhao Yu, Dan Iter, Shuohang Wang, Yichong Xu, Mingxuan Ju, Soumya Sanyal, Chenguang Zhu, Michael Zeng, and Meng Jiang. 生成而非检索:大型语言模型是强大的上下文生成器, 2022. URL https://arxiv.org/abs/2209.10063.

[62] Shiyue Zhang, David Wan, and Mohit Bansal. 提取式不忠实:对提取式摘要中广泛不忠实问题的调查. In Anna Rogers, Jordan Boyd-Graber, and Naoaki Okazaki (eds.), 第61届计算语言学协会年会论文集(卷1:长论文), pp. 2153–2174, Toronto, Canada, July 2023. Association for Computational Linguistics. doi: 10.18653/v1/2023.acl-long.120. URL https://aclanthology.org/2023.acl-long.120.

参考文献

[1] Charu C Aggarwal, Alexander Hinneburg, and Daniel A Keim. 距离度量在高维空间中的惊人行为. In Database Theory—ICDT 2001: 8th International Conference London, UK, January 4–6, 2001 Proceedings 8, pp. 420–434. Springer, 2001. URL https://link.springer.com/chapter/10.1007/3-540-44503-x_27.

[2] Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, et al. CoLT5:具有条件计算的更快长距离变换器. arXiv preprint arXiv:2303.09752, 2023. URL https://arxiv.org/abs/2303.09752.

[3] Ekin Akyurek, Tolga Bolukbasi, Frederick Liu, Binbin Xiong, Ian Tenney, Jacob Andreas, and Kelvin Guu. 追溯语言模型中的知识回到训练数据. In Findings of the Association for Computational Linguistics: EMNLP 2022, pp. 2429–2446, Abu Dhabi, United Arab Emirates, December 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.findings-emnlp.180. URL https://aclanthology.org/2022.findings-emnlp.180.

[4] Stefanos Angelidis and Mirella Lapata. 总结意见:方面提取遇见情感预测,它们都在弱监督下. arXiv preprint arXiv:1808.08858, 2018. URL https://arxiv.org/abs/1808.08858.

[5] Manoj Ghuhan Arivazhagan, Lan Liu, Peng Qi, Xinchi Chen, William Yang Wang, and Zhiheng Huang. 用于开放域问答的混合层次检索. In Anna Rogers, Jordan Boyd-Graber, and Naoaki Okazaki (eds.), Findings of the Association for Computational Linguistics: ACL 2023, pp. 10680–10689, Toronto, Canada, July 2023. Association for Computational Linguistics. doi: 10.18653/v1/2023.findings-acl.679. URL https://aclanthology.org/2023.findings-acl.679.

[6] Iz Beltagy, Matthew E. Peters, and Arman Cohan. Longformer:长文档变换器, 2020. URL https://arxiv.org/abs/2004.05150. arXiv preprint arXiv:2004.05150.

[7] Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George Bm Van Den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. Improving language models by retrieving from trillions of tokens. 在 International conference on machine learning, pp. 2206–2240. PMLR, 2022. URL https://arxiv.org/abs/2112.04426.

[8] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language Models are Few-Shot Learners. 在 H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan, 和 H. Lin (eds.), Advances in Neural Information Processing Systems, volume 33, pp. 1877–1901. Curran Associates, Inc., 2020. URL https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.

[9] Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, et al. Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv preprint arXiv:2303.12712, 2023. URL https://arxiv.org/abs/2303.12712.

[10] Shuyang Cao and Lu Wang. HIBRIDS: Attention with hierarchical biases for structure-aware long document summarization. 在 Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 786–807, Dublin, Ireland, May 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.58. URL https://aclanthology.org/2022.acl-long.58.

[11] Danqi Chen, Adam Fisch, Jason Weston, and Antoine Bordes. Reading Wikipedia to Answer Open-Domain Questions. 在 Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1870–1879, Vancouver, Canada, July 2017. Association for Computational Linguistics. doi: 10.18653/v1/P17-1171. URL https://aclanthology.org/P17-1171.

[12] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM: Scaling Language Modeling with Pathways. arXiv preprint arXiv:2204.02311, 2022. URL https://arxiv.org/abs/2204.02311.

[13] Arman Cohan and Nazli Goharian. Contextualizing citations for scientific summarization using word embeddings and domain knowledge.

在第40届国际ACM SIGIR信息检索研究与发展会议论文集中,pp. 1133–1136,2017。URL https://dl.acm.org/doi/abs/10.1145/3077136.3080740.

[14] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc Le, 和 Ruslan Salakhutdinov。Transformer-XL:超越固定长度上下文的注意力语言模型。在计算语言学协会第57届年会论文集中,pp. 2978–2988,意大利佛罗伦萨,2019年7月。Association for Computational Linguistics. doi: 10.18653/v1/P19-1285. URL https://aclanthology.org/P19-1285.

[15] Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, 和 Christopher Ré。FlashAttention:快速且内存高效的精确注意力,具备 IO-Awareness。Advances in Neural Information Processing Systems, 35:16344–16359,2022。URL https://arxiv.org/abs/2205.14135.

[16] Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, 和 Matt Gardner。基于研究论文的面向信息寻求的问题与答案数据集。在计算语言学协会北美分会2021年会议论文集中:人类语言技术,pp. 4599–4610,在线,2021年6月。Association for Computational Linguistics. doi: 10.18653/v1/2021.naacl-main.365. URL https://aclanthology.org/2021.naacl-main.365.

[17] Mengxing Dong, Bowei Zou, Yanling Li, 和 Yu Hong。CoLISA:通过对比学习实现多项选择阅读理解的内部交互。在信息检索进展:第45届欧洲信息检索会议,ECIR 2023,爱尔兰都柏林,2023年4月2–6,论文集,第一部分,pp. 264–278。Springer,2023a。URL https://link.springer.com/chapter/10.1007/978-3-031-28244-7_17.

[18] Zican Dong, Tianyi Tang, Lunyi Li, 和 Wayne Xin Zhao。关于使用Transformer进行长文本建模的综述。arXiv 预印本 arXiv:2302.14502,2023b。URL https://arxiv.org/abs/2302.14502.

[19] Tianyu Gao, Howard Yen, Jiatong Yu, 和 Danqi Chen。使大型语言模型能够生成带引用的文本。arXiv 预印本 arXiv:2305.14627,2023。URL https://arxiv.org/abs/2305.14627.

[20] Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, 和 Yinfei Yang。LongT5:高效文本到文本Transformer,适用于长序列。在计算语言学协会 NAACL 2022 论文集中,pp. 724–736,美国西雅图,2022年7月。Association for Computational Linguistics. doi: 10.18653/v1/2022.findings-naacl.55. URL https://aclanthology.org/2022.findings-naacl.55.

[21] Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, 和 Mingwei Chang。检索增强语言模型预训练。在国际机器学习会议论文集中,pp.

3929–3938. PMLR, 2020. URL https://doi.org/10.48550/arXiv.2002.08909.

[22] Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. 训练计算最优的大型语言模型. arXiv preprint arXiv:2203.15556, 2022. URL https://arxiv.org/abs/2203.15556.

[23] Gautier Izacard and Edouard Grave. 从阅读者到检索器的问答知识蒸馏, 2022. URL https://arxiv.org/abs/2012.04584. arXiv preprint arXiv:2012.04584.

[24] Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. 使用检索增强语言模型的少样本学习. arXiv preprint arXiv:2208.03299, 2022. URL https://arxiv.org/abs/2208.03299.

[25] Zhengbao Jiang, Frank F Xu, Jun Araki, and Graham Neubig. 我们如何知道语言模型所知晓的内容? Transactions of the Association for Computational Linguistics, 8:423–438, 2020. URL https://arxiv.org/abs/1911.12543.

[26] Jeff Johnson, Matthijs Douze, and Hervé Jégou. 使用GPU进行十亿级相似性搜索. IEEE Transactions on Big Data, 7(3):535–547, 2019. URL https://arxiv.org/abs/1702.08734.

[27] Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace, and Colin Raffel. 大型语言模型难以学习长尾知识. In International Conference on Machine Learning, pp. 15696–15707. PMLR, 2023. URL https://proceedings.mlr.press/v202/kandpal23a/kandpal23a.pdf.

[28] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. 开放域问答的密集段落检索. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 6769–6781, Online, November 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.emnlp-main.550. URL https://aclanthology.org/2020.emnlp-main.550.

[29] Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. UNIFIEDQA:用单一QA系统跨越格式边界. In Findings of the Association for Computational Linguistics: EMNLP 2020, pp. 1896–1907, Online, November 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.findings-emnlp.171. URL https://aclanthology.org/2020.findings-emnlp.171.

[30] Omar Khattab and Matei Zaharia. ColBERT:通过BERT的上下文化晚期交互实现高效有效的段落检索. In Proceedings of the 43rd International ACM SIGIR conference on research and development in Information Retrieval, pp. 39–48, 2020. URL https://arxiv.org/abs/2004.12832.

[31] Tomáš Kočiskỳ, Jonathan Schwarz, Phil Blunsom, Chris Dyer, Karl Moritz Hermann, Gábor Melis, and Edward Grefenstette. NarrativeQA阅读理解挑战. Transactions of the Association for Computational Linguistics, 6:317–328, 2018. URL https://arxiv.org/abs/1712.07040.

[32] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. 检索增强生成在知识密集型NLP任务中的应用.

Advances in Neural Information Processing Systems, 33:9459–9474, 2020. URL https://doi.org/10.48550/arXiv.2005.11401.

[33] Jerry Liu. LlamaIndex, 2022. URL https://github.com/jerryjliu/llama_index.

[34] Nelson F Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, and Percy Liang. 中途失落:语言模型如何利用长上下文。 arXiv preprint arXiv:2307.03172, 2023. URL https://arxiv.org/abs/2307.03172.

[35] Ye Liu, Kazuma Hashimoto, Yingbo Zhou, Semih Yavuz, Caiming Xiong, and Philip Yu. 用于开放域问答的稠密层次检索。 In Marie-Francine Moens, Xuanjing Huang, Lucia Specia, and Scott Wen-tau Yih (eds.), Findings of the Association for Computational Linguistics: EMNLP 2021, pp. 188–200, Punta Cana, Dominican Republic, November 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.findings-emnlp.19. URL https://aclanthology.org/2021.findings-emnlp.19.

[36] Leland McInnes, John Healy, and James Melville. UMAP:用于维度降维的统一流形逼近与投影,2018。 URL https://arxiv.org/abs/1802.03426. arXiv preprint arXiv:1802.03426.

[37] Sewon Min, Kenton Lee, Ming-Wei Chang, Kristina Toutanova, and Hannaneh Hajishirzi. 多答案检索的联合段落排名. In Marie-Francine Moens, Xuanjing Huang, Lucia Specia, and Scott Wen-tau Yih (eds.), 2021 年经验方法自然语言处理会议论文集, pp. 6997–7008, Online and Punta Cana, Dominican Republic, November 2021. 计算语言学协会. doi: 10.18653/v1/2021.emnlp-main.560. URL https://aclanthology.org/2021.emnlp-main.560.

[38] Sewon Min, Weijia Shi, Mike Lewis, Xilun Chen, Wen-tau Yih, Hannaneh Hajishirzi, and Luke Zettlemoyer. 非参数掩码语言模型. In 计算语言学协会论文集: ACL 2023, pp. 2097–2118, Toronto, Canada, July 2023. 计算语言学协会. doi: 10.18653/v1/2023.findings-acl.132. URL https://aclanthology.org/2023.findings-acl.132.

[39] Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D Manning, and Chelsea Finn. 大规模基于内存的模型编辑. In 机器学习国际会议, pp. 15817–15831. PMLR, 2022. URL https://proceedings.mlr.press/v162/mitchell22a/mitchell22a.pdf.

[40] Xiangyang Mou, Mo Yu, Bingsheng Yao, Chenghao Yang, Xiaoxiao Guo, Saloni Potdar, and Hui Su. 在书籍问答中的令人沮丧的难题证据检索. In 第一届叙事理解, 情节与事件联合研讨会论文集, pp. 108–113, Online, July 2020. 计算语言学协会. doi: 10.18653/v1/2020.nuse-1.13. URL https://aclanthology.org/2020.nuse-1.13.

[41] Inderjeet Nair, Aparna Garimella, Balaji Vasan Srinivasan, Natwar Modani, Niyati Chhaya, Srikrishna Karanam, and Sumit Shekhar. 一种基于神经 CRF 的层级方法用于线性文本分割. In 计算语言学协会论文集: EACL 2023, pp. 883–893, Dubrovnik, Croatia, May 2023. 计算语言学协会. doi: 10.18653/v1/2023.findings-eacl.65. URL https://aclanthology.org/2023.findings-eacl.65.

[42] Benjamin Newman, Luca Soldaini, Raymond Fok, Arman Cohan, and Kyle Lo. 一种可控的基于 QA 的去上下文化框架. arXiv preprint arXiv:2305.14772, 2023. URL https://arxiv.org/pdf/2305.14772.pdf.

[43] OpenAI. GPT-4 技术报告. ArXiv, abs/2303.08774, 2023. URL https://arxiv.org/abs/2303.08774.

[44] Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia, Jason Phang, Angelica Chen, Vishakh Padmakumar, Johnny Ma, Jana Thompson, He He, and Samuel Bowman. QuALITY: 长文本问答, Yes!

在 2022 年北美计算语言学协会(North American Chapter of the Association for Computational Linguistics)人类语言技术会议(Human Language Technologies)2022 年会议论文集(Proceedings)中,pp. 5336–5358,地点:美国西雅图,2022 年 7 月。计算语言学协会。URL https://aclanthology.org/2022.naacl-main.391.

[45] Fabio Petroni、Tim Rocktäschel、Patrick Lewis、Anton Bakhtin、Yuxiang Wu、Alexander H Miller 和 Sebastian Riedel。语言模型作为知识库?arXiv 预印本 arXiv:1909.01066,2019。URL https://arxiv.org/abs/1909.01066.

[46] Jack W Rae、Sebastian Borgeaud、Trevor Cai、Katie Millican、Jordan Hoffmann、Francis Song、John Aslanides、Sarah Henderson、Roman Ring、Susannah Young 等。扩大语言模型:从训练 Gopher 中获得的方法、分析与洞见。arXiv 预印本 arXiv:2112.11446,2021。URL https://arxiv.org/abs/2112.11446.

[47] Ori Ram、Yoav Levine、Itay Dalmedigos、Dor Muhlgay、Amnon Shashua、Kevin Leyton-Brown 和 Yoav Shoham。基于上下文检索增强的语言模型。arXiv 预印本 arXiv:2302.00083,2023。URL https://arxiv.org/abs/2302.00083.

[48] Nils Reimers 和 Iryna Gurevych。Sentence-BERT:使用孪生 BERT 网络的句子嵌入。在 2019 年自然语言处理经验方法会议(Conference on Empirical Methods in Natural Language Processing)与第九届国际联合自然语言处理会议(International Joint Conference on Natural Language Processing,EMNLP-IJCNLP)的论文集中,pp. 3982–3992,地点:中国香港,2019 年 11 月。计算语言学协会。doi: 10.18653/v1/D19-1410。URL https://aclanthology.org/D19-1410.

[49] Adam Roberts、Colin Raffel 和 Noam Shazeer。你能将多少知识打包进语言模型的参数?在 2020 年经验方法自然语言处理会议(EMNLP)论文集中,pp. 5418–5426,线上,2020 年 11 月。计算语言学协会。doi: 10.18653/v1/2020.emnlp-main.437。URL https://aclanthology.org/2020.emnlp-main.437.

[50] Stephen Robertson、Hugo Zaragoza 等。概率相关框架:BM25 及其超越。信息检索基础与趋势,3(4):333–389,2009。URL https://doi.org/10.1561/1500000019.

[51] Stephen E Robertson、Steve Walker、Susan Jones、Micheline M Hancock-Beaulieu、Mike Gatford 等。TREC-3 的 Okapi。NIST 专业出版物 Sp,109:109,1995。URL https://www.microsoft.com/en-us/research/publication/okapi-at-trec-3/.

[52] Devendra Singh Sachan、Mike Lewis、Dani Yogatama、Luke Zettlemoyer、Joelle Pineau 和 Manzil Zaheer。问题是你训练密集式检索器所需的一切。计算语言学协会交易,11:600–616,2023。doi: 10.1162/tacl˙a˙00564。URL https://aclanthology.org/2023.tacl-1.35.

[53] Gideon Schwarz。估计模型的维度。

《统计年鉴》,pp. 461–464, 1978. URL https://projecteuclid.org/journals/annals-of-statistics/volume-6/issue-2/Estimating-the-Dimension-of-a-Model/10.1214/aos/1176344136.full.

[54] Karen Spärck Jones. 《术语特异性的统计解释及其在检索中的应用》. 《文档期刊》,28(1):11–21, 1972. URL https://doi.org/10.1108/eb026526.

[55] Simeng Sun, Kalpesh Krishna, Andrew Mattarella-Micke, and Mohit Iyyer. 《长程语言模型真的会使用长程上下文吗?》. 在 Marie-Francine Moens, Xuanjing Huang, Lucia Specia, 和 Scott Wen-tau Yih (eds.), Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 807–822, Online and Punta Cana, Dominican Republic, November 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.emnlp-main.62. URL https://aclanthology.org/2021.emnlp-main.62.

[56] Zhiqing Sun, Xuezhi Wang, Yi Tay, Yiming Yang, and Denny Zhou. 《Recitation-augmented language models》. arXiv preprint arXiv:2210.01296, 2022. URL https://arxiv.org/abs/2210.01296.

[57] Alon Talmor, Yanai Elazar, Yoav Goldberg, and Jonathan Berant. oLMpics– 《语言模型预训练捕获了什么》. Transactions of the Association for Computational Linguistics, 8:743–758, 2020. URL https://arxiv.org/abs/1912.13283.

[58] Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, et al. 《我们应该用检索预训练自回归语言模型吗?》 a comprehensive study. arXiv preprint arXiv:2304.06762, 2023. URL https://arxiv.org/abs/2304.06762.

[59] Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, and Paul Christiano. Recursively Summarizing Books with Human Feedback, 2021. URL https://arxiv.org/abs/2109.10862.

[60] Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, and Quoc V. Le. QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension, 2018. URL https://arxiv.org/abs/1804.09541. arXiv preprint arXiv:1804.09541.

[61] Wenhao Yu, Dan Iter, Shuohang Wang, Yichong Xu, Mingxuan Ju, Soumya Sanyal, Chenguang Zhu, Michael Zeng, and Meng Jiang. 与检索相比生成:大型语言模型是强大的上下文生成器, 2022. URL https://arxiv.org/abs/2209.10063.

[62] Shiyue Zhang, David Wan, and Mohit Bansal. 抽取式摘要不可信:对抽取式摘要广泛不可信问题的调查. In Anna Rogers, Jordan Boyd-Graber, and Naoaki Okazaki (eds.), Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 2153–2174, Toronto, Canada, July 2023. Association for Computational Linguistics. doi: 10.18653/v1/2023.acl-long.120. URL https://aclanthology.org/2023.acl-long.120.