企业RAG系统为何失败：谷歌研究引入"充分上下文"解决方案

文章来源：Ben Dickson, VentureBeat, 2025年5月23日

原文链接：Why enterprise RAG systems fail: Google study introduces 'sufficient context' solution

核心观点：谷歌研究人员提出了"充分上下文"（Sufficient Context）的新视角，旨在理解和改进企业级检索增强生成（RAG）系统。这一方法帮助判断大型语言模型（LLM）是否有足够信息来准确回答问题，这对于追求高可靠性和事实准确性的企业应用至关重要。

RAG系统的常见"痛点"

RAG系统虽是构建更具事实性和可验证性AI应用的关键，但也存在一些问题：

即使提供了相关证据，也可能自信地给出错误答案。
容易被上下文中的不相关信息干扰。
难以从长文本片段中正确提取答案。
理想状态：若上下文充分，LLM应正确回答；若不充分，则应拒绝回答或请求更多信息。

"充分上下文"是什么？

研究人员引入此概念，将输入实例分为两种情况：

充分上下文 (Sufficient Context)：提供的上下文包含回答问题所需的所有必要信息。
不充分上下文 (Insufficient Context)：上下文缺乏必要信息（例如，问题需要上下文中没有的专业知识，或信息不完整、不确定、矛盾）。

重要特点：这种划分仅基于问题和上下文本身，不需要真实的答案（这对于无法在推理时获得真实答案的实际应用非常关键）。

研究人员开发了基于LLM的"自动评估器"(autorater)来自动标记上下文是否充分，发现谷歌的Gemini 1.5 Pro模型表现最佳。

LLM在不同上下文情况下的行为洞察

上下文充分时：模型准确率更高（符合预期），但产生幻觉的频率依然高于拒绝回答。
上下文不充分时：情况更复杂，模型可能表现出更高的拒绝回答率，但某些模型幻觉率也会增加。
RAG的影响：虽然RAG通常能提高整体性能，但额外的上下文有时反而会降低模型在信息不足时拒绝回答的能力（模型可能因获得任何上下文而变得过于自信，从而倾向于幻觉而非拒绝）。
意外发现：即使上下文被判定为不充分，模型有时也能正确回答。这可能归因于模型的预训练知识（参数化知识），或者上下文帮助消除了查询的歧义。

谷歌高级研究科学家Cyrus Rashtchian强调："对于一个优秀的RAG系统，基础LLM的质量至关重要。检索应被视为对其知识的'增强'，而非唯一的信息来源。"

如何减少RAG系统中的幻觉？

鉴于模型即使在RAG环境下也可能产生幻觉而非拒绝回答，研究人员探索了以下方法：

"选择性生成"框架：

使用一个较小的、独立的"干预模型"来决定主LLM是生成答案还是拒绝回答。这提供了一种在准确性和回答覆盖率之间的可控权衡。将"充分上下文"作为此框架的额外信号，可以显著提高已回答查询的准确性（对Gemini, GPT, Gemma模型提升2-10%）。

例子：客服AI场景中，如果上下文是过期的折扣信息，模型最好回答"我不确定"或建议咨询人工客服，而不是错误地确认折扣。
微调模型以鼓励拒绝：

在上下文不充分的样本上，用"我不知道"替代真实答案来训练模型。结果好坏参半：虽然正确答案率有所提高，但模型仍频繁产生幻觉。这方面还需要更多工作。

企业如何应用"充分上下文"？（实用建议）

Cyrus Rashtchian为企业团队提供了以下步骤：

收集数据：收集代表生产环境中模型将遇到的"查询-上下文"数据对。
自动标记：使用LLM"自动评估器"标记每个样本是"充分上下文"还是"不充分上下文"。
- 如果"充分上下文"的比例低于80-90%，则可能需要改进检索或知识库。
分层评估：根据上下文是否充分，对模型响应进行分类统计和评估。这有助于发现细微的性能问题，例如模型在上下文不充分时更容易给出错误答案。
成本考量：
- 诊断目的：在小型测试集（如500-1000例）上离线运行"自动评估器"，成本相对较低。
- 实时应用：可考虑使用启发式方法或更小的模型。

核心启示：工程师不应只关注检索组件的相似度得分等指标，来自LLM或启发式方法的额外信号（如上下文充分性）能带来新的洞察和改进机会。