企业RAG系统为何失败:谷歌研究引入"充分上下文"解决方案
文章来源:Ben Dickson, VentureBeat, 2025年5月23日
原文链接:Why enterprise RAG systems fail: Google study introduces 'sufficient context' solution
核心观点:谷歌研究人员提出了"充分上下文"(Sufficient Context)的新视角,旨在理解和改进企业级检索增强生成(RAG)系统。这一方法帮助判断大型语言模型(LLM)是否有足够信息来准确回答问题,这对于追求高可靠性和事实准确性的企业应用至关重要。
RAG系统的常见"痛点"
RAG系统虽是构建更具事实性和可验证性AI应用的关键,但也存在一些问题:
- 即使提供了相关证据,也可能自信地给出错误答案。
- 容易被上下文中的不相关信息干扰。
- 难以从长文本片段中正确提取答案。
- 理想状态:若上下文充分,LLM应正确回答;若不充分,则应拒绝回答或请求更多信息。
"充分上下文"是什么?
研究人员引入此概念,将输入实例分为两种情况:
- 充分上下文 (Sufficient Context):提供的上下文包含回答问题所需的所有必要信息。
- 不充分上下文 (Insufficient Context):上下文缺乏必要信息(例如,问题需要上下文中没有的专业知识,或信息不完整、不确定、矛盾)。
重要特点:这种划分仅基于问题和上下文本身,不需要真实的答案(这对于无法在推理时获得真实答案的实际应用非常关键)。
研究人员开发了基于LLM的"自动评估器"(autorater)来自动标记上下文是否充分,发现谷歌的Gemini 1.5 Pro模型表现最佳。
LLM在不同上下文情况下的行为洞察
- 上下文充分时:模型准确率更高(符合预期),但产生幻觉的频率依然高于拒绝回答。
- 上下文不充分时:情况更复杂,模型可能表现出更高的拒绝回答率,但某些模型幻觉率也会增加。
- RAG的影响:虽然RAG通常能提高整体性能,但额外的上下文有时反而会降低模型在信息不足时拒绝回答的能力(模型可能因获得任何上下文而变得过于自信,从而倾向于幻觉而非拒绝)。
- 意外发现:即使上下文被判定为不充分,模型有时也能正确回答。这可能归因于模型的预训练知识(参数化知识),或者上下文帮助消除了查询的歧义。
谷歌高级研究科学家Cyrus Rashtchian强调:"对于一个优秀的RAG系统,基础LLM的质量至关重要。检索应被视为对其知识的'增强',而非唯一的信息来源。"
如何减少RAG系统中的幻觉?
鉴于模型即使在RAG环境下也可能产生幻觉而非拒绝回答,研究人员探索了以下方法:
-
"选择性生成"框架:
使用一个较小的、独立的"干预模型"来决定主LLM是生成答案还是拒绝回答。这提供了一种在准确性和回答覆盖率之间的可控权衡。将"充分上下文"作为此框架的额外信号,可以显著提高已回答查询的准确性(对Gemini, GPT, Gemma模型提升2-10%)。
例子:客服AI场景中,如果上下文是过期的折扣信息,模型最好回答"我不确定"或建议咨询人工客服,而不是错误地确认折扣。
-
微调模型以鼓励拒绝:
在上下文不充分的样本上,用"我不知道"替代真实答案来训练模型。结果好坏参半:虽然正确答案率有所提高,但模型仍频繁产生幻觉。这方面还需要更多工作。
企业如何应用"充分上下文"?(实用建议)
Cyrus Rashtchian为企业团队提供了以下步骤:
- 收集数据:收集代表生产环境中模型将遇到的"查询-上下文"数据对。
- 自动标记:使用LLM"自动评估器"标记每个样本是"充分上下文"还是"不充分上下文"。
- 如果"充分上下文"的比例低于80-90%,则可能需要改进检索或知识库。
- 分层评估:根据上下文是否充分,对模型响应进行分类统计和评估。这有助于发现细微的性能问题,例如模型在上下文不充分时更容易给出错误答案。
- 成本考量:
- 诊断目的:在小型测试集(如500-1000例)上离线运行"自动评估器",成本相对较低。
- 实时应用:可考虑使用启发式方法或更小的模型。
核心启示:工程师不应只关注检索组件的相似度得分等指标,来自LLM或启发式方法的额外信号(如上下文充分性)能带来新的洞察和改进机会。