大模型上下文工程 (Context Engineering)

继“提示词工程”后的下一个核心技术热点

上下文工程 (Context Engineering) 是一种系统化的方法论和技术栈,核心目标是在与LLM交互时,动态、精准地为其构建和提供最相关、最优质的上下文 (Context),从而生成更准确、可靠和个性化的回答。

与提示词工程的形象比喻:

  • 提示词工程 (Prompt Engineering): 教会我们如何向“超级大脑” (LLM) “问对问题”
  • 上下文工程 (Context Engineering): 负责在提问前,准备好相关的“参考资料”或“开卷考试的小抄”,递给“超级大脑”,让它依据这些材料来回答。
核心已从优化“问题本身”转向工程化地管理“信息背景”。

它直接解决了大语言模型固有的几大核心局限性:

局限1:知识截止 (Knowledge Cutoff)
模型知识是静态的,不知道最新信息。
CE解决方案: 实时从网络、API、数据库中检索最新信息,作为上下文注入给模型。
局限2:数据私有性 (Data Privacy)
通用模型无法访问企业内部私有数据。
CE解决方案: 在用户提问时,从私有知识库中安全检索文档片段作为上下文,无需用私有数据训练模型。
局限3:事实幻觉 (Hallucination)
模型会“一本正经地胡说八道”。
CE解决方案: 提供基于事实的上下文,要求模型“依据信息回答”,即“接地”(Grounding)技术,极大减少模型编造的空间。
局限4:上下文窗口限制 (Context Window Limitation)
无法将海量数据一次性塞入提示词。
CE解决方案: 核心技术“检索”(Retrieval),在海量信息中精准找到最相关的“精华”片段放入上下文窗口。

RAG: 给模型一本“开卷考试”的参考书

目前实现上下文工程最主流、最流行的技术架构。

典型流程:

  1. 数据准备 (离线):
    • 加载与切分: 将私有知识库(PDF, 网页等)切分成信息“块”(Chunks)。
    • 向量化与索引: 使用嵌入模型(Embedding Model)将信息块转为向量,存入向量数据库(Vector Database)
  2. 查询与生成 (在线):
    • 用户提问 & 问题向量化: 将用户问题也转为向量。
    • 相似性检索: 在向量数据库中找到与问题最相关的几个信息块。
    • 上下文注入: 将检索到的信息和原问题组合成一个增强后的提示词。
    • 生成回答: LLM基于提供的“小抄”生成准确回答。

例子:企业智能客服
问“设备报错E57是什么意思?”,系统先从手册数据库中检索到“E57代表传感器连接超时...”,然后将这段准确信息作为上下文交给LLM,由LLM生成自然语言的回答。

微调: 给模型进行“考前特训”

在部署前,用一个精心准备的特定领域数据集继续训练基础大模型,将知识和能力“内化”到模型参数中。

主要解决:

  • 风格与语调: 让模型说话像你的品牌或领域专家。
  • 格式遵循: 稳定输出特定格式,如JSON、XML。
  • 隐性知识: 学习特定领域的通用知识和推理模式。

例子:法律AI助手
用数千份高质量合同微调模型后,只需简单指令“起草一份软件授权协议”,模型就能自动生成术语、风格都非常专业的文本,无需在提示词中提供范本。

与RAG的关系:二者互补。微调教会模型“如何思考和说话”,RAG在运行时为其提供“最新的事实依据”

智能体与工具: 将世界作为“动态上下文”

最前沿、最强大的范式之一。将LLM打造成有“大脑”的智能体(Agent),并为其配备“工具箱”(Toolkit),如API、数据库等。

核心思想 (ReAct框架: Reason + Act):

  1. 思考 (Reason): 面对复杂任务,智能体进行思考和规划。
  2. 行动 (Act): 决定调用哪个工具来获取信息或执行操作。
  3. 观察 (Observe): 将工具返回的结果作为新的上下文,进行下一步思考。

解决的问题:

  • 实时性与动态性: 获取股价、天气等实时数据。
  • 可操作性: 不仅能“读”,还能“写”,执行下单、发邮件等操作。
  • 复杂问题分解: 将大问题拆解成多个步骤逐步解决。

例子:旅行规划助手
用户说“规划去北京的旅行”,智能体会自主调用工具查询机票、查询酒店,并将查询结果作为上下文,最终整合出完整方案。

上下文管理与压缩: 优化长程“工作记忆”

专注于在有限的上下文窗口内,最高效地管理长程对话中的信息,避免关键信息被遗忘或冲淡。

典型技术:

  • 滑动窗口 (Sliding Window): 只保留最近N轮对话,简单但易丢信息。
  • 对话摘要 (Conversational Summarization): 用另一个LLM在后台定期总结历史对话,将摘要作为上下文。
  • 混合检索: 结合当前问题和对话历史摘要去检索知识库,更懂用户意图。

例子:心理咨询AI
通过对话摘要技术,AI能记住用户在1小时前提到的关键童年经历,并在后续对话中引用,实现更深层次的共情和沟通。

范式 (Paradigm) 核心思想 优点 缺点
RAG (检索增强生成) 外部知识检索,开卷考试 事实性强、知识可更新、成本较低 依赖检索质量、有一定延迟
Fine-Tuning (微调) 内部知识内化,考前特训 风格/语调/格式控制好、推理能力强 知识静态、成本高、可能遗忘通用能力
Agents & Tools (智能体与工具) 实时交互,动态获取 实时、可操作、能解决复杂任务 系统复杂、有安全风险、依赖工具可靠性
Context Management (上下文管理) 优化长程记忆 保持对话连贯性、理解深层意图 增加计算开销、可能丢失细节

实践结论:最先进的AI应用,通常会融合以上所有范式,构建出一个能够根据任务需求,灵活地检索静态知识、调用实时工具、并保持长程对话记忆的复杂系统。

原文

()[https://mp.weixin.qq.com/s/uJDMvWZt29VuVS4LhZlWRQ]