从 Copilot 到通用 Agent

阿里在 AI Coding 上的应用、挑战与思考

核心摘要：演进之路与关键洞察

第一阶段：AI Coding 探索与实践成果

阿里早期在多个场景进行了深入探索，并取得了显著成效：

编程辅助：代码补全（包括类似Cursor的多行编辑）、代码会话、Prompt市场。
Code Review (CR)：开创性地实现了AI定位到具体问题代码行，并提供“一键采纳”修改建议，极大简化了修复流程。
业务整合：通过 Extension 功能，深度整合内部业务工具和知识。
量化成果 (Facts)：
- 日活用户：约 12,000 人
- 内部渗透率：约 65%
- 代码补全采纳率：整体 28%，Java场景 33%
- Code Review：约 20% 的CR问题由AI生成

第二阶段：遇到的核心挑战（四大障碍）

尽管用户量和渗透率很高，但团队发现工具在解决根本性问题上遇到瓶颈：

用户期望鸿沟：一线研发觉得效率不错，但非一线期望从需求直接到代码的端到端自动化，当前工具远未达到。
模型自身局限：
- 可靠性不足，处理复杂问题时上下文窗口不够，或在长上下文中“迷失”。
- 缺乏逐步解决问题的能力，不擅长推理和规划。
- 难以整合隐晦的领域知识（如代码中不一致的命名）。
平台与数据障碍：
- 内部DevOps平台间信息孤岛，无法形成完整用户上下文。
- 历史数据（文档、提交信息）质量差、不规范、非结构化（如图片），难以被AI有效利用。
工程上下文缺失：一旦脱离IDE，理解代码的工程上下文（如调用链）成本极高，限制了CR等场景的深度。

转折点：全面转向 Agent 模式

技术、产品和理论的进步带来了新的机遇，促使阿里从规则驱动的Copilot转向模型驱动的Agent。

驱动力：规则编排模式（人机共驱）泛化能力差、成本高，无法应对复杂任务，限制了模型潜力。而Devin等产品的成功证明了模型驱动模式的可行性。
技术基石：
- 产品思路：Cursor等工具启发了更优的人机交互模式（如多行补全、一键Apply）。
- 多模态能力：新模型能理解架构图、截图，弥补了过去的知识鸿沟。
- 模型自省：模型开始认知自身能力边界（例如，选择生成脚本而非直接回答），这对Agent至关重要。
阿里实践：开发两大Agent产品，摒弃规则编排，拥抱模型驱动。

特性/能力点	在IDE内的Agent模式	通用Agent产品
运行环境	运行在本地IDE内，是IDE Chat模式的一种延伸	运行在独立环境内，有更高的环境自主权
协作方式	与用户进行“同步协作”	与用户进行“异步协作”，“异步”的处理复杂任务
工具使用	借助IDE本身自带的API，能解决工程上下文的问题	自主的安装和使用工具，也可以依赖MCP的外向扩展
任务处理	可以将部分工作左移，例如CodeReview, FindBug等	往往需要先收集数据再“生成Planning”后执行
效率问题	需要解决多步骤长上下文的记忆问题	具备自主学习和总结反思的能力，能持续不断地解决新问题
内置工具	有限的内置工具，需要依赖MCP协议的对外扩展	具备规模效应，用的人越多会越聪明
复杂任务	通过Project Rules等手段提升在具体场景下的效果	通过Multi Agents等手段解决复杂任务
适用场景	主要解决IDE自身带的一些API能够解决的问题	可以处理更广泛的任务，不局限于IDE环境

未来展望：构建Agent的挑战与终极思考

记忆管理：如何有效管理Agent的短期记忆（避免干扰）和长期记忆（经验复用）是核心难题。
评估困难：对于长链路任务，缺乏标准评估集，需要同时评估结果（能力）和过程（效率）。
工具使用笨拙：Agent对浏览器、Shell等工具的使用尚不熟练，且Agent间的通信（如凭证传递）存在问题。
模型能力瓶颈：
- 指令遵循能力仍有缺陷。
- 推理与反思能力不足，易陷入死循环或误入歧途无法自拔。
- 当前模型训练范式（局部最优）可能不适用于Agent（全局最优）。

对外部模型的依赖是一大隐忧：

终极问题——安全与责任：