从 Copilot 到 通用 Agent

阿里在 AI Coding 上的应用、挑战与思考

核心摘要:演进之路与关键洞察
  • 演进路径:阿里在AI Coding的探索从 Copilot 模式(辅助工具) 全面转向 Agent 模式(自主智能体),以解决更复杂的端到端研发任务。
  • 核心痛点:仅提升局部编码效率(如代码补全)已无法满足期望,业界真正需要的是能理解复杂需求、自主完成端到端任务的AI
  • 内部优势与挑战:阿里虽有海量内部数据和平台,但平台信息孤岛、数据质量参差不齐等问题阻碍了AI能力的充分发挥。
  • 技术机遇:多模态、模型推理和自省能力的进步是推动向Agent模式转变的关键催化剂。
  • 未来方向:研发两种Agent产品:IDE内嵌Agent(同步协作,左移任务)和通用Agent(异步自主,解决复杂长任务),目标是实现10倍效率提升。
第一阶段:AI Coding 探索与实践成果

阿里早期在多个场景进行了深入探索,并取得了显著成效:

  • 编程辅助:代码补全(包括类似Cursor的多行编辑)、代码会话、Prompt市场。
  • Code Review (CR):开创性地实现了AI定位到具体问题代码行,并提供“一键采纳”修改建议,极大简化了修复流程。
  • 业务整合:通过 Extension 功能,深度整合内部业务工具和知识。
  • 量化成果 (Facts):
    • 日活用户:约 12,000 人
    • 内部渗透率:约 65%
    • 代码补全采纳率:整体 28%,Java场景 33%
    • Code Review:约 20% 的CR问题由AI生成
第二阶段:遇到的核心挑战(四大障碍)

尽管用户量和渗透率很高,但团队发现工具在解决根本性问题上遇到瓶颈:

  1. 用户期望鸿沟:一线研发觉得效率不错,但非一线期望从需求直接到代码的端到端自动化,当前工具远未达到。
  2. 模型自身局限:
    • 可靠性不足,处理复杂问题时上下文窗口不够,或在长上下文中“迷失”。
    • 缺乏逐步解决问题的能力,不擅长推理和规划。
    • 难以整合隐晦的领域知识(如代码中不一致的命名)。
  3. 平台与数据障碍:
    • 内部DevOps平台间信息孤岛,无法形成完整用户上下文。
    • 历史数据(文档、提交信息)质量差、不规范、非结构化(如图片),难以被AI有效利用。
  4. 工程上下文缺失:一旦脱离IDE,理解代码的工程上下文(如调用链)成本极高,限制了CR等场景的深度。
转折点:全面转向 Agent 模式

技术、产品和理论的进步带来了新的机遇,促使阿里从规则驱动的Copilot转向模型驱动的Agent。

  • 驱动力:规则编排模式(人机共驱)泛化能力差、成本高,无法应对复杂任务,限制了模型潜力。而Devin等产品的成功证明了模型驱动模式的可行性。
  • 技术基石:
    • 产品思路:Cursor等工具启发了更优的人机交互模式(如多行补全、一键Apply)。
    • 多模态能力:新模型能理解架构图、截图,弥补了过去的知识鸿沟。
    • 模型自省:模型开始认知自身能力边界(例如,选择生成脚本而非直接回答),这对Agent至关重要。
  • 阿里实践:开发两大Agent产品,摒弃规则编排,拥抱模型驱动。

两种Agent模式对比 (图片内容OCR)

特性/能力点 在IDE内的Agent模式 通用Agent产品
运行环境 运行在本地IDE内,是IDE Chat模式的一种延伸 运行在独立环境内,有更高的环境自主权
协作方式 与用户进行“同步协作” 与用户进行“异步协作”,“异步”的处理复杂任务
工具使用 借助IDE本身自带的API,能解决工程上下文的问题 自主的安装和使用工具,也可以依赖MCP的外向扩展
任务处理 可以将部分工作左移,例如CodeReview, FindBug等 往往需要先收集数据再“生成Planning”后执行
效率问题 需要解决多步骤长上下文的记忆问题 具备自主学习和总结反思的能力,能持续不断地解决新问题
内置工具 有限的内置工具,需要依赖MCP协议的对外扩展 具备规模效应,用的人越多会越聪明
复杂任务 通过Project Rules等手段提升在具体场景下的效果 通过Multi Agents等手段解决复杂任务
适用场景 主要解决IDE自身带的一些API能够解决的问题 可以处理更广泛的任务,不局限于IDE环境
未来展望:构建Agent的挑战与终极思考

技术与工程挑战

  • 记忆管理:如何有效管理Agent的短期记忆(避免干扰)和长期记忆(经验复用)是核心难题。
  • 评估困难:对于长链路任务,缺乏标准评估集,需要同时评估结果(能力)和过程(效率)
  • 工具使用笨拙:Agent对浏览器、Shell等工具的使用尚不熟练,且Agent间的通信(如凭证传递)存在问题。
  • 模型能力瓶颈:
    • 指令遵循能力仍有缺陷。
    • 推理与反思能力不足,易陷入死循环或误入歧途无法自拔。
    • 当前模型训练范式(局部最优)可能不适用于Agent(全局最优)

战略与安全思考

对外部模型的依赖是一大隐忧:

  • 成本高昂(一个任务几十元),难以规模化。
  • 存在数据隐私、被限流、甚至被“降智”的风险。

终极问题——安全与责任:

  • 通用Agent的异步执行带来了不可控的安全风险、隐私风险和授权边界问题
  • 当Agent造成损失时,责任归属(人还是Agent?)是亟待探讨的社会与伦理问题。

原文

()[https://mp.weixin.qq.com/s/Zz6Dt6yfYdBSwo-759eIhg]