报告日期:2025年7月10日
事实:使用AI工具后,资深开发者的工作速度反而 减慢了19%。
这项研究揭示了认知与现实之间的巨大鸿沟:
我们采用随机对照试验 (RCT) 的方式直接衡量AI在真实世界的影响:
我们排除了实验设计缺陷(如模型落后、任务难度不均等),并发现了5个可能的因素导致了减速(详情见论文)。核心在于,真实开发与基准测试有巨大差异:
我们的RCT减速结果、基准测试的高分、以及广泛的正面坊间传闻共同构成了一幅复杂的图景。最合理的解释是:
假设3:互补证据,衡量不同场景 (最可能)
这三种证据都是“正确”的,但它们衡量的是不同类型任务和环境下的AI能力。
我们将继续使用这种方法进行研究,以追踪AI能力的演进趋势。相比易被“刷分”的基准测试,这种真实世界衡量方法是理解AI真实能力和潜在风险的重要补充。
如果未来AI在我们的实验场景中能实现显著提速,这将是AI研发全面加速的一个强烈信号,值得我们高度关注。