AI辅助研发,为什么越来越难证明提效?
现在已经是2026年7月份了,Agent辅助工作越来越普及,大家都在争先恐后地使用Agent提效。
但管理者真正焦虑的事情,似乎并没有变:团队到底有没有把 AI 用好?如果用好了,它真的带来了多少提效?这些提效,最后有没有变成可见的产出和业务结果?
这个问题看起来是在问”AI的效果怎么度量”,但本质上是在问”我们的研发效率该如何计算”?这个问题很难回答。
我们有很多AI来之前、AI来之后的过程指标,但这些指标都无法直接说明研发效率:
人均代码量
代码量这个东西作为指标,一直争议不断。一方面,大家都知道代码量不是越多越好,不同语言、不同模块、不同业务阶段,代码量都没有直接可比性。一个人写了几千行代码,不一定比另一个人改了几十行核心逻辑更有价值。
但是在Agent时代之前,代码量至少还隐含着一个很朴素的含义:它大概能说明一个人投入过时间。一年输出12万行代码的人,他几乎绝对是认认真真工作了一整年的。
但到了 Agent 时代,这层含义也开始变弱了。一个 Agent 任务跑十几分钟,可能就能修改几十个文件,生成几千行代码。一个开发人员一天产生的代码 Diff,可能超过过去一周甚至一个月。更麻烦的是,Agent 生成代码的边际成本很低。过去多写代码意味着更多人工投入,现在多生成代码可能只是多跑了几轮任务。生成出来的代码,开发者未必完整读过,未必充分理解,甚至可能只是靠编译、测试、运行结果做了一层确认。
过去代码量不一定代表价值,但至少可能代表投入;现在代码量既不代表价值,也不一定代表投入。
Token消耗量
很多企业会自然地统计 Token 消耗,这个数据最容易拿到,也最像”AI工作量”。
但Token本质上不是产出,而是成本。它说明企业为 AI 辅助研发投入了多少计算资源,但不能说明这些资源转化成了多少有效结果。
一个团队 Token 消耗很高,可能说明他们大量使用了 Agent。但也可能说明他们的任务拆分很差、上下文组织很差、代码结构很差、编译环境很差,导致 Agent 反复搜索、反复修改、反复失败、反复修复。这时候 Token 越多,不一定说明 AI 越有价值,反而可能说明整个研发系统对 AI 越不友好。尤其是Token的消耗量会随着解决问题的规模直线上升。
AI使用率
比如研发人员使用Agent的活跃度,它能说明 AI 是否真正进入了研发流程,也能够反映组织推广 AI 的进展。AI 使用率描述的是 工具的使用情况,而不是 工作的完成情况。
到这里,我们发现上面列举的指标,都有价值,但是都无法回答一个问题:企业到底有没有因为 AI 而真正提效?
企业从来不是为了让研发人员写更多代码,也不是为了让 Agent 消耗更多 Token,更不是为了提高 AI 使用率。企业真正关心的,其实始终只有一件事情:
能否用相同的资源创造更多价值,或者用更少的资源创造相同的价值。
同样的人,能否把产出提升X倍;或者产出不变,只需要1/X个人。
软件行业发展了几十年,一直没有一个所有人都认可的研发效率指标,可能最接近的是需求交付周期。
需求交付周期并不是研发最终创造的价值,它仍然只是一个过程指标。但相比代码量、Token、AI 使用率,它距离企业真正关心的结果已经更近了一步。一个需求交付得越快,意味着企业能够越快响应市场、越快验证产品、越快产生业务价值。它虽然不能直接代表企业收益,却已经开始影响企业收益。
但即便如此,需求交付周期仍然不能单独证明 AI 提效。需求交付周期只是结果,它并不会告诉我们,周期为什么变短了。可能是因为 AI,也可能是因为需求拆分得更细了,也可能是因为减少了测试环节,甚至可能只是因为统计口径发生了变化。
我们一直在寻找一个能够证明 AI 提效的指标,但在管理学中,对于这类复杂问题,通常不会试图寻找一个能够解释一切的”万能指标”,而是先建立价值创造的完整链路,再在每个环节选择合适的度量指标。
例如,一个团队 AI 使用率持续提升,Token 消耗持续增加,同时需求交付周期持续缩短,而线上质量没有明显下降,那么我们有理由认为,AI 正在开始产生价值。
反过来,如果 AI 使用率越来越高,Token 消耗越来越大,而需求交付周期没有变化,质量反而开始下降,那么这些指标也说明了一件事情:AI 被使用了,但并没有真正提效。
Logic Model(逻辑模型) 正是项目评估领域最经典的方法之一,它将价值创造拆分为 Input、Activity、Output、Outcome、Impact 五个层次,帮助回答一个核心问题:投入的资源,是如何一步步转化为最终业务价值的?
笔者尝试列举了一下,同时针对开发团队反馈的痛点问题,大家也可以按照这五个层次进行推演:
| 层级 | 含义 | 可以观察哪些指标 |
|---|---|---|
| Input(投入) | 投入了多少资源 | Token消耗、人力投入 |
| Activity(活动) | AI有没有真正参与研发 | AI使用率、Skill个数 |
| Output(产出) | AI产生了什么直接成果 | PR数量、代码行数 |
| Outcome(结果) | 研发是否变好了 | 需求交付周期、交付需求数、缺陷率 |
| Impact(影响) | 企业是否受益 | 收入、利润、客户满意度 |
最后,对于 AI 辅助研发来说,没有一个万能指标。只有把覆盖 Input、Activity、Output、Outcome、Impact 的指标一起观察,才能尝试回答那个最初的问题:
AI,到底有没有让研发真正提效?