AI辅助研发，为什么越来越难证明提效？

发表于 2026-07-01

现在已经是2026年7月份了，Agent辅助工作越来越普及，大家都在争先恐后地使用Agent提效。

但管理者真正焦虑的事情，似乎并没有变：团队到底有没有把 AI 用好？如果用好了，它真的带来了多少提效？这些提效，最后有没有变成可见的产出和业务结果？

这个问题看起来是在问”AI的效果怎么度量”，但本质上是在问”我们的研发效率该如何计算”？这个问题很难回答。

我们有很多AI来之前、AI来之后的过程指标，但这些指标都无法直接说明研发效率：

人均代码量

代码量这个东西作为指标，一直争议不断。一方面，大家都知道代码量不是越多越好，不同语言、不同模块、不同业务阶段，代码量都没有直接可比性。一个人写了几千行代码，不一定比另一个人改了几十行核心逻辑更有价值。

但是在Agent时代之前，代码量至少还隐含着一个很朴素的含义：它大概能说明一个人投入过时间。一年输出12万行代码的人，他几乎绝对是认认真真工作了一整年的。

但到了 Agent 时代，这层含义也开始变弱了。一个 Agent 任务跑十几分钟，可能就能修改几十个文件，生成几千行代码。一个开发人员一天产生的代码 Diff，可能超过过去一周甚至一个月。更麻烦的是，Agent 生成代码的边际成本很低。过去多写代码意味着更多人工投入，现在多生成代码可能只是多跑了几轮任务。生成出来的代码，开发者未必完整读过，未必充分理解，甚至可能只是靠编译、测试、运行结果做了一层确认。

过去代码量不一定代表价值，但至少可能代表投入；现在代码量既不代表价值，也不一定代表投入。

Token消耗量

很多企业会自然地统计 Token 消耗，这个数据最容易拿到，也最像”AI工作量”。

但Token本质上不是产出，而是成本。它说明企业为 AI 辅助研发投入了多少计算资源，但不能说明这些资源转化成了多少有效结果。

一个团队 Token 消耗很高，可能说明他们大量使用了 Agent。但也可能说明他们的任务拆分很差、上下文组织很差、代码结构很差、编译环境很差，导致 Agent 反复搜索、反复修改、反复失败、反复修复。这时候 Token 越多，不一定说明 AI 越有价值，反而可能说明整个研发系统对 AI 越不友好。尤其是Token的消耗量会随着解决问题的规模直线上升。

AI使用率

比如研发人员使用Agent的活跃度，它能说明 AI 是否真正进入了研发流程，也能够反映组织推广 AI 的进展。AI 使用率描述的是工具的使用情况，而不是工作的完成情况。

到这里，我们发现上面列举的指标，都有价值，但是都无法回答一个问题：企业到底有没有因为 AI 而真正提效？

企业从来不是为了让研发人员写更多代码，也不是为了让 Agent 消耗更多 Token，更不是为了提高 AI 使用率。企业真正关心的，其实始终只有一件事情：

能否用相同的资源创造更多价值，或者用更少的资源创造相同的价值。

同样的人，能否把产出提升X倍；或者产出不变，只需要1/X个人。

软件行业发展了几十年，一直没有一个所有人都认可的研发效率指标，可能最接近的是需求交付周期。

需求交付周期并不是研发最终创造的价值，它仍然只是一个过程指标。但相比代码量、Token、AI 使用率，它距离企业真正关心的结果已经更近了一步。一个需求交付得越快，意味着企业能够越快响应市场、越快验证产品、越快产生业务价值。它虽然不能直接代表企业收益，却已经开始影响企业收益。

但即便如此，需求交付周期仍然不能单独证明 AI 提效。需求交付周期只是结果，它并不会告诉我们，周期为什么变短了。可能是因为 AI，也可能是因为需求拆分得更细了，也可能是因为减少了测试环节，甚至可能只是因为统计口径发生了变化。

我们一直在寻找一个能够证明 AI 提效的指标，但在管理学中，对于这类复杂问题，通常不会试图寻找一个能够解释一切的”万能指标”，而是先建立价值创造的完整链路，再在每个环节选择合适的度量指标。

例如，一个团队 AI 使用率持续提升，Token 消耗持续增加，同时需求交付周期持续缩短，而线上质量没有明显下降，那么我们有理由认为，AI 正在开始产生价值。

反过来，如果 AI 使用率越来越高，Token 消耗越来越大，而需求交付周期没有变化，质量反而开始下降，那么这些指标也说明了一件事情：AI 被使用了，但并没有真正提效。

Logic Model（逻辑模型） 正是项目评估领域最经典的方法之一，它将价值创造拆分为 Input、Activity、Output、Outcome、Impact 五个层次，帮助回答一个核心问题：投入的资源，是如何一步步转化为最终业务价值的？

笔者尝试列举了一下，同时针对开发团队反馈的痛点问题，大家也可以按照这五个层次进行推演：

层级	含义	可以观察哪些指标
Input（投入）	投入了多少资源	Token消耗、人力投入
Activity（活动）	AI有没有真正参与研发	AI使用率、Skill个数
Output（产出）	AI产生了什么直接成果	PR数量、代码行数
Outcome（结果）	研发是否变好了	需求交付周期、交付需求数、缺陷率
Impact（影响）	企业是否受益	收入、利润、客户满意度

最后，对于 AI 辅助研发来说，没有一个万能指标。只有把覆盖 Input、Activity、Output、Outcome、Impact 的指标一起观察，才能尝试回答那个最初的问题：

AI，到底有没有让研发真正提效？