一分钟读论文：《让AI像程序员一样边写代码边调试》

By Unbug Follow Feb 26, 2026 · 1 min read

一分钟读论文：让AI像程序员一样边写代码边调试

论文标题：Execution-Guided Code Generation

作者：特拉维夫大学，NeurIPS 2025 论文

想象一下：如果你让AI写一段代码，它不仅能生成代码，还能像人类程序员一样，写几行就运行一下，看看哪里出错了，然后根据运行结果继续修改。

在 EG-CFG 出现之前，大多数代码生成模型都有一个通病：它们主要靠”背”代码模式来生成代码。生成的代码看起来语法完美，但一运行就出错。

为什么会这样？因为这些模型只学到了代码的”表面样子”，却没有真正理解代码的”运行逻辑”。

EG-CFG 的全称是 Execution-Guided Classifier-Free Guidance，它的工作流程可以分为三个阶段：

当AI生成了一部分代码后，EG-CFG会：

EG-CFG使用了一个聪明的方法来平衡”自由创作”和”执行指导”：

它同时维护两个分布：

然后通过一个参数γ来调节两者的比重。

整个过程是逐行进行的：

EG-CFG还有一个很酷的设计：为每个任务启动多个并行的”智能体”，每个智能体使用不同的配置参数。这些智能体同时工作，各自探索不同的编码路径。

关键发现：这个结果甚至超过了 GPT-4o 和 Claude-Sonnet-3.5 等闭源大模型！

可见，每个组件都对最终效果有重要贡献。

指标	数值
MBPP基准测试提升	从 49.4% 到 96.6%
HumanEval准确率	99.4%
测试基准数量	4 个（MBPP、HumanEval、CodeContests、DS-1000）
并行智能体	多个配置同时探索
超越的闭源模型	GPT-4o、Claude-Sonnet-3.5

“让AI像人类程序员一样思考”——EG-CFG 让代码生成 AI 第一次真正学会了”边写边调试”，在多个基准测试上达到 SOTA，甚至超越了 GPT-4o 和 Claude-Sonnet-3.5！

EG-CFG 代表了代码生成领域的一个重要范式转变：从”静态模式匹配”转向”动态执行引导”。它的核心思想很简单：让 AI 像人类程序员一样，边写代码边运行，根据实时反馈不断调整。

转载请注明出处，支持我请扫码打赏💰或点击广告🪧