AI 编程已经成为生成式 AI 落地的过程中最热门的赛道之一,不过,近日一支由国际算法奥赛金牌得主组成的科研团队发表的论文却跟 AI 编程 「泼了一盆冷水」。
AI 优势仍停留在 「知识密集型」
这支由国际算法奥赛金牌得主组成的科研团队对目前市面上常见的大模型产品 (包括了 GPT-4o、DeepSeek R1、Claude 3 等 20 个顶级大模型) 进行了测试 (点击阅读 LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),测试主要内容是:一个由 Codeforces、ICPC 和 IOI 这些顶级赛事中的问题组成的 LiveCodeBench Pro 基准测试,在过程中,这些问题会持续更新,以降低数据污染的可能性,共计设置了 584 道编程赛题。
他们为每一个问题进行了算法类别的标注,并对模型生成的失败提交进行了逐行分析。
在难度层级设置上面,团队采用 Codeforces Elo 评级启发式方法进行难度标注。官方 Elo 评级≤2000 的问题标记为 「简单」:世界级选手通常可使用标准教科书技术和观察在约 15 分钟内解决;中等层级 (2000~3000) 包含需要融合两种或更多成熟算法,并结合非平凡数学推理和观察的问题;任何评级 > 3000 的问题视为 「难」——这些挑战通常依赖极复杂、非明显的推导或演绎飞跃,需要对算法理论的精湛掌握和深厚的数学直觉。超过 99.9% 的参与者无法解决,甚至在实时竞赛中最强选手有时也未能解决。
根据该团队发布的论文显示,在没有外部工具的情况下,表现最佳的模型在中等难度问题上的通过率仅为 53%,在难题上通过率为 0%,而这些领域正是人类专家的强项。
除此之外,他们还发现,LLMs 在实现密集型问题上表现出色,但在涉及微妙算法推理和复杂案例分析的问题上却表现不佳,常常生成看似正确实则错误的推理。高性能似乎主要由实现精度和工具增强驱动,而非 superior reasoning(优越的推理能力)。
同时,团队还对大模型在某些方面的失败分析了原因,分析表明 LLM 的代码通常语法更可靠,但在构思正确算法或从问题中提取正确观察所需的高级推理中挣扎。尽管我们的正式注释仅涵盖 o3-mini 的提交,初步人工检查表明大多数现有 LLM 共享相同的错误模式。
该团队在经过测试之后,得出了四个结论:
- 第一,当前模型在更结构化和知识密集型问题 (需要更多逻辑推导而非演绎) 中表现出色,但在需要观察和创造力的观察密集型问题中表现显著更差。仅在组合数学、线段树和动态规划问题上,o4-mini-high 表现超过大师水平。
- 第二,与人类专家相比,概念错误是模型失败的主要原因。LLM 甚至常在提供的样例输入上失败,表明对给定信息的利用不完整,即使在简单场景中也有改进空间。
- 第三,推理模型在组合数学和知识密集型问题上,比非推理模型表现出大幅提升,而在观察密集型问题上的增益有限。
- 第四,尽管通过增加尝试次数,可以显著提升模型整体性能,但仍难以解决高难度层级的问题。
AI 编程已是 「兵家必争之地」
虽然测试的结果不尽如人意,但 AI 编程已经成为科技大厂必争的市场,也是他们继续 AI 故事的重要一环。比如,微软基于 GPT-4 模型推出了 GitHub Copilot 提供代码补全、生成和错误修复功能,支持多种 IDE(如 VS Code、JetBrains),并新增 「智能体」 功能,可自主执行开发任务;OpenAI 推出了 Codex 智能体,支持代码生成和复杂任务处理,与 GitHub 深度整合;谷歌推出了 Gemini 2.5 Pro 与 JulesAI 代理服务;字节跳动推出了集成 Claude 3.7 和 GPT-4o 模型的 AI 原生 IDE 支持快速原型开发,以及 MarsCode 一站式开发平台;美团上线了 AI 编程工具 「NoCode」 ........
从目前发展趋势上看,国内与国际科技公司聚焦的方向不尽相同,国际厂商更为强调智能体和复杂任务处理;国内工具如通义灵码、Trae 等更注重本土化适配和快速开发。
AI 编程当下如此之火,也让一些程序员产生了可能被 AI「替代」 的焦虑。不过,通过前文提及的团队测试不难看出,在一些非知识密集型的编程场景下,程序员的价值依旧很大,能力自然也超过 AI。所以,虽然 AI 编程成为热门赛道,但对于企业而言,一位有经验,能操作高难度,具备 「创造力」 的程序员,依旧是企业数字化过程中的中坚力量。
而大模型仅在知识密集型的场景下具备显著优势,也不仅仅体现在编程领域。在此前笔者与行业内多名专家的交流中,他们也都向笔者表示了,大模型现在的比较有优势的场景还是主要集中在知识密集型的场景下。在这些场景下,AI 确实能够帮助企业实现降本增效,不过这种能力距离我们期待的,能够统筹全局的智能体,还有很大差距。当 AI 能独立解决 IOI 金牌题时,通用人工智能才会真正到来。(本文首发于钛媒体 APP,作者|张申宇,编辑丨盖虹达)