AI 编程「真相」：硬核测试全部 0 分，AI 写代码到底行不行？| 深度

图片来源 @pixabay

AI 能力落地是当下最热门的话题，从走下技术神坛，到真正赋能场景和业务，拨开舆论的重重迷雾，真实情况如何？我们将以「真相」为主线，持续推出系列稿件，理性观察 AI 技术应用落地的现状和未来，也欢迎产业各方参与话题讨论。

「AI 替代程序员」的言论甚嚣，AI 编程（AI Coding）也正被多方共同塑造为「大幅提升企业开发效率潜力」的形象。但在大厂和创企产品竞赛、企业内部应用不甘落后之外，仍处在探索期的 AI 编程，自面世至今备受质疑。

近日，一支由国际算法奥赛金牌得主组成的科研团队推出了 LiveCodeBench Pro 基准测试，结果让人大跌眼镜：GPT-4o、DeepSeek R1、Claude 3 等 20 个顶级大模型，在来自顶级赛事的最新 584 道编程赛题上展开对决，在高难度题目上，所有 AI 的通过率是——0%。（相关报道《AI 替代程序员？一项最新测试的结果恰恰相反 | 企服国际观察》）

可以说，脱离了网络信息作为训练数据，不能「作弊」，AI 的编程能力远没有外界吹捧的那么神乎其神。

而且，在关于 AI 编程的热议中，作为最卷也最容易接受创新事物的程序员群体，随着更多实际应用，对 AI 编程工具也在祛魅。

「出于信息安全的考虑，安全部门会禁止使用 AI 大模型，即便是本地部署。但同时，业务部门经理会要求所有开发人员必须使用大模型以提高性能。每个部门都矛盾，但又认为自己的做法正确。公司裁员后，我们将绩效提高了 1 倍多，但事实上没有任何工具能够帮我们实现这一目标。」

「大多数出于数据合规保密不让用外部商业化成型的 AI 工具，内部的 IDE 插件又不太好用，加上大厂上下游太多，潜在业务知识太多，『屎山』（结构混乱、难以理解和维护的代码）太多，导致很多时候也要自己将业务知识翻译成 Prompt 时间也多，所以总的来说性价比不太高。」

「去年 Claude 推出编程功能时，我兴奋得不行。想象一下：描述想法，代码自动生成，效率提升 10 倍。半年下来，有惊喜也有血泪教训。最大的收获是：AI 很强，但需要人类划清边界。」

「此前完全没碰过 Cursor，focus 可能还在传统的完成一些 task，但殊不知在外面的世界，现在提升的技能或知识已经完全不重要了。以我的视角来看，现在非常需要使用 AI 的经验，我想说 AI 是个工具，如何合适的使用它来帮助到自己才是本事。」

「人用 AI 写代码和自己写代码的唯一区别是，用 AI 写代码你意识不到自己是在用自然语言编程，即使是自然语言，也不能只给出需求，自然语言编程也需要编程的逻辑和规范设计。」

在笔者与多位业内从业者交流中，一个共识越来越清晰：AI 尚无法取代人类，只是在重塑开发者的角色定位。基于大模型本质和产品成熟度的因素，部分开发人员依然对 AI 编程无法接受，这类工具还未能快速普及。

是否值得信任是关键考量。根据 Cloudsmith 的《2025 Artifact 管理报告》，三分之一的开发人员在每次部署之前并未审查 AI 生成的代码，这意味着「很大一部分」代码未经审查，这给供应链带来了越来越大的漏洞。AI 将成为软件堆栈的关键贡献者，而信任模型、工具和策略尚未跟上。而且，依靠人工审查代码是不可持续的。

更现实的问题是，AI 编程产品并不便宜，说服让先一步用上 AI 编程的企业花更多钱，特别是已经达到 IT 预算上限的客户，其实并不容易。

高盛作为微软 GitHub Copilot 的早期客户，为其约 1.2 万名开发人员每人购买了该工具的月度订阅，每年花费数百万美元。该客户最近同样在关注 Copilot 之外的竞品，这也迫使微软调整定价策略：也可以基于用户的使用量，而不是纯订阅模式，同时推出 Agent 等新功能产品以说服客户追加预算。

反观国内，虽然大厂和不少创企也在纷纷入局，无论是争论原生 IDE 还是插件，Agent 是实时还是异步，除了技术产品的差距需要跟进外，商业化就当前的国内市场环境而言，其实更为艰难。

在好用之前，先考虑安全设计

AI 编程核心支撑在于大语言模型，或由微调模型如 OpenAI 的 Codex 提供支持，能够自动补全代码、提供调试建议、根据自然语言提示编写完整脚本。正因如此，越来越多的 AI 编程工具如 GitHub Copilot、Cursor 出现，并被纳入企业日常开发工作流程之中。

但一些企业已经意识到现阶段 AI 编程助手存在的弊端。

2023 年，GitHub Copilot 因训练数据合法性陷入诉讼，原因在于 AI 生成的代码可能包含来自 MTL、GPL 等开源协议的下的代码，而这些代码并未经 GitHub Copilot 属性声明。同年，武汉大学等六所高校针对 GitHub Copilot 生成代码的安全性提出质疑，并指出 Copilot 生成的代码可能包含安全漏洞，开发人员在接受 Copilot 生成的代码之前，应进行严格的安全审查。

今年 3 月，AI 编程软件 Lovable 被发现存在重大漏洞：使用 Lovable 构建的应用存在泄露用户个人信息的情况，同时还会泄露 Lovable 客户用于访问其他服务的密码。随后这类问题被 Lovable 解释为「并非自家独有，任何面向非专业开发者的 AI 编程产品都面临类似的问题。」Lovable 为此推出了一款「安全扫描」的新功能，旨在检测漏洞，才将此事平息。

笔者注意到，不少海外企业公开表示，AI 生成的代码有时并不能按预期运行，甚至更糟的是，可能使其更易受黑客攻击或数据泄露。如果将 AI 编程生成的软件直接用作系统运行，很可能会给企业留下一个缺陷性产品。

原因在于，AI 并不能真正理解代码逻辑，而是基于概率模型生成看似合理的代码，这意味着，AI 编程可能存在潜在的错误或安全漏洞。

为了防范 AI 生成代码中潜伏的风险，一些企业已开始明确提醒其工程师不要发布任何未经人工审核的软件。

营销分析软件公司 Amplitude 制定了一项政策，要求所有 AI 生成的代码在客户使用前都要经过审核。同时，Amplitude 更倾向于使用托管在自有服务器上的模型，而不是基于云端数据中心运行。此外，Amplitude 也会事先提示模型有限考虑其生成的代码安全性，或者要求模型事后检查自身代码是否存在缺陷。

国内企业市场，这种情况也正在上演。

对于具备强大自研团队及能力的互联网企业，或出于安全和内部研发诉求的因素，会首先考虑自研工具。

字节跳动公开表示，目前超过 80% 的工程师在使用其开发的 TRAE 产品辅助开发。但此前 5 月，字节跳动安全与风控部门曾发布内部邮件称，出于对防范数据泄露风险的考虑，自 6 月 30 日起，将在内部分批次禁用第三方 AI 开发软件，包括 AI 编程工具 Cursor、Windsurf 等，并将 Trae 作为替代方案。

美团在 6 月初发布 AI 编程类工具 NoCode，集成了美团自研千亿参数规模的模型 LongCat。作为一款服务于内部员工，并希望将能力进一步开放给外部人员的软件工具，美团基础研发平台智能开发工具负责人俞超对笔者解释，「大公司自研工具往往源自于自身诉求，而多数纯商业软件无法满足企业内部研发场景，企业自身研发流程进行深度优化。」

对于企业而言，一些需要通过外部采购快速构建的业务系统领域，要在保证数据安全的前提下，考虑整个研发流程及系统运维的便捷性。

「大家都知道汽车行业竞争非常激烈，对于功能的快速开发有强烈诉求。同时，维护周期也非常长。所以车企对于效率有要求，对质量要求更高。」蔚来汽车资深工程师揭晓表示。近两年，蔚来汽车开始逐步将 AI 编程工具用于模板生成、单元测试自动生成等内部研发场景。

2024 年初，蔚来汽车从微软 Github Copilot 切换到了阿里云通义灵码。谈及当时为什么会最终选择通义灵码，揭晓指出，核心就是代码安全问题，「虽然在此之前内部曾小范围使用过一段时间 Copilot，但出于数据跨境风险的考虑，标准化的海外产品其实并不适合于在全公司内大范围推广。」

回顾此次国内选型，其实能够在 AI 编程领域投入资源的厂商并不多，背靠大厂资源的通义灵码，在产品及模型层面更接近于海外产品，且工程化层面成熟度高，「不可否认，国外模型会有一定优势，回答的更简洁，准确性一定场景下会更好。但我们也会看重一些产品功能上的细节点，在产品设计尤其是安全性层面的前瞻性。」揭晓指出。

蔚来汽车用上了通义灵码，但目前并未采用其提供的私有化部署解决方案，即大模型、服务部署在企业内网，与外网形成隔离。

揭晓告诉笔者，「虽然这种方案可以实现 100% 安全，但当前来看没有采取的核心原因有两点：一是贵，二是升级和维护非常麻烦，网络隔绝就是需要厂商时刻派人进行升级维护。」

拿工具的人也要转型

对于技术自信的开发人而言，AI 编程如同无法了解代码来源及工作原理的「黑箱」，如何推动他们深层次使用？

几个月前，微软高管就一直在鼓励内部员工更多地使用 AI 编程以加快软件开发。据悉，微软几个负责研发提效的团队已经设置一些监测工具，用于追踪基于 Copilot 生成的代码量。

而与此同时，微软最新一项 6000 名员工的裁员计划中，有一部分员工来自软件工程师。尽管微软发言人在一份声明中表示，公司并非用 AI 取代现有人员岗位，而是利用技术来提高效率，但其明显意图在于，工程师需要转型成为「人工智能提示工程师」，向 AI 编程助手发出指令，而不是从头开始编写代码的传统程序员。

基于近段时间服务银行业客户的实践，神州信息新动力数字金融研究院副院长薛春雨向笔者分析表示，「目前银行业对科技驱动这件事情是积极的，但在实际推行过程中同样面临问题：一是设计文档的问题，大模型训练所需的上下文数据明显不足；二是开发人员接受度，以及银行内部降本增效带来的抵触因素；三是银行特有的业务场景，比如数据的开发跟交易的开发并不一样。」

俞超认为，「当前（国内）整体的 AI 编程的渗透率还不够高，大部分人还没有用好。」从他目前的观察来看，主要有两类群体对 AI 编程存在消极态度：一类是工作时间长且认为自身代码能力强的不愿意尝试；还有一类是虽然愿意尝试，但本身这类程序员的代码可读性就差，连注释都没有，都是文件上建补丁，其实这类群体也不见得能用好 AI。

基于对 AI 编程未来的乐观态度，俞超认为，「未来具备良好编程基础、有强烈意愿且动手能力强的程序员，在 AI 编程时代将具备明显的核心竞争力。同时，模型能力也在发展，可能未来开发者也不需要具备特别强的编程素质，就能够完成一些端到端的开发。」

在美团内部，NoCode 去年年底就上线了，产品、设计用来画原型，HR、行政团队等非技术人员也开始利用该产品解决工作中遇到的问题，甚至有人通过对话几百轮构建出完整的系统，而在此之前他们毫无编程经验。

而很多人可能会忽略工具平台的统一性问题。在揭晓看来，「至少要保证在同一个部门或公司内部实现 AI 编程工具的统一。」比如写一份培训文档，就很难在另一个工具上进行复现，自定义 Prompt、项目规范、RAG 等，维护起来也非常麻烦。

「即便 AI 能够产生结果上的代码，但并不意味着这种质量和效果，是可以满足公司的迭代演进和维护诉求，往往还需要优秀程序员对整个架构做把关。」揭晓表示。

开发者需要对工具有信心

能够看到，企业客户现在很热情的拥抱大模型，但能不能节省开发人员，以及生成的代码可不可用，都还是问题。

一位开发人员则对笔者表示，在使用 AI 的过程中，发现最头疼的就是 AI 不太适合做高层级抽象的设计，而更适合做具体的任务。此外，从价值角度判断，很难准确说明 AI 编程对企业研发效率和质量的提升，只能说 「部分场景的价值比较明显，但距离理想状态还有一定差距。」

AI 编程的落地速度加快，一些共识已潜移默化中达成。笔者整理并结合访谈发现，业内多数专家提及了基础模型能力提升对 AI 编程工具的影响。

去年，Cursor 的开发商 Anysphere 发布了自研模型 Cursor-Fast，OpenAI 计划以 30 亿美金收购 AI 编程助手开发商 Windsurf，后者随后发布 SWE-1 模型，被认为其核心目的是提高模型自主能力，并控制成本。

腾讯云开发者产品总经理刘毅在解释其代码助手 CodeBuddy 时提到，下一段研发提效的瓶颈有三方面：大模型对人输入的指令感知不够精确、对复杂工程的理解与处理能力不足，以及软件工程各阶段的协作工具与信息传递仍然割裂。

5 月末，通义灵码产品技术负责人陈鑫（神秀）在关于通义灵码 AI IDE 升级的交流中指出，「在未来 AI 编程领域，一定是端到端的竞争，即应用+模型+AI infra 的整体能力，这样才能实现更好的性价比和自主优势。」

俞超也对笔者表示，「业内普遍共识是 2027 年之前会实现完整的端到端自动化。回顾过去两年，AI 编程的进步，更多也是底层模型的能力带来的。随着模型能力的提升，模型出错的概率会越来越小，当前很多的技术方案、架构可能会随着技术进步而逐步过时。」

比如，Cognition 公司的 Devin 很早就做出来了，但效果没有跟上，也是因为模型能力提升不足。当每个阶段模型的窗口和推理能力、推理速度等没有达到时，就需要通过大量的工程去解决问题。

俞超的判断是，「可能刚开始模型能力不强时，需要做大量工程化技术去做优化，但未来随着模型发展和推理能力的提升，未来的应用架构可能会变得更为简单，不再依赖大量工程优化来弥补模型问题。」

国产工具「上牌桌」

如今，AI 编程在海外市场已进入一番缠斗状态：

大模型公司 Anthropic 在 2 月推出了自己的 AI 编程工具 Claude Code，随后又在近日突然切断了 Windsurf 对 Claude 系列模型的访问。

而在 Anthropic 和 Windsurf 的 PK 之外，Cursor 已经在大肆攻城略地，与 GitHub Copilot 不相上下，前者的年化收入已突破 5 亿美元。

同样，微软试图绕开 OpenAI，选择 Anthropic 的 Claude 模型，而 OpenAI 不希望微软获得 Windsurf 的知识产权，指控微软反竞争。

与海外正面搏斗相反的是，在国内，很多 AI 编程产品或迫于生态与产品的不成熟，竞争关系较为缓和，且没有明确的商业化指向。

国内头部云厂商推出了自己的 AI 编程工具，AI 大模型厂商也推出了微调模型或 AI 代码工具，部分 AI 编程初创公司则在挖掘 Agent 创新应用。

在初创阵营中，尤为引人瞩目的是聚焦海外市场的 YouWare，该公司已筹集 2000 万美元融资，其投资者包括五源资本、真格基金、高瓴资本等风投，截至去年 11 月，其估值已达 8000 万美元。YouWare 创始人明超平是月之暗面前核心产品负责人。

他在一次访谈中提到，「Cursor、Windsurf 等公司在服务专业程序员方面做得很好，但半专业人士的需求还有很大的待开发空间，这些人一行代码都不会写，但出于需要或创造力，他们渴望进行开发。」

YouWare 基于 Claude 3.7 Sonnet 模型，并向 Claude 4 Sonnet 过渡。目前对于该公司而言，核心问题是用于支撑模型的计算资源的成本支出却不菲，其每天处理数千项任务，处理用户每项任务的平均成本为 1.5 美元至 2 美元。

目前看来，国产工具的一个优势变化在于，中美双方在模型上的差距，以及产品上的差距在逐步缩小。

神秀指出，「目前 AI 编程的市场渗透率在快速提高。那么在这个差距逐渐缩小的背景下，国产的 AI 编程工具不仅存在数据安全隐私合规的保证，还有性价比，以及 IDE 生态的选择性上的优势。」

俞超在对比使用了几款海外 AI 编程工具后得出的结论是：「除了模型之外，海外产品同样有两点值得参考：一是速度，尤其是 Cursor 的产品迭代速度非常快，甚至一天有几版本迭代；二是对产品细节的打磨。」这一点在 Cursor 身上就体现非常明显，比如 UI、操作流程上，都能让开发者实现沉浸式编程。对比之下，国内产品不仅要打磨好产品，提升模型能力，在此前提之下进一步培养用户的付费意愿。

就在半月前，Cursor CEO Michael Truell 在接受 Y Combinator 的访谈中提到一点，AI 编程工具的护城河在于用户规模和产品快速迭代。

竞争可能才刚开始。但可以肯定的是，AI 编程需要先解决核心的技术工程化难题，才有上牌桌的机会。（本文首发于钛媒体 APP，作者 | 杨丽，编辑 | 盖虹达，张申宇、张帅对本文亦有贡献。）

AI 落地的真相是什么？鼓吹派和保守派都说了很多，我们想多听到实干派的声音。

如果你是 AI 编码的使用者、部署者，亦或是受害者，你的第一现场感受和体验都是我们非常欢迎的。

如果你也有话要说，欢迎联系我们，参与话题讨论，发表你的见解。

如果你的观点足够独到、精彩，我们也想邀请你 9 月来三亚，在数字价值年会上讲一讲。你也将有机会遇到更多和你一样的实干派。

AI 编程「真相」：硬核测试全部 0 分，AI 写代码到底行不行？| 深度

在好用之前，先考虑安全设计

拿工具的人也要转型

开发者需要对工具有信心

国产工具「上牌桌」

推荐阅读

史上最「迷你」基金或奇袭收益冠军，规模不足万元，这并不是个笑话

呼和浩特老庙黄金多少钱一克（2025 年 6 月 25 日）

消费边际存好转预期预计沪铅短期重心上移

低费率的自由现金流 ETF（159201）涨逾 1%，持仓股模塑科技涨停

广州潮宏基周三（6 月 25 日）黄金价格 998 元/克

AI 编程 「真相」：硬核测试全部 0 分，AI 写代码到底行不行？| 深度

在好用之前，先考虑安全设计

拿工具的人也要转型

开发者需要对工具有信心

国产工具 「上牌桌」

推荐阅读

史上最 「迷你」 基金或奇袭收益冠军，规模不足万元，这并不是个笑话

呼和浩特老庙黄金多少钱一克 （2025 年 6 月 25 日）

消费边际存好转预期 预计沪铅短期重心上移

低费率的自由现金流 ETF（159201） 涨逾 1%，持仓股模塑科技涨停

广州潮宏基周三 （6 月 25 日） 黄金价格 998 元/克

AI 编程「真相」：硬核测试全部 0 分，AI 写代码到底行不行？| 深度

国产工具「上牌桌」

史上最「迷你」基金或奇袭收益冠军，规模不足万元，这并不是个笑话

呼和浩特老庙黄金多少钱一克（2025 年 6 月 25 日）

消费边际存好转预期预计沪铅短期重心上移

低费率的自由现金流 ETF（159201）涨逾 1%，持仓股模塑科技涨停

广州潮宏基周三（6 月 25 日）黄金价格 998 元/克