2025年 5月 17日 上午1:54
spot_img

华为,在黎明之前


黎明前最黑暗,胜利前最绝望,成功前最渺茫。

堂吉诃德举着破矛冲向风车,切格瓦拉的摩托车驶向安第斯山脉,盖茨比始终追逐着心中的绿光,他们的命运终章永远只有两种笔法:加冕为盗火者,或坍缩成黑洞。

华为素来不爱“造梦”,这是一家理性大于感性的公司。

所有关于联接的答案,都能在方程组的深处,找到最简洁的表达,那些被高斯噪声吻过的频谱,在香农的公式里凝结成精巧的信息,在华为眼里都是理性的计算。

然而,当华为被置于风暴中央之时,成功除了前赴后继的突围,故事中总带有那么一些理想主义色彩。

上甘岭

曾经的黑夜对于华为来说,并不算短。

2019.5.16,19万华为人因“实体清单”的消息集体落入慌乱与不安的情绪。

越是在行业待得足够久的人,越知晓其中的分量,高通芯片、英特尔/AMD芯片、Windows和安卓操作系统等,这是大众显而易见看到的部分,还有更重要但外界感知不到的部分,例如数据库、ERP软件、各种生产工具等软件等,华为的业务面临全面停摆的风险。

更重要的是,还有一个在当时并不明显,但后来被验证的预言。“他们不只想遏制华为的现在,更想摧毁华为的未来。”

华为的未来是什么?

2018年,华为首次对外发布了AI战略与全栈全场景AI解决方案,包括全球首个覆盖全场景人工智能的华为昇腾系列芯片以及基于华为昇腾系列芯片的产品和云服务。

在所有预设前提改变的情况下,华为AI战略被打乱了步伐。

“再穷也要对未来投资”,华为比任何人都更明白这一点,如果赶不上AI的时代浪潮,华为可能在十年、二十年后就变成一家“泯然众人矣”的公司。

现在与未来交织成两条主线。华为发起的“三丫坡会战”,成功保障了自身的生产运营,实现了关键产品和技术的自主研发,涵盖硬件、操作系统、数据库、中间件、应用软件等领域。

但是,关于未来的问题,就像“达摩克利斯之剑”悬于头顶。

美国对AI的封锁层层加码,华为连基本的AI算力供应都难以实现,又该如何与美国的AI企业竞争?

外界无从知晓,华为扛着多大的压力,但它没有给自己彷徨的时间。不久之后,华为内部就成立了一支特殊的“作战部队”,结合了包括云、计算、芯片等业务线的精兵强将,这支队伍领到的“军令”,就是攻克AI算力的“上甘岭”。

那条坑道

彼时,凭借GPU和CUDA生态系统的坚固壁垒,英伟达可谓“独孤求败”,打遍天下无敌手。

英伟达和华为,恰如一个在上甘岭的南坡,洋枪大炮重兵布阵,另一个却在北坡,小米加步枪艰难突进。

那条打通南北坡,决胜千里的“坑道”在哪里?

答案指向超节点。单芯片性能落后,那就靠系统性能力来弥补,甚至超越。一场决定未来10年甚至20年成败的“冒险”,在华为内部悄然却激烈地启动了。

2022年下半年,华为正式启动了超节点的研发,当时谁也没想到AI的发展会在第二年就迎来了第一个爆发点——ChatGPT发布,并在全球掀起了大模型浪潮。

华为早有预感,作为基础设施提供商,华为的定位就是为各种应用“架桥修路”,从5G到AI算力都是如此,基于这种战略导向,华为云前瞻性地判断出了AI的大发展,并决定要提前投入。

第一个核心问题很快到来,超节点立项的时候,ChatGPT还没发布,大模型还没显露趋势,更没人预料到DeepSeek的爆火,从一个时代进入到另一个时代,就用了不到2年的时间。

超节点项目要面对的第一个选择:超节点是建64个芯片,还是384个芯片?

“在当时的环境下,64卡是够用的,但是我们要布局未来,而且以昇腾AI云服务提供算力服务,可以把超节点算力分开或者合并,做大了没问题,做小了可能就会很被动。”华为一位项目组专家回忆道。

彼时谁也不知道AI的市场什么时候会来,资源有限,当时的昇腾也还不是战略重心。那么,是否要投入一个如此耗费精力,结果又不十分确定的大项目,是不是明智之举?

犹豫的时间并不长,不久之后的2023年初,华为就决策要坚定投入384超节点。

超节点项目涉及到海思、计算和云等多个业务团队。华为云数据中心一位负责人表示,“公司面临困难的时候,大家都想到前线去参战,到芯片的团队作贡献,公司还特别发了个文,号召大家做好自己的本职工作。而超节点项目让我们也成为了参战部队,大家内心非常自豪和兴奋。”

在芯片能力落后于英伟达一代的情况下,华为的策略是用“非摩尔定律补摩尔定律”,单芯片性能不足,就上升到系统层面,因为大模型的训练推理本来就需要算力集群,才能发挥出更高的效果。

时间紧迫,任务艰巨,战略清晰。然而实践,却依然艰难。在落后的情况下,想要追平甚至超越英伟达,意味着需要付出更大的代价。

当华为选择了384卡之后,那就只能采用光模块来通信的技术路线,而不是英伟达NVL72选择的全电通信,这是一个巨大的技术挑战。

业内有消息指出,英伟达此前也考虑过光模块方案,但由于其成本高昂、功耗大且由于所需的光学收发器和两级网络导致不可靠,最终被放弃。于是,英伟达NVL72超节点采用全铜线架构,一经部署便保持固定状态,相对稳定。缺点是:只能部署2米以内,否则速度会大幅衰减,因此可联接芯片数量有限。而光模块则有高带宽和高速率的优势,损耗低,适合长距离传输,因而可联接更多芯片,部署灵活。

但是光模块故障率高,这就需要数据中心有一套高效的故障定位和修复系统,保证超节点长稳运行,不影响客户业务。

不管是千卡集群,还是万卡集群,还是十万卡的集群,华为CloudMatrix 384超节点可实现1分钟故障感知、3分钟故障定界、10分钟故障恢复。

作为挑战者,想实现领先者都实现不了的方案,本是个“妄想”,但是,偏执却常是成功的必要条件。

既然找到了384超节点这条“坑道”,必须一掘到底。

胜利,但没有终点

2025年4月,CloudMatrix 384超节点一经发布,便引起了极大关注,海外的关注度比国内还要高得多。究其原因,就像华为云副总裁黄瑾在最近的华为云AI峰会所说:“CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势,这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。”可以说,华为云以系统架构创新重新定义新一代AI基础设施。 

起初很多人不相信华为能实现这样的突破。海外知名分析机构SemiAnalysis,以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”为题,猜测和分析了CloudMatrix 384超节点的种种细节。

SemiAnalysis得出的结论是,华为的芯片技术落后一代,但其自主研发的云端超级算力解决方案CloudMatrix 384却可领先于英伟达和AMD当前市售产品一代,直接对标英伟达GB200 NVL72系统,在多项关键指标上展现出超越英伟达机架级解决方案的技术优势。

这是工程创新的“奇迹”。可能疯狂就是反复做着同样的事情,却期待不同的结果。

“早期光模块根本不可用”,上述华为云数据中心负责人还记得,光模块试验时的沮丧,“想用非摩尔去解决摩尔定律,结果非摩尔这边的问题反而更大,我们用了最土的办法,每一个光模块的端面全部拍照,再逐个分析,解决了数不清的问题,才实现了较好的稳定性。”

当时,承接超节点落地的华为云数据中心面临着空前压力。

传统的分布式系统本质上是一个松耦合系统,服务器之间一般用25Gbps或100Gbps以太网带宽就可以满足绝大多数应用的需求。而AI时代的应用负载与传统业务有很大不同,当前服务器集群的以太网互联带宽已经越来越难满足前面提到的AI时代的训练、推理等场景的需求。

CloudMatrix 384实现了CPU、NPU、GPU、内存等多样资源的跨服务器统一池化,用“对等架构”替换掉传统的“主从架构”,让多元算力可以直接通信,不需要通过CPU,让系统能够灵活配置跨服务器的多种资源,形成一个大规模的紧耦合的多元算力池化架构,这是AI原生云基础设施最重要的能力。

DeepSeek成为CloudMatrix 384显露峥嵘的一个缩影。DeepSeek使用了大规模专家并行(Expert Parallelism,大EP并行)的MoE模型架构,特点是大模型设置了多个专家来处理问题,1个卡(算力芯片)对应着1个专家,专家越多,效率越高,传统英伟达服务器都是8卡,CloudMatrix 384可以对应384个专家,极大提高专家数量,并且优化协同效率。

硅基流动CEO袁进辉记得,2025年除夕,DeepSeek的爆火快速点燃市场,硅基流动和华为云当即决定要在CloudMatrix 384上跑DeepSeek。

若采用单机部署方案,最终的性能远不如DeepSeek官方公布的部署方案,且至少有数倍成本差距。更具挑战的是,虽然DeepSeek公开了大EP并行方案,但技术难度较大,业内还没有其他团队快速复现这一部署方法。

效率和精度是核心问题,每秒输出的token可能卡在计算或者通信上,模型输出的结果可能和官方不一致,经过双方团队的数月攻关,DeepSeek在CloudMatrix 384终于实现了较好的效果,可比肩H100部署性能。

“首先,他们无视你,而后嘲笑你,接着攻击你,再后来就是你的胜利之日。”

无人知晓华为人如何度过那些漫长黑夜,想来那必定是充满了焦虑、怀疑和不甘。最终华为熬过了一道关卡,CloudMatrix 384超节点不是终点,华为人来不及庆祝,收拾心情整装再出发,奔赴下一个战场。

跪着的都输了,站着才可能赢。

- Advertisement -spot_img
- Advertisement -spot_img

推荐阅读