「老罗,你是在扮演 AI 吧?」
当数字人罗永浩在直播间淡定回答观众,「能喝!我 600 多个月都能喝,谁还不是个宝宝呢?来,下一个!」 时,有用户发出惊叹。
这是普通用户对数字人直播的一次切身感知,几个数字让这种感知变得更深刻:近 7 小时直播,1300 万人观看,GMV 突破 5500 万元。
还有一些数字,透露出了这场酷似真人的直播背后的 AI 能力:AI 生成的近 10 万字直播词,互动量超真人直播间 3 倍,超过 8300 个 AI 动作,1.3 万次知识库调用。
AI 大模型的能力正在从各个生活场景中渗透出来。一个多月前,百度发布了最新的文心大模型 4.5 Turbo 时,以仅为 GPT4.5 价格的 0.2% 在行业中走红;而其在文本理解、文风创作方面的模型能力,则以此次老罗数字人直播的形式,更为直观地展现出来。
「600 多个月的宝宝」、老罗和朱萧木的双人配合、让老罗仰头时出现 「抬头纹」 的指令,全部来自文心 4.5T 的能力支持。而 8300 个 AI 动作背后,则是百度语言、语音、视觉等一系列模型的协同工作。
「应用才是大模型的价值所在」,正如李彦宏此前一直强调的。尽管并未投入通用视频生成模型,但以应用为锚点、聚焦场景发展模型能力,百度的 AI 能力正在透过各种应用显现——在行业还在寻找 AI 落地模式的当下,赫然实现了 「用 AI 创造 GMV」。
四大突破,百度数字人再造一次购物节狂欢
百度罗永浩数字人直播首秀,是今年 618 期间电商行业少有的新鲜事。
实际上,最终的数据表现,证明这不是一次飘在空中的技术实验。单场次最终 5500 万 GMV 超出预期,部分 3C、食品等核心品类商品带货单量超罗永浩 5 月真人首秀同期数据,创下数字人直播带货新纪录。
今年 4 月,在百度 2025 Create 大会上,李彦宏发布了高说服力数字人,将数字人带入 3.0 时代,成为一个新的里程碑。新一代高说服力数字人可以像真人一样,是形神音容高度协调、会思考决策、能协作完成特定任务的超级智能体。
6 月 17 日,在百度 AI DAY 开放日上,百度副总裁、电商总经理平晓黎介绍,在高说服力数字人的基础之上,这一次百度电商打造的业界首个超头主播罗永浩数字人,又一次实现了体验、内容、视觉、效果的四大突破:
一是上线了业界首个双数字人互动直播间,提升营销转化和 C 端体验;
二是基于文心 4.5T 升级,剧本模式让数字人 「懂创作」「有个性」;
三是实现了业内首个多模态高度融合的数字人,让数字人超长待机且稳定可控;
四是攻克多任务复杂场景,数字人带货效果媲美真人。
直播间用户看到的是,罗永浩与助播数字人朱萧木配合自然、频频爆梗。他们不但能做出喝奶茶、拎可乐等细节动作,还能与直播间用户弹幕进行实时互动。
整场直播,AI 调用知识库 1.3 万次,生成 9.7 万字产品讲解内容,双数字人搭档做出超 8300 个动作。
罗永浩数字人:基于文心大模型的最佳实践
近 7 小时直播带货的背后,起到依托作用的是百度领先的大模型多模态能力。
数字人在长时间里保持一致性和高拟真性的表现力,不是单一的模型就可以解决所有问题,百度数字人的整体方案,以语言模型作为核心驱动,生成剧本,并通过剧本来指导语音和视觉进行多模态的协同以及动态交互。
在 6 月 17 日举办的 AI DAY 上,百度集团副总裁吴甜系统性地介绍了多模协同的数字人技术。
百度研制的多模协同的数字人技术,基于文心 4.5T,实现了融合多模规划与深度思考的剧本生成,由剧本驱动数字人多模协同,实现动态决策的实时交互,使数字人的 「神、形、音、容、话」 达到高度统一。最终,呈现出一个具备高表现力、内容吸引人、「人—物—场」 可自由交互的超拟真数字人。
其中相对关键的环节,是剧本生成技术,包含了台词生成、多模驱动和动态交互三部分。
以罗永浩数字人剧本为例,基于文心大模型 4.5 Turbo 生成的剧本,展现了主播的个人特色,具备典型的 「罗氏幽默」 的风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。文本自控的语音合成大模型,可以实现高复原的语音合成能力,再结合直播台词及发音人特征,可以合成风格恰当、自然流畅的声音。
为解决数字人直播双人声音配合的难点,百度采用对话上下文编码器,将对话历史输入和当前对话进行语音合成的统一推理计算,最终实现流畅、自然的双人对话效果。
数字人形象生成以及驱动则通过结合多模态视频理解、跨模态信号生成、视频生成等技术,克服了高可控交互,高精度、长时间一致性保持等难点,实现了高一致性超拟真罗永浩数字人长视频生成。
作为国内最早投入大模型产研的企业之一,百度在芯片、框架、模型、应用四层技术栈布局,AI 大模型领域的技术创新优势明显。
今年上半年,百度连发 4 款基座大模型,文心大模型 4.5/4.5T、文心大模型 X1/X1 Turbo,其中文心 4.5 价格仅为 GPT 的 1%,X1 Turbo 在信通院评测中获得最高评级。
近日,国际权威市场研究和咨询机构 IDC 正式发布 《中国基础大模型产品综合评估报告,2025》,文心大模型在 8 项核心评估维度中斩获 7 项最高分,成为本次评估中唯一获得 7 项满分的大模型。
吴甜认为,罗永浩数字人是基于文心大模型的最佳实践。她表示,百度在大模型技术的持续探索和创新,将为用户带来更优质的体验、为行业带来更具创新力的业务模式。
百度 AI 应用:不止落地,更揽实绩
2025 年,大模型赋能千行百业已成为共识。在 618 的关键节点,百度适时推出罗永浩数字人直播间,并实现了追赶直播带货行业一线水准的 GMV,意味着用户对于数字人的接受度已经被验证。
罗永浩作为超头主播,很大程度上将发挥引领作用,吸引更多超头主播加入,共建慧播星数字人矩阵,中国直播电商的竞争或将迎来新变局。
百度副总裁、电商总经理平晓黎
作为百度的智能电商平台,百度优选已经陆续上线搜索智能导购、商品对比、全网比价等新产品能力,目前,每天有超过 2000 万用户在百度使用智能导购进行购买决策。百度提供的数据显示,使用了数字人直播的商家 GMV 平均提升 62%,降低 80% 的直播运营成本,真正实现 「降本增效双突破」。
在罗永浩所属机构交个朋友代表、公司副总裁吴加录看来,百度的 AI 能力与交个朋友的直播运营经验和供应链资源实现了技术与场景的完美结合,这类 「技术+IP」 的协同模式也将为行业探索智能化转型提供实践样本。
与此同时,百度电商还推出两大计划:「梦蝶计划」 将通过流量扶持,超头主播数字人打造、预算扶持,实现百度优选超头主播的数量倍增;「繁星计划」 则将再次追加 10 万个慧播星数字人,投入 1 亿元数字人消费补贴、千万级别的运营扶持,帮助更多的普通人、中小企业开启数字人直播。这更进一步凸显了百度决心在电商领域深耕的决心。
数字人是百度大模型在多模态能力上的综合体现。数字人聚焦特定垂直领域,相比通用视频生成模型,具有可以更精准地优化模型、追求极致人机交互体验、具备实时交互能力、技术门槛相对较低、应用场景清晰、更容易形成可复制商业模式等优势。
而数字人的成功,其实是百度重投 AI 应用的一个成果落地案例。百度创始人李彦宏曾在多个场合强调,应用才是大模型真正价值所在。所以,无论在研发文心大模型,还是打造作为 AI 应用底座的云平台,百度都是从应用需求出发,让模型成本更低、云平台的端到端性能更强。
可以预见的是,大模型的应用能力不止于单独的 APP 产品,叠加多模态能力之后,AI 还能发挥更大的作用。
今年,百度还上线了无代码生成工具 「秒哒」,让人人都能开发应用,AI 代码辅助工具 「文心快码」 也已经服务了 760 万开发者,为百度贡献了 40% 以上的新增代码。在视觉大模型的落地应用上,百度重投无人驾驶,今年萝卜快跑加速出海,已在全球累计提供服务超 1100 万次。
当行业困于通用模型的同质化竞争中,百度早已经快速地将重心转向了商业场景,以解决各行各业的实际需求为出发点,驱动模型能力的迭代与发展。这种 「应用驱动模型」 的策略,使 AI 技术可以率先转化为可量化的商业价值 (GMV),推动了 AI 行业从技术竞赛向解决实际问题、创造真实商业价值方向加速演进。(本文首发于钛媒体 APP,作者|李程程)