图片系 AI 生成
「火山引擎,你的下一朵云。」 不知何时起,火山引擎的宣传语霸占了一线城市的机场大屏。
商务人士出行必经之路,也是政企业务营销必争之地,与之并列的往往是另外几家云厂或者 IT 企业,有时为了抢一块牌子,或者谁的牌子更靠前一点,还免不了一些暗中较劲。
彼时火山引擎作为后进者,「下一朵云」 的定位正合时宜,到了最近一年,宣传语传播的意思就没那么到位。「还是下一朵么,那不就相当于客户一直没用上么?」,朋友们私下讨论,火山引擎主打的就是 AI 云,没必要再做下一朵云。
也许是火山引擎也意识到了其中的 bug,火山引擎总裁谭待透露,最近已经打算更换 logo 语为 「火山引擎,你的 AI 云。」AI 云,对于所有云厂商来说都是大机会,对于火山引擎尤为特别,在通用计算抢客户,那是存量市场,在智算市场拓新,则是指数级增长市场。
2025 年,谭待用 「激进」 来形容火山引擎的增长目标。虽然谭待没有直接言明,有消息指出,火山引擎今年的营收目标是翻倍,其中很大一部分要靠 AI 相关的云服务来来实现。
火山引擎 「激进」 的目标如何实现,要看两个大方面,其一是模型本身的效价比,在提供第一梯队大模型效果的同时供给极低的价格,其二是卷 Agent,不是只做 Agent 开发工具或者平台,而是补全 Agent 落地生产场景的全链路。
6 月 11 日,字节跳动旗下火山引擎举办 Force 原动力大会,发布豆包大模型 1.6、视频生成模型 Seedance 1.0 pro 等新模型,并升级了 Agent 开发平台等 AI 云原生服务。
豆包 1.6,做更适合 Agent 的大模型
本次大会上,谭待透露,去年 12 月,豆包大模型的日均 tokens 调用量是 4 万亿。今年 3 月份,豆包大模型的日均调用数是 12.7 万亿。而截至今年 5 月底,这个数字已经超过了 16.4 万亿,仍然保持着高速增长。
大模型调用量激增,很大程度来源于非聊天以外的新场景。如果对比今年 5 月份和去年 12 月的火山引擎 Tokens 消耗构成数据,可以看到,随着深度推理模型的发布,AI 工具的 Tokens 消耗在快速增长,5 个月增长了 4.4 倍。
其中 AI 搜索增长 10 倍,AI 编程增长了 8.4 倍,视觉理解模型则是另一个助推器。比如,K12 的在线教育,由于 VLM 模型能力不断提升,Tokens 消耗 5 个月增长了 12 倍,而新出现的智能巡检,视频检索等数个场景也快速实现日均百亿 tokens 的突破。
在企业级市场,大模型的应用也在不断深化,遍布消费电子、汽车、金融和教育等行业,以在金融行业为例,火山引擎为客户提供智能展业、投顾、投研等大模型应用方案,已服务华泰证券、国信证券等数十家券商和基金公司,招商银行、浦发、民生等 70% 的系统重要性银行。
「做好 Agent 最重要的是底层模型,一定是一个多模态深度思考的模型,如果不是基于多模态深度思考模型,Agent 能做出来的事情很有限而且很初级,豆包 1.6 就把这件事情做好了。」 谭待说。
本次升级的豆包 1.6 系列由三个模型组成,分别是 doubao-seed-1.6;doubao-seed-1.6-thinking 和 doubao-seed-1.6-flash。
doubao-seed-1.6 是 all-in-one 的综合模型,支持深度思考,多模态理解,图形界面操作等多项能力。特别是在深度思考方面,支持多种模式,开发者可以选择关闭深度思考、开启深度思考和自适应思考三种方式。
其中自适应思考下,模型可以根据 prompt 难度自动决定是否开启 thinking,在提升效果情况下,大幅减少 tokens 开销。doubao-seed-1.6 也是国内首个支持 256K 上下文的思考模型,这对于复杂 agent 的构建来说非常重要。
doubao-seed-1.6-thinking,则是 1.6 系列在深度思考方面的强化版本,它只支持深度思考模式, 但在 coding、math、 逻辑推理等基础能力上都有进一步提升,同样也支持 256K 上下文。
doubao-seed-1.6-flash,则是 1.6 系列的极速版本。1.6 flash 同样支持深度思考,多模态理解,256K 窗口;但延迟极低,tpot 仅需 10ms,适用于延迟敏感场景。flash 仍然有不错的性能,文本理解能力超过 doubao 1.5 lite,视觉理解能力可以比肩其他旗舰模型。
此外,豆包视频生成模型 Seedance 1.0 pro 也正式亮相。该模型支持文字与图片输入,可生成多镜头无缝切换的 1080P 高品质视频,主体运动稳定性与画面自然度较高。在国际知名评测榜单 Artificial Analysis 上,Seedance 在文生视频、图生视频两项任务上均排名首位,超越 Veo3、可灵 2.0 等优秀模型。
降价,带着一点激进
云计算行业的价格战并不少见,数年前行业也曾掀起此起彼伏的低价竞争,当利润空间被极致压缩,价格战变成恶意降价,云计算的商业生态也就失去正向循环,行业都不想再次重演这一幕。
火山引擎没有经历过上一次通算时代的价格战,但是谭待并不想用低价卷市场。在他看来,降价是技术和规模的体现。
在技术层面,目前火山引擎降本很大程度都是在工程上的优化;在规模层面,火山引擎的市场规模不算第一梯队,但是距离头部也很近,如果算上字节跳动集团海量的用云规模,规模效应已经能够带来足够的降本空间。
值得一提的是,火山引擎将用户成本拆开来看,给出了针对性降本的策略。谭待指出,首先,大模型按 tokens 来收费,市面上有不同类型的模型,支持深度思考的,不支持深度思考的,支持多模态的等等,但实际上对于同结构同参数的模型而言,对成本真正影响的是上下文长度长度,而不是是否开启了思考和多模态功能。」
其次,上下文长度对成本的影响是累加的,上下文越长,或者简单说输入越长,每一个输出的成本就会递增累加。
最后,模型输入输出长度的分布是有一定规律的。当前,大部分的调用,其输入范围都在 32K 以内。
基于这些观察,如果大模型能在推理层做好按照上下文长度进行调度,就能够让占大比例的模型请求,实现更低的成本和更快的速度。
豆包 1.6 的的定向降价也以此为基础,首创按 「输入长度」 区间定价,深度思考、多模态能力与基础语言模型统一价格。在企业使用量最大的 0-32K 输入区间,豆包 1.6 的输入价格为 0.8 元/百万 tokens、输出 8 元/百万 tokens,综合成本只有豆包 1.5 深度思考模型或 DeepSeek R1 的三分之一。Seedance 1.0 pro 模型每千 tokens 仅 0.015 元,每生成一条 5 秒的 1080P 视频只需 3.67 元,为行业最低。
谭待表示,Agent 的 Token 消耗量很大,以前 AI 大模型最早的应用就是聊天,一个人和模型聊一个小时也就是 20 多万 Token,现在 Agent 做一个复杂任务就要消耗 20 万 Token。深度思考、多模态和工具调用等模型能力提升,是构建 Agent 的关键要素,同时,由于 Agent 每次执行任务都会消耗大量 tokens,模型使用成本也要降下来,才能推动 Agent 的规模化应用。
此外,为了更好地支持 Agent 开发与应用,火山引擎 AI 云原生全栈服务升级,发布了火山引擎 MCP 服务、PromptPilot 智能提示工具、AI 知识管理系统、veRL 强化学习框架等产品,并推出多模态数据湖、AICC 私密计算、大模型应用防火墙,以及一系列 AI Infra 套件。
谭待认为,技术主体经历了三个时代变化,AI 时代会推动开发范式与技术架构全面升级。他说:「PC 时代主体是 Web,移动时代是 APP,AI 时代则是 Agent。Agent 能够自主感知、规划和反思,完成复杂任务。从被动工具转变为主动执行者。豆包大模型和 AI 云原生将持续迭代,助力企业构建和大规模应用 Agent。」(本文首发于钛媒体 APP,作者 | 张帅,编辑 | 盖虹达)