豆包音频模型来了：一句话生成影视级音频

字节又在大模型上放大招了。

火山引擎昨天发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），核心卖点很直接：一条Prompt，直接生成完整音频作品。对白、音效、背景音乐，全搞定。

这玩意儿能干啥？

过去做音频内容，流程是这样的：

现在？你写一段描述，模型直接输出成品。有声剧、播客、品牌音频，都能一键搞定。

做长音频最头疼的是角色声音前后不一致。第1分钟和第10分钟，同一个角色听起来像两个人。

豆包这个模型解决了这个问题：在长音频中保持音色高度统一。当前单次支持2分钟，可以通过多次延长保持一致性。有声书、长剧集这些场景都能用。

还有一个有意思的功能："一声多角"。同一个音色，在不同角色设定下能呈现差异化表达。这给创作者留了很大发挥空间。

目前火山方舟已开启API邀测。个人用户在体验中心有30分钟创作额度。模型也即将上线剪映、即梦、番茄这些产品。

说实话，音频生成这块一直是大模型的短板。视频生成卷得热火朝天，但音频侧的突破相对少。豆包这次算是补了一块重要拼图。

对创作者来说，这绝对是好事。音频后期门槛高、耗时长，现在AI能帮你省掉大部分脏活累活。当然，专业音频制作人可能会担心饭碗——但我觉得，工具进化从来不是坏事，关键是你怎么用它。

来源：AIbase | 2026-06-23