今天,阶跃正式发布新一代语音生成模型 StepAudio 2.5 TTS!
围绕全局语境控制、文中语境控制、零样本复刻与全音色控制三项核心能力, StepAudio 2.5 TTS 让语音生成更自然、更灵活也更有表现力。
-
全局语境控制:支持自定义整段语音的情绪基调、角色状态与场景氛围,使表达更统一、更连贯。
-
文中语境控制:不仅能控制一句话怎么说,还能进一步调节语气、节奏、停顿、轻重变化、角色感和场景感,让声音表达更有分寸。
-
零样本复刻与全音色控制:在保留目标音色特征的同时,支持对情感、风格和表达方式进行灵活调节,让同一种声音说出更多不同感觉。
更重要的是,想要灵活调控 StepAudio 2.5 TTS,上手方式并不复杂,只要你“说出需求”就行。上手更简单,结果也更贴近预期。
我们始终认为,语音合成不止于“复现声音”,更在于“创造表达”。无论是角色配音、有声内容创作,还是智能语音交互,StepAudio 2.5 TTS 都能帮助开发者和创作者更高效地生成自然、细腻、接近真人的语音内容。
目前 StepAudio 2.5 TTS 已全量上线「阶跃星辰开放平台」和 Step Plan,欢迎大家前往体验!
-
阶跃星辰开放平台:https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts
-
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
1、全局语境控制
StepAudio 2.5 TTS 不再依赖传统标签或短语组合式控制,而是支持用自然语言为整段语音设定基调。相比标签/短语组合,自然语言控制更灵活、更精准。比如标签只能表达“悲伤”,自然语言却可以进一步描述为“克制的悲伤、没有哭腔、轻轻发颤”。
因此,同一音色、同一段文本仅通过改变全局语境引导,合成语音的情绪就能从“生气”升级为多层次的“抓狂+焦虑+急切+解决问题”情绪。
更进一步,StepAudio 2.5 TTS 支持使用自然语言控制语音的每一处细节。无需依赖预设标签或关键词,即可用直观的描述定义情绪、语气、节奏、重音、停顿、呼吸感、角色特质与场景氛围。还能精准设定情绪强度、层次变化、句间递进、人物关系与表达意图,甚至细致刻画角色的心理活动、内心独白、潜台词流动与思绪转折。
3、适配多场景、多人设
StepAudio 2.5 TTS 支持 Zeroshot TTS,任意用户音色无需重新训练,即可满足从沉浸式有声书到专业影视配音全场景高品质语音生成需求。同时也可为每个音色构建完整的“声音角色档案”,实现从声纹到人格的全面提升。
多场景适配
通过多场景适配能力,我们将专业语音制作的门槛不断降低,让每个用户都能获得“量身定制”的场景化语音解决方案。
丰富人设适配
我们不是简单复刻声音,而是让每个声音都能拥有深度、让每个角色都能真正“活”起来,为沉浸式内容创作提供前所未有的可能性。
目前 StepAudio 2.5 TTS 已全量上线,欢迎使用:
-
阶跃星辰开放平台:
https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts
-
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
-
体验中心:https://www.stepfun.com/studio/audio
-
Demo Page:https://stepaudiollm.github.io/step-audio-2.5-tts/
本文转载自@阶跃星辰公众号
原文地址:https://mp.weixin.qq.com/s/8SKwa5105umsFeIiUz-eEg
