阶跃 StepAudio 2.5 TTS 上线！人人都能当配音演员了！！

STEPFUN

今天，阶跃正式发布新一代语音生成模型 StepAudio 2.5 TTS！

围绕全局语境控制、文中语境控制、零样本复刻与全音色控制三项核心能力， StepAudio 2.5 TTS 让语音生成更自然、更灵活也更有表现力。

全局语境控制：支持自定义整段语音的情绪基调、角色状态与场景氛围，使表达更统一、更连贯。
文中语境控制：不仅能控制一句话怎么说，还能进一步调节语气、节奏、停顿、轻重变化、角色感和场景感，让声音表达更有分寸。
零样本复刻与全音色控制：在保留目标音色特征的同时，支持对情感、风格和表达方式进行灵活调节，让同一种声音说出更多不同感觉。

更重要的是，想要灵活调控 StepAudio 2.5 TTS，上手方式并不复杂，只要你“说出需求”就行。上手更简单，结果也更贴近预期。

我们始终认为，语音合成不止于“复现声音”，更在于“创造表达”。无论是角色配音、有声内容创作，还是智能语音交互，StepAudio 2.5 TTS 都能帮助开发者和创作者更高效地生成自然、细腻、接近真人的语音内容。

目前 StepAudio 2.5 TTS 已全量上线「阶跃星辰开放平台」和 Step Plan，欢迎大家前往体验！

阶跃星辰开放平台：https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts

Step Plan：https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api

1、全局语境控制

StepAudio 2.5 TTS 不再依赖传统标签或短语组合式控制，而是支持用自然语言为整段语音设定基调。相比标签/短语组合，自然语言控制更灵活、更精准。比如标签只能表达“悲伤”，自然语言却可以进一步描述为“克制的悲伤、没有哭腔、轻轻发颤”。

因此，同一音色、同一段文本仅通过改变全局语境引导，合成语音的情绪就能从“生气”升级为多层次的“抓狂+焦虑+急切+解决问题”情绪。

2、文中语境控制

更进一步，StepAudio 2.5 TTS 支持使用自然语言控制语音的每一处细节。无需依赖预设标签或关键词，即可用直观的描述定义情绪、语气、节奏、重音、停顿、呼吸感、角色特质与场景氛围。还能精准设定情绪强度、层次变化、句间递进、人物关系与表达意图，甚至细致刻画角色的心理活动、内心独白、潜台词流动与思绪转折。