字节跳动旗下 AI 研究团队 Seed 发布了新的语音模型 Seeduplex,同步完成了在豆包 App 的全量上线 … 模型在说话的同时,持续处理麦克风输入,实时判断哪些声音是用户在对它说话,哪些是背景噪音,哪些是停顿思考而不是说完了 … 代表是法国 AI 实验室 Kyutai 在 2024 年 9 月发布的开源模型 Moshi,用同一个底层模型在并行流上同时对用户音频和系统音频建模,并引入「内心独白」机制,在生成音频的同时预测对齐文本作为内部推理层,顺带获得了流式转写能力。
字节跳动旗下 AI 研究团队 Seed 发布了新的语音模型 Seeduplex,同步完成了在豆包 App 的全量上线 … 模型在说话的同时,持续处理麦克风输入,实时判断哪些声音是用户在对它说话,哪些是背景噪音,哪些是停顿思考而不是说完了 … 代表是法国 AI 实验室 Kyutai 在 2024 年 9 月发布的开源模型 Moshi,用同一个底层模型在并行流上同时对用户音频和系统音频建模,并引入「内心独白」机制,在生成音频的同时预测对齐文本作为内部推理层,顺带获得了流式转写能力。