
ChatTTS-免费开源的用于对话场景的语音合成模型
ChatTTS是一个专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。,ChatTTS是一个专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。
Voicebox 能够在六种语言中合成语音,消除瞬态噪声,编辑内容,在语言之间转移音频风格,并生成多样的语音样本,Voicebox 能够在六种语言中合成语音,消除瞬态噪声,编辑内容,在语言之间转移音频风格,并生成多样的语音样本
Voicebox 是由 Meta AI 研究团队开发的一款领先的语音生成模型。Voicebox 能够在六种语言中合成语音,消除瞬态噪声,编辑内容,在语言之间转移音频风格,并生成多样的语音样本。此外,它生成语音的速度比最先进的自回归模型快 20 倍。
官网:https://voicebox.metademolab.com/
Voicebox 是一个非自回归的流匹配模型,训练用于在给定音频上下文和文本的情况下填充语音。我们在 60K 小时的数据上训练了一个仅英语的 Voicebox,并在覆盖六种语言(英语、法语、德语、西班牙语、波兰语和葡萄牙语)的 50K 小时的数据上训练了一个多语言版本。
Voicebox 可以通过上下文学习来执行没有明确训练的任务。它比自回归模型更灵活,因为它可以根据过去和未来的上下文进行条件化。我们展示了 Voicebox 可以用于单语和跨语言的零射击文本到语音合成、风格转换、瞬态噪声去除、内容编辑和多样性样本生成。