文本自动生成6种语音，Meta推出多任务语音模型——VoiceboxAIGC影视动画培训_Blender培训_AI室内设计培训_AI影视剪辑培训_AIGC视觉设计培训_C4D三维动画培训_AI漫剧培训_3D打印培训_UXD设计培训

近日，Meta（Facebook、Instagram等母公司）推出了可执行多种任务的生成式语音模型——Voicebox。

Voicebox支持文本自动生成英语、法语、德语、西班牙语、波兰语或葡萄牙语6种语音，还提供去除噪声、语音编辑、风格转换和多样化语音合成功能。总之，这是一个开创性语音模型，属于语音模型界的“ChatGPT”。

Voicebox的主要用途：帮助媒体人轻松编辑音轨，例如，录音时背景出现狗叫的声音，通过Voicebox轻松去除；语音克隆，即便无法说话的人“啊~啊”两声，Voicebox仅需2秒钟就能克隆其声音，应用在文本转语音功能；

Voicebox可生成6种自然语言的语音，所以，该功能可用于生成语音训练数据，帮助企业、个人开发者更好的训练语音助手模型。

目前，Meta在大语言、扩散、视觉切割、语音等领域，发布了很多功能强大的模型，例如，其开源的LLaMA已成为类ChatGPT开源模型中应用最多、影响力最大的模型之一。

前不久在Meta的高层会议上，扎克伯格表示，未来Meta的Instagram、Whatsapp、Messenger等招牌产品都会引入生成式AI功能，为用户提供文本生成、图片生成、AI聊天等服务，加大对生成式AI的布局赶上微软、谷歌的脚步。

Voicebox突破技术限制，使用全新方法

多数传统的语音合成器需要使用单一、干净的音乐数据用于训练，这就有两个很大的局限性。第一，干净的音乐数据获取较难，并且数量有限；第二，由于训练数据有限，所以输出的语音模型过于单调枯燥。

为了突破这些技术限制，Voicebox是基于Flow Matching模型构建而成，可以学习文本和语音之间高度不确定的映射联系。

不确定性映射很有用，使得Voicebox 能够从不同的语音数据中学习，而无需仔细标记这些变化。也就是说，Voicebox 可以在更大规模的数据集上进行训练。

Voicebox使用超过5万小时的语音录音和来自英语、法语、西班牙语、德语、波兰语和葡萄牙语，公共领域有声读物的转录音频来训练 Voicebox。

Voicebox可以在给定周围语音和片段的转录本时，预测语音片段。在学会从上下文中填充语音后就能用于多种语音生成任务，例如，在录音中间生成缺失部分，使得用户无需重新创建整个输入。

Voicebox功能介绍

文本到语音合成：用户使用长度仅为2秒的输入音频样本，Voicebox 就可以自动匹配样本的音频风格并将其用于文本到语音生成。该功能可以帮助很多无法说话的聋哑人，实现“说话”。

跨语言风格生成：给定一个语音样本和一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本，Voicebox 都能以该语言读出该文本。该功能可以帮助人们用自己的语音进行真实地交流，即便他们来自不同的国家、地区。

语音降噪和编辑：Voicebox 的上下文学习能力，可以在音频录音中生成无缝衔接的语音片段。例如，可以用于被噪声破坏的语音、纠正说错的文本等。所以，该功能可以帮助专业媒体人更快的编辑音频。

多样化语音采样：从多样化的自然数据中学习后，Voicebox 可以生成贴近现实说话的声音，并且支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言。所以，可用于生成语音数据，可帮助用户更好地训练语音助手模型。

Meta表示，由于语音模型存在滥用的风险，会被非法人员用于电信诈骗等，所以，目前不会分享Voicebox模型和代码。但已经开放了Voicebox的论文，并且介绍了Meta如何构建一个高效的分类器，该分类器可以区分使用 Voicebox 生成的真实语音和音频。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。