Meta 研究人员周四宣布,他们已经开发了一套名为“无缝通信”的新人工智能模型,旨在实现更自然、更真实的跨语言交流,从根本上使通用语音翻译器的概念成为现实。 同时,Meta AI 也发布了相关研究**和数据。
主要模型称为 SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2,主要由三个子模型涵盖:SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2。 无缝地将所有功能组合到一个统一的系统中。 根据研究**,无缝是“第一个实时解锁富有表现力的跨语言交流的开放系统”。
研究**:拥抱脸:
github:
无缝翻译器代表了使用人工智能进行博客交流的新领域。 它结合了三个复杂的神经网络模型,可实现 100 多种口语和书面语言之间的实时翻译,同时保留说话者声音的声乐风格、情感和韵律。
seamlessexpressive在语言之间翻译时,专注于保留说话者声音的声乐风格和情感细微差别。 如**所述,“翻译应捕捉人类表达的细微差别。 虽然现有的翻译工具能够熟练地捕捉对话内容,但它们通常依赖于单调的机器人文本转语音系统进行输出。 ”
为了保留说话者在不同语言中的语音风格,研究人员将富有表现力的编码器整合到 SeamlessM4T V2 基础模型中。 此过程可确保单元生成由预期的语音速度和节奏引导。 此外,将 SeamlessM4T V2 中的 Hifi-Gan 单元声码器替换为以源语音为条件的富有表现力的单元到语音发生器,可以无缝传输音调、情感表达和声音风格。
seamlessstreaming可以进行近乎实时的翻译,延迟仅为两秒左右。 据研究人员称,这是“第一个大规模的多语言模型”,可以提供近100种口语和书面语言的如此快速的翻译速度。 SeamlessStreaming 能够智能地决定何时有足够的上下文来输出下一个目标文本或语音片段。 它通过 习 读写策略来实现这一点,该策略确定是否应该“写入”并根据音频输入的一部分生成输出,或者“读取”并继续等待更多输入。 该模型会自动适应不同的语言结构,从而在许多不同的语言对上实现更强的性能。
第三个模型,seamlessm4t v2,这是其他两个模型的基础。 它是去年发布的原始SeamlessM4T型号的升级版。 新架构“提高了文本和语音输出之间的一致性,”**说。
升级后的 SeamlessM4T v2 具有非回归文本到单元格解码器。 w2v-bert 2.0 编码器使用 450 万小时的语音数据进行训练,而之前的版本为 100 万小时。 此外,SeamlessM4T v2 补充了 SeamlessAlign 的更多数据,适用于资源不足的语言。
SeamlessM4T V2 使用自动化指标(BLEU、ASR-BLEU、BLASER 2 等)对所有任务和语言进行了全面评估,其性能明显优于以前最先进的模型。 它还测试了稳健性、偏差和致幻毒性。
“总而言之,无缝让我们对将通用语音翻译器从科幻**概念转变为现实世界技术所需的技术基础有了批判性的理解,”研究人员写道。 ”
这些模型的功能可实现基于语音的全新通信体验,从使用智能眼镜的实时多语言对话到自动语音**和播客。 研究人员表示,它还可以帮助打破移民和其他沟通困难者的语言障碍。
“通过公开发布我们的工作,我们希望研究人员和开发人员能够通过构建旨在在日益相互联系和相互依存的世界中弥合多语言联系的技术来扩大我们贡献的影响,”**说。 ”
然而,研究人员承认,该技术也可能被滥用于语音网络钓鱼诈骗、深度伪造和其他有害应用程序。 为了促进该模型的安全和负责任的使用,他们实施了多项措施,包括音频水印和新技术,以减少幻觉的毒性输出。
这些无缝通信模型在 Hugging Face 和 GitHub 上公开提供。
该集合包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及随附的元数据。
通过免费提供这些最先进的自然语言处理模型,Meta 希望使研究人员和开发人员能够在这项工作的基础上扩展这项工作,以帮助将不同语言和文化的人们联系起来。
在激烈的生成式 AI 革命中,Meta 一直致力于开源自己的大模型研究,包括其顶级大模型 Llama、Llama2 等。 这种开源重申了 Meta 的 AI 开发方法,并为研究界提供了宝贵的新资源。
“总的来说,无缝可能带来的多维体验可能会导致机器辅助跨语言交流方式发生巨大变化,”研究人员总结道。 ”
引用: