成为顶级实时翻译大师,Meta开源通用语言翻译模型无缝衔接

小夏 科技 更新 2024-01-27

Meta 研究人员周四宣布,他们已经开发了一套名为“无缝通信”的新人工智能模型,旨在实现更自然、更真实的跨语言交流,从根本上使通用语音翻译器的概念成为现实。 同时,Meta AI 也发布了相关研究**和数据。

主要模型称为 SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2,主要由三个子模型涵盖:SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2。 无缝地将所有功能组合到一个统一的系统中。 根据研究**,无缝是“第一个实时解锁富有表现力的跨语言交流的开放系统”。

研究**:拥抱脸:

github:

无缝翻译器代表了使用人工智能进行博客交流的新领域。 它结合了三个复杂的神经网络模型,可实现 100 多种口语和书面语言之间的实时翻译,同时保留说话者声音的声乐风格、情感和韵律。

seamlessexpressive在语言之间翻译时,专注于保留说话者声音的声乐风格和情感细微差别。 如**所述,“翻译应捕捉人类表达的细微差别。 虽然现有的翻译工具能够熟练地捕捉对话内容,但它们通常依赖于单调的机器人文本转语音系统进行输出。 ”

为了保留说话者在不同语言中的语音风格,研究人员将富有表现力的编码器整合到 SeamlessM4T V2 基础模型中。 此过程可确保单元生成由预期的语音速度和节奏引导。 此外,将 SeamlessM4T V2 中的 Hifi-Gan 单元声码器替换为以源语音为条件的富有表现力的单元到语音发生器,可以无缝传输音调、情感表达和声音风格。

seamlessstreaming可以进行近乎实时的翻译,延迟仅为两秒左右。 据研究人员称,这是“第一个大规模的多语言模型”,可以提供近100种口语和书面语言的如此快速的翻译速度。 SeamlessStreaming 能够智能地决定何时有足够的上下文来输出下一个目标文本或语音片段。 它通过 习 读写策略来实现这一点,该策略确定是否应该“写入”并根据音频输入的一部分生成输出,或者“读取”并继续等待更多输入。 该模型会自动适应不同的语言结构,从而在许多不同的语言对上实现更强的性能。

第三个模型,seamlessm4t v2,这是其他两个模型的基础。 它是去年发布的原始SeamlessM4T型号的升级版。 新架构“提高了文本和语音输出之间的一致性,”**说。

升级后的 SeamlessM4T v2 具有非回归文本到单元格解码器。 w2v-bert 2.0 编码器使用 450 万小时的语音数据进行训练,而之前的版本为 100 万小时。 此外,SeamlessM4T v2 补充了 SeamlessAlign 的更多数据,适用于资源不足的语言。

SeamlessM4T V2 使用自动化指标(BLEU、ASR-BLEU、BLASER 2 等)对所有任务和语言进行了全面评估,其性能明显优于以前最先进的模型。 它还测试了稳健性、偏差和致幻毒性。

“总而言之,无缝让我们对将通用语音翻译器从科幻**概念转变为现实世界技术所需的技术基础有了批判性的理解,”研究人员写道。 ”

这些模型的功能可实现基于语音的全新通信体验,从使用智能眼镜的实时多语言对话到自动语音**和播客。 研究人员表示,它还可以帮助打破移民和其他沟通困难者的语言障碍。

“通过公开发布我们的工作,我们希望研究人员和开发人员能够通过构建旨在在日益相互联系和相互依存的世界中弥合多语言联系的技术来扩大我们贡献的影响,”**说。 ”

然而,研究人员承认,该技术也可能被滥用于语音网络钓鱼诈骗、深度伪造和其他有害应用程序。 为了促进该模型的安全和负责任的使用,他们实施了多项措施,包括音频水印和新技术,以减少幻觉的毒性输出。

这些无缝通信模型在 Hugging Face 和 GitHub 上公开提供。

该集合包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及随附的元数据。

通过免费提供这些最先进的自然语言处理模型,Meta 希望使研究人员和开发人员能够在这项工作的基础上扩展这项工作,以帮助将不同语言和文化的人们联系起来。

在激烈的生成式 AI 革命中,Meta 一直致力于开源自己的大模型研究,包括其顶级大模型 Llama、Llama2 等。 这种开源重申了 Meta 的 AI 开发方法,并为研究界提供了宝贵的新资源。

“总的来说,无缝可能带来的多维体验可能会导致机器辅助跨语言交流方式发生巨大变化,”研究人员总结道。 ”

引用:

相似文章

    关晓彤化身天使,暖人心!

    在这个充满爱的日子里,我们的运气简直是壮观的!就在今天,我们有幸迎来了一个振奋人心的消息 关晓彤的天使形象成功了!这一消息一经发布,在网络上引发了热议 人们对她的爱和善良充满了期待。关晓彤,这位以深情演技和阳光形象赢得无数粉丝喜爱的女演员,每次出场都能掀起一波热潮。每次出现,她都洋溢着青春的朝气和热...

    智慧工地项目实时监控安全预警平台源码

    智慧工地云平台 PC 手机 平板的源代码。智慧工地平台主要利用智能终端 物联网 移动互联网等技术,实时采集施工过程数据。人工智能技术对施工过程数据进行实时分析,自动锁定施工现场质量安全隐患并进行预警,预警信息直接自动反馈给施工现场相关负责人和主管部门,并根据问题的不同层次自动触发现场处置流程。智慧工...

    99元国产ARM平台实时系统,对行业的意义是什么?

    在工业应用中,从信号输入到任务处理的时间确定性一般需要满足一定的要求,越来越多的设备需要更低的任务延迟和更小的抖动要求。例如,机械臂在加工时,如果控制命令的更新时间大于ms,机械臂可能无法停在准确的位置,从而降低产品的加工精度。实时操作系统最重要的功能是系统中的实时任务必须在可预测的时间范围内执行。...

    实时采集监控数据,掌握企业生产动态

    实时采集监控数据,掌握企业生产动态 随着科学技术的发展,实时采集和监控数据已成为现代企业生产中不可或缺的一部分。通过实时采集监控数据,企业可以更好地掌握生产动态,优化生产流程,提高生产效率,降低生产成本。本文将介绍实时采集和监控数据的重要性 原理和方法,以帮助企业更好地掌握生产动态。.实时采集监测数...

    实时云渲染部署数字孪生图形需求

    在数字孪生项目中,云渲染技术已成为重要工具。它允许用户在不同的终端上使用它,包括电脑 手机 平板电脑 智能屏幕 电视和电视盒等。对于用户来说,使用云渲染就像打开网页一样简单无需学习习或安装其他程序,只需单击即可 而且,在良好的网络条件下,云渲染还可以突破时间和空间的限制。自疫情以来,越来越多的数字孪...