Meta 发布 SeamlessM4T,这是一种多模态模型,可以无缝翻译和转录语音和文本

小夏 科技 更新 2024-02-01

机器翻译一直是AI研究的重点,毕竟世界上有那么多语言,有无数个单词。 如何连接人类的写作和语言一直是研究者的重点。 过去,机器翻译一直使用类似的查找表格的方式,很多年前,机器翻译是直接将另一种语言的单词与另一种语言的单词对应起来,机器翻译的单词是机器翻译一目了然的。

随着谷歌发布变形金刚模型,机器翻译的力量得到了极大的提升,即使是现在,机器翻译的例子也超过了人类的水平。

Transformer 模型刚发布时,是为机器翻译的小应用而构建的模型,随着注意力机制的普及,Transformer 模型被开发到目标检测和目标分类等任务,Transformer 模型被开发到多模态任务。 随着ChatGPT的发布,变形金刚模型被推到了风口浪尖。

尽管机器翻译是一项利基任务,但对于文本和语音的多模态翻译任务,很少有模型可以涵盖如此多的语音和文本。 SeamlessM4T – 大规模多语言和多模态机器翻译 – 支持多达 100 种语言的语音转语音、语音转文本、文本转语音、文本转文本和自动语音识别的单一模型。 是一种基础的多语言和多任务模型,可无缝翻译和转录语音和文本。

SeamlessM4T 支持:

自动语音识别,近 100 种语言的语音转文本翻译,近 100 种输入输出语言的语音转文本翻译,支持近 100 种输入语言和 35 种(+英语)输出语言,近 100 种语言的文本到文本翻译,近 100 种输入语言和 35 种(+英语)输出语言的文本到语音翻译

对于SeamlessM4T模型,使用多任务Unity模型架构,能够直接生成翻译后的文本和语音。 这个新架构还支持自动语音识别、文本转文本、文本转语音、语音转文本和语音转语音翻译,这些已经是 Unityy 模型的一部分。

多任务 Unity 模型由三个主要组件组成。

文本和语音编码器的任务是识别近 100 种语言的语音输入。 文本解码器将该语音转换为近 100 种文本语言。 使用文本到音频模型将其解码为 36 种语言的语音。

用于 SeamlessM4T 型号的自监督语音编码器 W2V-BERT 20 是 W2V-BERT 的改进版本,它通过分析数百万小时的多语言语音来学习语音的结构和含义。

SeamlessM4T 模型具有基于 NLLB 模型的文本编码器。 它经过训练,可以理解近 100 种语言的文本并相应地生成翻译文本。

像 SeamlessM4T 这样的数据驱动模型通常受益于大量高质量的端到端数据,即语音转文本和语音转语音数据。 仅依靠人工转录和翻译的语音无法应对将语音翻译成 100 种语言的艰巨任务。 Meta AI 为 200 种语言构建了一个新的大规模多语言和模态文本嵌入空间,称为 Sonar,在多语言相似性搜索方面,其性能明显优于 Laser3 或 LabSe 等现有方法。

SeamlessM4T 在近 100 种语言中实现了最先进的结果,并实现了自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音方面的多任务处理。SeamlessM4T的官方**有100多页,作者有几十位,可想而知SeamlessM4T模型的复杂程度。 不过,Meta AI 还是开源了 SeamlessM4T 模型,我们可以直接在 GitHub 上查看 SeamlessM4T 模型的使用情况。

无缝M4T型号,官方公布了2个型号文件。 一个有12亿个参数的中型模型,一个有23亿个参数的大模型,每个模型都包含以下多个任务,我们可以直接使用github的官方**来实现。

speech-to-speech translation (s2st)speech-to-text translation (s2tt)text-to-speech translation (t2st)text-to-text translation (t2tt)automatic speech recognition (asr)pip install .s2st task:m4t_predict s2st --output_path t2tt task:m4t_predict t2tt --src_lang s2tt:m4t_predict s2tt t2st:m4t_predict t2st --src_lang --output_path asr:m4t_predict asr

SeamlessM4T型号需要16kHz的音频文件,官方还提供了**来格式化输入语音。

import torchaudioresample_rate = 16000w**eform, sample_rate = torchaudio.load()resampler = torchaudio.transforms.resample(sample_rate, resample_rate, dtype=w**eform.dtype)resampled_w**eform = resampler(w**eform)torchaudio.s**e(, resampled_w**eform, resample_rate)

格式化语音后,我们可以使用以下**来使用 SeamlessM4T 模型。

import torchimport torchaudiofrom seamless_communication.models.inference import translatortranslator = translator("seamlessm4t_large", "vocoder_36langs", torch.device("cuda:0"), torch.float16)# s2sttranslated_text, w**,sr = translator.predict(, "s2st", )# t2sttranslated_text, w**,sr = translator.predict(, "t2st", ,src_lang=)w**,sr = translator.synthesize_speech(, torchaudio.s**e( ,w**[0].cpu(),sample_rate=sr,)# s2tttranslated_text, _= translator.predict(, "s2tt", )# asrtranscribed_text, _= translator.predict(, "asr", )# t2tttranslated_text, _= translator.predict(, "t2tt", ,src_lang=)

当然,官方的试玩地址已经公布,我们可以直接在官方**上体验到SeamlessM4T。

上面的Hugging Face,SeamlessM4T模型已经可以使用了,在Hugging Face体验环节,我们也可以体验到SeamlessM4T模型,我个人觉得Hugging Face的界面清晰易懂,大家更容易上手。

我们可以根据界面提示的内容来选择我们需要的任务,无论是声音识别、语音转文本、语音转语音、文本转语音和文本转语音、机器翻译等,我们都可以尝试一下。

拥抱脸体验链接官方体验链接开源链接。

相似文章

    谷歌发布了 Gemini,一款性能优于 GPT 4 的多模态大模型!

    近日,谷歌CEO桑达尔?Pichai 和 DeepMind 首席执行官 Damith Hassabis 在谷歌官网上的一篇文章中宣布,谷歌最新的多模态大型模型 gemini版本 正式上线。该模型被称为 Gemini,不仅优于 OpenAIGPT 模型,而且还是最强大 用途最广泛的模型之一。Gemin...

    谷歌发布了 Gemini,一个性能比 GPT 4 更好的多模态大模型?

    Gemini 是 AI 领域的革命性突破,Google 发布了 Gemini 版本 有望在性能上超越 OpenAI 的 GPT 模型,成为目前功能最强大 用途最广泛的模型。Gemini 的独特之处在于它是一个多模态模型,能够同时理解和操作不同类型的信息,例如文本 图像 音频和 Gemini 使用原生...

    谷歌发布了多模态大模型 Gemini,性能超越了 GPT 4 TPU v5p,性能提升了 2 8 倍

    据谷歌称,Gemini Pro 与 OpenAI 一年前发布的 GPT 相同 人工智能模型与声称在八个基准测试中的六个中获胜的产品竞争。而更紧凑的纳米版本 亿和 亿个参数 专门针对 Android 应用开发进行了优化,它们是从更大的 Gemini 模型中提炼出来的。Gemini 声称是目前最强大 最...

    谷歌发布多模态AI大模型,可布局文化媒体三大细分领域

    谷歌最近发布了一款多模态AI模型Gemini,可以同时识别和理解文本 图像 音频和五种类型的信息。受此消息影响,文化传媒板块日掀起涨潮,其中世纪天虹 山东出版 出版传媒 龙传媒等多条 涨停,全板块涨 从两市产业板块资金流向来看,文化传媒板块重拾资金青睐,当日主要资金净流入亿元。盘面显示,日中国 出版...

    多模态大模型陆续发布,AI应用落地迎来加速增长期

    金融投资报记者 林珂 人工智能应用的进步持续加速。谷歌近日发布了多模态AI模型Gemini,可以同时识别和理解文本 图像 音频和五种信息,其中GeminiUltra版本是首款在MMLU任务中表现优于人类专家的大模型,或进一步拓展了多模态大模型的应用场景。开源分析师方光光认为,海外科技巨头基于AI多模...