英伟达推出了一款新的AI语音识别模型Parakeet，据称该模型比Whisper更好

小夏科技更新 2024-02-01

突出：NVIDIA NEMO 引入了长尾小鹦鹉 ASR 模型，以实现卓越的语音识别准确性。

长尾小鹦鹉模型基于 RNN 换能器和连接主义时间分类解码器，具有 06-1.1 亿个参数。

长尾小鹦鹉模型在各种基准数据集上表现良好，适用于不同语音上下文中的语音转录。

网站管理员之家（chinaz.）。com）1月8日新闻：领先的开源对话式 AI 工具包 NVIDIA NEMO 宣布推出长尾小鹦鹉 ASR 模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以极高的准确性转录英语口语。长尾小鹦鹉 ASR 模型与 Suno人工智能的协同发展是语音识别领域的重大突破，为更自然、更高效的人机交互铺平了道路。

根据开发人员的说法，这些模型对 ** 和静音等非语音片段具有鲁棒性，并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

NVIDIA 宣布了四款长尾小鹦鹉模型，它们基于 RNN 传感器连接主义时间分类解码器，并且具有 06-1.1 亿个参数。它们能够处理各种音频环境，并且在仅 64,000 小时的数据集上进行训练后，在基准数据集上实现了出色的单词错误率（WER）性能，优于以前的模型。

parakeet rnnt1.1b - 最佳识别精度，推理速度适中。当需要最准确的转录时，它最适用。

parakeet ctc1.1b - 推理速度快，识别准确率高。推理的准确性和速度之间有很好的平衡。

parakeet rnnt0.6b - 识别准确率高，推理速度快。使用有限的资源进行大规模推理。

parakeet ctc0.6b - 最快和中等准确的识别。在转录速度至关重要的情况下非常有用。

长尾小鹦鹉模型不受非语音片段的影响，包括**和静音，有效防止虚构转录的生成。 “长尾小鹦鹉（Parakeet）”基于 NVIDIA NEMO 工具包构建，专注于用户友好性和灵活性。预先训练的检查点可立即使用，从而可以轻松地将模型集成到您的项目中。无论您是在寻找动态推理功能，还是针对特定任务进行微调，NEMO 都能提供强大而直观的框架来充分发挥模型的潜力。

长尾小鹦鹉模型的主要优点包括：

最先进的准确性：在广泛的音频**和域上具有出色的 WER 性能，并且对非语音片段具有很强的鲁棒性。

不同型号尺寸：06b 和 1两个 1b 参数模型，用于对复杂语音模式的强大理解。

开源和可扩展：它基于 NVIDIA NEMO 构建，可以无缝集成和定制。

预训练检查点：即插即用模型，可用于推理或微调。

许可：根据 CC-by-4通过0许可证发布，模型检查点可用于任何商业应用。

长尾小鹦鹉是对话式人工智能发展的重要一步。其卓越的准确性与NEMO提供的灵活性和易用性相结合，使开发人员能够创建更自然、更直观的语音应用程序。从提高虚拟助手的准确性到实现无缝实时通信，可能性是无穷无尽的。长尾小鹦鹉系列模型在HuggingFace排行榜上取得了最先进的成绩。用户可以自己尝试 parakeet-rnnt-11b，并在 gRadio 演示中使用。要在本地访问模型并探索工具包，请访问 NVIDIA Nemo 的 GitHub 页面。

官方博客**：

英伟达推出了一款新的AI语音识别模型Parakeet，据称该模型比Whisper更好

相似文章

AI热潮下的英伟达新半导体皇帝

英伟达有些恐慌，华为AI芯片崛起，百亿美元市场岌岌可危

中国AI芯片追赶英伟达可能并不难，但CUDA生态确实很难

中国的AI芯片赶上英伟达可能并不难，但CUDA生态系统才是真正的挑战

在英伟达宣布华为的AI芯片构成挑战后，出现了一个奇怪的现象