突出:NVIDIA NEMO 引入了长尾小鹦鹉 ASR 模型,以实现卓越的语音识别准确性。网站管理员之家 (chinaz.)。com)1月8日新闻:领先的开源对话式 AI 工具包 NVIDIA NEMO 宣布推出长尾小鹦鹉 ASR 模型系列,这是一系列最先进的自动语音识别 (ASR) 模型,能够以极高的准确性转录英语口语。 长尾小鹦鹉 ASR 模型与 Suno人工智能的协同发展是语音识别领域的重大突破,为更自然、更高效的人机交互铺平了道路。长尾小鹦鹉模型基于 RNN 换能器和连接主义时间分类解码器,具有 06-1.1 亿个参数。
长尾小鹦鹉模型在各种基准数据集上表现良好,适用于不同语音上下文中的语音转录。
根据开发人员的说法,这些模型对 ** 和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。 它们还通过预先训练的控制点提供用户友好的集成到项目中。
NVIDIA 宣布了四款长尾小鹦鹉模型,它们基于 RNN 传感器连接主义时间分类解码器,并且具有 06-1.1 亿个参数。 它们能够处理各种音频环境,并且在仅 64,000 小时的数据集上进行训练后,在基准数据集上实现了出色的单词错误率 (WER) 性能,优于以前的模型。
parakeet rnnt1.1b - 最佳识别精度,推理速度适中。 当需要最准确的转录时,它最适用。
parakeet ctc1.1b - 推理速度快,识别准确率高。 推理的准确性和速度之间有很好的平衡。
parakeet rnnt0.6b - 识别准确率高,推理速度快。 使用有限的资源进行大规模推理。
parakeet ctc0.6b - 最快和中等准确的识别。 在转录速度至关重要的情况下非常有用。
长尾小鹦鹉模型不受非语音片段的影响,包括**和静音,有效防止虚构转录的生成。 “长尾小鹦鹉 (Parakeet)”基于 NVIDIA NEMO 工具包构建,专注于用户友好性和灵活性。 预先训练的检查点可立即使用,从而可以轻松地将模型集成到您的项目中。 无论您是在寻找动态推理功能,还是针对特定任务进行微调,NEMO 都能提供强大而直观的框架来充分发挥模型的潜力。
长尾小鹦鹉模型的主要优点包括:
最先进的准确性:在广泛的音频**和域上具有出色的 WER 性能,并且对非语音片段具有很强的鲁棒性。
不同型号尺寸:06b 和 1两个 1b 参数模型,用于对复杂语音模式的强大理解。
开源和可扩展:它基于 NVIDIA NEMO 构建,可以无缝集成和定制。
预训练检查点:即插即用模型,可用于推理或微调。
许可:根据 CC-by-4通过0许可证发布,模型检查点可用于任何商业应用。
长尾小鹦鹉是对话式人工智能发展的重要一步。 其卓越的准确性与NEMO提供的灵活性和易用性相结合,使开发人员能够创建更自然、更直观的语音应用程序。 从提高虚拟助手的准确性到实现无缝实时通信,可能性是无穷无尽的。 长尾小鹦鹉系列模型在HuggingFace排行榜上取得了最先进的成绩。 用户可以自己尝试 parakeet-rnnt-11b,并在 gRadio 演示中使用。 要在本地访问模型并探索工具包,请访问 NVIDIA Nemo 的 GitHub 页面。
官方博客**: