有语言、内容、押韵、音色、情感......1月30日,科大讯飞举办Spark认知模型V35、升级大会展示了大模型底层能力到应用场景的新发展,同时也发布了“星火语音大模型”,带来了万物互联时代人机对话的新变化。
科大讯飞从成立之初,就以实现人机信息无障碍通信为梦想和使命,其初心在“智能语音”的轨道上一路驰骋了25年,并持续走在世界前列。 多年来,科大讯飞在语音识别、语音合成等领域始终保持源技术创新迭代,并多次获得国际权威冠军。 例如,在语音识别技术方面,科大讯飞连续多年获得国际多通道语音分离识别大赛CHIME冠军,在语音合成技术方面,科大讯飞连续14年获得国际语音合成大赛暴雪挑战赛冠军。
在科大讯飞董事长刘庆峰看来,当前的通用认知模型为智能语音技术的发展带来了新的机遇,让语音识别能够进一步突破传统“鸡尾酒会”的高噪音、远场、多人语音等重大难题。 “简单来说,就是借助大型模型,让演讲具有更丰富的属性,包括语言、内容、韵律、音色、情感等。 刘清峰解释道。
发布会上透露,星火语音模型首批37种主流语言已经超越了OpenAI推出的Whisper V3; 在多语种语音合成方面,星火语音模型首批40种语言的平均MOS得分肯定提升了025、拟人化程度超过83%,在智能语音技术方面保持国际领先水平。
星火语音模型的发布,再次彰显了科大讯飞在智能语音领域的顶尖技术实力,大模型为语音技术的发展带来了新的机遇。
目前,星火语音模型已经全面向开发者开放,并首次安装在科大讯飞翻译器上,让译器从纯文本到文本翻译工具,变成实用工具,带来丰富的帮助。
它不仅支持80多种语言,还具有多语言自动识别和增强翻译两大全新重要功能,大大扩展了我们的翻译场景,无论是旅游景区、美食,还是各种文艺展厅。 结合科大讯飞研究院院长刘聪的现场演示,刘庆峰介绍,多语言自动识别可支持35种语言,提升跨语言交流质量和效率; 增强翻译提供中英文双语服务,让译者成为AI翻译助手,让跨语言交流更省心。 多语言自动识别和增强翻译两项重要功能将分别于今年1月底和3月中旬升级。
星火语音模型除了助力国际交流外,还可以在更多场景下“万能”,赋能实际应用。 刘庆峰介绍,在汽车、客服、家庭、伴侣机器人等场景中,星火语音模型有了更多发挥的场所,带来了人机交互的变化。 比如,赋能汽车,智能座舱、智能座舱、智能导航、一流控制的交互体验将进一步优化; 伴侣机器人、导购机器人、辅助诊断机器人、智能家居、可穿戴设备等行业也将随着语音模型的赋能而进一步引爆。
发布会上,刘清峰用AI客服的演示,生动地展示了超拟人化的对话和对星火语音模型的更深入理解,可以大大提升后台客服能力。 “我相信,在万物互联时代,在新技术的驱动下,新的语音模式将赋能整个行业,极大地推动我们的产业升级。 “刘清峰说。