12月9日晚,第十八届全国人机语音通信学术会议(NCMMSC 2023)在苏州召开,会上公布了视觉语音识别竞赛CNVSRC 2023获奖名单,清华大学及获奖团队现场分享了精彩观点。
本次大赛由NCMMSC 2023组委会发起,清华大学、北京邮电大学、海天瑞声科技、语音之家协办。 比赛的核心目的是验证当前视觉语音识别(或唇形识别)技术在连续识别大词汇的情况下的性能。
本次大赛共吸引了来自国内外的85支队伍参赛。 经过近三个月的角逐,来自西部工业大学ASLP-Li Auto、内蒙古大学、红西瓜半导体、诚智科技、北京邮电大学、法花顺等单位的参赛队伍取得了不错的成绩。 详细结果和报告**将在比赛官方网站上公布,敬请期待
T1 单扬声器 vsr - 固定轨道轨道
1 T237 西安大学ASLP-LI汽车 NPU-ASLP-LIAUTO
2 T266 红西瓜半导体瓜演讲
3 T290 楚尔
4 T238 北京邮电大学vii
5 T267 直同花顺语音组 RoyalFlush
T1 单扬声器 vsr - 开放式轨道
1 T237 西安大学ASLP-LI汽车 NPU-ASLP-LIAUTO
T2 多扬声器 VSR - 固定轨道轨道
1 T244 内蒙古大学 Daydayup
2 T267 直同花顺语音组 RoyalFlush
T2 多扬声器 VSR - 开放式轨道
1 T237 西安大学ASLP-LI汽车 NPU-ASLP-LIAUTO
2 T244 内蒙古大学 Daydayup
研讨会期间,清华大学王东先生主持了技术交流会,海天瑞声副总经理兼COO李珂致开幕词,并与Voice House创始人兼CEO卜辉、清华大学学生陈晨共同为两个赛道的获奖团队颁奖。 共享基线系统和技术报告。
清华大学王东教授主持了本次技术交流会。
海天瑞声副总经理兼首席运营官李珂致开幕词并主持颁奖。
Voice House创始人兼CEO卜辉主持了颁奖典礼。
来自清华大学的学生陈晨分享了基线系统和技术报告。
习工业大学、内蒙古大学、红西瓜半导体、北京邮电大学ASLP-Li汽车团队代表领奖。
习工业大学ASLP-Li汽车团队代表分享道。
红西瓜半导体团队代表分享道。
来自北京邮电大学的团队代表分享道。
Straight Flush团队的代表在网上分享。
与会人员合影。
CNVSRC 2023 组委会成员和其他工作人员。
视觉语音识别,也称为唇部识别,是一种使用唇部运动来推断声音内容的技术。 该技术在公共安全、助老助残、真实性等领域具有重要应用。 目前,唇语识别研究方兴未艾,虽然在独立词组识别方面取得了长足进展,但大词表的持续识别仍面临很大挑战。 特别是对于中国人来说,由于缺乏相应的数据资源,该领域的研究进展受到限制。 为此,清华大学于2024年发布了CN-CVS数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推广大词汇连续视觉语音识别(LVCVSR)提供了可能。 有关CN-CVS数据集的更多信息,请访问数据库官网
本次大赛cnvsrc-multi数据集的读取数据为海天瑞声向清华大学捐赠的【汉语普通话发音**识别数据库(手机)】数据集。 海天瑞声科技向清华大学捐赠数据集,推动科学发展。
在本次比赛中,许多团队在唇形识别任务中取得了显著的系统性能提升,最佳成绩与基线系统相比,实现了20%以上的相对性能提升。 与会选手在唇部识别系统各环节提出了令人耳目一新的创新解决方案,为进一步推进中文大词表连续视觉语音识别研究提供了新的思路和方法。
1] c. chen, d. wang, t.f. zheng, cn-cvs: a mandarin audio-visual dataset for large vocabulary continuous visual to speech synthesis, icassp, 2023.