启富科技语音情感计算论文入选国际顶级AI学术会议ICASSP 2024

小夏教育更新 2024-01-31

12月27日，2024年IEEE声学、语音与信号处理国际会议（ICASSP）宣布采用启富科技在语音情感计算方面的最新研究成果**“MS-SENET： enhancing speech emotion recognition through multi-scale feature fusion with squeeze-and-excitation blocks”。

该团队提出了一种新的网络结构，称为MS-SENET，可以有效地提取、选择和加权空间和时间多尺度特征，并将这些特征与原始信息融合在一起，以获得更强的语音情感表示向量。

情感计算领域是一个涉及计算机科学、心理学和语言学的跨学科研究领域，其主要目的是通过分析和处理语音信号中的情绪信息，使计算机能够识别和理解人类的情绪状态。业界主流做法是通过音频、文本等多模态信息对感官进行分类，但团队认为，人类底层情感特征是相同的，完全可以跨越特定的语言和文本内容。

奇孚科技自主研发了MS-SENET音频情感计算网络框架。

基于此，该团队提出了MS-SENET框架，通过减少对大量不相关声学特征的提取，融合局部频率和长期时间特征，提高语音信号的情感表征学习能力。 MS-SENET利用不同大小的卷积核提取多尺度时空特征，并引入压力激励模块来有效捕获这些多尺度特征。同时，通过跳跃连接和空间损失层防止过拟合和合并，增加了模型的深度，进一步提高了情感计算模型的表现能力。

此外，该团队还评估了六个不同场景的多语言数据集，包括中国科学院自动化研究所的语音情感数据集、柏林情感数据库、意大利数据集、交互式情感二进制动作捕捉数据库、萨里视听表达情感数据集和瑞尔森视听情感语音和歌曲数据集。与SOTA（最先进的技术，指当前在特定任务中表现最好的方法或模型）相比，MS-SENET将UA和WA提高了131% 和 161%，而MS-SENET仍然保持着出色的情感识别能力，具有更多的情感类别和更低的数据量。

据介绍，启富科技在语音情感计算方面的研究不仅是理论上的突破，更是一次成功的实际应用。例如，在贷后投诉项目中，异常情绪监测首次应用于现实生活中的业务。通过对高危客户的通话录音进行逐一分析，及时选择情绪异常的客户，以便相关人员及时干预，实验结果表明，模型组的投诉率比对照组低4个绝对百分点。

启富科技语音情感计算论文入选国际顶级AI学术会议ICASSP 2024

相似文章

财务模式重新进化，奇孚科技大数据平台全面升级

水滴磨石，奇孚科技多元ESG路径

同富微电子、长电科技、晶方科技，下游AI芯片爆发，谁最有机会？

感受隆冬的大雪，MR数字技术带来奇妙创意

创富港战略投资电阳科技，加速AI大模型应用项目落地