12月27日,2024年IEEE声学、语音与信号处理国际会议(ICASSP)宣布采用启富科技在语音情感计算方面的最新研究成果**“MS-SENET: enhancing speech emotion recognition through multi-scale feature fusion with squeeze-and-excitation blocks”。
该团队提出了一种新的网络结构,称为MS-SENET,可以有效地提取、选择和加权空间和时间多尺度特征,并将这些特征与原始信息融合在一起,以获得更强的语音情感表示向量。
情感计算领域是一个涉及计算机科学、心理学和语言学的跨学科研究领域,其主要目的是通过分析和处理语音信号中的情绪信息,使计算机能够识别和理解人类的情绪状态。 业界主流做法是通过音频、文本等多模态信息对感官进行分类,但团队认为,人类底层情感特征是相同的,完全可以跨越特定的语言和文本内容。
奇孚科技自主研发了MS-SENET音频情感计算网络框架。
基于此,该团队提出了MS-SENET框架,通过减少对大量不相关声学特征的提取,融合局部频率和长期时间特征,提高语音信号的情感表征学习能力。 MS-SENET利用不同大小的卷积核提取多尺度时空特征,并引入压力激励模块来有效捕获这些多尺度特征。 同时,通过跳跃连接和空间损失层防止过拟合和合并,增加了模型的深度,进一步提高了情感计算模型的表现能力。
此外,该团队还评估了六个不同场景的多语言数据集,包括中国科学院自动化研究所的语音情感数据集、柏林情感数据库、意大利数据集、交互式情感二进制动作捕捉数据库、萨里视听表达情感数据集和瑞尔森视听情感语音和歌曲数据集。 与SOTA(最先进的技术,指当前在特定任务中表现最好的方法或模型)相比,MS-SENET将UA和WA提高了131% 和 161%,而MS-SENET仍然保持着出色的情感识别能力,具有更多的情感类别和更低的数据量。
据介绍,启富科技在语音情感计算方面的研究不仅是理论上的突破,更是一次成功的实际应用。 例如,在贷后投诉项目中,异常情绪监测首次应用于现实生活中的业务。 通过对高危客户的通话录音进行逐一分析,及时选择情绪异常的客户,以便相关人员及时干预,实验结果表明,模型组的投诉率比对照组低4个绝对百分点。