启富科技语音情感计算论文入选国际顶级AI学术会议ICASSP 2024

小夏 教育 更新 2024-01-31

12月27日,2024年IEEE声学、语音与信号处理国际会议(ICASSP)宣布采用启富科技在语音情感计算方面的最新研究成果**“MS-SENET: enhancing speech emotion recognition through multi-scale feature fusion with squeeze-and-excitation blocks”。

该团队提出了一种新的网络结构,称为MS-SENET,可以有效地提取、选择和加权空间和时间多尺度特征,并将这些特征与原始信息融合在一起,以获得更强的语音情感表示向量。

情感计算领域是一个涉及计算机科学、心理学和语言学的跨学科研究领域,其主要目的是通过分析和处理语音信号中的情绪信息,使计算机能够识别和理解人类的情绪状态。 业界主流做法是通过音频、文本等多模态信息对感官进行分类,但团队认为,人类底层情感特征是相同的,完全可以跨越特定的语言和文本内容。

奇孚科技自主研发了MS-SENET音频情感计算网络框架。

基于此,该团队提出了MS-SENET框架,通过减少对大量不相关声学特征的提取,融合局部频率和长期时间特征,提高语音信号的情感表征学习能力。 MS-SENET利用不同大小的卷积核提取多尺度时空特征,并引入压力激励模块来有效捕获这些多尺度特征。 同时,通过跳跃连接和空间损失层防止过拟合和合并,增加了模型的深度,进一步提高了情感计算模型的表现能力。

此外,该团队还评估了六个不同场景的多语言数据集,包括中国科学院自动化研究所的语音情感数据集、柏林情感数据库、意大利数据集、交互式情感二进制动作捕捉数据库、萨里视听表达情感数据集和瑞尔森视听情感语音和歌曲数据集。 与SOTA(最先进的技术,指当前在特定任务中表现最好的方法或模型)相比,MS-SENET将UA和WA提高了131% 和 161%,而MS-SENET仍然保持着出色的情感识别能力,具有更多的情感类别和更低的数据量。

据介绍,启富科技在语音情感计算方面的研究不仅是理论上的突破,更是一次成功的实际应用。 例如,在贷后投诉项目中,异常情绪监测首次应用于现实生活中的业务。 通过对高危客户的通话录音进行逐一分析,及时选择情绪异常的客户,以便相关人员及时干预,实验结果表明,模型组的投诉率比对照组低4个绝对百分点。

相似文章

    财务模式重新进化,奇孚科技大数据平台全面升级

    几十年来,金融机构一直将数据视为有待开采的金矿,他们希望构建数据平台来增强业务能力。但是,为什么业内人士一直认为这是一项艰巨的任务呢?答案在于,虽然金融机构渴望将数据平台转化为其业务的真正价值和生产力,但他们缺乏关键的生产工具。因此,很多与数据相关的工作仍然依赖于繁琐的人工操作,如制作复杂的报表 建...

    水滴磨石,奇孚科技多元ESG路径

    年,启富科技的ESG工作将主要通过维护金融消费者权益和公益两大岗位开展。投资时报 记者张靖宇。作为中国最大的金融科技公司上市公司,我们始终致力于维护金融消费者权益和促进社会福利,并通过综合措施践行金融科技行业的社会责任,以期构建更加公平 公正 有序的金融市场,为社会的可持续发展做出贡献。多渠道 多形...

    同富微电子、长电科技、晶方科技,下游AI芯片爆发,谁最有机会?

    AI 人工智能 的爆炸式增长从上游芯片中获益最大。芯片行业存在周期性变化,一个完整的变化周期是四年,主要是两年的向上繁荣和两年的衰落繁荣。它现在处于 年 月开始的上升趋势中,并将持续到 年 月。在全球芯片产业链中,半导体按生产分为四个阶段,主要为设计 制造 封测 代工。由于重资产投入,国内资本很早就...

    感受隆冬的大雪,MR数字技术带来奇妙创意

    隆冬将至,大雪纷飞!在MR 节气元宇宙数字空间体验大雪。利用混合现实技术,将节气的主要场景融入现实生活,将虚实融合,快速了解节气的魅力。雪来了,整个元宇宙数字空间都布满了雪花。这是一个超越现实的世界,融合了虚拟和现实。在这个元宇宙中,大雪不仅仅是一个虚拟的景观,而是一种与现实生活融为一体的美妙体验。...

    创富港战略投资电阳科技,加速AI大模型应用项目落地

    年月日,创富冈在深圳总部举行战略投资签约仪式,副总裁汤唯代表创富冈与电阳科技 深圳 正式签署战略投资协议。根据投资合作协议,创富刚在电阳科技投资的资金将用于电阳科技的技术研发和业务拓展。在数字技术时代,对AI模型的研究和投资已成为不可忽视的趋势。未来,AI模型将更广泛地应用于各行各业。面对这一趋势,...