采用文本分类训练样本扩充方法,自动扩充数据质量

小夏 科技 更新 2024-02-01

中新赛克技术。

该技术由中新赛克交付,并参与“数据猿年度金猿策划活动——2023大数据产业年度创新技术突破榜暨奖项”评选。

设计并实现了一种基于词嵌入的文本分类训练样本增强方法。 该技术所述的基于词嵌入的文本分类训练样本富集方法发明了一种类,该类利用现有样本数据在现有样本中自动高效地丰富样本量较小的类。 该方法的主要创新点是:首先,在已有的训练样本中,通过使用文本外的词语进行扩展,使得新样本中的词语表达更加丰富; 二是利用k-最近邻文本分类对基于词嵌入生成的候选样本进行筛选,剔除不相关和错误的候选训练样本,大概率获得可用的训练样本,从而达到扩展训练样本的目的。

该技术的应用价值在于缓解了简单样本富集效果不理想的问题,改进了分类器算法。 文本分类是一个典型的监督学习问题,监督学习面临的主要问题之一是需要通过大量手动标记的训练样本进行学习。 然而,在实践中,获取标注训练样本通常需要大量的人力物力,这就是所谓的“标注瓶颈”。 因此,监督学习可以获取的标记训练样本数量往往有限,这表现在训练样本数量有限,训练样本中包含的信息不足。 由于训练样本数量有限(数量和分布信息有限)不能很好地表征数据的整体分布特征,因此学习分类器的泛化能力较差,这就是所谓的“小样本”问题。 这种技术是解决这个“小样本”问题的有效方法。

该技术可广泛应用于各种文本分类任务中,从而提高分类的准确率。 分类任务包括但不限于:情绪分类、新闻主题分类、垃圾邮件过滤、产品评论分类、聊天意图分类、健康疾病分类、政治倾向分类、法律文档分类等。

本技术具体实施方式的详细步骤如下:

第一步是获取小样本关键词,构建小样本关键词集合。 如图 1 所示,文本分类训练样本集分为小样本类和非小样本类。 小样本类通过关键字抽取获取关键字集。 本实施例中,获取关键字的方法采用positionrank算法。 PositionRank的关键词提取算法类似于TextRank算法,它基于PageRank的图关系来计算单词的分数。 重要性分数用于表示单词,其公式如下:

其中描述阻尼系数,通常设置为 075;w表示图边的权重,即单词之间的相似度; 指示单词的所有传出边缘的权重之和。 一个单词的初始分数与单词在文本中的位置成反比,与单词的频率成正比:

假设单词 v 出现在文本的第 2、3 和 8 位,则 =1 2+1 3+1 8。

如图2所示,经过文本分割后,得到A、B、C、D、E、F六个单词,A、B、C、D、E、F的权重分别排在positionrank算法之后。 047,然后从文本中选择3个关键词,得到前3个关键词:b、c、f。 在实现中,每个文本选择的关键词数量与文本本身的长度有关,f(n)用于表示文本需要选择的关键词数量,其表达式如下:

第二步,从非小样本类的所有文本标记中随机抽取一半的单词,从小样本关键词集中随机抽取相应数量的单词,替换非小样本文本中提取的单词,形成新的片段。 分词算法由中科院ICTCLAS中文分词系统实现。

在第三步中,使用文本相似度计算新段和已知训练样本的 k 最近邻。 采用DSSM模型计算两篇文章的相似度。 DSSM(Deep Structured Semantic Models)的原理是通过搜索引擎中查询和标题的海量点击日志,使用DNN(深度神经网络)将查询和标题表示为低维语义向量,通过余弦距离计算两个语义向量之间的距离,最后训练语义相似度模型, 不仅可以利用两个句子的语义相似度,还可以得到一个句子的低纬度语义向量表达。

如图 3 所示 k 最近邻算法对新段进行分类,训练样本集包括 1 类、2 类和 3 类 3 类,当 k=5 时,与待分类的新段最相似的前 5 个类是 1 类、1 类、1 类、2 类和 3 类, 要分类的新段是 1 类,因为 1 类的数量最多。在实现中,k 的数量与小样本量有关,并且设置了 k =,其中是一个超参数,它是凭经验设置的,表示下限舍入,例如。

第四步,筛选出k最近邻分类后分类为小样本类的新片段,并与文本分类训练样本集合并,形成扩展的训练样本集。

图 1:丰富文本分类训练样本的过程。

图2 基于PositionRank算法的关键词提取

图3 k-最近邻算法对新线段进行分类。

专利申请号 公开号:zl 2019 11119076.5

团队负责人姓名:卢云川

中新赛克副总裁兼大数据产品线总经理卢云川。 清华大学硕士,高级工程师,现任中新赛克大数据产品总经理,中国数据库专业委员会委员,中国互联网络安全威胁治理联盟成员单位负责人,南京市人工智能行业协会副会长。 深耕电信、大数据、人工智能领域20余年,拥有知识产权5项,主持和参与国家242信息安全工程、江苏省战略性新兴工程等省部级科技项目 8项。

团队其他重要成员姓名:张全、卓克秋。

联系:Oceanmind,中新赛车。

南京中兴科技有限公司(以下简称中新赛克)成立于2024年,前身为中兴通讯子公司,现由深圳市创新投资集团控股。 公司于2024年002024年在深圳证券交易所上市。

Oceanmind是中新赛克旗下的大数据操作系统品牌。 在行业内,海拉迪斯创新性地提出系统化、在线化的数据建设解决方案,重新定义企业数据工程,提供业务驱动、在线化、可视化、无缝衔接的数据化建设服务,即数据建设咨询、成果落地、应用建设、数据管理一站式解决方案,成功解决了企业咨询计划实施难的四大难题, 咨询成果执行难、数据应用建设难、数据系统运行难,为企业数字化转型保驾护航。同时提供数据中台、智能数据仓库、主数据管理、指标管理平台和行业大数据业务分析应用,紧跟企业运营管理业务场景,深化运营状态、运营流程、运营风控可视化理念,打造企业运营管理数字化解决方案, 持续助力企业数字化转型。

中新赛克基于AI的审计档案挖掘利用系统,解决了我们一直以来难以应用电子审计档案和档案价值的问题,大大提高了我们海量存量档案的使用效率,在行业内形成了良好的示范效应。

聊城市审计局.

宋新昌,电子数据科科长。

Sinovatio Hirith的智能搜索功能创新性地为全局数据和数据的搜索增加了自然语义能力,使我们能够基于实体元素高效提取原本分散在多个系统中的数据,并自动生成报表,大大减少了我们人员收集和编译资料的工作量。

中国能源建设江苏省电力设计院.

IT 经理 Piquan Huang。

相似文章

    所有习都是一种思维训练

    有人说 你为什么要学数学?你能在日常生活中使用复杂的方程式吗?也有人说 为什么有这么多语言学?在日常生活中,谁会和你一起朗诵诗歌?学习英语的反对者更多,因为他们觉得自己一辈子都不需要英语。但事实上,英语和我们中文不仅仅是一种表达方式,而是一种思维方式。英语的语法与汉语的语法有很大的不同,这种语法上的...

    随和是一种品质,一种文化,一种心态

    随和,这是一种内在品质,一种深厚的文化积累,一种平和的心态。随和是人们在对名利漠不关心时表现出的超然态度,是经历过各种生活后的那种井然有序,是风雨中仍能保持冷静的心境。然而,随和并不意味着没有原则。相反,随和的人能够在坚持原则的同时谦虚地对待他人。随和的人,他们的心中充满了宽容和慷慨。当人与人之间发...

    没关系,这是一种态度,也是一种智慧

    在我们的日常生活中,好 是一个常见的词。这看似简单,却包含着很多意义。这既是一种态度,也是一种智慧。还有 OK 是一种态度。在现代社会,我们面临着各种各样的压力和挑战。面对这些压力和挑战,我们有时会感到不知所措,甚至绝望。然而,OK 告诉我们,我们有能力应对这些挑战,我们能够保持冷静和理性,以积极的...

    稳定是一种智慧,也是一种境界

    生活充满了变化和挑战,每个人都在不同的时刻面临选择和决定。有些人热衷于争夺名利 地位和权力,追逐表面的荣耀。然而,真正的智者懂得稳定的艺术,他们知道什么时候该战斗,什么时候该放手,他们能够超越个人欲望,看到更广阔的利益,他们超越眼前的得失,超越眼前的得失,把目光投向更远的理想。稳定是一种智慧,也是一...

    有一种失败叫“假戏真唱”,有一种胜利叫“偏虎山”。

    日本人的投降和世界的永久和平是可以预期的。各种亟待解决的重大国际国内问题,特此邀请凯里先生陪同首都一同讨论。这是国家规划的问题,幸好不要吝啬,权力被紧迫感淹没了。这是蒋介石在抗日战争即将胜利时发出的第一封电报,邀请他进行和平谈判。他的话是真诚的 溢出的 亲切的,毫无疑问和推卸责任。凡是了解过国民党与...