星环科技。
本项目由星环科技投稿,参与“数据猿年度金猿策划活动——2023大数据产业年度创新技术突破榜暨奖项”评选。
为了满足日益增长的AI性能需求,需要不断更新训练样本集,以训练和更新AI模型。 研究人员不断创建新的模型结构,提出新的模型训练技术,使AI模型在特定领域的公共数据集上取得超越人类表现水平的结果,但在基于实际使用场景数据进行学习时,容易在不同的数据子集上产生偏差,导致缺乏公平性。
针对上述问题,可以根据模型训练和在线模型部署过程中收集到的反馈对训练样本集进行调整,以保证高质量的训练集。 常用的数据整形方法主要是数据增强,常见的数据增强方法有监督数据增强和无监督数据增强方法。 以图像数据为例,监督式数据增强方法包括基于几何变换类和颜色变换类几何变换类是对图像进行几何变换,包括:翻转、旋转、裁剪、变形和缩放颜色转换的数据增强功能,包括噪点、模糊、颜色转换、擦除和填充。 无监督数据增强方法是通过模型学习数据的分布,随机生成与训练数据集分布一致的图像,代表性方法是生成对抗网络(GAN)。
然而,传统的数据调整方法无法准确定位训练样本集中导致模型精度较差的训练样本,进而无法针对缺陷增强训练样本集,导致训练样本集的改进效率低下,无法保证模型的性能提升效果。
星环科技创新的训练样本集数据增强技术,解决了现有数据处理方法无法准确定位训练样本集中的训练样本导致模型精度差,进而无法增强训练样本集的缺陷,导致训练样本集效率低下的问题,实现了对训练样本的精准定位,导致模型精度差,从而实现目标数据增强的准确定位。 提高训练样本集的数据增强效率,进而提升模型的性能。
星环科技创新的训练样本集数据增强技术,是通过确定数据样本集的归因特征集,并根据归因特征集中的归因特征,将数据样本集划分为至少两个数据样本子集根据数据样本子集第一评价指标的数值对数据样本子集进行分类,形成有推理误差的误差数据样本子集和无推理误差的正常数据样本子集;根据归因特征对误差数据样本子集中每个误差数据样本子集的推理误差的贡献程度,从正常数据样本子集中确定与误差数据样本子集对应的控制数据样本子集;根据误差数据样本子集和控制数据样本子集中各数据样本的倾向得分,确定获得数据增强的训练样本集,现有数据处理方法无法准确定位的训练样本集,导致模型精度差,进而无法针对缺陷对训练样本集进行增强, 从而实现训练样本集的改进效率低,实现定位准确的训练样本集和导致模型精度较差的训练样本进行有针对性的数据增强,提高训练样本集的数据增强效率,提高模型的性能。
该技术方案可利用数据集对分类器、回归器等数据挖掘工具进行训练,提高训练效果,并可用于特定精细化场景(如电力领域的负载**、金融风控数据处理领域的故障检测或还款**)由于数据集质量较差或数据集过度集中, 在真实场景中处理不断更新的数据时,很容易对数据进行部分更新** 根据归因特征对错误数据样本推理误差的贡献,准确定位训练样本集中导致模型精度差的训练样本,然后对训练样本进行有针对性的数据增强, 从而提高训练样本集的数据增强效率,提高使用增强数据集训练的训练模型的性能。
例如,对于电力领域的负荷系统,负荷系统的数据样本可能与负荷区域的地理位置、天气条件、用户结构和经济发展有关,地理位置会影响天气条件和经济发展,地理位置与电力负荷有一定的因果关系, 但地理位置并不是造成电力负荷差异的直接原因,根据地理位置,电力负荷存在较大的推理误差。因此,该技术方案可以根据归因特征对错误数据样本推理误差的贡献,对训练样本集中导致模型精度较差的训练样本进行精准定位,进而对训练样本进行有针对性的数据增强,提高负载最高的训练样本集的数据增强效率, 并提高使用增强数据集训练的负载 ** 模型的性能。
对于金融风控数据处理领域的贷款还款场景,贷款申请人的归因特征集可以包括:申请人的年龄、申请人的年收入、申请人的婚姻状况。 利用该技术方案,根据归因特征对错误数据样本推理误差的贡献,可以找出对错误数据样本推理误差贡献最大的归因特征,从而定位训练样本集中导致模型精度差的训练样本, 然后对训练样本进行有针对性的数据增强,提高贷款还款训练样本集的数据增强效率,提高利用增强数据集训练的贷款还款模型的性能。
专利申请号 公开号:zl202211173668.7
团队负责人姓名:杨一帆
杨一帆现任星环科技副总裁。 他于2024年获得中国科学技术大学学士学位,并在肯塔基大学获得统计学博士学位。 他曾在美国银行反洗钱部门和阿里巴巴搜索部门的对抗情报团队工作。 他目前在星环科技的人工智能产品部门工作。 他拥有丰富的反洗钱和反作弊业务背景,以及统计学习、深度学习和图计算方面的研究经验。 主要研究领域为大数据基础软件、人工智能、数据安全、隐私计算等。 《机器学习实践》和《数据安全与流通:技术、架构与实践》的作者。
团队其他重要成员姓名:夏正勋、唐剑飞、张岩。
联系:星环科技。
星环科技(**688031)致力于打造企业级大数据基础软件,围绕数据集成、存储、治理、建模、分析、挖掘、流通等数据全生命周期提供基础软件和服务。 星环科技经过多年的自主研发,建立了一站式大数据基础设施平台TDH、分布式分析数据库ARGODB、容器化智能数据云平台KunDB、大数据开发工具TDS、智能分析工具SOPHON等多个产品系列,并拥有多项专利技术。 目前,公司产品已应用于十几个行业,终端用户超过1400家。 2024年,公司成为中国首家进入Gartner数据仓库和数据管理解决方案魔力象限的供应商,并被评为最具前瞻性的远见者之一2024年和2024年,两次被IDC评为中国大数据市场领导者2024年,星环科技成为全球首家通过TPC-DS测试和官方审计的数据库厂商2024年被Gartner评为数据中台和图数据库领域全球领先厂商,入选中国数据库产品品类最大的厂商之一。 同年,成为全球首家通过TPCX-AI基准测试和官方审核的软件厂商,单节点性能全球第一。 2024年10月,成功登陆上海证券交易所科创板。
基于星环科技大数据基础设施平台TDH的高性能存储和计算能力,对不同**、不同结构的数据进行清洗和处理,形成可直接用于模型训练的高质量实景生产数据集。 模型训练通过人工智能平台Sophon进行,该平台集成了680多个现有行业模型,并在此基础上使用图形建模、参数调优等完善的训练工具,轻松完成模型训练和迭代。 在Sophon中训练的模型可以无缝对接上层应用系统,使实验结果能够快速投入实际生产。
一所 985 工程大学。
基于星环科技的智能分析工具SOPHON结合数据集进行模型训练,将图像和光流信息进行融合,实现对行为工作的精准识别7、24小时对库房现场进行监控,对明火、冒烟等危险情况及时预警;现场部署边缘计算箱,统一接入远程监控,解决仓库管理人员操作行为记录等人工巡检、异常情况、效率低下等问题。
金融机构。