【金猿技术展】一种训练样本集的数据增强方法、装置、设备及存储介质——训练样本集的数据增强技术

金猿技训练样本集数据增强

数据猿 | 2023-12-26 19:38

【数据猿导读】本项目由星环科技投递并参与“数据猿年度金猿策划活动——2023大数据产业年度创新技术突破榜单及奖项”评选。

【金猿技术展】一种训练样本集的数据增强方法、装置、设备及存储介质——训练样本集的数据增强技术

为了满足人们对于人工智能性能不断增长的需求，需要不断的更新训练训练样本集，以训练并更新人工智能模型。研究者们不断的创造出新的模型结构、提出新的模型训练的技巧，这些方法使得人工智能模型在特定领域的公开数据集上获得了超出人类表现水平的成绩，但是在基于实际使用场景数据学习时，反而容易出现对不同子集数据表现出偏差的现象，导致缺失公平性。

为了解决上述问题，可以根据模型训练和线上模型部署过程中收集到的反馈对训练样本集进行数据调整，以保证高质量的训练集。常用的数据调整方法主要是数据增强，常见的数据增强方法包括有监督的数据增强和无监督的数据增强方法。以图像数据为例，有监督的数据增强方法包括基于几何变换类和颜色变换类等；几何变换类即对图像进行几何变换，包括：翻转、旋转、裁剪、变形和缩放等；颜色变换类的数据增强，包括噪声、模糊、颜色变换、擦除和填充等。无监督的数据增强方法是通过模型学习数据的分布随机生成与训练数据集分布一致的图像，代表方法为生成对抗网络(Generate Adversarial Network ,GAN)。

但是，上述的传统的数据调整方法，无法准确定位训练样本集中导致模型精度不佳的训练样本，进而无法针对缺陷增强训练样本集，使得训练样本集改进效率低下，无法保证模型的性能提升效果。

星环科技创新的训练样本集的数据增强技术，解决了现有数据处理方法无法准确定位训练样本集中导致模型精度不佳的训练样本，进而无法针对缺陷增强训练样本集，使得训练样本集改进效率低下的问题，实现准确定位导致模型精度不佳的训练样本进行有针对性的数据增强，提升训练样本集的数据增强效率，进而提升模型的性能。

技术说明

星环科技创新的训练样本集的数据增强技术，通过确定数据样本集的归因特征集合，并根据所述归因特征集合中的归因特征，将所述数据样本集划分为至少两个数据样本子集；根据所述数据样本子集的第一评估指标数值对所述数据样本子集进行分类，形成存在推理错误的错误数据样本子集和不存在推理错误的正常数据样本子集；根据所述归因特征对所述错误数据样本子集中的各错误数据样本推理错误的贡献度，从所述正常数据样本子集中确定所述错误数据样本子集对应的对照数据样本子集；根据所述错误数据样本子集和所述对照数据样本子集中各数据样本的倾向得分，确定得到数据增强的训练样本集，解决了现有数据处理方法无法准确定位训练样本集中导致模型精度不佳的训练样本，进而无法针对缺陷增强训练样本集，使得训练样本集改进效率低下的问题，实现了准确定位导致模型精度不佳的训练样本进行有针对性的数据增强，提升了训练样本集的数据增强效率，进而提升了模型的性能。

该技术方案可利用的数据集对诸如分类器和回归器等数据挖掘工具进行训练，提升训练效果，能够针对特定的精细化场景(如电力领域的负荷预测、故障检测或者金融风控数据处理领域的贷款偿还预测)，由于数据集质量不佳或者数据集过于集中，在处理现实场景中不断更新的数据时，很容易在部分更新后的数据中出现低级错误，对数据中的不同子集表现出偏差，缺乏公平性的问题，根据归因特征对错误数据样本推理错误的贡献度准确定位训练样本集中导致模型精度不佳的训练样本，进而对训练样本进行有针对性的数据增强，达到提升训练样本集的数据增强效率，以及提升利用增强后的数据集训练得到的训练模型的性能的有益效果。

例如，针对电力领域的负荷预测系统，负荷预测系统的数据样本可能体现出与负荷所处地区的地理位置、天气状况、用户结构和经济发展情况等特征相关，地理位置会影响天气状况和经济发展情况，地理位置与电力负荷具有一定的因果关系，但是地理位置不是导致电力负荷不同的直接原因，根据地理位置预测的电力负荷存在较大的推理错误。因此，利用该技术方案，能够根据归因特征对错误数据样本推理错误的贡献度准确定位训练样本集中导致模型精度不佳的训练样本，进而对训练样本进行有针对性的数据增强，提升负荷预测的训练样本集的数据增强效率，提升利用增强后的数据集训练得到的负荷预测模型的性能。

针对金融风控数据处理领域的贷款偿还预测场景，贷款申请人的归因特征集合可以包括：申请人年龄，申请人年收入，申请人婚姻状况。利用该技术方案，能够根据归因特征对错误数据样本推理错误的贡献度，找出对错误数据样本推理错误的贡献度最大的归因特征，从而定位训练样本集中导致模型精度不佳的训练样本，进而对训练样本进行有针对性的数据增强，提升贷款偿还预测的训练样本集的数据增强效率，提升利用增强后的数据集训练得到的贷款偿还预测模型的性能。

★专利申请号/公开号：ZL202211173668.7

开发团队

·带队负责人姓名：杨一帆

杨一帆，现任星环科技副总裁。2008 年中国科学技术大学本科毕业，后续在University of Kentucky获得统计博士学位。曾在Bank of America 反洗钱部门和阿里巴巴搜索事业部对抗智能团队任职。目前就职于星环科技-人工智能产品部门。有丰富的反洗钱、反作弊业务背景和统计学习、深度学习、图计算研究经历。主要研究领域在大数据、人工智能、数据安全、隐私计算等基础软件。《机器学习实战》、《数据安全与流通——技术、架构与实践》作者。

团队其他重要成员姓名：夏正勋、唐剑飞、张燕。

·隶属机构：星环科技

星环科技（股票代码：688031）致力于打造企业级大数据基础软件，围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件与服务。经过多年自主研发，星环科技建立了多个产品系列：一站式大数据基础平台TDH、分布式分析型数据库ArgoDB及交易型数据库KunDB、基于容器的智能数据云平台TDC、大数据开发工具TDS、智能分析工具Sophon等，并拥有多项专利技术。目前公司产品已经在十几个行业应用落地，拥有超过1400家终端用户。2016年公司成为中国首个进入Gartner数据仓库及数据管理解决方案魔力象限的厂商，且被评为最具前瞻性的远见者；2017年及2020年，两度被IDC评为中国大数据市场领导者；2018年星环科技成为全球首个通过TPC-DS测试及官方审计的数据库厂商；2022年，被Gartner评为数据中台及图数据库领域全球推荐供应商，并入选中国数据库产品品类最多的厂商之一。同年，成为全球首个通过 TPCx-AI基准测试及官方审计的软件厂商，单节点性能全球第一。2022年10月，成功登陆上交所科创板。

相关评价

基于星环科技大数据基础平台TDH高性能的存储与计算能力，将来自不同来源、不同结构的数据清洗加工后形成能够直接用于模型训练的高质量真实生产数据集。通过人工智能平台Sophon进行模型训练，融合了现有的680多个行业模型，此基础上利用完善的图形化建模、调参等训练工具轻松完成模型训练和迭代。在Sophon中训练的模型能够无缝对接上层应用系统，让实验成果快速投入真实生产。

——某985工程大学

基于星环科技智能分析工具Sophon结合数据集进行模型训练，融合图像和光流信息，实现行为工作的精准识别；7×24监控库内场景，及时预警明火烟雾等危险情况；现场部署边缘计算盒子，统一接入远程监控，解决了人工巡检、异常状况以及仓管人员的操作行为记录等效率低下等问题。

——某金融机构

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。