܄

【金猿技术展】多模态大模型训练数据采集方法及系统——让每一份训练数据都精准放大价值

【数据猿导读】 该技术由数据堂投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025大数据产业年度创新技术》榜单/奖项评选。

【金猿技术展】多模态大模型训练数据采集方法及系统——让每一份训练数据都精准放大价值

数据堂技术

该技术由数据堂投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025大数据产业年度创新技术》榜单/奖项评选。

本申请涉及计算机技术领域,其具体地公开了一种多模态大模型训练数据采集方法及系统,其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码,以捕捉到模态间的语义关联,实现跨模态的语义信息融合,并在此基础上进一步进行图像样本的生成,进而,通过对生成的图像样本与原始图像数据进行语义偏移度量,以智能识别生成的图像样本是否为合格增强样本。通过这种方式,可以有效地丰富多模态训练数据集,确保数据的质量,解决多模态数据增强过程中跨模态语义一致性的问题,从而提高多模态大模型的训练效率。

关键突破性技术说明

本专利《多模态大模型训练数据采集方法及系统》针对多模态大模型训练中高质量对齐数据稀缺、传统增强方法易破坏跨模态语义一致性的核心难题,提出了一套从“语义对齐特征提取”到“跨模态引导生成”再到“自动化质量评估”的完整技术体系。其技术突破主要体现在以下三个深度融合的层面:

1.细粒度可引导的跨模态语义融合机制

传统多模态融合方法多在粗粒度层面进行,难以捕捉复杂的语义关联。本专利创新性地提出基于连续提示学习的细粒度跨模态联合编码方法。首先,采用深度可分离卷积网络提取图像特征,同时利用预训练语言模型编码文本语义,为精细交互奠定基础。其次,将图像特征分解为局部语义矩阵,以文本特征为“查询向量”,通过余弦相似度计算与注意力权重分配,动态发现图文局部语义关联,生成“局部查询提示语义编码向量”。最后,通过“跨模态掩码编织网络”生成连续权重掩码,对图像特征进行精准调制与聚合,得到文本语义引导的跨模态联合编码特征图。该机制实现了文本对图像特征空间的定向重构,确保融合特征承载高度对齐的双模态语义信息。

2.基于扩散模型与特征逻辑强化的可控生成技术

在生成阶段,专利采用扩散模型作为生成引擎,以上述融合特征为条件引导图像生成。为解决融合特征可能存在的重复映射与逻辑弱关联问题,技术设计了基于统计的无参考分布响应框架:将特征向量展开后,计算其内部特征值之间的关联矩阵与距离矩阵,刻画全局统计关系;通过一系列矩阵运算生成“逻辑偏置向量”,并与原始特征结合,得到优化后的特征表示。这一过程显式注入了避免简单重复、强化逻辑依赖的先验知识,提升了特征表示的内在一致性,使扩散模型能生成更合理、更忠于语义引导的图像样本。

3.闭环自动化质量评估与筛选体系

为保障增强数据质量,专利构建了可量化的评估闭环:使用相同网络对生成图像提取特征,确保特征空间可比性;计算生成特征与原始特征的余弦相似度作为“语义偏移系数”,定量衡量语义一致性;通过预设阈值自动判断样本是否合格,实现增强数据的在线自动化质检与筛选。该体系确保了最终训练数据的质量与语义保真度。

总结而言,本专利通过提示学习实现细粒度跨模态对齐,通过分布逻辑强化提升生成可控性,并通过对称度量实现质量闭环控制,形成了从语义理解到生成验证的全流程智能化解决方案,为多模态大模型训练提供了高质量、高语义一致性的数据基础。

专利技术应用产品/服务

本专利技术致力于解决当前制约多模态大模型发展的核心瓶颈——高质量、语义精准对齐的跨模态训练数据严重匮乏且获取成本高昂的问题。此问题直接导致模型在复杂场景下的理解与生成能力不足,已成为产业智能化升级的关键障碍。

基于此,本专利技术已深度应用于我公司的核心产品与服务中:

多模态训练数据增强服务:为客户提供高质量、语义对齐的图像-文本配对数据增强方案,用于训练视觉-语言大模型(如图文生成、跨模态检索等模型),显著提升模型在复杂场景下的理解与生成能力。

智能内容生成平台:利用该技术确保生成图像与用户输入文本的语义一致性,提升内容的相关性与准确性,帮助客户解决高质量跨模态数据匮乏问题,以更低成本获得更高质量内容生产能力。

企业级模型定制服务:针对垂直行业数据稀少、标注困难的特定挑战,通过技术增强训练数据,提升模型在垂直领域的适应性与性能,帮助客户实现更高效的业务自动化与智能化。

该技术不仅提供了数据问题的解决方案,更通过提升数据质量这一根本环节,为构建更强大、更实用的多模态AI系统提供了至关重要的基础设施支撑。

开发团队

·带队负责人姓名:齐红威

数据堂创始人、首席执行官齐红威,正高级工程师、中科院自动化所博士、中科院计算所博士后、美国斯坦福大学访问学者、北京市高层次创新创业人才、海英人才。曾任职于NEC中国研究院,智能信息处理研究部部长,主要从事文本信息处理,自然语言理解,数据挖掘领域的研发工作,丰富的大型项目设计、开发、管理及运作经验。在科研杂志及国际会议上发表专著2篇、科研论文20篇,申请专利27项,其中授权专利15项。曾主持包括智能移动信息服务平台,移动购物平台,大规模用户数据挖掘,智能客服中心等商业项目的设计开发及运营。

团队其他重要成员姓名:丰强泽、王大亮、高禹、郑继龙、史红欣

·隶属机构

数据堂(股票代码:831428)成立于2010年,是全球知名的人工智能数据服务企业,致力于为人工智能及大数据领域公司提供训练数据集、数据采集与标注定制服务、标注平台部署等一体化数据解决方案。

公司通过构建“场景化数据工厂”,在全球部署专业数据处理基地,积累了涵盖千余种细分场景的专业数据集,覆盖文本、语音、图像、视频、3D点云等多种数据资源。依托全球化采集团队与自研AI标注工具,实现数据采集与智能标注一体化服务,可满足智能驾驶、具身智能、智能医疗等多场景需求。为提升企业数据生产效率,其自主研发的智能标注平台支持私有化部署,显著降低企业数据处理成本。同时公司建立数据脱敏、加密及权限管控体系,保障数据合法合规流通。

凭借高质量数据服务,数据堂已帮助全球上千家企业提升AI模型性能。未来,数据堂将继续专注于人工智能数据服务,推动人工智能技术、应用和产业的创新,赋能全球人工智能产业高效、安全、可持续发展。

相关评价

数据堂在多模态数据服务领域的专业能力与前瞻性布局给我们留下了深刻印象。我们对合作中体现出的高度专业性、安全合规意识以及快速响应机制非常满意。无论是定制化的需求响应,还是对交付质量的严格把控,该企业都展现出一流服务商的水准。其稳健可靠的服务,是我们将资源聚焦于核心算法研发与业务创新的重要前提。

——北京百度网讯科技有限公司

从初步的技术对接到大规模的项目实施,数据堂团队所展现出的专业素养与协同效率尤为关键。其成熟的服务体系与持续优化的工具平台,不仅交付了高质量的结果,更通过过程赋能提升了我们自身团队的效率,这种合作切实为我们的长期研发规划提供了可持续的数据能力支撑。

——联想研究院


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

【金猿技术展】一种API敏感数据管理方法和系统——结构驱动的精准脱敏零误判解决方案
【金猿技术展】一种API敏感数据管理方法和系统——结构驱动的...
【金猿技术展】windows系统无代理远程脚本执行方法、装置及计算机设备——开启高效运维与安全新范式
【金猿技术展】windows系统无代理远程脚本执行方法、装置及计...
【金猿技术展】一种基于数据文件的分布式多副本高性能高可用方案——面向工业时序数据的高吞吐分布式数据库核心技术
【金猿技术展】一种基于数据文件的分布式多副本高性能高可用方案...

我要评论

数据猿微信公众号
第22届国际物联网展
返回顶部