܄

【金猿案例展】清华长庚医院——基于数据编织的医疗DataAI创新项目

【数据猿导读】 该Agent案例由医众投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025中国大数据产业年度Data Agent创新应用》榜单/奖项评选。

【金猿案例展】清华长庚医院——基于数据编织的医疗DataAI创新项目

医众案例

该Agent案例由医众投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025中国大数据产业年度Data Agent创新应用》榜单/奖项评选。

在“健康中国 2030”规划纲要与国家数字经济发展战略指引下,以大型语言模型为代表的人工智能技术正深度融入医疗健康领域,显著提升疾病诊断、治疗方案制定及医学研究的效率与质量。然而,AI性能的充分发挥依赖于对多模态、跨机构医疗数据的深度学习与优化,而我国《数据安全法》《个人信息保护法》及国际HIPAA法规所确立的“数据不出院、不出境”原则,在保障患者隐私与数据安全的同时,也带来了数据共享与隐私保护之间的根本矛盾。

当前,尽管业界已提出“可信数据空间”“联邦学习”等技术路径,但在应对异构医疗数据时,仍难以支撑新一代医疗大模型对数据深度融合与精细化调优的需求。此外,传统开发模式高度依赖人工编码与系统搭建,开发人员不得不耗费大量精力构建基础架构,导致研发效率低下,且受制于个体技术能力。

在此模式下,技术迭代难以匹配医院快速变化的需求,开发进程常受限于技术瓶颈。医院业务场景复杂多样,个性化需求频繁涌现,传统模式难以敏捷响应,往往仅能提供标准化解决方案,无法精准适配临床、管理、科研等多维场景,导致所构建系统与实际业务需求之间存在显著差距。

为应对以上困境,本项目创新融合自主研发的“数据科学模型”与“数据编织”的创新管理理念,构建面向真实临床场景的医疗大模型优化机制。该机制在确保数据物理位置不变、全程加密的基础上,通过密码学协议构建安全可计算的虚拟数据网络,实现“数据不动算法动,数据可用不可见”,同时开放给开发者和数据高阶使用者以AI原生的方式调用DataAI的能力,灵活生成适用于各类个性化场景的Data Agent,为医疗大模型的合规应用与数据价值释放开辟创新路径。

时间周期:

开始时间:2025年9月

中间重要时间节点:2025年11月

完结时间:2026年12月(预计)

Data Agent 应用需求

1.客户“Data Agent”需求

希望通过“数据+AI”赋能临床与科研,需要一个系统性破解当前医疗数据困境的智能解决方案——具备自主性、合规性与协同性的“Data Agent”生态系统:

•安全数据价值释放:能在《数据安全法》、《个人信息保护法》及HIPAA等严苛法规框架下,不移动原始数据而实现跨机构、多模态医疗数据价值融合与计算。实现“数据可用不可见,数据不动算法动”,从根本上解决数据利用与隐私保护的矛盾。

•系统集成与治理协调:面对院内数据质量差、孤岛林立、系统异构及成本高昂的现状,具备强大的连接与治理能力,能够跨越多样化、老旧化的系统(如HIS, EMR, PACS, LIS),实现数据的自动标准化、对齐与质量提升。

•临床场景赋能:能理解复杂临床语境、并能执行端到端任务。克服当前医疗大模型的“知识幻觉”与场景适应性不足的缺陷,通过自主感知、决策与多任务协同,直接辅助或完成如辅助诊断、治疗方案推荐、科研数据提取等复杂临床决策任务。

•自主可控的智能模型:支持基于模型生成个性化、场景化的数据智能体Data Agent,构建自主可控的智能数据模型体系,使用户能够根据实际业务需求灵活生成并部署执行各类数据任务的智能体,实现数据能力的闭环建设与持续进化。

2.需求拆解

我公司从根源性问题出发,进行深入剖析:客户的需求并非单一技术点,而是一个贯穿数据、模型、应用与治理全链路的生态:在保障数据安全隐私前提下,实现跨机构医疗数据的有效利用与融合,以提升医疗大模型性能。基于此,将需求拆解为三个关键层面:

•基础层面:安全可信的数据协作网络

目标:打破数据孤岛,实现跨域数据融合。需解决异构数据源对接、全周期隐私保护、以及融合过程中的性能与可信验证问题。

•核心层面:临床导向的模型优化与任务执行

目标:提升AI的准确性与可靠性。需攻克数据质量不佳导致的模型训练难题、以及大模型的“知识幻觉”和复杂场景适应性问题。将多源业务数据高效训练为专用模型,并支持模型的持续动态更新,安全、可靠地服务于各类实时业务数据需求场景。

•保障层面:可量化评估的治理与合规体系

目标:构建数据治理与合规闭环体系:通过元数据血缘图谱实现全链路分钟级快速追溯;利用全链路安全审计日志自动生成不可篡改的合规证据链;基于血缘与审计数据建立量化评估体系,实现治理成效与合规状态的动态可视化管理。

3.解决方案

针对上述需求,我公司提供完整的数据智能服务解决方案:

•数据编织:将“数据编织”与全同态加密深度耦合,应用于高敏感度医疗数据领域。构建动态紧密耦合的数据协作新范式,支持不同来源数据特征在密文域内进行丰富代数与逻辑运算,生成统一“加密数据体”。引入零知识证明机制,实现去中心化可信验证,保证数据融合过程安全合规。

•数据科学模型(DataScience):构建临床导向的多智能体自适应优化算法,将医疗模型解构为多个面向特定临床子任务的功能模块Data AI。设计知识与数据双轮驱动算法,融合临床知识图谱与加密编织数据;引入多任务协同优化机制,通过智能体间协同与博弈实现多临床子目标动态权衡优化,可智能理解数据需求,自动编排并执行数据任务。

•开放平台:构建灵活的能力开放平台,提供标准化的API接口和开发工具包,支持医疗机构的二次开发和集成。平台提供完整的开发者文档、测试环境和运维支持,确保各类应用场景的快速落地和持续优化。

面临挑战

1.数据层面挑战

•数据质量参差不齐:医疗数据源自HIS、EMR、PACS、LIS等多个异构系统,缺乏统一标准与清洗流程,加之手工录入错误与接口传输问题,导致数据一致性差、错误率高,整体质量难以保障。

•数据孤岛现象严重:各业务系统由不同厂商建设,数据库独立、格式不一,缺乏有效的共享机制与互通标准,致使数据整合与无缝流转困难。

•系统改造成本高昂:平台建设需投入大量资金,而医院内部老旧系统占比较高,接口开发复杂,导致初始集成与长期运维成本居高不下,制约了数字化升级进程。

2.模型应用挑战

•临床场景复杂多变:医疗大模型需要处理复杂多变的临床场景和数据模式,要求模型具备强大架构与算法以适应多样数据模式。

•模型幻觉与适应性不足:医疗大模型易产生“知识幻觉”,生成看似合理实则错误的内容,误导临床判断。此外,模型对复杂现实场景的适应性仍显不足,难以灵活应对临床不确定性与个体差异。

3.法规合规挑战

国内外《数据安全法》《个人信息保护法》及HIPAA等法规均严格限定医疗数据“不出院、不出境”,旨在保护患者隐私。然而,医疗AI的发展恰恰依赖于跨机构、多模态数据的深度学习和流通,这与法规要求形成根本矛盾。如何在合法合规的前提下,安全地整合与利用分散数据,是当前面临的核心合规瓶颈。

•安全与性能难以兼顾:医疗数据高度敏感,加密技术虽提升安全性,但也增加处理复杂度与计算开销;匿名化与脱敏在保护隐私的同时,常会损失数据信息量,影响分析准确性。

战略目标

1.数据整合:全域数据集成与治理

通过数据编织技术,在不移动原始数据的前提下,逻辑联结各院区异构数据源,实现全域元数据的统一采集与整合,并进行语义智能化分析与理解,自动构建数据血缘关系与医学知识图谱,形成标准化、可检索的统一数据资产目录,为后续分析提供高质量数据基础。

2.数据加密与脱敏:确保“数据可用不可见

集成隐私增强计算技术,对需联合计算的数据进行加密,支持在密文状态下直接完成数学运算,确保计算结果与明文一致。通过统一服务接口实现跨数据源安全访问,并支持行列级数据访问控制,结合AI动态定义与执行数据安全策略。

3.数据分析:驱动智能决策与科研

基于前述环节形成的高质量、高安全性数据环境,训练具备医学专业知识、能深度理解临床语境的大语言模型。支持各院区在本地进行模型训练,仅聚合加密的模型参数,确保原始数据永不出域。

4.数据智能体开发:动态自然语义交互与Data Agent开发

通过自然语言人机交互,调用数据科学模型生成Data Agent,可实现在高维向量层智能解析复杂数据需求,并自动编排、执行端到端的数据任务,最终将数据价值直接转化为临床洞察与行动。

实施与部署过程

1.Data Agent的职能角色

数据科学模型是一个客观的动态参数模型,它向下封装并协调了复杂的数据技术栈,向上以最自然的方式响应业务需求,将静态的数据资产转化为动态的、可流动的智能生产力。通过数据科学模型,本项目成功地将“数据可用不可见”的技术原则,兑现为“洞察可见、行动可控”的业务现实,最终赋能医院在保障安全与合规的前提下,实现临床、科研与管理能力的全面智能化升级。

为确保项目成功交付与持续运营,我们设立了跨职能的协同团队,涵盖交付、产研与售后三大板块:

•交付团队:是项目交付阶段的总负责人,是客户与公司内部之间的核心桥梁,确保项目在预定时间、预算内,达到预期的业务目标。

•产研团队:是核心技术的构建者,负责将客户需求转化为稳定、可扩展的产品与解决方案。

•售后团队:是项目上线后的价值保障与拓展中心,确保系统稳定、高效运行,并通过持续运营挖掘数据的长期价值。

•项目管理团队:负责整合规划、进度控制、风险管理和资源协调,确保各团队目标一致、节奏协同、交付顺畅。

2.系统架构

采用分布式数据管理架构,分为三层:

•数据源层:全域异构数据的统一管理

全面覆盖结构化、非结构化、半结构化数据,无缝对接关系型数据库、数据湖、数据仓库、数据中台等各类异构数据源,实现数据源的统一管理,为上层提供丰富的“数据原料”

•数据连接层(虚拟化层):安全的虚拟数据网络

是整个架构的中枢神经系统,不通过物理移动原始数据,而通过数据虚拟化技术构建了一个逻辑统一的数据访问层。

•访问与消费层:灵活开放的DataAI服务

提供标准化的T-SQL、OpenAPI等接口,让用户能够以AI原生的方式,实时、灵活调用数据、生成AI应用(如Data Agent、小程序),进行AI原生应用开发等,直接驱动业务决策与创新。

金猿案例展_清华长庚医院_DataAI创新-1

3.核心技术

•元数据管理:快速数据源连接,不通过物理方式抽取,快速实现数据整合,并进行主动元数据探查,对医疗数据的相关元信息进行全面、精准的采集、存储、更新与维护。通过AI自动识别元数据并分析血缘关系,形成标准化、可检索的数据资产目录,为数据发现、数据分类、数据检索等功能提供基础支撑,为深度分析与价值挖掘奠定基础。

•隐私增强计算:在加密状态下完成数据计算与分析,确保数据“可用不可见”,实现隐私保护下的联合建模与价值挖掘。为跨机构医疗数据协作提供安全底座,推动隐私合规前提下的精准医疗与科研创新。

•长文本特征提取:运用自然语言处理与机器学习技术,对电子病历、检查报告、科研论文等非结构化长文本进行解析与语义理解,提取关键医疗信息(如症状、诊断、用药等),并转化为结构化数据。该过程释放文本中潜在的临床与科研价值,支持数据挖掘、知识图谱构建与决策分析。支持无监督学习的智能模型优化,以向量化方式表达文本,并保留语序和上下文信息,经过无监督深度学习后,申城高质量、高纬度的向量数据。

•Data Agent以及AI小程序开发:支持以自然语言交互方式理解用户复杂需求,自动生成任务流程并动态执行,并动态调整与优化任务执行策略,通过深度理解自然语言中的语义信息,结合医疗领域知识图谱与规则引擎,将语义意图转化为可执行指令,并实时监控任务执行过程,根据反馈信息动态调整任务参数与执行路径,确保任务高效、准确完成。此技术显著提升系统的适应性与灵活性,更好满足医疗领域复杂多变的应用需求。

•模型微调和参数扩展:提供高效的模型微调工具与参数扩展服务,支持用户根据自身业务场景的私有数据,对基础模型进行定向优化与知识注入。通过引入业务特征参数,可实现模型能力的快速适配与性能提升,确保其输出与医院的实际诊疗规范、数据标准持续保持一致,实现模型效果的持续进化与专用化定制。

•AI原生应用开发:赋能开发者使用公开的应用程序编程接口(API)和工具构建应用程序和服务,满足OpenAPI 3.0的协议标准,具备完善的开放文档,赋能开发者自行开发AI+数据的新型应用,并有效减少开发工作量。

4.核心产品矩阵

•数据编织:是一种智能化的分布式数据管理架构,通过AI、机器学习与语义知识图谱动态整合异构数据源,实现跨平台的虚拟化数据访问与自动化治理。

数据源管理:可快速连接各类多源异构数据源

元数据管理:通过元数据采集、语义理解、元数据血缘关系分析,完成元数据注释,构建数据资产目录

数据虚拟化:统一虚拟化数据访问层,实现跨库数据统一查询和NoETL同步

数据任务管理:自动化编排ETL/流处理等任务,动态优化查询性能与处理流程

数据权限:支持行级数据访问控制,可结合AI定义数据访问规则

安全审计:慢查询日志分析,可支持AI风险行为分析

•数据科学模型:是一种基于动态数据的生成式语言模型,生成的内容取自于经过特征工程治理后的高质量数据。具有很强的科学性:参数来自于自身业务数据,与业务持续保持一致;符号计算:使用图结构化架构表示复杂知识,求解复杂问题;通过高维向量将模糊的、非标化自然语义描述匹配到标化数据。

金猿案例展_清华长庚医院_DataAI创新-2

长文本特征提取:依托数据科学模型,自动解析非结构化长文本(如病历、报告),将其转化为高质量结构化数据并存储,赋能深度分析。

模型微调工具和参数扩展:提供工具与服务,支持将特定业务场景参数快速融入模型并即时生效,实现模型的个性化定制与性能扩展。

•开放平台:面向开发者和数据高阶使用者,灵活调用医众数据和智能的能力整合平台,OpenAPI和IDE工具赋予了用户调用DataAI能力的灵活性,用户以AI原生的方式使用数据、开发数据应用、研究分析数据,生产效率倍增。

金猿案例展_清华长庚医院_DataAI创新-3

5.创新思维

•技术创新:

数据安全合规层:传统隐私计算与联邦学习在医疗数据应用中协作静态松散。我们将“数据编织”架构与全同态加密(FHE)技术深度融合,支持不同医疗机构异构数据在密文域通过标准化协议融合,生成统一“加密数据体”。

动态融合性:突破联邦学习局限,支持密文域内数据特征丰富运算,让模型学习跨样本、模态、机构的深层关联,为大模型提供更精准全面的数据基础。

去中心化可信验证:引入零知识证明(ZKP)机制,生成操作证明供参与方验证,保证数据融合完整可追溯,规避传统中心化架构风险。

数据精度层:当前医疗大模型存在“知识幻觉”与适应性不足问题。本项目设计基于多智能体强化学习(MARL)的临床情景感知自适应优化机制,将医疗模型解构为功能模块并抽象为智能体,协同完成临床决策。

知识与数据双驱动:融合临床知识图谱(CKG)与加密编织数据,确保模型决策遵循临床指南与证据链,提升准确性、鲁棒性与安全性。

多任务协同优化:引入协同与博弈机制,使模型在多临床子目标间动态权衡,自主学习全局最优帕累托前沿,契合临床决策过程。

智能应用层:针对医院个性化业务需求,用户户通过自然语言描述数据需求,数据科学模型,即可智能理解数据需求、自动编排,生成可执行的数据智能体。

数据查询分析的结果来源于科学模型的高质量数据,结果准确,权限可控。

自动生成数据小程序:无需编写代码或部署环境,即开即用,实现“所说即所得”的数据任务构建方式,大幅降低技术门槛。

即时响应与自适应执行:生成的智能体具备自主理解、任务分解与执行能力,能够灵活应对各类个性化的临床数据场景需求。

•技术优势:

更快:24小时连接核心系统数据源,亿级别数据计算秒级响应。数据整合计算效率平均提升10倍以上

全面:全量数据逻辑连接,实现一个虚拟库的准实时数据请求。数据请求节点减少90%,覆盖范围扩大3-5倍。

智能:AI模型理解数据、治理数据、分析数据,直接响应数据需求。数据工作时长减少80%,响应效率增强50倍。

开放:免费提供开放平台和IDE 工具,赋予用户数据使用、AI原生开发的最高权限。数据开发外包成本降低至“0”。

安全:AI风险分析,动态参数模型,自主模型微调和权限规则。“0”模型幻觉,“0”参数污染,“0”数据泄露。

6.团队配合

以“价值交付”为核心,建立了一套敏捷的协同工作机制。交付团队作为客户需求的“传感器”和项目驱动的“火车头”,牵引产研团队进行精准的产品迭代与方案开发;项目管理团队担任协同决策中枢,确保资源调配与节奏把控;售后团队则作为“价值延伸器”,将一线反馈和运营洞察回流至产研与交付团队,形成从交付到反馈,再到优化的价值闭环,确保解决方案的持续生命力与客户成功。

合作服务效果

本项目旨在构建一个安全合规、智能驱动的医疗数据价值转化平台。我们的核心目标是:通过数据编织技术,在不移动原始数据的前提下,安全集成跨院区异构数据,形成统一、高质量的数据资产视图;在此基础上,深度融合隐私增强计算技术,确保全流程“数据可用不可见”,为医疗大模型训练与数据分析提供高可信度的数据环境;最终,赋能各院区基于本地数据开发专业数据科学模型,通过自然语言交互将数据价值直接转化为精准的临床决策、高效的科研发现与智能化的管理行动,全面推动人工智能在医疗领域的深度应用与创新。

1.从“孤岛”到“网络”,实现安全的数据虚拟整合

建立“逻辑统一、物理分散”的数据版图,跨院区快速将客户分散在各个系统的数据进行了虚拟化统一接入与编目,构建了覆盖区域核心业务数据的虚拟数据网络。过去需耗时数周的手工数据协调与整合工作,如今通过数据编织平台,数据就绪时间缩短至分钟级,效率大幅提升。

2.从“数据合规负担”到“业务创新引擎”

采用本体智能的数据科学模型(Data Sceience)构建理念,将用户的业务数据持续训练为动态更新的专有模型,显著提升数据质量,有效抑制模型幻觉。结合配套的模型微调工具,用户可自主扩展参数、定义规则并控制权限,形成安全可控、专属定制的智能数据科学模型,可稳定应用于临床决策支持、科研分析等实时业务场景,真正将数据转化为业务创新的核心引擎。

3.从“复杂调用”到“自然交互”,实现灵活的智能服务消费

医疗机构获得“开箱即用”的数据自服务能力,通过平台提供的标准化 T-SQL和OpenAPI 接口,获取跨源数据的开发调试周期缩短,接口开发效率提升。通过“数据科学模型”,用户无需编写复杂查询语句,使用自然语言即可完成数据交互,生成AI DataAgent,在短时间内即可自动完成数据协调、查询与分析,并生成结构化报告。复杂数据洞察任务的交付速度提升了10倍以上。

4.合规与成本成效:在安全前提下显著降本增效

得益于虚拟化集成方式,大幅减少了物理数据迁移与复制需求,新业务接入的数据集成成本降低,长期数据存储与管理成本也得到有效控制。同时,全流程严格遵循“数据不出院”原则,在实现数据价值最大化的同时,确保了100%的合规安全,为后续数据要素的深度开发利用提供了可靠范式。

关于企业

·长远佳

北京长远佳信息科技有限公司(简称长远佳)成立于2015年,是国家高新技术企业,也是国内数智化医疗数据服务领域可信服务商。“医众”是北京长远佳信息科技有限公司持有的医疗数据服务品牌。为用户全类型数据提供可持续的数据整合、治理、共享、智能的“DataAI”服务。

·清华长庚

北京清华长庚医院是由清华大学与北京市共建共管的大型综合性公立医院,坚持“医疗服务以患者为中心,医院运营以医师为核心,医院发展以员工为重心”,创立并践行精准医疗、精诚服务、精益管理的“三精医疗”理念,构建起覆盖全生命周期、融合数智化的现代健康医疗服务体系;坚持公益性本位,实行党委领导下的院长负责制,建立健全现代医院治理体系,医疗团队与职业化行政团队分工协同治理,致力于塑造医教研三位一体的国际化学府型医院。


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

【金猿案例展】中国平安人寿保险股份有限公司——基于Apache Doris统一OLAP技术栈实践
【金猿案例展】中国平安人寿保险股份有限公司——基于Apache ...
【金猿案例展】银联商务——Apache Doris赋能“科技银商”,助力金融机构挖掘增长新机遇
【金猿案例展】银联商务——Apache Doris赋能“科技银商”,...
【金猿案例展】智谱AI——基于全闪分布式并行文件存储打造高速大模型训练平台
【金猿案例展】智谱AI——基于全闪分布式并行文件存储打造高速...

我要评论

数据猿微信公众号
第22届国际物联网展
返回顶部