【金猿案例展】天创信用×某银行——天创AI信用风控协同创新项目
数据猿 | 2026-01-07 22:22
【数据猿导读】 该数据要素案例由天创信用投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025中国大数据产业年度数据要素价值释放案例》榜单/奖项评选。
天创信用案例
该数据要素案例由天创信用投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025中国大数据产业年度数据要素价值释放案例》榜单/奖项评选。
数字经济时代,数据已成为关键生产要素。国家“数据要素×”三年行动计划和金融科技发展规划等系列战略,明确要求推动数据赋能实体经济,特别是在金融领域深化数据应用,提升服务质效。在此背景下,银行对公授信业务正经历从传统人工经验驱动向“数据智能驱动”的深刻变革。
当前,金融行业正经历从“经验驱动”向“数据驱动”的范式变革,非结构化数据解析、大模型应用等技术的成熟,为数据要素在风控场景的价值释放提供了技术支撑。AI与大模型技术的飞速发展为智能风控带来了全新的可能性,通过自动解析非结构化文档、生成专业报告、挖掘潜在风险,成为行业降本增效、防范系统性风险的关键路径。
作为专注服务实体经济的金融机构,银行在对公授信业务中深刻感受到传统模式的“三低一高”痛点:人工审单效率低(需从海量线下合同、审计报告中手动抽取关键数据)、数据利用率低(约80%的非结构化数据“沉睡”)、风险识别精度低(过度依赖主观经验)、以及运营合规成本高。
为响应国家战略,把握技术发展趋势,银行金融机构亟需打破数据孤岛,释放数据要素价值,重构风控体系。为此,银行与天创信用携手,共同启动AI数智风控协同创新项目。
项目聚焦数据线上化、报告自动化、风控智能化三大核心诉求,旨在通过前沿AI技术,将散落的非结构化数据转化为可流通、可增值的战略资产,打造行业领先的“数据智能驱动”风控新范式,为银行业数字化转型提供可复制的标杆案例。
时间周期:
项目开始时间:2025年8月
中间重要时间节点:
2025年10月:通过解析测试样例交付与关键字段定义,启动技术方案验证。
2025年11月:完成银行内AI平台部署,实现工作流迁移与集成。
2025年12月中旬:完成信息抽取功能全面测试与数据接口规范确认。
2025年12月:智能报告生成功能上线,启动AI风险挖掘模型的业务需求调研与知识沉淀工作。
项目完结时间:2026年2月:核心功能模块完成交付并上线运营,进入持续优化与价值深挖阶段。
数据要素价值需求
本项目紧密围绕数据要素的核心精神,将客户需求升维理解为对数据要素全生命周期价值释放:
1.数据资产化
客户亟需将散落在海量线下合同、审计报告(PDF/扫描件)中的“暗数据”,如合同金额、财务三表等,通过AI转化为可计量、可查询、可分析的结构化数据资产。
2.数据服务化
客户要求打破内外部数据壁垒,将已结构化的数据、内部业务数据与外部工商司法数据融合,通过AI工作流自动生成标准化的贷前贷中报告。这有望实现数据要素在跨部门、跨业务场景中的高效“流通”与“共享”,将数据从静态资产转化为动态服务。
3.数据资本化
客户最终目标是让数据要素直接产生业务价值。希望通过训练AI模型,将业务专家的风控经验固化为数据模型,基于多源数据自动挖掘企业潜在风险,实现数据要素在风险决策中的价值增值,甚至探索数据驱动的创新型金融产品。
天创信用深刻把握数据要素是金融风控数字化转型的核心生产资料,将客户需求拆解为“数据激活-数据整合-数据赋能”三维价值链路:
数据要素激活
针对非结构化数据难以利用的痛点,通过AI模型将线下文件转化为结构化数据,建立数据要素的“产权标识”与质量标准,让沉睡数据具备流通基础。
数据要素整合
构建多源数据融合体系,明确内外部数据的分类标准、关联规则和使用规范,打通数据要素在不同业务系统、不同场景中的流通通道,实现“数据语言互通”。
数据要素赋能
基于整合后的数据要素,运用AI自主规划,让数据要素在报告生成、风险识别中发挥决策支撑作用,最终实现数据要素从“资源”到“资产”再到“资本”的价值跃升。
我们提出“数据要素价值立方体”解决方案,即在技术维度,构建多模态数据解析与AI生成引擎;在流程维度,设计覆盖提取、整合、应用的全链路工作流;在价值维度,瞄准效率提升、成本节约与风险控制,最终实现数据从“资源”到“资产”再到“资本”的跃迁。
面临挑战
数据要素层面核心挑战
1.数据格式碎片化
客户业务数据分散于线下PDF(原生/扫描件)、内部业务系统等多种载体,合同、审计报告等文件格式不统一,扫描件存在字迹模糊、排版错乱等问题,部分文件扫描错误率达12%,导致数据要素提取难度大,标准化程度低。
2.数据类型多元化
涉及非结构化数据(文本文件)、半结构化数据(业务系统日志)、结构化数据(内部台账)等多类型数据,不同来源数据的字段定义、统计口径不一致,数据要素整合面临“数据语言不通”的融合难题。
3.数据质量参差不齐
线下文件中存在数据缺失、表述不规范、重复记录等问题,且缺乏统一的数据质量校验标准,直接影响数据要素的可用性。
4.数据要素安全合规风险
金融数据涉及企业商业机密与银行核心业务信息,需严格遵守《金融数据安全分级指南》等法规,如何在保障数据安全(原始数据不出域、数据可用不可见)的前提下实现数据要素高效流通,成为核心约束。
项目实施配套挑战
1.系统适配难度大
客户现有IT架构需兼容新的数据解析引擎与工作流平台,需解决与行内现有系统的无缝对接问题,确保数据要素传输的稳定性与时效性。
2.需求标准化难
不同业务场景下的报告撰写要求、数据提取重点存在差异,需平衡标准化解决方案与个性化业务需求,确保数据要素应用的灵活性。
3.跨团队协同复杂度高
项目涉及银行业务、技术、合规等各部门与天创信用实施团队的多方协作,需明确各方在数据提供、需求确认、测试验收
数据处理
数据类型及来源
1.非结构化数据
银行对公授信业务相关的线下合同、审计报告(包括原生PDF文件、扫描件格式),包括合同文本、审计报告中的资产负债表、利润表、现金流量表及附注说明,累计处理超1000页测试文本。
2.结构化数据
银行内部业务系统、外部数据、央行征信中心等,涵盖企业基本信息、信贷业务记录、企业授信额度、历史风险评估结果、企业征信数据等
数据处理规模
1.测试阶段数据量:银行累计提供合同、审计报告等解析测试样例120份(解析模块60份、报告模块60份),每份文件平均页数15-30页,涵盖50+类关键业务字段。
2.日常处理数据量:项目上线后,预计日均处理合同解析请求约300-500笔、审计报告解析请求200-300笔,单份审计报告最大处理页数100页以上;报告生成模块日均调用数据资源池数据量超5GB,涉及内外部数据维度100+。
3.数据存储规模:结构化数据资源池初始存储量约20GB,月均增长5GB;非结构化原始文件存储量初始约50GB,结构化提取后数据存储量约10GB,支持历史数据回溯与复用,首年数据存储规模预计将超过10TB。
数据技术与实施过程
为了满足银行金融机构功能迭代的需求,本项目需要支持数据上传、解析、识别及分析,重点实现以下能力:
1.一报多表:运用视觉模型和AI模型提取财务报表等表格文件。
2.风险识别:运用海量数据接口进行AI融合,提炼业务风险。
3.报告撰写:运用AI模型整理文本及风险信息,进行风险报告写作。
4.RAG增强:审计报告切片向量化入库,支持后续问答。业务总统流程图。
一、技术架构设计
本项目围绕数据要素“提取-整合-赋能”全流程,构建了以“非结构化数据解析技术、多源数据融合技术、大模型应用技术”为核心的“五层三维”技术架构:
数据解析层:集成开源与自研视觉模型,针对金融文档特点,引入PDF动态语义切片算法、分布式限流机制,并利用Redis实现实时进度监控(SSE推送),攻克大文件、高并发处理难题。
智能引擎层:搭建可配置、可复用的AI工作流工厂。融合规则引擎、LLM大模型(经SFT微调)、RAG检索增强生成等技术,实现从信息精准抽取到报告智能生成的全流程自动化。
业务应用层:封装标准化API,输出信息抽取、报告生成、风险预警等能力,与银行现有风控、信贷系统无缝集成,形成闭环业务价值。
本项目重点技术解决方案如下:
1.大文件解析与视觉模型进度监控
为解决大文件解析超时和无进度感知问题,采用切片解析机制。这里将采用串行处理策略,确保进度更新的线性与平滑性,同时降低视觉模型服务的并发压力。
2.财报识别与提取
解析引擎完成基础OCR后,系统需识别文档中包含的若干份财务报表并结构化提取。通过规则引擎(Rule Engine)定位位点,再调用LLM精准提取。
二、技术要点与创新
1.高精度信息提取
采用“视觉特征(CV)+布局理解(NLP)”的多模态模型,精准定位并抽取金额、日期、主体等字段,对复杂版面与扫描件,准确率达92%以上。
2.一报多表提取技术
突破传统审计报告解析局限,通过CV+NL混合技术实现财务三表自动定位(F1值达0.92),从单份审计报告中自动识别并提取母公司、合并报表、不同年度报表等多份财务数据,解析效率提升60%。
3.模块化工作流架构
采用独立模块设计,支持按需调用与灵活扩展,可快速适配银行新增报告类型或数据提取需求,降低系统迭代成本。
4.数据要素安全保障
通过私有化部署模式保障数据不泄露,结合分布式限流与权限管控,实现“原始数据不出域、数据可用不可见”,符合金融数据安全合规要求。
生态伙伴合作
本项目是银行与天创信用深度共创的典范。银行作为业务场景方与需求方,提供了核心业务知识、数据样本及内部系统资源;天创信用作为技术提供方与实施方,贡献了AI算法、工程化能力与平台技术。双方组成联合项目组,形成了 “业务牵引、技术驱动、敏捷迭代”的高效协作模式。
数据方面,项目积极引入各类企业数据服务商,包括天眼查、凭安等信用信息服务商,智慧星光等舆情服务提供商。外部数据的引入对该项目起到了至关重要的作用,是构建全景化、动态化企业风险视图不可或缺的一环。这些合作不仅丰富了数据维度,更在数据要素的价值链上实现了“外部赋能”与“内部激活”的有效协同。
合作服务效果
项目成功上线后,预计在数据要素价值释放与商业成效上取得可量化的卓越效果:
1.运营效率革命性提升:
数据提取效率:单份合同/审计报告的关键信息抽取时间,有望从人工平均2小时缩短至AI全自动处理约5分钟,效率提升24倍。
报告撰写效率:单份贷前尽调报告撰写时间从6-8小时,预计压缩至1.5小时内(AI生成+人工校正),人工撰写成本降低超过80%。
2.风险管控能力质变增强:
知识复用与响应:通过RAG构建的审计报告知识库,支持业务人员以问答形式在3秒内获取企业潜在风险线索。
3.数据要素价值充分释放:
流通与复用:通过统一数据接口,内部分散系统对数据的复用率提升60%,有效打破数据孤岛。
成本节约:预计每年可节省外部数据采购、人工处理及合规检查相关成本数千万元。
4.行业标杆效应形成:
本项目打造了银行业内领先的“非结构化数据智能处理与风控应用”标杆,形成的技术方案与实施方法论具备高度的可复制性,为整个行业利用AI释放数据要素价值提供了可行路径,推动了产业级进步。
关于企业
·天创信用
天创信用服务有限公司成立于2015年,是一家智能风控与大数据征信运营商,凭借先进的大数据和智能技术以及专业的服务团队,在信用体系建设,金融科技服务等领域具有深厚的积累和卓越的成就。
天创信用是央行企业征信备案机构,发改委27家首批综合信用服务试点机构之一。公司在大数据征信和金融科技领域受到业内的诸多认可:连续入选毕马威中国金融科技50强,2021年成为央行京津翼征信链9家征信机构之一,2022年获得专精特新中小企业认证,2023年荣获“北京数字经济企业百强”、获评第三届朝阳区“凤鸣计划”高成长企业,2024年获得2024全球数字经济大会“首交易”示范奖励。
公司企业文化使命是“让有信者行天下”,致力于用科技力量显现信用价值,造福天下有信者。公司的愿景是“成为最值得信赖的信用科技运营商”,通过卓越的信用科技服务,持续为客户创造价值,坚守承诺,倾尽全力,成为客户最可靠的合作伙伴。
★以上由天创信用投递申报的数据要素案例,最终将会角逐由金猿组委会×数据猿×上海大数据联盟联合推出的《2025中国大数据产业年度数据要素价值释放案例》榜单/奖项。
该榜单最终将于1月上旬上海举办的“2025第八届金猿大数据产业发展论坛——暨AI Infra & Data Agent趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场。
来源:数据猿
我要评论
不容错过的资讯
大家都在搜


























































































