【数智化案例展】国元证券——基于数据仓库系统的大数据平台异构主备架构创新实践
数据猿 | 2025-08-27 21:39
【数据猿导读】 该项目案例由网易数帆投递并参与数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智化转型升级创新服务企业》榜单/奖项评选。

网易数帆案例
该项目案例由网易数帆投递并参与数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智化转型升级创新服务企业》榜单/奖项评选。
国元证券前期基于Cloudera公司CDH大数据平台建设了公司级数据仓库。随着下游系统、应用场景的增加,数据仓库重要性不断提升,现有架构已无法满足需求,主要包括三个方面:一是单集群瓶颈,一旦出现集群级故障,恢复时间长,严重影响业务连续性;二是运维成本高,面临集群故障排查困难、任务优化门槛高、资源利用不透明等问题;三是不满足国产化要求。
为了解决以上痛点,国元证券携手网易,搭建了基于网易有数大数据基础平台和国元原有CDH平台的异构大数据平台主备架构。项目创新性地打造异构主备集群地冗余架构,满足证券业务的高可用和容灾要求。证券公司目前仍有很多使用CDH大数据平台,本案例的建设方案可以实现大数据平台信创改造的平稳过渡,具有较大的推广价值。同时,项目落地智能运维能力,可进行集群计算资源、存储资源实时监控以及治理,帮助运维人员快速定位和解决运维中的瓶颈和难题,提高运维效率,增强平台保障能力。
时间周期:
开始时间:2024年6月
截止时间:2024年12月底
面临挑战
数据底座对于高可用性要求极高,传统运维方式面临着海量数据复杂度、组件耦合性高、资源动态波动、故障定位困难等严峻挑战。
此外,CDH作为成熟可靠的商用版大数据平台,在证券行业有着极高的市场占用率。随着Cloudera公司销售策略的变化,以及证券公司信创要求的不断提高,探索大数据平台国产化改造方案是证券公司的必然选择。但是,大数据平台通常运行着大量的计算任务,沉淀了公司海量的数据资产,如何保证信创改造的过程不影响业务使用和数据安全,具有很大的挑战性。
应用技术与实施过程
项目自2024年6月开始至2024年12月底结束,历时6个月,由国元证券自有人员6人及合作方网易公司技术专家7人组成的联合项目共同实施完成,项目投入资金506万元。具体项目周期如下:
(1)项目启动阶段:2024年6月4日,召开项目启动会,明确项目团队人员分工、项目软硬件资源准备情况、项目计划进度、项目实施方案及项目沟通管理机制等,形成项目SOW文件。
(2)测试环境部署:2024年6月11日-2024年6月21日,项目团队完成服务器硬件及网络资源检查、部署架构方案设计沟通,完成数据智能底座的安装、部署、联调测试等工作,输出集群部署架构、功能清单及测试报告等。
(3)详细方案设计:2024年6月5日-2024年7月中旬,项目团队完成主备主备集群冗余架构的集成对接,并完成数据、任务、权限及UDF的迁移工作,项目初步具备上线条件。
(4)测试环境验证:2024年6月中旬-2024年8月底,项目团队完成新数据智能底座的数据及任务测试验证工作,项目进入主备集群切换阶段。
(5)生产环境实施:2024年9月下旬-2024年11月下旬,项目团队完成主备集群切换工作,包含数据服务迁移、CDH调度停用、镜像同步任务开启等,生产环境的数据服务及任务运行正式切换至数据智能底座平台上稳定运行。
(6)项目上线:2024年12月20日,经过一个月的试运行,未出现服务中断、数据异常等问题,项目正式上线。
在项目实施过程中,项目团队针对存量+新增数据的迁移和合并、Hive任务改造为Spark任务、两套平台权限统一、UDF函数适配等技术疑难问题进行了专项难题攻关,并对集群的存算架构、数据压缩、备份容灾、安全防护、队列资源、集群告警等进行了创新规划,确保了集群资源利用率最大化、数据高效存算和平台稳定运行。
自项目上线至今,数据智能平台以“零事故、低资源水位、高效存算”的运行态为公司的C5、风控、管理会计等30余个系统提供可靠、稳定、安全的数据支持服务。项目结合国元证券现实情况,形成了一系列具有创新性的解决方案。
1.异构大数据平台Kerberos互信方案
两个Hadoop集群开启Kerberos验证后,集群间不能够相互访问,需要实现Kerberos之间的互信,使用CDH集群的客户端访问NDH集群的服务。 具体操作流程图如下所示:
2.HDFS数据迁移方案
项目团队开发NDHManager自动化工具,大大降低人力投入成本,提升迁移效率。证券公司大数据平台集中存储了公司内外部的海量数据,旧集群上的数据需要高效、安全地迁移到信创新集群上,同时保证迁移过程人力投入少、数据不丢失、任务产出结果一致,降低迁移过程对线上服务的影响。项目团队梳理现有数据分布情况,按照数据量和业务时间窗口等维度,制定精细化的迁移方案。对于较大的库如gdw_ods、gdw_dwd、gdw_dws,短期内可能distcp不完。对应的解决方案有2个(在不影响业务的前提下优先建议使用方案一):
方案一、限制distcp带宽(在不影响业务的前提下越大越好),连续执行多天直到执行完成。此方案优点是只需要对整个/user/hive/warehouse路径配置单迁移任务或者针对每个库创建单个迁移任务。后续维护成本低。
方案二、数据拆分,把待迁移路径按库拆分(其中比较大的库如gdw_ods、gdw_dwd、gdw_dws需要进一步拆分)。保证每个拆分单元的数据量可以半天distcp完成。然后每个拆分单元在业务空闲期间执行distcp。此方案需要针对每个拆分单元创建一个任务。
增量迁移过程只需要迁移CDH增加、删除和修改的HDFS文件。此时,使用HDFS快照功能,系统可以自动识别增量数据,并更新到新集群中,完成HDFS数据增量迁移。
为了保证迁移数据一致性,NDHManager工具开发了数据校验功能,任务执行过程中会自动校验HDFS数据一致性,如果不一致则任务会报错。待数据迁移完成后,对存量数据进行整体校验,通过表数量、分区数量、数据条数等多维度保证数据一致性。
3.Hive元数据迁移
使用NDHManager的Hive元数据迁移模块,对Hive元数据按照库粒度进行迁移。平台支持使用sum(hash(*)) 方式全量/抽样对比CDH和NDH的hive表hash值。使用校验工具自动生成校验SQL语句,分别在CDH和NDH集群执行后,即可获取所有输入表的hash值。按照预期,增量同步完成后CDH和NDH的表hash值会完全一致。如果有不一致的表,可能是HDFS数据或者Hive元数据迁移有遗漏。对不一致的表单独分析排查即可。
Hive增量元数据迁移目的是把新增、修改、删除的表、分区元数据信息同步到NDH集群。即主集群发生了表、分区等元数据的变更,需要及时更新到备集群,保证数据一致性,这是主备架构能够正常工作的必要条件。项目基于hive catelog日志,自动抓取解析create、delete、alter等关键语句,同步在备集群中执行,即可完成元数据高效、实时变更。
4.任务迁移
任务迁移的重点在于:一是保证迁移到NDH的计算引擎的任务正确(语法兼容性问题)。二是保证迁移到NDH的计算引擎的任务产出的结果跟CDH保持一致。具体操作流程图如下所示:
面对数百个hive计算脚本,手工改造升级工作量大,经过技术调研与摸底排查,发现可以归纳为语法、函数、精度三大类问题,且问题重复率较高。因此,为了提高改造效率,项目团队总结经验,制定校验规则,开发了自动化扫描分析工具,高效完成脚本的改造升级工作。
5.数据校验
按照项目建设规划,通过两个集群双跑并行的6个月窗口期,持续验证新集群稳定性与数据一致性。对于数据准确性,项目团队制定了多方位的数据校验方案。比如,每日计算结果采用hash算法检测一致性,项目开发自动化校验工具,CLI方式传入任务,自动分发到Spark/Kyuubi和HiveServer2平台,输出结果对比,并与调度工具集成,可以每日自动运行数据校验,输出校验异常清单,实现高效、准确地数据监控。
6.Sentry权限迁移
CDH6.3使用Sentry作为权限管理组件,而NDH使用Ranger作为权限管理组件。因此项目实施过程中需要把Sentry权限迁移到Range。具体操作流程图如下所示:
项目开发了Sentry权限迁移工具,实现把Sentry中角色、用户、组的权限全量同步到Ranger。
7.智能运维方案
当前大数据集群庞大,运行过程中出现问题较多,经常出现部分任务运行失败情况。根据任务日志,大多数无法定位具体原因,导致整个问题定位过程非常长。通过构建任务、主机、服务之间的映射关系,在集群出现异常时,快速分析导致异常的原因,进而进行快速处理。例如:右边集群中,一个机器的I/O利用率持续100%导致上面的任务出现数据读取超时,进而导致任务失败。通过智能分析,能够快速定位到原因。
项目通过智能运维平台,进行集群计算资源、存储资源实时监控以及治理,提升集群资源利用率,帮助用户快速定位和解决服务、任务运维中的瓶颈和难题,提高运维效率。示意如下:
商业变化
(1)复用现有资源,降低部署成本。项目团队充分利用现有CDH集群的硬件资源与软件组件,与新搭建的NDH集群组成异构大数据平台主备架构,较全新部署方案直接减少硬件与软件授权成本50%。大数据平台节点多,投入成本高,证券公司刚新建了非信创的集群,直接废弃,成本太高,本案例提供的方案具有较强的复用价值。
(2)计算引擎升级提效,迁移工具赋能实施。针对计算层性能瓶颈,项目将计算引擎由hive升级为Spark,借助spark内存计算的优势,跑批计算效率提升1倍,大大减少了任务运行时间,提升数据时效性。同时,项目开发了hive到spark的脚本迁移工具,大大减小了脚本迁移复杂度,节省了大量项目实施时间。
(3)落地高可用架构,提升容灾能力。主备高可用架构的落地显著提升了平台容灾能力:当主集群因软硬件故障或网络中断触发告警时,可在较短时间内切换到备集群,恢复数据读写与任务调度能力。这使得系统恢复时间(RTO)从原先的天级大幅压缩至小时级,有效规避了核心业务因平台宕机导致的服务中断风险,保障了数据资产的完整性与业务连续性。
此外,在以下方面具有成果创新:
(1)破解异构难题,搭建主备冗余架构。异构集群最核心的问题是需要解决组件版本甚至类型不一致的问题,项目团队开发了一系列自动化工具。例如权限迁移工具,能够识别、解析sentry中的权限数据,并自动转换为raner中的数据格式,导入到ranger中,即可实现权限数据的快速批量迁移。
(2)自主开发迁移工具,提升数据迁移效率。迁移过程消耗集群磁盘IO和网络带宽,大批量历史数据迁移会对现有集群造成较大影响,甚至造成数据服务中断。为此,项目团队开发了极高灵活度的数据迁移工具,可以对并行度、网络带宽、表分区等进行参数化配置,从而根据时间窗口自由下发不同强度的数据迁移,最大限度地减少对现有集群和服务的影响。
(3)实现脚本改造、数据校验自动化,助力计算引擎升级。项目将离线跑批任务计算引擎由hive升级为spark。针对迁移过程中遇到的语法、函数、精度3大类问题,项目团队及时总结,形成知识库,并根据规则开发脚本识别工具,高效完成需改造脚本筛选和问题定位。为保证数据一致性,项目团队制定了多方位的数据校验方案,开发自动化校验工具,CLI方式传入任务,自动分发到Spark/Kyuubi和HiveServer2平台,输出结果对比,并与调度工具集成,可以每日自动运行数据校验,输出校验异常清单,实现高效、准确地数据监控。
(4)搭建智能运维系统,驱动运维效率提升。数据底座对于高可用性要求极高,传统运维方式面临着海量数据复杂度、组件耦合性高、资源动态波动、故障定位困难等严峻挑战。智能数据底座提供了一套智能运维系统,可协助运维人员进行集群计算资源、存储资源实时监控以及治理,帮助运维人员快速定位和解决运维瓶颈和难题,提高运维效率。
关于企业
·网易数帆
网易数帆是网易旗下品牌,历经二十余年技术沉淀,网易数帆聚焦全链路数据开发治理及分析,以全面的大数据技术、产品及服务,为企业量身打造领先、稳定、可控、创新的全链路数据生产力平台,服务企业“看数”、“管数”、“用数”等业务场景,盘活数据资产。
网易数帆的产品与技术现已成熟应用于金融、国央企、制造等行业,成功助力华泰证券、东北证券、平安产险、格力、OPPO、南方电网、浙江电信、九州通、三只松鼠、科沃斯、温氏集团等四百余家大中型企业全面释放数据价值,推进数字化转型。
·国元证券
国元证券是经中国证监会批准设立的综合类上市证券公司,在全国25个省、直辖市、自治区及特别行政区,布局了42家分公司与100余家证券营业网点。业务范围涵盖证券、基金、期货、资产管理、股权投资、另类投资、境外业务、区域股权市场等多个专业领域,综合实力和核心业务指标位居行业前列。公司聚焦“产业研究+产业投资+产业投行+综合财富管理”的战略方向,为客户提供综合金融服务,致力于打造具有核心竞争力的一流产业投资银行。
来源:数据猿
刷新相关文章
我要评论
不容错过的资讯
大家都在搜
