【金猿技术展】一种数据自适应存储方法、装置、电子设备及存储介质——智能和轻量的数据压缩存储算法
数据猿 | 2025-12-30 23:29
【数据猿导读】 该技术由数变科技投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025大数据产业年度创新技术》榜单/奖项评选。
数变科技技术
该技术由数变科技投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025大数据产业年度创新技术》榜单/奖项评选。
本发明公开了一种数据自适应存储方法、装置、电子设备及存储介质。所述方法包括:对数据的类型进行划分,确定不同数据类型的数据对应的压缩算法列表;获取目标数据,确定所述目标数据对应的目标压缩算法列表;基于所述目标数据的统计信息从所述目标压缩算法列表中选择出所述目标数据对应的最佳压缩方式;使用所述最佳压缩方式对所述目标数据进行数据压缩得到压缩数据;在所述压缩数据的头部写入头信息,以基于所述头信息进行数据解压缩。该方法通过对数据进行抽样分析,根据数据所属的类型自适应选择最佳压缩算法来优化数据的压缩存储,能够在确保数据压缩比的同时,提升数据读取性能。
关键突破性技术说明
该专利的核心突破性技术可总结为“数据自适应压缩引擎”,其创新点主要体现在以下三个层面:
1.核心突破:从“静态选择”到“动态自适应”的压缩技术
传统的压缩方法通常是预先固定一种压缩算法(如GZIP、Snappy等),或根据数据格式(如文本、图像)粗略选择。本专利的关键突破在于建立了一套“类型识别→算法候选→动态择优”的智能决策流程,实现了“因数据制宜”的精细化压缩。
具体技术路径:
·类型化算法映射:首先,对数据进行类型划分(如数值时序型、稀疏文本型、二进制日志型等),并为每类数据预置一个经过验证的、适合的压缩算法候选列表。这步是知识库的构建。
·基于统计的实时择优:对于具体要存储的目标数据,并非直接使用默认算法,而是实时分析其统计信息(如熵值、重复模式、数值分布等),从该类数据的算法列表中,选择出针对这份具体数据块的最优压缩算法。
·元数据自描述:将选用的最佳压缩方式等信息作为“头信息”写入压缩数据头部,使得解压时可无需外部知识,直接根据头部信息调用对应解压算法,实现了压缩数据的自包含与自描述。
2.技术优势与效果
这项技术的直接好处体现在两个看似矛盾的目标上取得了平衡:
·高压缩比:通过为每类、甚至每份数据动态选择最匹配的算法,能够挖掘出特定数据块的最大压缩潜力,相较于固定算法,整体压缩率更高。
·高性能读写:
写(压缩)性能:算法候选列表避免了全局搜索,缩小了择优范围,兼顾了选择效率。
读(解压)性能:由于选择了最适合的算法,解压速度通常也更快。头信息机制避免了猜测,实现快速、准确解压。
·自适应与可扩展:系统框架是开放的,可以方便地扩展新的数据类型和压缩算法到候选列表中,持续优化。
3.技术本质总结
该专利的本质是一个智能的、轻量级的“数据压缩策略优化器”。它将人类对“不同数据用不同压缩工具更有效”的经验,转化为一套自动化的、可量化的工程系统。其突破性不在于发明新的压缩算法,而在于创造了一个高效决策层,通过动态选择现有最佳工具,从而在存储系统中实现了“鱼与熊掌兼得”——更高的压缩效率与更优的读写性能
专利技术应用产品/服务
该技术主要用于开源数据湖仓产品Databend和数据云平台Databend Cloud,在这两个产品中对数据的存储压缩和读写做了性能的优化,提升了压缩比,节省了存储空间,性能得到了快速提升,提升了性能。为使用这两个产品的用户,节省了成本、提高了查询性能。
开发团队
·带队负责人姓名:李本旺
Databend Labs高级工程师,专注于大数据实时计算与列式存储等核心技术领域,目前正致力于构建下一代弹性云原生数据仓库。
团队其他重要成员姓名:张雁飞
·隶属机构
Databend(北京数变科技有限公司)成立于2021年3月创立,初期成功完成多轮融资,得到了高瓴创投、华创资本、九合创投等投资机构的支持。团队汇聚了来自ClickHouse社区、Google、阿里云、青云、OceanBase等知名云计算和数据库公司的专业人才。团队成员在数据库和云计算领域拥有十年以上的丰富经验,曾贡献于多个开源项目,包括ClickHouse、Mysql内核(TokuDB)等。
Databend已成功替代了Snowflake、GreenPlum、CDH、ClickHouse等产品,为用户提供了基于Databend的大规模湖仓解决方案。
截至目前,Databend已成功应用于游戏、社交、金融、互联网、智能交通、广告等多个行业领域的客户项目中。
相关评价
团队使用Databend进行MySQL日志审计分析已有两年,整体运行稳定可靠。其主要优势体现在以下几个方面:成本低、导入速度快、兼容性强,并具备弹性扩缩容能力,支持按需自动伸缩计算资源。在查询量较少时,系统可自动缩减资源以节约成本;在需要时也能快速扩展,尤其适合查询负载不均衡的场景,从而兼顾经济性与灵活性。
——某上市科技企业数据工程师
Databend为我们带来了显著的降本增效。其存算分离与弹性架构降低了约90%的成本。同时,分布式引擎使查询性能提升60%,简化了运维,加速了数据价值兑现。
——某数字零售科技企业数据库运维主管
来源:数据猿
刷新相关文章
我要评论
不容错过的资讯
大家都在搜
























































