在AI的风口里,OceanBase却选择了蹲下打地基
原创 月满西楼 | 2025-05-19 19:27
【数据猿导读】 AI时代对数据基础设施提出了哪些新的要求,又应该怎么来应对呢?5月17日在OceanBase第三届开发者大会上,OceanBase的一系列举动,也许可以给我们一些启示。

过去一年的AI热潮,俨然成了“全网最热”的话题。从生成式AI的火爆,到“千亿参数”模型的不断突破,AI进入了从研究到应用的“爆发期”。无论是创作、编程,还是机器人、自动驾驶,AI似乎开始无处不在,成为了各行业的大杀器。
但问题是,当所有的目光都聚焦在如何让AI更强、更智能、更普及时,真正决定AI能否大规模落地的,却是一个我们常常忽视的东西——数据底座。是的,在很多情况下,AI不缺算法,也不缺算力,它缺的是稳定、快速、高效的数据管理平台——一个能承载起庞大数据流动、分析和处理的基础设施。
那么,AI时代对数据基础设施提出了哪些新的要求,又应该怎么来应对呢?5月17日在OceanBase第三届开发者大会上,OceanBase的一系列举动,也许可以给我们一些启示。
旧数据底座,
为什么撑不住AI“大厦”?
AI看起来很炫,但落地才是最大挑战。生成式AI已经开始影响几乎所有行业,然而,随着数据量的爆炸性增长,传统的数据库开始显现出它们的短板。数据的规模、结构和处理方式,已经超出了传统数据库的承载能力。
☆数据爆炸式增长,传统数据库捉襟见肘
根据IDC的预测,到2028年,全球新生成的数据量将达到惊人的393.9ZB。这意味着,从互联网、移动互联网,到医疗、金融到零售、制造,各行业每天都会产生和积累海量数据。而传统数据库在面对这海啸一般的数据,往往显得力不从心。
☆数据结构复杂化,如何统一?
AI应用要求数据库能够灵活、快速地处理来自不同来源和形式的数据,而这些数据的结构差异是AI应用能否成功的关键所在。从结构化到非结构化,再到多模态数据,数据本身的复杂性要求数据库必须具备超强的整合能力。
但传统数据库的架构无法应对这些新兴需求,它们大多以单一数据类型为主,导致当结构化、非结构化数据并存时,往往需要使用多个数据库来分别处理。这种“多库并存”的方式,不仅导致管理上的复杂性,还带来了系统间的互通性问题,增加了数据存取的时间和成本。
☆AI落地要翻过去的“三座大山”
AI在实际落地时,总会遇到三大“拦路虎”:成本、安全性、效率。这些挑战正是传统数据库无法完全解决的痛点所在。
成本高:AI应用需要巨大的计算资源,而数据存储和计算的费用常常高得令人咋舌。传统数据库在面对大数据量、高并发时,难以提供可伸缩的解决方案。
数据碎片化严重:随着数据来源和种类的多样化,企业常常面临数据孤岛现象——不同系统中的数据难以互通,无法高效整合。传统数据库的存储方式和查询机制,未能有效打破这些障碍。
安全性难保障:AI应用涉及大量的敏感数据,而传统数据库往往难以在高速数据访问和安全防护之间找到平衡。
这些问题,都是传统数据库架构无法高效支撑AI规模化商用的根本原因。AI对数据的处理不仅要求高效,还要求智能,而传统数据库在这方面的能力已远远不足。
AI时代需要怎样的数据底座?
说到数据库和AI的关系,很多人会认为只是简单的“Data + AI”结合:数据加上AI算法,两个部分的简单叠加。但这种看法过于简化了问题。现实中,真正需要的是Data × AI,即数据与AI深度融合。
在AI应用中,数据和模型是互相依赖的。简单来说,AI不仅仅依赖数据,更需要依靠一个统一的数据库/数据引擎来进行实时计算、优化数据质量,并为模型提供精准、快速的数据支持。只有在数据和AI深度融合的基础上,AI的效能才能最大化。
在AI时代,数据库不仅仅需要存储数据,它必须具备以下几项核心能力,才能支撑复杂的AI应用:
1. 分布式处理海量数据:AI应用需要处理海量的数据,而传统数据库的单机模式往往难以满足这一需求。分布式数据库能够通过水平扩展提供无限的存储和计算能力,在应对大规模数据时不再受限。
2. 一体化支持多种数据格式:AI应用中的数据不仅仅是结构化的表格数据,还包括文本、图片、视频等非结构化数据,甚至包括像传感器数据等半结构化数据。
3. SQL + AI 混合计算:在AI应用中,数据不仅需要存储,还需要进行智能化计算。
4. 向量检索能力:在AI应用中,特别是自然语言处理、计算机视觉等领域,向量检索能力至关重要。
这已不是传统数据库能提供的能力。“Data × AI”,不仅仅是把AI和数据结合在一起,更重要的是通过技术创新,打破传统数据库架构的局限,打造出一个能够支撑AI应用落地的平台。这也正是OceanBase努力的方向。
OceanBase做了什么?
当大多数企业仍在争夺AI算法和应用的流量入口时,作为数据库厂商,OceanBase选择回到源头,重新审视AI发展的最底层——数据基座。他们没有追风口,而是悄悄打地基。现在,这条路终于开始显露出价值。
一个月前,OceanBase公布了自成立以来最大的一次战略升级。他们提出“Data × AI”战略,从组织架构、技术体系、产品路径三方面同步展开,目标很明确:成为AI时代最坚实的数据底座。
1. 从组织上重投AI
2025年4月,OceanBase CEO杨冰发出一封内部全员信,正式宣布公司全面进入AI时代。为了确保战略落地,他们没有仅仅喊口号,而是动了“筋骨”——组织重构、人才布局围绕AI展开。
CTO杨传辉被任命为AI战略一号位,全面统筹技术方向。
成立AI平台与应用部、AI引擎组,从底层引擎到上层平台分工明确。
原有开发工具团队(ODC、OAS)并入AI平台部,集中力量打造RAG框架、知识库、AI服务等核心能力。
组织上的调整,意味着这不只是一个“试水项目”,而是OceanBase对AI的深度承诺。蚂蚁集团也表态,支持OceanBase攻坚AI关键场景,配合其技术演进。这种“自上而下”的投入,正是大多数技术公司在AI时代转型中所缺失的。
2. 技术栈升级,将“一体化”走到底
如果说组织重构是战略框架,那技术演进就是它的“肌肉和骨骼”。OceanBase在架构设计上没有选择模块化的“拼凑式”方案,而是坚持最难走的一条路——从第一天就强调“一体化”。
这套“难而正确”的选择,如今成了OceanBase在AI时代的最大优势。
多模融合存储:OceanBase打通了行存、列存、KV、文档、向量、倒排等六种存储模式,让结构化、半结构化和非结构化数据可以在同一平台统一管理。这是AI场景中数据杂乱、来源多样的最佳解法。
向量技术突破:向量性能是AI落地的重要基石,经过跑分测试,OceanBase的向量性能已经达到开源业内的领先水平,此外OceanBase自研HNSW + BQ量化算法,在保证召回率和性能的基础上,将向量场景的内存成本降低了95%。这意味着企业可以用更低成本处理大规模AI检索任务。
SQL + AI混合检索能力:通过内核级集成的向量引擎与传统SQL查询引擎,OceanBase实现了结构数据与向量数据的混合检索,查询效率与精度同步提升。同时支持自然语言查询、智能SQL生成等能力,让开发者无需懂复杂算法,也能搭建AI应用。
JSON压缩能力领先MongoDB三倍:针对AI中大量产生的半结构化JSON数据,OceanBase提供了深度压缩能力,在TPC-H标准测试中,压缩效率可达MongoDB的3倍。这在企业真实场景中,意味着数据存储成本的大幅降低。
这些技术细节不是炫技,而是实打实的工程能力——正是这套从底层到上层的能力积累,让OceanBase成为AI落地过程中少数能接住“泼天流量”的数据库产品。
3. 产品创新的脚步也没停下来,发布PowerRAG、AI一体机、共享存储
技术之外,OceanBase也在产品层面迅速“出招”。其中,PowerRAG、共享存储,就是其最新的成果。
先看看PowerRAG,这是一款开箱即用的RAG(Retrieval-Augmented Generation)应用开发框架。传统RAG开发门槛高、流程复杂,而OceanBase将文档处理、数据索引、检索、生成等能力模块化封装,只需简单调用接口,企业就能快速构建自己的问答系统、智能助手或知识图谱。
OceanBase同时还发布“共享存储”产品,该产品将对象存储与事务型数据库(TP)深度集成,打破了传统数据库对本地磁盘和云盘的依赖,实现了计算与存储的解耦。通过这种方式,OceanBase大幅提升了云上数据存储的弹性扩展能力,同时在TP负载下,存储成本最高可降低50%。
这些产品是OceanBase从做“数据库”,走向AI时代“数据底座”的能力延展。他们守住数据与AI融合的关键一环,用更少的工程成本、更高的数据效率,让AI真正落地。
OceanBase树立了一个
怎样的“风向标”?
在一场被模型参数和GPU算力主导的AI竞赛中,OceanBase显得有些“逆势”。它不追爆款应用,也没有推出自己的大模型。它做的是最不显眼,却也最不可或缺的一块——重塑AI时代的数据基础设施。
☆从“存储”到“底座”,数据库的角色正在重写
过去,数据库是IT系统的中间环节,用于存储业务数据,支撑事务处理。它的重要性被默认为“理所当然”,却很少被放到AI叙事的C位。但AI时代改变了一切。
今天,大模型不是孤立运行的,它需要依赖高质量的数据进行训练、微调和推理。生成式AI看似依赖算力和算法,实际上,谁能提供稳定、可控、结构清晰的数据输入,谁就掌握了AI真正的底盘。
OceanBase清楚地意识到了这一点。它不只是把数据库变“快”或者变“智能”,它正在让数据库从一个“信息容器”,变成一个具备计算、理解、推理能力的AI基础设施。这种转变,才是真正AI Ready的底座。
☆一体化,不只是口号,而是工程哲学
无论是多模融合的存储引擎,还是支持TP/AP/AI混合负载的查询能力,OceanBase始终坚持“一体化”的技术哲学。
这条路极其难走:它要求从产品架构层就开始统一设计,不能像传统方案那样“拼接”不同模块。它意味着技术团队要在同一内核中解决多种负载的资源调度、性能瓶颈、数据一致性等难题。这是多数数据库厂商回避的挑战,也是OceanBase选择的路线。
为什么要坚持?CTO杨传辉的解释很简单:“用户需要的不是一个个孤岛,而是一套能跑通全流程的系统。” 在AI场景里,数据训练、推理、检索、反馈是闭环流程,分裂的系统只会带来更高的成本和更差的体验。而一体化,则意味着低成本、高效率、高一致性的“全链路数据支撑能力”。
如今,不止OceanBase,越来越多云服务商、数据库厂商也开始转向“统一架构”“混合负载”“多模一体”的技术路线。OceanBase快人一步,用实际产品提前验证了这条路的可行性。
☆数据底座,是国产技术的新赛道
作为100%根自研的国产数据库,OceanBase是中国首个打破TPC-C、TPC-H权威测试世界纪录的数据库,是少数能在核心金融级业务中承压运营的产品之一,如今又致力于打造AI时代兼顾性能与性价比的数据底座。更重要的是,它不是一个“单点突破”的产品,而是在完整产业链条上建立能力闭环的解决方案提供者。
这对于中国科技生态非常有借鉴价值。过去我们习惯在应用层突破,在模型层追赶,但在数据基础设施这一层,依然存在不小的技术空白。而OceanBase用15年走出的路径,提供了一种可能——从最底层打磨出一套中国人自己的AI基础设施。
☆引领行业生态“去模型中心化”,让人们看到模型、算力之外的底层设施
今天我们谈AI,谈模型,谈AGI的想象力,但如果没有像OceanBase这样重新建构底层基础设施的企业,这一切想象都将难以落地。模型的上限,永远取决于数据的下限;AI的高度,终将由底座的厚度决定。
在接下来的几年里,我们还会看到更多模型参数、更多推理框架、更强的开源社区。但同时,也会有越来越多的人开始意识到:“未来不只是属于算法、算力更强的人,还属于数据根基更深的人。”
而OceanBase这样的国产数据库厂商,正在成为那个深挖地基的人。当然,这样的厂商并不只是OceanBase,还有无数厂商正在摸索前行。
来源:数据猿
刷新相关文章
我要评论
不容错过的资讯
大家都在搜
