模型之外,数据为王:Meta天价收购揭示AI新战场
原创 俊驰 | 2025-07-17 21:23
【数据猿导读】 近日,Meta以148亿美元收购AI初创公司Scale AI的49%股份,这一交易将创下私营公司融资交易的历史新纪录。Scale AI是一家快速崛起的数据标注公司,拥有50多万遍布世界各地的员工,从事数据标注工作。这一重磅新闻释放了一个信号:数据在AI竞赛中的战略地位越发凸显——当模型军备竞赛...

“当模型军备竞赛陷入瓶颈,数据成为巨头争夺的下一个高地。
近日,Meta以148亿美元收购AI初创公司Scale AI的49%股份,这一交易将创下私营公司融资交易的历史新纪录。Scale AI是一家快速崛起的数据标注公司,拥有50多万遍布世界各地的员工,从事数据标注工作。这一重磅新闻释放了一个信号:数据在AI竞赛中的战略地位越发凸显——当模型军备竞赛陷入瓶颈,数据成为巨头争夺的下一个高地。
在这场由数据驱动、大模型实现、算力支撑的智能革命里,市场上几乎所有人都在攒模型、买算力,数据逐渐成为了这个“大三角”最薄弱的一环。
AI时代,一道悄然树立的“硅幕”
作家尤瓦尔·赫拉利指出,随着人工智能的快速发展,一道“硅幕”正在落下。这道“硅幕”不仅是企业之间,在企业内部同样显著。
☆数据割裂与治理缺位:恶性循环的根源
过去十年数字化系统的膨胀埋下隐患:业务、系统、部门间形成数据孤岛。其根源在于支撑工具链的深度割裂——数据采集、存储、处理、分析、建模、应用等环节采用互不联通的不同工具。这种割裂制造了人为“断点”,导致数据流动受阻、价值难以整合:看似各环节工具“完整”,却因无法协同而失效。
工具链的断裂必然引发数据治理缺位。一方面源于战略轻视(在很多企业数据治理被视为“成本部门”的脏活累活);另一方面受制于能力不足——将散碎数据转化为标准化的“数据资产”面临取数、治数、用数三重挑战。治理“失能”不仅使数据无法支撑动态业务,更会导致治理结果与业务脱节。
企业由此陷入 “高投入、低产出” 困局,加深决策层疑虑,最终形成恶性循环:数据链路断裂->价值损耗->AI决策失效->治理投入削减。打破循环不能仅靠意识觉醒,需要找到病根对症下药。
☆千头万绪一根针:数用一体是破局关键
数据治理问题根源在于传统的 “建用分离” 模式,致业务与数据系统 “两张皮”,如果不从底层颠覆这个运行模式,数据治理工作将是缘木求鱼。
产业界急需一场深层变革。数睿数据提出的“数用一体化” 方法论,提供了一条崭新路径。其核心理念是打破工具壁垒,将数据采集等全流程置于统一连贯平台,并实现深度工具融合,使得数据从源头可治理、复用,从而支撑高效自动化建模。这一全新模式从根源上突破了业务与数据“两张皮”的困境,将数据价值直接嵌入到业务流程中,穿越“硅幕”,实现从数据支撑应用,应用支撑业务创新的跨越。
“数用一体化”的理念引人注目,但关键在于能否落地。数睿数据近期发布了smardaten2.0平台,致力于将软件工程、数据工程与AI工程化融为一体。smardaten2.0平台的问世,也将“数用一体化”推向了新的高度。我们就以此为出发点,探察“数用一体化”与产业会产生怎样的化学反应。
AI解锁医疗数据的深层价值
自从OpenAI推出GPT-4,整个世界就进入到大模型时刻。大模型的到来深刻改变了数据生态,同时也深度塑造了AI的产业化进程。
在此背景下,数睿数据率先踏入无代码领域的大模型时代。其标志性成果是融入生成式AI能力的smardaten 2.0平台。该平台基于全域实时数据,通过“低代码+AI”驱动技术民主化,实现业务敏捷响应,并在应用生成、意图识别与命令执行、深度知识检索等方面实现能力跃升。
1.数据治理智能化:从“人工追数”到“AI主动管数”
smardaten 2.0依托 “专家知识库+AI双引擎”,推动数据治理从低效人工模式转向智能化,加速数据资产标准化:
·AI语义映射替代人工比对:某市卫健委想通过全民健康信息平台,为市民提供更加完善的公共服务。但平台涉及几十家医院,存在数据标准不一、数据集成统一复杂等挑战。数睿数据借助60+医疗数据模型知识库,自动识别同义表述并映射标准字段。如市卫健委45家医院 “血糖指标” 的11种说法,AI将单家医院标准化时间从3个月缩至8小时,技术门槛降70%;
·主动规则引擎适配标准迭代:将治理规则与业务场景绑定,医疗ICD编码更新时,AI自动扫描并批量更新,某三甲医院应对 “长新冠” 编码更新,时间从14天缩至40分钟,无需人工操作;
·NLP解析释放非结构化数据价值:通过自然语言处理将病历文本转为结构化数据,某区域医疗数据利用率从30%提至85%,为AI辅助诊断提供支持。
可以看到,数据治理智能化带来了效率的极大提升,并大幅降低了人工操作的环节。但必须说明的是,数据治理智能化的价值并非是为了替代人,而是让治理转为业务支撑,实现 “治理-分析-决策” 一步到位。
2.主动治理:从“消防员”到“领航员”
“数用一体化”的另一重要优势是实现了数据的主动治理。很多企业数字治理采用的是事后补救,被动治理为主的模式。在瞬息万变的数字时代,这样的模式很显然是存在巨大隐患的。
继续以卫健委为例,面对医疗数据的高敏感性和频繁更新的规范(如ICD-11编码),smardaten 2.0将治理规则直接嵌入业务场景(如门急诊、住院),利用语义引擎自动化执行转换规则。当标准更新时,系统能自动同步,确保历史数据无需繁琐重映射。实现数据的主动治理标志着从“消防员”到“领航员”的治理范式转变,实现了源头管控和全生命周期的自动化合规。
3.自然语言构建:公民开发的现实图景
2.0时代,数睿数据打造了深度思考引擎的“4+3”应用构建框架、Build Copilot以及Copilot Studio三大核心功能。“4+3”框架基于应用、页面、卡片、组件的软件4层颗粒度,以及数据、样式、逻辑的功能性3元素,对软件进行系统性解构,使AI能快速构建。Copilot智能体则提供智能搭建支持,涵盖需求分析、上下文理解、文档处理、知识库检索、对话流建设等能力,并支持组装式开发与扩展。
例如”智能问数“,用户仅需输入自然语言问题,系统即可自动识别意图,精准定位相关数据资产,并实时生成分析结果(图表/报表)。用户可在对话框中对结果进行交互式调整与优化。所有分析成果均支持一键插入大屏、文档或应用页面,实现高效复用。
“我需要一套MES生产管理系统,包含销售管理、工种管理、计划管理和分析大屏。” 10分钟后,系统自动生成了包含表单、数据分析模型的原型方案和可视化大屏。整个流程中只需要自然语言即可实现。
smardaten2.0展示了惊人的效率提升,在某些场景下,数据驱动AI的应用构建效率最高可提升10倍。更加重要的是,迈入2.0时代,数睿数据那个公民开发应用的梦想,开始照进了现实。
让“沉睡”的金融数据流动
化“数据孤岛”为“数据赋能”
我们再以一个银行的合作案例作为切口,窥探“数用一体化”在金融行业的实战情况。
该行曾深陷 “建用分离” 困境:12套异构系统形成数据孤岛,“企业客户” 在不同系统中被称为 “对公账户主体”“合作单位”“授信对象” 等,字段歧义导致数据无法互通;同时,原有CRM功能简陋,厂商响应业务需求需2个月,远跟不上大宗商品业务的迭代速度。
在smardaten2.0上,破局路径彻底颠覆了传统“先集中再治理”的模式:
☆AI驱动的“边治理边联通”
smardaten2.0依托金融知识库与AI语义引擎,对分散数据实施 “动态标准化”。AI能快速识别12套系统的异构字段关联,48小时就完成了传统3周才能搞定的跨系统数据映射,自动生成统一的 “企业客户” 数据资产目录。
更重要的是,治理规则和业务场景深度绑定:比如在 “跨境贷款审批” 时,平台预设了征信、纳税证明等校验规则,AI实时扫描数据,若发现贷款申请缺 “海关进出口数据”,会自动补全并标准化,让数据在流动中完成80%的标准化,打破了治理和应用脱节的问题。
☆数据直接“生长”出应用
治理后的标准化数据并非静态存于仓库,而是应用构建的 “活素材”。当业务人员提出 “对公客户分层管理模块(含资质评分、业务往来分析、风险预警大屏)” 需求时,平台基于治理后的客户数据,自动调用相关模型和算法,1小时内就能生成应用原型,全程无需技术人员,业务人员用自然语言指令即可完成。
更关键的是 “应用反哺治理” 闭环,当业务新增 “绿色信贷客户” 标签,平台自动识别补充 “企业环保认证”“碳排放数据” 等字段,AI实时从环保局、碳交易所抓取并标准化数据,同步更新到客户分层模型。“治理支撑应用迭代、应用驱动治理深化” 的循环,让该行CRM响应周期从2个月缩至72小时,客户数据调用效率提升90%,充分体现了 “数用一体” 核心价值 —— 数据是应用中持续进化的 “活性要素”,非 “治理完再搬运” 的静态资产 。
基于一体化平台,该行此前“沉睡”的数据,经汇总统一治理后,开始在系统与应用间高效“流动”,驱动数据分析与新业务构建,成为其从“数据孤岛”向“数据赋能”跃迁的战略支点。
数据护城河决定AI时代胜负
数睿数据是国内最早一批将AI技术与数据分析、软件开发结合的科技公司之一,它的发展历程是两次AI浪潮叠加向前的一个缩影。从smardaten2.0上,除了技术的升级之外,我们还看到了一个“以数据为中心的人工智能”模式,正在成型。可以看到,当前很多大模型公司最大的发展问题不在模型身上,而是来自数据生态的结构性塌陷。
如果把视角放置在数据与AI的整个产业中,数睿数据带来了三个重要变化。
1、从“单点优化”到“全链条协同”,加速了数据决策的效率。由于数据被动态激活,以数据为核心的决策成为现实,企业得以从“事后报表”升级为“实时决策”,从“人工分析”进化为“AI协同”,最终实现数据价值指数级释放;
2、重构了数据治理的内生驱动力,使数据治理从 “成本中心” 转向 “价值中心”;
3、形成三位一体的数智体系,确立“数据即资产、应用即组装、AI即业务搭档”的融合生态。
随着大模型技术的快速、持续发展,赛道将会变得越来越拥挤,市场正在迎来重新洗牌的局面。正如我们开头所讲的Scale AI,其创始人说:“大型语言模型(LLM)竞争中的护城河在哪里,我认为数据是少数几个可以产生可持续壁垒的领域之一。”
Meta的天价收购并非孤例,它昭示着一个新时代的开启:在模型军备竞赛之外,一场围绕高质量数据获取与高效治理 的“暗战”已然打响。能否穿透“硅幕”,构建强大的数据护城河,将直接决定企业乃至国家在AI时代的竞争力。处理好数据与大模型的关系,不仅是赢得竞赛的秘钥,更是拥抱智能未来的基石。
来源:数据猿
刷新相关文章
我要评论
不容错过的资讯
大家都在搜
