专访本原智数CTO林震亚：高质量数据，AI能力上限的背水一战

数据猿专访本原智数林震亚

原创放飞2000 | 2026-04-03 21:32

【数据猿导读】高质量数据稀缺时代，人机协同的智能数据标注正改写AI能力边界。

“高质量数据稀缺时代，人机协同的智能数据标注正改写AI能力边界。

当互联网公开数据的99%被“耗尽”，其边际红利必然递减。随着AI的飞速发展，大模型已充分“消化”了易于获取的高质量公开语料，而剩余的互联网数据要么质量参差、要么重复率高，难以支撑模型能力的实质性跃升。与此同时，模型参数以指数级增长，而能满足特定任务需求、具备专业深度的“高价值数据”却只能以线性速度生产。这二者之间的裂痕，已从隐忧演变为深嵌于AI底层逻辑之中的结构性瓶颈。

而高质量的人工标注与审核，是确保数据真实性、专业性与多样性的可靠保障。这也意味着数据标注正从幕后走向台前，成为决定AI能力边界的关键基石。

为尝试在这场关于数据价值的重构与突围中，探寻变革的源头与路径。近日，数据猿采访到了本原智数CTO林震亚。林震亚的经历，恰是这个时代的一个注脚：他曾在某国内领先的大模型厂商担任研发负责人，但他却做出来一个看似“反常”的决定——加入一家数据标注公司。这场看似“逆行”的职业跨越，实则暗含着大模型与数据关系的根本性位移——当AI的竞争从模型架构的比拼，转向数据质量的角力，真正懂得模型的人，反而更清楚数据的价值所在。

数据猿专访_本原智数_林震亚-1

从“算力军备”到“数据精耕”：

AI竞赛的逻辑正在被改写

曾经，谁掌握更多算力，探索出更优训练策略，谁就能在大模型赛道占据先机。如今，这一逻辑正在被改写。

林震亚认为，整个行业正逐渐行业正逐渐进入一个高质量数据相对稀缺的发展新阶段。想要进一步推动大模型性能的提升，需要聚焦3个核心攻坚方向，精准发力。

提升大模型的“智力表现”是第一个方向，这也是区别于传统深度学习工具的核心所在。传统AI仅能解决单一明确的任务，而大模型的核心价值在于具备类人思考能力，能够更高效地学习垂域知识、理解复杂需求，而非用笨拙的方式完成任务。这一方向的突破，离不开顶级算法人才与高质量认知数据的协同推进。

第二个核心攻坚方向是提升大模型处理“长程复杂任务”的能力。对于人类而言，日常工作生活多是由一系列关联紧密的细碎任务构成，而非高频的高难度难题。但当前AI智能体在处理这类连贯、复杂的长程任务时，仍存在诸多瓶颈，难以像人类一样灵活衔接、高效完成。

因此，无论是日常事务的规划，还是工作流程的推进，这类长程复杂任务的处理能力直接决定了AI能否真正融入人类生产生活，成为实用的生产力工具。

第三个攻坚方向则是增强大模型的“多模态与世界交互”能力。如今，大模型虽已能攻克顶级数学竞赛难题，但却难以像婴儿一样具备基础的空间理解和世界感知能力，这也是当前硅谷“世界模型”概念持续升温的核心原因。

提升多模态理解能力，让大模型能够精准感知空间关系，理解物体交互逻辑，实现与现实世界的有效联动，是打破AI“纸上谈兵”困境、拓展其应用边界的关键。这一方向的突破，需要对物理世界有深刻理解的专家参与，通过精准定义问题、提供针对性数据，推动模型迭代升级。

随着AI行业的不断成熟，以及产业链的专业化分工日益清晰，“大模型厂商定目标、数据公司做支撑”的格局逐渐成型。

林震亚认为，LLM大厂凭借自身资源优势，聚焦于定义AI产品目标、追求市场声量，一方面通过优化用户体验，满足终端用户的实际需求，比如大厂关注用户日常场景中的高价值需求，将其抽象为模型优化目标；另一方面通过“刷榜”提升行业影响力，抢占市场话语权。

与之相对，“顶尖的数据公司则在AI产业链中承担着‘核心支撑’的角色，深度参与评测标准（Benchmark）的构建与落地：一方面，将抽象的研究目标转化为可执行的数据方案；另一方面，通过高质量数据的规模化生产，为模型优化提供精准适配的燃料。”

从行业现状来看，数据驱动已成为AI大模型突破的切实路径，而数据公司的角色愈发不可替代。在AI迈入高质量数据相对匮乏的新阶段，数据公司不再是产业链的配角，而是决定AI能力上限、推动行业持续向前的核心力量。数据公司的核心竞争力不仅在于数据生产能力，更在于定义问题、明确优化方向的能力。这既是AI产业链走向精细化分工的必然趋势，也为数据服务企业开辟了全新的价值空间。

AI落地垂直领域

定制化数据成破局关键

进入到2026年，尤其是以Openclaw为代表的智能体技术的跃迁，加速了AI落地垂直产业的步伐，这对于数据标注也提出了新的要求。

众多企业虽在积极储备垂直领域数据，但仍存在显著短板，如数据主观性强、难以标准化等。对此，林震亚举了一个例子，“两位资深主任医师对同一病症的诊断结果可能一致，但诊断过程却存在差异，且缺乏客观标准判断优劣。若直接用于模型训练，极易导致模型出现偏差，影响应用效果。此外，高端专家资源获取困难，也进一步加剧了数据质量提升的难度。”

不同于低端数据标注人才可通过高校招募、社会对接等方式集中管理，医生等高端专家往往难以全职任职，无法长期参与数据处理工作。

今年，搭建高端众包平台已成为行业内的重点布局方向，成为破解数据痛点的重要组织创新。通过这种方式可以打破时间与空间的限制，整合各领域顶尖专家资源，让专家能够灵活参与数据定义、标注与审核等工作，既能解决高端人才短缺的问题，也能有效提升数据的专业性与准确性，为AI应用的落地扫清人才障碍。

数据猿专访_本原智数_林震亚-2

同时，加速垂直领域数据的建设，核心在于思路的改变，林震亚提出了一个核心策略：以通用数据能力为基石，向高端定制数据持续跃迁。这意味着，企业既需要具备“多场景全覆盖”的工程化平台能力——这是服务广泛客户需求的基础；又需要在关键垂域构建“专家触达+智能体辅助”的深度能力——这是构筑竞争壁垒的关键。通用数据能力是“面”，高端定制数据是“点”，以面支撑点、以点带动面。

企业的核心护城河不在于囤积多少通用数据，而在于从0到1定义问题、提供定制化解法的工程能力。聚焦“最难目标”打造定制化数据，不仅能精准解决AI应用的核心需求，在攻克高难度任务的过程中积累的技术与能力，而且还能实现复用，进一步提升数据建设的效率与价值。

“边学边标”

人机协同如何提升数据标注效率？

随着AI行业从通用大模型向行业落地推进，数据标注已摆脱传统劳动密集型模式，迈入智能标注新阶段。

相较于传统标注，智能数据标注的核心优势是“边学边标”（Active Learning + Auto-labeling）的人机协同模式，即通过预标注算法与人工审核深度融合，在保障数据安全和标注质量的前提下，将标注效率提升数倍、大幅降低成本，成为破解行业痛点、支撑AI高质量发展的关键。

“边学边标”的稳定运行依赖两大核心技术支柱。其一为预标注逻辑，由AI先完成数据初步标注，为人工审核搭建基础框架，大幅减少重复劳动。

其二为自动质检逻辑，通过专业质检模型，在人工修正前后提前识别数据问题，规避标注偏差，保障数据准确性。

两大支柱形成“AI预标—人工修正—质检校验—模型优化”的良性循环，真正实现“边学边标、边标边优”。

数据猿专访_本原智数_林震亚-3

理解智能标注的优势，需明确核心技术区别。预标注所用模型与行业前沿模型用途迥异。预标注采用“工程化组合模型”，整合市面最优模型接口及开源模型，核心目标是提升标注效率、辅助数据生产，适配各类复杂场景；而前沿模型多为“标准化单模型”，用于基于高质量数据单独微调，服务于学术研究或特定技术突破，与标注生产需求无关。

“对于我们而言，明确二者区别是清晰的战略取舍：我们的核心使命是‘生产高质量数据’，而非沉迷前沿模型研发、刷榜单或追求单一指标。实现这一点，在于通过工程化手段将预标注做到极致，凭借高效与质量控制，确立自身在数据供应链中的不可替代性，聚焦核心需求、避免技术内卷。”林震亚说道。

本原智数的实践生动诠释了“边学边标”的价值与“聚焦高质量数据”的战略。其自动标注平台实现多场景全覆盖，涵盖语音、图像、文本等领域，依托对算法的深度理解和工程化组合模型，预标注效率与质量远超同类企业。

在前沿项目承接上，本原智数直接对接大厂基模团队，跳过不专业的数据部门，承接大量Post-Training等前沿项目，设计类项目产能达其他供应商总和的10倍，质量通过率超95%。

同时，其联动高校实验室定义评测标准，推动科研成果规模化落地，依托顶尖专家网络攻克垂域难题，拒绝“大路货”数据，为AI前沿发展提供定制化高质量数据支撑。

林震亚进一步阐述说：“需要说明的是，对于规则明确、重复性高的任务，‘边学边标’可大幅提升效率；对于高度专业、主观性强的垂域任务，还需要专家定义标注逻辑与审核标准，智能体负责执行与辅助。”

专家触达+效能标尺+目标导向

垂直领域AI落地核心

但由专家定义和标注的数据并非无懈可击。正像前文所言，在医疗、金融、司法等垂直领域，AI落地面临独特挑战：垂域数据缺乏客观统一标准，直接训练易引入偏差，导致模型泛化能力差、难以测算实际效能。而高端专家的深度参与，恰恰是破解这一困局的关键——但专家的价值不在于逐条标注，而在于建立规则、把控关键、迭代标准。

数据猿专访_本原智数_林震亚-4