专访本原智数CTO林震亚:高质量数据,AI能力上限的背水一战
原创 放飞2000 | 2026-04-03 21:32
【数据猿导读】 高质量数据稀缺时代,人机协同的智能数据标注正改写AI能力边界。
“高质量数据稀缺时代,人机协同的智能数据标注正改写AI能力边界。
当互联网公开数据的99%被“耗尽”,其边际红利必然递减。随着AI的飞速发展,大模型已充分“消化”了易于获取的高质量公开语料,而剩余的互联网数据要么质量参差、要么重复率高,难以支撑模型能力的实质性跃升。与此同时,模型参数以指数级增长,而能满足特定任务需求、具备专业深度的“高价值数据”却只能以线性速度生产。这二者之间的裂痕,已从隐忧演变为深嵌于AI底层逻辑之中的结构性瓶颈。
而高质量的人工标注与审核,是确保数据真实性、专业性与多样性的可靠保障。这也意味着数据标注正从幕后走向台前,成为决定AI能力边界的关键基石。
为尝试在这场关于数据价值的重构与突围中,探寻变革的源头与路径。近日,数据猿采访到了本原智数CTO林震亚。林震亚的经历,恰是这个时代的一个注脚:他曾在某国内领先的大模型厂商担任研发负责人,但他却做出来一个看似“反常”的决定——加入一家数据标注公司。这场看似“逆行”的职业跨越,实则暗含着大模型与数据关系的根本性位移——当AI的竞争从模型架构的比拼,转向数据质量的角力,真正懂得模型的人,反而更清楚数据的价值所在。

从“算力军备”到“数据精耕”:
AI竞赛的逻辑正在被改写
曾经,谁掌握更多算力,探索出更优训练策略,谁就能在大模型赛道占据先机。如今,这一逻辑正在被改写。
林震亚认为,整个行业正逐渐行业正逐渐进入一个高质量数据相对稀缺的发展新阶段。想要进一步推动大模型性能的提升,需要聚焦3个核心攻坚方向,精准发力。
提升大模型的“智力表现”是第一个方向,这也是区别于传统深度学习工具的核心所在。传统AI仅能解决单一明确的任务,而大模型的核心价值在于具备类人思考能力,能够更高效地学习垂域知识、理解复杂需求,而非用笨拙的方式完成任务。这一方向的突破,离不开顶级算法人才与高质量认知数据的协同推进。
第二个核心攻坚方向是提升大模型处理“长程复杂任务”的能力。对于人类而言,日常工作生活多是由一系列关联紧密的细碎任务构成,而非高频的高难度难题。但当前AI智能体在处理这类连贯、复杂的长程任务时,仍存在诸多瓶颈,难以像人类一样灵活衔接、高效完成。
因此,无论是日常事务的规划,还是工作流程的推进,这类长程复杂任务的处理能力直接决定了AI能否真正融入人类生产生活,成为实用的生产力工具。
第三个攻坚方向则是增强大模型的“多模态与世界交互”能力。如今,大模型虽已能攻克顶级数学竞赛难题,但却难以像婴儿一样具备基础的空间理解和世界感知能力,这也是当前硅谷“世界模型”概念持续升温的核心原因。
提升多模态理解能力,让大模型能够精准感知空间关系,理解物体交互逻辑,实现与现实世界的有效联动,是打破AI“纸上谈兵”困境、拓展其应用边界的关键。这一方向的突破,需要对物理世界有深刻理解的专家参与,通过精准定义问题、提供针对性数据,推动模型迭代升级。
随着AI行业的不断成熟,以及产业链的专业化分工日益清晰,“大模型厂商定目标、数据公司做支撑”的格局逐渐成型。
林震亚认为,LLM大厂凭借自身资源优势,聚焦于定义AI产品目标、追求市场声量,一方面通过优化用户体验,满足终端用户的实际需求,比如大厂关注用户日常场景中的高价值需求,将其抽象为模型优化目标;另一方面通过“刷榜”提升行业影响力,抢占市场话语权。
与之相对,“顶尖的数据公司则在AI产业链中承担着‘核心支撑’的角色,深度参与评测标准(Benchmark)的构建与落地:一方面,将抽象的研究目标转化为可执行的数据方案;另一方面,通过高质量数据的规模化生产,为模型优化提供精准适配的燃料。”
从行业现状来看,数据驱动已成为AI大模型突破的切实路径,而数据公司的角色愈发不可替代。在AI迈入高质量数据相对匮乏的新阶段,数据公司不再是产业链的配角,而是决定AI能力上限、推动行业持续向前的核心力量。数据公司的核心竞争力不仅在于数据生产能力,更在于定义问题、明确优化方向的能力。这既是AI产业链走向精细化分工的必然趋势,也为数据服务企业开辟了全新的价值空间。
AI落地垂直领域
定制化数据成破局关键
进入到2026年,尤其是以Openclaw为代表的智能体技术的跃迁,加速了AI落地垂直产业的步伐,这对于数据标注也提出了新的要求。
众多企业虽在积极储备垂直领域数据,但仍存在显著短板,如数据主观性强、难以标准化等。对此,林震亚举了一个例子,“两位资深主任医师对同一病症的诊断结果可能一致,但诊断过程却存在差异,且缺乏客观标准判断优劣。若直接用于模型训练,极易导致模型出现偏差,影响应用效果。此外,高端专家资源获取困难,也进一步加剧了数据质量提升的难度。”
不同于低端数据标注人才可通过高校招募、社会对接等方式集中管理,医生等高端专家往往难以全职任职,无法长期参与数据处理工作。
今年,搭建高端众包平台已成为行业内的重点布局方向,成为破解数据痛点的重要组织创新。通过这种方式可以打破时间与空间的限制,整合各领域顶尖专家资源,让专家能够灵活参与数据定义、标注与审核等工作,既能解决高端人才短缺的问题,也能有效提升数据的专业性与准确性,为AI应用的落地扫清人才障碍。

同时,加速垂直领域数据的建设,核心在于思路的改变,林震亚提出了一个核心策略:以通用数据能力为基石,向高端定制数据持续跃迁。这意味着,企业既需要具备“多场景全覆盖”的工程化平台能力——这是服务广泛客户需求的基础;又需要在关键垂域构建“专家触达+智能体辅助”的深度能力——这是构筑竞争壁垒的关键。通用数据能力是“面”,高端定制数据是“点”,以面支撑点、以点带动面。
企业的核心护城河不在于囤积多少通用数据,而在于从0到1定义问题、提供定制化解法的工程能力。聚焦“最难目标”打造定制化数据,不仅能精准解决AI应用的核心需求,在攻克高难度任务的过程中积累的技术与能力,而且还能实现复用,进一步提升数据建设的效率与价值。
“边学边标”
人机协同如何提升数据标注效率?
随着AI行业从通用大模型向行业落地推进,数据标注已摆脱传统劳动密集型模式,迈入智能标注新阶段。
相较于传统标注,智能数据标注的核心优势是“边学边标”(Active Learning + Auto-labeling)的人机协同模式,即通过预标注算法与人工审核深度融合,在保障数据安全和标注质量的前提下,将标注效率提升数倍、大幅降低成本,成为破解行业痛点、支撑AI高质量发展的关键。
“边学边标”的稳定运行依赖两大核心技术支柱。其一为预标注逻辑,由AI先完成数据初步标注,为人工审核搭建基础框架,大幅减少重复劳动。
其二为自动质检逻辑,通过专业质检模型,在人工修正前后提前识别数据问题,规避标注偏差,保障数据准确性。
两大支柱形成“AI预标—人工修正—质检校验—模型优化”的良性循环,真正实现“边学边标、边标边优”。

理解智能标注的优势,需明确核心技术区别。预标注所用模型与行业前沿模型用途迥异。预标注采用“工程化组合模型”,整合市面最优模型接口及开源模型,核心目标是提升标注效率、辅助数据生产,适配各类复杂场景;而前沿模型多为“标准化单模型”,用于基于高质量数据单独微调,服务于学术研究或特定技术突破,与标注生产需求无关。
“对于我们而言,明确二者区别是清晰的战略取舍:我们的核心使命是‘生产高质量数据’,而非沉迷前沿模型研发、刷榜单或追求单一指标。实现这一点,在于通过工程化手段将预标注做到极致,凭借高效与质量控制,确立自身在数据供应链中的不可替代性,聚焦核心需求、避免技术内卷。”林震亚说道。
本原智数的实践生动诠释了“边学边标”的价值与“聚焦高质量数据”的战略。其自动标注平台实现多场景全覆盖,涵盖语音、图像、文本等领域,依托对算法的深度理解和工程化组合模型,预标注效率与质量远超同类企业。
在前沿项目承接上,本原智数直接对接大厂基模团队,跳过不专业的数据部门,承接大量Post-Training等前沿项目,设计类项目产能达其他供应商总和的10倍,质量通过率超95%。
同时,其联动高校实验室定义评测标准,推动科研成果规模化落地,依托顶尖专家网络攻克垂域难题,拒绝“大路货”数据,为AI前沿发展提供定制化高质量数据支撑。
林震亚进一步阐述说:“需要说明的是,对于规则明确、重复性高的任务,‘边学边标’可大幅提升效率;对于高度专业、主观性强的垂域任务,还需要专家定义标注逻辑与审核标准,智能体负责执行与辅助。”
专家触达+效能标尺+目标导向
垂直领域AI落地核心
但由专家定义和标注的数据并非无懈可击。正像前文所言,在医疗、金融、司法等垂直领域,AI落地面临独特挑战:垂域数据缺乏客观统一标准,直接训练易引入偏差,导致模型泛化能力差、难以测算实际效能。而高端专家的深度参与,恰恰是破解这一困局的关键——但专家的价值不在于逐条标注,而在于建立规则、把控关键、迭代标准。

基于这一认知,本原智数构建了“专家触达—Benchmark定义—智能体辅助—目标导向”的技术逻辑,锻造核心竞争力。
专家触达网络连接散落的高端智力。摒弃全职雇佣模式,搭建高端众包平台,链接医生、律师、金融分析师等资深专家。通过灵活协作,将分散的专业智慧转化为可复用的“活数据”,避免数据收集的封闭性与偏差。
定义垂域Benchmark,从“合规标准”到“效能标尺”。不盲从政府或机构标准,而是参照SWE-Bench等成熟评测体系,定义能精准测算人效提升的垂直Benchmark。例如,针对医疗诊断场景,设计可量化“模型辅助诊断准确率提升比例”“单病例处理时间缩短幅度”的测试集,直接关联企业成本与效能。
科研智能体辅助,快速突破模型边界。利用现有数据与专家资源,开发轻量化科研智能体,无需复杂调研与实验,直接基于真实数据测试模型能力边界,针对性标注Bad Case(如误诊案例、风控漏判场景),快速生成高质量垂域数据集,降低数据构建成本。
最后是目标导向,回归商业本质。所有数据集建设与模型优化,均需锚定“企业降本增效”核心目标,明确“降低多少人力成本”“提升多少业务产能”,通过Benchmark测算智能体表现(如达到人类专家90%水平可替代50%基础岗位),让技术落地可感知、可验证。
垂直领域AI落地的关键在于链接高端智力、设计可测算标尺、智能体辅助能力的融合。通过最大化专家单位时间价值(如用模型辅助标注提升效率)、以目标倒推数据建设,最终实现从“数据堆砌”到“效能提升”的跨越,让AI真正成为垂直领域的“生产力工具”。
具身智能
下一轮技术革命的必争之地
当人工智能从虚拟世界走向物理现实,具身智能(Embodied AI)正在成为下一轮技术革命的必争之地。
具身智能的核心,是让AI在开放的物理空间中完成感知、交互与执行。这一切的起点,是物理世界数据的获取与标注——但这已不再是简单的文字和图像标注,而是构建包含多模态、物理交互与时序信息的世界模型。

而构建世界模型,需要海量、可控、可标注的空间交互数据。物理世界的数据获取难度大、成本高、规模受限,产业界为此一直在艰难探索。
本原智数在物理世界与人机交互数据方面已形成独一份的竞争优势。通过对各类游戏虚拟场景的深度重构,能够提取纯场景的动作数据,剔除血条、装备栏等无关UI元素,只保留纯净的空间变化与动作逻辑。
这类数据不仅能支撑具身智能的仿真训练,比如为自动驾驶模型提供虚拟极端场景训练数据,降低实车测试成本,更是大模型领域稀缺的高壁垒资产。
林震亚认为:“在具身智能的迷雾期,唯有广度方能抵御不确定性,唯有深度方能构筑长期壁垒。通过前端的广度覆盖,适配各类具身智能落地场景,为不同技术路径提供数据支撑。通过后端的世界模型资产布局,掌握核心稀缺数据,构建难以超越的竞争优势。”
从通用大模型到垂直产业落地,从物理世界仿真到世界模型构建,数据正以更精准、更智能、更具专业深度的形态,成为AI迈向“真实生产力”的关键一跃。
在这场关于数据价值的重构与突围中,那些既能定义问题、又能规模化生产高质量数据的公司,终将站在AI产业的最前沿,成为撬动技术革命的那个支点。
来源:数据猿
刷新相关文章
我要评论
不容错过的资讯
大家都在搜









































































































