首都在线董事长曲宁:AI推理时代,云计算如何走出GPU碎片化困局? | 数据猿专访
【数据猿导读】 在这场变革中,众多云服务商积极拥抱机遇,构建面向未来的智能算力基础设施。近期,数据猿采访了北京首都在线科技股份有限公司(以下简称“首都在线”)董事长曲宁,深入探讨了其在智算时代的战略布局、技术创新、市场洞察及未来展望。

“一体两翼,云网出海!
随着人工智能技术的飞速发展,云计算行业正经历一场深刻的转型,从传统的通用计算迈向智能化、场景化的智算时代。在这场变革中,众多云服务商积极拥抱机遇,构建面向未来的智能算力基础设施。近期,数据猿采访了北京首都在线科技股份有限公司(以下简称“首都在线”)董事长曲宁,深入探讨了其在智算时代的战略布局、技术创新、市场洞察及未来展望。
当前,云计算行业正从以CPU为核心的通用计算,向以GPU为主导的智能化、场景化智算服务演进,这一趋势已不可逆转。传统CPU通用计算虽仍占据主导地位,拥有长达15至20年的积累和庞大存量市场,尤其在游戏、电商和音视频等领域表现突出,但GPU所驱动的智算需求正以前所未有的速度增长。首都在线判断,未来3-5年,中国市场的推理算力需求增速或达当前中国训练算力规模的50倍以上,其实也预示着推理端巨大的市场空间。这种爆发式的增长,无疑将重塑云计算的未来格局,推动整个行业向更高阶的智能服务迈进。
作为一家深耕云计算领域多年的企业,首都在线很早就前瞻性地布局了智算赛道,并于2023年开始逐步夯实智算战略,开始建设“融合智算云”。首都在线坚定推进“一体两翼”智算发展战略,以融合智算云为一体,多元算力和开放算池为两翼,凭借统一调度、异构池化、弹性接入等核心能力,依托智能高效的云端算力服务,以“云+智+网”一体化的发展路径赋能千行百业。
一体两翼的定位,精准把握了AI时代算力消费的新模式,将复杂的底层算力抽象为更易于消费和管理的Token,极大地方便了用户。同时,首都在线还积极响应国家“东数西算”战略,延伸至国家战略节点的数据中心建设和全产业链布局,逐步构建完整的智算生态系统。首都在线在全国范围内优化算力布局和服务能力的提升也得以体现。而“两翼”则正是“一云多池”和“一云多芯”的具体体现,共同支撑起首都在线在智算时代的全面转型,构筑其差异化的竞争优势。
“一云多池”与“一云多芯”:
破解算力碎片化与国产化挑战
谈及“一云多池”和“一云多芯”的具体内涵,首都在线解释道,“一云多池”意味着他们不仅拥有自建的资源池,还能高效纳管和调度外部的GPU资源池。当前,中国GPU资源普遍呈现高度碎片化,从政府到各类企业都在建设规模不一的GPU资源池,但普遍缺乏专业运营和销售能力,导致大量算力资源处于闲置或低效利用状态。首都在线通过其“一云多池”技术,将这些分散的GPU资源进行整合、封装和调度,最终转化为可对外提供的标准化云服务,有助于解决算力资源分散、利用率低的行业痛点,为客户提供了更加灵活、高效的算力选择。这种模式不仅优化了资源配置,也为各类算力拥有者提供了变现渠道,形成良性循环。
而“一云多芯”则聚焦于国产芯片的适配和云服务化。作为一家上市公司,首都在线认为推动国产化是其义不容辞的社会责任。尽管英伟达(NVIDIA)的CUDA平台目前仍是并行计算的主流标准,但国产芯片的崛起势不可挡,正逐步在特定领域展现出强大的竞争力。首都在线积极携手多家国产芯片厂商,推进芯片适配工作,并探索各芯片适配的业务场景,力求将国产算力资源有效地融入其云服务体系。
通过自主研发管理芯片及配套系统,他们正努力构建自主可控的云操作系统,稳步实现多元算力布局,为用户提供更多元、更可靠的算力选择。这项工作的难度在于每种芯片都有其独特的生态,逐一适配工作量巨大且成本高昂,因此首都在线必须聚焦于特定的客户群体和应用场景,例如针对特定行业或特定工作负载进行深度优化,以实现高效且有价值的适配,推动国产算力的商业化落地和规模化应用。
AI算力布局:网络优势下的推理先行
在AI和算力层面,首都在线聚焦于推理和训练业务。凭借其深厚的通信基因和全球传输网络优势,他们在推理业务方面具有显著的竞争力。推理业务对网络延迟要求极高,客户希望实现“秒回”的用户体验,而首都在线的大带宽全球传输网能够相对满足这一需求。因此,他们的战略选择是同时兼顾推理和训练,但会重点发力对网络要求更高的推理业务。
首都在线提供定制化的合作模式,针对大模型客户的特定需求进行部署。例如,他们为国内某基础大模型领域头部客户提供了上万张推理卡的租用服务,这极具代表性。此外,首都在线还推出了“一体机”和“云上办公系统”,为对数据安全敏感的企业提供解决方案。企业可以将生产数据保留在本地一体机上,而模型微调等计算则在云端同构的云主机上完成,微调结果上传,实现数据不出企业,有效保障了数据安全与合规性。
推理应用场景:游戏出海与AIDN
首都在线的推理客户具有多样性,覆盖多个行业。一个非常典型的场景是游戏行业,尤其是在文生图(Text-to-Image)应用方面。过去,游戏原画制作需要大量的原画师,例如绘制三国题材可能需要80-100位原画师。现在,通过文生图技术,不到一分钟就能生成一幅高质量的原画,极大地提高了效率并节省了成本。利用AI识别30种方言,并根据文本描述生成“五虎将”的角色形象,其效率是传统方式的数百倍。
这种变革性的效率提升,使得游戏行业正在大规模采用这项技术,将其应用于美术设计、角色生成、场景构建、故事板创作等多个环节,从而加速了游戏的开发周期并降低了成本。
另一个重要趋势是AI应用的“出海”。首都在线观察到,海外客户直接使用推理模型应用,通过其全球传输网络,将国内的算力通过他们的传输网络送达其所在区域。这类似于传统的CDN(内容分发网络),首都在线称之为AIDN(AI Distribution Network),即根据当地客户使用最多的算法,直接在本地设置小型资源池进行缓存,实现毫秒级响应;对于可以接受一两秒延迟的应用,核心算力则集中在国内进行统一调度和管理,兼顾效率与成本。
首都在线认为,在CPU时代,中国云服务商难以直接在海外销售产品,国际化进程面临诸多壁颈和限制。但AI时代的“应用出海”模式正在改变这一局面。用户购买的是封装了算力的AI应用,而非直接的算力服务,意味着算力归属变得不再是核心考量。因此,他们判断AI出海可能会是一个大趋势,未来所有算力都可能部署在国内,通过其全球网络提供服务。或许,这将为中国云服务商带来前所未有的全球化机遇,实现“计算在国内,服务全球化”的新范式。
云网一体全栈式设计:
构建差异化竞争优势
面对多元异构的算力环境,尤其是不同芯片架构的适配,首都在线表示,他们在CPU时代就已经通过技术栈实现了这一点。当前,他们认为像OpenAI推出的Open API、Disc正改变游戏规则,它们降低了大模型应用的门槛,让即使是普通算法工程师也能调试7B(70亿参数)规模的模型。
现在,对于80%以上的企业而言,核心不再是模型的复杂性,而是数据的生产和管理。企业更关注自身业务数据的筛选、清洗、去重和微调,以生成高质量的私域数据,从而赋能自身的生产业务,提升运营效率和决策质量,实现真正的智能化转型。
因此,首都在线坚信未来AI的提供方式仍将是云服务。对他们而言,这只是在原有十几年公有云运营经验的基础上,提供一个更加方便的企业级“一体机”和“云主机”服务。无论是裸金属、云主机、API接口还是Token,他们都能提供,核心在于实现资源的池化和调度,以及多租户、跨可用区地域的计费管理,这完全符合他们深耕公有云多年的架构优势。
首都在线的“云网一体全栈式”设计,是基于他们作为一家通信公司从运营商环境成长起来的基因。他们的工作原则是“先行通网”,因此网络是他们的核心能力和战略支点。他们构建了超过几万公里的全球海缆和路缆光纤网络,与全球过百家通信运营商实现互联互通,提高了全球范围内的网络覆盖和连接质量。基于此,他们能够提供端到端的云网融合解决方案,为客户提供一体化的服务体验,从底层网络到上层应用,实现无缝对接。
其战略规划的核心在于面对巨头竞争时,要先发制人,联合统一战线,广交朋友。首都在线专注于做好“一体两翼”,在上层应用层面与合作伙伴共同构建全栈技术。这意味着他们不仅提供底层的云网基础设施,还开发了Master平台以及面向各种场景的上层软件。他们致力于打造一个高效的云平台,产品涵盖数据中心、一体化应用及解决方案,支持多芯协同、裸金属与容器服务,助力大模型伙伴发展。首都在线的目标是实现云、网、算力的一体化融合交付,为客户提供快速、安全、稳定的服务。
通过此次深度访谈,我们看到了首都在线在智算时代的坚定转型与创新实践。
首都在线的战略,其核心不是造芯,也不是建最贵的智算中心,而是以“云网调度”为基础,搭建一个可以整合异构资源、分发多样模型、服务多类客户的AI算力交付平台。
它走的,是中型云服务商在AI时代可能走得通的路径——
·用网络基建打穿地域障碍;
·用产品体系抽象算力复杂性;
·用平台机制撬动芯片、模型等上游资源;
·用标准服务形态降低客户门槛与迁移成本。
这不是轻松的路线。但如果说AI基础设施的上半场是芯片战争、训练大战,那么下半场就是调度战争、服务战争。
在这场下半场较量中,像首都在线这样的中量级玩家,未必能主导资源,但完全可以主导连接方式。而连接方式的效率,往往决定价值的大小。
来源:数据猿