܄

亚马逊 re:Invent 全球大会:把云计算交到更多人手里

【数据猿导读】 自研芯片,向来是云计算厂商着力的焦点,于亚马逊云科技来说也不例外。

亚马逊 re:Invent 全球大会:把云计算交到更多人手里

随着云计算的发展,云化世界已不再是未来。

作为全球云计算行业的开创者和探路者,亚马逊云科技所创办的re:Invent全球大会,一直是全球云计算领域的行业风向标。

2021年,正逢亚马逊re:Invent的第十年,亚马逊云科技再一次携众多技术创新成果而来,为蓬勃发展的全球云计算产业照亮前路,引领行业风向。

超过15年以来,亚马逊云科技(Amazon Web Services)一直以技术创新、服务丰富、应用广泛而享誉业界。根据Gartner Solution Scorecard 2021能力报告显示,亚马逊云科技以总评分94分位居行业榜首,且是全球唯一总分超90分的云服务提供商。

自研芯片的多重选择

自研芯片,向来是云计算厂商着力的焦点,于亚马逊云科技来说也不例外。

亚马逊_云计算_数据库-1

对此,亚马逊云科技大中华区产品部计算与存储总监周舸表示,随着实例多样化创新不断深入,云计算厂商必须专注到芯片研发的本身,从芯片的创新开始。

而亚马逊云科技的自研芯片创新之路,始于2013年。截至今日,自研芯片路线已实现数线并行,涵盖服务器芯片、训练推理芯片等多项赛道。

而在2021 re:Invent上,亚马逊云科技发布了自研通用服务器芯片Graviton 3、机器学习云端芯片Trainium,以及相应固态硬盘产品,进而强化自身在云计算领域的优势。

在数款产品中,通用芯片Graviton 3因性能飞跃而备受关注。据悉,采用Arm架构的Graviton 3基于Graviton2有25%以上的提升,浮点的运算能力提升更是超过两倍,且以实现应用。

对此,周舸坦言:“所有的芯片者都面临着选择的问题,Graviton3 GPU相对于Graviton2,晶体管数高出200亿个,而如何以更高规格实现最大的效能提升,成为了芯片设计过程中需思考的问题。”

一般而言,提升CPU性能主要有两大方向,一是提高频率,二是增加内核数量。前者实现起来十分容易,只是,云作为超大规模数据中心,并不能简单套用此类升级方案。

“提高频率确实能实现性能提升,但以现在的半导体功率与能力,提高频率也意味着功率、发热量的上升,这将会带来很多散热的压力和负载,从而增加了能耗,并降低了云的效率,最后使客户使用成本上升,因此我们在芯片频率提升方面尤为谨慎。”周舸解释道。

因此,亚马逊云科技并没有选择单纯地堆料、拉高频率,而是在设备实际使用情况中寻求问题的解答。基于此,以指令并行的方式增加内核宽度,成为了亚马逊云科技技术迭代的可行路径。

“指令并行,即同一个时钟周期里,内核能执行更多指令、完成更多任务。此外,我们还在同一个指令里面加载更多的数据量,这样即使不提升频率,也能通过同期效率提升实现性能的提升。”周舸谈道。

而内核增量方面,周舸坦言,增加核数确实不失为性能提升的良剂,但客户工作负载往往涉及大量大数据、微服务架构、HPC服务,对于内存的带宽和延时的敏感度极高。

在此背景下,剩余晶体管是增加核数,还是增加CPU的内存的带宽、降低延迟,成为了硬件迭代的又一个选择题。而最终,亚马逊云科技选择了后者。

亚马逊_云计算_数据库-2

基于上述“巧思”,应用Graviton3的Twitter性能提升约20%到80%、F1流体仿真效率提升40%、Epic《堡垒之夜》游戏性能体验大幅提升,实践应用过程中效能提升显著,且功耗大幅降低,从而降低客户以往高昂的成本代价。

此外,除通用芯片Graviton3, 基于Trainium的实例——Trn1同样是亚马逊云科技在自研芯片方面的一大亮点。

周舸指出,机器学习模型复杂度呈指数级增长,GPU、加速芯片本身已很难跟上其增长步伐,单卡性能已触达瓶颈。

针对该问题,亚马逊云科技给出的解答是并行训练。而想要实现并行训练、组建多卡训练,其难点并不局限于芯片本身,而多存在于内存与网络部分,这也成为了亚马逊云科技发力的重点。

通过增加内存与提升网络性能,亚马逊云科技拓展了集训训练规模,构建更适合专业芯片发挥的网络环境及其配套服务,从而实现机器学习训练能力的大幅提升。

作为亚马逊云科技自研芯片,无论是Graviton3,还是Trn1,均为其云服务而生。而对用户而言,云服务自诞生起,即代表着一个个API。因此,对云计算厂商而言,如何运营好API成为了自身云服务发展历程中亟待解决的命题。

打牢API底层,将创新能力交由用户

从应用场景出发,是理解API内涵的有效路径。

亚马逊云科技大中华区产品部数据类产品高级经理王晓野表示,不管是计算资源Amazon EC2,还是存储资源Amazon S3,亦或是创建网络拓扑、创建数据库的资源、起停关等,均属API应用。

时至今日,亚马逊云科技共有200多项云服务,其中大多数来自于其简单概念,旨在向用户提供最大程度的创新能力。不过,运维如此复杂的API系统并非易事。对此,王晓野指出,亚马逊云科技在15年API运营过程中总结出六大经验:

第一,对于API的构建,API是永远的。”一旦API被发布成为一个公共可用的服务,那么就会有成千上万得到客户不断去调用它。意味着我们对这个API的任何改动都是不明智的,而且是很危险的,我们不能够对原有的API进行删除或者更改。“王晓野解释道。

第二,对云厂商和任何API的设计者来说,最大的挑战其实就是向后兼容。对此,王晓野指出:”亚马逊云一直在坚持保持超高的向后兼容性,对于老版本的API他们并不允许被触碰和开发者的协定,也不可以去改变API已有的使用方式,只能在上面增加新的功能,而不会去删除或者改变已有的API。“

第三,应该以用户真正应用场景出发来构建API,寻求用户最需要的工具或服务,以及想要实现的功能,而不是局限于自身现有何种技术来加以实现。

第四,让API的故障模式有据可查。“一个真正的好的API和服务,不仅仅要让别人知道它工作的时候是什么样,而且要让大家知道,当它不工作的时候,开发者能真正知道它哪里出了问题,然后持续地去对它进行改进。”王晓野解释道。

第五,创建具有明确、特定目的、自描述的API。自描述其实对所有API是一个最基础的原则,但是真正能够保证它足够简洁,让开发者能够理解,需要回到一个最简单的逻辑,即足够简单,且为专门的功能所设计。

第六,对于API和云服务,要不惜一切代价地去隐藏背后的技术实现,以更好聚焦在用户的需求上。如果过早地透露了这些具体的底层实现,用户便可能过分关注于技术底层的变化,从而忽略具体的技术应用层面。

而如何驱动API应用,王晓野以机械为例,指出:“像有轮子、杠杆、轴轮就能构建手推车一般,通过简单机械组合便能构建复杂机械,在此过程中最熟悉复杂机械应用的人当属构建者们,云服务亦然。“

在此过程中,API所属的便是简单机械范畴。而作为云厂商,亚马逊云科技不需要为用户构建好最终的复杂机械,而是向用户提供基础元素,令其由此构建属于自身的云服务应用。可见,让更多用户成为创造者,成为了其API运维的重要内涵。

亚马逊_云计算_数据库-3

只是,亚马逊云科技想要实现的不止于此。亚马逊云科技大中华区产品部总经理顾凡坦言,希望能降低门槛,把云计算交到更多人手里。

降低门槛,实现技术的普惠化

“降低门槛本身就是云计算的一个非常重要的核心价值。”顾凡如是说。

在他看来,无论是初创公司,还是体量庞大的企业,在云计算应用层面都应处于同一条起跑线。而不论是开发人员、运维人员及数据科学家,还是行业用户或云计算初学者,都存在有云计算需求。因此,云计算需要降低门槛。

如何降低门槛,释放数据价值?亚马逊云科技从多个层面予以解答。

首先是业务层面。本届re:Invent上,亚马逊云科技推出多项服务与功能,试图降低用户的使用门槛:“我们推出Amplify Studio,允许前端的开发人员以低代码的方式,在手机端、web端实现端到端的,包括UI、包括后端业务逻辑创建的能力。”王晓野阐述道。

亚马逊_云计算_数据库-4

而除面向开发人员的Amplify Studio外,亚马逊云科技还发布了Amazon DevOps Guru for RDS,通过亚马逊机器学习模型自动识别和分析各种潜在的性能问题,以降低了运维人员使用云的门槛,为运维人员消除无差别的繁琐的工作。

“此外,为降低业务人员使用机器学习的门槛,我们同时推出了Amazon SageMaker Canvas,它使业务用户或者数据分析师无需任何机器学习经验或者任何代码,使用拖拉拽的功能,就能简单生成一个机器学习的分析,并且和数据科学家进行协同。”亚马逊云科技大中华区机器学习产品高级经理张洋介绍道。

对此,IDC中国助理研究总监卢言霞认为,Amazon SageMaker Canvas通过简单点击即可完成整个机器学习工作流,值得没有技术背景的分析师,以及聚焦业务分析层面但希望实时数据洞察的分析人群关注。

值得注意的是,上述产品仅是亚马逊云科技业务下探的冰山一角,想要真正将云计算交到更多人手里,显然不能局限于业务层面。

因此,亚马逊云科技宣布成立1000万美元人工智能和机器学习奖学金(Amazon AI & ML Scholarship),用于奖励全球范围内弱势群体和服务设施欠缺地区的学生,帮助他们做好准备,在未来从事机器学习相关工作。

艾瑞咨询研究副总监王成峰谈到,亚马逊云科技打造出了多款面向更多非IT人群的终端应用,将数字技术红利的“普惠化”,令人印象深刻。

而目前,亚马逊云科技已提供超过200项全功能的服务,基础设施遍及25个地理区域的81个可用区,服务于全球数百万客户,支撑其基础设施,提高敏捷性,降低成本。

文:威化化 / 数据猿


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

【金猿产品展】OceanBase 原生分布式数据库——从根本上解决海量数据管理的问题
【金猿产品展】OceanBase 原生分布式数据库——从根本上解决...
【金猿技术展】OceanBase 社区版——一款开源分布式HTAP数据库管理系统
【金猿技术展】OceanBase 社区版——一款开源分布式HTAP数据...
【金猿产品展】齐治DSG数据库安全网关系统——统一的数据库操作管控平台
【金猿产品展】齐治DSG数据库安全网关系统——统一的数据库操...

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部