阿里云造第三代神龙,性能暴涨160%,号称算力全球最强 |
珠江路在线
2020年7月16日
【
转载
】时代财经 编辑:
|
|
阿里云弹性计算负责人张献涛 。 起源:阿里云公布会
7月15日,阿里云 宣告推出第三代神龙云服务器 。与上一代相比,第三代神龙云服务器的综合性能暴涨160%,比当前 寰球最顶级云服务器快30%以上,能提供顶级算力 。
传统服务器重要依赖堆硬件 晋升性能,而阿里云自研的神龙架构,基于硬件云原生理念, 攻破了 虚构化技术与CPU、内存、网卡等硬件的鸿沟, 施展出比传统物理机更强的性能 。当前, 寰球仅有亚马逊AWS和阿里云两家厂商通过 有关技术实现了 虚构化零损耗 。
时代财经从阿里云方面获悉,第三代神龙云服务器产品家族提供了最多208核、最大6TB内存,云盘IOPS(即每秒的输入输出量)高达100万、网络转发高达2400万、网络带宽高达100G,均为 寰球最高性能水平, 支撑CPU、GPU、NPU、FPGA等多种计算 状态,具备3分钟交付50万核vCPU的极速扩容 威力,是云原生的最佳载体 。
过去十年,阿里云的存储性能 晋升了2000倍,网络性能 晋升了500倍,整体算力以 均匀每12个月翻一番的速度增进, 超过了摩尔定律,这其中,阿里自研的神龙架构 施展了重要的作用 。
阿里云弹性计算负责人张献涛在 承受时代财经等媒体采访时,将 获得的 成就 归纳于“自研” 。神龙云服务器不只性能较上一代有了大幅飞跃,各项性能参数上,也代表云计算行业与传统数据 核心进一步拉开了差距,背后是阿里云的自研重心转向软硬件一体化 。
“以往 虚构化技术的设计思路,前提都是服务器和计算架构都已经定了,如何通过软件适配计算架构 。我们做神龙则是反其道而行之 。”张献涛 示意,“随着云计算向纵深方向进展,软硬一体化的架构设计将成为云技术架构的主流 。3-5年内,容器在IT架构里面占比将达到一半以上 。”
神龙架构诞生最初,是用以削减云计算行业的性能损耗 。
2009年,阿里云成立后,采纳了当时较为 风行的开源 虚构化软件XEN,之后在2014年 晋级到KVM架构,后者在 虚构机和硬件中间加了一个软件层--Hypervisor,直接运行在物理硬件之上,大幅减低了 虚构化性能损耗,但依旧有众多缺点,对产品和客户带来了 硕大的 挑战 。
首先是资源争抢,客户 使用的 虚构机和 虚构化治理系统的宿主机“共处一室”,带来 虚构机计算 威力的 稳定,云厂商没法把这台机器的全部算力给到客户 。此外,性能瓶颈会影响整个存储、网络的 虚构化,减低 巩固性, 无奈 支撑裸机服务 。
为了解决这一问题,阿里云于2017年推出首款自研神龙云服务器,采纳软硬一体的 虚构化架构 方案,解决了 虚构化性能损耗的问题 。
“我们不再 使用传统的像KVM、XEN这种 虚构化架构,而是自研了十分轻量级的Dragonfly Hypervisor(神龙架构),不只资源占用少,在 虚构化的效率 晋升方面也十分显而易见,在计算的颤动性方面 能够做到百万分之一级别,在业界处于十分率先的水平 。”张献涛介绍道 。
到2019年9月,阿里云 宣告第三代自研神龙架构,全面 支撑ECS 虚构机、裸金属、云原生容器等,贯通整个IaaS计算平台,并在IOPS、PPS等方面 晋升5倍性能 。在阿里巴巴内部,神龙架构已大规模 利用于淘宝、天猫、菜鸟等业务,解决巅峰值的性能瓶颈问题 。
在神龙性能保障 晋升160%的同时,张献涛 示意,成本价格方面反而有所 降落 。他指出,同样是8核32GB的实例,在阿里云上面的性能可能比 其余云高50%、60%,有的甚至一倍 。“客户关怀的都是性价比,我们的定价 本身就 比较低了,然而我们在性能方面,又高出一大截,整体来看,我们的性价比这种竞争优势是 比较显而易见的 。”
与此同时,神龙架构的进化也面临着不停的 挑战 。谈及神龙架构的研发过程,张献涛提到,普通会用半年或者9个月的 工夫来确保 巩固性 。“在第三代神龙架构研发的过程中,如何 能够在 快捷互联网迭代 模式下,实现芯片随着消费者周期迭代,而且同时确保 巩固性能,这对我们是很大的 挑战 。”
“ 其余公司也面临同样问题,一些公司都尝试了两三代,到现在还没有做出来 。做一个模型 容易,然而真正用到生产环境里面,尤其是短期内大规模 利用的话,这个 挑战我相信是会十分大的 。”
张献涛认为, 将来神龙架构主攻方向有三:一是存储性能要进一步 晋升;二是可信计算领域加密算法的 加强;三是与半导体芯片领域的探究 联合 。
弹性计算服务是云计算最 根底、核心的产品,也是阿里云在2010年的5月10日对外公布的第一个商业化的产品 。
从最早单一的通用计算,到推出异构计算与高性能计算产品,再到今日的一系列新品,阿里云弹性计算已 遮蔽互联网、金融、零售等行业近300种场景, 支撑了各种流量巅峰:如12306的春运抢票、微博热潮的暴涨流量、钉钉2小时扩容10万台云服务器等 。以上场景的极致 体现,均离不开阿里云自研的神龙弹性裸金属服务器 支撑 。
张献涛 示意,2016年,阿里巴巴经济体业务上云时,对产品提出了更高的 威力要求 。而在评估业界同行、 设施厂商芯片后,团队发现现有产品已经满足不了业务需求 。“由于他们的设计还是传统的X86架构,而我们今日的神龙架构对外的I/O,以及一些计算方面的优化, 其余厂商其实都没有考量过 。”
阿里云神龙计算平台负责人蒋林泉曾指出,众多云厂商 取舍走“捷径”,直接用开源技术搭建平台,看起来是“短、平、快”,实现 快捷上线的 动机,然而过于依赖开源技术, 象征着企业不足自主演进 威力 。阿里云则 取舍了自研的 路径,包含自研飞天、神龙等,并将自研重心转向软硬件一体化,逐步与 其余厂商拉开了 间隔 。
据张献涛 透露,第三代神龙架构全部 波及链路的东西,无论是存储还是网络,都 使用了阿里云自研的神龙芯片进行加快, 素来带来极致性能 晋升 。
“网络我们做到了2400万PPS(云计算参数,指每秒发包数量),是业界 其余厂商最好水平的至少3倍,这方面优势其实也是神龙芯片带来的 。”此外,存储和低延迟方面的性能,也是得益于神龙芯片加快的 威力 。
他进一步提到,“2016年我们还没有收购平头哥,假如自己去做SoC(系统级芯片)和ASIC(专用集成电路)的话,各方面IP都开发 实现的状况下需求2-3年,我们客户的业务是等 不迭的,所以我们用FPGA(半定制电路)做了第一代的神龙芯片 。今日有了平头哥,所以我们会和平头哥一同去做一些ASIC和SoC联合方面的开发和尝试 。”
张献涛认为,阿里自主研发的AI芯片寒光800是软件协同设计的 经典,“原来我们不得不用GPU,还是一个通用计算的并行计算 解决器,然而NPU出来了之后,它的推理算力比传统的GPU高好多倍,这个也是软硬件协同设计带来的一些优势 。”