阿里云架构变革背后:刺破宁静 激活新增长

tc 2022-6-18 55

阿里云正通过一场体系架构的变革,刺破行业宁静,重新定义下一代的云。

借此,它将不仅进一步奠定云计算、数字化技术底座基础,还将有望重新激活核心板块IaaS层、PaaS层的效能与高质量增长,大幅扩充技术增值,提升综合毛利,最终带动整个SaaS化生态的进程。

这一信号,集中闪烁在几日前的阿里云2023财年首场峰会上。

按往年风格,阿里云智能总裁、达摩院院长张建锋(花名:行癫)常会在首场峰会抛出影响全年或更长一段的整体战略、升级动向,为全年定下基调。当然也会有核心技术与产品,但更为关键的进展,大都会在下半年云栖大会释放。

这次味道有点不同。

“今年我们最重要的策略是B2B,就是Back to Basic,回到云计算本质。云计算的核心竞争力是技术,我们坚持在技术的长征路上,不断取得新的突破。”当日,行癫演讲中强调。

Back to Basic,回归核心技术。倘无重磅技术创新,峰会可能空洞,很难形成年度战略指引。

那么,上述所谓刺破云计算行业底层宁静感的底层技术创新,是个什么呢?

那就是行癫抛出的一个面向下一代云计算服务的全新体系架构,也即“CIPU+飞天云操作系统”。

架构创新大都不轻松。既可能涉及微观的设计创新,也可能涉及重大的体系架构。你知道,10多年前,阿里云就倡导“去IOE架构”。至今诸多关键垂直场景,仍在渗透与替换。

飞天云操作系统早有口碑。它是阿里云诞生后的重大创新。也是阿里云多年来软件定义计算、存储、网络等服务的象征。放在云计算能力体系里,它更近阿里云PaaS层的核心支撑体系。

那么,CIPU诞生的逻辑如何?它与飞天云操作系统之间,又将如何定义全新的体系架构?

在行癫那里,这与云计算发展至今面临的挑战与困惑有关。

他认为,截至目前,云计算发展已经历两大阶段:

一、分布式、虚拟化阶段。

主要生成于互联网企业高速成长进程。后者驱动了大规模、超大规模的数据中心诞生,由此亦催生出分布式和虚拟化代表的云计算技术。同时,在互联网企业推动下,快速完成从传统大机向分布式系统的迁移,并发展出许多新技术、新生态,尤其开源生态。

二、资源池化阶段。

在以CPU为中心的分布式架构下,云计算公司通过软件定义,将计算、存储资源池化,构建计算、存储分离的架构,对资源统一的调度编排,提供给客户,以云原生方式重新设计整个架构跟软件。两大阶段的相通之处,即在于通过软件定义计算、存储、网络。这也是过去多年来言必称的风潮。至今仍在延续。

不过,在行癫看来,软件定义固然灵活,但只靠它,已很难真正挖掘出硬件形态资源的效能。而它对以CPU为中心的传统计算体系架构的优化,已到瓶颈期。之前,与Facebook有关的一份报告显示,高达30%以上的硬件性能浪费了。

一重压力来自需求面。云上客户需求已发生重大变化,数据高密型计算越来越多,它们对云计算提出了更高的低时延、高带宽需求,传统基于CPU为中心计算体系架构的优化,无法满足。

另一重,则是现有云计算平台技术、运营正面临三大挑战。即:

1、计算和网络传输时延压力大。多年来分布式风潮下,一个大型应用分散在多个子系统部署,它们之间需高速互联;2、IDC内部交互流量扩大,亟待网络升级;3、系统规模日益庞大而复杂,亟需解决超大规模基础设施的复杂管理与云内部超大应用管理问题。

这该怎么办?

你应该看到,上述压力既涉及硬件技术问题,也涉及软件层面复杂管理、协同、调度问题。

说白了,就是云计算既要满足超大规模的计算、性能要求,又要满足软件定义的灵活性。这在过去是一组矛盾。

要解决它,必须一硬一软,两者兼顾。

阿里云CIPU正是软件定义与数据中心硬件资源的新一层。它超越了传统CPU为核心的架构,一旦接入它,计算、存储和网络资源即可被加速、高效云化,最大限度地挖掘整体资源效能。

在此基础上,CIPU硬件形态与飞天操作系统软件定义优势结合,既可高速云化算力资源,又能通过飞天实现规模化、灵活高效的管理和调度。

你可能觉得CIPU似乎并不新。

外界早有类似的硬件层。比如亚马逊2017年就开始定义Nitro,英伟达们定义了DPU,英特尔则崇尚IPU概念。至于各有对标的AMD、Marvell的同类产品不多说。各家方案虽有差异,但核心基本都是通过将将原基于CPU形成一些功能负载卸载到专用的加速器新硬件。

但这里面明显有两大派系。

一是硬件出身的英特尔们。

英特尔不晚。有过FPGA收购,也有SmartNIC实践,后者旨在提高数据中心网络吞吐量。后有别于DPU推出IPU。因进一步走出x86,一度被视为变革。人们注意到,最近几年,它几乎不谈摩尔定律。

但这类,阿里云早有成熟脉络与运用。2017年公布moc卡,2018年正式商用。作为神龙技术架构核心。在行癫那里,MOC卡是“一个全新里程碑”。后来,依托它,实现规模化RDMA,替代了专用网络交换机和网卡设备,行业普惠效应远大于硬件出身的英特尔们。后者其实很难彻底超越X86架构利益思考问题,革自己的命很难。另外,它们的商业化实践,多通过传统伙伴尤其惠普、戴尔等硬件企业落地。

看似相近的硬件层,实际软件定义实践上,无法与公有云能力深厚的阿里云们相比。缺乏云计算各种场景实践与验证,本就是硬件巨头们的短板。

当然,我们不是否定硬件一端的创新。我们也并不认同那种“CIPU彻底替代CPU”的说法。

CIPU本就具有高度兼容性,连接各种异构计算。它有部分计算功能,但与飞天结合后的敏捷、灵活的管理、调度、普惠才更核心。未来,即便CIPU协同平头哥其他资源如自研架构、倚天(ARM架构)、RISK-V等路径替代部分基础设施,它与飞天云操作系统结合的体系架构也不可能走向排他。当然,特定行业与场景是另一回事。

这其实是阿里云变革行业体系架构的精髓,也是新架构核心竞争力之一。CIPU更近面向所有硬件基础设施高速云化的加速器与OneAPI,而飞天则实现灵活、敏捷、精益的管理,这种能力更近商业层面。

媒体关注CIPU更多。实际上,它与飞天是天然的高度耦合关系。脱离一方谈体系架构变革都不成立。某种程度上,CIPU是飞天云操作系统能力的衍生与补充。这不是矮化硬件。而更多站在客户角度说,它们并不清楚甚至不需要了解背后各种硬件逻辑。真正意义上的数字基础设施,它的体感本来就更多体现为对技术的脱敏与无感。毕竟,做个饭,谁有空天天思考“水电煤”背后的形态。

脱离飞天云操作系统孤立谈CIPU,于阿里云来说,没多大意义。孤立的硬件形态CIPU,虽然有作用,但没有飞天,根本不可能解决行业痛点。

另一派,则是亚马逊们。

AWS富有口碑,2017年开始定义Nitro。要说CIPU没一点对标它的用意,恐怕很难。

但两者痛点更接近。而具体差异,我觉得阿里云虚拟化技术负责人蒋林泉(花名:雁杨)的表达比较生动。

他说,主要有两点:

1、两家区别更多在于身处不同市场,“看到的风景不一样”。但阿里云指标,尤其性能、应用跑起来后,无论计算、存储还是网络技术上,“超越对手不是一点点”。因为,国内客户对性能和性价比的要求非常极致,背后也有阿里云垂直技术栈支撑。

2、国内云计算企业客户和海外成熟度差异。主要是业务操作系统分布不均衡。中小客户需要没那么多能力做更多高可用,它们需要普惠服务。如此,阿里云相比美国同业面临的挑战与机遇就是,在高性能情况下,保证大规模、高可用的稳定性。

关注最大多数客户群体,从它们需求出发,建构普惠的技术与商业体系,一直是阿里云乃至阿里集团诞生以来的逻辑,也是它们的核心竞争力。淘系如此,阿里云如此,“CIPU+飞天云操作系统”新体系架构也是如此。

这也是夸克长期以来更多从技术创新与商业化维度思考创新的基本逻辑。

文章开头,我们强调了新架构的技术创新,但重心仍在商业化层面:“CIPU+飞天云操作系统”新体系架构除了进一步奠定数字化技术底座,还将有望重新激活核心板块IaaS层、PaaS层的效能与高质量增长,大幅扩充技术增值服务,提升综合毛利,最终带动整个SaaS化生态的进程。

何以见得?

那你就应该意识到,新的体系架构在阿里云“IaaS+PaaS+SaaS化生态”中的价值。

CIPU显然更多“做深基础”,它更近IaaS层,飞天云操作系统则属于PaaS层。

两者结合,会发生什么呢?那就是:阿里云将有望借助新架构重新激活增长。

逻辑如此:截至目前,公有云IaaS层创造了阿里云最大比例的营收。但几年来,基于传统CPU的云计算体系架构,产品、服务相对标准,综合毛利较低。而在度过阿里云1.0时代、奠定公有云市场地位后,增速已明显放缓。由于营收占比较大,它决定着诞生以来阿里云的整体利润结构。

而“CIPU+飞天云操作系统”新体系架构,将通过软硬件结合,贯通IaaS+PaaS层最核心的部分,创造新的增长机制。

这里当然不会提供更精细的分析。但有必要做出提醒:“CIPU+飞天云操作系统”新体系架构下,云计算既满足数据中心硬件资源高速云化,又满足软件定义的灵活性,听上去是技术问题,其实是:

1、充分挖掘算力,减少内耗,降本增效。

要意识到,时延、数据、未被充分聚合的算力、能耗等都是复杂的交易成本。

“CIPU+飞天云操作系统”新体系架构本身也是降本增效的创新。短期也许它并不能真正改变阿里云IaaS层的成本结构,但由于这部分营收规模较大,只要成本稍有下降,综合毛利率稍有提升,IaaS层的效益绝对值就会非常明显。

当然也有其他配套的降本策略。阿里集团高级研究员、阿里云智能基础产品事业部负责人蒋江伟介绍仁和数据中心时提到,最大规模的单相浸没液冷数据集群,PUE可做到1.09,若全国数据中心都达到该值,每年节省的电量约等于三峡全年发电总量的2/3。

2、新体系架构也是LaaS层的新游戏规则,有利于提升阿里云的估值。

要意识到,走出CPU主导的体系架构,其实也等于有望走出后者主导的毛利结构。

世纪初,英特尔CPU与微软windows构成的wintel联盟,主导着整个行业的利润结构。10多年前,前宏碁全球董事长王振堂曾对我说,CPU主导着25%以上。

新体系架构本身也是一种新的底层游戏规则。要知道,阿里云全球拥有众多大规模数据中心,运营着200多万台服务器。“CIPU+飞天云操作系统”里,隐藏着无法回避的技术融合与系统集成服务。过往左右着利润结构的CPU,虽然仍不可活跃,但只是一种算力的要素而已。随着更多异构计算链接、纳入,也包括阿里云自研产品的持续融入,IaaS层增收不增利的局面将会打破。未来,它本身也可能扮演利润中心。

新架构意味着,阿里云IaaS层增长将有望被激活,毛利结构而PaaS层目前已成为阿里云核心利润来源。这家公司已经连续6个季度保持盈利。

LaaS层与PaaS的架构创新,远比应用层更难。“CIPU+飞天云操作系统”新体系架构的公布,有望成为重估阿里云价值的新的维度。

3、新体系架构下,为更多硬软件网络一体的云订阅服务创造了巨大的增长空间。

这一点,你只要注意到持续升级的阿里云“无影”就能体会到。它不是简单的PC概念,而是一种将软硬件网络服务纳入整个云计算范畴的灵活的按需订阅服务。

2020年,行癫将它定义为“云端一体”,从而与“云钉一体”共同构成了阿里云“一体两翼”的服务。无影是阿里云服务输出模式的重大创新。

由于这种输出对于整个“云、网、边、端”的整体协同高度依赖,“CIPU+飞天云操作系统”新体系架构的诞生,将会在后端云服务的集约性、技术、平台体验上带来更多利好。

我记得,去年,行癫谈到云计算时,还曾强调说,云计算正在呈现为软硬件网络一体的服务,“硬件也可以SaaS化”。

4、正在进一步协同、融合、打破边界的“IaaS+PaaS+SaaS化生态”。

新架构给我们的一重启示是,某种程度上,LaaS与PaaS的边界正被打破。

或者说,两者局部正在融合。

云计算已不是过往的结构与形态了,交汇处的创新空间巨大,未来的关键产品、毛利节点可能也会诞生在这里。

阿里云基础产品首席架构师黄瑞瑞谈到了趋势变化。他说,针对核心应用,尤其当阿里云服务如此多客户之后,后者诉求正逐步从“以业务逻辑为中心转向数据处理为中心”。

这意味着,无论是硬件形态的CIPU,还是软件形态的飞天云操作系统,它们生成的架构,真正的价值流转,围绕的同样是新一代以数据处理为中心的应用,只是各自分工不同。软硬件网络一体的云计算服务,整个链路的边界越来越遵从应用、客户为中心的视角。未来,三个层面的交界处会更加模糊。

而对于不做SaaS的阿里云来说,前两者的创新将更加密集。过去两年,除了底层的部分,我们确实看到阿里云很多软硬件网络一体的产品。看一眼6大产品线就明白:技术产品与基础设施、边缘云与云通信、数据管理服务、AI与机器学习、企业与媒体服务、IoT。

这种动向,契合着各种垂直行业数字化的空间。新架构创造了敏捷交付的机会。

阿里云看去已不像“云计算”了。行癫说,阿里云已是数字化基础设施服务商,当然也可以叫“云计算”,只是云的价值链越来越长、越来越深、越来越宽。

这意味着阿里云的增长点将变得更加多元。而上述6条线并不包括钉钉单元。“云钉一体”下,钉钉的两个数字化,与阿里云兄弟单元的产品,互相协同、补充甚至互为客户关系。4月,钉钉一号位不穷坦陈,阿里云为钉钉奠定了很多客户基础,而钉钉也开始为阿里云创造新客户。

刚才我们说“CIPU+飞天云操作系统”新体系架构有利于捕捉阿里云新的更高质量、更可持续的增长机制,有利于重估阿里云价值。我们认为,正在松动的三个层面的边界,同样为阿里云的增长打开了多引擎的空间。

我们甚至预判,不止产品创新,阿里云的组织架构,后续不排除也会因此出现新的升级。事实上,夸克也认为,“CIPU+飞天云操作系统”与其说是一种新体系架构,毋宁说是阿里云对于超大规模基础设施的组织管理、整体运维到了一个精细化的时刻。它为外部提供数字化升级服务,事实上,升级本身也反映出,阿里云自身也已是一个巨大的数字化场景。这是原生的商业实践。

你可能觉得,过于侧重模糊的商业成效,可能有损一种新的体系架构创新的技术背景。

当然,我们从未否认过阿里云也是一家技术公司。

行癫此次强调说,新财年的基本策略是B2B(Back to Basic),回到云计算本质,也就是技术创新。我们当然理解此刻这一“做深基础”动向背后更多的复杂背景。比如:

1、它事关阿里集团的战略。

作为“内需、全球化、大数据与云计算”三大战略之一的载体,阿里云既是主业,也是未来的产业。作为技术与科技要素,它不仅事关阿里集团的业务增长,也是整个集团多元引擎架构持续落地的内在驱动力之一。

2022财年,阿里云营收若计入内部生态贡献,已突破1000亿,净利润超过11亿。尽管无法与淘系相比,但它已成为中国零售版图之外第二大的营收与利润中心。

阿里集团AAC本地已达10亿,全球13亿,这也意味着本地的增长将进入结构性、存量深耕、内部互渗的周期。它对技术、组织协同提出了更高的要求。

2、新的体系架构,还对应着行业演进、政策风向、地缘政治等各种复杂的背景。

很多话题不用展开,就能理解此刻的技术创新之于大国的紧迫。其实,阿里集团三大战略与整个国家目前的整体战略几乎完全一一映射。此外,我们还看到阿里云此次峰会多次强调安全,那就更为隐晦了。

峰会上,行癫等人有关阿里云软硬件技术要素与能力的叙述还有更多。尤其CIPU生成背后的RDMA规模化、盘古存储、神龙计算平台、平头哥、可编程SNA融合算力网关以及软硬件一体的整体洛神网络。

但阿里云始终也是一家商业公司。回归云计算技术创新本质,不等于刻意忽视新财年第一场峰会中传递的增长动机。那恐怕并不真实。夸克,最小的粒子,微末的洞察。

最新回复 (0)
返回
发新帖
作者最近主题: