发布时间: 2023-08-15 14:04:28 来源:电竞比分-存储调理
芯东西11月4日消息,就在刚刚,面向中国的2020 Arm DevSummit大会正式开幕。作为全世界第一大芯片IP供应商Arm发起的年度盛会,本届大会以线上方式举办,以便数千位软硬件工程师、开发者能够突破地域限制进行交流。
在开幕演讲中,Arm CEO Simon Segars以视频方式来进行致辞;随后三位阿里巴巴技术大牛组成“天团”,分享阿里巴巴基于Arm指令集,实现软件驱动云优化的实战经验。
Simon在致辞中强调,2020是充满挑战的一年,但同时滋生出许多韧性和想象力。比如,基于ArmECO的超级计算机“富岳”正被用于研究新冠病毒如何传播的模型。Simon表示,相信各方通过合作,我们也可以共同克服困难,并最终惠及众生。
有关阿里巴巴首席工程师周经森、高级技术专家郭健美、云程序语言与编译器团队负责人李三红这3位阿里巴巴技术高管分享的精彩内容,请随我一文看尽。
周经森担任阿里巴巴智能基础产品事业部首席工程师,负责推动数据中心的软件性能优化。他指出,当运营一个大规模服务器集群时,即使节约的服务器数量只占很小的百分比,也会带来可观收益,而让性能提升的关键,在于实现软件的优化。
他以阿里巴巴应对双十一为例:网络流量逐年攀升的前提下,对机器数量的需求水涨船高,比如,2019年双十一的流量是38.4亿美元,相比2018年增加了27%,但如果每年都增加机器数量,从商业和能源角度来说会造成浪费。
面对这一现状,提升软件性能成为另一个“解题思路”。出于此,阿里巴巴推出基于Arm指令集的软硬件协同优化系统SPEED,以实现软硬件的协同优化。
阿里巴巴高级技术专家郭健美介绍了SPEED系统实现软硬件协同优化的思路。
1、各个部门、业务方往往仅能专注于自己的业务,很难关注全局。这时候就需要用简单的、可复现的基准分析来帮助分析全局。
1、在小规模配置时候,考虑多种场景。比如,让SPEC CPU去跑多种不同的模型。
2、SPEED关注的核心问题是基础配置,以及基础配置能否扩展到集成多种软硬件的数据中心中。
1、Estimation(判断):在这一过程中,SPEED系统会了解数据中心发生了什么,并完成业务画像。
2、Evaluation(评估):完成“判断”后,SPEED系统会评估究竟从哪里去做优化和做软硬件升级,并通过对小规模的服务器来优化,进而评估优化措施是不是能够大范围推广。
3、Decision(决策):数据中心中集成了大量软硬件,这一流程需要SPEED系统以“集群”的视角,权衡各种各样的因素,去做优先级别的排序,确定规模化优化中最重要的部分是什么。
4、Validation(验证):这是一套“集群”层面的评估、分析方法,用以获取前述软硬件优化手段取得的结果,并验证是否实现了预设的效果。
郭健美同时指出,在SPEED系统运行过程中,要实现系统对监控、传输、软硬件更新换代的各方面需求,还需要每台机器加装监控端,用于获取数据。
另外,SPEED系统会加装三个引擎,分别用于数据集成、分析、服务。最终,软硬件优化结果会以UI界面向用户呈现。
据阿里云程序语言与编译器团队负责人李三红分享,为实现上述所有功能,阿里巴巴团队会依据业务场景,利用JAVA知识进行优化。
郭健美同时分享了SPEED系统运行时的三大特点,分别是无侵入性部署、软硬件集成、领域知识和AI结合。
现有的大部分解决方案,要求每台服务器搭载很多监控端,数据上传和存储过程会消耗大量算力。
而SPEED系统则利用海量的、现有的监控数据,不采集新数据。这样一方面解放了服务器算力,另一方面降低了客户在服务器、监控端上投入的成本,以及对客户设备的侵入性。
软件部分的集成重在“理解”系统的性能,因此,SPEED系统从“业务视角”出发,为自身智能化能力较缺乏的客户赋能,关注业务本身是否受到影响。
此外,硬件方面,SPEED系统从“未来视角”出发,关注硬件系统的升级趋势。
目前,各类数据趋于海量,因此系统部署中要不可避免要用到AI知识。针对AI应用中有时准确率不高的问题,SPEED系统融合领域知识,以推出足够可靠的预测结果,进而保证软硬件优化措施的落地结果。
今年,Arm年度技术论坛(Arm TechCon)首次更名为Arm DevSummit,并将参会方式由线下转为线上。除了举办方式的差异,本届大会时长由往年的一天延长为两天,容纳了更多的分享内容。
通过大会首日阿里巴巴三位技术高管的分享,能了解阿里团队应对海量数据、算力需求量开始上涨等问题的解题思路。接下来的议程中,Arm DevSummit或将带来更精彩内容。