服务热线:

8大芯片巨头指路存储风向:QLC应用加速生成式AI成焦点

发布时间: 2024-09-28 12:55:10 来源:电竞比分-存储调理

详细信息

  芯东西3月20日报道,今天,MemoryS 2024存储大会举办,参会企业接近1500家,今天到场观众超过4000人,现场人头攒动。

  深圳市闪存市场资讯有限公司总经理邰炜认为,存储市场的规模在经历两年下滑后,今年重新再回到正轨,他预计今年存储市场规模相比去年将提升至少42%。

  在总产量上,NAND FLASH将超过8000亿GB单量,相比去年增长20%,DRAM预计会增长达15%,将达到2370亿GB单量,到今年第一季度预计绝大部分公司的利润率都会得到全面有效的扭转。预计今年后续三个季度的存储市场现货价格将保持平稳向上的趋势。

  三星电子、长江存储、SK海力士、美光、铠侠等国内外核心存储原厂嘉宾同台进行演讲。

  首先在NAND FLASH堆叠技术上,各大原厂继续推进更高堆叠的产品,去年各家均推出200层以上的产品,今年已经朝300层推进,意味着闪存产品的容量将继续提高。

  从架构上看,键合技术开始慢慢地进入主流,这种架构的产品随着堆叠层数提升,成本将更具优势,并且这一技术架构可以将更多特性添加到NAND FLASH里。

  随着更多的产品对存储的容量需求慢慢的变大,他预计今年QLC的应用将开始加速,除了传统的SSD产品,其他应用领域也将得到全面扩展。

  DRAM全方面进入EUV时代,各原厂开始推出全新DRAM产品,下一代产品也将在这1、2年出现。

  从产品上来看,以ChatGPT为代表的生成式AI推动下,AI服务器在2023年迅猛增长,也带动HBM、DDR5需求增加,各大原厂加速推出更为先进的产品竞争巨大的利润空间。

  目前存储市场最核心的应用在手机、PC与服务器上,此外以汽车为代表的新兴市场也在快速增加。

  在手机市场,UFS的市场占有率逐步提升并占据绝对的主导地位。尤其是更高性能的UFS4.0增长更明显。在容量上,现在高端机型已经基本上进入512GB以及TB时代,预计今年的手机平均容量将超过200GB,今年预计全年DRAM平均容量将超过7GB。

  AI手机将成为接下来手机的新热点,将带来更多应用和场景的变革,其中16GB DRAM将是AI手机的最低配置。

  在PC市场上,去年整机需求下降使得消费类SSD需求出现一定下滑,但随着存储价格的下跌,大容量SSD的超高的性价比得到很有效的体现,去年1TB PCIe 4.0已基本成为PC市场主流配置。

  随着新处理器平台的导入,DDR5在2024年也将加大在PC上的应用。同时,AI PC预计在2024年全方面爆发。其中,与传统PC不同,AI PC最重要的是嵌入了AI芯片,形成“CPU+GPU+NPU”的异构方案,能支持本地化AI模型,所以要更快的数据传输速度、更大的存储容量和带宽。

  服务器市场上,2024年是DDR5正式迈过50%的一年,同时DDR5平台第二代CPU都在今年发布,这会推动今年下半年5600速率进入主流;同时高容量的模组128GB/256GB产品,因为大模型出现2023年需求猛增。

  此外,去年最火的名词莫过于HBM,HBM占据极大的利润空间,也是各原厂的必争之地。根据各原厂的规划,2024年将郑重进入到HBM3E量产。

  随着大模型的快速爆发,加速了对AI服务器需求,AI服务器中搭载高容量HBM,以及对DDR5的容量需求是普通服务器的2-4倍。这将使得未来5年AI服务器将驱动DRAM需求大增。

  汽车作为下一个存储的主力应用也正发生着变化:汽车随着电动化趋势发展进入大模块化、中央集成化时代;伴随着L3级及以上无人驾驶汽车逐步落地,汽车对存储的性能和容量的要求也将急剧加大。

  三星电子执行副总裁兼解决方案产品工程师团队负责人吴和锡谈道,三星正积极提出标准规范化,其提案目前占据很大一部分的UFS标准。同时,也在加强联合验证活动,尽力新的生态系统,和客户开发P0C并将其纳入产品中。

  对于移动应用程序的UFS解决方案,2023年,三星推出了全球第一款QLC UFS产品,现在慢慢的开始量产。其目标是“使客户能够以最佳性能使用更高容量的UFS设备”。

  在一定条件下,QLC的表现不如TLC某些情况的性能好。因此,三星结合新Turbo Write,垂直优化主机系统和用户应用程序,确保QLC UFS能够给大家提供更加的使用者真实的体验性能。

  吴和锡认为,AI芯片慢慢的变成了智能手机市场的热门话题,为了在设备上运行轻量级的大语言模型,会对存储、内存带宽有一定限制。

  考虑到未来芯片内集成大语言模型,三星正在增强UFS的接口速度开发一款UFS 4.0的产品,将通道数量从2增加到4个,并热情参加有关UFS 5.0的讨论。

  三星的目标是尽快将UFS产品的顺序读取性能提高一倍,预计将在2025年大规模生产1-2款将两个UFS控制器封装在一起的4通道UFS产品,三星将于今年夏天交付第一个工作样品。

  三星在PC市场的产品,推出了PM9C1a,基于PCIe 4.0,采用5nm工艺,能节约SSD控制器的功耗,其耗电量将比前代产品减少了近62%。PCIe 5.0预计将很快在PC SSD产品中使用。

  在服务器市场,三星去年发布了PM9D3a,该解决方案能提供随机写入性能,达到每TB 50 KIOPS。基于三星的I/O自动化技术,其效率比以前高1.6倍。

  因实施难度和有效性相对较好,FDP被认为是数据操控方法的最佳解决方案,FDP有三个关键因素来建立一个强大的生态系统,FDP是被批准为NVMe标准;主机驱动程序已经包含并部署在Linux内核中;FDP在CacheLib应用程序中被证明是非常高效的。

  此外,三星推出了第一代基于SoC的CXL 2.0产品,并计划在2025年推出带有第二代控制器的128GB产品。

  三星创建了一个使用NAND和DRAM的混合CXL内存模块的架构,并计划在今年上半年使用自己开发的SoC来确保原型的安全。该原型将使其能够在实际案例中验证该技术的有效性。

  全球数据量持续增长,2023年第四季度IDC发布的报告说明,2025年全球数据量将突破181ZB,2018年全球总量将达到291ZB,但其中被存下来的数据占比不足10%。

  长江存储手机技术官霍宗亮认为,对于存储行业,今天半导体存储的两大支柱就是内存DRAM和闪存FLASH,占据整个半导体存储市场的95%,市场总值超过千亿美金。

  长江存储所在的闪存市场总容量仍在快速地增长,其中企业级、消费级已经智能手机是这一个市场里最主要的应用场景。企业级、消费级、手机市场加起来占整个闪存需求市场总量的80%以上。

  面对这一市场,长江存储的客户要更好的读写性能、更高的速度、更低的功耗,且在性能提高的同时不增加成本。作为量大面广的通用产品,长江存储还需要仔细考虑产品面向不同场景的应用。

  霍宗亮将存储市场比做建筑行业,早些年,闪存行业希望建立更多“平房”,但客户要更高密度、更高容量且价格不变,所以提供商将房子越做越小,但2014时他们发现,房子越小,就会面临工艺、成本的挑战。

  2014年以后,3D闪存出现,将研发思路从盖平房转到盖楼房。目前,楼到底能盖多高、怎么样提高更多的存储密度,就是闪存市场面临的新问题。QLC技术成为提升存储密度的行业共识,把楼盖高,增加层数是最简单的方法,同时还可以把房间的层高变小,进而提供更多的层数。

  相比TLC,QLC技术面临更多可靠性挑战。2018年,长江存储提出晶栈Xtacking架构,该架构通过CMOS-Arrey异构集成,实现了不同工艺的解耦,以此来实现更快的IO速度、更高的存储密度、更快的上市周期。

  长江存储基于晶栈Xtacking3.0架构推出了QLC产品X3-6070,实现在4000次的插写后QLC依然没问题。对比上一代QLC,其存储密度提高了70%、编程性能提高了90%、IO速度提高了50%。

  过去几年,QLC已经在消费级市场慢慢成熟,长江存储将继续探索全场景QLC的应用和普及。

  SK海力士基于4D NAND闪存技术的下一代存储产品线,对当下AI进行了需求匹配。

  目前,来自于手机、笔记本电脑、传感器、服务器的数据在云端汇集,呈现出独特的存储需求,如手机存储速度快、功耗低,还需要处理复杂数据集,数据中心要存储大量低延迟数据服务。

  SK海力士和Solidigm共同提供存储产品线,SK海力士提供TLC的高性能SSD、移动和汽车解决方案,Solidigm提供QLC产品,有超高数据中心存储容量,并向客户提供消费级SSD高价值产品。

  SK海力士基于软硬件优化的H-TPU存储架构作为一个可编程单元,可以卸载固件功能并优化功耗和硬件性能。该架构采用PCIe 5.0 SSD。

  SK海力士执行副总裁兼NAND解决方案开发部负责人安炫提到,提供的PCIe第五代企业级SSD PS10x0 16通道企业级SSD已完成首个客户认证,并且目前已经准备量产和批量交互,今天客户技术将会提升。

  SK海力士和Solidigm提供的产品能满足所有企业的存储需求。对于性能要求较高的应用,SK海力士提供了PCIe1010和PCIe第4代产品,同时也在开发第五代企业级SSD。Solidigm还提供了各种QLC硬盘。

  对于手机以及相应的解决方案,SK海力士最新的UFS 4.0闪存能支持定制功能,并已经准备进入UFS 5.0。其目标是UFS 5.0能实现40%的功效提升,以及5倍的随机读取性能提升。面向汽车行业,SK海力士推出BGA SSD。

  针对AI领域的海量数据分析,SK海力士推出基于CXL计算型内存解决方案CXL 2.0,特定工作负载环境下能节省20%的功耗。

  铠侠首席技术执行官柳茂知介绍了如何部署PCIe 5.0 SSD,以及如何使用QLC SSD的愿景。

  每一代PCIe转换,都会实现数据速率翻倍,从第3代到第5代,接口信号的频率快了4倍,实现从4GHz到16GHz的提升。柳茂知谈道,2024年将是PCIe 5.0在PCIe SSD中占据重要份额的一年。

  SAS-4和PCIe 5.0之间的差异在于频率较高,不适用前向纠错FEC,基准时钟可选,信号均衡方法几乎相同,PCIe重置方法像参考时钟一样复杂。

  柳茂知总结了PCIe 4.0和5.0的实际鉴定状态,PCIe 4.0解决问题的最长交付周期为2.5个月,PCIe 5.0解决问题的最长交付周期为4个月,比4.0长1.5个月。

  铠侠5.0 SSD被设计为在100ms内完成初始化,因此主机和SSD设计不匹配会导致超时故障,这些是使用PCIe 5.0 SSD的关键检查点。CPU BIOS是最新版本吗?PCIe交换机或Retimer FW是最新版本吗?SSD固件是最新版本吗?主板和背板信号质量等,都是PCIe 5.0实际部署要考虑的。

  在QLC SSD方面,去年固态硬盘供应商因内存市场形势遭遇产品价格下跌。柳茂知谈道,低价并不是坏事,因为NL HDD和SSD之间的价格差缩小。

  SSD的性能也超过NL HDD,18%和37%的主要组件是CPU和DRAM,这决定着服务器的性能。

  SSD的成本可能是NL HDD的1/3,即使QLC SSD的成本是NL HDD的3倍,也可以通过降低CPU和DRAM的成本来补偿成本差异。NL HDD向SSD切换还可以节省IT支出。

  生成式AI正在茁壮成本,但DRAM的容量无法满足生成式AI的存储需求,闪存可以提供更大容量的支持,这之中,QLC SSD的发展是非常重要的一个方向。

  美光量产了HBM3E,现在正在打样,每个堆栈可以达到36GB,GPU可以把这些数据堆栈直接输入到GPU中,其每瓦性能可以提升2.5倍。

  美光集团副总裁兼存储事业部总经理Jeremy Werner谈道,与竞争对手相比,HBM3E性能提升了30%、功耗下降了30%。HBM存储了数据中心最顶尖的数据,HBM的数据来自于高密度DDR5内存。

  对于AI,美光DDR5延迟降低17%,功耗降低24%。服务器端有2-3TB内存给GPU输送数据,但有时候大模型有海量数据,需要跑更快的GPU。

  美光推出了CXL,提供了高达2TB的内存容量,带宽是36GB/s。其测试显示,使用CXL可以提升性能22%。

  美光9000系列高性能SSD,和竞争对手产品相比,有36%的性能提升和27%的更低延迟。此外,美光还解决了影像识别,系统级延时缩短了一半。

  Werner透露,今年晚些时候,美光会发布PCIe 5.0SSD。美光使用了大型加速器内存BaM技术进行图神经网络训练。通过这一创新技术,其和合作伙伴可以将提高性能、针对应用进行训练的时间缩短一半。

  对于边缘设备,包括PC、手机、汽车等,生成式AI在PC上运行,这种本地化运行的大模型有超过100亿个参数进行离线应用,美光是首家推出PC平台的企业,同时有低功耗、高性能、更大容量。

  生成式AI在手机上会驱动更多手机和内存等的销量增长,他预计DRAM和NAND的量会翻倍。

  面向汽车行业,美光DDR5已经获得相关认证,并且每年有超过7500万部汽车出售。

  美光的产品能够完全满足从数据中心到边缘,从手机、PC、汽车的不同大小存储需求。

  高通主要为手机、PC、汽车提供芯片,其架构主要分为两部分,一部分是计算系统、计算能力;一部分提供通讯能力。

  高通全球副总裁孙刚谈道,这两部分实际上相辅相成,通讯能力实际上在很多情况下是计算的基础。

  有鉴于此,高通在过去5年推动5G在中国以及全球的规模化应用和落地。目前,全球现在每年超过50%的都是5G手机。

  从5G的标准演进或者技术演进来讲,其发展现在到了新的阶段。此前5G主要解决的问题是人和人之间的通讯问题,之后解决的是万物互联,其包括轻量级物联网终端、增强性工业物联网等。

  孙刚认为,将来很多生成式AI落地场景会在终端侧,主要有两个原因:一是成本问题,每一个模型的运行都要放到数据中心去,成本很高,在终端侧, 一旦购买了终端设备,其每一次的运行成本几乎为0。第二是隐私,因为很多数据在手机、PC或者汽车上,用户不希望这些信息传到云端。

  有些模型要分成两部分,一部分在终端侧运行,一部分在数据中心运行,光靠终端侧的大模型运行速度还不够,所以就要混合。或者也可以在终端侧小模型每次运行前,都让另外一个模型测试精度,如果精度够了就把结果反馈给用户,如果精度不够再这个要求送到数据中心,在数据中心那边进行纠正,因此混合式的模型将来可能成为主流。

  为应对AI发展,高通做了很多准备。在硬件端,高通PCU、GPU、NPU等计算系统都能运算AI,并且对于高通来讲大模型在其平台上落地的主要计算单元是NPU。在工具链方面,高通打造了AI平台,第三部分是生态,高通推出AI Hub。

  高通的硬件、工具链、生态形成之后,会加速器在手机平台、PC平台、汽车平台、IoT平台上的落地。

  第一个会用到AI的是手机,高通的主要客户三星、小米、OPPO、荣耀等,其大模型已经在最新一代8650平台上落地。根据市场研究机构Canalys估计,到2027年45%的手机都会拥有运行大模型的能力,因此大模型实际上是今后几年驱动手机走高端化路线的重要力量。

  第二个是PC,随后根据市场研究机构的估计,40%的PC今年会得到更换,其中重要的驱动力就是AI。在PC上高通可部署的最大大模型参数规模为13B。

  第三个是汽车,汽车平台不太受空间限制,高通下一代自动驾驶、座舱芯片,可以落地非常大的大模型。

  此外,除了以上几个市场,很多垂直市场也会很快的落地大模型,高通的IoT平台可以支持这些应用。

  因为大模型的出现,手机、PC、汽车系统今后几年都会有一波朝高端走的需求,对内存产业来讲,今后几年将充满商机。

  2023年9月,英特尔CEO第一次提出AI PC概念,其对AI PC的定位是20年一遇的PC产业重大革新。20年前英特尔推出了“迅驰”,彻底改变了整个PC发展走向,从台式机快速过渡到笔记本。英特尔中国区技术部总经理高宇谈道,因此,去年9月,英特尔将发布AI PC概念的时刻称作PC的“迅驰”时刻来了。

  大语言模型的发展我们也看到它在走两条方向:一是大者恒大,二是适合行业应用的中小尺寸模型。

  行业性问题不需要海量、无所不能的知识库,需要的是对行业解决实质性问题的知识库,10B左右参数规模的模型非常适合。

  高宇扔出了几个灵魂拷问。生成式AI一定需要很大的GPU吗?答案为训练是的,推理不见得。特别是中小尺寸的AI推理,不见得一定需要大型GPU。第二个问题是生成式AI一定要部署在大型服务器上吗?答案:大参数是的,中小参数不见得。

  高宇谈道,大模型部署有三条路径:一是AI在端侧部署,二是AI在企业的私有化部署,三是云上部署。

  英特尔认为PC是AI的最佳载体。原因在于,PC是人类社会现在不可或缺的工具性产品,其工具属性决定了它和生成式AI的生成性天然契合。

  生成式AI在PC端部署时会产生四大红利,分别为不依赖网络,延迟更低;算力成本低,触手可及;对用户隐私更加友好;针对用户可高度定制。

  未来AI在PC上部署会有六大应用方向,包括AI Chatbot、AI PC助理、AI工作助手(Office助手、编程助手)、AI本地知识库、AI图像视频处理、AI PC行业应用,如数字人、医疗辅助。

  深圳大数据研究院华佗GPT模型已经在英特尔最新的酷睿笔记本上运行,英特尔只花了1天时间拿到模型,就将其适配到平台上。

  此外,构建AI PC包括几大要素,首先需要英特尔最新处理器酷睿Ultra,另外需要英特尔所提供的AI必备工具连,底层需要OEM厂商,有一些厂商预装了一些AI入口,还需要非常繁荣的AI软件生态链,软硬一体才能打造一台真正多元化好用的AI PC。

  AI PC的核心基石就是酷睿Ultra处理器,作为酷睿Ultra第一代处理器,其采用Intel 4制程,集成了英特尔ArcGPU、NPU,同时GPU本身具有AI能力。

  英特尔工具链包括OpenVINO、微软提供的ONNX、DirectML、WinML,也包括开源工具链上的GGUF、BigDL,这些都能将其GPU系统的价值发挥出来。

  目前英特尔可以在AI PC上支持200亿参数以上的大模型,同时可以做到1秒之内生成一张图片。

  最后,AI PC对存储行业的机会有两点,首先大语言模型对内存速度和内存容量非常敏感,明年64GB开始出货,这是第一个对内存厂商的福音。

  其次是SSD,任何一个模型文件体量巨大,动辄1TB模型占内存空间是5GB左右。所以对SSD的容量及性能提出了非常高要求,因此高宇认为,AI PC的出现最直接的受益者是存储厂商的各位合作伙伴。

  例如,工业自动化,通过机器学习会生成数据,数据通过网关进入私有云或者公有云;自动驾驶汽车训练模型所需的数据量;还有元宇宙会生成各种各样的内容;消费者会不断拍照、拍视频等,各种各样的数据会不断生成。

  生成式AI领域,数据训练时既会使用真实数据,也会使用生成式的数据,并且模型训练出来之后还会生成更多数据。作为一个从业者,我们要持续搞清楚如何去存储所生成的大量数据。

  这些数据中可能只需要安全存储其中一部分,且要尽可能快。Arm已经在这一行业深耕27年,已在世界各地交付了约190亿台设备,每天发货超过300万以上的控制器,产品系列包括企业级SSD、客户端SSD、消费级SSD、硬盘驱动器和嵌入式闪存设备。

  对于确保Arm平台能满足未来的存储趋势,Arm全球存储市场负责人Parga Beeraka提到了三个主要趋势:一是性能和效率;二是合作伙伴信任关系;三是创新。

  首先是性能和效率,大部分的存储控制器用的是Cortex-R和Cortex-M或者Cortex-A,其吸引客户的观点就在于低功耗、高性能。Arm包括主机侧和终端都可以支持CXL,其有四大特质,分别为即时性、低延迟、超高效、低功耗。

  其次是信任与合作伙伴关系,Arm有1000家合作伙伴,他们在Arm平台上开发各种各样的应用,用于不同的场景和行业。

  第三点是创新,Arm在技术领域不断创新,这体现在产品、创新架构、商业模式上。

  服务器的角度,已经有不断的方案来进行服务器部署,包括传统到融合、软件定义、超级融合、分解系统,未来就是这种可组合的系统。传统的服务器有CPU和DPU,随着时间退役DPU也有虚拟化、压缩、加密、赋能,CXL的扩展首先会赋能可组合系统的发展,同时还有CXL内存汇总,以及多个服务器连接在单一的里面,同时旁边还有计算。

  创新的第三部分就是商业模式。Arm推出了项目Arm Flexible Access项目,就是通过更好的方式帮助企业使用各种各样的产品。企业能够最终靠这个项目接触到更广的产品组合。

  邰炜回顾道,存储作为周期性的行业,2019-2023年经历了供过于求-疫情-缺货-库存-超跌等,最后以原厂主动减产结束。

  展望2024-2026年,新技术和AI应用等将激发存储的潜能,走出传统的价格周期进入新周期。