高性能计算类应用的发展,驱动算力需求不断攀升,但目前单一计算类型和架构的处理器已经无法处理更复杂、更多样的数据。数据中心如何在增强算力和性能的同时,具备应对多类型任务的处理能力,成为全球性的技术难题。在计算领域芯片企业的不断探索和研究中,异构计算成为公认的算力突破“抓手”。
芯片厂商发力异构计算
异构计算可以提高算力和性能,降低功耗和成本,又具备多类型任务的处理能力,有望主导未来的高性能计算市场。英伟达、英特尔、AMD作为行业头部企业,近两年在异构计算方面的新产品层出不穷。
英特尔在最近的投资者会议中提出了一款将x86和Xe GPU 整合到一个Xeon插槽中的新架构Falcon Shores。英特尔中国研究院院长宋继强向《中国电子报》记者介绍,将x86的主芯片和GPU的性能整合在一起,这是一个创新。在性能上,Falcon Shores将提供超过5倍的每瓦性能、计算密度以及内存容量和带宽。
英伟达在今年的GTC2022上,宣布推出首款面向AI基础设施和高性能计算的数据中心专属CPU——Grace CPU超级芯片。该芯片专为AI、HPC、云计算和超大规模应用而设计,由两个CPU芯片组成,两者通过NVLink-C2C进行互连。
AMD完成对赛灵思的合并后,将其CPU与赛灵思的FPGA结合为CPU+FPGA的异构模式。借助赛灵思在5G、通信、自动驾驶和行业领域的资源,AMD能够将高性能计算能力带入更多领域。
异构计算瓶颈待突破
异构的优势显而易见,与此同时暴露出的技术难题也越来越多。一是异构计算产品需要面对不同的系统架构、指令集和编程模型,需要降低多样计算带给软件开发者的难度;二是异构计算芯片产品除了要在芯片设计层面实现突破之外,还需要解决在芯片制造和封装过程中不同结构之间的适配和升级问题;三是异构计算要实现性能的多样性合一,使其同时满足人工智能训练、推理、图像视频处理等各种不同的需求。
燧原科技创始人兼CEO赵立东在接受《中国电子报》记者采访时表示,从产业规范与标准层面看,异构计算是指在完成一个计算任务时,采用一种以上的硬件计算单元、互联协议、差异化架构、软件接口等。由于不同的硬件设备、协议、应用二进制接口、软件应用层接口等都存在着巨大的差异,如何构建一个高效、系统化的协调统一的异构计算系统,成为最关键的技术问题。
宋继强同样表示,异构计算在技术方面、互连方面和软件方面都面临瓶颈。一是技术设计流程的协同问题。要保证与其他不同厂商的芯粒一起互联互通、协同工作时不出现问题。二是需要统一各厂商芯粒之间的互连标准。目前各厂商之间的互连标准并不统一,英特尔携手业界部分企业,推出了UCIe标准,未来有望把不同厂商的芯粒连到一起,形成一个符合要求的、大的、封装级的集成芯片。三是软件层面要过关。不同厂商的计算芯片之间要做出适配的I/O、内存通道。
“东数西算”带来新风口
当下正值我国“东数西算”工程建设稳步推进之际。宋继强指出,异构计算是“东数西算”的底层支撑。“东数西算”所需的大型计算中心内部,CPU、GPU、FPGA、DPU、专用加速器等对处理不同种类的工作数据各有优势与劣势,也有运营成本高低之分,所以未来一定要综合部署,多种架构可能都需要涵盖,而且要有机联合起来。
赵立东认为,异构计算对于“东数西算”来说是刚需。从半导体集成电路“赢家通吃”的发展特性来说,不管是从内部的产品业务布局,还是外部的生态与商业布局出发,单个数据中心或智算中心项目在落地时,会考虑异构计算的复杂性及发展不完备性所带来的巨大的额外部署成本,在一定程度上会偏好选择以单一厂商为核心的现成产品组合,尽量避免技术适配的投入。而置身于“东数西算”背景下,最终要实现的是全国算力中心的大一统,从而尽可能地优化利用资源,在多个数据中心或智算中心互联互通的场景下,异构计算的复杂性会是前所未有的。因此,在异构算力溯源、调度与管理平台的建设上,需要尽早布局与投入。
算力网络的构建不只依赖于异构计算,通用计算也将为“东数西算”提供更多助力。近两年,国内涌现出一批通用计算芯片初创企业,以FPGA和ASIC类型芯片作为切入点,部分企业购买国外公司的IP授权开发通用GPU芯片,少数企业自主研发通用GPU核心IP,实现了国内通用计算的突破。
天数智芯副总裁郭为表示,通用计算所构建的算力平台通常并行处理能力特别强,计算能效比高,并且有很大的存储带宽,能够释放非常可观的算力。
郭为建议,强化顶层谋划,将算力网络上升为国家战略,从全局层面整体谋划战略定位、发展目标,加快构建新型算力网络格局。此外,应成立国家重点实验室,打造重大原创技术策源地。优化异构计算产业布局,发挥龙头领军企业的“链长”作用,协同上下游企业,制定产业链供应链图谱及协同发展计划,推动异构计算产业链本土化、供应链多元化,确保异构计算产业安全稳定。