冷板式人工智能加速卡在结构设计、流体快插接头、热性能设计等方面无统一设计要求,服务器针 对不同厂商的冷板式人工智能加速卡需要进行结构和散热适配,耗费大量人力、物力。本技术白皮书主 要制定标准PCIe接口形态的冷板式人工智能加速卡在结构设计、冷板设计、流体快插接头选型、热性能 设计、可靠性设计方面的要求,用于指导冷板式人工智能加速卡的设计。通过本白皮书提供的设计指导, 降低服务器和冷板式人工智能加速卡之间的适配难度,降低适配的成本和人力投入。同时降低部署和运 维难度,方便终端客户根据业务场景灵活选择相应产品,加速液冷式人工智能加速卡和服务器产品上市。 此外,通过统一的设计指导,在冷板本体、流体快插接头等关键组件上产生规模化效益,获取低成本液 冷解决方案,推动冷板式液冷技术的普及。
以AIGC为代表的人工智能大模型的发展,带来了算力需求的指数式提升。AI芯片需要通过提升工 作频率或增加运算单元来获得更强的算力,带来人工智能加速卡功耗的不断提升。当前人工智能加速卡 单卡功耗已达到350W至600W量级,带来服务器散热功耗的显著提升,在给服务器散热设计带来挑战的 同时,也给建设绿色数据中心带来了很大的挑战。液冷技术成为解决人工智能服务器高功耗散热问题、 降低数据中心PUE的关键,其中冷板式液冷技术是当前解决人工智能加速卡高功耗问题的主流方案。目 前标准PCIe接口形态的人工智能加速卡仍然是业界主流,国内外部分厂商已经推出了相应的冷板式人工 智能加速卡,但均是按照自身产品形态特征进行设计,未考虑同行业其他厂商情况,不能作为标准化设 计。
同时,虽然冷板式液冷散热技术在CPU、内存、扣板式人工智能加速卡上已经取得了成功应用,但 在标准PCIe接口形态的人工智能加速卡上的应用仍然很少,业界迫切需要一个针对标准PCIe接口形态人 工智能加速卡的液冷设计指导,来推动冷板式散热技术在人工智能加速卡应用的普及。
冷板式液冷加速卡由人工智能加速板卡、液冷板、加速卡外壳结构件组成。
冷板覆盖加速卡上的主芯片及其他发热元件(包括但不限于VR、显存等),提高板卡封装狭小空 间内人工智能芯片散热效率。加速卡对外提供一对流体快插接头(两个公头),用于连接服务器内部集 /分水结构或RCM。
冷板式人工智能加速卡能够有效避免局部热点,降低服务器系统风扇功耗,降低数据中心整体PUE, 是未来绿色数据中心发展的必然趋势。
智能服务机器人 |