引言
随着人工智能(AI)技术的持续发展,对计算系统性能和效率的要求不断提高。现代AI工作负载需要更先进的硬件解决方案,以处理复杂计算的同时保持效率和可扩展性。本文探讨了AI加速的创新方法:无线多芯片AI加速器,这种架构在AI计算硬件领域代表了重要进展[1]。

现代AI计算的挑战
机器学习(ML)模型的发展对计算能力提出了巨大需求。当前ML模型的规模和多样性急需更快速、更高效且更灵活的计算平台。传统硬件解决方案在处理这些不断增长且多样化的ML模型时,难以在不牺牲性能和效率的情况下实现扩展和重构。面对这一挑战,研究人员提出了多样化的专用硬件加速器,这些加速器通常由大规模的处理元件(PE)阵列组成,主要以乘累加单元的形式通过密集的片上网络(NoC)实现固定的数据流。

图1展示了无线多芯片AI加速器的示意架构,包含3×3排列的chiplet和4个DRAM。每个DRAM和计算chiplet的中心都配备了集成天线和收发器,用于无线通信。
多Chiplet架构:新型范式
多chiplet架构通过将多个专用AI加速器chiplet组合到单个计算平台中,为创建可扩展和通用的AI加速器提供了解决方案。这些chiplet通过封装内链路相互连接并与内存通信,通常采用硅基中介层或有机基板,形成封装上网络(NoP)。这种架构在多个研究中展现了解决计算平台扩展性挑战的潜力,包括SIMBA和WIENNA等代表性工作。
互连瓶颈问题
多chiplet架构中的一个主要缺点是互连性能和效率的降低,这在需要大量数据移动的工作负载中尤为显著。这不仅是由于内存模块速度的限制,更重要的是由于相对较慢的chiplet间数据传输。这些数据传输通常需要穿越长距离互连,因此在能源消耗方面占据主导地位。这个问题在许多AI加速器采用的数据流中的集体通信(即多播和规约)中变得更加严重。

图2显示了在144-TOPS 3×3多芯片AI加速器中,不同元素(计算、NoC、DRAM和NoP)在各种神经网络中作为性能瓶颈的时间百分比。
无线技术的作用
考虑到多播流量是这种情况下效率低下的来源之一,无线技术因其低延迟、可重构性和固有的广播特性而成为补充现有chiplet互连的理想选择。工作在毫米波频段的天线和收发器能够在占用不到1平方毫米面积的情况下,以约1皮焦/比特的能耗达到超过100千兆比特/秒的速度。在这种背景下,构建具有无线互连的多芯片AI加速器架构预计将以有效和灵活的方式缓解现有加速器的NoP瓶颈。
性能提升和实现

图3展示了无线方案相对于有线基线在不同神经网络中实现的加速效果,在64 Gb/s和96 Gb/s无线带宽下可实现高达20%的性能提升。
无线技术的具体实现涉及多个关键要素。每个chiplet和DRAM模块中都集成了无线天线和收发器。天线放置在每个芯片和DRAM模块的中心位置,其坐标基于chiplet和DRAM位置精确计算,以准确建模物理布局。
负载均衡和优化

图4通过热图展示了距离阈值和注入概率对zfnet工作负载性能提升的影响,显示不同配置如何影响系统性能。
系统采用多重配置决策函数来确定消息是使用无线还是有线通信。这包括分析消息的目的地、评估所需的NoP跳数阈值以及实施可配置的注入概率。这种概率参数确保无线信道不会饱和,防止在具有较多多芯片和长距离多播的工作负载中成为瓶颈。
未来发展方向和结论
研究工作将继续深入探索无线多芯片AI加速器的潜力,包括开发更复杂的负载均衡机制、实现自适应无线接口配置、探索优化无线互连使用的替代映射方法,以及研究专为AI工作负载设计的新型无线通信协议。通过无线技术解决互连瓶颈问题,这些系统展现了在保持灵活性和可扩展性的同时实现显著性能提升的能力。

扫码关注







































