|推理芯片为大模型提供新思路

芝能智芯出品

在HotChips2024大会上,|推理芯片为大模型提供新思路Cerebras展示了其在AI推理领域的最新进展,通过其晶圆规模引擎(Wafer-ScaleEngine,WSE-3)芯片超越了现有的AI计算架构,例如NVIDIA的H100GPU。

Cerebras在推理性能、能效和扩展性方面取得的显著突破,通过采用大规模的片上内存(SRAM)来规避高带宽内存(HBM)的限制。

Part1

晶圆规模计算芯片

Cerebras的WSE-3是世界上最大的计算芯片,拥有44GB的片上SRAM和超过850,000个计算核心。

与传统的GPU将一个大晶圆切割成多个小芯片的方式不同,Cerebras的WSE-3保留了整个晶圆,这样做的好处是将所有计算都集中在一个芯片上,减少了数据移动的需求和延迟。

通过这种方法,Cerebras可以将整个AI模型放入片上内存中,而不需要将部分模型转移到芯片外的HBM存储器中。

在推理性能方面,Cerebras表示其解决方案显著超越了基于NVIDIAH100的系统。

在Llama3.1-8B模型的推理任务中,Cerebras的WSE-3比MicrosoftAzure上的NVIDIAH100快20倍。

此外,Cerebras还展示了在单芯片上运行更大模型(如Llama3.1-70B)的能力,与NVIDIADGXH100解决方案相比,该解决方案展现出了显著的吞吐量和延迟优势。

Part2

高效的数据传输和计算架构

Cerebras的WSE-3通过直接在芯片上处理数据,避免了传统GPU系统所需的高延迟高速串行链路、PCB传输、交换芯片等复杂路径。

这样一来,它能够在更低功率下提供更大的内存带宽。例如,当需要在H100集群中实现高内存带宽时,必须使用多个并行接口,而在Cerebras的设计中,数据传输仅需在芯片上完成,简化了体系结构并提高了效率。

Cerebras的WSE-3提供了灵活的多用户和多模型并行计算能力。

通过其大规模的片上内存,多个用户可以在同一芯片上同时运行不同的AI推理任务,极大地提高了计算资源的利用效率。

同时,由于其巨大的带宽,Cerebras能够支持更小的批量大小(例如批量大小为1),而不会遇到传统GPU系统在小批量推理中性能下降的情况。

Cerebras的WSE-3展示了AI推理领域的巨大潜力。

通过横向扩展,Cerebras可以将计算扩展到多个晶圆上,例如在需要更大规模计算的情况下,可以将模型扩展到四个晶圆上,这种方法可以轻松超越传统GPU无法达到的延迟和吞吐量水平。

此外,Cerebras已经在多个数据中心(如圣克拉拉、斯托克顿和达拉斯)部署了其集群,并计划进一步扩展。

小结

Cerebras的晶圆规模计算芯片在HotChips2024上干货比较多,通过打破HBM的限制、在芯片上直接处理数据、以及显著的性能提升,为大型模型的推理提供了新的思路。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文