｜推理芯片为大模型提供新思路

芝能智芯出品

在HotChips2024大会上，｜推理芯片为大模型提供新思路Cerebras展示了其在AI推理领域的最新进展，通过其晶圆规模引擎（Wafer-ScaleEngine,WSE-3）芯片超越了现有的AI计算架构，例如NVIDIA的H100GPU。

Cerebras在推理性能、能效和扩展性方面取得的显著突破，通过采用大规模的片上内存（SRAM）来规避高带宽内存（HBM）的限制。

Part1

晶圆规模计算芯片

Cerebras的WSE-3是世界上最大的计算芯片，拥有44GB的片上SRAM和超过850,000个计算核心。

与传统的GPU将一个大晶圆切割成多个小芯片的方式不同，Cerebras的WSE-3保留了整个晶圆，这样做的好处是将所有计算都集中在一个芯片上，减少了数据移动的需求和延迟。

通过这种方法，Cerebras可以将整个AI模型放入片上内存中，而不需要将部分模型转移到芯片外的HBM存储器中。

在推理性能方面，Cerebras表示其解决方案显著超越了基于NVIDIAH100的系统。

在Llama3.1-8B模型的推理任务中，Cerebras的WSE-3比MicrosoftAzure上的NVIDIAH100快20倍。

此外，Cerebras还展示了在单芯片上运行更大模型（如Llama3.1-70B）的能力，与NVIDIADGXH100解决方案相比，该解决方案展现出了显著的吞吐量和延迟优势。

Part2

高效的数据传输和计算架构

Cerebras的WSE-3通过直接在芯片上处理数据，避免了传统GPU系统所需的高延迟高速串行链路、PCB传输、交换芯片等复杂路径。

这样一来，它能够在更低功率下提供更大的内存带宽。例如，当需要在H100集群中实现高内存带宽时，必须使用多个并行接口，而在Cerebras的设计中，数据传输仅需在芯片上完成，简化了体系结构并提高了效率。

Cerebras的WSE-3提供了灵活的多用户和多模型并行计算能力。

通过其大规模的片上内存，多个用户可以在同一芯片上同时运行不同的AI推理任务，极大地提高了计算资源的利用效率。

同时，由于其巨大的带宽，Cerebras能够支持更小的批量大小（例如批量大小为1），而不会遇到传统GPU系统在小批量推理中性能下降的情况。

Cerebras的WSE-3展示了AI推理领域的巨大潜力。

通过横向扩展，Cerebras可以将计算扩展到多个晶圆上，例如在需要更大规模计算的情况下，可以将模型扩展到四个晶圆上，这种方法可以轻松超越传统GPU无法达到的延迟和吞吐量水平。

此外，Cerebras已经在多个数据中心（如圣克拉拉、斯托克顿和达拉斯）部署了其集群，并计划进一步扩展。

小结

Cerebras的晶圆规模计算芯片在HotChips2024上干货比较多，通过打破HBM的限制、在芯片上直接处理数据、以及显著的性能提升，为大型模型的推理提供了新的思路。

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：2760375052