数据中心越来越需要定制的硬件来满足人工智能(AI)应用的性能需求。传统数据中心历来依赖中央处理器(CPU),现在则依赖人工智能加速器。 加速器设计针对特定用例进行了优化,在本例中就是神经网络训练和推理。ARK 认为,到 2030 年,为人工智能用例提供动力的硬件需求将达到 1.7 万亿美元的收入,这主要是由人工智能软件带来的巨大生产力提升所推动的。
主要得益于 Nvidia,人工智能训练加速器的性能一直在以惊人的速度提升。与 Nvidia 于 2014 年发布的 K80 芯片相比,最新的加速器在调整总拥有成本(TCO)的基础上实现了 195 倍的性能,如下图所示。TCO 衡量的是人工智能训练系统的单价和运营成本。
是什么原因导致了如此快速的性能提升?根据摩尔定律的预测,芯片上的晶体管数量每 18 个月至两年翻一番。虽然摩尔定律预测的准确性近年来有所下降,但从历史上看,它已转化为约 30% 的年化成本下降,这比人工智能专用硬件的成本下降速度要慢得多。根据我们的估计,自 2014 年以来,人工智能芯片性能以每年 93% 的速度提高,转化为每年 48% 的成本下降,如下表所示。以训练大型人工智能模型的时间而非摩尔定律来衡量,我们认为,随着人工智能硬件芯片设计复杂度的提高,晶体管数量将变得更加重要。
如下图所示,将工艺尺寸从 28 纳米缩小到 4 纳米并增加晶体管数量只能说明问题的一部分。
除晶体管数量外,内核架构、高速内存容量和互连带宽方面的进步结合在一起,带来了远超摩尔定律的指数级性能提升。
训练神经网络需要许多计算密集型矩阵乘法。为了加速这些运算,Nvidia 自 2018 年在 Volta 架构上首次亮相以来,一直在利用专为矩阵乘法设计的张量内核。H100 现在可提供高达 2 petaflops 的张量性能,比 2018 年推出的 V100 上的 125 teraflops 提升了 16 倍,如下图所示。 继续阅读 →