科普：AI芯片概览——神经网络硬件，GPU/TPU/DPU/M1/Dojo，数据中心加速技术

Without accelerated computing, the scale-out of AI is simply not practical.
要是不减速盘算，野生智能的横向扩大便底子没有事实。

数据中心（Datacenter）正处于一场被称为野生智能反动（AI Revolution）的汗青性革新当中。

其影响在本日最为分明的中央是阿里巴巴、亚马逊、百度、 Facebook、谷歌、 IBM、微软、腾讯等超等数据中心。他们须要放慢野生智能的事情负载，而没有必要破费数十亿美圆用 CPU 节点去建筑跟驱动新的数据核心。

那些超等数据核心抉择了差别的开辟门路，一种是在GPU现有架构上添加AI减速功效，以NVIDIA为代表；另一种是公用的范畴特定架构（Domain Specific Architecture，DSA），以Google为代表。但他们的要领有几个独特的主题，详细去讲:

野生智能必要减速盘算。在摩尔定律变慢的期间，减速器供应了紧张数据处置本领，那对付餍足深度进修日趋增进的必要是必要的。
张量处置是为深度进修锻炼跟推理供应功效的核心，是企业在构建当代数据核心时必须思量的一个新的次要事情负载，而减速张量处置能够明显低落构建当代数据核心的本钱。
推理（在线消费的猜测）运用步伐一般夸大相应工夫而不是吞吐量，由于它们一般是直面用户的。

神经收散

神经收散(Neural network，NN)针对相似大脑的功能，并基于一个简朴的野生神经元：输入的加权跟的非线性函数，如线性整流函数ReLu（f(x) = max(0,x)）。那些野生神经元被集分解多少层，全部序列中一层的输出成为下一层的输入。

深度神经收集(Deep Neural network，DNN)中的“深度”指的是不止少量层，由于云中的大型数据集使得经过运用分外的跟更宏大的层去捕获更初级的形式或观点去构建更准确的模子，而GPU供应了充足的盘算力去开辟它们。

当初有三种神经收集很盛行：

多层感知机(Multi-Layer Perceptrons，MLP)：每一层都是一组前一层全部输入（完整衔接）的加权跟的非线性函数。
卷积神经收集(Convolutional Neural Networks，CNN)：每一层都是一组前一层差别坐标上的相邻空间子集输出的加权跟的非线性函数，它同意权值被重用。
轮回神经收集(Recurrent Neural Networks，RNN)：随后的每一层都是一个输出加权跟取先前形态的非线性函数的汇合。最受欢送的RNN是长短工夫影象(Long Short-Term Memory，LSTM)。LSTM的艺术在于决意要忘却甚么，跟将甚么作为形态传送到下一层。这些权重在各个工夫步长中被重用。

神经收集的两个阶段：

这两个阶段被称为锻炼（或进修)跟推理（或猜测)，它们指的是开辟跟消费。开辟职员抉择层数跟神经收集的范例，并由锻炼去决意权重。

锻炼（离线）

松懈的deadline
从DRAM大量量功课去摊销加载权重的本钱
无比得当GPU
一般运用浮点数

推理（在线）

严厉的deadline：一些事情负载在谷歌为7-10ms

由于deadline的起因，批处置的能够性无限

脸书运用CPU举行推理（末了一类）
能够运用更低精度的整数（更快/更小/更无效）

呆板进修事情负载跟硬件趋向

固然大少数架构师都在减速 CNN（卷积神经收集），但它们在数据核心的事情负载的并不明显。

以谷歌为例，谷歌有90%的呆板进修事情负载工夫花在MLP（61%，次要用于搜寻）跟LTSM（29%，次要用于翻译）上，而不是CNN（5%，次要用于图象分类跟AlphaGo）。

摩尔定律的减激化丹纳德缩放比例定律的生效

摩尔定律：晶体管密度是每两年翻一番
丹纳德缩放比例定律：跟着晶体管尺寸淘汰，功率坚持跟芯片面积成比例

呆板进修招致盘算必要的巨大增进盘算

2006：数据核心的CPU容量多余
2013：估计天天每用户的语音辨认有3分钟

将必要更加的数据中心盘算容量，运用传统CPU将会无比高贵

谷歌的谜底：范畴特定架构（Domain Specific Architecture，DSA）

目的：制一个自界道的ASIC芯片，以进步神经收集推理的本钱功能（cost-performance）到GPU的10倍，锻炼仍运用现成的GPU。

Google TPU V1

较短的计划-安排周期：~15个月！

TPU被计划为协处置器，拔出现有效劳器上的PCIe插槽（相似于GPU）
加速矩阵乘法运算
运用8位整数运算替代浮点运算
在TPU中运转全部推理模子，以减少取主机CPU的交互

Google TPU是怎样事情的？

CISC指令，由主机收回。次要指令：

读取/写主机内争争存：Read_Host_Memory将数据从CPU主机内存中读取到一致缓冲区(UB)中；Write_Host_Memory将数据从一致缓冲区写入到CPU主机内存中。
读取权重：Read_Weights从权重内存中读取权重到权重FIFO中，作为矩阵单位的输入。
矩阵乘法/卷积：MatrixMultiply/Convolve使矩阵单位实行从一致缓冲区到累加器的矩阵乘法或卷积。
激活：Activate实行野生神经元的非线性函数，带有ReLU、Sigmoid等选项。它的输入是累加器，其输出是一致的缓冲区。

Google TPU取CPU跟GPU的比力

Roofline模子

阐明给定硬件的功能瓶颈，断定事情负载是盘算受限（compute bound）照样内存受限（memory bound）？软件能否没有充沛使用硬件？

运转强度（Operational intensity）：每字节的内存读取所实行的操纵。对付TPU/神经收集而言，则是每一个字节权重内存读取的MAC操纵

为甚么GPU/CPU的事情负载一般低于TPU的roofline？因为耽误限度制止了硬件的充沛应用。

本钱功能

目的是进步功能/总领有本钱(Total Cost of Ownership，TCO)。

Google TPU V2/V3/V4 、TPU Pod 跟 Edge TPU

NVIDIA的谜底：更新更快的GPU

在Google TPU V1公布后，NVIDIA立刻更新了其取其时 NVIDIA 技能的比力。

NVIDIA Ampere 架构

NVIDIA Grace架构

Grace的计划更多的旨在弥补 NVIDIA 在 AI效劳器产物中 CPU 级别的毛病。GPU无比得当某些范例的深度进修负载，但并非全部事情负载都是地道的 GPU 受限，而只是需要一个 CPU 来供应 GPU 的本领。

其余公司的谜底

光学芯片

咱们光学盘算引擎的核心是能够在比 GPU 更短的工夫内实现矩阵乘法盘算。
一个 GPU 能够需要数百个时钟才气实现64乘64矩阵的乘法运算。Lightellicence 宣称它能够在不到10纳秒的时间内实现，大概说大概5纳秒。

Cerebras

两年前，Cerebras 揭开了一场硅计划的反动: 一个跟您的头一样大的处置器，在12英寸的晶圆上使用矩形计划同意的最大面积，创建在16纳米的基础上，会合处置野生智能跟高功能盘算事情负载。

单块大芯片之间快捷通讯：850K AI 核心，40GB SRAM，内存带宽是O(PB/s)。

Apple

Apple在一系列新款 iPhone / Mac 中公布了公用的神经收集硬件，Apple 称之为“神经引擎（neural engine）”。

别的，是Apple现在用于呆板进修应用的软件。

Tesla

特斯推举行的2021 AI Day 吐露了他们的Dojo AI 锻炼芯片。特斯推宣称D1 Dojo 芯片拥有 GPU 级别的盘算本领、CPU 级别的机动性，跟收集交流机 IO功能。

特斯推一直从新锻炼跟革新他们的神经收集。在汽车和效劳器上安置了不计其数个相反的芯片。他们每周举行数百万次评价。

总的来讲，相对付 NVIDIA 的 GPU，特斯推宣称他们能够到达4倍的功能，1.3倍的高效能功耗比，5倍小的占地面积。特斯推的 TCO（本钱功能，睹上剖析）劣势比 NVIDIA AI办理计划要好远一个数目级。要是他们的说法是精确的，那末特斯推在野生智能硬件和软件范畴曾经逾越了全部人。我对此表现猜忌，但这也是一个硬件极客的春梦。

J9九游会真人游戏第一品牌