AMD与Intel,挑战英伟达GPU
AMD与Intel,挑战英伟达GPU
作为CPU界的霸主,英特尔对高性能GPU市场一直没有死心。从1998年和Real3D合作推出的i740独显,到2009年无故流产的Larrabee独显,再到去年公布的Xe GPU架构。任谁来都能看出,英特尔进军独立显卡市场只是时间问题。
对于NVIDIA和AMD来说,英特尔的加入听起来似乎是个坏消息。但是对于消费者而言,英特尔的加入无疑给了更多的选择。问题来了,英特尔“锐炫”系列高性能显卡究竟能够给出怎样的性能表现?英特尔能否通过在GPU市场上的发力,给友商NVIDIA和AMD持续带来压力呢?
近些年来,英特尔在独显领域可谓动作频频。他们积极扩充研发团队,接连从隔壁NVIDIA、AMD那里挖走高级人才,其中不乏AMD RTG显卡部门前负责人Raja Koduri,AMD Zen架构功勋领袖Jim Keller和NVIDIA DLSS技术人员Anton Kaplanyan等。可以看出,在11代CPU被AMD Zen 3系列处理器击败后,这一次,英特尔是希望能够做出一番成绩的。
问题在于,此次英特尔需要挑战的对手NVIDIA,在图形处理上是比AMD更加老练的对手。长期以来,全球消费级高性能显卡市场的主要份额基本被英伟达全盘占据,尽管AMD在去年推出了RX 6000系列显卡,性能已经非常接近定位相同的RTX 30系列,但是在产能和评价方面依然无法和NVIDIA抗衡。如何从根深蒂固的NVIDIA手上抢走客户,将成为英特尔面临的最大难题。
不过,对英特尔来说,好消息也是存在的。因为全球虚拟货币热度不减,以及芯片供应链的紧张,NVIDIA旗下RTX30系列高端显卡自发售以来价格便居高不下,很多消费者根本就购买不到新款显卡。在DIY市场被挖矿搞得半死,NVIDIA显卡大面积缺货的背景下,英特尔的“锐炫”独显可能会得到比正常情况更多的份额。
英特尔独显的上线,短期内受影响最大的应该是中低端显卡市场,也就是GT1030这种亮机卡,甚至还有可能威胁到GTX 1650、GTX1660这种祖传卡,但暂时应该无法在更高端显卡市场对NVIDIA和AMD构成实质性的威胁。不过对于消费者而言,独显市场多一个品牌,自然就多一份选择的空间。从二人转变成三足鼎立,还是对玩家有好处的。
本文参考文献链接
https://www.nextplatform.com/2021/09/20/esperanto-chip-drives-ml-inference-performance-and-power-efficiency/
https://mp.weixin.qq.com/s/LrbxIQ2hmNW3RPUqs1glFQ
https://baijiahao.baidu.com/s?id=1708422385375788751&wfr=spider&for=pc
因为拥有强悍的GPU,英伟达在多个领域拥有强悍的竞争力,这就吸引了更多的厂商进去其专注的市场,英特尔和AMD就虎视眈眈。
Nvidia 并不是唯一一家创建了专门计算单元的公司,这些计算单元擅长支持 AI 训练的矩阵数学和张量处理,并且可以重新用于运行 AI 推理。英特尔已经收购了两家这样的公司——Nervana Systems,紧随其后的是 Habana Labs,这都是他们叫板Nvidia 的 “武器”。
英特尔是一家优秀的公司,正在追逐该公司认为在未来五年内将产生 500 亿美元的人工智能计算机会(用于训练和推理),从现在到 2027 年以 25% 的复合年增长率增长,以达到这一水平。鉴于“Ponte Vecchio”Xe HPC GPU 加速器中的大量矩阵和矢量数学,以及即将推出的“Sapphire Rapids”Xeon SP CPU 中的 AMX 矩阵数学单元中很可能有足够的推理能力,有理由想知道有多少英特尔预计出售的Gaudi训练和Goya 推理芯片。
英特尔在 2016 年 8 月完成 3.5 亿美元的 Nervana Systems 交易和 2019 年 12 月以 20 亿美元收购 Habana Labs时,在追求知识产权和人才,当然,因为这就是这场 IT 战争的打法,但一直想知道如果这些设备以及来自竞争对手 GraphCore、Cerebras、SambaNova Systems 和 Groq 的非常优雅和有趣的设计能够部署在类似于主流的东西中。私募股权投资者一直渴望搭上这辆 AI 芯汁列车,并进行了大量投资,上述四家公司迄今共筹集了 28.7 亿美元。
陪审团仍未出局,所有这些产品都刚刚起步,这就是为什么英特尔在 Nervana 和 Habana 上对冲它的赌注,就像它对数据中心中的 FPGA 感到害怕(主要归功于 Microsoft Azure)并于2015 年 6 月斥资 167 亿美元收购 Altera。在 2015 年到 2020 年间,当英特尔在数据中心计算领域占据主导地位时,试图通过 Xeon CPU 计算来消除对其霸权地位的所有可能威胁,有能力购买一些竞争对手。
现在,既然它想起了需要再次成为代工厂,就不能再做出如此昂贵的进攻演习了,这些进攻实际上既是防守又是进攻。现在是时候尝试将其支付给 Nervana 和 Habana 的部分钱赚回来了。目前尚不清楚英特尔是否能够收回所有资金,即使做出了 23.5 亿美元的投资,但正如所说,也许这不是重点。也许关键是要对 GraphCore、Cerebras、SambaNova Systems 和 Groq 进行反驳,因为英特尔在其 Xeon SP CPU 中添加了 AI 功能,并在今年推出了其独立 GPU。(Wave Computing 筹集了 2.033 亿美元用于开发其 AI 芯片,于 2020 年 4 月破产,一年后成为 MIPS 芯片技术的供应商,因此不再将其视为 AI 芯片的竞争者。)
在本周举行的 Intel Vision 2022 大会上,Gaudi2 AI 训练芯片是这家芯片制造商推出的新的大型计算引擎,并不是英特尔实际制造的芯片,而是与其前身Gaudi1一样,由竞争对手台积电制造。
与 Nervana Systems 一样,Habana Labs 非常认真地创建了一组芯片,为 AI 工作负载提供最佳性价比和最佳性能。Habana Goya HL-1000 推理芯片于 2019 年初发布,Gaudi1 AI 训练芯片,也称为 HL-2000,于当年夏天晚些时候首次亮相。
Gaudi1 架构有一个通用矩阵乘法 (GEMM) 前端,后端有 10 个张量处理器内核或 TPC,该芯片仅向用户公开了其中的 8 个,以帮助提高封装的良率。(显然,在英特尔收购 Habana Labs 后的某个时候,额外的两个张量核心暴露出来了。)
Gaudi1 使用了第二代 TPC,Goya HL-1000 AI 推理芯片使用了不那么强大和不那么复杂的原始 TPC 设计。Gadui1 芯片中的 TPC 可使用 C 编程语言直接寻址,具有张量寻址,并支持 BF16 和 FP32 浮点以及 INT8、INT16 和 INT32 整数格式。TPC 指令集具有加速 Sigmoid、GeLU、Tanh 和其他特殊功能的电路。
Gaudi1 采用 TSMC 的 16 纳米工艺实现,具有 24 MB 片上 SRAM、四组 HBM2 内存,容量为 32 GB,带宽为 1 TB/秒。Gaudi1 插入 PCI-Express 4.0 x16 插槽并消耗 350 瓦的电量,并将几乎所有的电量都转化为热量,就像芯片一样。(少量能量用于操作和存储信息。)
一个由 8 个 Gaudi2 服务器组成的集群,每个服务器有 8 个 Gaudi2 卡。
英特尔尚未透露对 Gaudi2 架构的深入了解,但这就是所知道的。
借助 Gaudi2,英特尔正在转向台积电的 7 纳米工艺,随着这种微缩,能够将芯片上的 TPC 数量从 10 个增加到 24 个,并增加了对 Nvidia 新的 8 位 FP8 数据格式的支持。使用 FP8 格式,开发者现在可以拥有相同格式的低分辨率推理数据和高分辨率训练数据,并且在从训练转移到推理时不必在浮点和整数之间转换模型。这对 AI 来说是一个真正的福音,尽管较低精度的整数格式可能会在矩阵和矢量计算引擎中保留多年,以支持遗留代码和其他类型的应用程序。
Gaudi2 芯片有 48 MB 的 SRAM——如果它与 TPC 数量成线性比例,您会期望 2.4 倍而不是 2 倍的 SRAM,或 57.6 MB。
挂在 Gaudi2 芯片上的是 HBM2e 内存组,提供 2.45 TB/秒的带宽,Gaudi1 芯片的 2.45 倍。HBM2e 内存组的数量没有透露,但 Gaudi2 有 6 个 16 GB HBM2e 组,而 Gaudi1 有 4 个 8 GB HBM2 组。仅增加两个 HBM2e 内存控制器就可以将带宽提高 1.33 倍,剩余的带宽增加来自于提高内存速度。
Gaudi1 芯片有十个支持 RoCE 直接内存访问协议的 100 Gb/秒以太网端口——事实证明,每个 TPC 一个,但当时并不知道,因为只显示了八个。但 Gaudi2 有 24 个以太网端口,以100 Gb/秒的速度运行,每个 TPC 也有一个。功率为 650 瓦。假设该设备插入 PCI-Express 5.0 插槽,但英特尔尚未证实这一点。
假设没有重大的架构变化和工艺从 16 纳米缩小到 7 纳米并没有带来时钟速度适度提升,预计 Gaudi2 芯片将提供大约 2.5 倍的 Gaudi2 性能。(还假设任何给定应用程序的处理精度相同。)但英特尔实际上并没有说明是否有任何架构变化(除了添加了一些媒体处理功能)以及时钟速度如何变化,所以有来推断。
通过查看这张关于 ResNet-50 机器视觉训练操作的图表来做到这一点,该图表将 Gaudi1 和 Gaudi2 与过去两代 Nvidia GPU 加速器进行对比:
根据这个 ResNet-50 比较,Gaudi2 的性能是 Gaudi1 的 3.2 倍,但很难估计性能有多少是由于芯片容量的增加。这个特定的测试运行 TensorFlow 框架来进行图像识别训练,显示的数据是每秒处理的图像数量。
没有显示但很重要的一件事是 Gaudi2 加速器将如何叠加到 Hopper GPU,但 Nvidia 尚未透露任何特定测试的性能结果。但由于 H100 中的 HBM3 内存运行速度比 A100 加速器中使用的 HBM2e 内存快 1.5 倍,而 FP16、TF32 和 FP64 在新张量核心上提供 3 倍的性能,因此可以合理地预期 H100 将提供介于在 ResNet-50 视觉训练工作负载上的性能是 1.5 倍和 3 倍,因此 H100 在 ResNet-50 测试中每秒可提供 4,395 到 8,790 张图像的性能。将比前者更接近后者,并且比英特尔可以通过 Gaudi2 提供的优势有相当大的优势。
与使用 BERT 模型的自然语言处理相比,图像识别和视频处理相对容易。以下是 Gaudi2 与 Nvidia V100 和 A100 的对比,请注意 Gaudi1 的缺失:
BERT 模型也在 TensorFlow 框架之上运行,该数据显示了在两个不同的训练阶段中每秒吞吐量的序列数。Habana Labs 部门的首席商务官 Eitan Medina 在一次简报中表示,Gaudi2 的性能几乎是 A100 的 2 倍。但 H100 拥有自己的 FP8 格式和 Transformer 引擎,可以动态地改变 AI 训练工作流程不同部分的数据和处理精度,可以做得更好。但强烈怀疑 Nvidia 至少可以缩小与 Gaudi2 的差距,并且很有可能超越。
为了让事情变得有趣,英特尔在 Amazon Web Services 上启动了 DL1 Gaudi1 实例,然后分别基于 A100 和 V100 GPU 启动了 p4d 和 p3 实例,并进行了一些性价比分析以计算在 ResNet 中识别的每张图像的成本-50 基准。看看这个:
这张图表的意思是,Gaudi1 的性能略好于 V100——使用英特尔在上图中针对 ResNet-50 的性能数据显示了 27.3%——而且性价比高了大约 60%,这意味着 DL1 实例的成本大大低于使用 V100 的 p3 实例。随着迁移到具有 40 GB HBM2e 内存的基于 A100 的 p4d 实例,Nvidia 设备在 ResNet-50 上的吞吐量比 Gaudi1 高 58.6%,但 Gaudi1 处理每个图像的成本降低了 46%。这意味着 A100 实例确实要贵一些。如果对 Hopper GPU 加速器定价的猜测是正确的,而 Nvidia 对大约 3 倍的性能收取大约 2 倍的费用,英特尔将不得不将出售给 AWS 的 Gaudi2 芯片的价格保持在 AWS 仍然可以显示出比运行 AI 训练的 H100 实例更好的性价比的地方。
在这一切中,Trainium 在哪里?
无论如何,英特尔在其实验室中运行了超过 1,000 个 Gaudi2,因此它可以调整 SynapseAI 软件堆栈,其中包括在 Habana 的图形编译器、内核库和通信库上运行的 PyTorch 和 TensorFlow 框架。值得一提的是,Gaudi2 芯片现已发货。
除了 Gaudi2 芯片,英特尔还在预览其 Goya 后续的 Greco 推理引擎,该引擎也在台积电制造。
Greco 推理卡具有 16 GB 的 LPDDR5 主内存,提供 204 GB/秒的内存带宽,而之前的 Goya 推理引擎使用 16 GB 的 DDR4 内存块提供 40 GB/秒的内存带宽。Habana 架构的这种 Greco 变体支持 INT4、BF16 和 FP16 格式,功耗为 75 瓦,大大低于 2019 年初宣布的 HL-1000 设备的 200 瓦。如上图所示,它被压缩到更紧凑的半高、半长 PCI-Express 卡。目前还没有关于这款产品的性能或价格的消息。
除了英特尔以外,AMD也更新了GPU产品线,以挑战英伟达。
AMD 发布 Radeon RX 6950 XT、6750 XT 和 6650 XT
AMD 今天早上揭开了三款新的 Radeon RX 6000 系列显卡的面纱,以完善其产品堆栈。新的产品涵盖了从中端到旗舰市场的所有市场,其中, Radeon RX 6950 XT、RX 6750 XT 和 RX 6650 XT 将作为 Radeon 系列的中代产品发布,为 AMD 最重要的显卡提供最后的性能提升. 利用更新的 18Gbps GDDR6 内存以及略微改进的时钟速度,今天发布的新卡承诺适度的性能提升,同时让 AMD 有机会展示他们的 RDNA2 GPU 架构在经过近 18 个月的改进后可以做什么。
从高层次上看,这三款新卡都是对 AMD 现有 Radeon RX 6900 XT、RX 6700 XT 和 RX 6600 XT 部件的小更新。为了利用 18Gbps GDDR6 不断增加的可用性,AMD 选择将其配备到 RX 6000 系列中的三款最重要的卡上,以便提供适度的内存带宽提升。与此同时,AMD 也在利用这个机会来提高性能——无论是形象上还是字面上——稍微提高显卡的 TDP 以允许稍微更高的 GPU 时钟速度。
如前所述,整体变化很小,无论是在性能还是卡片构造方面。除了换成 18Gbps GDDR6 内存外,这些更新的规格都可以通过当前的卡设计来实现,并且没有其他硬件变化。与此同时,AMD对新卡性能提升的估计约为 5% 到 6%——内存带宽的增加受到 GPU 时钟速度的小幅提升的影响。
尽管如此,对于 AMD 来说,这是一个进一步提高他们在一些最重要的视频卡上的竞争定位的机会。在当前这一代显卡的最后六个月左右,领先于 NVIDIA。NVIDIA 早就展示了中代产品,如 3080Ti/3070TI 和 3080 12GB,因此 AMD 获得了可能成为最后一步的优势(至少在性能上层) 。
- 更新的 Radeon RX 6000 产品堆栈:扩展和退役
这一切发生的时机确实让 AMD 无意中抓住了一把落下的刀,然而,在经历了 18 个月的挫折之后,显卡市场终于回归常态。由于加密货币挖矿盈利能力大幅下降且供应情况有所改善,零售视频卡价格正在接近其最初的建议零售价。这对于游戏玩家、计算机科学家和其他任何想要以(更)合理的价格购买显卡的人来说都是个好消息,但对于 AMD 在尝试定价和定位新部件时会遇到更多问题。AMD 甚至在推出新卡之前就已经需要重新定价一次,而现在这些被设计为优质、高价产品的卡将面临更大的市场压力。
除了将 RX 6950 XT、RX 6750 XT 和 RX 6650 XT 添加到 AMD 庞大的 Radeon RX 6000 系列产品堆栈之外,AMD 还利用这个机会淘汰了显卡Radeon RX 6600 XT——原本最快的 Navi 23 卡,以及 AMD 中端显卡努力的基石,最终将不复存在。该卡在市场上的地位正在被最快的 RX 6650 XT 所取代。
除此之外,RX 6900 XT 和 RX 6700 XT 将继续生产。尽管最便宜的 6900XT 已经达到 950 美元,但 AMD 及其合作伙伴可能很快就会发现自己不得不让他们的新卡与其他产品堆栈一起降价。
顺便说一句,AMD 对这些新部件使用了合理的命名系统。将所有新卡指定为 xx50 可以很容易地判断它们与现有卡有明显的不同,并且可以很容易地判断在更大的产品堆栈中的位置。AMD 有 4 位数字,很高兴看到 AMD 至少使用了 3 个数字,而不是添加更多的后缀或完全用多种变体重载产品名称。
- Radeon RX 6950 XT、RX 9750 XT 和 RX 6650 XT
深入了解规格,让开始研究新卡。
从顶部开始,拥有 AMD 的新旗舰 Radeon RX 6950 XT。这是原始 RX 6900 XT 的增强版,现在是 AMD 产品堆栈中功能最强大的显卡,也是最昂贵的显卡。
鉴于最初的 RX 6900 XT 已经基于具有 40 个 CU 和 128MB 无限缓存的完全启用的 Navi 21 GPU,AMD 除了提高 GPU 和内存时钟速度之外,几乎没有其他途径来提高性能,所以这正是他们的目标,且已经完成了。
除了将显卡与 16GB 最新的 18Gbps GDDR6 内存配对外,显卡的 GPU 时钟速度也得到了提升;官方游戏时钟现在是 2100MHz (+10%),最大加速时钟是 2310MHz (+3%)。这使 RX 6950 XT 的内存带宽增加了 12.5%,并且整个 GPU 本身的吞吐量平均提高了几个百分点。
为了为这种改进的性能买单,AMD 还提高了 TBP。最初的 RX 6900 XT 是 300W 卡,而 RX 6950 XT 在参考规格下是 335W 卡,董事会合作伙伴可以随时进一步提高。AMD 在这一点上处于电压/频率曲线的远端,虽然提高 TBP 确实可以通过让卡更频繁地接近其最大 GPU 时钟速度来提高性能,但正在逐渐减少此时返回。所有这些都进一步反映在 AMD 的官方性能数据中,RX 6950 XT 的着陆速度比原始的 RX 6900 快了约 4%。
关于这一点,值得指出的是,新的 18Gbps GDDR6 也可能是这些新卡 TBP 增加的一个因素。虽然最新 GDDR6 的电压保持在 1.35v,但由于支持如此高的信号速率的电力成本,总体功耗仍会上升。AMD 没有正式公布其显卡的 GPU 和 DRAM 功耗,但如果在所有其他条件相同的情况下,RX 6950 XT 的 DRAM 功耗比 RX 更高,一点也不感到惊讶6900 XT。在这一点上,如果 AMD 无论如何都需要增加 TBP(以保持时钟速度恒定),为什么不增加一点以从 GPU 本身中挤出一些额外的空间。
同时,在 AMD Radeon 产品堆栈的中间位置,有 RX 6750 XT 和 RX 6650 XT。与 RX 6950 XT 一样,这些卡的前身已经基于完全启用的 Navi GPU——分别为 Navi 22 和 Navi 23——因此 AMD 正在转向提高时钟速度以提高性能。
对于 RX 6750 XT,与最初的 RX 6700 XT 相比,其最大时钟速度已提升至 2600MHz (+ <!%),而游戏时钟现在为 2495MHz (+3%)。因此,来自最高 GPU 时钟速度的预期性能提升是最小的,大部分提升将需要来自 18Gbps GDDR6。但尽管如此,AMD 自己的性能数据显示,RX 6750 XT 比 RX 6950 XT 从这些升级中受益更多;AMD 的二线显卡的数据速度略高于 7%。
同时,RX 6650 XT 完全取代了原始的 RX 6600 XT,最大时钟速度为 2635MHz,游戏时钟为 2410MHz,两者都比原始卡快 2% 左右。而且,尽管 TBP 增加了,内存带宽增加了 12.5%,但在 AMD 的官方数据中显示出最小的增益,只有 2% 的性能提升。在这种情况下,AMD 不保留原始的 RX 6600 XT 是可以理解的,因为 RX 6650 XT 的速度不够快,无法与旧卡有意义地分开。
一旦这些卡开始出货,将看到第三方基准测试如何发挥作用,但假设 AMD 的数据在这里是准确的,这证明了他们的片上 Infinity Cache 的价值。虽然内存带宽几乎不会随着 1 对 1 性能的提高而增加,但值得注意的是,额外带宽所增加的性能是多么少 - 或者相反,Navi 23 GPU 已经被 16Gbps GDDR6 在 128位内存总线。即使只有 32MB 的缓存也在做大量工作来限制 1080p 的 DRAM 带宽需求。
最后,与 RX 6950 XT 一样,这两张卡的 TBP 也在增加。RX 6750 XT 将搭载 250W 参考 TBP,比原始 RX 6700 XT 高 20W。同时,RX 6650 XT 将调整为 180W,这也比其前身 RX 6600 XT 高 20W。
- 驱动程序新闻:隐私视图和 AMD 超级分辨率 1.1
在今天的产品公告中,还有一个关于 AMD 产品生态系统驱动程序方面的简短更新。
AMD 的 GPU 加速隐私视图功能,原定于第一季度推出,终于接近发布,应该在本月的驱动程序下降中。同时,根据 AMD 的说法,基于驱动程序的 AMD 超分辨率技术的更新版本正在开发中。尽管此时没有透露将针对 Super Resolution 1.1 调整或添加哪些功能。
- 合作伙伴卡和产品定位
鉴于今天的发布是对一些 AMD 现有卡的相对较小的更新,AMD 及其董事会合作伙伴正在开始使用新卡。除了合作伙伴工作外,AMD 还发布了 RX 6950 XT 和 RX 6750 XT 参考卡的更新版本。因此,喜欢 AMD 参考设计的游戏玩家——甚至只是直接从 AMD 购买——将能够这样做。
与此同时,董事会合伙人将一如既往地做自己的事情。期望看到库存时钟和工厂超频卡的通常组合,董事会合作伙伴希望从 AMD 的最新硬件中榨取更多。
除了今天发布的信息之外,AMD 并没有向提供太多关于可用性的信息。但考虑到底层 GPU 的生产时间——以及最近几周 6900XT/6700XT/6600XT 的可用性——这不应该是一个特别疯狂或供应受限的发布。在过去的 18 个月之后,所有这些都是一个不错的变化。
尽管当原始显卡最终降到更合理的价格时,整个显卡市场对新的高价 Radeon 显卡有多大的胃口还有待观察。由于 RX 6800 或 RX 6600 以外的任何产品的供应在这一点上基本上不受限制,因此新卡的大部分价值来自其略高的性能,这意味着生态系统没有太多回旋余地来提供更高的性能和价格。或许 AMD 已经在采取进一步措施来支撑视频卡价格也就不足为奇了,包括即将推出的游戏捆绑优惠,尽管它实际上还没有上线,但它今天就开始了。
值得庆幸的是 ,AMD的竞争对手是市场领导者 NVIDIA。尽管 GeForce 卡的价格也有所下降,但对挖矿更友好的卡的降价速度较慢,因此其中许多卡的售价仍然比原来的建议零售价高出不少。因此,AMD 拥有庞大且现在甚至更大的产品堆栈,可以与 NVIDIA 堆栈中的所有产品相媲美——而且就目前而言,通常具有显着的价格优势。
AMD 认为具有性能优势,虽然非常怀疑 RX 6950 XT 是否会始终胜过 RTX 3090(AMD 选择的竞争对手),但 RX 6750 XT 和 RX 6650 XT 相对于 NVIDIA 的基线表现更好分别是 RTX 3070 和 3060 卡。这次发布的重点之一是让事情更上一层楼:让 AMD 全力以赴,提供新的硬件素材来展示与 NVIDIA 的对比。
总结一下,期待在零售货架上看到新的 Radeon 卡——如果不是更早的话。
RISC-V UPSTART的目标是性能、电源效率
越来越多的大大小小的供应商都在努力为人工智能工作负载制造处理器。人工智能和机器学习是自动化和分析的关键促成因素,在高度分布式的IT环境中发挥着越来越重要的作用,该环境跨越了内部数据中心、公共和私有云以及不断增长的边缘空间。
人工智能芯片市场仍由大型成熟厂商主导。在上个月的一份报告中,市场研究公司Omdia表示,几年前将机器学习作为其增长计划的核心的英伟达在2020年继续是最大的供应商,在全球40亿美元的收入中占有80.6%的份额,为32亿美元。Omdia预计,2026年,数据中心和云计算的人工智能芯片全球收入将达到376亿美元。
这样的市场增长肯定会吸引芯片制造商。2019年,英特尔以20亿美元收购了人工智能芯片制造商哈瓦那实验室(Habana Labs),尽管三年前收购了Nervana Systems,但仍希望加快努力。4月,圣地亚哥超级计算机中心表示,它计划在其数据中心安装近10个哈瓦那系统机架。
其他公司也在继续制造人工智能处理器或为其芯片注入人工智能功能,包括谷歌(Google)及其Tensor处理器单元(TPU)、AMD、IBM、Xilinx及其Edge人工智能平台,以及亚马逊(Amazon)及其AWS推理机学习人工智能推理芯片。
越来越多的小型和初创芯片制造商正在寻求在市场上为自己开拓空间,专注于从性能到成本效率再到灵活性的各个领域。其中一些名字比其他名字更熟悉,包括Graphcore、Ampere、Blaize、Cebralas、Groq和SambaNova。
把世界语技术算在这张名单上。该公司成立于2014年,从那时起,通过三轮融资筹集了1.24亿美元,最后一轮融资是在4月份筹集的6100万美元。2020年12月,世界语宣布推出ET-SoC-1,一款基于开放式RISC-V架构的七纳米机器学习处理器。该芯片制造商表示,该芯片将在一个小封装中容纳近1100个定制内核,重点是通过利用能源效率提高性能。
在最近的Hot Chips 33虚拟活动上,世界语创始人兼执行主席戴夫·迪泽尔(Dave Ditzel)公布了他所说的超级计算机芯片上的细节,该芯片既可以用作主处理器,也可以用作加速器,旨在适应现有的数据中心,这些数据中心要求在风冷环境中实现能效。
该芯片拥有240亿个晶体管,由台湾半导体制造公司(Taiwan Semiconductor Manufacturing Corp.)制造,主要用于机器学习推理工作负载。
“超大规模数据中心中的机器学习推荐工作负载有一些最苛刻的性能和内存要求,”迪泽尔在演讲中说。“它们基本上是在x86服务器上运行的。对额外性能的需求正在快速增长,客户希望找到一种方法来提高他们已经安装的服务器的性能,而不是简单地建立更多的数据中心和购买更多的服务器。”
这些系统通常为功率预算在75到120瓦之间的PCIe卡提供插槽。迪泽尔说,这项要求基本上为世界语的机器学习芯片设定了参数。该公司需要制造一个基于PCI3的加速器卡,该卡最多使用供应商的六块芯片,功率不超过120瓦。
在那之后,该卡的性能需要“大大高于x86主机CPU的性能”,计算速度最高可达100到1000次。此外,虽然8位整数可以进行大量推断,但该卡还必须能够支持16位和32位浮点数据类型。还应该有至少100GB的存储空间和100MB的片上内存。
Ditzel说:“与非常大、访问量很少的数据混合在一起的计算具有挑战性,因为片外存储器的延迟非常大,这可能会导致处理暂停。”。“最后,由于机器学习工作量的快速发展,固定功能硬件可能很快就会过时,因此强烈建议使用更通用、可编程的解决方案。”
世界语开发的芯片包括1088个高效的ET Minion有序内核,每个内核都有一个矢量张量单元,以及四个ET Maxion无序内核。ET-SoC-1提供了超过1.6亿字节的片上SRAM、带有低功耗LPDDR4x DRAM和eMMC闪存的大型外部存储器接口,以及与PCIe x8 Gen4和其他I/O接口的兼容性。
最重要的是,该芯片可以驱动100到200个峰值速率,并且在不到20瓦的功率下工作,这意味着其中6个芯片将在120瓦的功率预算下。迪泽尔说,这来自世界语在芯片设计中采用的路线。
“其他一些解决方案使用了一个巨大的热芯片,耗尽了加速器卡的全部功率预算,” 迪泽尔说。“Espernato的方法是使用多个低功耗芯片,这些芯片仍然符合功耗预算。实际上,一个芯片封装上可以安装的管脚数量有限,因此单芯片解决方案无法获得更大的内存带宽,往往会以昂贵的内存解决方案告终。Espernato的方法分布在多个芯片上进行处理和I/O。随着越来越多的芯片越来越多此外,性能提高、内存容量增加、内存带宽增加,低功耗、低成本的DRAM解决方案成为一种实用的解决方案。”
单芯片解决方案也倾向于追求最高的工作频率,从而导致高功率和低效率。Esperanto认为晶体管——尤其是7nm FinFET——在低电压下工作时更节能,这会降低工作功率。迪泽尔说,世界语的工程师们必须围绕电路进行创新,并对RISC-V内核进行修改,以制造出一款高性能加速器,其芯片不超过6块,功耗不超过120瓦。
调低了关闭频率,将工作频率降低到1GHz。它们还可以将工作电压至少降低两倍,但在低电压下稳定运行是困难的。
“不得不对电路和架构进行一些改变,” 迪泽尔说。“在千兆赫兹水平和低电压下运行,需要在每个流水线级设计极少量的门……世界语必须对L1缓存和寄存器文件进行电路和架构更改。即使进行了这些更改,仍有超过50倍的差距,弥补这一差距的唯一方法是减少动态开关电容,即动态开关电容s、 每个晶体管和导线的容量以及开关频率。为了减少这些问题,你必须有一个非常简单的架构,只有很少的逻辑门。这就是RISC-V是基本指令集的一个伟大解决方案的地方,因为它可以用任何商业上可行的指令集中最少的逻辑门来实现。还必须非常仔细地设计向量张量单元。”
迪泽尔展示了世界语芯片的功率效率图,测量了不同工作电压下每秒每瓦特的推断。
由于ET Minion Tensor内核以最低电压和8.5瓦的功率运行,世界语能够在远低于120瓦极限的情况下将六个芯片装入加速卡,其性能是单个118瓦芯片解决方案的2.5倍,能效是275瓦点的20倍。
迪泽尔还进行了性能比较。在基准测试方面,Espernato使用了MLPerf深度学习推荐模型,将芯片与英特尔的八插槽至强铂金8380H服务器处理器以及英伟达的A10和T4 GPU进行了对比。如下图所示,Esperanto芯片的性能是英特尔处理器的59倍,每瓦性能是英特尔处理器的123倍,超过了两个Nvidia GPU。Ditzel表示,使用ResNet-50推理基准测试也得出了类似的结果。
在物理设计方面,世界语组织了八个名为“邻居”的ET Minion内核,这使得该公司能够通过架构改进来节约能源,比如让八个内核共享一个大型指令缓存,而不是每个都有自己的指令缓存。每个八核社区形成一个32核的仆从郡,通过每个郡上的片上网状互连连接。
Ditzel谈到了ET-SoC-1如何在系统中使用,包括那些支持开放计算项目(OCP)Glacier Point V2设计的系统,该卡提供6558个RISC-V内核、高达192GB的RAM和高达822GB/s的DRAM带宽。Ditzel通过雪橇和机架推断出这一点,他说OCP数据中心可以容纳数百万个世界语核心。
该公司支持C++和PyTorch以及Caffe2和MXNet等机器学习框架。迪泽尔说,世界语最近在其实验室和准备测试中获得了硅。计划在今年晚些时候实施早期访问计划。
参考链接
https://www.nextplatform.com/2021/09/20/esperanto-chip-drives-ml-inference-performance-and-power-efficiency/
https://mp.weixin.qq.com/s/LrbxIQ2hmNW3RPUqs1glFQ
https://baijiahao.baidu.com/s?id=1708422385375788751&wfr=spider&for=pc