从GPU规格、架构、成本和性能说起

从GPU规格、架构、成本和性能说起
在这里插入图片描述

Nvidia 是2月底网络攻击的受害者,被黑客入侵并丢失了大量数据。这次黑客攻击不仅对英伟达来说是一场灾难,对所有芯片公司和所有“西方”国家的国家安全来说都是一场灾难。
据介绍,被黑的数据包括英伟达下一代GPU Hopper 和 Ada 的详细规格和模拟数据。Hopper现在正在发货,并由 Nvidia 在 GTC 上发布。规格与这次泄漏完全匹配,但以 Ada Lovelace 命名的 Ada 仍然需要几个月的时间。
Ada,下一代客户端和视频专业 GPU 将是本文的主题。基于泄露的规范和模拟,SemiAnalysis 和Locuza联手分析了各种芯片的架构、裸片尺寸,并对 GPU ASIC 进行成本分析。
SemiAnalysis 和Locuza没有从 LAPSUS$ hack下载任何泄露的文件,但许多人在网上分享了摘录。
根据泄漏的这些摘录 ,能够为 Nvidia 的下一代 Ada Lovelace GPU 阵容提取以下规格,并将与当前一代 Ampere GPU 阵容进行比较。
参考链接
https://mp.weixin.qq.com/s/fJfQv8_PmoEIDp8_Y74Cfg
https://mp.weixin.qq.com/s/B_pNd0662c0t1gb7HwwBsQ
https://mp.weixin.qq.com/s/bSowhmoRqVJm5jHArm6XsA
https://semianalysis.substack.com/p/nvidia-ada-lovelace-leaked-specifications?s=r
在这里插入图片描述

将展示每个芯片的框图、架构分析、估计的裸片尺寸、如何得出这些裸片尺寸,以及一些成本和定位分析。
在这里插入图片描述

Ada 架构中的佼佼者是 AD102,估计其面积约为 611.3mm²。与上一代 GA102 相比,这是一个巨大的飞跃,因为通过 5 个额外的 GPC,获得70% 的 CUDA 内核增加。内存总线宽度则保持384 位不变,但预计内存速度会略微提高到 21Gbps 左右。尽管增加了,但这还不足支持该野兽芯片运行。AD102拥有96MB L2 Cache,远高于上一代GA102的6MB L2 Cache。
在这里插入图片描述

有趣的是,这与 AMD 的 Navi 22 GPU 具有“InfinityCache”的 L2 缓存数量相同。希望 Nvidia 将大型 L2 命名为“Nfinity Cache”只是为了吸引所有人。
AMD 的 Infinity Cache 是 L3 缓存,尽管两家供应商之间的缓存层次结构存在差异,但预计hit rates的总体趋势是相同的。以 AMD 为例,1080p 的hit rates为 78%,1440p 的hit rates为 69%,4k 的hit rates为 53%。这些高hit rates有助于降低内存带宽需求。
如果 Nvidia 的大型 L2 以类似的方式工作,尽管内存带宽略有增加,但将极大地帮助馈送 AD102。Ada 的高端配置应该配备24GB 的 GDDR6X,但预计会有一些配置因此而减少。
在这里插入图片描述

AD103 的配置非常有趣,估计约为379.69mm²。与 AD102 相比,这是一个巨大的降级。这可能是 GPU 一代中顶级芯片和第二个芯片之间近期内存中最大的差距,其中 AD102 的 CUDA 内核比 AD103 多70% 以上。

另一个有趣的事情是 CUDA 核心数量与当前一代高端 GA102 完全相同。内存总线采用 256 位总线,远小于 AD102 的 384 位总线。因此,基于 AD103 的游戏 GPU 最大容量为16GB,但可能会存在缩减版本。尽管内存带宽远低于 GA102,但包含 64MB L2 缓存仍将允许该 GPU 被馈送。

鉴于英伟达将使用定制的台积电“4N”节点,预计时钟频率将高于 GA102。时钟增加加上架构改进将使 AD103 的性能优于当前一代旗舰产品 RTX 3090 Ti;如果带到高功耗的桌面上。需要注意的是,GA103 从未出现在台式机上,仅在笔记本 GPU 的高端上可用,因此 Ada 一代可能会再次出现这种情况。

在这里插入图片描述

AD104 估计约为 300.45mm²,由于其性能和成本效益,Ada 系列中的最佳选择。192 位总线为游戏 GPU 带来了 12GB 内存,具有足够高的容量,同时将材料清单 (BOM) 保持在合理水平。

同时,Nvidia GPU 的 104 设计往往具有与上一代 102 相似的性能。如果这种趋势持续下去,成本/性能应该会非常出色。事实上,甚至可能有更多,因为 Nvidia 可能会增加相当多的时钟以达到 3090 以上的性能水平。

预计 Nvidia 的顶级 AD104 桌面 GPU 与GDDR6X 的功率将高达 350W 甚至 400W。因此,预计这将是大多数发烧友最终购买的 GPU。GPU 也可以是高效的,期望在没有 G6X 内存和时钟回退一点的情况下实现这一点。
在这里插入图片描述

AD106 是真正的大众市场 GPU,估计约为 203.21mm²。可能是该系列中容量最大的 GPU,因为 106 个 GPU 是 Pascal、Turing 和 Ampere 世代的最大容量。由于是 128 位总线,主要配备 8GB 内存。

在高端配置中,预计性能与GA104 相似,后者在 3070 Ti 中发挥最大作用。鉴于AD106 中只有 3 个 GPC 而 GA104 中只有 6 个 GPC,这个假设可能有点过于乐观。

该 GPU 也将是移动设备中容量最大的 GPU。使用 32MB 的二级缓存,GPU 缓存hit rates在 1080p 中可能为 55%,在1440p 中为 38%,在 4k 中为 27%,如 AMD 的 Navi 23。

在讨论这一代的宝贝 AD107 之前,需要介绍一些背景知识。

来自泄露文件的 Twitter 上发布的数据并未指定此 GPU 的缓存大小。先前的 GPU 假定每个 64 位内存控制器/帧缓冲区分区(FBP) 具有相同的 16MB。对于 AD107,这没有多大意义,因为 GPC 数量和总线宽度保持不变,而每个 GPU 的 TPC 仅下降到 4。如果 L2 缓存保持不变,那么芯片尺寸只会从 ~203.21mm²下降到 ~184.28mm²。这种微小的减少不足以将堆栈中的两个 GPU 分开。
在这里插入图片描述

相反,假设与图灵一代 GPU 的 TU116 和 TU106 存在类似的关系。TU116 有一个带有 0.5MB 二级缓存的 FBP,而不是像 TU10x 那样的1MB。如果对每个 FBP 应用相同的 50% L2 缓存模式,AD107 最终估计约为 145.54mm²。这对于产品定位和成本来说似乎要合理得多。

在这里插入图片描述

有了这些假设,AD107 似乎是一款出色的移动 GPU。由于不需要更多的 PCIe 通道,调整为 8 个通道,并且 Nvidia 通常将其底部 GPU 向下移动到此通道数。性能足以击败英特尔最好的 Meteor LakeiGPU 配置,但价格足够便宜,可以用于一些低成本的笔记本电脑。
总的来说,Ada 是一个相当有趣的阵容。在高端,性能(和功耗)有相当大的提高。AD102 的裸片尺寸与 GA102 相似,但采用更昂贵的定制台积电 4N 工艺技术,不是更便宜的定制三星 8N 工艺技术。
相对于三星的 8nm 衍生产品,台积电 N4 衍生产品的密度增加相当大,这证明了成本是合理的。
有趣的是,尽管是一个更新得多的节点,但SemiAnalysis 的消息来源报告说,台积电 N4 的参数良率实际上比三星的 8nm 节点略好,尽管具有相似的灾难性良率。这对于 GPU 来说基本上不是问题,因为几乎每个芯片都可以收获良率。
在这里插入图片描述

就裸片尺寸和整体 BOM 而言,Ada 阵容的其余部分变得更加温和。尽管晶圆成本要高得多,但在相同功率下性能通常应高于安培,但制造成本要低得多。玩了很多晶圆成本和芯片计算器来对成本进行一些估算,但最终英伟达的成本只是最终用户价格的一部分。Nvidia 出售带有标记的芯片,并协商 ODM/AIB 使用的内存定价。ODM/AIB 合作伙伴仍然必须以可能很低的利润率购买和集成内存以及电源组件和冷却系统。
Nvidia 似乎已最佳地平衡了 L2 缓存大小和内存总线宽度。内存大小将保持合理,因为大多数 GPU 将具有 16Gb G6X 或 G6。一般来说,AD104正在取代 GA102,AD106 正在取代 GA104 在性能层。内存成本相同,并且制造芯片的成本更低。由于效率更高且电路板更小,封装、冷却和电源组件等板级组件更便宜。
当比较堆栈中的相同裸片(例如GA104 与 AD104)时,内存大小有所增加,但这是需要的,因为 8GB 对于该段来说太少了,16GB 太贵了。

不过,应该考虑到对高功率的恐惧。Nvidia很可能会像上一代那样为每个芯片注入能量。事实上,可以想象会将功率推到堆栈中更高的 1 个芯片所做的事情,即顶级 AD104 配置达到 3080 级功耗,而顶级 AD106 配置达到 3070 级功耗。谣言指向顶级AD102,打破了GPU功耗的新纪录。
接下来,将分解如何得出这些裸片尺寸估计值。
芯片尺寸分析的第一步是收集有关 Ada的架构变化并将其与 Ampere 进行比较。SM 架构是 8.9 而不是 8.6,所以这主要是一代的改进。因此,假设 SM 大小增加 10%。不确定SM 架构的变化是什么,但可能包括 192Kb L1 缓存和张量核心。
心中最大可能的变化是增加了新的第3 代 RT 内核。在 IO 方面,泄漏表明 NVLink 已完全从阵容中移除,这表明 Nvidia 不会为多 GPU 数据中心和专业可视化应用程序推出 Ada 阵容。期待 PCIe 5.0,更好的内存控制器,适用于更高速度的 GDDR6X,和 DisplayPort 2.0 将包括在内。可能包括更新的 NVENC 和 NVDEC,这应该将 AV1 编码混合在一起。
在这里插入图片描述

Ada 最大的变化当然是 L2 缓存。Nvidia 似乎没有使用小型 L2 缓存,而是借鉴了 AMD 的 Infinity Cache ,并全面使用了更大的缓存。鉴于拥有大部分规格,Ampere 的 GA102 IP 块可用于创建与 AD102 规格相似的假设 GPU 裸片。这不会考虑某些更改,例如 SM 架构更改、更大的编码器块、PCIe 5.0、Displayport 2.0 或针对 GDDR6X 调整的内存控制器。
在这里插入图片描述

通过使用 GA102 构建块,为这个假设的 Ampere GPU 获得了 1629.60mm²的裸片尺寸,该 GPU 具有与 AD102 相同的配置,但采用 8nm。会立即注意到的是 L2 缓存是巨大的。AMD 在其 Navi 21 GPU 上具有更大容量的 L3 Infinity Cache,但没有分配如此大的区域专用于该缓存。是的,AMD位于更密集的 N7 节点上,但这只是难题的一小部分。密度上的大部分差异来自 L2 缓存的布局和配置。
GA102 使用 48 个 128KB 的 SRAM 片,每个64 位内存控制器/帧缓冲区分区 (FBP) 有 1MB 的 L2。另一方面,GA100使用 80 个 512KB 的 SRAM 切片。从与 AMD 的 L2缓存的比较中可以看出,这些更大的切片似乎大大提高了密度。
GA100的密度提升远不止工艺节点缩小那么简单。使用 AMD 的 L3 Infinity Cache 可以看到相同的效果。
在这里插入图片描述

虽然 AMD 在许多设计元素上不如 Nvidia,但相信在缓存和封装等某些领域无疑更好。相信这在很大程度上源于 CPU 团队的血统。AMD 非常擅长为GPU 制作极其密集的高性能缓存,如 Infinity Cache 所示。事实上,在最终的芯片尺寸估计中,Nvidia 的 96MB L2 仍然远不及 AMD 的 96MB L3 Infinity Cache。
在这里插入图片描述

无论如何,仅从三星 8 缩小到台积电 4 不会使 GA102 构建块达到合理的裸片尺寸。相反,缓存设计需要进行架构返工。泄漏告诉,现在 AD102 的 FBP 中每个 64 位内存控制器有 16MB 的 L2。估计Nvidia 将迁移到 48、2048KB 的 SRAM 切片。
有了这个缓存配置,就可以用这些数字计算出理论上的缓存带宽。
AMD 在 1.94GHz 的 Navi 21 上拥有 1.99TB/s 的 Infinity Cache 带宽。如果假设 Nvidia 在 AD102 上以相同的 1.94GHz 运行,那么将能够在其 L2 上实现 5.96TB/s 的带宽。最终产品的时钟会有所不同,但预计 2.25GHz 左右的频率对于台式机中的 Ada 来说是现实的。预计 RDNA3 在台式机上的时钟频率将高于 2.5GHz。Nvidia 正在以一定的密度为代价做出使用高带宽缓存的设计选择。
Nvidia 本可以引入更高密度的缓存,每片 8-16MB。这可能会使 L2 密度与 AMD 的 Infinity Cache 相似,但会导致 L2 带宽下降到 Ampere 的带宽以下。最后,这可能不是一个选择。
对这种不同的缓存架构对 AD102构建块 L2 区域的影响进行了估算。然后对台积电的 N7 应用了收缩系数,对台积电 N4 应用了另一个收缩系数。SRAM 似乎使用 60:40 的 SRAM 与逻辑分割,这有助于影响使用的 SRAM 缩小。对 SM 应用了10% 的总增长因子来解释那里的任何架构变化,并根据 SRAM 与逻辑的混合(通常为 30:70)对各种数字逻辑块具有不同的收缩因子。
在这里插入图片描述

最后,保持芯片的模拟部分相同,因为缩小幅度很小,但这些将通过可能增加面积的升级来平衡,例如 PCIe 5.0、GDDR6X 内存速度和 DisplayPort 2.0。在这些图中删除了 NVLink。最后到达了~611.3mm²。这与kopite7kimi 所说的模具尺寸约为 600mm²的说法独立一致。
在收集了一个小的概述之后,可以从其余阵容的配置开始。GPC、计数、TPC 计数、L2 大小、命令缓冲区、各种PHY、交叉开关等都可以根据 GPU 配置动态缩小。基于对台积电和实际产品的陈述的捏造,为收缩因素选择的所有数字都有些武断,所以最后有点在黑暗中拍摄。对于 AD107,略微放弃了不同的缓存架构,因为每个 FBP 的缓存量较少。
总体而言,Ada Lovelace 在架构上似乎与当前的 Ampere 架构并没有太大的不同,但确实带来的变化,例如改进的光线追踪核心、改进的编码器和更大的 L2 缓存将在降低成本的同时显着提升性能尽管位于更昂贵的基于 TSMC N4 的定制节点上。Nvidia 一直保持着在堆栈中保持内存大小平衡的传统,每个级别的内存大小适度增加。L2与 AMD 相比,有传言指出高端产品的性能非常高,但成本也很高。对 Navi33芯片更感兴趣,应该介于 AD104 和 AD106 之间。范围很大,但泄漏表明在大众市场上是一个很好的竞争对手。
AMD 目前在光线追踪性能方面远远落后,并且缺乏 DLSS 和广播等许多差异化软件功能确实损害了竞争力,但相信这将是十年来最具竞争力的 一代GPU 。
随着以太坊 2.0 猛烈抨击采矿需求的中断以及消费者将支出组合从商品转向服务,GPU 价格正在快速下跌。这些因素与更高的通货膨胀相结合意味着预测 AdaLovelace(和 RDNA 3)GPU 价格在 400 至 1,000 美元的市场中将是相当不错的性价比。堆栈的顶端很可能具有惊人的性能水平,但成本更高。
3D芯片技术颠覆计算方式:AMD、Graphcore和Intel各放大招
高性能处理器研究表明,延续摩尔定律的新方向即将到来。每一代处理器都需要比上一代性能更好,这也意味着需要将更多的逻辑电路集成到硅片上。但是目前在芯片制造领域存在两个问题:一是缩小晶体管及其构成逻辑和内存块的能力正在放缓;另一个是芯片已经达到了尺寸极限。
在这里插入图片描述
摩尔定律。图源:wikipedia

光刻工具只能刻印大约 850 平方毫米的区域,大约是顶级 Nvidia GPU 的大小。
近几年,片上系统开发人员开始将较大的芯片设计分解成较小的芯片,并在同一个封装内连接在一起。在 CPU 中,连接技术大多是 2.5D 封装,其中小芯片彼此并排放置,并使用短而密集的互连连接。由于大多数制造商已就 2.5D 「小芯片 - 小芯片」通信标准达成一致,这种集成的势头会不断发展。
但是,由于数据存储需求增加,要想将大量数据存储在同一个芯片上,就需要更短、更密集的连接,这只能通过将一个芯片叠加在另一个芯片上来实现。将两个芯片进行连接意味着芯片之间每平方毫米要进行数千次连接。
这需要大量的创新才能实现,工程师必须弄清楚如何防止堆栈中一个芯片由于过热毁掉另一个芯片,防止偶尔出现的坏小芯片导致整个系统崩溃等。
近日,IEEE Spectrum、负责半导体报道的高级编辑 Samuel K. Moore介绍 3D 芯片技术颠覆计算的 3 种方式,主要介绍了 AMD、Graphcore 和英特尔行业领先优势。
AMD Zen 3
长期以来,个人电脑可以选择增加内存来提高超大应用程序和数据量大的工作速度。得益于 3D 芯片堆叠,AMD 的下一代 CPU 小芯片将提供这种选择。
Zen 2 和 Zen 3 处理器内核都使用相同的台积电制造工艺,因此具有相同尺寸的晶体管、互连等。AMD 在架构上做了很多改变,即便没有额外的缓存内存,Zen 3 的平均性能提高了 19%。
在这里插入图片描述

值得一提的是 Zen 3 架构亮点之一是硅通孔 (TSV) 垂直堆叠芯片,这是一种将多个芯片相互连接的方式。TSV 是在 Zen 3 最高级别缓存中构建的,即称为 L3 的 SRAM 块,位于计算小芯片的中间,并在所有 8 个核心上共享。
在处理繁重数据的处理器中,Zen 3 晶圆背面被减薄,直到 TSV 暴露出来,然后,一个 64 兆的 SRAM 小芯片被连接到那些暴露的 TSV 上,该过程使用的是混合键合——一种类似于铜冷焊的过程。结果是一组密集的连接可以紧密到 9 微米。最后,为了结构稳定和热传导,在 Zen 3 CPU die(Die 或者 CPU Die 指的是处理器在生产过程中,从晶圆上切割下来的一个个小方块)的剩余部分附着空白硅小芯片。
在这里插入图片描述

AMD 3D V-Cache 技术将一个 64 兆字节的 SRAM 缓存(红色)和 2 个空白结构小芯片堆叠到 Zen 3 计算小芯片上。
「通过将空白硅小芯片设置在 CPU die 旁边来增加额外的内存是不可取的,因为数据要花费太长的时间才能到达处理器核心。尽管 L3 缓存大小增加了三倍,但 3D V-Cache 仅增加了四个时钟周期的延迟——这只能通过 3D 堆叠实现,」AMD 高级设计工程师 John Wuu 表示。
更大的缓存在高端游戏中占有一席之地,使用具有 3D V-Cache 的台式机 Ryzen CPU 可将 1080p 的游戏速度平均提高 15%。Wuu 指出,与缩小逻辑能力相比,业界缩小 SRAM 的能力正在放缓。因此,可以预测 SRAM 扩展将继续使用更成熟的制造工艺,计算小芯片推向摩尔定律的前沿。
Graphcore Bow AI 处理器
即使堆栈中的芯片没有晶体管,3D 集成也能加快计算速度。总部位于英国的 AI 计算机公司 Graphcore 仅通过在其 AI 处理器上安装电力传输(power-delivery)芯片,就实现了系统性能的大幅提升。
添加电力传输硅意味着名为 Bow 的组合芯片可以运行得更快(1.85 GHz VS 1.35 GHz),电压低于其前一代。这意味着与上一代相比,计算机训练神经网络的速度提高了 40%,能耗降低了 16%。用户无需更改软件即可获得这种改进。
电源管理 die 由电容器和硅通孔堆叠而成,后者为处理器芯片提供电力和数据,真正与众不同的是电容器。与 DRAM 中的位存储组件一样,这些电容器是在硅中又深又窄的沟槽中形成的。由于这些电荷储存器非常靠近处理器的晶体管,功率传输变得平滑,使处理器内核能够在较低电压下更快地运行。
如果没有电力传输芯片,处理器必须将其工作电压提高到高于标称水平才能在 1.85 GHz 下工作,这样会消耗更多的功率。使用电源芯片,也可以达到既定的时钟频率并消耗更少的功率。
在这里插入图片描述

Graphcore Bow AI 加速器使用 3D 芯片堆叠将性能提升 40%。
Bow 的制造工艺是独一无二的。大多数 3D 堆叠是通过将一个小芯片粘合到另一个小芯片上来完成的,其中一个仍然在晶圆上,称为晶圆上芯片 [参见上面 AMD 的 Zen 3]。相反,Bow 使用了台积电的「晶圆 - 晶圆」,其中一种类型的整个晶圆与另一种类型的整个晶圆键合,然后切割成芯片。
Graphcore 首席技术官 Simon Knowles 表示,这是市场上第一款使用该技术的芯片,使两个裸片之间的连接密度高于使用晶圆芯片工艺所能达到的密度。
在这里插入图片描述

BOW-2000。
尽管电力传输小芯片没有晶体管,但不久的将来可能会出现。Knowles 说,仅将这项技术用于电力传输只是第一步,在不久的将来,会走得更远。
了解更多请参考:https://spectrum.ieee.org/graphcore-ai-processor
英特尔 Ponte Vecchio 超级计算机芯片
Aurora 超级计算机旨在成为美国首批突破 exaflop 障碍的高性能计算机 (HPC) 之一——每秒 10 亿次高精度浮点计算。为了让 Aurora 达到这些性能,Ponte Vecchio 将 47 块硅片上超过 1000 亿个晶体管封装到一个处理器中。英特尔同时使用 2.5D 和 3D 技术,将 3,100 平方毫米的硅片(几乎等于四个 Nvidia A100 GPU)压缩到 2,330 平方毫米的空间中。
在这里插入图片描述
英特尔 Ponte Vecchio 处理器将 47 个小芯片集成到一个处理器中。
每个 Ponte Vecchio 实际上是两组镜像芯片,使用英特尔的 2.5D 集成技术 Co-EMIB 连接在一起,Co-EMIB 在两个 3D 小芯片堆栈之间形成高密度互连的桥梁。「桥」本身是嵌入封装有机基板中的一小块硅,硅上互连线的密度可以是有机基板上的两倍。Co-EMIB die 还将高带宽内存和 I/O 小芯片连接到 base tile(最大的小芯片,其他芯片都堆叠在其上)。
base tile 使用英特尔的 3D 堆叠技术,称为 Foveros,在其上堆叠计算和缓存小芯片。该技术在两个芯片之间建立了密集的 die-to-die 垂直连接阵列,这些连接是 36 微米。信号和电源通过硅通孔进入这个堆栈,较宽的垂直互连直接穿过硅的大部分。
在这里插入图片描述

Foveros
八个计算 tile、四个缓存 tile 和八个用于给处理器散热的空白 tile 都连接到 base tile 上。base tile 本身提供缓存内存和允许计算 tile 访问内存的网络。
英特尔研究员 Gomes 表示:这一切都不容易,Ponte Vecchio 在良率管理、时钟电路、热调节和功率传输方面都进行了创新。例如,英特尔工程师选择为处理器提供高于正常电压(1.8 伏)的电压,以便电流足够低以简化封装。base tile 中的电路将电压降低到接近 0.7 V 以用于计算 tile,并且每个计算 tile 必须在 base tile 中有自己的电源域。关键是新型高效电感器,称为同轴磁性集成电感器。因为这些都内置在封装基板中,所以在向计算 tile 提供电压之前,电路实际上在 base tile 和封装之间来回移动。
Gomes 表示,从 2008 年的第一台 petaflop 超级计算机到今年的 exaflops 用了 14 年,先进的封装技术如 3D 堆叠,将有助于提高计算能力。
GPU将成为主流,国产化曙光初现
算力将成为数字经济引擎和智能社会基石,异构芯片组合提供海量算力,GPU将成为主流:未来的AI计算,将形成以CPU为控制中心,GPU、FPGA、ASIC为特定场景加速卡的异构计算格局。从架构部署的灵活性、效率性以及人工智能算法的本质特性来看,GPU将成为AI计算需求量最大的芯片,预计2025年需求占比将达57%。
中国市场将高速增长,GPU国产化曙光初现:预计到2024年,中国人工智能技术市场规模将达到172亿美元;全球占比将从2020年12.5%上升到15.6%,是全球市场增长的主要驱动力;在AI计算的训练和推理两个领域,已经有不少初创公司发布了GPU产品。
2030年人工智能所需算力需求将达到16206EFLOPS,计算芯片的技术因素制约驱动算力布局向泛在演进。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

训练指模拟人类接收、学习并理解外界信息能力的AI技术;推理指模拟人类通过学习、判断、分析等心理活动获取信息内含逻辑的AI技术。
从部署的灵活性来看,CPU最为灵活,GPU次之,FPGA 和ASIC分列最后两位。
从计算的效率来看,ASIC 效率最高,FPGA次之,GPU和CPU分列最后两位。
异构计算是一个平衡的结果:考虑到部署的灵活性和计算效率,异构计算是一个平衡的结果,CPU+GPU或FPGA或ASIC是趋势。
CPU擅长调度,计算能力一般
在这里插入图片描述
在这里插入图片描述

GPU擅长浮点计算,并行处理能力强
在这里插入图片描述

FPGA可灵活编程,擅长固定业务的高速处理
在这里插入图片描述

ASIC可根据需求定制,只能针对特定场景
在这里插入图片描述

从技术趋势来看,GPU将成为主流AI芯片
在这里插入图片描述

全球AI芯片市场规模将高速增长 :预计到2025年,全球市场规模有望达到300亿美元,2019年-2025年年均复合增速约37%。
GPU市场份额有望达50%:AI的应用需要用到大量卷积算法,正是GPU擅长的领域;预计2025年,市场份额将达到约57%。
训练芯片市场以GPU为主:2019年,中国训练芯片市场规模约41亿元,英伟达公司凭借V100系列等产品占据了90%的市场份额;考虑到AMD公司的产品也是GPU,GPU占据了训练芯片市场95%的份额。
推理芯片市场多元化趋势较为明显:2019年中国推理芯片市场规模约37亿元,相比于训练市场,FPGA、ASIC份额均有所提升,AMD的GPU产品份额亦有所提升;GPU产品不再是一家独大。
中国GPU芯片板卡市场将高速增长:预计2024年,中国GPU芯片板卡市场规模将达到370亿元,年均复合增速约30%;训练市场规模占比约36%,推理市场占比约58%,高性能计算市场约6%。

参考链接
https://mp.weixin.qq.com/s/fJfQv8_PmoEIDp8_Y74Cfg
https://mp.weixin.qq.com/s/B_pNd0662c0t1gb7HwwBsQ
https://mp.weixin.qq.com/s/bSowhmoRqVJm5jHArm6XsA
https://semianalysis.substack.com/p/nvidia-ada-lovelace-leaked-specifications?s=r

猜你喜欢

转载自blog.csdn.net/wujianing_110117/article/details/124374168