全文共2693字，预计学习时长8分钟

来源：amazon1688

近几年，微软、谷歌、脸书、百度等科技行业的巨头陆陆续续不断推出AI产品，这些产品如果被正确利用，给社会带来的价值毫无疑问巨大无比。

计算能力是机器学习（ML）的关键

机器学习驱动的产品功能通常取决于可支配的计算能力。这是ML和AI领域的经验法则，即尖端计算资源的可用性越高，ML和AI的工作能力就越强。机器学习从业者必须消耗数小时，有时甚至数天数月才能训练出他们的机器学习模型。时间的长短是由计算能力决定的。

很显然，ML和AI等先进的自学习技术能否走得更远，取决于专用硬件芯片的重点开发，这种芯片须能支持此类模型所要求的计算能力。值得注意的是，英伟达（Nvidia）和英特尔（Intel）正在制造用于AI驱动产品的芯片，而科技巨头公司正是他们的重要客户。

2018年11月,亚马逊做了一个出乎意料的决定，宣布制造机器学习芯片INFERENTIA（亚马逊Inferentia）。

为什么亚马逊 Inferentia芯片如此重要？

来源：dy.163

机器学习工程师、AI科学家和云计算传播者等技术人员都有很多关于亚马逊 Inferentia的疑问。为了解决这些疑问，我们需要深入钻研机器学习领域。

通常，任何机器学习项目都涉及培训和推理两个阶段，之后就会产生产品或服务。

训练阶段

顾名思义，训练阶段即向机器提供所需数据的独特过程。机器从给定的数据集中学习运算模式。这是一个一次性的过程，旨在通过学习基于数学函数的复杂算法来使机器更智能。训练阶段可与课堂情景联系起来–教授为其学生讲授特定主题的课程。教授无疑是现阶段的关键。

推理阶段

学习了所有复杂算法之后，机器进入推理阶段。机器学习的先进程度由“经过训练”的系统在推理阶段的响应方式决定。与训练阶段不同，它不是一次性过程。实际上，可能有数百万人同时使用这些训练有素的模型。再举一个例子，推理阶段就像一个学生活学活用课堂知识。在这一阶段，学生是关键。

亚马逊一直都很重视产品的所有权，即使那意味着从头开始。长期以来，亚马逊网络服务系统（AWS）一直在使用Nvidia和Intel制造的芯片。2019年，AWS在re:Invent 大会上推出了专用于推理阶段的新芯片-亚马逊Inferentia。

深入了解亚马逊Inferentia

在过去的十年里，亚马逊最终认识到了深度加速学习市场广阔，且在应用程序中使用广泛。动态定价、图像搜索应用程序、个性化搜索建议、自动客户支持等应用程序正在使用ML概念。

更不用说，未来几年不可避免地会新增大量的应用程序。ML的挑战在于它复杂、昂贵且缺乏为执行算法而优化的基础架构。

除此之外，亚马逊还密切关注其竞争对手。谷歌于2016年公布了其首款定制机器学习芯片Tensor ProcessingUnits（TPU），目前正在提供第三代TPU云服务。因此，对于资源和技术均可利用的亚马逊来说，这似乎是一个显而易见的选择。

亚马逊Inferentia的创造者

来源：momv.tw

亚马逊于2015年收购了以色列初创企业安那普尔纳（Annapurna）。来自亚马逊和安纳普尔纳实验室的工程师制造了ArmGraviton处理器和亚马逊Inferentia芯片。

技术指标

亚马逊 Inferentia芯片由4个Neuron核心组成。每个Neuron 核心都实现了“高性能脉动阵列矩阵乘法引擎”。（这些花哨的形容词表示互连硬件以较少的响应时间执行特定操作）。

根据技术定义，“在并行计算机体系结构中，脉动阵列是数据处理单元（DPU，也称为单元或节点）紧密耦合的同构网络。每个节点根据从上级网络接收到的数据独立计算部分结果，将结果存储在内部并将其传递到下级。”

AWS Inferentia的优势

高性能

每个芯片带有4个Neuron核，可以执行高达128 TOPS（每秒数万亿次操作）。它支持BF16，INT8和FP16数据类型。有趣的是，AWS Inferentia可以采用32位经过训练的模型，并用BFloat16以16位模型的速度运行它。

低延迟的实时输出

你一定在2019年的AWS re:Invent 大会上听说过Inferentia能提供更低的延迟，这是怎么做到的呢？

随着ML变得越来越复杂，模型不断扩充，将模型输入和内存成为最关键的任务，研究人员原本试图改进模型算法，却导致了高延迟，并放大了计算问题。亚马逊Inferentia芯片能够在更大程度上解决延迟问题。

芯片互连有两个目的。首先，可以使用100％的缓存存储空间在多个内核之间划分模型，另外通过内核管道全速流数据，防止外部存储器访问引起的延迟。

支持所有框架

ML从业者使用各种各样的框架。而AWS使ML爱好者可以轻松地在几乎所有可用框架上运行AWS Inferentia。要运行Inferentia，需要将模型编译为硬件优化形式。这似乎太专业了，但事实并非如此，你可以通过AWS NeuronSDK中的命令工具或框架API来执行这一操作。

来源：csdn

民主化访问ML所需硬件

运行ML模型数小时、数周甚至数月，这需要极大的成本。需要用ML处理和构建应用程序的公司可能无法承担购买、运行和维护具有更高计算能力的硬件的费用。

因此，除亚马逊 EC2 Inf1实例（由Inferentia芯片为动力的实例）外，AWS尚未发布有关Inferentia的任何定价。但是，为了降低推理阶段成本，客户有很大几率选择亚马逊Inferentia。

AWS机器学习的下一步是什么？

AWS发布了十几条增强ML服务和产品的公告。我们可以关注一下亚马逊SageMaker公告，这是AWS为ML宣讲会上的企业和企业家特意准备的。

AWS试图将Inferentia芯片添加到其他实例中，例如EC2，这将升级优化AWS的计算产品组合。依赖强大的战略，亚马逊将提供业内最佳定制产品，但只有在以惊人的速度提供硬件服务的情况下，其效率才能成倍增长。

来源：tech.sina

下一步的发展，我们拭目以待，共同见证。

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组：高荣蔚、潘焱鸿

围绕亚马逊Inferentia的炒作为何层出不穷？