CS217学习笔记：Lec1

《CS217：机器学习的硬件加速》课程通过理解机器学习的关键特点、观摩硬件应用、邀请嘉宾座谈工业界和学术界的例子来学习如何设计针对加速机器学习的硬件结构。

主要话题：

软件2.0

如今计算能力限制了训练机器学习模型的工作，如果我们有更快的处理器我们可以运行更大的模型...事实上我们在一个可靠的数据子集上训练会花费数月时间。我们可以利用几个数量级命令的改进——提升100倍或者更多。

\[ Power = \frac{Ops}{second} \times \frac{Joules}{Op} \]

专用化可以提升前者，降低后者，达到更高能效。

登纳德系数（Dennard's Factor）：
\[ α = a / b \]
为两代特征尺寸之比。

耗散功率：
\[ Power Dissipation \approx CV^2f = \alpha ^2(C/\alpha(V/\alpha)^2\alpha f) \]
提升α可得到更多晶体管（ \(\alpha ^2\) ），更高性能（\(\alpha f\)）。

随着晶体管尺度缩小到达极限，供电电压V和时钟频率F无法继续等比缩小，\(CV^2f = \alpha ^2(C/\alpha V^2f)=\alpha CV^2f\)，造成耗散功率增加。

具体内容在Michael Taylor的文章中细读。

异构计算是专用化的机会和需求，有异构多核系统和偏上加速器。可用GFLOPS/W和Energy/(FL)OP指标进行衡量。