前言与感谢
- 以前就对矩阵求导有心理阴影,到底要不要转置,哪个矩阵放在前面,哪个矩阵放在后面,链式法则怎么搞,由产生此类一系列让人头大的问题。其中,最令人智熄的是经常网上的一些算法公式推导根本是错误的,因为矩阵维数根本不匹配,故这些无良的发布者可能根本就没有手推过,天天搞复制黏贴大法,很多时候都是大量重复错误的内容。最近读了一些材料,感觉心中有了一些数,因此想通过本文总结,一次性梳理清楚。是时候搞定矩阵微分了!
- 在此,必须感谢为这个问题写下详细分析文章的人,尤其是参考资料[2,3,8]中的作者,他们是很用心的站在初学者的角度来考虑这些问题。的确如某位博主所言,我也认为矩阵微分是属于三不管区域,无论是数分、高代还是优化课程,前两者的老师觉得此问题不属于知识主线,不必教,后一类课程的老师觉得这本质上还属于线性代数+微积分的内容,应该在基础课程内搞定,因此造就了如此局面,书到用时方恨少啊!
符号规定与求导布局
- 符号规定
- $x$:标量
- $y$:标量
- $\mathbf{x}$:$m$维列向量
- $\mathbf{y}$:$n$维列向量
- $\mathbf{X}$:大小为$m×n$的矩阵
- 求导布局$(Layout)$
参考材料:
- 张贤达. 矩阵分析与应用, 2004
- 长躯鬼侠. 矩阵求导术(上), (https://zhuanlan.zhihu.com/p/24709748)
- 刘建平. 机器学习中的矩阵向量求导, (https://www.cnblogs.com/pinard/)
- Kaare Brandt Petersen, Michael Syskind Pedersen. "The Matrix Cookbook", 2008
- Thomas P. Minka. "Old and New Matrix Algebra Useful for Statistics", 2000
- Searle Shayle R. "Matrix Algebra Useful for Statistics", 1982
- Jan R. Magnus, Heinz Neudecker. "Matrix Differential Calculus with Applications in Statistics and Econometrics", 2007
- "Matrix Vector Derivatives for Machine Learning", (作者邮箱:[email protected])