前言
本次将记录如何进行矩阵求导(标量对矩阵)。由于矩阵求导涉及行列式、迹,因此比标量对向量、向量对向量都要复杂一些。
矩阵微分定义
定义矩阵 X X X、实值函数 f ( X ) f(X) f(X)的微分和偏导矩阵:
X = [ x 11 x 12 … x 1 n x 21 x 22 … x 2 n … … … … x n 1 x n 2 … x n n ] d X = [ d x 11 d x 12 … d x 1 n d x 21 d x 22 … d x 2 n … … … … d x n 1 d x n 2 … d x n n ] ∂ f ( X ) ∂ X = [ ∂ f ∂ x 11 ∂ f ∂ x 12 … ∂ f ∂ x 1 n ∂ f ∂ x 21 ∂ f ∂ x 22 … ∂ f ∂ x 2 n … … … … ∂ f ∂ x n 1 ∂ f ∂ x n 2 … ∂ f ∂ x n n ] 将 f ( X ) 看 做 关 于 矩 阵 元 素 的 多 元 函 数 , 则 d f ( X ) = ∑ i = 1 n ∑ j = 1 n ∂ f ∂ x i j d x i j 上 式 是 矩 阵 乘 积 的 内 积 , 即 矩 阵 A B T 的 迹 d f ( X ) = t r ( ∂ f ( X ) ∂ X ( d X ) T ) = t r ( ( ∂ f ( X ) ∂ X ) T d X ) = t r ( ( ∂ f ( X ) ∂ X T ) d X ) 就 将 矩 阵 求 导 , 微 分 和 矩 阵 的 迹 关 联 了 起 来 。 X=\begin{bmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \dots & \dots & \dots & \dots \\ x_{n1} & x_{n2} & \dots & x_{nn} \\ \end{bmatrix} \\ \quad \\ dX=\begin{bmatrix} dx_{11} & dx_{12} & \dots & dx_{1n} \\ dx_{21} & dx_{22} & \dots & dx_{2n} \\ \dots & \dots & \dots & \dots \\ dx_{n1} & dx_{n2} & \dots & dx_{nn} \\ \end{bmatrix} \\ \quad \\ \frac {\partial f(X)}{\partial X} = \begin{bmatrix} \frac {\partial f}{\partial x_{11}} & \frac {\partial f}{\partial x_{12}} & \dots & \frac {\partial f}{\partial x_{1n}} \\ \frac {\partial f}{\partial x_{21}} & \frac {\partial f}{\partial x_{22}} & \dots & \frac {\partial f}{\partial x_{2n}} \\ \dots & \dots & \dots & \dots \\ \frac {\partial f}{\partial x_{n1}} & \frac {\partial f}{\partial x_{n2}} & \dots & \frac {\partial f}{\partial x_{nn}} \\ \end{bmatrix} \\ \quad \\ 将f(X)看做关于矩阵元素的多元函数,则 \\ \quad \\ df(X)=\sum_{i=1}^n\sum_{j=1}^n \frac {\partial f}{\partial x_{ij}}dx_{ij} \\ \quad \\ 上式是矩阵乘积的内积,即矩阵AB^T的迹\\ \quad \\ df(X)=tr(\frac {\partial f(X)}{\partial X} (dX)^T) \\ = tr((\frac {\partial f(X)}{\partial X})^TdX) \\ = tr((\frac {\partial f(X)}{\partial X^T})dX) \\ \quad \\ 就将矩阵求导,微分和矩阵的迹关联了起来。 X=⎣⎢⎢⎡x11x21…xn1x12x22…xn2…………x1nx2n…xnn⎦⎥⎥⎤dX=⎣⎢⎢⎡dx11dx21…dxn1dx12dx22…dxn2…………dx1ndx2n…dxnn⎦⎥⎥