The Matrix Calculus

2022-08-24 MachineLearning Calculus, Matrix, derivative 0 0 Comments Word Count: 12.5k(words) Read Count: 75(minutes)

介绍 Introduction

In this post, we hope to solve all derivative problems with matrix via the matrix differentiation + trace trick. We denote by lowercase letter $x$ , bold lowercase letter $\boldsymbol{x}$ , and bold uppercase letter $\boldsymbol{X}$ a scalar, a vector, and a matrix, respectively. If we denote the entry of a vector and a matrix by $x_i$ and $x_{i,j}$ , and $f(\boldsymbol{X})$ denotes the function of matrix $\boldsymbol{X}$ , then we can intuitively define the dirivative of $f$ to $\boldsymbol{X}$ as:

$\nabla_{\boldsymbol{X}}f = \begin{bmatrix} \frac{\partial f}{\partial x_{1,1}} & \cdots & \frac{\partial f}{\partial x_{1,n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f}{\partial x_{m,1}} & \cdots & \frac{\partial f}{\partial x_{m,n}} \end{bmatrix}$

Futhermore, we can build the connection between this derivation and matrix calculus as follows:

$\text{d}f=\sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial x_{i,j}}=\text{tr}[(\nabla_{\boldsymbol{X}}f)^\top\text{d}\boldsymbol{X}]$ .

在这篇博客中，我们通过微分的思想来统一解决矩阵的一系列求导问题。我们用小写字母 $x$ , 小写粗体字母 $\boldsymbol{x}$ , 大写粗体字母 $\boldsymbol{X}$ 分别表示标量，向量和矩阵。
其中向量的元素表示为 $x_i$ , 矩阵的元素表示为 $x_{i,j}$ 。如果 $f(\boldsymbol{X})$ 表示关于矩阵 $\boldsymbol{X}$ 的函数，则 $f$ 关于矩阵 $\boldsymbol{X}$ 的导数可以直觉地定义为:

从而，我们可以建立起矩阵与微分的关联：

$\text{d}f=\sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial x_{i,j}}=\text{tr}[(\nabla_{\boldsymbol{X}}f)^\top\text{d}\boldsymbol{X}]$ .

The operational criterion for matrix differentiation 矩阵微分运算法则

$\color{green} \text{d}(\boldsymbol{X}\pm\boldsymbol{Y})=\text{d}\boldsymbol{X}\pm\text{d}\boldsymbol{Y}$
$\color{green}\text{d}（\boldsymbol{X}\boldsymbol{Y}）=(\text{d}\boldsymbol{X})\boldsymbol{Y}+\boldsymbol{X}\text{d}\boldsymbol{Y}$
$\color{green}\text{d}(\boldsymbol{X}^\top) = (\text{d}\boldsymbol{X})^\top$
$\color{green}\text{d}(\text{tr}(\boldsymbol{X})) = \text{tr}(\text{d}\boldsymbol{X})$
$\color{green}\text{d} \boldsymbol{X}^{-1} = -\boldsymbol{X}^{-1}(\text{d}\boldsymbol{X})\boldsymbol{X}^{-1}$
$\color{green}\text{d}|\boldsymbol{X}| = |\boldsymbol{X}|\text{tr}(\boldsymbol{X}^{-1}\text{d}\boldsymbol{X})$
$\color{green}\text{d} (\boldsymbol{X}\odot\boldsymbol{Y}) = \text{d}\boldsymbol{X}\odot\boldsymbol{Y} + \boldsymbol{X}\odot \text{d}\boldsymbol{Y}$
$\color{green}\text{d} \sigma(\boldsymbol{X}) = \sigma^{\prime}(\boldsymbol{X})\odot \text{d}\boldsymbol{X}\text{，其中}~\sigma(\cdot)~为在位函数操作$

Derivative of the Scalar to Matrix

Trace Trick

$\color{green}a=\text{tr}(a)$
$\color{green}\text{tr}(\boldsymbol{A})=\text{tr}(\boldsymbol{A}^\top)$
$\color{green}\text{tr}(\boldsymbol{A}\pm\boldsymbol{B}) = \text{tr}(\boldsymbol{A}) \pm \text{tr}(\boldsymbol{B})$
$\color{green}\text{tr}(\boldsymbol{A}^\top\boldsymbol{B}) = \sum_i\sum_j a_{i,j}b_{i,j}$
$\color{green}\text{tr}(\boldsymbol{A}^\top\boldsymbol{B}) = \text{tr}(\boldsymbol{B}\boldsymbol{A}^\top) = \text{tr}(\boldsymbol{B}^\top\boldsymbol{A}) = \text{tr}(\boldsymbol{A}\boldsymbol{B}^\top)$
$\color{green}\text{tr}[\boldsymbol{A}^\top(\boldsymbol{B}\odot\boldsymbol{C})] = \text{tr}[(\boldsymbol{A}\odot\boldsymbol{B})^\top\boldsymbol{C}] = \sum_i\sum_j a_{i,j}b_{i,j}c_{i,j}$

例1. 构造函数 No.1

$f = \boldsymbol{a}^\top \boldsymbol{X} \boldsymbol{b}, \boldsymbol{a}\in\mathbb{R}^{m\times 1}, \boldsymbol{X}\in\mathbb{R}^{m\times n}, \boldsymbol{b}\in\mathbb{R}^{n\times1}$ .

Process:

$\text{d} f$

$ = \text{d}(\boldsymbol{a}^\top\boldsymbol{X}\boldsymbol{b})$

$= \text{tr}[\text{d}(\boldsymbol{a}^\top\boldsymbol{X}\boldsymbol{b})]$

$= \text{tr}[\boldsymbol{a}^\top(\text{d}\boldsymbol{X})\boldsymbol{b}]$

$= \text{tr} (\boldsymbol{b}\boldsymbol{a}^\top\text{d}\boldsymbol{X})$

$= \text{tr} [(\boldsymbol{a}\boldsymbol{b}^\top)^\top\text{d}\boldsymbol{X}]$

Answer:

$\frac{\partial f}{\partial \boldsymbol{X}} = \boldsymbol{a}\boldsymbol{b}^\top$

例 2. 构造函数 No.2

$f = \boldsymbol{a}^\top e^{\boldsymbol{X}\boldsymbol{b}}, \boldsymbol{a}\in\mathbb{R}^{m\times 1}, \boldsymbol{X}\in\mathbb{R}^{m\times n}, \boldsymbol{b}\in\mathbb{R}^{n\times 1}$ .

Process:

$\text{d} f$

$ = \text{d}(\boldsymbol{a}^\top e^{\boldsymbol{X}\boldsymbol{b}})= \text{tr}[\boldsymbol{a}^{\top\text{d}(e}{\boldsymbol{X}\boldsymbol{b}})]$

$= \text{tr} \{\boldsymbol{a}^\top [e^{\boldsymbol{X}\boldsymbol{b}}\odot\text{d}(\boldsymbol{X}\boldsymbol{b})]\}$

$= \text{tr} [{(\boldsymbol{a}\odot e^{\boldsymbol{X}\boldsymbol{b}})}^\top \text{d}(\boldsymbol{X}\boldsymbol{b})]$

$= \text{tr} [{(\boldsymbol{a}\odot e^{\boldsymbol{X}\boldsymbol{b}})}^\top (\text{d}\boldsymbol{X})\boldsymbol{b}]$

$= \text{tr} [\boldsymbol{b}{(\boldsymbol{a}\odot e^{\boldsymbol{X}\boldsymbol{b}})}^\top \text{d}\boldsymbol{X}]$

$= \text{tr} \{[(\boldsymbol{a}\odot e^{\boldsymbol{X}\boldsymbol{b}})\boldsymbol{b}^\top]^\top \text{d}\boldsymbol{X}\}$

Answer:

$\frac{\partial f}{\partial \boldsymbol{X}} = (\boldsymbol{a}\odot e^{\boldsymbol{X}\boldsymbol{b}})\boldsymbol{b}^\top$

例 3. 构造函数 No.3

$f = tr(\boldsymbol{Y}^\top \boldsymbol{M}\boldsymbol{Y}), Y = \sigma(\boldsymbol{W}\boldsymbol{X}), \boldsymbol{W}\in\mathbb{R}^{l\times m}, \boldsymbol{X}\in\mathbb{R}^{m\times n}, \boldsymbol{M}\in\mathbb{R}^{l\times l}$ .

Process:

$\text{d} f$

$ = \text{tr} [\text{d} (\boldsymbol{Y}^\top\boldsymbol{M}\boldsymbol{Y})]$

$= \text{tr} [\text{d} (\boldsymbol{Y}^\top) \boldsymbol{M}\boldsymbol{Y} + \boldsymbol{Y}^\top\boldsymbol{M}\text{d}\boldsymbol{Y}]$

$= \text{tr}[(\text{d}\boldsymbol{Y})^\top\boldsymbol{M}\boldsymbol{Y}] + \text{tr} (\boldsymbol{Y}^\top\boldsymbol{M}\text{d}\boldsymbol{Y})$

$= \text{tr}(\boldsymbol{Y}^\top\boldsymbol{M}^\top\text{d}\boldsymbol{Y}) + \text{tr} (\boldsymbol{Y}^\top\boldsymbol{M}\text{d}\boldsymbol{Y})$

$= \text{tr} [\boldsymbol{Y}^\top(\boldsymbol{M}^\top + \boldsymbol{M})\text{d}\boldsymbol{Y}]$

$= \text{tr} [\boldsymbol{Y}^\top(\boldsymbol{M}^\top + \boldsymbol{M})\text{d}\sigma(\boldsymbol{W}\boldsymbol{X})]$

$= \text{tr} \{\boldsymbol{Y}^\top(\boldsymbol{M}^\top + \boldsymbol{M})[\sigma^{\prime}(\boldsymbol{W}\boldsymbol{X}) \odot \text{d}(\boldsymbol{W}\boldsymbol{X})]\}$

$= \text{tr} \left\{\{[(\boldsymbol{M}^\top + \boldsymbol{M})^\top\boldsymbol{Y}]\odot\sigma^{\prime}(\boldsymbol{W}\boldsymbol{X})\}^\top\text{d}(\boldsymbol{W}\boldsymbol{X})\right\}$

$= \text{tr} \left\{\{[(\boldsymbol{M}^\top + \boldsymbol{M})\boldsymbol{Y}]\odot\sigma^{\prime}(\boldsymbol{W}\boldsymbol{X})\}^\top\boldsymbol{W}\text{d}\boldsymbol{X}\right\}$

$= \text{tr} \left\{\left\{\boldsymbol{W}^\top\{[(\boldsymbol{M}^\top + \boldsymbol{M})\boldsymbol{Y}]\odot\sigma^{\prime}(\boldsymbol{W}\boldsymbol{X})\}\right\}^\top\text{d}\boldsymbol{X}\right\}$

Answer:

$\frac{\partial f}{\partial \boldsymbol{X}} = \boldsymbol{W}^\top\{[(\boldsymbol{M} + \boldsymbol{M}^\top)\sigma(\boldsymbol{W}\boldsymbol{X})] \odot \sigma^{\prime}(\boldsymbol{W}\boldsymbol{X})\}$

例 4. Linear Regression

$\ell = \|\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y}\|_2^2, \boldsymbol{X}\in\mathbb{R}^{m\times n}, \boldsymbol{w}\in\mathbb{R}^{n\times 1}, \boldsymbol{y}\in\mathbb{R}^{m\times 1}$ .

Process:

$\text{d} l $

$= \text{d} [(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})^\top(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})]$

$= \text{tr}\{[\text{d} (\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})^\top] (\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y}) + (\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})^\top \text{d}(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})\}$

$= \text{tr}\{(\boldsymbol{X}\text{d}\boldsymbol{w})^\top(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y}) + (\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})^\top(\boldsymbol{X}\text{d}\boldsymbol{w})\}$

$= \text{tr}[(\boldsymbol{X}\text{d}\boldsymbol{w})^\top(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y}) + (\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})^\top(\boldsymbol{X}\text{d}\boldsymbol{w})]$

$= \text{tr}[(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})^\top(\boldsymbol{X}\text{d}\boldsymbol{w}) + (\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})^\top(\boldsymbol{X}\text{d}\boldsymbol{w})]$

$= \text{tr}[2(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})^\top\boldsymbol{X}\text{d}\boldsymbol{w}]$

$= \text{tr}\{2[\boldsymbol{X}^\top(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})]^\top\text{d}\boldsymbol{w}\}$

Answer:

$\frac{\partial \ell}{\partial \boldsymbol{w}} = 2\boldsymbol{X}^\top\boldsymbol{X}\boldsymbol{w} - 2\boldsymbol{X}^\top\boldsymbol{y} \rightarrow \boldsymbol{w} = (\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}$

例 5. Maximum Likelihood Estimation (MLE) for the Multivariate Normal Distribution

$\boldsymbol{x}_1, \cdots, \boldsymbol{x}_N \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}), \ell = MLE(\boldsymbol{\Sigma}) = \log |\boldsymbol{\Sigma}| + \frac{1}{N}\sum_{i=1}^N{(\boldsymbol{x}_i - \overline{\boldsymbol{x}})}^\top\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i - \overline{\boldsymbol{x}}), \overline{\boldsymbol{x}} = \frac{1}{N}\sum_{i=1}^N\boldsymbol{x}_i, \boldsymbol{\Sigma}\in\mathbb{R}^{m\times m}$ .

Process:

$\text{d} \ell $

$= \text{tr} [\text{d} (\log|\boldsymbol{\Sigma}|) + \frac{1}{N}\sum_{i=1}^N(\boldsymbol{x}_i - \overline{\boldsymbol{x}})^\top(\text{d}\boldsymbol{\Sigma}^{-1})(\boldsymbol{x}_i - \overline{\boldsymbol{x}})]$

$= \text{tr} (\frac{1}{|\boldsymbol{\Sigma}|}\odot\text{d}|\boldsymbol{\Sigma}|) + \frac{1}{N}\sum_{i=1}^N\text{tr}[(\boldsymbol{x}_i - \overline{\boldsymbol{x}})^\top(\text{d}\boldsymbol{\Sigma}^{-1})(\boldsymbol{x}_i - \overline{\boldsymbol{x}})]$

$= \text{tr} \{\frac{1}{|\boldsymbol{\Sigma}|}\cdot|\boldsymbol{\Sigma}|\text{tr}(\boldsymbol{\Sigma}^{-1}\text{d}\boldsymbol{\Sigma})\} + \frac{1}{N}\sum_{i=1}^N\text{tr}[(\boldsymbol{x}_i - \overline{\boldsymbol{x}})(\boldsymbol{x}_i - \overline{\boldsymbol{x}})^\top(\text{d}\boldsymbol{\Sigma}^{-1})]$

$= \text{tr}(\boldsymbol{\Sigma}^{-1}\text{d}\boldsymbol{\Sigma}) - \frac{1}{N}\sum_{i=1}^N\text{tr}\{(\boldsymbol{x}_i - \overline{\boldsymbol{x}})(\boldsymbol{x}_i - \overline{\boldsymbol{x}})^\top[\boldsymbol{\Sigma}^{-1}(\text{d}\boldsymbol{\Sigma})\boldsymbol{\Sigma}^{-1}]\}$

$= \text{tr}(\boldsymbol{\Sigma}^{-1}\text{d}\boldsymbol{\Sigma}) - \frac{1}{N}\sum_{i=1}^N\text{tr}[\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i - \overline{\boldsymbol{x}})(\boldsymbol{x}_i - \overline{\boldsymbol{x}})^\top\boldsymbol{\Sigma}^{-1}\text{d}\boldsymbol{\Sigma}]$

$= \text{tr}\left\{[\boldsymbol{\Sigma}^{-1} - \frac{1}{N}\sum_{i=1}^N \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i - \overline{\boldsymbol{x}})(\boldsymbol{x}_i - \overline{\boldsymbol{x}})^\top\boldsymbol{\Sigma}^{-1}]\text{d}\boldsymbol{\Sigma}\right\}$

Answer:

$\frac{\partial \ell}{\partial \boldsymbol{\Sigma}} = {\{\boldsymbol{\Sigma}^{-1} - \frac{1}{N}\sum_{i=1}^N\boldsymbol{\Sigma}^{-1}[(\boldsymbol{x}_i - \overline{\boldsymbol{x}}){(\boldsymbol{x}_i - \overline{\boldsymbol{x}})}^\top]\boldsymbol{\Sigma}^{-1}\}}^\top$

例 6. Multinomial Logistic Regression.

$\ell = -\boldsymbol{y}^\top \log softmax(\boldsymbol{W}\boldsymbol{x}), \boldsymbol{y} \text{ is a one-hot encoding vector with size } m, \boldsymbol{W}\in\mathbb{R}^{m\times n}, \boldsymbol{x}\in\mathbb{R}^{n\times 1}, \boldsymbol{y}\in\mathbb{R}^{m\times 1}, softmax(\boldsymbol{a}) = \frac{e^{\boldsymbol{a}}}{\boldsymbol{1}^\top e^{\boldsymbol{a}}}$ .

Process:

$\ell $

$= -\boldsymbol{y}^\top\log \text{softmax}(\boldsymbol{W}\boldsymbol{x})$

$= -\boldsymbol{y}^\top\log \frac{\text{e}^{\boldsymbol{W}\boldsymbol{x}}}{\boldsymbol{1}^\top\text{e}^{\boldsymbol{W}\boldsymbol{x}}}$

$= -\boldsymbol{y}^\top (\boldsymbol{W}\boldsymbol{x}) + \boldsymbol{y}^\top\log [\boldsymbol{1}\cdot(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})]$

$= -\boldsymbol{y}^\top (\boldsymbol{W}\boldsymbol{x}) + (\boldsymbol{y}^\top\boldsymbol{1})\log (\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})$

$= -\boldsymbol{y}^\top (\boldsymbol{W}\boldsymbol{x}) + \log (\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})$

$\text{d} \ell $

$= \text{tr} [-\boldsymbol{y}^\top(\text{d}\boldsymbol{W})\boldsymbol{x} + \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}\text{d}(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})]$

$= \text{tr} [-\boldsymbol{y}^\top(\text{d}\boldsymbol{W})\boldsymbol{x} + \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}\cdot\boldsymbol{1}^\top\text{d}e^{\boldsymbol{W}\boldsymbol{x}}]$

$= \text{tr} \{-\boldsymbol{y}^\top(\text{d}\boldsymbol{W})\boldsymbol{x} + \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}\cdot \boldsymbol{1}^\top [e^{\boldsymbol{W}\boldsymbol{x}}\odot\text{d}(\boldsymbol{W}\boldsymbol{x})]\}$

$= \text{tr} [-\boldsymbol{y}^\top(\text{d}\boldsymbol{W})\boldsymbol{x}] + \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}\text{tr} \{\boldsymbol{1}^\top [e^{\boldsymbol{W}\boldsymbol{x}}\odot\text{d}(\boldsymbol{W}\boldsymbol{x})]\}$

$= \text{tr} [-\boldsymbol{y}^\top(\text{d}\boldsymbol{W})\boldsymbol{x}] + \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}\text{tr} [(\boldsymbol{1}\odot e^{\boldsymbol{W}\boldsymbol{x}})^\top\text{d}(\boldsymbol{W}\boldsymbol{x})]$

$= \text{tr} (-\boldsymbol{x}\boldsymbol{y}^\top\text{d}\boldsymbol{W}) + \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}\text{tr} [(\boldsymbol{1}\odot e^{\boldsymbol{W}\boldsymbol{x}})^\top(\text{d}\boldsymbol{W})\boldsymbol{x}]$

$= \text{tr} \{[-\boldsymbol{x}\boldsymbol{y}^\top + \boldsymbol{x}\frac{(e^{\boldsymbol{W}\boldsymbol{x}})^\top}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}]\text{d}\boldsymbol{W}\}$

$= \text{tr} \left\{[(\frac{e^{\boldsymbol{W}\boldsymbol{x}}}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}} - \boldsymbol{y})\boldsymbol{x}^\top]^\top\text{d}\boldsymbol{W}\right\}$

Answer:

$\frac{\partial \ell}{\partial \boldsymbol{W}} = [softmax(\boldsymbol{W}\boldsymbol{x}) - \boldsymbol{y}]\boldsymbol{x}^\top$

例 7. Back Propagation (BP) for Multi-Layer Perceptron (MLP)

$\ell = - \sum_{i=1}^N \boldsymbol{y}_i^\top\log softmax[\boldsymbol{W}_2 \sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2], \boldsymbol{x}_i \in \mathbb{R}^{n\times 1}, \boldsymbol{y}_i \text{ is a one-hot encoding vector with size } m,$

$\boldsymbol{W}_1 \in \mathbb{R}^{p\times n}, \boldsymbol{b}_1 \in \mathbb{R}^{p\times 1}, \boldsymbol{W}_2 \in \mathbb{R}^{m\times p}, \boldsymbol{b}_2 \in \mathbb{R}^{m\times 1}$ .

Process:

$\ell $

$= -\sum_{i=1}^N\boldsymbol{y}_i^{\top}\log\text{softmax}[\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2]$

$= -\sum_{i=1}^N \boldsymbol{y}_i^\top \log\frac{e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}$

$= -\sum_{i=1}^N \boldsymbol{y}_i^\top[\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2 - \log(\boldsymbol{1}\cdot\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2})]$

$= -\sum_{i=1}^N\left\{\boldsymbol{y}_i^\top[\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2] - (\boldsymbol{y}_i^\top\boldsymbol{1})\log(\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2})\right\}$

$= -\sum_{i=1}^N\left\{\boldsymbol{y}_i^\top[\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2] - \log(\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2})\right\}$

$\text{d} \ell$

$ = -\sum_{i=1}^N \text{tr}\left{\boldsymbol{y}_i^\top\text{d} [\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2] - \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} \text{d} [\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]\right}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top(\text{d}\boldsymbol{W}_2)\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) - \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} [\boldsymbol{1}^\top \text{d} e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top(\text{d}\boldsymbol{W}_2)\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) - \frac{\boldsymbol{1}^\top \{e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2} \odot \text{d}[\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)]\}}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} \right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top(\text{d}\boldsymbol{W}_2)\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) - \frac{(e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2})^\top \cdot \text{d}[\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)]}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} \right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top(\text{d}\boldsymbol{W}_2)\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) - \frac{(e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2})^\top (\text{d}\boldsymbol{W}_2)\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} \right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)\boldsymbol{y}_i^\top\text{d}\boldsymbol{W}_2 - \frac{\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)(e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2})^\top \text{d}\boldsymbol{W}_2}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} \right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_2}{=====} \sum_{i=1}^N \text{tr}\left\{\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)[\frac{(e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2})^\top}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} - \boldsymbol{y}_i^\top]\text{d}\boldsymbol{W}_2 \right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_2}{=====} \sum_{i=1}^N \text{tr}\left\{\{[\text{softmax} (\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2) - \boldsymbol{y}_i]\sigma^\top(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)\}^\top\text{d}\boldsymbol{W}_2 \right\}$

$\text{d} \ell = -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top\text{d} [\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2] - \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} \text{d} [\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top\text{d}\boldsymbol{b}_2 - \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} [\boldsymbol{1}^\top \text{d} e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top\text{d}\boldsymbol{b}_2 - \frac{\boldsymbol{1}^\top \{e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2} \odot \text{d} [\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2]\}}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top\text{d}\boldsymbol{b}_2 - \frac{[e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]^\top \text{d} [\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2]}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_2}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top\text{d}\boldsymbol{b}_2 - \frac{[e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]^\top \text{d} \boldsymbol{b}_2}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_2}{=====} \sum_{i=1}^N \text{tr}\left\{ (\frac{e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} - \boldsymbol{y}_i)^\top\text{d}\boldsymbol{b}_2 \right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_2}{=====} \sum_{i=1}^N \text{tr}\left\{ (\text{softmax}(\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2) - \boldsymbol{y}_i)^\top\text{d}\boldsymbol{b}_2 \right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_1}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top\boldsymbol{W}_2\text{d}\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) - \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} [\boldsymbol{1}^\top \text{d} e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_1}{=====} -\sum_{i=1}^N \text{tr}\left\{\{\boldsymbol{y}_i^\top - \frac{[e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]^\top}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}\}\boldsymbol{W}_2[\sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) \odot\text{d}(\boldsymbol{W}_1\boldsymbol{x}_i)]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_1}{=====} -\sum_{i=1}^N \text{tr}\left\{\{ {\boldsymbol{W}_2}^\top[\boldsymbol{y}_i - \frac{e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}]\}^\top[\sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) \odot\text{d}(\boldsymbol{W}_1\boldsymbol{x}_i)]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_1}{=====} -\sum_{i=1}^N \text{tr}\left\{\left\{\{ {\boldsymbol{W}_2}^\top[\boldsymbol{y}_i - \text{softmax}(\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2)]\}\odot\sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)\right\}^\top\text{d}(\boldsymbol{W}_1\boldsymbol{x}_i)\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{W}_1}{=====} \sum_{i=1}^N \text{tr}\left\{\left\{\{ {\boldsymbol{W}_2}^\top[\text{softmax}(\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2) - \boldsymbol{y}_i]\}\odot\sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)\cdot\boldsymbol{x}_i^\top\right\}^\top\text{d}\boldsymbol{W}_1\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_1}{=====} -\sum_{i=1}^N \text{tr}\left\{\boldsymbol{y}_i^\top\boldsymbol{W}_2\text{d}\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) - \frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}} [\boldsymbol{1}^\top \text{d} e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_1}{=====} -\sum_{i=1}^N \text{tr}\left\{\{\boldsymbol{y}_i^\top - \frac{[e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}]^\top}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}\}\boldsymbol{W}_2[\sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) \odot\text{d}\boldsymbol{b}_1]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_1}{=====} -\sum_{i=1}^N \text{tr}\left\{\{ {\boldsymbol{W}_2}^\top[\boldsymbol{y}_i - \frac{e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}{\boldsymbol{1}^\top e^{\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2}}]\}^\top[\sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) \odot\text{d}\boldsymbol{b}_1]\right\}$

$\overset{\text{w.r.t.}~\boldsymbol{b}_1}{=====} \sum_{i=1}^N \text{tr}\left\{\left\{\{ {\boldsymbol{W}_2}^\top[\text{softmax}(\boldsymbol{W}_2\sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2) - \boldsymbol{y}_i]\}\odot\sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)\right\}^\top\text{d}\boldsymbol{b}_1\right\}$

Answer:

$\frac{\partial \ell}{\partial \boldsymbol{W}_2} = \sum_{i=1}^N \{softmax[\boldsymbol{W}_2 \sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2] - \boldsymbol{y}_i\} \sigma^\top(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)$

$\frac{\partial \ell}{\partial \boldsymbol{b}_2} = \sum_{i=1}^N softmax[\boldsymbol{W}_2 \sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2] - \boldsymbol{y}_i$

$\frac{\partial \ell}{\partial \boldsymbol{W}_1} = \sum_{i=1}^N \{\{\boldsymbol{W}_2^\top\{softmax[\boldsymbol{W}_2 \sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2] - \boldsymbol{y}_i\}\} \odot \sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) \} \boldsymbol{x}_i^\top$

$\frac{\partial \ell}{\partial \boldsymbol{b}_1} = \sum_{i=1}^N \{\boldsymbol{W}_2^\top\{softmax[\boldsymbol{W}_2 \sigma(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1) + \boldsymbol{b}_2] - \boldsymbol{y}_i\}\} \odot \sigma^{\prime}(\boldsymbol{W}_1\boldsymbol{x}_i + \boldsymbol{b}_1)$

Derivative of the Matrix to Matrix

假设 $\boldsymbol{f}(\boldsymbol{x})\in\mathbb{R}^{p\times 1}$ 是关于向量 $\boldsymbol{x}\in\mathbb{R}^{n\times 1}$ 的函数。不失优雅地（不考虑矩阵布局），我们由向量微分与偏导的关联（ $d\boldsymbol{f}=\frac{\partial\boldsymbol{f}}{\partial\boldsymbol{x}}^\top d\boldsymbol{x}$ ），反推给出列向量对列向量的偏导定义如下：

$\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} = \begin{bmatrix} \frac{\partial f_1}{\partial x_{1}} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_p}{\partial x_{1}} & \cdots & \frac{\partial f_p}{\partial x_n} \end{bmatrix} \in \mathbb{R}^{p\times n}$

该布局默认为分母布局。在分子布局下，

$\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} = \begin{bmatrix} \frac{\partial f_1}{\partial x_{1}} & \cdots & \frac{\partial f_p}{\partial x_1} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_1}{\partial x_{n}} & \cdots & \frac{\partial f_p}{\partial x_n} \end{bmatrix} \in \mathbb{R}^{n\times p}$

在给出矩阵对矩阵的导数定义前，我们先定义矩阵 $\boldsymbol{X}\in\mathbb{R}^{m\times n}$ 的向量化为 $\text{Vec}(\boldsymbol{X})=[x_{1,1},x_{2,1},\cdots,x_{m,1},x_{1,2},\cdots,x_{m,n}]^\top$ 。从而进一步地我们定义矩阵 $\boldsymbol{F}\in\mathbb{R}^{p\times q}$ 对矩阵 $\boldsymbol{X}\in\mathbb{R}^{m\times n}$ 的导数如下：

$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}} = \frac{\partial \text{Vec}(\boldsymbol{F})}{\partial \text{Vec}(\boldsymbol{X})}\in\mathbb{R}^{mn\times pq}$

同时，导数与微分的联系可以不失一般地表示为：

$\text{Vec}(d\boldsymbol{F}) = (\frac{\partial \text{Vec}(\boldsymbol{F})}{\partial \text{Vec}(\boldsymbol{X})})^\top\text{Vec}(d\boldsymbol{X}) = (\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}})^\top\text{Vec}(d\boldsymbol{X})$ .

若 $F$ 降级为标量 $f$ 时，为了统一表示，我们记 $\frac{\partial f}{\partial \boldsymbol{X}} = \text{Vec}(\nabla_{\boldsymbol{X}}f)$ 。在此基础上求二阶导，得到机器学习中常见的 Hessian matrix:

$\nabla^2_{\boldsymbol{X}}f = \frac{\partial^2 f}{\partial\boldsymbol{X}^2} = \frac{\partial (\nabla_{\boldsymbol{X}}f)}{\partial \boldsymbol{X}}\in\mathbb{R}^{mn\times mn}$ .

Notice 1: 若从分子布局和分母布局的角度出发，与微分相关联且不失一般性的布局为分母布局，机器学习和优化理论常用此布局。

Notice 2: 矩阵对矩阵求导定义除了分子布局与分母布局外，还可以有其它定义，例如:

$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}} = \begin{bmatrix} \frac{\partial f_{1,1}}{\partial \boldsymbol{X}} & \cdots & \frac{\partial f_{1,q}}{\partial \boldsymbol{X}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{p,1}}{\partial \boldsymbol{X}} & \cdots & \frac{\partial f_{p,q}}{\partial \boldsymbol{X}} \end{bmatrix} = \begin{bmatrix} \frac{\partial \boldsymbol{F}}{\partial x_{1,1}} & \cdots & \frac{\partial \boldsymbol{F}}{\partial x_{1,n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial \boldsymbol{F}}{\partial x_{m,1}} & \cdots & \frac{\partial \boldsymbol{F}}{\partial x_{m,n}} \end{bmatrix}$

然而，该定义只可兼容标量对矩阵的求导，无法配合微分进行运算，因此不是"好"的定义。

假设纯在复合函数 $\boldsymbol{Y}\cdot\boldsymbol{F}$ ，则 $\text{Vec}(\text{d} \boldsymbol{F}) = {(\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}})}^\top \text{Vec}(\text{d} \boldsymbol{Y}) = {(\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}})}^\top \left( {(\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}})}^\top \text{Vec}(\text{d} \boldsymbol{X})\right) = {\left(\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}} \frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}}\right)} ^\top \text{Vec}(\text{d} \boldsymbol{X})$ . 因此， $\frac{\text{d} \boldsymbol{F}}{\text{d} \boldsymbol{X}} = \frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}} \frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}}$ .

Vectorization Trick

$\color{green}\text{Vec}(\boldsymbol{A} + \boldsymbol{B}) = \text{Vec}(\boldsymbol{A}) + \text{Vec}(\boldsymbol{B})$
$\color{green}\text{Vec}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}) = (\boldsymbol{B}^\top\otimes \boldsymbol{A})\text{Vec}(\boldsymbol{X})，其中~\otimes~表示~\text{Kronecker Product}:$

$\color{green} \boldsymbol{A}\otimes\boldsymbol{B}(\boldsymbol{A}\in\mathbb{R}^{m\times n}, \boldsymbol{B}\in\mathbb{R}^{p\times q}) = \begin{bmatrix} a_{1,1}\boldsymbol{B} & \cdots & a_{1,n}\boldsymbol{B}\\ \vdots & \ddots & \vdots\\ a_{m,1}\boldsymbol{B} & \cdots & a_{m,n}\boldsymbol{B} \end{bmatrix}$
- $\color{green}\text{Vec}(\boldsymbol{a}\boldsymbol{b}^\top) = \boldsymbol{b}\otimes\boldsymbol{a}$
$\color{green}\text{Vec}(\boldsymbol{A}^T)=\boldsymbol{K}_{mn}\text{Vec}(\boldsymbol{A}), 其中~ \boldsymbol{K}_{mn}~为交换矩阵~(\sum_i k_{i,j} = \sum_j k_{i,j} = 1, \boldsymbol{K}_{mn} = {\boldsymbol{K}_{nm}}^\top, \boldsymbol{K}_{mn}\boldsymbol{K}_{nm} = \boldsymbol{I})$
$\color{green} \boldsymbol{K}_{p,m}(\boldsymbol{A}\otimes\boldsymbol{B})\boldsymbol{K}_{nq}=\boldsymbol{B}\otimes\boldsymbol{A}(\boldsymbol{A}\in\mathbb{R}^{m\times n}, \boldsymbol{B}\in\mathbb{R}^{p\times q})$

Proof:

$\text{Vec}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}^\top)=\boldsymbol{B}\otimes\boldsymbol{A}\text{Vec}(X), \boldsymbol{A}\in\mathbb{R}^{m\times n}, \boldsymbol{X}\in\mathbb{R}^{n\times q}, \boldsymbol{B}\in\mathbb{R}^{p\times q}$

$\text{Vec}(\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{A}^\top)=(\boldsymbol{A}\otimes\boldsymbol{B})\text{Vec}(\boldsymbol{X}^\top)=(\boldsymbol{A}\otimes\boldsymbol{B})\boldsymbol{K}_{n,q}\text{Vec}(\boldsymbol{X})$

$\text{Vec}\left[(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}^\top)^\top\right]=\boldsymbol{K}_{m,p}\text{Vec}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}^\top)=\boldsymbol{K}_{m,p}\boldsymbol{B}\otimes\boldsymbol{A}\text{Vec}(\boldsymbol{X})$

Thus, $\boldsymbol{K}_{p,m}(\boldsymbol{A}\otimes\boldsymbol{B})\boldsymbol{K}_{n,q}\text{Vec}(\boldsymbol{X})=\boldsymbol{K}_{p,m}\boldsymbol{K}_{m,p}\boldsymbol{B}\otimes\boldsymbol{A}\text{Vec}(\boldsymbol{X})=\boldsymbol{B}\otimes\boldsymbol{A}\text{Vec}(\boldsymbol{X})$
$\color{green}\text{Vec}(\boldsymbol{A}\odot\boldsymbol{B}) = \text{Diag}(\boldsymbol{A})\text{Vec}(\boldsymbol{B})，其中~\text{Diag}(\boldsymbol{A})~为对角化操作，即把~\text{Vec}(\boldsymbol{A})~中所有元素排成对角阵(除对角线外其余元素全为零)$
- $\color{green}\boldsymbol{a}\odot\boldsymbol{b}=\text{Vec}(\boldsymbol{a}\odot\boldsymbol{b})=\text{Diag}(\boldsymbol{a})\boldsymbol{b}$
$\color{green}(\boldsymbol{A}\otimes\boldsymbol{B})^\top = \boldsymbol{A}^\top\otimes\boldsymbol{B}^\top$
$\color{green}(\boldsymbol{A}\otimes\boldsymbol{B})(\boldsymbol{C}\otimes\boldsymbol{D}) = \boldsymbol{AC}\otimes\boldsymbol{BD}$

Proof:

构造函数 $\boldsymbol{F}=\boldsymbol{D}^\top\boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{A}\boldsymbol{C}=\boldsymbol{D}^\top(\boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{A})\boldsymbol{C}$

$\text{For~} \boldsymbol{F}=\boldsymbol{D}^\top\boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{A}\boldsymbol{C}, \text{Vec}(\text{d}\boldsymbol{F})=\text{Vec}(\boldsymbol{D}^\top\boldsymbol{B}^\top\text{d}\boldsymbol{X}\boldsymbol{A}\boldsymbol{C})=\left[(\boldsymbol{AC})^\top\otimes(\boldsymbol{D}^\top\boldsymbol{B}^\top)\right]\text{Vec}(\text{d}\boldsymbol{X})=\left[(\boldsymbol{A}\boldsymbol{C})\otimes(\boldsymbol{B}\boldsymbol{D})\right]^\top\text{Vec}(\text{d}\boldsymbol{X})$

$\text{For~} \boldsymbol{F}=\boldsymbol{D}^\top(\boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{A})\boldsymbol{C}, \text{Vec}(\text{d}\boldsymbol{F})=\text{Vec}\left[\boldsymbol{D}^\top\text{d}(\boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{A})\boldsymbol{C}\right]=(\boldsymbol{C}^\top\otimes\boldsymbol{D}^\top)\text{Vec}\left[\text{d}(\boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{A})\right]=(\boldsymbol{C}^\top\otimes\boldsymbol{D}^\top)\text{Vec}\left[\boldsymbol{B}^\top\text{d}\boldsymbol{X}\boldsymbol{A}\right]$

$=(\boldsymbol{C}^\top\otimes\boldsymbol{D}^\top)(\boldsymbol{A}^\top\otimes\boldsymbol{B}^\top)\text{Vec}(\text{d}\boldsymbol{X})=\left[(\boldsymbol{A}\otimes\boldsymbol{B})(\boldsymbol{C}\otimes\boldsymbol{D})\right]^\top\text{Vec}(\text{d}\boldsymbol{X})$

$\text{Thus,~}\frac{\text{d}\boldsymbol{F}}{\text{d}\boldsymbol{X}}=(\boldsymbol{A}\boldsymbol{C})\otimes(\boldsymbol{B}\boldsymbol{D})=(\boldsymbol{A}\otimes\boldsymbol{B})(\boldsymbol{C}\otimes\boldsymbol{D})$

例 8. 构造函数

$\boldsymbol{F} = \boldsymbol{A}\boldsymbol{X}, \boldsymbol{X}\in\mathbb{R}^{m\times n}$

Process:

$\text{Vec}(\text{d}\boldsymbol{F})$

$=\text{Vec}(\boldsymbol{A}\text{d}\boldsymbol{X})$

$=\boldsymbol{I}_n\otimes\boldsymbol{A}\text{Vec}(\text{d}\boldsymbol{X})$

Answer: $\frac{\text{d}\boldsymbol{F}}{\text{d}\boldsymbol{X}}=\boldsymbol{I}_n\otimes\boldsymbol{A}^\top$

例 9. 构造函数

$f = \text{log} |\boldsymbol{X}|, \boldsymbol{X}\in\mathbb{R}^{n\times n}$ ，求二阶导（Hessian Matrix）.

Process:

$\text{d} f$

$ = \text{d}\log|\boldsymbol{X}|$

$=\frac{1}{|\boldsymbol{X}|}\text{d}|\boldsymbol{X}|$

$=\frac{1}{|\boldsymbol{X}|}|\boldsymbol{X}|\text{tr}(\boldsymbol{X}^{-1}\text{d}\boldsymbol{X})$

$=\text{tr}(\boldsymbol{X}^{-1}\text{d}\boldsymbol{X})$

Hence, $\frac{\text{d}f}{\text{d}\boldsymbol{X}}=\text{Vec}\left[(\boldsymbol{X}^{-1})^\top\right],~\nabla_{\boldsymbol{X}} f = (\boldsymbol{X}^{-1})^\top=(\boldsymbol{X}^\top)^{-1}$

$\text{Vec}(\text{d}\nabla_{\boldsymbol{X}}f)$

$=-\text{Vec}\left[(\boldsymbol{X}^\top)^{-1}\text{d}\boldsymbol{X}^\top(\boldsymbol{X}^\top)^{-1}\right]$

$= -\boldsymbol{X}^{-1}\otimes(\boldsymbol{X}^{-1})^\top\text{Vec}(\text{d}\boldsymbol{X}^\top)$

$= -\boldsymbol{X}^{-1}\otimes(\boldsymbol{X}^{-1})^\top\boldsymbol{K}_{n,n}\text{Vec}(\text{d}\boldsymbol{X})$

Answer:

$\nabla_{\boldsymbol{X}} f = {\boldsymbol{X}^{-1}}^\top$

$\nabla^2_{\boldsymbol{X}} f = -\boldsymbol{K}_{n,n}(\boldsymbol{X}^{-1})^\top\otimes\boldsymbol{X}^{-1}$

例 10. 构造函数

$\boldsymbol{F} = \boldsymbol{A}e^{\boldsymbol{X}\boldsymbol{B}}, \boldsymbol{A}\in\mathbb{R}^{l\times m}, \boldsymbol{X}\in\mathbb{R}^{m\times n}, \boldsymbol{B}\in\mathbb{R}^{n\times p}.$

Process:

$\text{Vec}(\text{d}\boldsymbol{F})$

$=\text{Vec}\left\{\boldsymbol{A}\left[e^{\boldsymbol{X}\boldsymbol{B}}\odot(\text{d}\boldsymbol{X}\boldsymbol{B})\right]\right\}$

$=(\boldsymbol{I}_p^\top\otimes\boldsymbol{A})\text{Vec}\left[e^{\boldsymbol{X}\boldsymbol{B}}\odot(\text{d}\boldsymbol{X}\boldsymbol{B})\right]$

$=(\boldsymbol{I}_p\otimes\boldsymbol{A})\text{Diag}(e^{\boldsymbol{X}\boldsymbol{B}})\text{Vec}(\text{d}\boldsymbol{X}\boldsymbol{B})$

$=(\boldsymbol{I}_p\otimes\boldsymbol{A})\text{Diag}(e^{\boldsymbol{X}\boldsymbol{B}})(\boldsymbol{B}^\top\otimes\boldsymbol{I}_m)\text{Vec}(\text{d}\boldsymbol{X})$

Answer:

$\frac{\text{d}\boldsymbol{F}}{\text{d}\boldsymbol{X}}=(\boldsymbol{B}\otimes\boldsymbol{I}_m)\text{Diag}(e^{\boldsymbol{X}\boldsymbol{B}})(\boldsymbol{I}_p\otimes\boldsymbol{A})$

例 11. 一元 logistic 回归

$\ell = -y\boldsymbol{x}^\top\boldsymbol{w} + \log(1 + e^{\boldsymbol{x}^\top\boldsymbol{w}})$ ，求 $\nabla_{\boldsymbol{w}}\ell$ 和 $\nabla^2_{\boldsymbol{w}}\ell$ ，其中 $y\in{0,1}, \boldsymbol{x},\boldsymbol{w}\in\mathbb{R}^{n\times 1}$ .

Process:

$\text{d} \ell $

$= -y\boldsymbol{x}^\top\text{d}\boldsymbol{w}+\frac{1}{1+e^{\boldsymbol{x}^\top\boldsymbol{w}}}\left[e^{\boldsymbol{x}^\top\boldsymbol{w}}\odot(\boldsymbol{x}^\top\text{d}\boldsymbol{w})\right]$

$= -y\boldsymbol{x}^\top\text{d}\boldsymbol{w}+\frac{e^{\boldsymbol{x}^\top\boldsymbol{w}}}{1+e^{\boldsymbol{x}^\top\boldsymbol{w}}}(\boldsymbol{x}^\top\text{d}\boldsymbol{w})$

$= (\frac{e^{\boldsymbol{x}^\top\boldsymbol{w}}}{1+e^{\boldsymbol{x}^\top\boldsymbol{w}}}-y)\boldsymbol{x}^\top\text{d}\boldsymbol{w}$

$\text{d}\nabla_{\boldsymbol{w}}\ell$

$={\color{red}\boldsymbol{x}} \text{d}\frac{e^{\boldsymbol{x}^\top\boldsymbol{w}}}{1+e^{\boldsymbol{x}^\top\boldsymbol{w}}}$

$=\boldsymbol{x}\frac{e^{\boldsymbol{x}^\top\boldsymbol{w}}(1+e^{\boldsymbol{x}^\top\boldsymbol{w}})-e^{2\boldsymbol{x}^\top\boldsymbol{w}}}{(1+e^{\boldsymbol{x}^\top\boldsymbol{w}})^2}\boldsymbol{x}^\top\text{d}\boldsymbol{w}$

$=\boldsymbol{x}\frac{e^{\boldsymbol{x}^\top\boldsymbol{w}}}{(1+e^{\boldsymbol{x}^\top\boldsymbol{w}})^2}\boldsymbol{x}^\top\text{d}\boldsymbol{w}$

Answer:

$\frac{\text{d}\ell}{\text{d}\boldsymbol{w}} = \nabla_{\boldsymbol{w}}\ell = (\frac{e^{\boldsymbol{x}^\top\boldsymbol{w}}}{1+e^{\boldsymbol{x}^\top\boldsymbol{w}}}-y)\boldsymbol{x}$

$\nabla^2_{\boldsymbol{w}}\ell=\boldsymbol{x}\frac{e^{\boldsymbol{x}^\top\boldsymbol{w}}}{(1+e^{\boldsymbol{x}^\top\boldsymbol{w}})^2}\boldsymbol{x}^\top$

例 12. 带多重样本的一元 logistic 回归

针对包含多重样本的数据集 $\{(\boldsymbol{x}_1, y_1),\cdots,(\boldsymbol{x}_N, y_N)\}$ ， $\ell = \sum_{i=1}^N\left[-y_i\boldsymbol{x}_i^\top\boldsymbol{w}+\log(1+e^{\boldsymbol{x}_i^\top\boldsymbol{w}})\right]$

Process No.1:

The process of 例 11

Answer No.1:

$\frac{\text{d}\ell}{\text{d}\boldsymbol{w}} = \nabla_{\boldsymbol{w}}\ell = \sum_{i=1}^N(\frac{e^{\boldsymbol{x}_i^\top\boldsymbol{w}}}{1+e^{\boldsymbol{x}_i^\top\boldsymbol{w}}}-y_i)\boldsymbol{x}_i$

$\nabla^2_{\boldsymbol{w}}\ell=\sum_{i=1}^N\boldsymbol{x}_i\frac{e^{\boldsymbol{x}_i^\top\boldsymbol{w}}}{(1+e^{\boldsymbol{x}_i^\top\boldsymbol{w}})^2}\boldsymbol{x}_i^\top$

Process No. 2:

$\boldsymbol{X}=\begin{bmatrix}\boldsymbol{x}_1^\top\\\vdots\\\boldsymbol{x}_N^\top\end{bmatrix}, \boldsymbol{y}=\begin{bmatrix}y_1\\\vdots\\y_N\end{bmatrix},\ell=-\boldsymbol{y}^\top\boldsymbol{X}\boldsymbol{w}+\boldsymbol{1}^\top\log(\boldsymbol{1}+e^{\boldsymbol{X}\boldsymbol{w}})$

$\text{d}\ell$

$=-\boldsymbol{y}^\top\boldsymbol{X}\text{d}\boldsymbol{w}+\boldsymbol{1}^\top\left[\frac{e^{\boldsymbol{X}\boldsymbol{x}}}{\boldsymbol{1}+e^{\boldsymbol{X}^\top\boldsymbol{w}}}\odot(\boldsymbol{X}\text{d}\boldsymbol{w})\right]$

$=-\boldsymbol{y}^\top\boldsymbol{X}\text{d}\boldsymbol{w}+(\boldsymbol{1}\odot\frac{e^{\boldsymbol{X}\boldsymbol{x}}}{\boldsymbol{1}+e^{\boldsymbol{X}^\top\boldsymbol{w}}})^\top(\boldsymbol{X}\text{d}\boldsymbol{w})$

$=\left(\frac{e^{\boldsymbol{X}\boldsymbol{w}}}{\boldsymbol{1}+e^{\boldsymbol{X}\boldsymbol{w}}}-\boldsymbol{y}\right)^\top\boldsymbol{X}\text{d}\boldsymbol{w}$

$\text{d}\nabla_{\boldsymbol{w}}\ell$

$=\boldsymbol{X}^\top\left[\frac{e^{\boldsymbol{X}\boldsymbol{w}}}{(\boldsymbol{1}+e^{\boldsymbol{X}\boldsymbol{w}})^2}\odot(\boldsymbol{X}\text{d}\boldsymbol{w})\right]$

$=\boldsymbol{X}^\top\text{Diag}\left[\frac{e^{\boldsymbol{X}\boldsymbol{w}}}{(\boldsymbol{1}+e^{\boldsymbol{X}\boldsymbol{w}})^2}\right]\boldsymbol{X}\text{d}\boldsymbol{w}$

Answer No.2:

$\nabla_{\boldsymbol{w}}\ell = \boldsymbol{X}^\top(\frac{e^{\boldsymbol{X}\boldsymbol{w}}}{\boldsymbol{1}+e^{\boldsymbol{X}\boldsymbol{w}}}-\boldsymbol{y})$

$\nabla_{\boldsymbol{w}}^2\ell=\boldsymbol{X}^\top\text{Diag}\left[\frac{e^{\boldsymbol{X}\boldsymbol{w}}}{(\boldsymbol{1}+e^{\boldsymbol{X}\boldsymbol{w}})^2}\right]\boldsymbol{X}$

例 13. 多元 logistic 回归

$\ell = -\boldsymbol{y}^\top\text{log~softmax}(\boldsymbol{W}\boldsymbol{x}) = -\boldsymbol{y}^\top\boldsymbol{W}\boldsymbol{x} + \text{log}(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})$ ，求 $\nabla_{\boldsymbol{w}}l$ 和 $\nabla^2_{\boldsymbol{w}}l$ ，其中 $y\in\mathbb{R}^{m}$ 且为 one-hot 编码, $\boldsymbol{x}\in\mathbb{R}^{n}, \boldsymbol{W}\in\mathbb{R}^{m\times n}$ .

Process:

$\text{d}\ell$

$=-\text{tr}(\boldsymbol{y}^\top\text{d}\boldsymbol{W}\boldsymbol{x})+\frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}\odot\text{d}(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})$

$=-\text{tr}(\boldsymbol{y}^\top\text{d}\boldsymbol{W}\boldsymbol{x})+\frac{1}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}\boldsymbol{1}^\top\left[e^{\boldsymbol{W}\boldsymbol{x}}\odot(\text{d} \boldsymbol{W}\boldsymbol{x})\right]$

$=-\text{tr}(\boldsymbol{y}^\top\text{d}\boldsymbol{W}\boldsymbol{x})+\text{tr}\left[(\frac{e^{\boldsymbol{W}\boldsymbol{x}}}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}})^\top(\text{d} \boldsymbol{W}\boldsymbol{x})\right]$

$=\text{tr}\left[[\boldsymbol{x}(\frac{e^{\boldsymbol{W}\boldsymbol{x}}}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}})^\top - \boldsymbol{x}\boldsymbol{y}^\top]\text{d} \boldsymbol{W}\right]$

$\text{d}\nabla_{\boldsymbol{W}}\ell$

$=\text{d} \frac{e^{\boldsymbol{W}\boldsymbol{x}}}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}} \boldsymbol{x}^\top$

$=\left[\frac{\text{d}(e^{\boldsymbol{W}\boldsymbol{x}})}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}} - \frac{ {\color{red}e^{\boldsymbol{W}\boldsymbol{x}}}\boldsymbol{1}^\top\text{d}(e^{\boldsymbol{W}\boldsymbol{x}})}{(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})^2}\right]\boldsymbol{x}^\top$

$=\left[\frac{e^{\boldsymbol{W}\boldsymbol{x}}\odot(\text{d}\boldsymbol{W}\boldsymbol{x})}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}} - \frac{e^{\boldsymbol{W}\boldsymbol{x}}\boldsymbol{1}^\top[e^{\boldsymbol{W}\boldsymbol{x}}\odot(\text{d}\boldsymbol{W}\boldsymbol{x})]}{(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})^2}\right]\boldsymbol{x}^\top$

$=\left[\frac{\text{Diag}(e^{\boldsymbol{W}\boldsymbol{x}})(\text{d}\boldsymbol{W}\boldsymbol{x})}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}}-\frac{e^{\boldsymbol{W}\boldsymbol{x}}\boldsymbol{1}^\top\text{Diag}(e^{\boldsymbol{W}\boldsymbol{x}})(\text{d}\boldsymbol{W}\boldsymbol{x})}{(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})^2}\right]\boldsymbol{x}^\top$

$=\left[\frac{\text{Diag}(e^{\boldsymbol{W}\boldsymbol{x}})(\text{d}\boldsymbol{W}\boldsymbol{x})}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}} - \frac{e^{\boldsymbol{W}\boldsymbol{x}}(e^{\boldsymbol{W}\boldsymbol{x}})^\top(\text{d}\boldsymbol{W}\boldsymbol{x})}{(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})^2}\right]\boldsymbol{x}^\top$

$=\frac{\text{Diag}(e^{\boldsymbol{W}\boldsymbol{x}})(\text{d}\boldsymbol{W})\boldsymbol{x}\boldsymbol{x}^\top}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}} - \frac{e^{\boldsymbol{W}\boldsymbol{x}}(e^{\boldsymbol{W}\boldsymbol{x}})^\top(\text{d}\boldsymbol{W})\boldsymbol{x}\boldsymbol{x}^\top}{(\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}})^2}$

$\text{Vec}(\text{d}\nabla_{\boldsymbol{W}}\ell)$

$=\boldsymbol{x}\boldsymbol{x}^\top\otimes\left[\text{Diag}[\text{softmax}(\boldsymbol{W}\boldsymbol{x})]-\text{softmax}(\boldsymbol{W}\boldsymbol{x})\text{softmax}(\boldsymbol{W}\boldsymbol{x})^\top\right]\text{Vec}(\text{d}\boldsymbol{W})$

Answer:

$\nabla_{\boldsymbol{W}}\ell=\left[\frac{e^{\boldsymbol{W}\boldsymbol{x}}}{\boldsymbol{1}^\top e^{\boldsymbol{W}\boldsymbol{x}}} - \boldsymbol{y}\right]\boldsymbol{x}^\top$

$\nabla_{\boldsymbol{W}}^2\ell=\boldsymbol{x}\boldsymbol{x}^\top\otimes\left[\text{Diag}[\text{softmax}(\boldsymbol{W}\boldsymbol{x})]-\text{softmax}(\boldsymbol{W}\boldsymbol{x})\text{softmax}(\boldsymbol{W}\boldsymbol{x})^\top\right]$

写在最后：

注意例 4 和 5 中红色标注部分，不含微分对象的变量尽量左移可以给微分求解过程去除不必要的麻烦。
本文为参考文献所涉及的两篇博客的吸收消化理解精炼，仅供学习参考使用。

Reference

[1] 矩阵求导术（上） - 长躯鬼侠的文章 - 知乎 https://zhuanlan.zhihu.com/p/24709748

[2] 矩阵求导术（下） - 长躯鬼侠的文章 - 知乎 https://zhuanlan.zhihu.com/p/24863977

本文链接： https://junfish.github.io/2022/08/24/matrix-calculus/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Jason

CREAM

The Matrix Calculus

介绍 Introduction

The operational criterion for matrix differentiation 矩阵微分运算法则

Derivative of the Scalar to Matrix

Trace Trick

例1. 构造函数 No.1

例 2. 构造函数 No.2

例 3. 构造函数 No.3

例 4. Linear Regression

例 5. Maximum Likelihood Estimation (MLE) for the Multivariate Normal Distribution

例 6. Multinomial Logistic Regression.

例 7. Back Propagation (BP) for Multi-Layer Perceptron (MLP)

Derivative of the Matrix to Matrix

Vectorization Trick

例 8. 构造函数

例 9. 构造函数

例 10. 构造函数

例 11. 一元 logistic 回归

例 12. 带多重样本的一元 logistic 回归

例 13. 多元 logistic 回归

写在最后：

Reference

JasonCREAM