本文是斯坦福大学CS 229机器学习课程的基础材料，原始文件下载

原文作者：Zico Kolter，修改：Chuong Do， Tengyu Ma
翻译：黄海广备注：请关注github的更新，线性代数和概率论已经更新完毕。

CS229 机器学习课程复习材料-线性代数

线性代数复习和参考

1. 基础概念和符号

线性代数提供了一种紧凑地表示和操作线性方程组的方法。例如，以下方程组：

4x_1 − 5x_2 = −13

−2x_1 + 3x_2 = 9

$x_1$ $x_2$ 的唯一解（除非方程以某种方式退化，例如，如果第二个方程只是第一个的倍数，但在上面的情况下，实际上只有一个唯一解）。在矩阵表示法中，我们可以更紧凑地表达：

Ax= b

\text { with } A=\left[\begin{array}{cc}{4} & {-5} \\ {-2} & {3}\end{array}\right], b=\left[\begin{array}{c}{-13} \\ {9}\end{array}\right]

我们可以看到，这种形式的线性方程有许多优点（比如明显地节省空间）。

1.1 基本符号

我们使用以下符号：

$A \in \mathbb{R}^{m \times n}$ $A$ $m$ $n$ 列的矩阵。
$x \in \mathbb{R}^{ n}$ $n$ $x$ $n$ $1$ $1$ $n$ $x^T$ $x^T$ $x$ 的转置）。
$x_i$ $x$ $i$ 个元素

x=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right]

$a_{ij}$ $A_{ij}$ $A_{i,j}$ $i$ $j$ $A$ 的元素：

A=\left[\begin{array}{cccc}{a_{11}} & {a_{12}} & {\cdots} & {a_{1 n}} \\ {a_{21}} & {a_{22}} & {\cdots} & {a_{2 n}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {a_{m 1}} & {a_{m 2}} & {\cdots} & {a_{m n}}\end{array}\right]

$a^j$ $A_{:,j}$ $A$ $j$ 列：

A=\left[\begin{array}{llll}{ |} & { |} & {} & { |} \\ {a^{1}} & {a^{2}} & {\cdots} & {a^{n}} \\ { |} & { |} & {} & { |}\end{array}\right]

$a^T_i$ $A_{i,:}$ $A$ $i$ 行：

A=\left[\begin{array}{c}{-a_{1}^{T}-} \\ {-a_{2}^{T}-} \\ {\vdots} \\ {-a_{m}^{T}-}\end{array}\right]

在许多情况下，将矩阵视为列向量或行向量的集合非常重要且方便。通常，在向量而不是标量上操作在数学上（和概念上）更清晰。只要明确定义了符号，用于矩阵的列或行的表示方式并没有通用约定。

2.矩阵乘法

$A \in \mathbb{R}^{m \times n}$ $B \in \mathbb{R}^{n \times p}$ ，则：

C = AB \in \mathbb{R}^{m \times p}

其中：

C_{i j}=\sum_{k=1}^{n} A_{i k} B_{k j}

$A$ $B$ 中的行数。有很多方法可以查看矩阵乘法，我们将从检查一些特殊情况开始。

2.1 向量-向量乘法

$x, y \in \mathbb{R}^{n}$ $x^T y$ 通常称为向量内积或者点积，结果是个实数。

x^{T} y \in \mathbb{R}=\left[\begin{array}{llll}{x_{1}} & {x_{2}} & {\cdots} & {x_{n}}\end{array}\right]\left[\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{n}}\end{array}\right]=\sum_{i=1}^{n} x_{i} y_{i}

$x^T y = y^Tx$ 始终成立。

$x \in \mathbb{R}^{m}$ $y \in \mathbb{R}^{n}$ $xy^T \in \mathbb{R}^{m \times n}$ 向量外积 $(xy^T)_{ij} = x_iy_j$ 的时候，它是一个矩阵。

x y^{T} \in \mathbb{R}^{m \times n}=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{m}}\end{array}\right]\left[\begin{array}{llll}{y_{1}} & {y_{2}} & {\cdots} & {y_{n}}\end{array}\right]=\left[\begin{array}{cccc}{x_{1} y_{1}} & {x_{1} y_{2}} & {\cdots} & {x_{1} y_{n}} \\ {x_{2} y_{1}} & {x_{2} y_{2}} & {\cdots} & {x_{2} y_{n}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {x_{m} y_{1}} & {x_{m} y_{2}} & {\cdots} & {x_{m} y_{n}}\end{array}\right]

$1\in R^{n}$ $n$ $A \in R^{m \times n}$ $x \in R^{m}$ $A$ :

A=\left[\begin{array}{llll}{ |} & { |} & {} & { |} \\ {x} & {x} & {\cdots} & {x} \\ { |} & { |} & {} & { |}\end{array}\right]=\left[\begin{array}{cccc}{x_{1}} & {x_{1}} & {\cdots} & {x_{1}} \\ {x_{2}} & {x_{2}} & {\cdots} & {x_{2}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {x_{m}} & {x_{m}} & {\cdots} & {x_{m}}\end{array}\right]=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{m}}\end{array}\right]\left[\begin{array}{lll}{1} & {1} & {\cdots} & {1}\end{array}\right]=x \mathbf{1}^{T}

2.2 矩阵-向量乘法

$A \in \mathbb{R}^{m \times n}$ $x \in \mathbb{R}^{n}$ $y = Ax \in R^{m}$ 。有几种方法可以查看矩阵向量乘法，我们将依次查看它们中的每一种。

$A$ $Ax$ 为：

y=A x=\left[\begin{array}{ccc}{-} & {a_{1}^{T}} & {-} \\ {-} & {a_{2}^{T}} & {-} \\ {} & {\vdots} & {} \\ {-} & {a_{m}^{T}} & {-}\end{array}\right] x=\left[\begin{array}{c}{a_{1}^{T} x} \\ {a_{2}^{T} x} \\ {\vdots} \\ {a_{m}^{T} x}\end{array}\right]

$i$ $y$ $A$ $i$ $x$ $y_i = y_{i}=a_{i}^{T} x$ 。

同样的，可以把 A 写成列的方式，则公式如下：,

y=A x=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {a^{1}} & {a^{2}} & {\cdots} & {a^{n}} \\ { |} & { |} & {} & { |}\end{array}\right]\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right]=\left[\begin{array}{c}{ } \\ {a^{1}{ } \\ }\end{array}\right] x_{1}+\left[\begin{array}{c}{ } \\ {a^{2}{ } \\ }\end{array}\right] x_{2}+\left[\begin{array}{c}{ } \\ {a^{n}{ } \\ }\end{array}\right] x_{n}

$y$ $A$ $x$ 的元素给出。

$y^T = x^TA$ $A \in \mathbb{R}^{m \times n}$ $x \in \mathbb{R}^{m}$ $y \in \mathbb{R}^{n}$ $y^T$ $A$ .

$A$ 用列表示：

y^{T}=x^{T} A=x^{T}\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {a^{1}} & {a^{2}} & {\cdots} & {a^{n}} \\ { |} & { |} & {} & { |}\end{array}\right]=\left[\begin{array}{cccc}{x^{T} a^{1}} & {x^{T} a^{2}} & {\dots} & {x^{T} a^{n}}\end{array}\right]

$y^T$ $i$ $x$ $A$ $i$ 列的内积。

$A$ ，我们得到了向量-矩阵乘积的最终表示:

y^T=x^TA =\left[\begin{array}{llll}{x_{1}} & {x_{2}} & {\cdots} & {x_{n}}\end{array}\right]\left[\begin{array}{c}{-a_{1}^{T}-} \\ {-a_{2}^{T}-} \\ {\vdots} \\ {-a_{m}^{T}-}\end{array}\right] =x_{1}\left[-a_{1}^{T}-\right]+x_{2}\left[-a_{2}^{T}-\right]+\ldots+x_{n}\left[-a_{n}^{T}-\right]

$y^T$ $A$ $x$ 的元素给出。

2.3 矩阵-矩阵乘法

$C=AB$ 的乘法。

$C$ $( i，j )$ $A$ $i$ $B$ $j$ 列的内积。如下面的公式所示：

C=A B=\left[\begin{array}{cc}{-} & {a_{1}^{T}} &{-} \\ {-} & {a_{2}^{T}} &{-} \\ {} & {\vdots} \\ {-} & {a_{m}^{T}} &{-} \end{array}\right]\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {b_{1}} & {b_{2}} & {\cdots} & {b_{p}} \\ { |} & { |} & {} & { |}\end{array}\right]=\left[\begin{array}{cccc}{a_{1}^{T} b_{1}} & {a_{1}^{T} b_{2}} & {\cdots} & {a_{1}^{T} b_{p}} \\ {a_{2}^{T} b_{1}} & {a_{2}^{T} b_{2}} & {\cdots} & {a_{2}^{T} b_{p}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {a_{m}^{T} b_{1}} & {a_{m}^{T} b_{2}} & {\cdots} & {a_{m}^{T} b_{p}}\end{array}\right]

$A \in \mathbb{R}^{m\times n}$ $B \in \mathbb{R}^{n \times p}$ $a_i \in \mathbb{R}^n$ $b^j \in \mathbb{R}^{n \times p}$ $A \in \mathbb{R}^ {m \times n}，$ $B \in \mathbb{R}^ {n \times p}$ $a_i \in \mathbb{R} ^ n$ $b ^ j \in \mathbb{R} ^ {n \times p}$ $A$ $B$ $A$ $B$ $AB$ 是求外积的和。公式如下：

C=A B=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {a_{1}} & {a_{2}} & {\cdots} & {a_{n}} \\ { |} & { |} & {} & { |}\end{array}\right]\left[\begin{array}{c}{-}& {b_{1}^{T}}&{-} \\ {-}& {b_{2}^{T}}&{-} \\ {\vdots} \\{-}& {b_{n}^{T}}&{-}\end{array}\right]=\sum_{i=1}^{n} a_{i} b_{i}^{T}

$AB$ $A$ $i$ $B$ $i$ $a_i \in \mathbb{R}^ m$ $b_i \in \mathbb{R}^p$ $a^ib_i^T$ $m×p$ $C$ 的维度一致。

$B$ $C$ $A$ $B$ 的列的矩阵向量积。公式如下：

C=A B=A\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {b_{1}} & {b_{2}} & {\cdots} & {b_{p}} \\ { |} & { |} & {} & { |}\end{array}\right]=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {A b_{1}} & {A b_{2}} & {\cdots} & {A b_{p}} \\ { |} & { |} & {} & { |}\end{array}\right]

$C$ $i$ $c_i = Ab_i$ $A$ $C$ $A$ $C$ 行之间的矩阵向量积。公式如下：

C=A B=\left[\begin{array}{ccc}{-} & {a_{1}^{T}} & {-} \\ {-} & {a_{2}^{T}} & {-} \\ {} & {\vdots} & {} \\ {-} & {a_{m}^{T}} & {-}\end{array}\right] B=\left[\begin{array}{c} {-} & {a_{1}^{T} B} & {-}\\ {-} & {a_{2}^{T} B} & {-} \\ {\vdots} \\ {-} & {a_{m}^{T} B}& {-}\end{array}\right]

$i$ $C$ $c_i^T = a_i^T B$

将矩阵乘法剖析到如此大的程度似乎有点过分，特别是当所有这些观点都紧跟在我们在本节开头给出的初始定义（在一行数学中）之后。

这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。为了完全理解线性代数而不会迷失在复杂的索引操作中，关键是要用尽可能多的概念进行操作。

实际上所有的线性代数都处理某种矩阵乘法，花一些时间对这里提出的观点进行直观的理解是非常必要的。

除此之外，了解一些更高级别的矩阵乘法的基本属性是很有必要的：

$(AB)C = A(BC)$
$A(B + C) = AB + AC$
$AB \ne BA$ $A \in \mathbb{R}^ {m \times n}，$ $B \in \mathbb{R}^ {n \times p}$ $m$ $q$ $BA$ 甚至不存在！）

$A \in \mathbb{R}^ {m \times n}，$ $B \in \mathbb{R}^ {n \times p}$ $C \in \mathbb{R}^ {p \times q}$ $AB \in \mathbb{R}^ {m \times p}$ $(AB)C \in \mathbb{R}^ {m \times q}$ $BC \in \mathbb{R}^ {n \times q}$ $A(BC) \in \mathbb{R}^ {m \times q}$ $(AB)C$ $(i,j)$ $A(BC)$ $(i,j)$ 个元素。我们可以使用矩阵乘法的定义直接验证这一点：

\begin{aligned}((A B) C)_{i j} &=\sum_{k=1}^{p}(A B)_{i k} C_{k j}=\sum_{k=1}^{p}\left(\sum_{l=1}^{n} A_{i l} B_{l k}\right) C_{k j} \\ &=\sum_{k=1}^{p}\left(\sum_{l=1}^{n} A_{i l} B_{l k} C_{k j}\right)=\sum_{l=1}^{n}\left(\sum_{k=1}^{p} A_{i l} B_{l k} C_{k j}\right) \\ &=\sum_{l=1}^{n} A_{i l}\left(\sum_{k=1}^{p} B_{l k} C_{k j}\right)=\sum_{l=1}^{n} A_{i l}(B C)_{l j}=(A(B C))_{i j} \end{aligned}

3 运算和属性

在本节中，我们介绍矩阵和向量的几种运算和属性。希望能够为您复习大量此类内容，这些笔记可以作为这些主题的参考。

3.1 单位矩阵和对角矩阵

单位矩阵 $I \in \mathbb{R}^{n \times n}$ ，它是一个方阵，对角线的元素是1，其余元素都是0：

I_{i j}=\left\{\begin{array}{ll}{1} & {i=j} \\ {0} & {i \neq j}\end{array}\right.

$A \in \mathbb{R}^ {m \times n}$ ，有：

AI = A = IA

$I$ $I$ $AI = A$ $n\times n$ $A = IA$ $I$ $m\times m$ 矩阵。

$D= diag(d_1, d_2, . . . , d_n)$ ，其中：

D_{i j}=\left\{\begin{array}{ll}{d_{i}} & {i=j} \\ {0} & {i \neq j}\end{array}\right.

$I = diag(1, 1, . . . , 1)$ 。

3.2 转置

矩阵的转置是指翻转矩阵的行和列。

给定一个矩阵：

$A \in \mathbb{R}^ {m \times n}$ $n \times m$ $A^T \in \mathbb{R}^ {n \times m}$ ，其中的元素为：

(A^T)_{ij} = A_{ji}

事实上，我们在描述行向量时已经使用了转置，因为列向量的转置自然是行向量。

转置的以下属性很容易验证：

$(A^T )^T = A$
$(AB)^T = B^T A^T$
$(A + B)^T = A^T + B^T$

3.3 对称矩阵

$A = A^T$ $A \in \mathbb{R}^ {n \times n}$ $A = - A^T$ $A \in \mathbb{R}^ {n \times n}$ $A + A^ T$ $A -A^T$ $A \in \mathbb{R}^ {n \times n}$ 可以表示为对称矩阵和反对称矩阵的和，所以：

A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)

$n$ $\mathbb{S}^n$ $A \in \mathbb{S}^n$ $A$ $n\times n$ 矩阵;

3.4 矩阵的迹

$A \in \mathbb{R}^ {n \times n}$ $\operatorname{tr} (A)$ $\operatorname{tr} A$ ，如果括号显然是隐含的），是矩阵中对角元素的总和：

\operatorname{tr} A=\sum_{i=1}^{n} A_{i i}

如CS229讲义中所述，迹具有以下属性（如下所示）：

$A \in \mathbb{R}^ {n \times n}$ $\operatorname{tr}A =\operatorname{tr}A^T$
$A,B \in \mathbb{R}^ {n \times n}$ $\operatorname{tr}(A + B) = \operatorname{tr}A + \operatorname{tr}B$
$A \in \mathbb{R}^ {n \times n}$ $t \in \mathbb{R}$ $\operatorname{tr}(tA) = t\operatorname{tr}A$ .
$A$ $B$ $AB$ $\operatorname{tr}AB = \operatorname{tr}BA$
$A$ $B$ $C$ $ABC$ $\operatorname{tr}ABC = \operatorname{tr}BCA=\operatorname{tr}CAB$ , 同理，更多矩阵的积也是有这个性质。

$A \in \mathbb{R}^ {m \times n}$ $B \in \mathbb{R}^ {n \times m}$ $AB \in \mathbb{R}^ {m \times m}$ $BA \in \mathbb{R}^ {n \times n}$ $\operatorname{tr}AB = \operatorname{tr}BA$ ，请注意：

\begin{aligned} \operatorname{tr} A B &=\sum_{i=1}^{m}(A B)_{i i}=\sum_{i=1}^{m}\left(\sum_{j=1}^{n} A_{i j} B_{j i}\right) \\ &=\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j} B_{j i}=\sum_{j=1}^{n} \sum_{i=1}^{m} B_{j i} A_{i j} \\ &=\sum_{j=1}^{n}\left(\sum_{i=1}^{m} B_{j i} A_{i j}\right)=\sum_{j=1}^{n}(B A)_{j j}=\operatorname{tr} B A \end{aligned}

这里，第一个和最后两个等式使用迹运算符和矩阵乘法的定义，重点在第四个等式，使用标量乘法的可交换性来反转每个乘积中的项的顺序，以及标量加法的可交换性和相关性，以便重新排列求和的顺序。

3.5 范数

$\|x\|$ $\ell_{2}$ 范数，

\|x\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}

$\|x\|_{2}^{2}=x^{T} x$

$f : \mathbb{R}^{n} \rightarrow \mathbb{R}$ ）：

$x \in \mathbb{R}^ {n}$ $f(x) \geq 0$ (非负).
$x = 0$ $f(x) = 0$ (明确性).
$x \in \mathbb{R}^ {n}$ $t\in \mathbb{R}$ $f(tx) = \left| t \right|f(x)$ (正齐次性).
$x,y \in \mathbb{R}^ {n}$ $f(x + y) \leq f(x) + f(y)$ (三角不等式)

$\ell_1$ 范数:

\|x\|_{1}=\sum_{i=1}^{n}\left|x_{i}\right|

$\ell_{\infty }$ 范数：

\|x\|_{\infty}=\max _{i}\left|x_{i}\right|

$\ell_p$ $p \geq 1$ 参数化，并定义为：

\|x\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}

也可以为矩阵定义范数，例如Frobenius范数:

\|A\|_{F}=\sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j}^{2}}=\sqrt{\operatorname{tr}\left(A^{T} A\right)}

许多其他更多的范数，但它们超出了这个复习材料的范围。

3.6 线性相关性和秩

${x_1,x_2, \cdots x_n} \in \mathbb{R}$ ，如果没有向量可以表示为其余向量的线性组合，则称称该向量是线性无相关的。相反，如果属于该组的一个向量可以表示为其余向量的线性组合，则称该向量是线性相关的。也就是说，如果：

x_{n}=\sum_{i=1}^{n-1} \alpha_{i} x_{i}

$\alpha_1,\cdots \alpha_n-1 \in \mathbb{R}$ $x_1,x_2, \cdots x_n$ 是线性相关的; 否则，向量是线性无关的。例如，向量：

x_{1}=\left[\begin{array}{l}{1} \\ {2} \\ {3}\end{array}\right] \quad x_{2}=\left[\begin{array}{c}{4} \\ {1} \\ {5}\end{array}\right] \quad x_{3}=\left[\begin{array}{c}{2} \\ {-3} \\ {-1}\end{array}\right]

$x_3=-2x_1+x_2$ 。

$A \in \mathbb{R}^{m \times n}$ 列秩 $A$ $A$ $A$ $A \in \mathbb{R}^{m \times n}$ $A$ $A$ $A$ 秩 $\text{rank}(A)$ 表示。以下是秩的一些基本属性：

$A \in \mathbb{R}^{m \times n}$ $\text{rank}(A) \leq min(m, n)$ $\text(A) = \text{min} (m, n)$ $A$ 被称作满秩。
$A \in \mathbb{R}^{m \times n}$ $\text{rank}(A) = \text{rank}(A^T)$
$A \in \mathbb{R}^{m \times n}$ $B \in \mathbb{R}^{n \times p}$ $\text{rank}(AB) \leq \text{min} ( \text{rank}(A), \text{rank}(B))$
$A,B \in \mathbb{R}^{m \times n}$ $\text{rank}(A + B) \leq \text{rank}(A) + \text{rank}(B)$

3.7 方阵的逆

$A \in \mathbb{R}^{n \times n}$ $A^{-1}$ ，并且是这样的独特矩阵:

A^{-1}A=I=AA^{-1}

$A$ $A^{-1}$ $A^{-1}$ $A$ 是可逆的或非奇异的，否则就是不可逆或奇异 $A^{-1}$ $A$ $A,B \in \mathbb{R}^{n \times n}$ ，而且是非奇异的：

$(A^{-1})^{-1} = A$
$(AB)^{-1} = B^{-1}A^{-1}$
$(A^{-1})^{T} =(A^{T})^{-1}$ $A^{-T}$ $Ax = b$ $A \in \mathbb{R}^{n \times n}$ $x,b\in \mathbb{R}$ $A$ $x = A^{-1}b$ $A \in \mathbb{R}^{m \times n}$ 不是方阵，这公式还有用吗？）

3.8 正交阵

$x^Ty=0$ $x,y\in \mathbb{R}^{n}$ 正交 $\|x\|_2=1$ $x\in \mathbb{R}^{n}$ $U\in \mathbb{R}^{n \times n}$ $U$ 是正交阵（注意在讨论向量时的意义不一样）。

它可以从正交性和正态性的定义中得出:

U^ TU = I = U U^T

$U$ $U\in \mathbb{R}^{m \times n}$ $n <m$ $U^TU = I$ $UU^T \neq I$ $U$ 是方阵。正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数，即:

\|U x\|_{2}=\|x\|_{2}

$x\in \mathbb{R}$ $U\in \mathbb{R}^{n}$ 是正交的。

3.9 矩阵的值域和零空间

$\{x_{1}, \ldots x_{n}\}$ $\{x_{1}, \ldots x_{n}\}$ 的线性组合的所有向量的集合。即：

\operatorname{span}\left(\left\{x_{1}, \ldots x_{n}\right\}\right)=\left\{v : v=\sum_{i=1}^{n} \alpha_{i} x_{i}, \quad \alpha_{i} \in \mathbb{R}\right\}

$\{x_{1}, \ldots x_{n}\}$ $n$ $x_i \in \mathbb{R}^{n}$ $\text{span}(\{x_{1}, \ldots x_{n}\})=\mathbb{R}^{n}$ $v\in \mathbb{R}^{n}$ $x_1$ $x_n$ 的线性组合。

$y\in \mathbb{R}^{m}$ $\{x_{1}, \ldots x_{n}\}$ $x_i \in \mathbb{R}^{m}$ $v \in \operatorname{span}(\{x_{1}, \ldots, x_{n}\})$ $\|v - y\|_2$ $v$ $y$ 。

$\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)$ ，并且可以将其正式定义为:

\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)=\operatorname{argmin}_{v \in \operatorname{span}\left(\left\{x_{1}, \ldots, x_{n}\right\}\right)}\|y-v\|_{2}

$A\in \mathbb{R}^{m \times n}$ $\mathcal{R}(A)$ $A$ 列的跨度。换句话说，

\mathcal{R}(A)=\left\{v \in \mathbb{R}^{m} : v=A x, x \in \mathbb{R}^{n}\right\}

$A$ $n <m$ $y \in \mathbb{R}^{m}$ $A$ 的范围的投影由下式给出:

\operatorname{Proj}(y ; A)=\operatorname{argmin}_{v \in \mathcal{R}(A)}\|v-y\|_{2}=A\left(A^{T} A\right)^{-1} A^{T} y

这个最后的方程应该看起来非常熟悉，因为它几乎与我们在课程中（我们将很快再次得出）得到的公式：用于参数的最小二乘估计一样。看一下投影的定义，显而易见，这实际上是我们在最小二乘问题中最小化的目标（除了范数的平方这里有点不一样，这不会影响找到最优解），所以这些问题自然是非常相关的。

$A$ $a \in \mathbb{R}^{m}$ ，这给出了向量投影到一条线上的特殊情况：

\operatorname{Proj}(y ; a)=\frac{a a^{T}}{a^{T} a} y

$A\in \mathbb{R}^{m \times n}$ $\mathcal{N}(A)$ $A$ 时等于0向量的集合，即：

\mathcal{N}(A)=\left\{x \in \mathbb{R}^{n} : A x=0\right\}

$\mathcal{R}(A)$ $m$ $\mathcal{N}(A)$ $n$ $\mathcal{R}(A^T)$ $\mathcal{N}(A)$ $\mathbb{R}^{n}$ 。事实上，还有很多例子。证明：

\left\{w : w=u+v, u \in \mathcal{R}\left(A^{T}\right), v \in \mathcal{N}(A)\right\}=\mathbb{R}^{n} \text { and } \mathcal{R}\left(A^{T}\right) \cap \mathcal{N}(A)=\{\mathbf{0}\}

$\mathcal{R}(A^T)$ $\mathcal{N}(A)$ $\mathbb{R}^{n}$ 正交补 $\mathcal{R}(A^T)= \mathcal{N}(A)^{\perp}$ 表示。

3.10 行列式

$A \in \mathbb{R}^{n \times n}$ $\text {det}$ $\mathbb{R}^{n \times n} \rightarrow \mathbb{R}^{n}$ $\left| A \right|$ $\text{det} A$ $A$ 行列式的显式公式。因此，我们首先提供行列式的几何解释，然后探讨它的一些特定的代数性质。

给定一个矩阵：

\left[\begin{array}{cccc}{-} & {a_{1}^{T}} & {-} \\ {-} & {a_{2}^{T}} & {-} \\ {} & {\vdots} & {} \\ {-} & {a_{n}^{T}} & {-}\end{array}\right]

$A$ $a_{1}, \ldots a_{n}\in \mathbb{R}^{n}$ $S \subset \mathbb{R}^{n}$ $S$ $\text{span}(\{a_{1}, \ldots a_{n}\})$ $a_{1}, \ldots a_{n}$ $\alpha_1, \cdots ,\alpha_n$ $0 \leq \alpha_{i} \leq 1, i=1, \ldots, n$ 。从形式上看，

S=\left\{v \in \mathbb{R}^{n} : v=\sum_{i=1}^{n} \alpha_{i} a_{i} \text { where } 0 \leq \alpha_{i} \leq 1, i=1, \ldots, n\right\}

$A$ $S$ 的“体积”的度量。

$2 \times2$ 的矩阵(4)：

A=\left[\begin{array}{ll}{1} & {3} \\ {3} & {2}\end{array}\right]

它的矩阵的行是：

a_{1}=\left[\begin{array}{l}{1} \\ {3}\end{array}\right] \quad a_{2}=\left[\begin{array}{l}{3} \\ {2}\end{array}\right]

$S$ $S$ $\left| A \right| = -7$ （可以使用本节后面显示的公式计算），因此平行四边形的面积为7。（请自己验证！）

$S$ $S$ $3×3$ $S$ $n$ 维平行切的对象。

$2×2$ $A$ $a_1$ $a_2$ $A$ $S$ $\left| \text{det} A \right| = 7$ ，即平行四边形的面积。

在代数上，行列式满足以下三个属性（所有其他属性都遵循这些属性，包括通用公式）：

$\left| I \right|= 1$ （几何上，单位超立方体的体积为1）。
$A \in \mathbb{R}^{n \times n}$ $A$ $t \in \mathbb{R}$ $t\left| A \right|$

\left|\left[\begin{array}{ccc}{-} & {t a_{1}^{T}} & {-} \\ {-} & {a_{2}^{T}} & {-} \\ {} & {\vdots} & {} \\ {} & {a_{m}^{T}} & {-}\end{array}\right]\right|=t|A|

$S$ $t$ $t$ 。

$a_i^T$ $a_j^T$ $-\left| A \right|$ ，例如：

\left|\left[\begin{array}{ccc}{-} & {a_{2}^{T}} & {-} \\ {-} & {a_{1}^{T}} & {-} \\ {} & {\vdots} & {} \\ {-} & {a_{m}^{T}} & {-}\end{array}\right]\right|=-|A|

你一定很奇怪，满足上述三个属性的函数的存在并不多。事实上，这样的函数确实存在，而且是唯一的（我们在这里不再证明了）。

从上述三个属性中得出的几个属性包括：

$A \in \mathbb{R}^{n \times n}$ $\left| A \right| = \left| A^T \right|$
$A,B \in \mathbb{R}^{n \times n}$ $\left| AB \right|= \left| A \right|\left| B \right|$
$A \in \mathbb{R}^{n \times n}$ $A$ $\left| A \right|= 0$
$A \in \mathbb{R}^{n \times n}$ $A$ $\left| A ^{−1}\right| = 1/\left| A \right|$

$A \in \mathbb{R}^{n \times n}$ $A_{\backslash i, \backslash j}\in \mathbb{R}^{(n-1) \times (n-1)}$ $i$ $j$ 列而产生的矩阵。行列式的一般（递归）公式是：

\begin{aligned}|A| &=\sum_{i=1}^{n}(-1)^{i+j} a_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } j \in 1, \ldots, n) \\ &=\sum_{j=1}^{n}(-1)^{i+j} a_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } i \in 1, \ldots, n) \end{aligned}

$A \in \mathbb{R}^{1 \times 1}$ $\left| A \right|= a_{11}$ $A \in \mathbb{R}^{n \times n}$ $n!$ $n$ $3×3$ $3×3$ 大小的矩阵的行列式方程是相当常见的，建议好好地了解它们：

\left|\left[a_{11}\right]\right|=a_{11}

\left|\left[\begin{array}{ll}{a_{11}} & {a_{12}} \\ {a_{21}} & {a_{22}}\end{array}\right]\right|=a_{11} a_{22}-a_{12} a_{21}

\left|\left[\begin{array}{l}{a_{11}} & {a_{12}} & {a_{13}} \\ {a_{21}} & {a_{22}} & {a_{23}} \\ {a_{31}} & {a_{32}} & {a_{33}}\end{array}\right]\right|=\quad \begin{array}{c}{a_{11} a_{22} a_{33}+a_{12} a_{23} a_{31}+a_{13} a_{21} a_{32}} \\\quad \quad {-a_{11} a_{23} a_{32}-a_{12} a_{21} a_{33}-a_{13} a_{22} a_{31}} \\ {}\end{array}

$A \in \mathbb{R}^{n \times n}$ $\operatorname{adj}(A)$ ，并定义为：

\operatorname{adj}(A) \in \mathbb{R}^{n \times n}, \quad(\operatorname{adj}(A))_{i j}=(-1)^{i+j}\left|A_{\backslash j, \backslash i}\right|

$A_{\backslash j, \backslash i}$ $A \in \mathbb{R}^{n \times n}$ ，

A^{-1}=\frac{1}{|A|} \operatorname{adj}(A)

虽然这是一个很好的“显式”的逆矩阵公式，但我们应该注意，从数字上讲，有很多更有效的方法来计算逆矩阵。

3.11 二次型和半正定矩阵

$A \in \mathbb{R}^{n \times n}$ $x \in \mathbb{R}^{n}$ $x^T Ax$ 被称为二次型。写得清楚些，我们可以看到：

x^{T} A x=\sum_{i=1}^{n} x_{i}(A x)_{i}=\sum_{i=1}^{n} x_{i}\left(\sum_{j=1}^{n} A_{i j} x_{j}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}

注意：

x^{T} A x=\left(x^{T} A x\right)^{T}=x^{T} A^{T} x=x^{T}\left(\frac{1}{2} A+\frac{1}{2} A^{T}\right) x

$A$ 的对称部分有助于形成二次型。出于这个原因，我们经常隐含地假设以二次型出现的矩阵是对称阵。我们给出以下定义：

$x \in \mathbb{R}^n$ $x^TAx>0$ $A \in \mathbb{S}^n$ 为正定positive definite,PD $A\succ0$ $A>0$ $\mathbb{S}_{++}^n$ 。
$x^TAx\geq 0$ $A \in \mathbb{S}^n$ 是半正定positive semidefinite ,PSD $A \succeq 0$ $A≥0$ $\mathbb{S}_+^n$ 。
$A \in \mathbb{S}^n$ 是负定negative definite,ND $x \in \mathbb{R}^n$ $x^TAx <0$ $A\prec0$ $A <0$ ）。
$A \in \mathbb{S}^n$ 是半负定negative semidefinite,NSD $x \in \mathbb{R}^n$ $x^TAx \leq 0$ $A\preceq 0$ $A≤0$ ）。
$A \in \mathbb{S}^n$ 不定 $x_1,x_2 \in \mathbb{R}^n$ $x_1^TAx_1>0$ $x_2^TAx_2<0$ 。

$A$ $−A$ $A$ $−A$ $A$ $−A$ 是也是不定的。

$A \in \mathbb{S}^n$ $A$ $j$ $n-1$ 列的线性组合：

a_{j}=\sum_{i \neq j} x_{i} a_{i}

$x_1,\cdots x_{j-1},x_{j + 1} ,\cdots ,x_n\in \mathbb{R}$ $x_j = -1$ ，则：

Ax=\sum_{i \neq j} x_{i} a_{i}=0

$x$ $x^T Ax = 0$ $A$ $A$ $A \in \mathbb{R}^{m \times n}$ $G = A^T A$ Gram矩阵 $m\geq n$ $A$ $G = A^T A$ 是正定的。

3.12 特征值和特征向量

$A \in\mathbb{R}^{n\times n}$ $\lambda \in\mathbb{C}$ $A$ 特征值 $x\in\mathbb{C}^n$ 是相应的特征向量：

Ax=\lambda x,x \ne 0

$A$ $x$ $x$ $\lambda$ $x\in\mathbb{C}^n$ $t\in\mathbb{C}$ $A(cx)=cAx=c\lambda x=\lambda(cx)$ $cx$ $\lambda$ 特征向量 $x$ $−x$ 都是特征向量，但我们必须接受这一点）。

$(\lambda,x)$ $A$ 的特征值和特征向量的组合：

(\lambda I-A)x=0,x \ne 0

$(\lambda I-A)x=0$ $(\lambda I-A)$ $(\lambda I-A)$ $x$ 才具有非零解，即：

|(\lambda I-A)|=0

$|(\lambda I-A)|$ $\lambda$ $\lambda$ $n$ $A$ 的特征多项式。

$n$ $\lambda_1,\cdots,\lambda_n$ $A$ $\lambda_i$ $(\lambda I-A)x=0$ $(\lambda I-A)$ 是奇异的，所以保证有一个非零解（但也可能有多个或无穷多个解）。

$n!$ 项），这是一个数学上的争议。

$A \in\mathbb{R}^{n\times n}$ $\lambda_1,\cdots,\lambda_n$ 的前提下）：

$A$ 的迹等于其特征值之和
$\operatorname{tr} A=\sum_{i=1}^{n} \lambda_{i}$
$A$ 的行列式等于其特征值的乘积
$|A|=\prod_{i=1}^{n} \lambda_{i}$
$A$ $A$ 的非零特征值的个数
$A$ $\lambda$ $x$ $1/\lambda$ $x$ $A^{-1}$ $A^{-1}x=(1/\lambda)x$ $Ax=\lambda x$ $A^{-1}$ ）
$d=diag(d_1，\cdots,d_n)$ $d_1，\cdots,d_n$

3.13 对称矩阵的特征值和特征向量

通常情况下，一般的方阵的特征值和特征向量的结构可以很细微地表示出来。值得庆幸的是，在机器学习的大多数场景下，处理对称实矩阵就足够了，其处理的对称实矩阵的特征值和特征向量具有显着的特性。

$A$ 是实对称矩阵, 具有以下属性：

$A$ $\lambda_1,\cdots,\lambda_n$ 表示。
$u_1，\cdots u_n$ $i$ $u_i$ $\lambda_{i}$ $b$ $u_1，\cdots u_n$ 是单位向量并且彼此正交。

$U$ $u_i$ 作为列的正交矩阵：

U=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {u_{1}} & {u_{2}} & {\cdots} & {u_{n}} \\ { |} & { |} & {} & { |}\end{array}\right]

$\Lambda= diag(\lambda_1,\cdots,\lambda_n)$ $\lambda_1,\cdots,\lambda_n$ 作为对角线上的元素的对角矩阵。使用2.3节的方程（2）中的矩阵 - 矩阵向量乘法的方法，我们可以验证：

A U=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {A u_{1}} & {A u_{2}} & {\cdots} & {A u_{n}} \\ { |} & { |} & {} & { |}\end{array}\right]=\left[\begin{array}{ccc}{ |} & { |} & { |} & { |}\\ {\lambda_{1} u_{1}} & {\lambda_{2} u_{2}} & {\cdots} & {\lambda_{n} u_{n}} \\ { |} & { |} & {|} & { |}\end{array}\right]=U \operatorname{diag}\left(\lambda_{1}, \ldots, \lambda_{n}\right)=U \Lambda

$U$ $UU^T=I$ ，利用上面的方程，我们得到：

A=AUU^T=U\Lambda U^T

$A$ $U\Lambda U^T$ $A$ $A$ $U$ 定义的基础，我们将通过几个例子详细说明。

背景知识：代表另一个基的向量。

$U=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {u_{1}} & {u_{2}} & {\cdots} & {u_{n}} \\ { |} & { |} & {} & { |}\end{array}\right]$ $\mathbb {R}^{n}$ $x \in\mathbb{R}^{n}$ $u_1，\cdots u_n$ $x_1,\cdots x_n$ ：

x=\hat x_1u_1+\cdots +\cdots \hat x_nu_n=U\hat x

$\hat x$ 是唯一存在的:

x=U \hat{x} \Leftrightarrow U^{T} x=\hat{x}

$\hat x=U^Tx$ $x$ $U$ 定义的基有关。

“对角化”矩阵向量乘法 $A$ $x$ $\hat x$ $U$ $z=Ax$ $U$ $z$ $UU^T=U^T=I$ $A=AUU^T=U\Lambda U^T$ ，我们得到：

\hat{z}=U^{T} z=U^{T} A x=U^{T} U \Lambda U^{T} x=\Lambda \hat{x}=\left[\begin{array}{c}{\lambda_{1} \hat{x}_{1}} \\ {\lambda_{2} \hat{x}_{2}} \\ {\vdots} \\ {\lambda_{n} \hat{x}_{n}}\end{array}\right]

$A$ $\Lambda$ $q=AAAx$ $A$ $q$ 的分析形式，使用原始的基可能是一场噩梦，但使用新的基就容易多了：

\hat{q}=U^{T} q=U^{T} AAA x=U^{T} U \Lambda U^{T} U \Lambda U^{T} U \Lambda U^{T} x=\Lambda^{3} \hat{x}=\left[\begin{array}{c}{\lambda_{1}^{3} \hat{x}_{1}} \\ {\lambda_{2}^{3} \hat{x}_{2}} \\ {\vdots} \\ {\lambda_{n}^{3} \hat{x}_{n}}\end{array}\right]

“对角化”二次型 $x^TAx$ 也可以在新的基上简化。

x^{T} A x=x^{T} U \Lambda U^{T} x=\hat{x} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}

$x^{T} A x=\sum_{i=1, j=1}^{n} x_{i} x_{j} A_{i j}$ $n^2$ $n$ $A$ 的正定性完全取决于其特征值的符号：

$\lambda_i>0$ $A$ $\hat x \ne 0$ $x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}>0$
$\lambda_i\geq 0$ $A$ $\hat x$ $x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \geq 0$
$\lambda_i<0$ $\lambda_i\leq 0$ $A$ 分别为负定或半负定。
$A$ $\lambda_i>0$ $\lambda_j<0$ $\hat x$ $\hat x_i=1$ $\hat x_k=0$ $k\ne i$ $x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}>0$ $\hat x$ $\hat x_i=1$ $\hat x_k=0$ $k\ne i$ $x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}<0$

$A \in \mathbb{S}^{n}$ ，考虑以下最大化问题：

\max _{x \in \mathbb{R}^{n}} \ x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \quad \text { subject to }\|x\|_{2}^{2}=1

$\lambda_1 \geq \lambda _2 \geq \cdots \lambda_n$ $\lambda_1$ $\lambda_1$ $u_1$ $\lambda_1 > \lambda_2$ $\lambda_1$ $\|U x\|_{2}=\|x\|_{2}$ $\|x\|_{2}=\|\hat{x}\|_{2}$ ，并利用公式：

$x^{T} A x=x^{T} U \Lambda U^{T} x=\hat{x} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}$ ，我们可以将上面那个优化问题改写为：

\max _{\hat{x} \in \mathbb{R}^{n}}\ \hat{x}^{T} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \quad \text { subject to }\|\hat{x}\|_{2}^{2}=1

$\lambda_1$ ：

\hat{x}^{T} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \leq \sum_{i=1}^{n} \lambda_{1} \hat{x}_{i}^{2}=\lambda_{1}

$\hat{x}=\left[\begin{array}{c}{1} \\ {0} \\ {\vdots} \\ {0}\end{array}\right]$ $x=u_1$ 相对应。

4.矩阵微积分

虽然前面章节中的主题通常包含在线性代数的标准课程中，但似乎很少涉及（我们将广泛使用）的一个主题是微积分扩展到向量设置展。尽管我们使用的所有实际微积分都是相对微不足道的，但是符号通常会使事情看起来比实际困难得多。在本节中，我们将介绍矩阵微积分的一些基本定义，并提供一些示例。

4.1 梯度

$f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$ $m \times n$ $A\in \mathbb{R}^{m \times n}$ $f$ $A\in \mathbb{R}^{m \times n}$ ）是偏导数矩阵，定义如下：

\nabla_{A} f(A) \in \mathbb{R}^{m \times n}=\left[\begin{array}{cccc}{\frac{\partial f(A)}{\partial A_{11}}} & {\frac{\partial f(A)}{\partial A_{12}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{1n}}} \\ {\frac{\partial f(A)}{\partial A_{21}}} & {\frac{\partial f(A)}{\partial A_{22}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{2 n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial f(A)}{\partial A_{m 1}}} & {\frac{\partial f(A)}{\partial A_{m 2}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{m n}}}\end{array}\right]

$m \times n$ 矩阵:

\left(\nabla_{A} f(A)\right)_{i j}=\frac{\partial f(A)}{\partial A_{i j}}

$\nabla_{A} f(A)$ $A$ $A$ $A\in \mathbb{R}^{n}$ ，则

\nabla_{x} f(x)=\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right]

$A\in \mathbb{R}^{m \times n}$ $x$ $Ax$ 的梯度，因为这个量是向量值。它直接从偏导数的等价性质得出：

$\nabla_{x}(f(x)+g(x))=\nabla_{x} f(x)+\nabla_{x} g(x)$
$t \in \mathbb{R}$ $\nabla_{x}(t f(x))=t \nabla_{x} f(x)$

$A\in \mathbb{R}^{m \times n}$ $b\in \mathbb{R}^{m}$ $f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$ $f(z)=z^Tz$ $\nabla_{z}f(z)=2z$ 。但现在考虑表达式，

\nabla f(Ax)

$\nabla_{z}f(z)=2z$ $\nabla f(Ax)$ $Ax$ 处的梯度，因此:

\nabla f(A x)=2(A x)=2 A x \in \mathbb{R}^{m}

$f(Ax)$ $x$ $g(x) =f(Ax)$ 。然后在这个解释中:

\nabla f(A x)=\nabla_{x} g(x) \in \mathbb{R}^{n}

$m$ $n$ 维向量作为结果！我们怎么解决这个问题？

$f$ $z$ $Ax$ $g(x)=f(Ax)$ $x$ 进行微分。

$\nabla zf(Ax)$ $\nabla xf(Ax)$ 。

保持符号清晰是非常重要的，以后完成课程作业时候你就会发现。

4.2 黑塞矩阵

$f: \mathbb{R}^{n} \rightarrow \mathbb{R}$ $\mathbb{R}^{n}$ $x$ 黑塞矩阵 $\nabla_x ^2 f(A x)$ $H$ $n \times n$ 矩阵的偏导数：

\nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n}=\left[\begin{array}{cccc}{\frac{\partial^{2} f(x)}{\partial x_{1}^{2}}} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{n}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{2}^{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{n}^{2}}}\end{array}\right]

$\nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n}$ ，其：

\left(\nabla_{x}^{2} f(x)\right)_{i j}=\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}}

注意：黑塞矩阵通常是对称阵：

\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}}=\frac{\partial^{2} f(x)}{\partial x_{j} \partial x_{i}}

$f(x)$ 为实值时才定义黑塞矩阵。

$f: \mathbb{R} \rightarrow \mathbb{R}$ 的实值函数，它的基本定义：二阶导数是一阶导数的导数，即：

\frac{\partial^{2} f(x)}{\partial x^{2}}=\frac{\partial}{\partial x} \frac{\partial}{\partial x} f(x)

然而，对于向量的函数，函数的梯度是一个向量，我们不能取向量的梯度，即:

\nabla_{x} \nabla_{x} f(x)=\nabla_{x}\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right]

$\left(\nabla_{x} f(x)\right)_{i}=\partial f(x) / \partial x_{i}$ $i$ $x$ 的梯度我们得到：

\nabla_{x} \frac{\partial f(x)}{\partial x_{i}}=\left[\begin{array}{c}{\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{1}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{i} \partial x_{n}}}\end{array}\right]

$i$ 行（列）,所以：

\nabla_{x}^{2} f(x)=\left[\nabla_{x}\left(\nabla_{x} f(x)\right)_{1} \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{2} \quad \cdots \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{n}\right]

$\nabla_{x}^{2} f(x)=\nabla_{x}\left(\nabla_{x} f(x)\right)^{T}$ $\nabla_{x} f(x)$ 的每个元素的梯度，而不是整个向量的梯度。

$A\in \mathbb{R}^{n}$ $x \in \mathbb{R}^{n}$ $\partial^{2} f(A) /\left(\partial A_{i j} \partial A_{k \ell}\right)$ ，将其表示为矩阵相当麻烦。

4.3 二次函数和线性函数的梯度和黑塞矩阵

现在让我们尝试确定几个简单函数的梯度和黑塞矩阵。应该注意的是，这里给出的所有梯度都是CS229讲义中给出的梯度的特殊情况。

$x \in \mathbb{R}^{n}$ $f(x)=b^Tx$ $b \in \mathbb{R}^{n}$ ，则：

f(x)=\sum_{i=1}^{n} b_{i} x_{i}

所以：

\frac{\partial f(x)}{\partial x_{k}}=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} b_{i} x_{i}=b_{k}

$\nabla_{x} b^{T} x=b$ $\partial /(\partial x) a x=a$ $A\in \mathbb{S}^{n}$ $f(x)=x^TAx$ 。记住这一点：

f(x)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}

$x_k$ $x_2^k$ 因子的项：

\begin{aligned} \frac{\partial f(x)}{\partial x_{k}} &=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} \\ &=\frac{\partial}{\partial x_{k}}\left[\sum_{i \neq k} \sum_{j \neq k} A_{i j} x_{i} x_{j}+\sum_{i \neq k} A_{i k} x_{i} x_{k}+\sum_{j \neq k} A_{k j} x_{k} x_{j}+A_{k k} x_{k}^{2}\right] \\ &=\sum_{i \neq k} A_{i k} x_{i}+\sum_{j \neq k} A_{k j} x_{j}+2 A_{k k} x_{k} \\ &=\sum_{i=1}^{n} A_{i k} x_{i}+\sum_{j=1}^{n} A_{k j} x_{j}=2 \sum_{i=1}^{n} A_{k i} x_{i} \end{aligned}

$A$ $\nabla_{x} f(x)$ $k$ $A$ $x$ $k$ $\nabla_{x} x^{T} A x=2 A x$ $\partial /(\partial x) a x^{2}=2 a x$ 。

$f(x)=x^TAx$ $b^Tx$ 的黑塞矩阵为零）。在这种情况下:

\frac{\partial^{2} f(x)}{\partial x_{k} \partial x_{\ell}}=\frac{\partial}{\partial x_{k}}\left[\frac{\partial f(x)}{\partial x_{\ell}}\right]=\frac{\partial}{\partial x_{k}}\left[2 \sum_{i=1}^{n} A_{\ell i} x_{i}\right]=2 A_{\ell k}=2 A_{k \ell}

$\nabla_{x}^2 x^{T} A x=2 A$ $\partial^2 /(\partial x^2) a x^{2}=2a$ 的单变量事实）。

简要概括起来：

$\nabla_{x} b^{T} x=b$
$\nabla_{x} x^{T} A x=2 A x$ $A$ 是对称阵)
$\nabla_{x}^2 x^{T} A x=2 A$ $A$ 是对称阵)

4.4 最小二乘法

$A\in \mathbb{R}^{m \times n}$ $A$ $b\in \mathbb{R}^{m}$ $b \notin \mathcal{R}(A)$ $x\in \mathbb{R}^{n}$ $Ax = b$ $x$ $Ax$ $b$ $\|A x-b\|_{2}^{2}$ 来衡量。

$\|x\|^{2}=x^Tx$ ，我们可以得到：

\begin{aligned}\|A x-b\|_{2}^{2} &=(A x-b)^{T}(A x-b) \\ &=x^{T} A^{T} A x-2 b^{T} A x+b^{T} b \end{aligned}

$x$ 的梯度，并利用上一节中推导的性质：

\begin{aligned} \nabla_{x}\left(x^{T} A^{T} A x-2 b^{T} A x+b^{T} b\right) &=\nabla_{x} x^{T} A^{T} A x-\nabla_{x} 2 b^{T} A x+\nabla_{x} b^{T} b \\ &=2 A^{T} A x-2 A^{T} b \end{aligned}

$x$ ，得到了正规方程：

x = (A^TA)^{-1}A^Tb

这和我们在课堂上得到的相同。

4.5 行列式的梯度

$A\in \mathbb{R}^{n \times n}$ $\nabla_{A}|A|$ 。回想一下我们对行列式的讨论：

|A|=\sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } j \in 1, \ldots, n)

所以：

\frac{\partial}{\partial A_{k \ell}}|A|=\frac{\partial}{\partial A_{k \ell}} \sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right|=(-1)^{k+\ell}\left|A_{\backslash k,\backslash \ell}\right|=(\operatorname{adj}(A))_{\ell k}

从这里可以知道，它直接从伴随矩阵的性质得出：

\nabla_{A}|A|=(\operatorname{adj}(A))^{T}=|A| A^{-T}

$f : \mathbb{S}_{++}^{n} \rightarrow \mathbb{R}$ $f(A)=\log |A|$ $f$ $|A|>0$ $|A|$ 的对数是实数。在这种情况下，我们可以使用链式法则（没什么奇怪的，只是单变量演算中的普通链式法则）来看看：

\frac{\partial \log |A|}{\partial A_{i j}}=\frac{\partial \log |A|}{\partial|A|} \frac{\partial|A|}{\partial A_{i j}}=\frac{1}{|A|} \frac{\partial|A|}{\partial A_{i j}}

从这一点可以明显看出：

\nabla_{A} \log |A|=\frac{1}{|A|} \nabla_{A}|A|=A^{-1}

$A$ $\partial /(\partial x) \log x=1 / x$ 。

4.6 特征值优化

最后，我们使用矩阵演算以直接导致特征值/特征向量分析的方式求解优化问题。考虑以下等式约束优化问题：

\max _{x \in \mathbb{R}^{n}} x^{T} A x \quad \text { subject to }\|x\|_{2}^{2}=1

$A\in \mathbb{S}^{n}$ 。求解等式约束优化问题的标准方法是采用拉格朗日形式，一种包含等式约束的目标函数，在这种情况下，拉格朗日函数可由以下公式给出：

\mathcal{L}(x, \lambda)=x^{T} A x-\lambda x^{T} x

$\lambda$ $x^*$ $x^*$ 处为零（这不是唯一的条件，但它是必需的）。也就是说，

\nabla_{x} \mathcal{L}(x, \lambda)=\nabla_{x}\left(x^{T} A x-\lambda x^{T} x\right)=2 A^{T} x-2 \lambda x=0

$Ax =\lambda x$ $x^T x = 1$ $x^T Ax$ $A$ 的特征向量。

线性代数和概率论都已经翻译完毕，请关注github的更新，若有修改将在github上更新

欢迎大家提交PR，对语言进行润色。

翻译：黄海广