深度学习数学基础

微积分

泰勒展开

$f(x) = \sum_{n=0}^{\infty}\frac{f^{n}(a)}{n!}(x-a)^{n}$

分别用$x+\epsilon 、x$替换原式中的$x和a$，则有

$f(x+\epsilon)=\sum_{n=0}^\infty\frac{f^n(x)}{n!}(x+\epsilon-x) $

上式可看作$f(x+\epsilon)$在$x$处的泰勒展开，根据导数定义，当$\epsilon \to 0 $ 时，有

$f^{'}{(x)} = \frac{f(x+\epsilon) - f(x)}{\epsilon}$

则可得到：

$ f(x+\epsilon) = f(x) + f^{‘}(x)\epsilon$

线性代数

矩阵基础

矩阵转置：以主对角线为轴的镜像，左上到右下的对角线为主对角线。

$(\mathbf {A}^\top)_{j,i} = \mathbf{A}_{i,j}$

单位矩阵：$\forall x\in \mathbf R^n，I_nX=X,其中I^n \in \mathbf R^{n * n}$

矩阵的逆记为$A ^{-1}$,需满足：$A^{-1}A=I_n$

若逆矩阵存在，则$Ax=b$中，对于每一个向量b恰好存在一个解，但是对于方程组而言，对于向量$b$的某些值，有可能无解，或者存在无限多个解。

生成子空间：原始向量线性组合后所能抵达的点的集合。

$Ax=b$是否有解，相当于确定向量$b$是否在$A$列向量的生成子空间中。这个特殊的生成子空间成为$A$的列空间或者$A$的值域。

线性相关，线性无关

线性无关：如果一组向量中任意一个向量不能表示称其他向量的线性组合，这组向量成为线性无关。

使用矩阵逆求解，必须是方阵或者非奇异的。

范数

公式：$||x||_p = (\sum_i|x_i|^p)^\frac{1}{p}$，其中$P \in \mathbf R,P \ge 1.$直观上范数衡量从原点到$x$的距离。
$L^2$范数成为欧几里得范数（Euclidean norm），经常简写为$||x||$.表示从原点出发到向量$x$确定点的欧氏距离。

另外平方L2范数也经常用来衡量向量大小，更容易计算，$x^ \top x$.对元素的导数只取决于对应的元素，而L2范数对每个原色的导数和整个向量相关。但是平方L2范数在原点福建增长十分缓慢，某些机器学习应用中恰好需要区分零和非零值。此时转而使用在各个位置斜率相同且形式简单的L1范数。

$L^1$范数：$||x||_1 = \sum_i|x_i|$.

有时需要统计向量中非零元素的个数来衡量向量的大小，有些作者将这种函数称为$L^0$范数。但是该术语在数学意义上是不对的。非零数目不是范数，对向量缩放a倍不会改变该向量非零元素数目。因此L1范数经常作为表示非零元素数目的替代函数。
另外一个$L \infty $范数，也叫最大范数，公式：$||x||_\infty = max_i|x_i|$.

深度学习中使用Frobenius范数，矩阵中元素平方和再开方。公式为： $||A||_F =\sqrt { \sum_{i,j}A_{i,j}^2}$
两个向量的点击可用范数表示： $x^\top y = ||x||_2||y||_2cos\theta$ .

特殊类型矩阵和向量

对角矩阵：旨在主对角线上含有非零元素，其他位置都是0.

（注意：并非所有对角矩阵都是方阵，非方阵的对角矩阵没有逆矩阵，但是仍然可高效计算乘法。对于长方形对角矩阵$D$,$Dx$会涉及$x$中每个元素的缩放，如果$D_{m*n}$中，m>n,则在缩放后去掉最后一些元素，反之，在末尾添加一些0.）
对称矩阵：$A = A^\top$
单位向量：具有单位范数的向量，$||x||_2 =1$.
正交矩阵：行向量和列向量粉饼标准正交的方阵。$A^\top A=AA^\top=I$.(若$x^\top y=0$，则向量$x$和向量$y$互相正交（orthogonal)，如果两个向量都有非零范数，则夹角是$90^\circ$.在$\mathbf R^n$中至多有$n$个范数非零向量互相正交，若其不但正交且范数都为1，则称为标准正交（orthonormal））。

特征分解

将矩阵分解为一组特征向量和特征值
$Av=\lambda v$，则称$v$是特征向量，$\lambda$是特征值。

$A$的特征分解：$A = V diag(\lambda) V^{-1}$.并非每个矩阵都可分解成特征值和特征向量，某些情况下，特征分解存在，但是会涉及复述和非实数。很多情况只考虑简单分解的矩阵，即每个实对称矩阵都可分解成特征向量和特征值。

$A = Q \Lambda Q^\top$,其中$Q$是$A$的特征向量组成的正交矩阵，$\Lambda$是对角矩阵。特征分解可能并不惟一。（若两个或多个特征向量拥有相同的特征值，在由这些特征向量产生的生成子空间中，任意一组正交向量都是该特征值对应的特征向量。）

通过特征分解可推导出：矩阵是奇异的当且仅当含有零特征值。

所有特征值都是正数的矩阵称为正定（positive definite），都是非负数的矩阵称为半正定（positive semidefinite).反之为负定、半负定。

半正定矩阵可保证：$\forall x,x ^\top Ax \ge 0.$正定矩阵可保证：$x\top Ax =0则x=0$.

奇异值分解

奇异值分解（singular value decomposition，SVD）是将矩阵分解为奇异向量和奇异值，每个实矩阵都有一个奇异值分解，但不一定都有特征分解。例如非方阵的矩阵无特征分解，此时可用奇异值分解。

$A = UDV^\top$,假设$A$是一个mxn的矩阵，则$U$是mxm，$D$是mxn，$V$是nxn的矩阵。其中$U、V$都是正交矩阵，$D$是对角矩阵，但$D$不一定是方阵。$D$对角线上的元素称为矩阵$A$的奇异值，$U、 V$的列向量分别称为左奇异向量和右奇异向量。

（$A$的左奇异向量是$AA^\top$的特征向量，右奇异向量是$A^\top A$的特征向量，$A$的非零奇异值是$A^\top A$和$AA^\top$特征值的平方根。）

Moore-Penrose伪逆

非方阵的逆矩阵没有定义，有时需要解如下问题：$Ax=y$,希望求解$A$的左逆$B$来解方程。$x=By$，若矩阵$A_{m*n}$中m>n，则方程可能无解，反之可能有多个解。

Moore-Penrose伪逆 pseudoinverse定义：$A^+ = \lim \limits_{a \searrow 0} (A^\top A + \alpha I)^{-1}A^\top $，但计算时则使用公式：$A^{+}=VD^+U^\top$.其中U、D、V是A奇异值分解后得到的矩阵，对角矩阵D的伪逆$D^+$是其非零元素取倒数之后再转置得到的。

（A中n>m,用伪逆求解线性方程是可能解法之一，$x=A^+y$是所有可行解中欧几里得范数最小的一个。m>n时，可能无解，通过伪逆得到的x使得$||Ax-y||$的欧几里得距离最小。）

迹运算

迹运算返回的事矩阵对角元素的和：$Tr(A) =\sumiA{i,j}$.

Forbenius范数可表示为：$\left |A \right |_F=\sqrt {Tr(AA^ \top）}$

$Tr(\prod_{i=1}^nF^{(i)}=Tr(F^{(n)}\prod_{i=1}^{n-1}F^{(i)})$ .即使循环置换后矩阵成绩得到的矩阵形状变了，但是迹运算结果不变。另外标量迹运算后仍是自己。

行列式

行列式，记为$det(A)$，是将方阵A映射到实数的函数。行列式等于矩阵特征值的乘积。行列式绝对值颗用来衡量矩阵参与矩阵乘法后空间扩大或缩小了多少。

主成分分析

待补充