向量范数与矩阵范数
向量范数介绍
我们知道,对于数列极限,我们有
\[ \lim_{n \to \infty} a_n = M \iff \forall \epsilon > 0,\exists N > 0,s.t. \forall n>N,\left | {a_n - M} \right | < \epsilon. \]
在 \(n\) 维向量空间 \(R^n\) 内,我们希望对于一个向量序列 \(\{x^{(k)}\}\),其中 \(x^{(k)}= (\xi_1^{(k)},\xi_2^{(k)},\dots, \xi_n^{(k)})(k = 1,2,3,\dots)\)。如果对于每一个分量 \(\xi_i^{(k)}\),都有 \(\lim_{k \to \infty} \xi_i^{(k)} = \xi_i\),即
\[ \lim_{k \to \infty} x^{(k)} = (\xi_1, \xi_2, \dots, \xi_n) = x \]
则称向量序列 \(\{x^{(k)}\}\) 收敛于 \(x\)。
但是,我们还是无法解决 \(\left| x^{(k)} - x\right|\) 该如何定义和计算,显然它不能用向量 \(x^{(k)} - x\) 的长度来刻画。为此,我们定义向量范数如下。
定义 2.1
如果 \(V\) 是数域 \(K\) 上的线性空间,且对于 \(\forall x \in V\),定义一个实值函数 $x $,它满足以下三个条件:
- 非负性: 当 \(x \ne 0\) 时,\(\Vert x \Vert > 0\),当且仅当 \(x = 0\) 时为 \(0\);
- 齐次性: \(\forall a \in K, \forall x \in V, \Vert ax \Vert = \left| a \right| \Vert x \Vert\);
- 三角不等式: \(\forall x, y \in V, \Vert x + y \Vert \leq \Vert x \Vert + \Vert y \Vert\);
则称 \(\Vert x \Vert\) 为向量 \(x\) 的范数。
我们要判断某个实值函数 \(\Vert x \Vert\) 是否是范数,即验证其是否满足上述三条性质即可。以下列举几种常见的范数(在线性空间 \(\mathbb{C}^n\),即酉空间中):
- 1-范数: \(\Vert x \Vert = \sum \left| \xi_i \right|\)
- 2-范数: \(\Vert x \Vert = \sqrt{(x,x)}\)
- \(\infty\)-范数: \(\Vert x \Vert = \max \left| x_i\right|\)
- p-范数: \(\Vert x \Vert _p = (\sum_{i = 1}^{n} {\left|x_i\right|}^p)^{\frac{1}{p}}, (1 \leq p < \infty)\)
定理 2.1
设有限维线性空间 \(V^n\) 中任意两个向量范数 \(\Vert x_\alpha \Vert ,\Vert x_\beta \Vert\),如果 \(\exists c_1, c_2,s.t.\)
\[ {c_1\Vert x_\beta \Vert \leq \Vert x_\alpha \Vert < c_2\Vert x_\beta \Vert } \]
则称向量范数 \(\Vert x_\alpha \Vert ,\Vert x_\beta \Vert\) 等价。
矩阵范数介绍
对于矩阵空间 \(\mathbb{C}^{m\times n}\),如果类似地将矩阵 \(A_{m\times n}\) 看作“向量”,可以类似向量范数定义矩阵范数。但矩阵之间还有乘法运算,需要补充定义如下:
定义 2.3
设 \(A \in \mathbb{C}^{m\times n}\),定义一个实值函数 \(\Vert A \Vert\),它满足以下四个条件:
- 非负性: 当 \(A \ne 0\) 时,\(\Vert A \Vert > 0\),当且仅当 \(A = 0\) 时为 \(0\);
- 齐次性: \(\forall \alpha \in C, \Vert {\alpha A} \Vert = \left| {\alpha} \right| \Vert A \Vert\);
- 三角不等式: \(\Vert A + B \Vert \leq \Vert A \Vert + \Vert B \Vert\);
- 相容性: \(\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert\) (对于 \(B \in \mathbb{C}^{n\times l}\))。
则称 \(\Vert A \Vert\) 为矩阵 \(A\) 的范数。
在数值方法中进行某种估计时,多数情况下,矩阵范数与向量范数常混合使用,而矩阵经常是作为两个线性空间上的线性变换出现的,为此引入矩阵范数和向量范数相容的概念如下:
定理2.2
对于\(\mathbb{C}^{m \times n}\)的矩阵范数\(\Vert {\cdot} \Vert _M\)和\(\mathbb{C}^m,\mathbb{C}^n\)上的同类向量范数\(\Vert {\cdot} \Vert _V\),如果有
$$
Ax _V A _M x _V(A ^{m n}, x n)
$$
则称矩阵范数\(\Vert {\cdot} \Vert _M\)与向量范数\(\Vert {\cdot} \Vert _V\)是相容的。
以下列举几种常用的矩阵范数:
- F-范数: \(\Vert A \Vert _F = (\sum_{i = 1}^{m}\sum_{j = 1}^{n}\left|a_{ij}\right|^2)^{\frac{1}{2}} = (tr(A^H A))^{\frac{1}{2}}\)
其中,F-范数有一定理如下:
定理 2.3
设 \(A \in \mathbb{C}^{m \times n}\),且 \(P \in \mathbb{C}^{m\times m}, Q\in \mathbb{C}^{n \times n}\) 都是酉矩阵,则有
\[ \Vert PA \Vert _F = \Vert A \Vert _F = \Vert AQ \Vert _F \]
即 \(A\) 左乘或右乘酉矩阵后,其 \(\Vert {\cdot} \Vert\) 不变。
矩阵函数可以通过如下方法进行定义,并且定义的矩阵函数与已知的向量范数相容。
定理2.4
已知\(\mathbb{C}^{m},\mathbb{C}^{n}\)上的同类向量范数\(\Vert {\cdot} \Vert\)。设\(A\in \mathbb{C}^{m\times n}\),则函数
\[
\Vert {A} \Vert = \max\limits_{\Vert x \Vert = 1}{\Vert {Ax} \Vert }
\]
是\(\mathbb{C}^{m\times n}\)上的矩阵范数,且与已知的向量范数相容。
分别取向量\(x\)的范数为\(\Vert x \Vert _1,\Vert x \Vert _2,\Vert x \Vert _{\infty}\)时,就可以得到以下三种矩阵范数:
定理 2.5
设 \(A = (a_{ij})_{m\times n} \in \mathbb{C}^{m\times n}\),可以得到以下三种矩阵范数的计算公式分别为:
- 列和范数: \(\Vert A \Vert _1 = \max\limits_{j} \sum_{i = 1}^{m}\left|a_{ij}\right|\);
- 谱范数: \(\Vert A \Vert _2 = \sqrt{\max{\lambda(A^HA)}}\);
- 行和范数: \(\Vert A \Vert _{\infty} = \max\limits_{i} \sum_{j=1}^{n}\left|a_{ij}\right|\);
在机器学习中,范数作为数学优化的重要工具,广泛应用于高维优化问题中,其具体表现和影响在模型的性能、计算复杂度、正则化等方面有重要体现。
在高维优化中,目标函数往往包含范数,用于度量模型参数或残差的大小;在机器学习模型训练中,损失函数通常衡量预测值与真实值之间的差距,而范数决定了误差的度量方式,例如L-1损失、L-2损失;正则化通过添加范数约束减少模型复杂度,缓解高维数据中的过拟合问题,例如L-1正则化,L-2正则化。
以上应用场景中,范数的引入通过度量大小、限制复杂性和提升泛化能力,影响了模型的性能和稳定性。选择合适的范数类型能有效在稀疏性、平滑性和数值稳定性之间实现权衡。