矩阵分析 (七) 矩阵特征值的估计

我的微信公众号名称:AI研究订阅号
微信公众号ID:MultiAgent1024
公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步!

  矩阵特征值是矩阵的重要参数之一。从前面的讨论可以看到,把矩阵对角化或者求矩阵的约当标准形、判别矩阵的收敛,以及矩阵函数的性质都与特征值有关。当矩阵的阶数高于五次时,没有求根公式,这个时候如果能够给出特征值的位置或者给出特征值的取值范围,会对解决问题有一定的帮助。

  不具体求特征值,而是给出特征值的范围,这就是特征值估计问题。例如讨论矩阵幂级数 k = 0 C k A k \sum_{k=0}^{\infty}C_{k}A^{k} 是否收敛,只要知道矩阵 A A 的谱半径是否小于幂级数 k = 0 C k z k \sum_{k=0}^{\infty}C_{k}z^{k} 的收敛半径即可。

  在自动控制理论中,系统的稳定性与特征值的实数部分的符号有关,如果实数部分为负,则系统稳定。因此通过矩阵本身的数值来给出特征值的范围就显得很重要。

特征值界的估计

  前面讲到范数时曾经有:

ρ ( A ) A \rho(A) \leq ||A||

  即矩阵的谱半径小于任何一个矩阵的范数,而范数可以通过矩阵本身的数值来计算,不需要解方程。

  下面给出特征值的估计。

  如果 λ \lambda A A 的特征值, x x 为特征向量,则 A x = λ x Ax=\lambda x ,进一步假设 x x 是单位向量,则 x H x = 1 x^{H}x=1 ,两边乘以 x H x^{H}

x H A x = λ x H x = λ x^{H}Ax=\lambda x^{H}x =\lambda

  即 λ \lambda 可以由 x H A x x^{H}Ax 决定,可以通过估计这个函数来估计特征值。

  • 定理7.1:设 A C n × n A \in C^{n \times n} , x C n x \in C^{n} ,且 x 2 = 1 ||x||_{2}=1 ,则:

x H A x A m |x^{H}Ax| \leq ||A||_{m_{\infty}}

  • 推论:由 λ = x H A x \lambda=x^{H}Ax ,得 λ A m | \lambda | \leq ||A||_{m_{\infty}}

  • 定理7.2 设:

A C n × n , A \in C^{n \times n},

B = 1 2 ( A + A H ) C = 1 2 ( A A H ) B= \frac{1}{2}(A+A^{H}),C= \frac{1}{2}(A-A^{H})

  则 A A 的特征值 λ \lambda 满足:

R e λ B m I m λ C m |Re \lambda| \leq ||B||_{m_{\infty}},|Im \lambda | \leq ||C||_{{m_{\infty}}}

  • 推论:厄米特矩阵的特征值都是实数,反厄米特矩阵的特征值为零或者纯虚数。

  • 定理7.3:(舒尔定理) 设 A C n × n A \in C^{n \times n} 的特征值为 λ 1 \lambda_{1} , λ 2 \lambda_{2} , \cdots λ n \lambda_{n} ,则:

λ 1 2 + λ 2 2 + λ n 2 A F 2 |\lambda_{1}|^{2}+|\lambda_{2}|^{2}+\cdots |\lambda_{n}|^{2} \leq ||A||_{F}^{2}

  且等式成立的充要条件是 A A 为正规矩阵。

特征值的包含区域

  上一节给出了特征值大小的估计,这一节介绍一些判别矩阵特征值位置的方法。

Gerschgorin 盖尔圆定理

  与上一节类似,我们需要用矩阵元素给出特征值的估计。设 λ \lambda A = ( a i j ) n × n A=(a_{ij})_{n \times n} 的特征值, x = ( x 1 , x 2 , , x n ) T x=(x_{1},x_{2},\cdots ,x_{n})^{T} A A 的属于 λ \lambda 的特征向量,则由 A x = λ x Ax=\lambda x 得:

j = 1 n a i j x j = λ x i ( i = 1 , 2 , , n ) \sum_{j=1}^{n}a_{ij}x_{j}=\lambda x_{i} (i=1,2,\cdots , n)

x i ( λ a i i ) = j = 1 , j i n a i j x j x_{i}(\lambda -a_{ii}) =\sum_{j=1,j \neq i}^{n}a_{ij}x_{j}

λ a i i = a i j x j x i a i j x j x i |\lambda-a_{ii}|=|\sum a_{ij} \frac{x_{j}}{x_{i}}| \leq \sum|a_{ij}| |\frac{x_{j}}{x_{i}}|

  如果 x i x j |x_{i}| \geq |x_{j}| ,则 x j x i 1 |\frac{x_{j}}{x_{i}}| \leq 1 得:

λ a i i = j = 1 , j i n a i j |\lambda - a_{ii}| = \sum_{j=1,j \neq i}^{n}|a_{ij}|

  上述不等式在几何上是一个圆,即特征值落在一个圆中

  • 定义 设 A = ( a i j ) n × n A=(a_{ij})_{n \times n} ,记:

R i = j = 1 , j i n a i j R_{i}=\sum_{j=1 ,j \neq i}^{n} |a_{ij}|

  称复平面的圆域:

G i = { z z a i i R i , z C } G_{i} = \{z||z-a_{ii}| \leq R_{i} , z \in C\}

  为 A A 的第 i i 个盖尔圆,称 R i R_{i} 为盖尔圆的半径,由于:

x = ( x 1 , x 2 , , x n ) x=(x_{1},x_{2},\cdots ,x_{n})

  的分量中必有一个 x i x_{i} 使得 x i = m a x j x j |x_{i}| = max_{j}|x_{j}| ,所以必有一个 i i 使得:

λ a i i R i |\lambda - a_{ii}| \leq R_{i}

  成立,由此得到:

  • 定理7.4:矩阵 A C n × n A \in C^{n \times n} 的全体特征值都在它的 n n 个盖尔圆构成的并集之中。

  注意到 A C n × n A \in C^{n \times n} A T A^{T} 的特征值相同,根据定理7.4可得, A A 的特征值也在 A T A^{T} n n 个盖尔圆构成的并集之中。称 A T A^{T} 的盖尔圆为 A A 列盖尔圆

  根据盖尔圆理论,对任何矩阵 A A 特征值一定满足 λ a i i R i |\lambda -a_{ii}| \leq R_{i} 。若 λ = 0 \lambda =0 ,则 a i i R i |a_{ii}| \leq R_{i}

  从这里可以看出,若矩阵 A A 严格对角占优,即 a i i > R i |a_{ii}| > R_{i} ,则:

λ 0 A 0 \lambda \neq 0,|A| \neq 0

  • 推论:若 A A 为实矩阵 A R n × n A \in R^{n \times n} ,且 A A n n 个盖尔圆是孤立的,则 A A n n 个互不相同的实特征值。

   A A 实矩阵时,特征方程 λ E A = 0 |\lambda E -A| = 0 为实代数方程,它的复根一定成对出现,一定是共轭的,即 a ± i b a \pm ib 的形式,且 λ a i i |\lambda -a_{ii}| 的形式,且 λ a i i R i |\lambda -a_{ii}| \leq R_{i} 中, a i i a_{ii} 是实数,特征值一定是实数

特征值的隔离

  前面讲述了用盖尔圆分析特征值的方法,当矩阵 A A B B 相似,即 B = C 1 A C B =C^{-1}AC 时, A A B B 有相同的特征值。利用这一个性质,可以通过改变盖尔圆的大小,分析某个特征值的位置。在这里取比较简单的 C C ,可以取成对角矩阵,且对角线元素为正。

C = d i a g ( c 1 , c 2 , , c n ) C=diag(c_{1},c_{2},\cdots ,c_{n})

B = C A C 1 = ( a i j c i c j ) n × n B=CAC^{-1} = (a_{ij} \frac{c_{i}}{c_{j}})_{n\times n}

  则 A A B B 有相同的特征值,通过适当地选取正数 c 1 c_{1} c 2 c_{2} \cdots c n c_{n} ,有可能使每一个盖尔圆包含 A A 的一个特征值。选取 c 1 c_{1} c 2 c_{2} \cdots c n c_{n} 的一般原则是,欲使 A A 的第 i i 盖尔圆缩小,可取 c i < 1 c_{i }<1 ,其余取为1,此时 B B 的其他盖尔圆适量放大;反之,欲使 A A 的第 i i 个盖尔圆放大,可取 c i > 1 c_{i} > 1 ,其余取为1,此时 B B 的其余盖尔圆适量缩小。

发布了141 篇原创文章 · 获赞 114 · 访问量 16万+

猜你喜欢

转载自blog.csdn.net/weixin_39059031/article/details/103639467