UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用：DNA序列突变点侦测的统计量及假设检验

UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用：拐点侦测的统计量及假设检验

整数环上的区间作为随机变量的下标

我们可以在整数上定义区间，虽然只是一个toy definition，但我们可以看到它也是有相关应用的。假设 $\in \mathbb{Z}$ ，称有如下形式的集合为整数环上的区间，
$\{l+1,l+2,\cdots,r\}$

我们引入两种记号来表示，第一种是 $(l, r)$ ，称这种表示方法为区间表示；第二种是 $(\underbrace{0,\cdots,0}_{l个},\underbrace{1,\cdots,1}_{(r-l)个},0,\cdots)$ ，称这种表示方法为向量表示。称 $r - l$ 是区间的长度，用 $A_n$ 表示 $(0, n)$ ，我们计数一下它的子区间的数目：

Intervals of length 1: $n$
Intervals of length 2: $n - 1$
Intervals of length $k$ : $n - (k - 1)$
Intervals of length $n$ : 1
empty interval: 1

因此 $A_n$ 包含的区间个数为
$1+\sum_{k=1}^{n} [n-(k-1)]= 1+\frac{n(n+1)}{2}\propto n^2$

我们用 $\mathbb{I}_n$ 表示 $A_n$ 的所有子区间组成的集合。

现在我们引入用区间作为下标的随机变量，假设 $X_1,\cdots,X_n \sim_{iid} N(0,1)$ ， $\forall I \in \mathbb{I}_n$ ，定义
$Z[I]=\frac{1}{\sqrt{|I|}}\sum_{i \in I}X_i$

其中 $∣ I ∣$ 表示区间 $I$ 的长度。下面我们说明几个结论：

结论1 $\sim N(0,1)$
For any $\in \mathbb{I}_n$ , let $∣ I ∣ = m + 1$ , $\inf I$ , and then the $\{X_i:i \in I\}$ can be written as $X_q,X_{q+1},\cdots,X_{q+m}$ . So
$Z[I]=\frac{1}{\sqrt{m+1}}\sum_{k=0}^{m}X_{q+k} \\ EZ[I]=0,\ Var(Z[I])=\frac{1}{m+1}\sum_{k=0}^{m}1=1$

Since $Z [I]$ is linear combination of normal random variables, $\sim N(0,1)$ .

结论2 $Cov(Z[I],Z[J])=\rho(I,J),Var(Z[I]-Z[J])=2\delta^2(I,J)$ ，其中
$\rho(I,J)=\frac{|I \cap J|}{\sqrt{|I||J|}},\delta(I,J)=\sqrt{1-\rho(I,J)}$

Note that
$\sqrt{|I|}Z[I]=\sqrt{|I \cap J|}Z[I \cap J]+\sqrt{|I \setminus J|}Z[I \setminus J] \\ \sqrt{|J|}Z[J]=\sqrt{|I \cap J|}Z[I \cap J]+\sqrt{|J \setminus I|}Z[J \setminus I]$
i) Notice $\setminus I])=Cov(Z[I \setminus J],Z[J])=0$ . Thus,
$\\=Cov \left( \frac{\sqrt{|I \cap J|}}{\sqrt{|I|}}Z[I \cap J], \frac{\sqrt{|I \cap J|}}{\sqrt{|J|}}Z[I \cap J]\right) \\ = \frac{|I \cap J|}{\sqrt{|I||J|}} = \rho(I,J)$
ii) Directly calculate,
$\\ = Var ( \left[ \frac{\sqrt{|I \cap J|}}{\sqrt{|I|}}- \frac{\sqrt{|I \cap J|}}{\sqrt{|J|}}\right]Z[I \cap J] \\+ \frac{\sqrt{|I \setminus J|}}{\sqrt{|I|}} Z[I \setminus J]- \frac{\sqrt{|J \setminus I|}}{\sqrt{|J|}}Z[J \setminus I]) \\ = \left[ \frac{\sqrt{|I \cap J|}}{\sqrt{|I|}}- \frac{\sqrt{|I \cap J|}}{\sqrt{|J|}}\right]^2+\frac{|I \setminus J|}{|I|}+\frac{|J \setminus I|}{|J|} \\ = \frac{|I \cap J|+|I \setminus J|}{|I|}+\frac{|I \cap J|+|J \setminus I|}{|J|}-2\rho(I,J) \\ = 2[1-\rho(I,J)] =2\delta^2(I,J)$

最大值的概率不等式

定义
$Z^*[\mathbb{I}_n]=\max\{Z[I]:I \in \mathbb{I}_n\}$

我们的目标是导出下面的概率不等式：
$P(Z^*[\mathbb{I}_n]>\sqrt{2.01 \log n}) \to 0,\ as\ n \to \infty$

这个不等式看上去让人摸不着头脑，但我们介绍完这个不等式的推导后会介绍它到底有什么用。

推导这个概率不等式的思路与推导随机矩阵的概率不等式的思路类似，我们用 $\epsilon$ -net作为工具，将和式放大为 $\epsilon$ -net的绝对值乘以概率的最值即可。构造 $\epsilon$ -net需要度量空间，因此我们首先要在 $\mathbb{I}_n$ 上定义度量，然后再推导不等式。

结论3 $(\mathbb{I}_n,\delta)$ 是一个度量空间。

证明
i) $\delta(I,J)=0 \Leftrightarrow \rho(I,J)=1 \Leftrightarrow I = J$ ，后半句的证明如下：
$\Rightarrow$ : If $\rho(I,J)=1$ , assume $\ne J$ . We can decompose $J$ as
$\cap J) \sqcup (J \setminus I)$ where $\setminus I|>0$ . Besides, $\cap J \subset I$ , $\cap J| \le I$ . So
$\rho(I,J)=\frac{|I \cap J|}{\sqrt{|I||J|}}\le \frac{|I \cap J|}{\sqrt{|I \cap J|(|I \cap J|+|J \setminus I|)}}<1$

This is contradict to $\rho(I,J)=1$ . So $I = J$ .

$\Leftarrow$ : If $I = J$ , $\cap J| = |I|$ , $\sqrt{|I||J|} = \sqrt{|I|^2} = |I|$ , thus
$\rho(I,J)=1$

ii) $\delta(I,J)=\sqrt{1-\rho(I,J)}=\sqrt{1-\rho(J,I)}=\delta(J,I)$

iii) $\forall I,J,K \in \mathbb{I}_n$ ，要说明
$\delta(I,K) \le \delta(I,J)+\delta(J,K)$

参考结论2，用以区间为下标的随机变量之差的方差表示 $\delta$ ，则不等式等价于
$\sqrt{\frac{1}{2}Var(Z[I]-Z[K])} \\ \le \sqrt{\frac{1}{2}Var(Z[I]-Z[J])}+\sqrt{\frac{1}{2}Var(Z[J]-Z[K])}$

引入 $X = Z [I] - Z [J], Y = Z [J] - Z [K]$ ，
$E X = E Y = 0$

则上式等价于
$\sqrt{E[(X+Y)^2]} \le \sqrt{E[X^2]}+\sqrt{E[Y^2]}$

也就是等价于 $L^2$ 中的范数满足的三角不等式：
$\left\| X+Y \right\|_{L^2} \le \left\| X \right\|_{L^2}+\left\| Y \right\|_{L^2}$

所以
$\delta(I,K) \le \delta(I,J)+\delta(J,K)$

引理极值理论的概率不等式
假设 $X_1,\cdots,X_n \sim_{iid} N(0,1)$ ，则
$P(X_{(n)}>\sqrt{2 \log n}) \le \frac{1}{\sqrt{4\pi \log n}}$

这是极值理论的一个重要结论，极值理论是研究一列随机变量的最大值/最小值的分布的理论，最大值 $X_{(n)}$ 可能收敛到一些特殊的分布，比如Gumbel分布等，这个不等式说明这种收敛的收敛速率为 $O(1/\sqrt{\log n})$ ，这是一个非常小的收敛速率，也就是说极值的收敛是非常慢的。另外一类重要的收敛是均值的收敛，研究均值收敛的理论是中心极限定理，经典的中心极限定理给出的均值的收敛速率是 $O (1 / n)$ 。

现在我们可以在 $(\mathbb{I}_n,\delta)$ 上定义一个 $\epsilon$ -net，记为 $\mathcal{N}$ ，它的cardinality满足
$|\mathcal{N}|\le \frac{4n}{\epsilon^4}$

$\mathcal{N}$ 上的元素满足： $\forall I \in \mathbb{I}_n$ ， $\exists J \in \mathcal{N}$ ， $\delta(I,J)<\epsilon$ ，根据结论2，用方差表示就是
$\le 2\epsilon^2$

引入 $Z^*[\mathcal{N}]=\max\{Z[I]:I \in \mathcal{N}\}$ ，根据上面的引理
$P(Z^*[\mathcal{N}]>\sqrt{2 \log |\mathcal{N}|}) \le \frac{1}{\sqrt{4\pi \log |\mathcal{N}|}} \\ P(Z^*[\mathcal{N}]>\sqrt{2 \log \frac{4n}{\epsilon^4}}) \le \frac{1}{\sqrt{4\pi \log \frac{4n}{\epsilon^4}}}$

这是关于 $Z^*[\mathcal{N}]$ ，我们来说明它可以逼近 $Z^*[\mathbb{I}_n]$ ，
$Z^*[\mathbb{I}_n] = \max_{I \in \mathbb{I}_n} Z[I] = \max_{I \in \mathbb{I}_n} (Z[J]+(Z[I]-Z[J])) \\ \le Z^{*}[\mathcal{N}]+\max_{I \in \mathbb{I}_n,J \in \mathcal{N}}(Z[I]-Z[J])$

$\max_{I \in \mathbb{I}_n,J \in \mathcal{N}}(Z[I]-Z[J])$ 可以理解成 $|\mathbb{I}_n||\mathcal{N}|$ 个标准正态的最大值，根据引理，
$P(\max_{I \in \mathbb{I}_n,J \in \mathcal{N}}(Z[I]-Z[J])>\sqrt{2 \log |\mathbb{I}_n||\mathcal{N}|}) \le \frac{1}{\sqrt{4\pi \log |\mathbb{I}_n||\mathcal{N}|}} \\ P(\max_{I \in \mathbb{I}_n,J \in \mathcal{N}}(Z[I]-Z[J])>\sqrt{2}\epsilon\sqrt{2 \log n^4}) \le \frac{1}{\sqrt{4\pi \log n^4}}$

综上，
$P(Z^*[\mathbb{I}_n]>\sqrt{2 \log \frac{4n}{\epsilon^4}}+\sqrt{2}\epsilon\sqrt{2 \log n^4})\\<\frac{1}{\sqrt{4\pi \log n^4}} + \frac{1}{\sqrt{4\pi \log \frac{4n}{\epsilon^4}}} \to 0,\ as\ n \to \infty$

最后考虑一下
$\sqrt{2 \log \frac{4n}{\epsilon^4}}+\sqrt{2}\epsilon\sqrt{2 \log n^4}$

我们希望得到一个最大的下界，于是选择一个 $\epsilon$ 使得这个值最小，比如取 $\epsilon=0.001/\sqrt{2}$ ，就可以得到待证的不等式了。

应用：DNA序列突变点侦测

在这里插入图片描述

先从维基百科扒来一个标准密码子表，简单介绍一下DNA序列突变点的含义，如果一段DNA序列为ATGATCACTATGTAG，则它翻译的结果是甲硫氨酸-异亮氨酸-苏氨酸-甲硫氨酸，如果这个序列突变为ATGATCACTATCTAG，它翻译的结果就变成了甲硫氨酸-异亮氨酸-苏氨酸-异亮氨酸，这两种结果中硫元素的含量具有显著差异，根据这个性质，我们可以设计试验寻找突变点。要检验某段DNA中是否有使ATG变成ATC的突变点，翻译得到一个很长的肽链，用 $X_i$ 表示一小段肽链的硫元素含量， $X_i \sim N(\mu_i^2,1),i=1,\cdots,n$ ，这里方差被标准化为1，我们可以用假设检验建模：
$H_0:\mu_1=\cdots=\mu_n=0 \\ H_a:\mu_1 = \cdots = \mu_l = \mu_{r+1} = \cdots = \mu_n = 0,\mu_{l+1}=\cdots=\mu_r \ne 0$

定义
$X[l,r]=\frac{1}{\sqrt{l-r}}\sum_{i=l+1}^rX_i$

在原假设下， $\sim N(0,1)$ ，要检验这段DNA中是否包含使ATG变成ATC的突变点，引入统计量
$T = \max_{l<r}|X[l,r]|$

这个统计量的作用非常直观，如果这段DNA不含突变，那么 $T$ 的值就会比较小，否则 $T$ 是比较大的，为了让这个方法具有实用价值，我们需要确定多大才算大。根据上面的不等式：
$P(T=Z^*[\mathbb{I}_n]>\sqrt{2.01 \log n}) \to 0,\ as\ n \to \infty$

这里的 $n$ 表示的是肽链的数目，这个概率不等式说明，用一个比较严格的标准，当 $T$ 比 $\sqrt{2.01 \log n}$ 时，我们可以显著地拒绝原假设，并得出这段DNA存在使ATG变成ATC的突变点。