··

机器学习:高斯分布(其二):多维高斯分布理解与局限性

Tip

本文经过Deepseek核对无误。

符号定义

  1. XN(μΣ)=1(2π)p2Σ12exp(12(xμ)Σ1(xμ))X\sim \mathcal{N}(\mu \mid \Sigma) = \frac{1}{(2\pi)^{\frac{p}{2}}\lvert\Sigma\rvert^{\frac{1}{2}}} \exp(-\frac{1}{2}(x-\mu)^{\top}\Sigma^{-1}(x-\mu))

  2. xiRP,r.v.x_i \in \mathbb{R}^P,\mathrm{r.v.}

  3. X=(x1x2...xP)μ=(μ1μ2...μP)Σ=(σ11σ12σ1Pσ21σ22σ2PσP1σP2σPP)\mathbf{X}=\begin{pmatrix} x_1 \\ x_2 \\ ... \\ x_P \end{pmatrix} \quad \mathbf{\mu}=\begin{pmatrix} \mu_1 \\ \mu_2 \\ ... \\ \mu_P \end{pmatrix} \quad \mathbf{\Sigma} = \begin{pmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1P} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2P} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{P1} & \sigma_{P2} & \cdots & \sigma_{PP} \end{pmatrix}

其中 Σ\mathbf{\Sigma} 正定, (xμ)Σ1(xμ)(x-\mu)^\top\mathbf{\Sigma}^{-1}(x-\mu)xxμ\mu 的马氏距离的平方。

补充:马氏距离

马氏距离(Mahalanobis Distance)是一种衡量数据点与分布之间距离的方法,它考虑了数据的协方差结构,比欧氏距离(Euclidean Distance)更适用于非标准化的、相关性强的数据。 —— Deepseek

性质

  • 尺度不变性:如果数据经过线性变换(如标准化),马氏距离保持不变,而欧氏距离会受影响。

  • ‌相关性处理:如果两个维度高度相关,马氏距离会减小它们的影响。

  • 与高斯分布的关系:对于多元高斯分布,马氏距离的平方服从卡方分布。

马哈拉诺比斯距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。 换句话说,主成分分析就是把椭球分布的样本改变到另一个空间里,使其成为球状分布而马哈拉诺比斯距离就是在样本呈球状分布的空间里面所求得的欧式距离。 当然,上面的解释只是对椭球分布而言,对一般分布,只能消除分布的二阶相关性,而不能消除高阶相关性。—— 维基百科-马哈拉诺比斯距离

(xμ)Σ1(xμ)(x-\mu)^{\top}\Sigma^{-1}(x-\mu) 的理解

不妨令

Σ=UΛU,UU=UU=I,Λ=diag(λi)i=1,2,,N\mathbf{\Sigma}= \mathbf{U} \mathbf{\Lambda} \mathbf{U}^{\top}, \mathbf{U} \mathbf{U}^\top= \mathbf{U}^\top \mathbf{U}=\mathbf{I},\mathbf{\Lambda}=\text{diag}(\lambda_i)\quad i=1,2, \cdots ,N

Σ=i=1NuiλiuiΣ1=(UΛU)1=UΛ1U=i=1Pui1λiui\begin{aligned} \mathbf{\Sigma} & =\sum \limits_{i=1}^N u_i \lambda_i u_i^\top \\ \\ \mathbf{\Sigma}^{-1}& =(\mathbf{U} \mathbf{\Lambda} \mathbf{U}^{\top})^{-1} \\ & =\mathbf{U} \mathbf{\Lambda}^{-1} \mathbf{U}^\top \\ & =\sum \limits_{i=1}^P u_i \frac{1}{\lambda_i} u_i^{\top} \end{aligned}

其中 Λ1=diag(1λi)i=1,2,,N\mathbf{\Lambda}^{-1}=\text{diag}(\frac{1}{\lambda_i})\quad i=1,2,\cdots, N

故我们有 (xμ)Σ1(xμ)=(xμ)i=1P(ui1λiui)(xμ)=i=1P(xμ)uiyi1λiui(xμ)yi=i=1Pyi1λiyi=i=1Pyi2λi\begin{aligned} (x-\mu)^\top\mathbf{\Sigma}^{-1}(x-\mu) & = (x-\mu)^\top \sum \limits_{i=1}^P( u_i \frac{1}{\lambda_i} u_i^{\top})(x-\mu) \\ & = \sum \limits_{i=1}^P \underset{y_i}{\underbrace{(x-\mu)^\top u_i} } \frac{1}{\lambda_i} \underset{y_i^\top}{\underbrace{u_i^{\top}(x-\mu)} } \\ & = \sum \limits_{i=1}^P y_i\frac{1}{\lambda_i}y_i^\top = \sum \limits_{i=1}^P \frac{y_i^2}{\lambda_i} \end{aligned}

在此处我们可以将 y=(y1,y2,,yP)y=(y_1,y_2,\cdots,y_P)^\top 看成 xx 投影到主成分空间后的表示。

何为主成分空间

主成分空间是通过正交变换 UU^\top 得到的新坐标系。原数据的协方差矩阵 Σ\Sigma 在此空间中变为对角阵 Λ\Lambda,意味着各维度独立,且坐标轴按方差大小排序。这等价于PCA(主成分分析)的降维思想。

局限性

1.参数量在高维时过大

ΣPP\mathbf{\Sigma}_{PP} 参数个数: 12P(P1)O(P2)\frac{1}{2}P(P-1)\propto \mathrm{O}(P^2)

为了解决这一问题,我们假设 Σ\mathbf{\Sigma} 为一对角阵,则其参数个数服从 O(P)\mathrm{O}(P) ,此时其主成分空间为一长短轴分别与xy轴对齐的椭圆(以二维为例)。更进一步的,如果 Σ=λI\mathbf{\Sigma}=\lambda\mathbf{I} 它的主成分空间满足各向同性,是一个正圆(以二维为例)。

何为各向同性

Σ=λI\Sigma = \lambda I 时,分布在所有方向上的伸展程度相同(方差均为 λ\lambda)。此时,多维高斯分布的等高线是球体(2D时为圆形),数据不具有任何方向偏好性。

2. 表达能力有限

如果数据分布有多个中心,多为高斯分布只能用一个最大的分布将其包括在内。为解决此问题,人们提出了GMM。关于GMM,可参考这篇知乎

小结

本节中我们直观了解了高维高斯分布的意义以及其局限性,下一小节中我们将聚焦于多维高斯分布的边缘概率密度、条件概率密度以及联合概率密度。