贝叶斯分类

来自集智百科
跳转到: 导航搜索

目录

贝叶斯决策理论

乘法公式引出

P(AB) = P(B|A) P(A)

P(B|A) = P(AB) / P(A)

P(B|A) = P(A|B) P(B) / P(A)


对于指定对象从属于某一类别的问题从概率的角度可以理解为求P(B|A),意思是给定A的条件,求B发生的概率。那么对于多个类别集W=\{w_1,w_2,...,w_n\}和指定的随机变量x,则有:

 W = \underset{w_i}{\operatorname{argmax}}  P(w_i|x)

x出现在每一个w_i的概率。带入贝叶斯公式:

 
  P(w_i|x)=\frac{p(x|w_i)P(w_i)}{p(x)}
  

其中:

 P(w_i|x)    后验概率,即所求结果。
 P(w_i)       先验概率,可以通过训练样本直接求出。
 p(x|w_i)     随机变量x条件概率密度函数p(x)        随机变量x概率密度函数,可通过全概率公式求出,但对于在给定的x,不影响比较P(w_i|x)的结果,可以忽略不求。


从上式看出后验概率P(w_i|x)的求解取决于对x的条件概率密度函数p(x|w_i)的估计。


朴素贝叶斯

因为x的条件概率密度函数p(x|w_i)并不容易求得,也因如果在特定场合里,给定的样本集合是离散形式的数据,这样我们将求x的条件概率密度函数p(x|w_i)变为求解条件概率P(x|w_i)

但求解有高维特征向量x的条件概率仍然很复杂。例如: n维向量的条件概率P(x_1,x_2,...,x_n|w_i)

    P(x_1,x_2,...,x_n|w_i)
 =P(x_1\vert w_i) \ P(x_2,\dots,x_n\vert w_i, x_1)
 =P(x_1\vert w_i) \ P(x_2\vert w_i, x_1) \ P(x_3,\dots,x_n\vert w_i, x_1, x_2)
 =P(x_1\vert w_i) \ P(x_2\vert w_i, x_1) \ P(x_3\vert w_i, x_1, x_2) \ P(x_4,\dots,x_n\vert w_i, x_1, x_2, x_3)
 =P(x_1\vert w_i) \ P(x_2\vert w_i, x_1) \ P(x_3\vert w_i, x_1, x_2) \ ,\dots, P(x_n\vert w_i, x_1, x_2, x_3,\dots,x_{n-1}).

这样求解方法将随着n的增长使计算量直线上升,带来维数灾难的问题。

如果假设每个特征相互独立,那么将条件概率P(x|w_j)等于每个特征在类w_j下的条件概率P(x_i|w_j)的连乘

 P(x|w_i) = \prod_{j=1}^n P(x_j|w_i)

因为事件独立性的前提假设,这样的数据环境其实服从伯努利分布,在通常情况下每个特征取值为二值,即x_j \in \{0,1\},即特征在一个样例中出现或者不出现。

最终朴素贝叶斯模型如下:

 P(w_i|x) \varpropto P(w_i) \prod_{j=1}^n P(x_j|w_i)
 W = \underset{w_i}{\operatorname{argmax}} \ P(W=w_i) \displaystyle\prod_{j=1}^n P(X_j=x_j\vert W=w_i)


我们以上是依据事件独立性的假设来推出朴素贝叶斯模型,但也可以从高斯分布下的贝叶斯决策准则出发,通过最大后验概率估计(MAP)推导求出(下面再谈)。

朴素贝叶斯模型是生成模型,通过学习联合概率P(x_j,w_i)来求出分类结果。它因长相朴实,实现简单所以被广大群众喜闻乐见,但因独立性假设的前置条件,使得它在特征相互依赖的复杂的数据环境下并不适用。

高斯判别分析

高斯分布

在实践中,最常遇到的概率密度函数是高斯分布,如果不能判断现实数据环境的分布情况,也可以依据中心极限定理假设其概率密度函数近似服从高斯分布

单变量高斯函数定义为:

 
    p(x)=\frac{1}{\sqrt{2 \pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
  

其中,\mux均值,\sigma^2x的方差,表示x服从均值为\mu的方差为\sigma^2的高斯分布,写为p(x) \sim N(\mu, \sigma^2)。服从高斯分布的样本聚集于均值附近,其散布程度与标准差\sigma有关。


在d维特征空间中,多元高斯函数定义为:

 
    p(x)=\frac{1}{(2 \pi)^{d/2} |\Sigma|^{1/2}}exp(-\frac{1}{2} (x-\mu)^T \Sigma^{-1}({x-\mu}))
  

其中:

 \muxd维均值向量
 \Sigma            是d*d的协方差矩阵。定义为:\Sigma=E[(x-\mu)(x-\mu)^T]|\Sigma|           表示行列式的值
 \Sigma^{-1}          表示矩阵的逆
 (x-\mu)^T(x-\mu)转置

协方差矩阵的相关性

\sigma_{ij}是协方差矩阵\Sigma的第ij个元素,表示随机向量的任两个维度的相关度,那么:\sigma_{ij} = E[(X_i - \mu_i)(X_j - \mu_j)]

协方差矩阵有如下特性:

  • 为了使|\Sigma|的值是一个正数,我们严格限定\Sigma正定的


  • 协方差\Sigma是对称的,其主对角线上的元素是方差,其它为协方差。
 \sigma_{ij} \ge 0  表示第i列特征和第j列特征正相关
 \sigma_{ij} \le 0  表示第i列特征和第j列特征负相关
 \sigma_{ij} = 0  表示第i列特征和第j列特征不相关
  • 其中均值决定中心位置(方位和高度),协方差决定决定投影椭圆的形状(朝向和大小)。


贝叶斯分类 高斯密度1.jpg

贝叶斯分类 高斯密度2.jpg

 若方差\sigma_{i}^2 > \sigma_{j}^2,则椭圆投影向x_i轴拉伸,方差越小越陡峭
 若协方差\sigma_{ij} > 0,则投影沿主对角线拉伸
 若协方差\sigma_{ij} < 0,则投影沿副对角线拉伸


  • 我们可以根据协方差矩阵计算任两个维度之间取值为(-1,1)之间的相关系数。
 corr(X_i, X_j)= \frac{\sigma_{ij}}{\sigma_i \sigma_j},  i,j=1,2,...,d


 corr(x_i, x_j) = \frac{\sum_{t=1}^d (x_{it} - \overline{x_i}) (x_{jt} - \overline{x_j})}{\sqrt{\sum_{t=1}^d (x_{it} - \overline{x_i}) ^ 2} \sqrt{\sum_{t=1}^d (x_{jt} - \overline{x_j}) ^ 2}},  i,j=1,2,...,N

多元高斯假设

从贝叶斯公式可以看出对条件概率密度函数p(x|w_i)的计算至关重要。在一些问题中,我们能够确定条件概率密度函数的类型,也就是得知他服从某一概率分布,那么问题就变成模型已知参数未知的估计问题。我们假设条件概率密度函数p(x|w)服从高斯分布,则有

 p(w)=\phi^{w}(1-\phi)^{1-w}
 p(x|w=i)=p(x;\mu_i,\Sigma)=\frac{1}{(2 \pi)^{d/2} |\Sigma|^{1/2}}exp(-\frac{1}{2} (x-\mu_i)^T \Sigma^{-1}({x-\mu_i}))

最大似然估计如下:

 l(\phi,\mu_i,\Sigma)=log\prod_{j=1}^m p(x^{(j)},w^{(j)};\phi,\mu_i,\Sigma)

 l(\phi,\mu_i,\Sigma)=log\prod_{j=1}^m p(x^{(j)}|w^{(j)};\mu_i,\Sigma)p(w^{(j)};\phi)

最大似然估计的解法是根据待估参数对似然函数求偏导,再使偏导等于0后求极致得到参数的式子,在高斯分布中,最大似然估计出来的参数等价于样本的均值和方差,这里略去证明,直接得到结果为:

 \phi=\frac{1}{m}\sum_{j=1}^{m}L\{w^{(j)}=i\}
 \mu_i=\frac{\sum_{j=1}^mL\{w^{(j)}=i\}x^{(j)}}{\sum_m^{j=1}L\{w^{(j)}=i\}}
 \Sigma=\frac{1}{m}\sum_{j=1}^m(x^{(j)}-\mu_{w(j)})(x^{(j)}-\mu_{w(j)})^T

判别分析

如果我们将P(Y|X)=P(X|Y)P(Y)使用判别函数g_i(x)获得:

 g_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)-\frac{d}{2}ln2\pi-\frac{1}{2}ln|\Sigma_i|+lnP(w_i)+w_{i0}

我们分情况讨论这个式子以简化函数

情况1:特征独立假设\Sigma_i=\sigma^2I

如果有样本数据的各特征统计独立,并且每个特征具有显通的方差\sigma^2时,在这样的情况下协方差矩阵仅仅是\sigma^2与单位矩阵I的乘积,为对角矩阵。几何上,它的样本数据落于同等大小的超椭球体,这样上式中的|\Sigma_i|(d/2)ln2\pi对于任意g_i(x)都相等,可以省略。因此我们可以得到

 g_i(x)=-\frac{||x-\mu_i||^2}{2\sigma^2}+lnP(w_i)

其中||x-\mu_i||^2是欧几里德范数,展开就是关于x的二次函数,但实际上关于i的协方差矩阵相等,所以没必要计算,使它变成了可省略计算的常量,于是,我们得到线型判别函数:

 g_i(x)=w_i^Tx+w_{i0}
 w_i=\frac{1}{\sigma^2}\mu_i
 w_{i0}=\frac{-1}{2\sigma^2}\mu_i^T\mu_i+lnP(w_i)

情况2:同方差假设\Sigma_i=\Sigma

当所有类的协方差矩阵均相当,各自均值向量任意,几何上,样本落在相同大小和相同形状的超椭球体聚类中,第i类的聚类中心在向量\mu_i附近,式中的|\Sigma_i|(d/2)ln2\pi对于任意g_i(x)都相等,可以省略。

 g_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)+lnP(w_i)

与情况1同方差假设不同的是,样本数据各个统计特征不独立,图形投影不是正圆,点到判决函数的距离由欧式距离退化到马式距离(Mahalanobis)d_m=[(x-\mu_i)^T\Sigma^-1(x-\mu_i)]^{1/2}

 g_i(x)=w_i^Tx+w_{i0}
 w_i=\Sigma^{-1}\mu_i
 w_{i0}=-\frac{1}{2}\mu_i^T\Sigma^{-1}\mu_i+lnP(w_i)

情况3:高斯假设\Sigma_i=任意

一般的多元高斯分布,每一类的协方差矩阵是不同的,唯一可以去掉的一项是(d/2)ln2\pi,其判别函数显然是二次型。在两类问题中,对应的判定面是超二次曲面,可以是超平面,超平面对,超球体,超椭球体,超抛物面,超双曲面等各种二次曲面。

 g_i(x)=X^TW_ix+w_i^Tx+lnP(w_i)
 W_i=-\frac{1}{2}\Sigma_i^{-1}
 w_i=\Sigma_i^{-1}\mu_i
 w_{i0}=-\frac{1}{2}\mu_i^T\Sigma^{-1}\mu_i-\frac{1}{2}|\Sigma_i|+lnP(w_i)

高斯混合模型

贝叶斯网络

个人工具
名字空间
操作
导航
工具箱