Quanyin 说

《统计学习方法》笔记 —— 朴素贝叶斯法

本文是在学习李航老师的《统计学习方法》时做的学习笔记系列的第四篇:朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与条件独立假设的分类方法。对给定的训练数据集,首先基于
特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x ,利用
贝叶斯定理求出后验概率最大的输出 y 。此方法实现简单,学习与预测的效率都很高。

学习与分类

基本方法

后验概率最大化

朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化,其中,损失函数为 0-1 损失。

参数估计

极大似然估计

先验概率 $$P(Y=c_k)$$ 的极大似然估计是:

$$ P(Y=c_k) = \frac{\sum\limits_{i=1}^NI(y_i=c_k)}{N} $$

条件概率的极大似然估计是:

$$ P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}
{\sum\limits_{i=1}^NI(y_i=c_k)} $$

朴素贝叶斯算法

输入:

输出:$$x$$ 的分类

  1. 计算先验概率 $$P(Y=c_k)$$ 及条件概率 $$P(X^{(j)}=a_{jl}|Y=c_k)$$
  2. 对给定的实例 $$x$$ ,计算 $$P(Y=c_k)\prod\limits_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$$
  3. 确定 $$x$$ 的类别

贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况,会影响后验概率的结果,产生偏差,解决
办法是采用贝叶斯估计。

先验概率 $$P(Y=c_k)$$ 的贝叶斯估计是:

$$ P(Y=c_k) = \frac{\sum\limits_{i=1}^N{I(y_i=c_k)+\lambda}}{N+K\lambda} $$

条件概率的贝叶斯估计是:

$$ P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}
{\sum\limits_{i=1}^NI(y_i=c_k)+S_j\lambda} $$

其中$$\lambda \ge 0$$,等价于在随机变量各个取值的频数上赋予一个正数$$\lambda \gt 0$$。

当$$\lambda = 0$$ 时,即极大似然估计;常取$$\lambda = 1$$,称为拉普拉斯平滑。

参考

当前页面是本站的「Google AMP」版。查看和发表评论请点击:完整版 »