机器学习中的朴素贝叶斯（Naive Bayes）模型-CSDN博客

本文链接：https://blog.csdn.net/alva_xu/article/details/149332808

1. 用实例来理解朴素贝叶斯

下面用具体的数据来演示垃圾邮件 vs 正常邮件的概率计算

假设我们有一个小型邮件数据集

邮件内容	类别（垃圾/正常）
“免费赢取大奖”	垃圾
“免费参加会议”	正常
“中奖点击链接”	垃圾
“明天开会”	正常
“赢取免费礼品”	垃圾

Step 1: 统计基础概率

总邮件数：5 封
- 垃圾邮件：3 封 → P(垃圾) = 3/5 = 0.6
- 正常邮件：2 封 → P(正常) = 2/5 = 0.4

Step 2: 统计每个词的条件概率

计算每个词在垃圾邮件和正常邮件中出现的概率：
（例如：P("免费"|垃圾) = 垃圾邮件中出现“免费”的概率）

单词	在垃圾邮件中出现的次数	P(单词\|垃圾)	在正常邮件中出现的次数	P(单词\|正常)
免费	3 封（所有垃圾邮件）	3/3 = 1.0	1 封（“免费参加会议”）	1/2 = 0.5
中奖	1 封	1/3 ≈ 0.33	0 封	0/2 = 0.0
赢取	2 封	2/3 ≈ 0.67	0 封	0/2 = 0.0
会议	0 封	0/3 = 0.0	1 封	1/2 = 0.5
明天	0 封	0/3 = 0.0	1 封	1/2 = 0.5

注：如果某个词在某一类中未出现（概率=0），会导致整个乘积为0。实际中会使用拉普拉斯平滑（+1）避免此问题，这里暂不展开。

Step 3: 对新邮件进行分类

假设新邮件内容是：“免费中奖”，判断它是垃圾还是正常邮件。

计算垃圾邮件概率

$P(垃圾|\text{"免费中奖"}) \propto P(垃圾) \times P(\text{"免费"}|垃圾) \times P(\text{"中奖"}|垃圾) \\ = 0.6 \times 1.0 \times 0.33 \approx \mathbf{0.198}$

计算正常邮件概率

$P(正常|\text{"免费中奖"}) \propto P(正常) \times P(\text{"免费"}|正常) \times P(\text{"中奖"}|正常) \\ = 0.4 \times 0.5 \times 0.0 = \mathbf{0.0}$

问题：正常邮件概率=0，因为“中奖”从未在正常邮件中出现过。实际中会调整概率（见后文修正）。

结论

垃圾邮件概率：0.198
正常邮件概率：0.0
→ 判定为垃圾邮件。

修正：拉普拉斯平滑（避免概率=0）

对未出现的词，给所有计数+1（避免零概率）：

修正后 P("中奖"|正常) = (0+1)/(2+总唯一词数)
（假设总唯一词数=5，则 P("中奖"|正常) = 1/7 ≈ 0.14）

修正后的正常邮件概率：
$中奖")∝0.4×0.5×0.14≈0.028P(正常|\text{"免费中奖"})\propto 0.4 \times 0.5 \times 0.14 \approx \mathbf{0.028}$
此时垃圾邮件概率（0.198）仍大于正常邮件概率（0.028），依然判定为垃圾邮件。