机器学习算法整理（三）

朴素贝叶斯

利用朴素贝叶斯解决邮件分类（文本分析）问题（监督学习）

模型的输入是 $P(邮件内容|正常)$ ， $P(邮件内容|垃圾)$ （似然概率）；先验概率 $P(垃圾)$ ， $P(正常)$

任务内容是计算 $P(垃圾or正常|邮件内容)$ （后验概率）

联合概率分布 $P(X_1,X_2,\cdots,X_n|Y)=\prod_{i=1}^{N}P(X_i|Y)$ （其中 $X_i$ 是相互独立的）

贝叶斯定理：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

文本的数据需要转换成向量形式（vector）

即计算 $P(邮件内容|正常)$ ， $P(邮件内容|垃圾)$ （似然概率）的两种方法

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

词频计算
图源来自GreedyAIAcademy
Tfidf
$tfidf(w) = tf(d,w)*idf(w)$ $tf(d,w)$ 是 $w$ 在 $d$ 字典中的词频；
$idf(w)=log\frac{N}{N(w)}$ ， $N$ 是文档总数， $N(w)$ 是 $w$ 在几个文档中出现
同样要进行平滑处理。