机器学习实战(四) 朴素贝叶斯算法

本文主要记录《机器学习实战》中的理论知识拓展和实践问题中解决方案的总结

大纲

概念

贝叶斯决策:若p1表示数据点属于类别1,p2表示数据点属于类别2,则比较p1p2,我们选择高概率对应的类别来决定数据点的类别,这就是贝叶斯决策理论
条件概率:事先知道B,然后计算B中A的概率,则P(A|B)=P(AB)/P(B)
贝叶斯准则(定理),是一种可以计算条件概率的方法,可以交换条件概率的条件与结果,即已知P(B|A),可以求得P(A|B)=P(B|A)*P(A)/P(B)
使用条件概率来分类:已知数据点的特征为n,标签类为c1,c2,需要求得p(c1|n),p(c2|n)分别表示数据点n来自c1和c2的概率,比较他们的大小即可求得数据点的分类,求p(c|n)可用p(c|n)=p(n|c)*p(c)/p(n)
朴素贝叶斯:朴素贝叶斯以贝叶斯定理为基础,基于一个朴素的假定——给定目标值时属性之间相互条件独立,即特征同等重要不互相影响

文本分类