本
文
摘
要
KNN算法:
K近邻思想:物以类聚
K近邻没有显式的训练过程
距离度量:
(1)欧式距离: 两点之间直线
(2)曼哈顿距离: 城市街区距离
(3)切比雪夫距离:棋盘距离
K值选择
选择较小的k值:
用较小的邻域进行预测。预测结果对邻近的实例点非常敏感。如果邻近的实例点恰好是噪声,预测就会出错。
选择较大的k值:用较大的邻域进行预测。对于输入实例较远的(已经不太相似)的样本点也会对预
测起作用,使预测 *** 。在应用中:先取一个较小的K值,再通过交叉验证法来选取最有的K值
朴素贝叶斯
之所以成为朴素,是因为它有有个重要的前提假设:每个输入变量是独立的。这个假设显然在实际中很难满足,但这并不影响朴素贝叶斯的简单、强大。
首先介绍朴素贝叶斯,在此之前可能听到过贝叶斯原理、贝叶斯分类、朴素贝叶斯,其实这三者之间是有区别的,看下面这张图,就一目了然。
在这里先回顾一下,第一章概论中提到的生成模型和判别模型,决策函数的形式Y=f(x)Y=f(x) ,这种形式中不考虑 ,x,yx,y 的随机性,条件概率分布 P(Y|X)P(Y|X) 中只考虑了 yy 的随机性,在给定X时求Y的概率分布,生成模型中的条件概率分布 P(Y|X)=P(X,Y)P(X)P(Y|X) = \frac{P(X,Y)}{P(X)} ,同时考虑了 x,yx,y 的随机性,因为需要X,Y的联合分布概率和X的边界分布。从决策函数到条件概率分布,再到生成模型中的条件概率分布式越来越多的。
比如第二章中学习的感知机模型就是一种典型的决策函数的形式,而本章中所学的朴素贝叶斯模型则是生成模型中的条件概率分布。
朴素贝叶斯法的参数估计
可以把概率模型的训练过程理解为求参数估计的过程。
用训练集实例估计 P(Y=Ck),P(X=x|Y=Ck)P(Y=C_k), P(X=x|Y=C_k)
1、极大似然估计
2、贝叶斯估计
朴素贝叶斯分类的优缺点
优点:
(1) 算法逻辑简单,易于实现
(2)分类过程中时空开销小
缺点:
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进