小伙伴关心的问题:统计学方法第二版 李航 PDF(统计学中统计方法),本文通过数据整理汇集了统计学方法第二版 李航 PDF(统计学中统计方法)相关信息,下面一起看看。

统计学方法第二版 李航 PDF(统计学中统计方法)

KNN算法:

K近邻思想:物以类聚

K近邻没有显式的训练过程

距离度量:

(1)欧式距离: 两点之间直线

(2)曼哈顿距离: 城市街区距离

(3)切比雪夫距离:棋盘距离

K值选择

选择较小的k值:

用较小的邻域进行预测。预测结果对邻近的实例点非常敏感。如果邻近的实例点恰好是噪声,预测就会出错。

选择较大的k值:用较大的邻域进行预测。对于输入实例较远的(已经不太相似)的样本点也会对预

测起作用,使预测 *** 。在应用中:先取一个较小的K值,再通过交叉验证法来选取最有的K值

朴素贝叶斯

之所以成为朴素,是因为它有有个重要的前提假设:每个输入变量是独立的。这个假设显然在实际中很难满足,但这并不影响朴素贝叶斯的简单、强大。

首先介绍朴素贝叶斯,在此之前可能听到过贝叶斯原理、贝叶斯分类、朴素贝叶斯,其实这三者之间是有区别的,看下面这张图,就一目了然。

在这里先回顾一下,第一章概论中提到的生成模型和判别模型,决策函数的形式Y=f(x)Y=f(x) ,这种形式中不考虑 ,x,yx,y 的随机性,条件概率分布 P(Y|X)P(Y|X) 中只考虑了 yy 的随机性,在给定X时求Y的概率分布,生成模型中的条件概率分布 P(Y|X)=P(X,Y)P(X)P(Y|X) = \frac{P(X,Y)}{P(X)} ,同时考虑了 x,yx,y 的随机性,因为需要X,Y的联合分布概率和X的边界分布。从决策函数到条件概率分布,再到生成模型中的条件概率分布式越来越多的。

比如第二章中学习的感知机模型就是一种典型的决策函数的形式,而本章中所学的朴素贝叶斯模型则是生成模型中的条件概率分布。

朴素贝叶斯法的参数估计

可以把概率模型的训练过程理解为求参数估计的过程。

用训练集实例估计 P(Y=Ck),P(X=x|Y=Ck)P(Y=C_k), P(X=x|Y=C_k)

1、极大似然估计

2、贝叶斯估计

朴素贝叶斯分类的优缺点

优点:

(1) 算法逻辑简单,易于实现

(2)分类过程中时空开销小

缺点:

理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。

而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进

更多统计学方法第二版 李航 PDF(统计学中统计方法)相关信息请关注本站,本文仅仅做为展示!