本
文
摘
要
在监督学习训练过程中,可以由训练数据集学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。该算法要求特定的输入/输出,首先需要决定使用哪种数据作为范例。
而这个过程就可能会使用到监督学习算法目前最常用的机器学习算法都有哪些?该怎么用?
下面就跟大家讲解下十大机器学习算法原理及操作(包含分类及回归,小白也可以学习)
一、决策树
1、决策树分类
决策树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。分类决策树叶节点所含样本中,其输出变量的众数就是分类结果
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型输出的决策树结构图及模型的分类效果。
示例
根据红酒的颜色强度,脯氨酸,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的决策树。
案例操作 (SPSSPRO在线免费数据分析)
2、决策树回归
决策树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的决策树结构图及模型的分类效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用回归树预测投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)
二、随机森林
1、随机森林分类
随机森林分类在生成众多决策树的过程中,是通过对建模数据集的样本观测和特征变量分别进行随机抽样,每次抽样结果均为一棵树,且每棵树都会生成符合自身属性的规则和分类结果,而森林最终集成所有决策树的规则和分类结果,实现随机森林算法的分类。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型的分类结果和模型的分类评价情况。
示例
根据红酒的颜色强度,脯氨酸,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的随机森林。
案例操作 (SPSSPRO在线免费数据分析)
2、随机森林回归
随机森林回归是在生成众多决策树的过程中,是通过对建模数据集的样本观测和特征变量分别进行随机抽样,每次抽样结果均为一棵树,且每棵树都会生成符合自身属性的规则和判断值,而森林最终集成所有决策树的规则和判断值,实现随机森林算法的回归。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的结果值及模型预测效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用随机森林预测投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)
三、adaboost
1、adaboost分类
adaboost使得样本被错误分类导致权值增大,反之权值相应减小,这表示被错分的训练样本集包括一个更高的权重。这就会使在下轮时训练样本集更注重于难以识别的样本,针对被错分样本的进一步学习来得到下一个弱分类器,直到样本被正确分类
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型的分类结果和模型分类的评价效果。
示例
根据红酒的颜色强度,脯氨酸,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的adaboost。
案例操作 (SPSSPRO在线免费数据分析)
2、adaboost回归
adaboost给予误差率低的学习器一个高的权重,给予误差率高的学习器一个低的权重,结合弱学习器和对应的权重,生成强学习器。回归问题与分类问题算法的不同点在于误差率计算的方式不同,分类问题一般都采用0/1损失函数,而回归问题一般都是平方损失函数或者是线性损失函数
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的决策树结构图及模型的分类效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用adaboost迭代决策树预测投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)
四、k近邻算法
1、k近邻算法分类
K近邻(KNN)分类器是有监督学习中普遍使用的分类器之一,将观察值的分类判定为离它最近的k个观察值中所占比例最大的分类。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型的分类结果和模型分类的评价效果。
示例
根据高质量人类,精英人士与普通人3个类别的收入、年龄训练一个KNN分类器,用于对一个新用户进行分类。
案例操作 (SPSSPRO在线免费数据分析)
2、k近邻算法回归
k近邻算法,是将K个最近邻实例进行平均处理预测的一种有监督算法。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的预测值及模型预测效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用k近邻(KNN)回归得到投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)
五、bp神经网络
1、bp神经网络分类
bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。bp神经网络的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的分类错误率最小。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的预测值及模型预测效果。
示例
有一批Iris花,已知这批Iris花可分为3个品种,现需要对其进行分类。根据花萼长度、花萼宽度、花瓣长度、花瓣宽度的数据。用已有的数据训练一个神经网络用作分类器。
案例操作 (SPSSPRO在线免费数据分析)
2、bp神经网络回归
bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。bp神经网络的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的预测值及模型预测效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用支持向量机回归(SVR)预测投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)
六、支持向量机(SVM)
1、支持向量机(SVM)分类
支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型的分类结果和模型分类的评价效果。
示例
根据2种产品的最低工作温度和最长寿命(年),生成一个可以区分这两种产品的支持向量机(SVM)分类器。
案例操作 (SPSSPRO在线免费数据分析)
2、支持向量机(SVM)回归
支持向量机回归(SVR)用非线性映射将数据映射到高维数据特征空间中,使得在高维数据特征空间中自变量与因变量具有很好的线性回归特征,在该特征空间进行拟合后再返回到原始空间。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的预测值及模型预测效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用支持向量机回归(SVR)预测投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)
七、XGBoost
1、XGBoost分类
XGBoost是GBDT的一种高效实现,和GBDT不同,xgboost给损失函数增加了正则化项;且由于有些损失函数是难以计算导数的,xgboost使用损失函数的二阶泰勒展开作为损失函数的拟合。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型的分类结果和模型分类的评价效果。
示例
根据红酒的颜色强度,脯氨酸,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的XGBoost。
案例操作 (SPSSPRO在线免费数据分析)
2、XGBoost回归
XGBoost是GBDT的一种高效实现,和GBDT不同,xgboost给损失函数增加了正则化项;且由于有些损失函数是难以计算导数的,xgboost使用损失函数的二阶泰勒展开作为损失函数的拟合。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型的分类结果和模型分类的评价效果。
示例
根据红酒的颜色强度,脯氨酸,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的XGBoost。
案例操作 (SPSSPRO在线免费数据分析)
八、梯度提升树(GBDT)
1、梯度提升树(GBDT)分类
GBDT模型是一个加法模型,它串行地训练一组CART回归树,最终对所有回归树的预测结果加和,由此得到一个强学习器,每一颗新树都拟合当前损失函数的负梯度方向。最后输出这一组回归树的加和,套用sigmod或者softmax函数获得二分类或者多分类结果。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型的分类结果和模型分类的评价效果。
示例
根据红酒的颜色强度,脯氨酸,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的梯度提升树。
案例操作 (SPSSPRO在线免费数据分析)
2、梯度提升树(GBDT)回归
GBDT模型是一个加法模型,它串行地训练一组CART回归树,最终对所有回归树的预测结果加和,由此得到一个强学习器,每一颗新树都拟合当前损失函数的负梯度方向。最后输出这一组回归树的加和,从而得到回归结果。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的预测值及模型预测效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用梯度提升迭代决策树预测投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)
九、CatBoost
1、CatBoost分类
CatBoost是一种基于对称决策树算法的GBDT框架,主要解决的痛点是高效合理地处理类别型特征和处理梯度偏差、预测偏移问题,提高算法的准确性和泛化能力。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型的分类结果和模型分类的评价效果。
示例
根据红酒的颜色强度,脯氨酸,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的CatBoost。
案例操作 (SPSSPRO在线免费数据分析)
2、CatBoost回归
CatBoost是一种基于对称决策树算法的GBDT框架,主要解决的痛点是高效合理地处理类别型特征和处理梯度偏差、预测偏移问题,提高算法的准确性和泛化能力。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的决策树结构图及模型的分类效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用CatBoost预测投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)
十、ExtraTrees
1、ExtraTrees分类
Extra-Trees (极其随机的森林)和随机森林非常类似,这里的“及其随机”表现在决策树的结点划分上,它干脆直接使用随机的特征和随机的阈值划分,这样我们每一棵决策树形状、差异就会更大、更随机。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定类变量。
输出:模型输出的决策树结构图及模型的分类效果。
示例
根据红酒的颜色强度,脯氨酸,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的ExtraTrees。
案例操作 (SPSSPRO在线免费数据分析)
2、ExtraTrees回归
Extra-Trees (极其随机的森林)和随机森林非常类似,这里的“及其随机”表现在决策树的结点划分上,它干脆直接使用随机的特征和随机的阈值划分,这样我们每一棵决策树形状、差异就会更大、更随机。
输入输出描述
输入:自变量X为1个或1个以上的定类或定量变量,因变量Y为一个定量变量。
输出:模型输出的结果值及模型预测效果。
示例
某工厂投入某种物料(自变量X),可以生产一种产品(因变量Y)。使用ExtraTrees预测投入物料之后能得到的产品数。
案例操作 (SPSSPRO在线免费数据分析)