本
文
摘
要
第十四章 聚类方法
聚类的目的是通过得到的类或簇来发现数据的特点或对数据进行处理,在数据挖掘、模式识别等领域有着广泛的应用。聚类属于无监督学习
1.聚类是针对给定的样本,依据它们属性的相似度或距离,将其归 到若干 个"类"或"簇"的数据分析问题 一个类是样本的 子集。 直观上,相似的样本聚 在同 不相似的样本分散 不同类。
2. 距离或相似度度量在聚类中起着重要作用 常用的距离度 有闵可夫斯基距离,包括欧氏距离、 哈顿距离、切比 夫距离 以及马哈拉诺比斯距离 常用的相似 度量有相关系数、 角余弦 用距离度 相似度时,距离越小 示样本越相似 系数时,相关系数越大 表示样本越相似
3. 类是样本的子集, 描述类的特征的指标有中心、直径、散布矩阵、协方差矩阵。
4. 聚类过程中用到类与类之间的距离也称为连接。类与类之间的距离包括最短距 离、最长距离、中心距离、平均距离。
5. 层次聚类假设类别之间存在层次结构,将样本聚到层次化的类中。层次聚类又 有聚合或自下而上、分裂或自上而下两种方法。 聚合聚类开始将每个样本各自分到 个类:之后将相距最近的两类合井,建立 个新的类,重复此操作直到满足停止条件:得到层次化的类别 分裂聚类开始将所有 样本分到一个类:之后将己有类中相距最远的样本分到两个新的类, 复此操作直到 满足停止条件:得到层次化的类别。
聚合聚类需要预先确定下面 3个要素:
(1)距离或相似度;
(2) 合并规则:
(3) 停止条件
根据这些概念的不同组合,就可以得到不同的聚类方法。
6. 均值聚类是常用的聚类算法,有以下特点 基于划分的聚类方法 类别数 事先指定;以欧氏距离平方表示样本之间的距离或相似度,以中心或样本的均值表示 类别;以样本和其所属类的中心之间的距离的总和为优化的目标函数:得到的类别是 平坦的、非 次化的:算法是迭代算法,不能保证得到全局最优 均值聚类算法,首先选择 个类的中心,将样本分到与中心最近的类中,得到 个聚类结果:然后计算每个类的样本的均值,作为类的新的中心:重复以上步骤,直到 收敛为止。
第十五章 奇艺值分解
11.矩阵的奇异值分解是指将 × m×n实矩阵 A表示为以下三个实矩阵乘积形式的运算:
其中 是 阶正交矩阵, 是 阶正交矩阵,Σ是 × 矩形对角矩阵
其对角线元素非负,且满足 1≥ 2≥⋯≥ ≥0
2.任意给定一个实矩阵,其奇异值分解一定存在,但并不唯一。
3.奇异值分解包括紧奇异值分解和截断奇异值分解。紧奇异值分解是与原始矩阵等秩的奇异值分解,截断奇异值分解是比原始矩阵低秩的奇异值分解。
4.奇异值分解有明确的几何解释。奇异值分解对应三个连续的线性变换:一个旋转变换,一个缩放变换和另一个旋转变换第一个和第三个旋转变换分别基于空间的标准正交基进行。
5.设矩阵 的奇异值分解为 = Σ ,则有
即对称矩阵 和 的特征分解可以由矩阵 的奇异值分解矩阵表示。
6.矩阵 A的奇异值分解可以通过求矩阵 的特征值和特征向量得到: 的特征向量构成正交矩阵 的列;从 的特征值 的平方根得到奇异值 ,即
对其由大到小排列,作为对角线元素,构成对角矩阵ΣΣ;求正奇异值对应的左奇异向量,再求扩充的 的标准正交基,构成正交矩阵 的列。
7.矩阵 =[ ] × 的弗罗贝尼乌斯范数定义为
在秩不超过 的 × 矩阵的 *** 中,存在矩阵 的弗罗贝尼乌斯范数意义下的最优近似矩阵 。秩为 的截断奇异值分解得到的矩阵 能够达到这个最优值。奇异值分解是弗罗贝尼乌斯范数意义下,也就是平方损失意义下的矩阵最优近似。
8.任意一个实矩阵 可以由其外积展开式表示
其中 为 × 矩阵,是列向量 和行向量 的外积, 为奇异值, , , 通过矩阵 的奇异值分解得到。
任意一个 x 矩阵,都可以表示为三个矩阵的乘积(因子分解)形式,分别是 阶正交矩阵,由降序排列的非负的对角线元素组成的 x 矩形对角矩阵,和 阶正交矩阵,称为该矩阵的奇异值分解。矩阵的奇异值分解一定存在,但不唯一。
奇异值分解可以看作是矩阵数据压缩的一种方法,即用因子分解的方式近似地表示原始矩阵,这种近似是在平方损失意义下的最优近似。
矩阵的奇异值分解是指,将一个非零的 x 实矩阵 , ∈ × 表示为一下三个实矩阵乘积形式的运算:
= Σ ,
其中 是 阶正交矩阵, 是 阶正交矩阵,Σ 是由降序排列的非负的对角线元素组成的 x 矩形对角矩阵。称为 的奇异值分解。 的列向量称为左奇异向量, 的列向量称为右奇异向量。奇异值分解不要求矩阵 是方阵,事实上矩阵的奇异值分解可以看作方阵的对角化的推广。
紧奇奇异值分解是与原始矩阵等秩的奇异值分解, 截断奇异值分解是比原始矩阵低秩的奇异值分解。