本
文
摘
要
数据分析步骤Excel学习
一、数据分析的基本步骤
1、提出(明确)问题
类似于这样的问题:(基于原始数据源)
·哪些城市找到数据分析师的工作几率比较大?
·数据分析师的薪水有多高?
·特拉普和希拉里谁更有机会当选美国总统?
来自于业务部门的问题,用数据做出分析和决策。明确问题为后续的分析决策提供一个大方向。
2、理解数据包括两个方面:·采集数据(根据研究问题采集相关的数据)
·查看数据集的信息(包括描述统计信息,从整体上理解数据,或者理解excel的每个字段是什么)
3、数据清洗(数据预处理)
脏数据/缺失/重复数据数据清洗的思路:●选择子集
●列名重命名
●删除重复值
●缺失值处理
●一致化处理
●数据排序
●异常值处理
4、数据分析 或 构建模型
对清洗后的数据进行分析,从中获得:
简单:业务指标
复杂:机器学习的算法来训练模型
5、数据可视化
利用图表的展示方式,将得出的分析结果展示给老板或者客户
二、Excel学习
(一)提出问题
业务部门给出的业务指标
(二)理解数据
「一」、熟悉excel界面
1、选项卡、行号、列号、单元格、工作表名、创建新的工作表
2、列名(字段)
3、【列宽调整】:开始-全选表格-在列A上右键点击-列宽,数值:15
「二」、关于单元格格式
设置单元格格式: 任意单元格鼠标右键-设置单元格格式-数据类型「三」、Excel有哪些数据类型?
1、字符串(文本)类型:汉字、字母
注:以字符串形式重组的数值不能用于计算,字符串重组的数值需要转换成数字类型才能进行计算
2、数字类型:金额、整数、小数
3、逻辑类型: true、false(1)如何识别字符串类型的数值和数字类型的数值?
字符串类型的数值,一般默认为 左对齐
数字类型的数值:一般默认为 右对齐(2)字符串类型如何处理成数字类型?
=VALUE(Text)
=VALUE("$1,000") ,将返回字符串的等价数字1000(三)Excel如何进行数据清洗
数据清洗的步骤:●选择子集
●列名重命名
●删除重复值
●缺失值处理(人工补全、删除缺失数据 、用平均值代替缺失值 、用统计模型出来的值代替缺失值)
●一致化处理
●数据排序
●异常值处理
第1步:【选择子集】: 选择整列 - (右键- 隐藏)/ (开始- 格式-隐藏或取消隐藏)
重复的字段或数据太大,可选择隐藏列(尽量不删除数据,隐藏即可,保证原始数据的完整)
第2步:●【 列名重命名】:点击单元格-直接修改
第3步:●【删除重复值】: 数据 - 删除重复项
第4步:●【缺失值处理】:
(1)计算缺失值
●【定位】
选择列名(选取唯一值的列数,城市和职位ID)- 最下方的“计数”统计
通过两列的计数比较,快速得知是否存在数据的缺失
或者
●【筛选】
开始 - 查找和选择 - 定位条件 - 空值 (或 编辑- 查找 - 定位 - 定位条件 - 空值)/ 数据-筛选(2)处理缺失值
1)人工补全(适合缺失数据较少的情况)
●【一次性补齐缺失值】
Ctrl 选中所有空值单元格 - 在选完后最后一个单元格那里松开ctrl键,并在这个单元格里输入缺失值 - Ctrl + Enter 即可补齐全部空值2)删除缺失数据
3)用平均值代替缺失值
4)用统计模型出来的值代替缺失值
第5步:【一致化处理】
数据是否有统一的标准或者命名。如存在单元格内的数据值,有一个或多个,为了统一,就会进行分列处理统一每列的数值个数一致
●【分列】
数据 - 分列 - 分隔符号 - 勾选连续分隔符号..-其他,设置用什么分割 - 下一步 - 完成
注:分列功能,会覆盖掉后面一列的数据,使用分列需要复制到新列进行处理
例如,公司所属领域(一个或多个领域名词混在一个单元格内,需要分列)、薪水(最高薪水、最低薪水、平均薪资需要分开)、统一数据格式等
●【常用函数使用】
「一」、函数的3个功能
1、输入-功能-输出2、公式-插入函数-平均值-选择函数项-确定
「二」、几个常见的函数
1、平均值函数(前提:单元格值为数值类型)
=AVERAGE
2、查找和字符串截取
(1)字符串截取
=FIND("查询的目标", 单元格的列号)
=LEFT / RIGHT (目标单元格, FIND("查询的目标", 目标单元格列号))
=MID(选中的目标单元格,起始位置,截取长度)
A、起始位置:使用find函数
=FIND("查询的目标",目标单元格列号)
B、截取长度:使用len函数和find函数结合
=LEN(目标单元格)- 起始位置
C、任意位置的字符串截取
=MID(选中的目标单元格,起始位置,截取长度)
(2)自动填充函数(3)查找和筛选
●【筛选】
数据 - 筛选
●【查找和替换】
开始 - 查找和选择 - 替换 - 设置替换值 - 全部替换 - 关闭
错误值处理:
·观察数据,可将最小值 变成 最大值
(4)【重点】字符串转换为数值
●【字符串中的“数字"「字符串」转化为数字类型】
插入空行-复制原列-粘贴- 选择性粘贴 -进行 设置(“设置”的具体步骤:字符串转成数字,一般【选择粘贴】中的“数值”,运算中的“无” )。(或 编辑-查找-定位-定位条件(mac版本))
第6步:【数据排序】
用来发现更多有价值的数据●【排序】
第1种方法:开始-排序和筛选-选择升/降序-勾选选定区域-排序
第2种方法:数据-排序
第7步:【异常值处理】
使用excel上的数据透视表来进行操作
●数据透视表(split,apply,combine)
原理 : 数据处理模式
split:数据分组,具有相同属性的字段或数据特征进行分组
apply:应用函数,对分租后数值做分组操作,如求平均值、标准差等函数
combine:组合结果,对计算结果进行汇总
案例描述:(1)作图前的思考:
1)split:数据分组
对数据分组,根据目的地北京、上海进行分组2)apply:应用函数
应用函数,这里计算两组距离和延误时间的平均值3)combine:组合结果
组合结果,统一结合得出结果(2)案例中如何搭建数据透视表?
1)行和列的位置,对应数据处理模式的第一步: 数据分组,表示按对应列里的相同值进行分组
2)求和的位置,对应数据处理模式中的第二步:应用函数,例如列值加入计数,对每一组里面的数据进行统计所出现的次数,比如职位名称为“数据分析师“出现了多少次(或根据自己的实际情况做应用函数)
3)报表结果,对应数据模式中的第三步:组合结果。这种也可以筛查出异常值或者最高值
(四) 构建模型
「一 」解决问题
数据分析师的最热就业城市前5个哪些?
数据分析师的工作年限对就职数据分析师的影响?
数据分析师的薪水如何?计算平均薪水?
「二」几个分析手段:
1、【升降序筛选】
行列值,分别拖入,点击升降序
2、【列汇总百分比】
字段设置-数据透视表字段-数据显示方式-列汇总百分比(或选中单元格-右键-值显示方式-列汇总百分比)
3、描述统计分析-【分析工具库-数据分析】
(1)第1步:文件-加载项- Excel加载项-勾选分析工具库
(2)第2步:菜单-数据-数据分析
(3)第3步:数据分析-描述统计-选定-分别勾选:标志位于第一行、新工作表组(命名)、汇总统计、平均数置信度、第K大值、第K小值
4、【平均值】
行、列值,分别拖入。值,将平均值计算选为平均值
(五)数据可视化及实践
【下一节会介绍】三、一些Excel 问题的解决
(一)日期数据处理
1、求日期格式统一
【方法1】:分列(数据-分列-tab键-日期)【规整数据格式,如日期统一、格式统一】
【方法2】: 设置单元格格式(右键-设置单元格格式-自定义-选择日期的统一格式)
2、求日期各分段的汇总数据
步骤:数据透视表-日期+数据拖入列值-选择任意单元格-右键创建组-设置
3、求随时间变化的趋势
业务点:用户最近的几个月的变化趋势(用户增长量/下降量)
4、求最值问题(最大值/最小值)
步骤:数据透视表-值-下拉选择:值字段设置-值汇总方式-计算类型-选择你想要的最值类型或其他值类型
(二)多表关联查询
1、【重点】多表关联查询
【记住】vlookup(找什么,
在哪找,
第几列,
是准确找0 还是近似找1 )
2、如何查找重复值?
【查找重复值】插入一个辅助列 —— 公式,这里两列拼接,如=A&B —— 插入vlookup多表关联查询
【?】3、如何对数据分组?
步骤:创建分组标准 - 插入vlookup函数进行多表关联查询 - 在哪找:从相对引用至绝对应用(按下F4)
4、三种引用方式
(1)单元格的构成:如A1,表示A列第1行
(2)相对引用:A1
相对引用,直接列号行号直接引用,即在最终结果展示后则会展示出各自引用的值,各自的值最终的结果则成为各自引用后的结果。
注:相对引用产生的问题:因为结果的数值会随着相对单元格的改变而改变,会导致一个最终结果数值错误。
(3)绝对引用:$A$1
单元格的列行号,在某列或某行加上 $ 表示"定住不动"的值,即为绝对引用
(4)混合引用:$A1 A$1