本
文
摘
要
先啰嗦两句,在质量管理七大原则中,讲究询证决策,说人话就是“说话办事得有证据”。
质量数据便是可以很好的辅助决策的客观依据。但简单粗糙未经整理的原生态数据显然是没办法完成它这个使命的。所以如何整理质量数据进而清晰准确表达质量信息,可以说是质量人的一项基本生存技能。
而数据整理和表达的一个经典模型,便是直方图。
一、直方图是什么
直方图用一系列宽度相等、高度不等的长方形来表示数据,其宽度代表组距,高度代表指定组距内的数据数(频数)。
它由英国拥有诸多头衔的天才学者卡尔卡尔·皮尔逊提出,并由在日本质量学者总结纳入经典QC七大工具中。
Karl Pearson,1857—1936,下边这个帅男人,英国著名统计学家、应用数学家、历史学家、哲学家、伦理学家、民俗学家、宗教学家、优生学家、头骨测量专家……名号比龙妈还多……Karl Pearson,1857—1936直方图可使我们比较容易直接看到数据的分布形状、离散程度和位置状况:
观察数据分布的类型,分析是否服从正态分布,有无异常;判断数据分布范围是否满足规格范围的要求;与产品规格界限做比较,判断分布中心是否偏离规格中心,以确定是否需要调整及调整量;但需要注意的是,虽然在过程能力分析中,我们常常利用直方图整理数据用以分析其分布状态,但有时根据观测数据所绘制的直方图呈非正态的异常分布。这说明过程已出现了异常。在这种状态下,是不能计算过程能力指数的,必须先排查异常原因,予以排查纠正后,再重新收集数据并分析。
为什么不能计算,因为不受控了啊,计算Cp/Cpk的前提是过程处于统计受控状态。另外注意直方图不等同于柱状图,或者通俗说直方图是特定规则生成的柱状图,不要将二者混为一谈。
二、直方图怎么做
1、前置条件
用于绘制直方图的数据量n最好在100以上,如确实达不到,至少也应大于50。
2、数据源
假设对某产品的某质量特性进行测量,共得到如下60个数据。
1381421481451401411381391441381391361381371371331401301451411351311361311341321351341321341301351351341361311391401411381371371311271361281381321341361371331211291371321311391361353、确定数据极差R
显而易见,最大值Max=148,最小值Min=121,极差R=148-121=27。
4、确定组数K
组数也就是直方图上柱子的数量。合理的选择分组数对于正确的使用直方图非常重要。
分组过多会使柱子的高度参差波动,直方图将是锯齿型,甚至出现空档,不易显示其分布规律,而且计算量也会增加。分组过少则会掩盖了组内数据可能的异常波动,直方图过于宽平,对分布状态反应不灵敏。
一般在6~20组之间较为合适。具体可以参照以下两种方法,任选其一即可:
中国质量协会注册质量经理手册中,推荐使用n的平方根。本例中,K= 60的平方根 = 7.7 ≈ 8。日常中也常用斯特奇斯(Sturges)提出的经验公式K=1+lgn/lg2。按该公式,本例 K = 6.9 ≈ 7。本次采用经验公式,取组数为7。
5、确定组距H
有了组数,还要确定组距也就是柱子的宽度,这样方能计算每根柱子该包含哪些数据。
组距的确定方法为 H=R/K=(148-121)/7=4
注意组距要取测量单位的整数倍,否则生成的直方图会有锯齿形的错误分布。如果计算出的组距不是测量单位的整数倍,则要上下调整圆整。当H向上圆整时,实际分组数K将比原选定的分组数小,当H向下圆整时,实际分组数将比原选定的分组数大,这并不影响直方图形态和分析结论。
6、确定各组的界限
即每根柱子的起点和终点值。
一般第一组起点为:Min-最小测定单位/2。
本例中最小测定单位为1(因为你没看到小数),所以起点为121-0.5=120.5。根据组距4,快速确定各组界限为:
下限值上限值第一组120.5124.5第二组124.5128.5第三组128.5132.5第四组132.5136.5第五组136.5140.5第六组140.5144.5第七组144.5148.5问:为什么要减去最小测定的单位/2?
答:因为不能让测量的数和柱子的边界相同啊,如果相同,放在哪个柱子上呢。7、确定各组的频数
也就是落在各组的数据的数量是多少。
各位就各显神通去数吧,有空再简单介绍下用Excel Countifs函数或Frequency函数快速确定频数的方法。Minitab的做法暂不涉及了(别问为什么,问就是写了这么多,懒了 )。
下限值上限值频数第一组120.5124.51第二组124.5128.52第三组128.5132.512第四组132.5136.518第五组136.5140.519第六组140.5144.55第七组144.5148.538、画图
终于到最后一步了。以组距为底长,以频数为高做图。
因为直方图除了看分布以外,还可确定分布的范围是否在接受范围(公差范围)内,所以还需标注公差范围(T)、样本容量(n)、样本平均值(x)、样本标准偏差值(s)和x的位置等(我承认我又偷懒了,不标了,各位正式做图的时候不能省略)。
另外为了图表美观,建议宽高比为2:3,强迫症患者欢迎取0.618。
结束,下篇见~