本
文
摘
要
概率抽样(probability sampling): 依据概率论原理,按照随机化原则从总体中抽取样本的方法。
特点:抽取的样本具有一定的代表性,可以通过样本推断总体特征,但操作较复杂,且费用较高。
非概率抽样(non-probability sampling)/非随机抽样:主要依据研究者的主观意愿、判断或是否方便等因素从总体中抽取样本的方法。
特点:是一种快速、简易且节省费用的数据收集方法。但所抽取的样本代表性较差,一般不用来推断总体特征,多用于探索性研究。
一、单纯随机抽样(Simple sampling)
1、概念:首先根据调查目的选定总体, 对总体中所有观察单位统一编号:1、2、3 …N, (N为总体中的观察单位总数 ),遵循随机原则,采用不放回抽取的方法,从总体中抽取 n 个观察单位组成样本,这种抽样方法称为单纯随机抽样。
2、特点:是一种等概率抽样方法;逐个进行抽取;不放回抽样。
3、单纯随机抽样的方法:抽签法、随机数字表法
抽签法所产生的样本为何具有代表性?——摇匀使得每一个体被抽到的机会是相等的
随机数字表法
随机数字表:随机数字表中的每个数都是用随机方法产生的,这样的表称为随机数字表。
4、抽样误差大小的估计
对于单纯随机抽样,样本均数与样本率的抽样误差,即标准误的计算公式见下表。
5、优缺点 优点:抽样方法简单、易行。
缺点:当总体例数较多时,实施抽样比较困难,有时难以实现。
6、适用范围:总体个体数较少,抽取的样本容量也较小。
当总体的个体数较多时,采用单纯随机抽样方法抽样较麻烦,可用系统抽样法进行抽样。
二、系 统 抽 样(Systematic sampling)
1、概念:将容量为N的总体按某一顺序编号(或按研究对象已有的顺序,如学生证号等 )并平均分成n个部分,每部分包含K个个体(K=N/n)。首先从第一部分中随机抽取一个个体,依次用相等的间隔,机械地从每一部分中各抽取一个个体,共抽得n个个体组成样本,该抽样方法为系统抽样(等距抽样、机械抽样)。
2、系统抽样的特点:用系统抽样方法抽取样本时,每个个体被抽到的可能性是相等的。
系统抽样是不放回抽样。
3、系统抽样的步骤(简记为:编号;分段; 确定起始号;获取样本。)
(1)采用随机的方式将总体中的个体编号。
(2)将整个的编号按一定的间隔(设为K)分段。
当N/n是整数时,K= N/n; (N为总体中的个体数,n为样本含量)
当N/n不是整数时,从总体中剔除一些个体(单纯随机抽样方法),使剩下的总体中个体的个数能被n整除, 并将剩下的总体重新编号。
(3)在第一段中用单纯随机抽样法确定起始个体编号l。
(4)将编号为 l, l+k, l+2k, …l+(n-1)k 的个体抽出。
4、抽样误差大小的估计:
总体的性质不同,抽样间隔不同,其抽样误差也不同,所以系统抽样本身无统一的计算标准误的公式。实际工作中一般按照单纯随机抽样方法估计误差。
5、优缺点 优点:操作简单,易得到一个按比例分配的样本;抽样误差比单纯随机抽样小。
缺点:当总体的观察单位按顺序有周期趋势或单调递增(或递减)趋势时,将会产生明显的偏性。
6、系统抽样与单纯随机抽样的主要区别
(1)系统抽样比单纯随机抽样更容易实施,可节约抽样成本。
(2)系统抽样所得样本的代表性和具体的编号有关;而单纯随机抽样所得样本的代表性与个体的编号无关,如果编号的个体特征随编号的变化呈现一定的周期性,可能会使系统抽样的代表性很差。
(3)系统抽样比单纯随机抽样的应用范围更广。
7. 适用范围:总体个体数较多,抽取的样本容量也较大。
三、分 层 抽 样(Stratified sampling)
1、概念:将总体按对观察指标影响较大的某种特征(如年龄、性别等)先分为若干类型或组别,统计学上称为“层”(stratum), 再在各层随机抽样,从每一层内随机抽取一定数量的观察单位,将各层所抽取的观察单位合起来组成样本,该方法称为分层抽样。
2、分层抽样方法:按比例分配抽样、最优分配抽样
(1)按比例分配抽样:各层抽样例数按照总体中各层观察单位数的多少来分配,各层抽样比例相等,均为 n/N 。
其中:n 为样本容量; N 为总体个数
按比例分层抽样步骤:(简记为:分层;求比;定数;抽样。)
根据对观察指标影响较大的某种特征分成若干个层
根据总体的个体数N和样本容量n计算抽样比W=n/N
确定每一层应抽取的个体数目,并使每一层应抽取的个体数目之和为样本容量n
根据每层确定的数目在各层中随机抽取个体,合在一起得到含量为n的样本
例题:假设某所学校有高中生300人,初中生200人,小学生100人,教育局为了了解该校中小学学生的近视情况,要从该中学抽取30名学生进行调查,你认为应当怎样抽取样本?
抽样步骤:将该校学生分成高中生,初中生,小学生三层
计算抽样比, 即 样本含量/总体个数
按比例确定每层抽取的人数
在各层随机抽取一定数量的个体组成样本
(2)最优分配抽样:在总体中各层采用不同的比例抽样,内部变异小的层抽样比例小,内部变异大的层抽样比例大,各层抽样比例根据各层的观察单位数和标准差大小确定,又称为不等比例分配抽样。
最优分配抽样步骤:(简记为:分层;定数;抽样。)
根据对观察指标影响较大的某种特征分成若干个层
根据各层单位数 Ni和各层标准差σi(或各层总体率πi)确定每一层应抽取的个体数目,并使每一层应抽取的体数目之和为样本容量n
在各层中随机抽取个体,合在一起得到含量为n的样本
3、特点:(1)分层抽样是等概率抽样(n/N ),它也是公平的。
(2)先将总体根据不同特征分层,分层后各层内个体差异较小,层间个体差异较大。
(3)不同的层可采用不同的方法抽样。
4、抽样误差 样本均数、样本率及标准误的计算见有关书籍。
5. 优缺点 优点:所得样本代表性较好,抽样误差较小。
缺点:抽样方法复杂。
四、整 群 抽 样(cluster sampling)
1、概念:先将总体按某种与研究目的无关的特征(如医院、学生班级等)划分为K个群,每个群包括若干个观察单位,再从K个群中随机抽取n个群,对n个被抽得的群中的所有观察单位均进行调查,这种抽样方法称为整群抽样。
2、优缺点:
优点:是在大规模调查中,整群抽样易于组织,可节省人力、物力,容易控制调查质量。
缺点:一般来说各群间差异较大,所以抽样误差较大。
3.抽样误差 标准误有相应的计算公式。
四种概率抽样方法抽样误差由小到大依次为:
分层抽样 ≤ 系统抽样 ≤ 单纯随机抽样 ≤ 整群抽样
四种概率抽样方法的特点及适用范围:
多阶段抽样:是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将以上抽样方法结合使用。
优点:可充分利用各种抽样方法的优点,克服各自的缺点,故可节省人力、物力等。
缺点:抽样之前要掌握各级抽样单位的人口资料及特点。