小伙伴关心的问题:spss线性回归分析(spss如何做一元线性回归分析),本文通过数据整理汇集了spss线性回归分析(spss如何做一元线性回归分析)相关信息,下面一起看看。

spss线性回归分析(spss如何做一元线性回归分析)

文章来源:微 信 公 众 号【我看人看我】,公 号可获取SPSS案例数据

回归分析(regression *** ysis)即是要追本溯源,即追溯因变量的变化与哪些自变量的相关,如果因变量的变化与自变量的变化之间存在相关,那么自变量就可能(并不必然是)是因变量的原因。

相关是因果关系的必要条件,但是相关并不意味必然有因果关系,发现了相关性,只是说明在统计学意义上两个变量之间可能存在因果关系,之后还要探讨因果链条。回归分析既要考察两个变量是否共同变化,还要预先设定哪个变量是原因、哪个是结果。

一、回归分析与相关分析的区别

1. 回归分析是预设因果关系的相关分析

相关分析研究的都是随机变量,不预设变量之间有因果关系,不区分因变量和自变量;回归分析则预设变量之间有因果关系,区分因变量和自变量。回归分析是由此及彼,参照自变量的信息,来预测因变量的值。回归分析的目的是改进预测的准确度,把标志猜测误差总量的平方和减到最低程度。

回归分析的步骤,首先是要看因变量和自变量是否以及如何先后呼应(如果无法根据数据分辨事实上的时间先后,可以分辨逻辑次序的先后。逻辑次序的先后,即在特定场景下不能想象一个变量在时间上先于另一个变量,而需要有逻辑关系),这里的是和否,也就是“显著”和“不显著”,判断方法是显著性检验。如果确定有显著呼应,再看呼应程度的高低正负。

2. 回归分析量化了两个变量关系的本质

相关分析主要衡量了两个变量是否关联以及关联的密切程度,而回归分析不仅可以揭示变量之间的关系和影响程度,还可以根据回归模型进程预测。

二、回归分析的类型

回归分析主要包括线性回归及非线性回归,线性回归又分为简单线性回归、多元线性回归。非线性回归,需要通过对数转换等方式,转换为线性回归进行分析。

这次主要介绍线性回归分析,非线性回归后续有机会再做详细的分享。

三、简单线性回归分析的步骤

1. 根据预测目标,确定自变量和因变量

围绕业务问题和目标,从经验、常识、历史数据研究等,初步确定自变量和因变量。

2. 进行相关分析

(1)通过绘制散点图的方式,从图形化的角度初步判断自变量和因变量之间是否具有相关关系;

(2)通过皮尔逊相关系数r 值,判断自变量与因变量之间的相关程度和方向,才决定是否运用线性回归分析法来预测数值。如果r系数值很小,那么就不要用线性回归方程式来预测,因为这样所犯的错误会很大。

3. 估计回归模型参数,建立回归模型

采用最小二乘法进行模型参数的估计,建立回归模型。

(1)回归方程

简单线性回归方程:Y=bX+a

b称为回归系数,表示回归线的斜率,b值的大小,表示X对Y的影响有多少,即每增加一个单位的X值时,Y值的变化有多大。a 是截距,即回归线和Y轴的交点。

变量Y:称为响应变量或因变量

变量X:预测变量或自变量

根据回归方程画出来的直线即是回归直线

(2)拟合值和残差

数据一般不会准确地落在回归线上,因此在回归方程中,应该包括一个误差项e:Y=bX+a+e

残差值=预测值(即拟合值)-原始值

(3)最小二乘法

回归线是使残差值的平方和最小化的估计值。残差值的平方和也称为 残差平方和(RSS)。那么,使残差平方和(RSS)最小化的方法,即为最小二乘法回归,或称为 普通最小二乘法(OLS)回归。做最小二乘线性回归分析,即是用该回归分析方法,计算出的一个回归系数,使用这个系数,根据自变量的值猜测因变量的值,能最大程度地减小根据平均值做预测产生的误差。回归系数的正负情况告诉我们两个变量之间的变化关系是正方向还是反方向,绝对值大小则表明变化范围多大。

通过该最小二乘法求得的回归方程所画出来的线,可看作是最佳拟合线,是一条比其他拟合线更优的直线,所有点都更接近这条直线,即所有点与该条直线的平方和最小,因此最佳拟合线也称为最小平方线。

4. 对回归模型进行检验

(1)利用判定系数 R² 评估最佳拟合线预测的准确性

通过SPSS输出的回归模型总结表中,R表示回归系数(即相关系数值), R² 表示判定系数,即回归系数的平方。判定系数显示了预测的准确度提高了多少,其对比的基准点是用平均值作为预测得出的误差的平方和。

R²,也称拟合优度,表示拟合得到的模型能解释因变量变化的比例,例如,钻石的重量和价格的相关系数R=0.777。R² 得到的结果是 0.604。对此我们可以做出如下解释:60%的钻石价格变化可以由涉及重量和价格的最佳拟合线来解释;剩余的40%,受其他因素的影响,包括深度、切面、颜色和净度等。

最佳拟合线只有在完全相关(R=1或者-1)时才能提供准确的预测。R²=1时,意味着变量100%的变化可以由最佳拟合线解释。在这种特殊情况下,如果样本数据能够真实表达总体,预测就会完全准确。

(2)F检验——对回归模型的整体检验

方差分析表主要作用是通过F检验来判断回归模型的回归效果,即检验因变量与所有自变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。如果没有线性关系,那么各偏回归系数均为零。即零假设H:偏回归系数均等于0。若接受零假设,则认为不存在线性关系,否则认为该多重线性回归显著。

在看方差分析表时,主要关注F值和显著性(P值)两个指标,其中主要参考显著性(P值)。

(3)T检验——对回归系数的检验

线性回归模型回归系数表,作用是对回归系数进行显著性检验,即检验回归模型中每个自变量与因变量之间是否存在显著性的线性关系,也即是检验自变量能否有效地解释因变量的线性变化。回归系数的显著性检验主要看 t值 和显著性(P值)两个指标。

5. 利用回归模型进行预测

回归模型通过检验后,就可以根据已知数据预测目标值了。利用最佳拟合线进行预测时需要注意以下几点:

(1)如果关系不强或是数据量不足,用最佳拟合线预测的效果就不会太好。如果所有的点都落在最佳拟合线附近,相关性非常强,预测也会因此而非常准确。如果有大量的样本点远离最佳拟合线,相关性非常弱,预测的结果也会不太准确。

(2)不要使用最佳拟合线对超出数据范围的点进行预测。

(3)一条由过去数据得到的最佳拟合线对现在和未来的预测都是无效的。

(4)不要对与样本所在总体不同的总体进行预测。

(5)当相关性不显著或呈现非线性关系时拟合的线没有意义。

四、简单线性回归的SPSS操作

这里我们以1978-2008年间某省份国民生产总值(GDP)与固定资产投资(FAI)的年度数据为例,建立以GDP为因变量、FAI为自变量的线性回归模型,分析固定资产投资与国民生产总值的线性关系。

1. 操作路径

【分析】-【回归】-【线性】

2. 确定自变量和因变量

将GDP添加到因变量窗口,FAI添加到自变量窗口,同时【方法】项选择线性回归中变量的输入和剔除方法,这里选择【进入】,表示【自变量】窗口中的变量都会输入到回归模型中。

3. 设置统计量

单机【统计量】,选择“估计”、“置信区间”、“模型拟合度”、“Durbin-Watson”。

“估计”表示输出回归系数、标准误、标准化系数beta、t值及t的双尾显著性水平;“置信区间”则输出回归系数的置信区间;“模型拟合度”输出判定系数、调整的判定系数、回归方程的标准误差等;“Durbin-Watson”输出DW检验结果,主要用于检验随机误差是否具有独立性。

4. 保存变量

单机【保存】,选择【预测值】中的【未标准化】,该指标的作用是,根据给定的自变量值,基于建立的回归模型输出因变量值并在数据编辑窗口中保存为变量,由此帮助我们快速计算预测我们想要的因变量结果。

结果如下:

5. 设置常量

单机【选项】,选择“在等式中包含常量”,可以输出回归方程的截距 a。

返回主对话框,单机【确定】,系统运行计算。

6. 分析结果解读

输出的结果中,主要关注以下结果。

(1)相关性程度

前文提到,线性回归的前提是变量之间必须存在相关关系,所以我们需要看“模型汇总表”中的相关系R值。这里R值为0.98,说明GDP和FAI存在很强的相关系。

(2)回归效果评估-拟合优度

线性回归效果的评估主要看 R²,表示回归直线和样本观测值的拟合优度。反映了因变量能够被自变量的解释的程度,即用回归模型来预测的准确度有多高。这里 R² 为0.961,说明了96%的GDP变化可以由FAI解释。

(3)回归模型的显著性检验-F检验

方差分析表的作用是检验回归模型的回归效果是否显著,即检验因变量和自变量之间的线性关系是否显著。在简单线性回归中,针对回归模型整体的F检验与和针对回归系数的t检验是等价的,但在多重线性回归中,F检验是针对因变量与所有自变量之间的检验,而t检验则是针对因变量与各自自变量的显著性检验。

方差分析中,我们主要看F值及其对应的p值。这里,p值=0,小于显著性水平0.01,因此我们可以认为该回归模型在0.01的显著性水平下显著。

(4)回归系数的显著性检验-t检验

回归系数表中的第二列(B列),【常量】行对应的是回归模型中的常量 a(截距),【自变量】FAI行对应的是回归系数(即回归方程的斜率),标准化系数(Beta)一列用来测量自变量对因变量的重要性。回归系数表中,我们主要关注的是统计量t值及其对应的概率p值,以判断回归模型中每个自变量与因变量之间是否存在显著性。

从表中我们可以看到,自变量FAI的t值对应的概率值p=0,小于显著性水平0.01,因此我们可以认为在0.01的显著性水平下,自变量FAI与因变量GDP存在显著的线性关系。

(5)回归模型各参数的确定

我们进行回归分析的目标是建立回归模型来进行预测,因此需要在分析中求出回归方程中的未知量,即常量a和回归系数b。回归方程各参数主要看回归系数表中的第二列【非标准化系数】的【B】,其中a=1253.705,b=1.921,因此最终可得回归方程为:Y=1253.705+1.921X

该方程说明了,每增加一个单位的固定资产投资,就可以带来1.92个单位的GDP的增加。可见固定资产的投资对于拉动GDP增长的作用还是很明显的 。

回归方程确定后,就可以根据已知的自变量,来预测位置的因变量啦。

文章来源:公 众 号【我看人看我】,主要分享统计分析、SPSS教程、社会科学研究与方法等

更多spss线性回归分析(spss如何做一元线性回归分析)相关信息请关注本站,本文仅仅做为展示!