子乔我, Come Back Back!!
继我的毕业论文SPSS系列,今天出一篇关于多元回归的.
前提须知:
- 什么是回归分析?
多元回归分析(Multiple Regression Analysis)是指在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法。
=>就是通过这么些变量的观测值来建立多个变量之间的因果关系.
2. 哪种数据需要选择做线性回归?
选择哪一种回归取决于因变量的数值类型,是连续数值型的就要选择线性回归.
3. 分清什么是自变量与因变量
自变量(原因),因变量(结果)
栗子 :
本次讲解是建立吃饭的美味程度、睡觉舒适度、看剧的满意度对Happy感的因果逻辑关系,即三个自变量和一个因变量。
大家收集到的数据应该是这样婶儿的,很多题:因为一个自变量里分配了很多题,比如吃饭的美味程度取决于对面坐没坐男神,饭里芝士的多少......
So,大家自己转换成介样的综合得分,如果你的量表原来有算分标准就按规则走,没有的话可以sum一下.
进入正题,开始回归分析:
1.分析-回归-线性
2. 分配自变量与因变量
3. 旁边选项点一点,嘿
这里是为了绘制散点图+正太概率图(这里“Z”表示标准化,所以“ZRESID”是标准化残差,一般放Y轴;“ZPRED”是标准化预测值,一般放X轴)
结果:(放论文里)
结果只需要分析两张表:模型摘要和系数表
这里重点分析R方
R是指拟合优度,是回归直线对观测值的拟合程度。R最大值为1。R的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R的值越小,说明回归直线对观测值的拟合程度越差。
我之前关注的陈老师,她说在统计学里要求高于30%以上可以接受。大家可以找找再文献看一下上面咋写的,可以私我一下~
我这个表格里R方=0.521,说明我的自变量吃饭、睡觉、看剧可以解释我happy程度的52.1%(剩下的%,可能还有其他因素我没有纳入进来,比如K歌和学习等等)
2. 第二个分析的点是,这三个自变量到底能不能影响Happy度?
看一下显著性,
例如:吃饭0.003<0.05, 因此吃饭是能显著影响happy的;那是怎么样的影响呢?是+1.28
因此,得出回归方程:y(Happy)=(0.378)·看剧+(-0.015)·睡觉+(1.28)·吃饭+2.041
回归的检验:(可放可不放)
剩下的表是回归方程的诊断问题
- 变量之间是否相互独立的? == 其实就是写问卷的人都是独立的+自己作答的 看德宾沃森(D-W)值 ,在模型摘要表里
一般来说越接近2越好,在2左右说明是独立的,模型设计的越好
2. 多重共线性,自变量存在很相似的情况。例如肥胖与体脂同时引入回归方程的话,就会产生极强的多重共线性,而导致结果作废。这就需要看方差膨胀系数VIF:
公式:
VIF的取值大于1。VIF值越接近于1,多重共线性越轻,反之越重。
有一种说法是VIF<5,说明变量不存在多重共线性。
3. 残差的正态性问题
我的数据不是hin完美吧
其中有一个柱子超出去很多,说明残差略微不服从正态分布,因为可能还有一些重要的自变量没涉及的,但是问题不大.
最后,你如果想做一下回归模型的图,可以用GraphPad,Matlab之类的画一下,看上去就hin优秀~
咳咳咳!我的毕业论文系列,有四部曲:信效度+方差+相关+回归
(后续可能不定期更新吧)
链接 依次排列,感谢大家素质三连嘻嘻嘻,爱您~
有才华的梅子青:毕业论文 快到DDL,如何用SPSS做关于量表问卷的分析(一)信效度分析zhuanlan.zhihu.com
有才华的梅子青:毕业论文 快到DDL,如何用SPSS做关于量表问卷的分析(二)方差分析zhuanlan.zhihu.com
有才华的梅子青:毕业论文 快到DDL,如何用SPSS做关于量表问卷的分析(三)相关分析zhuanlan.zhihu.com