用R演示逻辑回归过程-值得收藏

论坛 期权论坛 脚本     
匿名网站用户   2020-12-20 01:33   56   0
作者 | 结实来源 | DATA江湖

理论

Logistic回归适用于二值响应变量(0,1)。模 型假 设Y服从二项分布,线性模型的拟合形式为:

640?wx_fmt=png

其中,π= μ(Y)是Y的条件均值(即给定一系列X的值时Y =1的概率),(π/1-π)为Y=1时的优势比,log(π/1-π)为对数优势比。

案例

我们用婚外情数据即著名的“Fair’s Affairs”,取自于1969年《今日心理》所做的一个非常有代表性的调查,该数据从601个参与者身上收集了9个变量,包括一年来婚外私通的频率以及参与者性别、年龄、婚龄、是否有小孩、宗教信仰程度(5分制,1分表示反对,5分表示非常信仰)、学历、职业(排序后),还有对婚姻的自我评分( 1表示非常不幸福,5表示非常幸福)。

变量说明:

序号12345
变量affairsgenderageyearsmarriedchildren
释义一年内外遇次数性别年龄婚龄孩(N/Y)
序号6789
变量religiousnesseducationoccupationrating
释义宗教信仰程度学历职业婚姻自我评分

首先做描述性分析

640?wx_fmt=jpeg
可以看出,52%的调查对象是女性,72%的人有孩子,样本年龄的中位数为32岁。对于响应变量,72%的调查对象表示过去一年中没有婚外情(451/601),而婚外偷腥的最多次数为12(占了6%)。

做变量转换(外遇转换为二值变量640?wx_fmt=jpeg

逻辑回归

640?wx_fmt=jpeg

从回归系数的p值(最后一栏)可以看到,性别、是否有孩子、学历和职业对方程的贡献都不显著。去除这些变量重新拟合模型。640?wx_fmt=jpeg
新模型的每个回归系数都非常显著(p<0.05)。对两个模型进行比较。640?wx_fmt=jpeg

结果的卡方值不显著(p=0.21),表明四个预测变量的新模型与九个完整预测变量的模型拟合程度一样。

解释参数

640?wx_fmt=jpeg

可以看到婚龄增加一年,婚外情的优势比将乘以1.11(保持年龄、宗教信仰和婚姻评定不变);相反,年龄增加一岁,婚外情的的优势比则乘以0.97。因此,随着婚龄的增加和年龄、宗教信仰与婚姻评分的降低,婚外情优势比将上升。因为预测变量不能等于0,截距项在此处没有什么特定含义。

——————————————

往期精彩:

640?wx_fmt=png

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1136255
帖子:227251
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP