点击上方,轻松关注
家庭关系相关
Q:2010年CFPS成人问卷数据库共有样本33600份,2014年变成了37147份,2014年成人PID与2010年成人PID相同的样本25618份。也就是追踪到2014年的时候就丢失了7982份,是这样吗?另外一个问题是,2014年与2010年PID不相同的成人样本11529份,那么这11529份样本来自哪里?2018年成人数据库PID与2010年成人数据库PID相同的样本量20169份,也就是相比较于2010年有13431份样本丢失,这些丢失的样本去了哪里呢?
A:CFPS为追踪调查,但每轮次访到的个人不尽相同,这里面除了有您提及到的样本流失之外,还有其他因素,譬如样本死亡(这些样本会在家庭关系库中体现,但无个人问卷,因此不会出现在个人库);之前年份的核心成员在调查年份并非核心成员,不满足CFPS个人问卷访问条件;样本在追访范围之外(出境、入狱等)。而多出的一些样本也有多种情况,譬如之前年份有可能访问不成功但此轮访问成功;当前年份新进样本等等。建议您阅读CFPS用户手册以及家庭关系库了解有关CFPS家庭成员界定以及追访的相关信息。
Q:在CFPS2016中,“fml2016_count ”2016年家庭成员人口数和“familysize16”家庭人口规模(综合变量),这两个变量有些家庭是不同的,那么哪个能代表家庭规模呢?通过家庭纯收入和人均家庭纯收入,我推断出的家庭人口是“fml2016_count ”2016年家庭成员人口数这一变量,所以用家庭规模这一变量时,应采用哪个变量呢?
A:familysize16是项目组工作人员后期清理数据时根据清理之后的家庭关系来判断的家庭规模;而fml2016_count是在访问现场时系统根据问卷的原始回答自动生成的家庭规模。我们计算人均家庭纯收入时采用了fml2016_count是因为现场受访者是根据fml2016_count中所包含的人员来回答经济问卷的。
Q:我想知道2010年及以后每个追踪样本是否在2010-2018年每个年份上是否生育了孩子以及生育孩子的年份,这个可以通过历年追踪数据获得吗?如果可以的话如何获得这个数据?
A:生育子女情况需要通过2010-2016家庭关系库查看,里面后缀为_c1到_c10的变量是每个家庭成员的子女相关信息。可以通过其出生年进行判断。2018年关系库尚未发布,预计今年夏季发布。
Q: 在2016年数据中,变量为抑郁情绪pn401-pn420,希望在该变量上对少儿与父母的数据进行匹配,请问该如何操作?更确切的说,根据pid与fid,如何实现少儿与父母的一一对应?
A: 2016年家庭关系库中有每一位家庭成员的pid_f和pid_m,分别代表其父母的pid。可以根据pid_f和pid_m在2016年承认库中寻找相应的pid,如果在成人库中存在,说明其父母有有效的个人问卷,可以实现少儿问卷和其父母问卷的链接。
Q: 我看到2010年的成人库中有个qb_1问题为“兄弟姐妹数量”,请问为何这个问题在2012年就不见了?我想搞清楚样本“是否为独生子女”这个状况,请问从2010-2018的样本库中,是否有能弄清这个状况的变量?
A: 有关兄弟姐妹数的计算,可以参考我们公众号上CFPS小课堂的一篇推送文章:http://www.isss.pku.edu.cn/cfps/cjwt/cfpsxkt/1295286.htm
缺失值相关
Q: 想请教下2018年个人自答数据中,所有工作总收入income变量,其中有8260个样本不适用。一部分是全日制学生,另一部分是什么情况呢?
A: 确认缺失值是否合理需要查看调查问卷。Income的值是否缺失跟jobclass这个变量相关,只有满足特定类别才会进入工资性收入的提问。详情请查看2018年调查问卷。有关个人收入的一些典型问题,请查看“中国家庭追踪调查”微信公众号上的相关文章。https://mp.weixin.qq.com/s/Ok3uAmIIpU0_uug3Zx4S7Q
Q: 想请问您,调查问卷中加载项的变量为什么查找不到呢?我在2018个人自答问卷的“I部分 退休与养老”中想要获取I202题的各类养老保险数据,结果未能发现变量。请问是怎么一回事呢?
A: 请注意问卷前面的CAPI描述的加载条件:
【CAPI】
#1 若 I200=1,I202、I203 题干中加载“离退休金”;否则,不加载。
#2 若 I2001=1,I202、I203 题干中加载“各类养老保险”;否则,不加载。
这段CAPI的意思是说,如果I200=1,题干显示为“包括各种补贴在内,您现在税后每月共领取多少离退休金?”如果I2001=1,题干显示为“包括各种补贴在内,您现在税后每月共领取多少各类养老保险?”如果二者都为1,则显示为“包括各种补贴在内,您现在税后每月共领取多少离退休金及各种养老保险?”
Q: 在对CFPS2016,2018年数据进行整理时,发现『最终受教育阶段为高中,年龄44岁以下』的3000多数据中,关于『具体高中受教育类型』的数据仅有30多个,想咨询是什么原因导致的?
A: 由于您没有提供具体的变量名,我们根据您提供的基本信息进行了确认:2018年最高学历为“高中/中专/技校/职高”且年龄小于44周岁的共有3000左右样本,这些样本中约有600多样本有高中类型信息(根据kw501_b_1变量得出)。请注意问卷中kw501这道题的跳转条件(2018年问卷“教育史”模块第94、95页),是与kw1(离校阶段)相关的,所有不满足跳转条件的均没有回答这道题。如需知道这些样本的高中类型,可尝试从其他年份获取。
Q: 为什么2016年CFPS 的幸福感数据(qm2014)有95%的“不适用”呢?
A: 在调查问卷中M1M模块的前面有一段关于问卷跳转的文字如下。
【CAPI】如果(CFPS_M1M=0 或 CFPS2014_interv=0)且 CFPS_age≤23 岁,继续提问 M1M;否则跳至 M6。
这里面列举了会跳转到qm2014的条件,这些条件决定了一大批受访者在2016年不会回答这道问题。
收入与支出
Q: 在CFPS2012中,这一变量是这样描述的:P405 过去一个月,您家本地的交通费(包括汽车油费)一共花多少钱?,所以2012年这一变量的具体内容包括什么呢?和2016年的内容一样吗?
A: 这是初始的设计,和2016年一样本意都是所有本地交通费(包括打车费用),但2012年的提问方式可能会让受访者遗漏汽车油费之外的费用,于是在后续调查中我们对问卷进行了修改,加入了额外解释。当问卷内容有所变动时,我们不能保证肯定测量的是相同内容,但它们的目标是一致的。
Q: 我想利用cfps数据追踪个人就业史,2014—2018均对主要工作有专门问卷,但2012年只询问了主要工作的部分情况,请问如何利用数据抓取与主要工作匹配的工作收入、行业、工作时间等信息呢?
A: 2012年工作部分的设计与之后的年份有所不同,无法从问卷数据中直接获取主要工作信息,需要在一定的假设条件下进行整理。关于2012年主要工作的相关变量,请参考官网技术报告。
http://www.isss.pku.edu.cn/cfps/docs/20180927132818552079.pdf
Q: 对于家庭经济数据集中的水费与电费项目,我存在一些疑问。在调查问卷关于水费与电费的项目中,有一条说明:”如果受访户没有该项支出,请录入0”。但是在每年问卷16000条数据中,有6000条左右的数据水费为0,有500条数据电费为0。请问此处的0是否可以反映用水量、用电量为零?是否有其他原因,比如受访户拒绝回答,家庭使用井水无自来水费支出等使得水费这一项目为零。
A:受访者如果明确表示拒绝回答或不知道,我们的数据中有相应的缺失值可以表示;这道题并非敏感题目,我们认为受访者采用0值来掩盖据答的可能性不大。但是如果受访者的水费或电费与其他支出在一起,他们无法分割开,而直接对其中的某一项目汇报为0的可能性是存在的。
其他
Q: 我想问问10-16年的所有savings变量是否跨年可比呢?18年没有生成savings变量,用ft1代替可以吗?
A: Ft1问题在不同年份的问卷题干上有些许差别,严格来说并不直接可比。请结合您自身的研究判断是否能将其判断为可比变量。问卷比对时可以借助CFPS2010-2018历年家庭经济问卷汇总表。2018年您可以用ft1代替。http://www.isss.pku.edu.cn/cfps/wdzx/tcwj/index.htm
Q: 在2016年数据中,QM601_s_1,QM601_s_2都是调查宗教的,请问两个变量的区别是?
A: _s_1代表受访者的第一个选择,_s_2代表第二个选择。如果二者都存在有效的数值,说明该受访者至少填报了两个宗教。
Q: 因为有些变量不同年份变量名并不一样,想确认下不同年份之间不会存在变量名相同,但表示的变量不相同的情况?另外,您是否有相关资料可以对照同一变量不同年份的变量名呢?
A: 您好,数据中的确存在部分这样的情况。不建议您通过某一年份的变量名来推导其他年份变量含义的做法,需要对照当年调查问卷进行确认。我们网站上有跨年问卷比对表(CFPS2010-2018历年XX问卷内容汇总表),请您参考。http://www.isss.pku.edu.cn/cfps/wdzx/tcwj/index.htm
课堂回顾
小课堂 | 数据使用Q&A(2020:1)
小课堂 | 数据使用Q&A(2020:2)
小课堂 | 数据使用Q&A(2020:3)
课后复习
本文系中国家庭追踪调查CFPS原创编发;如需转载,请根据文末联系方式沟通接洽。
中国家庭追踪调查(China Family Panel Studies,CFPS)旨在通过跟踪收集个体、家庭、社区三个层次的数据,反映中国社会、经济、人口、教育和健康的变迁,为学术研究和公共政策分析提供数据基础。中国家庭追踪调查由北京大学和国家自然科学基金共同资助,北京大学中国社会科学调查中心实施。
中国家庭追踪调查
(CFPS)
地址:北京市颐和园路5号北京大学理科5号楼
北京大学中国社会科学调查中心
网站:http://www.isss.pku.edu.cn/cfps
邮箱 : isss.cfps@pku.edu.cn
点击“阅读原文”