上表中使用的是ηp2,如果使用η2,在Emotion×Electrode and Reward×Emotion×Electrode的情况下,N=532,将影响SStotal,进而使效应量进一步高估。 趋势的测量
在统计学中,测量集中趋势通常采用平均值、中数和众数,其中利用平均值测试集中趋势是最常见的。
表为平均值测量集中趋势带来的问题示例
如表所示,在实验3的外显任务中,平均值为0.7,似乎指标偏移不明显(靠近零),但是请注意括号中标注了所有分类(all categorization),再看右栏,将目标分类(target categorization)单独拎出来之后,指标偏移度是-15.8(中位数也存在类似问题)。这是研究中非常容易遇到的数据分析误区,有时分析结果看似不显著甚至无意义,但这不是实验设置的问题,也不是原始数据的问题,而是我们在分析的时候将全部数据放在一起平均,内在的趋势被相互抵消了。若止步于此,则无异于宝山空回。
另外,平均数会受到极值的影响,在此种情况下,平均数失去了代表性,实质是一种“被平均”,此时可能采用中位数较为客观,但是平均数和中位数都不能用来描述称名数据。从这个意义上看,众数可能是集中趋势描述的最佳代表,但是可能需要面对多峰问题,原因在于实验室研究的数据量较少,而现实层面的数据则是实验室数据的几何倍级,甚至可能没有穷尽,出现多峰的可能性较大。总之,在做数据分析的过程中,我们需要关注数据量、统计口径、分层,尽可能从多角度来思考,因为看似无趋势的指标,内在可能是暗流涌动,没有代表性的趋势测量不再具有指导意义,反而可能给决策者带来误导。 缺失的数据
在实验室的研究中,常常会出现未能取得所要收集的研究数据,这是由一个或多个被试在一个或多个研究变量上未出现反应所引起的。一般而言,缺失数据产生的原因主要有两种:一是测验设计,由于时间有限,导致被试没有机会作答完所有的项目;二是被试能力不足或缺乏动机,从而放弃对一些项目的作答。
传统的处理方法是列表删除(listwise delete)或对位删除(pairwise delete),这两种做法都有明显的缺陷,样本量会减少,还可能产生非正定的协方差矩阵。虽然数据归并(data imputation)采用均值或回归插补的方法,但是能适应缺失机制为完全随机缺失数据(missing completely at random,MCAR)的情况。此外,采用参数极大似然估计方法插补,可以进一步适应随机缺失数据(missing at random,MAR)缺失机制,特别是当插补方法为不确定性插补时(例如,贝叶斯回归插补),可以使得插补带有一定的随机性,从而使合并后的结果更精确。然而,上述所有的方法都不能适用于非随机缺失数据(missing not at random,MNAR)缺失。
研究者在收集数据的过程中,很可能因为某些原因产生数据的非随机缺失问题,从而使研究结果产生“幸存者偏差”。有时候,这种缺失的发生非常隐蔽。例如,第41次中国互联网络发展状况统计报告显示,2017年中国网民规模达到7.72亿人,而按照当年总人口数计算,中国互联网普及率只有55.8%,但是从年龄结构来看,2017年中国网民群体以40岁以下的人口为主,40岁以上的网民只占总网民数的23.6%,不到1.82亿人,而同年龄段的实际人口占总人口数的比例却接近五成。
除了年龄因素,收入、受教育程度、地域也对数据覆盖面有重要影响,特别是那些年龄较大、收入较低、学历不高、居住在农村等本已处于社会弱势方的群体,他们的意见没有被录入数据库,自然也无法参与后面的分析环节。因此,虽然这些互联网数据从数量上评价是当之无愧的“大”数据,但是借此做研究必然会带来不可忽视的“数字鸿沟”问题,意味着部分社会成员作为数据生产主体的缺场,其态度和行为信息无法在网络中获取。这种数据分析的结果,不仅是代表性低、准确性低的问题,而且可能造成社会公平的缺失,这值得我们每一个人深思。 数据的来源
在实证研究领域,数据的来源问题更加严重,因为很多数据来源受现实因素的制约,本身就是有偏的,容易产生“幸存者偏差”。举例来说,国家语言资源监测与研究中心发布了一组“2018年度中国媒体十大新词语”,其中“消费降级”登榜。在搜索引擎里输入查询,相关的内容高达9720000条,自媒体产出的相关文章也有近3979条,关于“升级”还是“降级”的问题争论不休。数据口径一般来源于国家统计局、科研单位调研、各大网络购物平台。下面我们以网络购物平台为例,说明数据来源问题。
首先,虚假数据问题,网络平台通过雇用“水军”等方式,人为篡改销售数量和好评度,甚至出现了许多专业“刷单”公司和“水军”公司,普通消费者也可能因为返利、优惠等原因加入其中,造成数据来源中存在大量虚假数据;其次,数据算法使得数据在生成过程中已经受到影响,从而对数据分析结果产生间接操纵,有学者指出,那些看似自然的互联网大数据,其实在生成过程中就已经掺杂进了大量的人为设计;最后,在“注意力经济”的环境下,大众媒介和部分精英群体(网红群体)同样也能够通过议程设置和框架建构,对受众的注意力分配施加明显的引导,从而产生数据引导,这些数据的取得本来就缺失了客观性。即便上述问题都解决,平台数据本身也是有偏的,因为使用不同的平台,受众本身不一定是同质的。 指标的选择
各学科的迅猛发展,为我们提供了很多可供选择的指标类型,有些指标是非常相似的,所以指标意义也很相近。如果在进行数据解读的时候,不注意指标的内涵外延则会使数据分析失效,而指标选择问题在财经领域非常突出,也给投资人造成很大的误导。
首先,做数据分析需要明确指标口径,例如,环比指标与定基指标,因为比值口径不同,所以同是衡量增长率,却可能获得不同的趋势结论;其次,要确定不同指标的适用范围,例如,库存周转率和仓库面积利用率都是衡量仓储管理效率的指标,但是如果在生产时才确认库存,则会极大拉低库存,提升库存周转率,仓库面积利用率则不会有很大改变,事实上仓储效率也并没有得到提高。在此种情况下,应该多分析同类别指标及其他相关指标,因为指标之间具有逻辑链条,整个系统很难做到完美平衡。
在数据分析时,应特别留意原材料、存货、应收应付款、资金往来指标,因为这些部分查验难度较大(特别是在大型集团公司、工业企业),即便专业的审计人员也无法做到完全核实,存在监管漏洞。在数据分析中,应当尽可能查证研究目标与社会常模的差异性,尽可能计算或核查逻辑链条上的各类指标,如有错漏,很难达到整个链条的平衡完美,将重点指标作为切入点,配合其他途径进行辅助分析,也许能够帮助我们掌握较为客观真实的情况。 其他的问题
在学习和工作过程中,我们还经常会遇到数据分析的其他问题,其中比较突出的是,人们似乎对公式指标繁多的处理方法存在畏难心理,有时可能看到过程和数字结果就感性地认为这是一个客观权威的结论,基本的查询验证意识尚且缺乏,更不用说做到对合理性的深入思考分析。培养严谨科学的分析态度,这个问题不仅局限于普通受众,连专业研究人员有时也会忽视。
另外,随着统计理论的发展和分析软件的进步,各类分析方法模型也有了长足发展,部分以前适用的方法已经不能够复算出后期数据分析类文章的结果。以温忠麟等人的中介效应检验程序为例,2014年的数据分析结果已经较2004年的数据分析结果取得了较大发展,此时如果仅仅关注过去模型,无疑是难以获得理想结论的,甚至有的学者将整个理论推翻重新建立,这也造成了有些既有的数据分析结果在新方法下无法重复,或者新的结论在使用旧方法推导中产生差异。因此,这就要求我们保持学习的热情和动力,时时更新已有知识储备。