如何评价美国顶级学术期刊宣布禁用 p 值?会引起哪些连锁效应?

论坛 期权论坛 期权     
热心用户   2019-5-18 03:48   1911   5
1月22日,美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。根据该刊的声明,其主要原因是:“p值本身无法提供支持相关模式或假说之证据。”


分享到 :
0 人收藏

5 个回复

倒序浏览
2#
zhihu用户  16级独孤 | 2019-5-18 03:48:08
谢邀 @刘柯
对p值的讨论或者说质疑心理学届已经很多了,我觉得共识应该是每一个研究人员要明白p值的意义和其潜在的问题,并且不以二分(显著/不显著)的态度去判断一个研究是否有价值或者可以发表。(这里推荐一个社区专栏, @hcp4715 Open Science Club
心理学家的杂志其实应该有不少愿意接受不显著的结果的,我上一篇文章就是一个不显著的结果,我在初稿里只报告了p值,一审意见里编辑是这么说的:“I think that we should be willing to publish compelling null results, but only following an abundance of caution throughout the paper - for example by running the suggested additional experiment and calculating Bayes factor.”(我认为我们应该要愿意发表令人信服的零结果,但是要额外的谨慎,比如做一个补充实验以及计算贝叶斯因子)。后来加了实验,也提供了贝叶斯因子, 总之就是要提供足够多的证据,而不仅仅依赖p值。
不管是呼吁贝叶斯,还是禁用p值,都是大家对于方法上的进步的要求,当然禁用可能比较激进。这个政治学的杂志我不了解,但是照现在大家的关注度来说(朋友圈、群、社区都看到这个消息了),影响应该也不小了,从这个角度上来说我觉得挺好的。
3#
zhihu用户  16级独孤 | 2019-5-18 03:48:09
社科论文的表述介于生活语言与数学语言之间。如果一个刊物读者都很懂 p 值是啥,禁不禁就没有差别;否则,差别还是挺大。或者这么说,如果学刊编辑团队希望比较宽领域的社科研究者都成为目标读者,就有理由例行禁用「单纯 p 值」报告范式。推文中主要说在回归报告(or elsewhere) 禁用,我认为字面意思并非「任何场合禁用」。回归报告,p 值对应的检验参数是连续的,总是可以改进为置信区间。当然,象「怀孕与否」这样的研究假设是没有置信区间的,禁止报告 p 值就说不过去。
有知友认为,「各个方法都有问题,不管采用哪种方法,都会有相应的问题」,我认为这个说法对于可以报告置信区间的情形就不成立。读者是可能在数学语言层面误解置信区间,但是不会在生活语言层面作出错误推论。另有知友指出「如果可以报告置信区间,那么p 值方案与置信区间方案在数学语言上等价」,但是在实际应用中,数学语言与生活语言可以出现戏剧性的反差——
比如:研究发现某助睡眠药的药效非零但是极小,95%的置信度下,实验组比安慰剂组每天可以多睡4~6分钟。「有显著非零的药效」与「药效显著小于有实际意义的应用阈值(15分钟)」两句话都是对的,前者是数学语言的真话,在生活语言中骗人。如果学术刊物在置信区间可用的情形禁用 p 值报告范式,生活语言的「传播效度」是站得住脚的理由。

有实际研究经验的科班高年级同学都会对 p = 0.051 与 p = 0.049 作出相似而非相反的解读。在置信区间方案下,其中窍门显而易见。如果标准误很小(样本量足够大),那么 p = 0.051 意味着95%置信区间中的每一个点都约等于0(虚无假设的参数值)。p = 0.049 同样意味着95%置信区间中的每一个点都约等于0。这种情形通常在大规模研究才会出现,通常的实验室环境基本不会遇到。样本量足够大说起来容易,但实验室里每多一个被试都意味着多烧一笔钱。如果标准误不小(样本量不够大),p = 0.049 意味着点估计远离 0 点(虚无假设的参数值),p = 0.051 同样如此。更进一步地说,标准误不小意味着两个 p 值对应的90%置信区间(内的每一个点)都明显与 0 点拉开了距离。只要不差钱,看到这个结论的研究团队(以及竞争团队)总是有强烈的动机扩大样本量重复实验。
以上引自我的专栏文章《当两个独立团队报告了各自的 p 值 ...
4#
zhihu用户  16级独孤 | 2019-5-18 03:48:10
曾经也有一个期刊禁止了p值:2015年年初Basic and Applied Social Psychology的Editorial宣布,禁止所有发表于该期刊的论文报告p值和CI。后来,BASP的JCR分区从2015的Q3变成了2016的Q2。它上次拿Q2的时间还是2001年。
因此,我不认为禁止报告p值会使这个杂志变水。至于对于学界的影响,不大。虽然目前有越来越多的期刊要求报告effect size以及用power analysis计算被试量(包括APA最新的论文发表指南,见PsycNET),但不要求p值的非常非常少,Political Analysis之前似乎只有BASP。
5#
zhihu用户  16级独孤 | 2019-5-18 03:48:11
主要是这些搞实证的统计素质太差,滥用工具
然后这些编辑也是拍脑袋决定事情,换工具不改进素质能有什么用,猴子不还是猴子,又变不了猩猩
何况换工具换的也不好,像有些答案说的,用“提供置信区间来代替提供p值”这种完全是脱裤子放屁,这2个又不是不能等价变换
6#
zhihu用户  16级独孤 | 2019-5-18 03:48:12
在我看来有点小题大做了……
任何一个统计学过关的人,都应该知道,P值的意义是“如果我的结论是错的(零假设是正确的),那么得到我的数据(或者更极端的数据)的概率”而不是“如果我的数据是现在我得到的这样,那么我的结论是错的的概率”……
当然,尽管在后者,也就是那种错误的意义上使用P值的研究者确实还是有很多的……
但硬要说这对于结论没有一点半点的支持作用,因此要特别废止P值的话,就真的有点过了……
毕竟在额外附加一些假设的情况下,这两个概率之间并非不能相互换算(贝叶斯定理)……
而且,也没有任何统计方法要支持任何一个结论,是不需要背后的其他假设的……而通过人为操作(对数据的其他部分进行操作,例如数据量的不断扩大等),总可以在背后的其他假设不成立的情况下,给出一个不合理的描述……
因此,禁用P值尽管看起来是在解决问题,但实际上很难说能不能解决好问题……
倒不如说,相比起这种简单粗暴的解决方式,更重要的或许是进行更加深入的数理统计学训练,并且要求在论文中更加明确地描述自己使用这种计量方法,其使用的每一个假设究竟都是些什么……这样或许会更能达到我们做好科研的目的……
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:64547
帖子:12910
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP