如何评价美国顶级学术期刊宣布禁用 p 值？会引起哪些连锁效应？

1月22日，美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。根据该刊的声明，其主要原因是：“p值本身无法提供支持相关模式或假说之证据。”

zhihu用户 · 2019-5-18 03:48:08

谢邀 @刘柯
对p值的讨论或者说质疑心理学届已经很多了，我觉得共识应该是每一个研究人员要明白p值的意义和其潜在的问题，并且不以二分（显著/不显著）的态度去判断一个研究是否有价值或者可以发表。（这里推荐一个社区专栏， @hcp4715 Open Science Club）
心理学家的杂志其实应该有不少愿意接受不显著的结果的，我上一篇文章就是一个不显著的结果，我在初稿里只报告了p值，一审意见里编辑是这么说的：“I think that we should be willing to publish compelling null results, but only following an abundance of caution throughout the paper - for example by running the suggested additional experiment and calculating Bayes factor.”（我认为我们应该要愿意发表令人信服的零结果，但是要额外的谨慎，比如做一个补充实验以及计算贝叶斯因子)。后来加了实验，也提供了贝叶斯因子, 总之就是要提供足够多的证据，而不仅仅依赖p值。
不管是呼吁贝叶斯，还是禁用p值，都是大家对于方法上的进步的要求，当然禁用可能比较激进。这个政治学的杂志我不了解，但是照现在大家的关注度来说（朋友圈、群、社区都看到这个消息了），影响应该也不小了，从这个角度上来说我觉得挺好的。

zhihu用户 · 2019-5-18 03:48:09

社科论文的表述介于生活语言与数学语言之间。如果一个刊物读者都很懂 p 值是啥，禁不禁就没有差别；否则，差别还是挺大。或者这么说，如果学刊编辑团队希望比较宽领域的社科研究者都成为目标读者，就有理由例行禁用「单纯 p 值」报告范式。推文中主要说在回归报告（or elsewhere) 禁用，我认为字面意思并非「任何场合禁用」。回归报告，p 值对应的检验参数是连续的，总是可以改进为置信区间。当然，象「怀孕与否」这样的研究假设是没有置信区间的，禁止报告 p 值就说不过去。
有知友认为，「各个方法都有问题，不管采用哪种方法，都会有相应的问题」，我认为这个说法对于可以报告置信区间的情形就不成立。读者是可能在数学语言层面误解置信区间，但是不会在生活语言层面作出错误推论。另有知友指出「如果可以报告置信区间，那么p 值方案与置信区间方案在数学语言上等价」，但是在实际应用中，数学语言与生活语言可以出现戏剧性的反差——

比如：研究发现某助睡眠药的药效非零但是极小，95%的置信度下，实验组比安慰剂组每天可以多睡4~6分钟。「有显著非零的药效」与「药效显著小于有实际意义的应用阈值（15分钟）」两句话都是对的，前者是数学语言的真话，在生活语言中骗人。如果学术刊物在置信区间可用的情形禁用 p 值报告范式，生活语言的「传播效度」是站得住脚的理由。

有实际研究经验的科班高年级同学都会对 p = 0.051 与 p = 0.049 作出相似而非相反的解读。在置信区间方案下，其中窍门显而易见。如果标准误很小（样本量足够大），那么 p = 0.051 意味着95%置信区间中的每一个点都约等于0（虚无假设的参数值）。p = 0.049 同样意味着95%置信区间中的每一个点都约等于0。这种情形通常在大规模研究才会出现，通常的实验室环境基本不会遇到。样本量足够大说起来容易，但实验室里每多一个被试都意味着多烧一笔钱。如果标准误不小（样本量不够大），p = 0.049 意味着点估计远离 0 点（虚无假设的参数值），p = 0.051 同样如此。更进一步地说，标准误不小意味着两个 p 值对应的90%置信区间（内的每一个点）都明显与 0 点拉开了距离。只要不差钱，看到这个结论的研究团队（以及竞争团队）总是有强烈的动机扩大样本量重复实验。

以上引自我的专栏文章《当两个独立团队报告了各自的 p 值 ...》

zhihu用户 · 2019-5-18 03:48:10

曾经也有一个期刊禁止了p值：2015年年初Basic and Applied Social Psychology的Editorial宣布，禁止所有发表于该期刊的论文报告p值和CI。后来，BASP的JCR分区从2015的Q3变成了2016的Q2。它上次拿Q2的时间还是2001年。
因此，我不认为禁止报告p值会使这个杂志变水。至于对于学界的影响，不大。虽然目前有越来越多的期刊要求报告effect size以及用power analysis计算被试量（包括APA最新的论文发表指南，见PsycNET），但不要求p值的非常非常少，Political Analysis之前似乎只有BASP。

zhihu用户 · 2019-5-18 03:48:11

主要是这些搞实证的统计素质太差，滥用工具
然后这些编辑也是拍脑袋决定事情，换工具不改进素质能有什么用，猴子不还是猴子，又变不了猩猩
何况换工具换的也不好，像有些答案说的，用“提供置信区间来代替提供p值”这种完全是脱裤子放屁，这2个又不是不能等价变换

zhihu用户 · 2019-5-18 03:48:12

在我看来有点小题大做了……
任何一个统计学过关的人，都应该知道，P值的意义是“如果我的结论是错的（零假设是正确的），那么得到我的数据（或者更极端的数据）的概率”而不是“如果我的数据是现在我得到的这样，那么我的结论是错的的概率”……
当然，尽管在后者，也就是那种错误的意义上使用P值的研究者确实还是有很多的……
但硬要说这对于结论没有一点半点的支持作用，因此要特别废止P值的话，就真的有点过了……
毕竟在额外附加一些假设的情况下，这两个概率之间并非不能相互换算（贝叶斯定理）……
而且，也没有任何统计方法要支持任何一个结论，是不需要背后的其他假设的……而通过人为操作（对数据的其他部分进行操作，例如数据量的不断扩大等），总可以在背后的其他假设不成立的情况下，给出一个不合理的描述……
因此，禁用P值尽管看起来是在解决问题，但实际上很难说能不能解决好问题……
倒不如说，相比起这种简单粗暴的解决方式，更重要的或许是进行更加深入的数理统计学训练，并且要求在论文中更加明确地描述自己使用这种计量方法，其使用的每一个假设究竟都是些什么……这样或许会更能达到我们做好科研的目的……

如何评价美国顶级学术期刊宣布禁用 p 值？会引起哪些连锁效应？

5 个回复