样本数据达到多少统计指标才有意义？

此问题有点泛泛，各位老师回答的时候也可以分成几种情况分别给出答案。
当我们研究一组数据的统计指标。例如标准差，相关系数，一元线性回归的R平方等指标。很显然数据过少将不具备统计意义。真实数据当然是越多越好。通常来说样本数量最低标准是多少。样本数量少于多少将不具备统计意义？
我举个具体的例子请老师指教。对某公司连续五年的收入做一元线性回归。斜率0.8，r平方0.85。由此可以说过去5年的收入增长质量比较好吗？增长看斜率，质量看r平方。质量评判标准的逻辑是r平方越大，代表收入离散度越小（或者说波动越小），则收入质量越好（这种判断是纯主观判断，各位老师不必纠结于这个主管标准。）。
问题来了。如果只有两年的数据，那r平方应该是1。但是明显两年的数据没有统计学意义。如果是三年的数据呢？感觉统计意义比较弱。那超过多少年的数据，按照以上方法得出的数据才比较有意义。即可以说过去x年的增长质量的两个指标（斜率，r平方）具备了参考意义。注：有意义不是说可以预测未来，仅仅是评价过去

热心的小回应 · 2020-12-27 05:52:21

Power analysis 了解一下。

热心的小回应 · 2020-12-27 05:52:22

如果是描述统计，我觉得越逼近总体越好。这个事情分的是有钱和没钱，而不是有意义和没意义。
如果是推断统计，要看研究对象的复杂程度。研究斑马鱼、小鸡什么的话，可能十来个就够了。这种对象又不像猴子那么难伺候，样本量小是因为不需要大吧。研究人的话，太大、太小都不行。太大了呢，样本异质性大，你怎么就确定这个回归系数显著不是别的变量的副作用？太小了呢，容易发生全距限制；原本变量在总体中可能有直线或者曲线的相关，但你截了一小段，散点图画出来就是一团。就算你能保证随机采样，因为样本小，采了甲不采乙可能得到一种结果，采了乙不采甲可能是另一种结果，非常不稳定。理想的情况是，不论样本量大小，你所关注的变量变异充分，你所不关注的变量几乎没有变异。
其他答案有说到样本量估计的。他们是说，在频率学派中，给定假阳性和假阴性的阈限，以及估计的效应量，可以求出相应的样本量。别的学科我不了解，但就心理学这些效应量，要想达到令人满意的阈限，得出的样本量是99%的实验室都负担不起的。所以我觉得这类问题没什么意思，说到底就是一个字——
[h1]穷[/h1]所以有的人说你们科学家怎么一会儿这样一会儿那样呢！小样本那么波动你赖我做什么？你要是把钱砸足了，我保证每个人都能一样。

热心的小回应 · 2020-12-27 05:52:23

这个问题可以提炼为：
样本量最少达到多少才可以反应总体的特征？

例如，我们做标签nlp模型时，对于模型输出的10000条记录，怎么样在有限的人力和时间内，最大限度的了解这批数据的准确性呢？

估计做推荐系统的都有痛彻心扉的感受，哈哈

离开“置信区间”和“置信水平”谈最少样本量都是耍流氓。
1）置信区间
在统计学中，一个概率样本的置信区间（Confidence interval，CI），是对这个样本的某个总体参数的区间估计。置信区间展现的是，这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。

2）置信水平
置信区间给出的是，声称总体参数的真实值在测量值的区间所具有的可信程度，即前面所要求的 “一定概率”。这个概率被称为置信水平。
有时候也叫：置信度。

例如，美国大选中，川普的支持率为 55%，而置信水平 0.95 上的置信区间是 (50%，60%)，那么他的真实支持率落在 50% 和 60% 之区间的机率为 95%，因此他的真实支持率不足 50% 的可能性小于 2.5%（假设分布是对称的）。

言归正传。
很幸运有一个工具可以帮我们快速的确定最小样本量：Sample Size Calculator
Sample Size Calculator
找到你的置信区间如上图所示，其中：
1）Confidence Level：置信水平/置信度
2）Sample Size：样本大小
3）Population：总体大小
4）Percentage：错误率
结果就是：
Confidence Interval：置信区间
例如上图，置信水平/置信度为95%，样本有1000个，总体有100000个，在错误率50%（一半错误一半正确，这是可接受的最差情况了），置信区间为+-3.08

寻找最少样本量如上图所示：
1）Confidence Level：置信水平/置信度
2）Confidence Interval：置信区间
3）Population：总体数量
结果就是：
4）Sample size needed：最少需要的样本量

如果你看明白以上的内容，那么看看下面这个有趣的问题，用到上面的知识：

一个池塘养了一群鱼，怎么快速估计出这个池塘里面鱼的数量？还八九不离十
条件：只能用手捞上来，数清楚再放进去，杠精自觉消失

参考答案：
先捕上A条，做上标记（随便你怎么做标记，温柔点就挂个label，残忍点的就剪掉鱼鳍）
再放回池塘
让鱼儿们游一会（important！为什么？）
再捞上来A条，数一下有记号的鱼有B条
那么：A/总＝B/A（为什么？）
所以：总数＝n^2/x 条鱼

觉得不放心，可以多次重复

热心的小回应 · 2020-12-27 05:52:24

好多人并不认可样本大于30个即大样本的说法。
那么，关于小样本的处理，我处理过最小的样本数是12，除了做一些基本分类分析，再也无法做出其他更多的处理。
回到正题，我认为低于30个的样本量就已经极难处理了。最起码，我随机抽样实验然后逼近总体样本的机会还是需要的。少于30个，随机抽样根本无法做，那么，简单的归类分析就是唯一选择。

样本数据达到多少统计指标才有意义？

4 个回复

浏览过的版块