概率收敛、均方收敛、分布收敛等几个概率之间的区别和联系是什么?

论坛 期权论坛 工作     
爱用户   2020-1-7 21:56   4145   5
也不知道问题提得是否对啊,可能还漏了别的相关的重要概念。
在看计量的时候看这几个概率之间经常有相互推导(包含被包含关系),也不知道他们几个具体区别在哪,如何形象直观的理解,以及他们的重要作用有哪些。
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
热心回应  16级独孤 | 2020-1-7 21:56:10 发帖IP地址来自
注:本答案仅提供本人对各种收敛的直观理解,以便读者更直观地了解各种收敛的联系。如果想了解更理论的部分,强烈推荐Yang的答案。

  • 分布收敛(convergence in distribution):
定义:

依分布收敛至X,记作
,意味着:
,对于所有F的连续点x。

也就是说,当n很大的时候,
累积函数和X的累积函数差不多

直观上而言,依分布收敛只在乎随机变量的分布,而不在乎他们之间的相互关系

举例而言,倘若已知
,假设
。对于任意一个发生的事件,Y与X的取值正好差了一个负号。但这并不影响X与Y有相同的累积函数,即
。如此一来,
。更一般的情况而言,只要X与Y有相同的累计函数,即same distributed,即使
,也有
。因为依分布收敛仅仅在乎分布,而不在乎相互之间的关系。

  • 概率收敛(convergence in probability):
定义:

依概率收敛至X,记作
,意味着:
,当



也就是说,当n很大的时候,对任意发生的事件,
和X的值差不多,即
很小。

直观上而言,依概率收敛在乎的是随机变量的值

这样说来,前面依分布收敛的例子如果套在概率收敛上就会出现问题。如果
,但对于任何一个与X分布一样的Y,但

一定不成立,因为X与Y只是分布相同,而值不同。但反而言之,如果
,即它们的值都差不多了,那么它们的分布一定也差不多,即
。因此,依概率收敛比依分布收敛要强,即


但在某种情况下,取值就可以确定分布。即X取某个常数的情况下。此时X的取值和X的分布唯一确定。即此时会有依分布收敛和依概率收敛等价,即


  • Lp收敛(convergence in Lp):
定义:

依Lp收敛至X,记作
,意味着:
,当


在p=2时即为均方收敛。

直观上而言,均方收敛在乎的也是随机变量的值,但其要求比依概率收敛更加严格。

之所以更加严格,是因为概率测度可以被均方测度所限制,其思想可以近似由Chebyshev不等式看到。
。因此
.

  • 几乎处处收敛(convergence almost surely):
定义:

几乎处处收敛至X,记作
,意味着:
,当


直观上而言,几乎处处收敛在乎的也是随机变量的值,但其要求也比依概率收敛更加严格。

如果没有接触过实变函数的知识,几乎处处收敛对于连续型随机变量可能比较难以理解。我们这边用离散型随机变量进行直观解释,以避免0测度下的一些问题。

对于
,即以概率
取1,其余为0的随机变量。其依概率收敛到1意味着,
和1的值都差不多,而且随着n越来越大,不相等的概率越来越小。转而言之,出现0的概率越来越小,极限为0。但几乎处处收敛至1要求,存在N,
时,
,即
和1的值都在n很大时必须相等,即
取0的概率在某个N后必须为0。前者限制其尾部概率收敛至0,但后者限制尾部概率为0。

结论:
(1)几乎处处收敛和Lp收敛最强,依概率收敛其次,依分布收敛最弱。
(2)几乎处处收敛和Lp收敛并无推导关系。
(3)在收敛到常数时,依概率收敛和依分布收敛等价。

题外话:在我学概率的时间里,其实我只用到过最弱的收敛,依分布收敛。感觉很多定理,如:大数定理(LLN)和中心极限定理(CLT)都只用到它。但或许是我只是一个小硕,这些东西并不完全弄得明白。所以还希望各位不吝赐教。( _)
3#
热心回应  16级独孤 | 2020-1-7 21:56:11 发帖IP地址来自
谢邀。
依概率收敛:
Almost sure:
简单的理解就是,依概率收敛的意思是,当n趋向无穷,

之间不相等的部分概率趋向于0,而Almost sure的意思是,当n趋向于无穷,
不收敛到
的概率为0。a.s.收敛可以推出依概率收敛。
而均方收敛:
,实际上可以理解为两个随机变量的距离随着n趋向于无穷而变为0。均方收敛可以推出依概率收敛,但是相反不成立。当然,如果加上一定的可积条件的话,依概率收敛可以推出均方收敛。
依分布收敛是个完全不同的概念。依分布收敛是一个分布函数收敛的概念,即
,所以

甚至都可以不被定义在同一个概率空间之内。
至于具体的定义、差别,建议学习测度论和高等概率的内容。
4#
热心回应  16级独孤 | 2020-1-7 21:56:12 发帖IP地址来自
各种收敛之间的强弱关系和implication我就不说了,我举一些简单的形象的例子帮助大家理解:
1.分布收敛:最简单的例子就是对于一个有限方差的总体做样本量为n的抽样,求其均值(或者和),重复这样的试验许多次,则样本均值的分布将以总体均值u为期望,总体方差sigma^2/n为方差。对样本均值进行标准化得到另一个变量Zn,当每次抽样的样本大小n趋向于无穷大时,Zn将最不限接近标准正态分布,也就是依分布收敛于标准正态分布。
2.概率收敛:假设一个人拉弓射箭射向靶心,令Xn为第n次他的得分。刚开始他非常可能得很多次0分,但是随着时间的推移,他的射箭技术将逐步提高,他越来越可能击中靶心并且得10分。在多年的训练之后,他每次射击击中靶心10分的概率将不断提高,或者他击中靶心之外的概率将不断减小。这样,这个系列Xn就是依概率收敛于X=10。重点在后面,也是和处处收敛的区别:但是,由于误差的存在,他依然有可能在某一次试验出现偏离靶心的情况,只不过这种可能性或许会越来越小,只是我们不能保证不发生。也就是不能保证Xn从哪一个时刻其永远保持恒定状态。
3.几乎处处收敛:考虑一种短寿命的动物,我们记录该动物某个个体每天消耗的食物数量Xn,这序列数字将不可预测,但是当时间(天数n)越来越大时,我们非常肯定有一天会变成0并且以后永远是0, 因为这个动物最终将死去。
4.均方收敛:均方收敛同时考虑估计量的bias和方差,只有当n趋向无穷二者极限均为0时,才是均方收敛。
5#
热心回应  16级独孤 | 2020-1-7 21:56:13 发帖IP地址来自
上一张考qualify时候做的总结(电脑上打开看清楚一些):

字迹有些潦草,凑合看。右边竖着写的是定义,上下框起来的部分和题目没有太多关系,主要内容是中间部分。共有四种主要的收敛方式:
1. almost sure convergence (a.s.)
2. convergence in L(k) norm (k=2即均方收敛)
3. convergence in probability (P)
4. convergence in distribution (D)

图中实箭头表示可以直接推出,虚箭头表示需要一定条件才可推出,箭头上带叉表示反例。简单总结如下:
1. a.s.和L(k)是最强的两种收敛,依概率收敛次之,依分布收敛再次。如果almost sure convergence,则一定有convergence in probability,如果convergence in L(k),则一定有convergence in probabiliby,如果convergence in probability,则一定有convergence in distribution。
2. almost sure convergence和convergence in L(k)之间没有必然关系。
3. convergence in probability无法推出更强一级的收敛,convergence in distribution则更弱,连convergence in probability也无法推出。
4. 有比almost sure convergence更强的收敛,即为complete convergence。
5. 对于convergence in L(k)来说,更大的k可以推出更小的L(k)收敛,但反之不可。
6. almost sure convergence有等价的判定方法,即如果
infinitely often发生的概率等于0,则almost sure convergence。
7. convergence in probability也有等价的判定方法,若任取
的一个子列,都有这一子列的子列almost sure收敛于
,则
依概率收敛于

8. convergence in distribution有两种等价的判断方法,即Helly-Bray定理和Levy定理。
6#
热心回应  16级独孤 | 2020-1-7 21:56:14 发帖IP地址来自
手机答题,公式没法排版╮( ω )╭
下面的内容有很多是我自己的理解,不一定严格,所以看看就好,不要深究,有什么理解错误的地方还请大神们指出╮( ω )╭

先说结论,根据条件严格程度排序,从弱到强依次为:
依分布收敛、依概率收敛、均方收敛和以概率1收敛

分别定义如下:
依分布收敛是n→∞时,分布累积函数Fn→F
依概率收敛是n→∞时,P(|Xn-X|≥ε)=0
以概率1收敛是n→∞时,P(Xn=X)=1
均方收敛是n→∞时,E((Xn-X)^2)=0

首先来看依分布收敛,根据定义可以发现,依分布收敛考察的是累积分布的收敛情况,而与定义在概率空间上的随机变量X没有关系,依分布收敛的随机变量序列Xn在概率空间上不一定收敛于X

与之相对的是依概率收敛,依概率收敛要考察的是定义在整个概率空间上的随机变量的收敛情况,根据测度论的观点有,当n→∞时,随机变量序列Xn不收敛于X的点的集合的测度为0,即依测度收敛于X

比依概率收敛更强的是以概率1收敛,根据定义有当n→∞时,几乎处处Xn=X,即随机变量Xn几乎处处收敛于X。同依概率收敛相比,依概率收敛只要求随机变量序列Xn不收敛于X的点足够少,而对随机变量序列本身是否收敛没有要求。依概率收敛强调的是随机变量在概率空间上的收敛情况,以概率1收敛强调的是Xn在概率空间上的几乎所有点收敛于X

再来看均方收敛,由马尔科夫不等式可以推出如下不等式
P(|Xn-X|≥a)≤(E(Xn-X))^2/a^2
可以得出均方收敛是依概率收敛的充分条件,而根据依概率收敛的定义可以推出
P((Xn-X)^2≥ε)=0
所以要想推出E((Xn-X)^2)=0还需要(Xn-X)^2是可积的,即∫(Xn-X)^2dx<∞
形象的理解就是所有不收敛的点与X距离是有限的,这也是比依概率收敛严格的地方
但是,均方收敛和以概率1收敛并没有直接关系,两个收敛从不同的方面对依概率收敛更严格

为了形象的理解这些收敛之间的联系,下面就开始举栗子啦ヽ(‵)
考察随机变量序列
Xn=1-cos(2πnω) ω∈(0,1)
该序列累积分布函数收敛于均匀分布的累积分布函数,所以该随机变量序列依分布收敛于均匀分布,但是考察这个随机变量序列与均匀分布没有任何关系。

再看定义在(0,1)的随机变量序列
Xn=1 ω∈(i/2^k,(i+1)/2^k)
Xn=0 ω(i/2^k,(i+1)/2^k)
对于n∈N,有唯一的k,i使得n=2^k+i
显然n→∞时,(i/2^k,(i+1)/2^k)的测度为0,然而这个序列不存在n→∞的极限,所以这是依概率收敛而不是以概率1收敛的

最后再来看看这样一个随机变量序列
Xn=δ(n)
显然该函数只有当ω=n时不收敛,{n}的测度为0,即依概率收敛到X=0,但是有
E((Xn-X)^2)=E(Xn^2)=-d^2φ/dt^2|t=0
因为δ(n)的特征函数为φ=e^(int),所以
E((Xn-X)^2)=n^2
所以该随机变量序列不是均方收敛的,如果令
Xn=δ(c),c∈N+
则还能证明该随机变量序列是以概率1收敛的,但仍然不是均方收敛的
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:31799
帖子:6375
精华:1
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP