你对贝叶斯统计都有怎样的理解？

希望可以有和经典统计学对比而言的观点，有文采有哲学味儿就更好啦

热心的回应 · 2019-6-29 01:29:45

简单说，频率派认为估计对象（参数）是一个未知的固定值。而贝叶斯却认为未知的参数都是随机变量。

我曾经见到这么个不错的例子：我们要通过一些事实估计“爱因斯坦在1905年12月25日晚上八点吸烟”的真假。定义参数
:

，吸烟；
，没吸烟。
那么频率派认为，爱因斯坦有没有曾经在这时刻吸烟是事实，
是取值0或者1的固定数，不能说"
=1的概率是xxx"；然而贝叶斯派认为可以说“
=1概率是30%”。而且随着所得资料（样本x）的增多，我们可以把这个概率加以变化，记得到
的分布。这个概率其实是“信心”的含义。

频率派和贝叶斯代表两种不同的真理观。频率派认为本体（即参数）存在且固定，只不过我们看不到罢了, 参数的角色类似于柏拉图的“理念”。贝叶斯则认为，只要是我们没有感知的东西都可以认为是随机的，感知到了新的表象（即观测数据）只是增加对不可知事物（参数）的信念，使得
的分布比
更加“集中”了。这类似于康德的不可知论。

热心的回应 · 2019-6-29 01:29:46

谢邀。
Bayesian学派说概率是一个人对于一件事的信念强度，概率是主观的。而频率派是说概率是客观的。所有能用客观概率假设能解的题，用主观概率假设也都能解，答案一样。对于两者都能解的题，主观概率假设和客观概率假设会得到同样的答案。

更严格的说法在《概率论沉思录》有证明。该书证明了假设现实中有一个客观概率，比如某物理现象出现的概率是0.5。那么，在给定足够充分的信息的情况下，主观概率都会逼近客观概率。

为什么主观概率会接近于客观概率？或者说，为什么人类可以通过头脑认识世界？
想象一下，如果主观概率不会接近于客观概率，也就意味着人脑认识不了客观世界，然后人类的一切推理、探索、发现、认识，都只是人类的幻想，这是否让人不寒而栗？

谢天谢地，我们生活在一个人脑恰好可以理解的世界里。这也是本书英文标题《probability: the logic of science》的意义，谢天谢地，我们今天的科学不是幻影。可是，为什么？客观概率是外部世界的演化，而人脑是内部世界的思考，它们凭什么恰好一致？

这是因为进化和人择原理。主观概率是在刻画人脑的思考过程。如果主观概率不逼近客观概率，也就是人脑无法通过思考获得现实的真相，人类这个物种根本就活不下来。而另外一方面，概率论的基础其实很简单，就是几条公理。看起来复杂的人类智能，其实就是基于这几条简单的公理。所以，自然演化这么一个简单的过程，能够恰好演化出一个复合概率论的神经细胞和人脑，其实没有想象中那么神奇。沿着这条路往下走，我们可以推导出很多关于人脑和进化的知识。我当时想到这一部分的时候，感到如痴如醉。我们今天已经有很多关于人类智能的零散的知识，我真希望自己能活着看到人工智能实现的那一天。

在上面的讨论中，我不加证明的声称"主观概率是在刻画人脑的思考过程“，有证据吗？

有的。《概率论沉思录》基于主观概率假设和几个其他的假设（这几个假设是从大部分人的思考过程中抽象出来的），用严格的逻辑推理证明概率论的几大公理。也就是说，概率论的几大公理可以完全由人脑思考过程的几个特点推理出来。概率论是今天这个样子，且只能是今天这个样子。

在后续的章节中，作者举了大量的例子，用严格的数学计算来解释我们日常生活中的种种推理，比如福尔摩斯破案，比如为什么人类社会中存在意见极化的现象（一个新的关于转基因的实验出来，为什么反对者只是更加反对，支持者变得更加支持。）。这些推理初看起来都是人的不理性，也就是不遵从概率论来推理，但是仔细分析之后，就会发现看起来最不理性的现象，其实还是可以用概率论解释的。

另外说一句，这些现象是不能用客观概率来刻画的。只能用主观概率假设，整个推理过程才有意义。

我们应该在中学教育中传授逻辑和Bayesian概率论。逻辑给予我们清晰思考的基础，但是日常生活中的思考，因为信息不充分性，其实更接近于Bayesian概率论，同样清晰、严谨，但允许在信息不充分的情况下进行推理。这或许能够帮助我们创造一个更好的社会。

热心的回应 · 2019-6-29 01:29:47

最近我自己在学习一些关于机器学习的东西，目前学到了贝叶斯统计这一块，我觉得很感兴趣，于是便找了一些资料看了看，在自己琢磨一段时间后，写了一篇博客，原文地址：机器学习(一) —— 浅谈贝叶斯和MCMC。正好题主也说了希望从哲学角度解释一下，我自认为文章写得还算深入浅出，能给大家带来帮助。
为了有打广告之嫌疑，我还是内文章内主要的内容在这里重新编辑一遍，省去全文中MCMC和sklearn的部分，有兴趣的可以自行前往。
[h1]浅谈贝叶斯[/h1]不论是学习概率统计还是机器学习的过程中，贝叶斯总是是绕不过去的一道坎，大部分人在学习的时候都是在强行地背公式和套用方法，没有真正去理解其牛逼的思想内涵。我看了一下自己学校里一些涉及到贝叶斯统计的课程，content里的第一条都是 Philosophy of Bayesian statistics。
[h1]历史背景 [/h1]什么事都要从头说起，贝叶斯全名为托马斯·贝叶斯(Thomas Bayes，1701-1761),是一位与牛顿同时代的牧师，是一位业余数学家，平时就思考些有关上帝的事情，当然，统计学家都认为概率这个东西就是上帝在掷骰子。当时贝叶斯发现了古典统计学当中的一些缺点，从而提出了自己的“贝叶斯统计学”，但贝叶斯统计当中由于引入了一个主观因素（先验概率，下文会介绍），一点都不被当时的人认可。直到20世纪中期，也就是快200年后了，统计学家在古典统计学中遇到了瓶颈，伴随着计算机技术的发展，当统计学家使用贝叶斯统计理论时发现能解决很多之前不能解决的问题，从而贝叶斯统计学一下子火了起来，两个统计学派从此争论不休。
[h1]什么是概率？[/h1]什么是概率这个问题似乎人人都觉得自己知道，却有很难说明白。比如说我问你 掷一枚硬币为正面的概率为多少？，大部分人第一反应就是50%的几率为正。不好意思，首先这个答案就不正确，只有当材质均匀时硬币为正面的几率才是50%（所以不要觉得打麻将的时候那个骰子每面的几率是相等的，万一被做了手脚呢）。好，那现在假设硬币的材质是均匀的，那么为什么正面的几率就是50%呢？有人会说是因为我掷了1000次硬币，大概有492次是正面，508次是反面，所以近似认为是50%，说得很好（掷了1000次我也是服你）。
掷硬币的例子说明了古典统计学的思想，就是概率是基于大量实验的，也就是 大数定理。那么现在再问你，有些事件，例如：明天下雨的概率是30%；A地会发生地震的概率是5%；一个人得心脏病的概率是40%…… 这些概率怎么解释呢？难道是A地真的100次的机会里，地震了5次吗？肯定不是这样，所以古典统计学就无法解释了。再回到掷硬币的例子中，如果你没有机会掷1000次这么多次，而是只掷了3次，可这3次又都是正面，那该怎么办？难道这个正面的概率就是100%了吗？这也是古典统计学的弊端。
[h1]举个例子：生病的几率[/h1]

一种癌症，得了这个癌症的人被检测出为阳性的几率为90%，未得这种癌症的人被检测出阴性的几率为90%，而人群中得这种癌症的几率为1%，一个人被检测出阳性，问这个人得癌症的几率为多少？

猛地一看，被检查出阳性，而且得癌症的话阳性的概率是90%，那想必这个人应该是难以幸免了。那我们接下来就算算看。
我们用
表示事件 “测出为阳性”, 用
表示“得癌症”,
  表示“未得癌症”。根据题目，我们知道如下信息:

那么我们现在想得到人群中检测为阳性且得癌症的几率
:

这里
表示的是联合概率，得癌症且检测出阳性的概率是人群中得癌症的概率乘上得癌症时测出是阳性的几率，是0.009。同理可得未得癌症且检测出阳性的概率：

这个概率是什么意思呢？其实是指如果人群中有1000个人，检测出阳性并且得癌症的人有9个，检测出阳性但未得癌症的人有99个。可以看出，检测出阳性并不可怕，不得癌症的是绝大多数的，这跟我们一开始的直觉判断是不同的！可直到现在，我们并没有得到所谓的“在检测出阳性的前提下得癌症的概率 ”，怎么得到呢？很简单，就是看被测出为阳性的这108(9+99)人里，9人和99人分别占的比例就是我们要的,也就是说我们只需要添加一个归一化因子(normalization)就可以了。所以阳性得癌症的概率
为：
, 阳性未得癌症的概率
为：
。这里
  ，
中间多了这一竖线
成为了条件概率，而这个概率就是贝叶斯统计中的 后验概率！而人群中患癌症与否的概率
就是 先验概率！我们知道了先验概率，根据观测值(observation)，也可称为test evidence：是否为阳性，来判断得癌症的后验概率，这就是基本的贝叶斯思想，我们现在就能得出本题的后验概率的公式为：

由此就能得到如下的贝叶斯公式的一般形式。

[h1]贝叶斯公式[/h1]我们把上面例题中的
  变成样本(sample)
  , 把
变成参数(parameter)
, 我们便得到我们的贝叶斯公式：

可以看出上面这个例子中，
事件的分布是离散的，所以在分母用的是求和符号
  。那如果我们的参数
的分布是连续的呢？没错，那就要用积分，于是我们终于得到了真正的 贝叶斯公式 ：

其中
指的是参数的概率分布，
指的是先验概率，
指的是后验概率，
指的是我们观测到的样本的分布，也就是似然函数(likelihood)，记住竖线
左边的才是我们需要的。其中积分求的区间
  指的是参数
  所有可能取到的值的域，所以可以看出后验概率
  是在知道
的前提下在
域内的一个关于
的概率密度分布，每一个
  都有一个对应的可能性(也就是概率)。

[h1]理解贝叶斯公式[/h1]这个公式应该在概率论书中就有提到，反正当时我也只是死记硬背住，然后遇到题目就套用。甚至在国外读书时学了一门统计推断的课讲了贝叶斯，大部分时间我还是在套用公式，直到后来结合了一些专门讲解贝叶斯的课程和资料才有了一些真正的理解。要想理解这个公式，首先要知道这个竖线
的两侧一会是
，一会是
到底指的是什么，或者说似然函数和参数概率分布到底指的是什么。
似然函数
首先来看似然函数
，似然函数听起来很陌生，其实就是我们在概率论当中看到的各种概率分布
，那为什么后面要加个参数
呢？我们知道，掷硬币这个事件是服从伯努利分布的
,
次的伯努利实验就是我们熟知的二项分布
, 这里的
就是一个参数，原来我们在做实验之前，这个参数就已经存在了(可以理解为上帝已经定好了)，我们抽样出很多的样本
是为了找出这个参数，我们上面所说的掷硬币的例子，由于我们掷了1000次有492次是正面，根据求期望的公式
(492就是我们的期望)可以得出参数
为
，所以我们才认为正面的概率是近似50%的。
现在我们知道了，其实我们观测到样本
的分布是在以某个参数
为前提下得出来的，所以我们记为
，只是我们并不知道这个参数是多少。所以 参数估计 成为了统计学里很大的一个课题，古典统计学中常用的方法有两种：矩方法(momnet) 和 最大似然估计(maximum likelihood estimate, mle) ，我们常用的像上面掷硬币例子中求均值的方法，本质就是矩估计方法，这是基于大数定理的。而统计学中更广泛的是使用最大似然估计的方法，原理其实很简单，在这简单说一下：假设我们有
个样本
, 它们每一个变量都对应一个似然函数:

我们现在把这些似然函数乘起来:

我们只要找到令
这个函数最大的
值，便是我们想要的参数值(具体计算参考[2]中p184)。

后验分布(Posterior distribution)
现在到了贝叶斯的时间了。以前我们想知道一个参数，要通过大量的观测值才能得出，而且是只能得出一个参数值。而现在运用了贝叶斯统计思想，这个后验概率分布
其实是一系列参数值
的概率分布，再说简单点就是我们得到了许多个参数
及其对应的可能性，我们只需要从中选取我们想要的值就可以了：有时我们想要概率最大的那个参数，那这就是 后验众数估计(posterior mode estimator)；有时我们想知道参数分布的中位数，那这就是 后验中位数估计(posterior median estimator);有时我们想知道的是这个参数分布的均值，那就是 后验期望估计。这三种估计没有谁好谁坏，只是提供了三种方法得出参数，看需要来选择。现在这样看来得到的参数是不是更具有说服力？

置信区间和可信区间
在这里我想提一下 置信区间(confidence interval, CI) 和 可信区间(credibility interval,CI),我觉得这是刚学贝叶斯时候非常容易弄混的概念。
再举个例子：一个班级男生的身高可能服从某种正态分布
,然后我们把全班男生的身高给记录下来，用高中就学过的求均值和方差的公式就可以算出来这两个参数，要知道我们真正想知道的是这个参数
，当然样本越多，得出的结果就接近真实值(其实并没有人知道什么是真实值，可能只有上帝知道)。等我们算出了均值和方差，我们这时候一般会构建一个95%或者90%的置信区间，这个置信区间是对于样本
来说的，我只算出了一个
和一个
  参数值的情况下，95%的置信区间意味着在这个区间里的样本是可以相信是服从以
为参数的正态分布的，一定要记住置信区间的概念中是指 一个参数值 的情况下！
而我们也会对我们得到的后验概率分布构造一个90%或95%的区间，称之为可信区间。这个可信区间是对于参数
来说的，我们的到了 很多的参数值，取其中概率更大一些的90%或95%，便成了可信区间。

先验分布(Prior distribution)
说完了后验分布，现在就来说说先验分布。先验分布就是你在取得实验观测值以前对一个参数概率分布的 主观判断，这也就是为什么贝叶斯统计学一直不被认可的原因，统计学或者数学都是客观的，怎么能加入主观因素呢？但事实证明这样的效果会非常好！
再拿掷硬币的例子来看(怎么老是拿这个举例，是有多爱钱。。。)，在扔之前你会有判断正面的概率是50%，这就是所谓的先验概率，但如果是在打赌，为了让自己的描述准确点，我们可能会说正面的概率为0.5的可能性最大，0.45的几率小点，0.4的几率再小点，0.1的几率几乎没有等等，这就形成了一个先验概率分布。
那么现在又有新的问题了，如果我告诉你这个硬币的材质是不均匀的，那正面的可能性是多少呢？这就让人犯糊涂了，我们想有主观判断也无从下手，于是我们就想说那就先认为0~1之间每一种的可能性都是相同的吧，也就是设置成0~1之间的均匀分布
作为先验分布吧，这就是贝叶斯统计学当中的 无信息先验(noninformative prior)！那么下面我们就通过不断掷硬币来看看，这个概率到是多少，贝叶斯过程如下： (图来自[3])

从图中我们可以看出，0次试验的时候就是我们的先验假设——均匀分布，然后掷了第一次是正面，于是概率分布倾向于1，第二次又是正，概率是1的可能性更大了，但 注意：这时候在0.5的概率还是有的，只不过概率很小，在0.2的概率变得更小。第三次是反面，于是概率分布被修正了一下，从为1的概率最大变成了2/3左右最大(3次试验，2次正1次反当然概率是2/3的概率最大)。再下面就是进行更多次的试验，后验概率不断根据观测值在改变，当次数很大的时候，结果趋向于0.5(哈哈，结果这还是一枚普通的硬币，不过这个事件告诉我们，直觉是不可靠的，一定亲自实验才行~)。有的人会说，这还不是在大量数据下得到了正面概率为0.5嘛，有什么好稀奇的？ 注意了！画重点了！(敲黑板) 记住，不要和一个统计学家或者数学家打赌！跑题了，跑题了。。。说回来，我们上面就说到了古典概率学的弊端就是如果掷了2次都是正面，那我们就会认为正面的概率是1，而在贝叶斯统计学中，如果我们掷了2次都是正面，只能说明正面是1的可能性最大，但还是有可能为0.5, 0.6, 0.7等等的，这就是对古典统计学的一种完善和补充，于是我们也就是解释了，我们所谓的 地震的概率为5%；生病的概率为10%等等这些概率的意义了，这就是贝叶斯统计学的哲学思想。

[h1]共轭先验(Conjugate prior)[/h1]共轭先验应该是每一个贝叶斯统计初学者最头疼的问题，我觉得没有“之一”。这是一个非常大的理论体系，我试着用一些简单的语言进行描述，关键是去理解其思想。
继续拿掷硬币的例子，这是一个二项试验
，所以其似然函数为:

在我们不知道情况时就先假设其先验分布为均匀分布
，即：

那现在根据贝叶斯公式求后验概率分布：

我们得到结果为:

这么一大串是什么呢？其实就是大名鼎鼎的贝塔分布(Beta distribution)。简写就是
。比如我掷了10次(n=10)，5次正(x=5),5次反，那么结果就是
, 这个分布的均值就是0.5(
)，很符合我们想要的结果。
现在可以说明，我们把主观揣测的先验概率定为均匀分布是合理的，因为我们在对一件事物没有了解的时候，先认为每种可能性都一样是非常说得通的。有人会认为，既然无信息先验是说得通的，而且贝叶斯公式会根据我们的观测值不断更新后验概率，那是不是我们随便给一个先验概率都可以呢？当然......不行！！这个先验概率是不能瞎猜的，是需要根据一些前人的经验和常识来判断的。比如我随便猜先验为一个分段函数：

靠，是不是很变态的一个函数...就是假设一个极端的情况，如果你把这个情况代入贝叶斯公式，结果是不会好的(当然我也不知道该怎么计算)。
这个例子中，我看到了可能的后验分布是
分布，看起来感觉有点像正态分布啊，那我们用正态分布作为先验分布可以吗？这个是可以的(所以要学会观察)。可如果我们把先验分布为正态分布代入到贝叶斯公式，那计算会非常非常麻烦，虽然结果可能是合理的。那怎么办？不用担心，因为我们有共轭先验分布！
继续拿上面这个例子，如果我们把先验分布
设为贝塔分布
，结果是什么呢？我就不写具体的计算过程啦，直接给结果：

有没有看到，依然是贝塔分布，结果只是把之前的1换成了
(聪明的你可能已经发现，其实我们所说的均匀分布
等价于
,两者是一样的)。
由此我们便可以称 二项分布的共轭先验分布为贝塔分布！注意！接着画重点！：共轭先验这个概念必须是基于似然函数来讨论的，否则没有意义！ 好，那现在有了共轭先验，然后呢？作用呢？这应该是很多初学者的疑问。
现在我们来看，如果你知道了一个观测样本的似然函数是二项分布的，那我们把先验分布直接设为
，于是我们就 不用计算复杂的含有积分的贝叶斯公式 便可得到后验分布
了！！！只需要记住试验次数
，和试验成功事件次数
就可以了！互为共轭的分布还有一些，但都很复杂，用到的情况也很少，推导过程也极其复杂，有兴趣的可以自行搜索。我说的这个情况是最常见的！

注意一下，很多资料里会提到一个概念叫伪计数(pseudo count),这里的伪计数值得就是a,b对后验概率分布的影响，我们会发现如果我们取
，这个先验概率对结果的影响会很小，可如果我们设为
，那么我们做10次试验就算是全是正面的，后验分布都没什么变化。

[h1]参考书籍[/h1][1]韦来生，《贝叶斯统计》，高等教育出版社，2016
[2]John A.Rice, 《数理统计与数据分析》(原书第三版), 机械工业出版社, 2016
[3]Cameron Davidson-Pilon, Probabilistic Programming and Bayesian Methods for Hackers(https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers), 2016

声明：
本篇内容结合了我在炼数成金(http://dataguru.cn)报的Python机器学习课程以及Udacity里ud-120:机器学习入门课程的讲解，让我对贝叶斯有了一个新的理解和认识，表示感谢。
这篇文章主要介绍了贝叶斯统计的数学思想，希望能对大家有所帮助，如果有任何错误和解释不当的地方，请给我评论，我也只是个初学者，也希望能得到大神的指点。
（本文仅限于非商业性转载，且注明出处）

热心的回应 · 2019-6-29 01:29:48

说到贝叶斯就不得不强力推出刘未鹏大神的这篇“数学之美番外篇：平凡而又神奇的贝叶斯方法”，虽然是科普性质的文章，但是对于理解贝叶斯方法非常有帮助……顺便一说，以我这个实力学习统计，果然只能徜徉在科普读物的海洋中啊！

热心的回应 · 2019-6-29 01:29:49

题主想了解贝叶斯统计和经典统计的对比分析，希望下面的解释能够符合“文采”和“哲学味儿”~
（文中引号提到的参考文章都发表在自己的公众号里，对数学、人工智能和机器学习的知友可以在文末进行关注。部分图片来自于网络，侵删）

以下正文：
在 “免费: 大赏新书CASI” 里面斯坦福的优化大师Efron对统计的描述有一个三角形，这个三角形的三个顶点分别是频率派(Frequentist)，费希尔派（Fisherian）和贝叶斯派（Bayesian）。  这个FFB就是我们要说的三层奥义！要充分理解概率分布也要从这三层奥义出发。

什么是FFB三奥义？
什么是频率派？
频率派就是本着客观事实的思想，从数学极限的角度出发，建立概率思想。这个过程很重要的支柱就是大数定理！而早期最重要的一个大数定理就是伯努利大数定理，这是Jacob Bernoulli建立起来的（详细参考变分の美），这也是按概率收敛的最早形式。

根据大数定理，我们知道二项分布的极限情况就是正态分布。关于正态分布可以参考RickJin的“正态分布的前世今生”。很直观的来说，基于频率的情况下，需要超级大数据量的实验。好处也非常明显，可以建立起来坚实的理论基础。譬如，数学期望的表示，就有一个数学收敛的过程！
简单说来， 频率派就是从海量数据事实出发，利用数据极限的思想建立起概率分布来。
什么是费希尔派？
费希尔派是指主要统计的思路。什么是统计的思路，就是根据经验出发建立起来的合理解释。所谓合理，就是最大似然的基本思想。  这个思想的集大成者就是Fisher 费希尔。

譬如，高斯是基于经验推理的高高手（详细参考一步一步走向锥规划 - LS），他根据天文数据处理一个最常用的经验是：均值最优。  那么根据均值最优的经验假设下，寻找误差满足的分布，从而定义了正态分布。
费希尔派和频率派的不同点有点类似统计和概率的不同。我们知道，统计的角度和概率的角度有很大的不同。概率的角度，是根据大数定理，基于频率出发先计算出概率的分布，然后再去研究。而统计的角度，是直接根据经验假设，然后去拟合数据分布，再去研究。

那么费希尔学派最大的理论基础就是，费希尔Fisher建立的最大似然拟合和充分统计量的思想。根据最大似然的思想，首先我们需要根据经验来寻找一个最符合有限的数据的曲线。

那么，什么又是充分统计量的思想呢？其实这也是奥卡姆剃刀原理在统计里面的一种具体化。  根据奥卡姆剃刀原理，那么找到的曲线要求尽可能的形式简单。

而费希尔定义了，这种拟合曲线的表达式的简单形式应该是可以划分成两个部分，一个部分只是和已知数据h(X)有关系。而另外一部分只和参数和数据上计算表达式T(X)为自变量的函数g（,）有关。  如果这个拟合曲线能进行这样的划分，那么数据上的数据表达式T(X)就是已知数据的充分统计量了：

所以，最大似然估计告诉我们如何将曲线和数据进行拟合了。而充分统计量告诉我们如何定义曲线表达式的形式了。  那么，根据费希尔定义好的经验，我们就可以从数据出发找到概率分布了。
简单来说，费希尔派就是基于有限数据，利用经验表示的思想，建立概率分布的思想。  这个过程，明显的容忍了对事实数据的观测的大量减少！！！

什么是贝叶斯派？
贝叶斯派主要是推理的思想。而这个推理是建立在bayes定理的基础上的。

贝叶斯定理从集合论的角度告诉我们，统一事实，你可以从两个不同的角度去分阶段理解。

你可以站在A的角度去看B，也可以站在B的角度去看A。他们看到的事实应该是一致的。

那么，根据费希尔里面提出的有限数据X加参数的思想，就可以进行参数和数据的基础上进行推理了。

虽然贝叶斯派吸收了费希尔派关于有限观测和参数的思想，但是缺摒弃了经验最优的思想。而是选择了最大熵原理。

最大熵原理告诉我们，在给定限制的情况下，要均匀的充满整个限制空间的基本原理。

所以，把已知数据看成是一种限制，那么均匀的充满限制的最大熵情况就是贝叶斯派告诉我们的概率分布。  并且基于这个原理，给出了费希尔派的关于最大似然估计的证明（参考 “最大似然估计的2种论证”）。
简而言之，贝叶斯派吸收了费希尔的有限观测的思想，但是摒弃的经验，选择了一个最大熵原理和贝叶斯推理来建立概率思想。

三奥义下的概率分布？
概率分布中，最重要的是指数族分布。而这个核心又是正态分布。

频率派下的概率分布
在这个派别下，棣莫弗de Moivre利用自己的好朋友Stirling确定的Stirling公式，加上从二项分布，对期望为中心求极限分布的思想，得到了正态分布。更多细节参考“正态分布的前世今生” 。

有了这个伟大的基础，再有各种分布进行观测量的变换，极限的变换，离散到连续的变换等等，建立起来强大的概率分布体系。细节就不展开了。

譬如，伯努利分布就是抛一个硬币，重复多次就是二项分布等价于抛多次硬币，二项分布如果观测值修改为硬币正面出现的次数，就是泊松分布，等等。。。

费希尔派下的概率分布
在这个派别下，由高斯基于均值最优的经验，基于最大似然的思想找到误差分布，也就是正态分布。更多细节参考“正态分布的前世今生” 。
有了这个理论基础，再基于费希尔的充分统计量，给出各种统计量，建立了指数族分布。

贝叶斯派下的概率分布
在这个派别下，在Edwin Thompson Jaynes利用最大熵原理改写了费希尔派的经验思想。就变得异常强大。在最大熵的基础上（详细参考信息熵的由来），指数族分布不在是经验公式，而是可以证明的一个表达式。
首先给出三个基础假设：有限数据假设，概率分布假设，和统计量假设。

有了最大熵目标，就可以利用拉格朗日乘数法进行求解了（详细参考一挑三 FJ vs KKT）：

这样，我们就根据最大熵推出了指数族分布的形式了。更为详细参考 “66天写的逻辑回归” 引。
简而言之，频率派的极限收敛，费希尔派的经验拟合，和贝叶斯派的最大熵推理，都是概率分布的源泉。

小结：
概率统计的发展从频率派，费希尔派，到贝叶斯派，要求的事实观测越来越少，要求的经验也越来越少。体现了概率的精华，以少测多，见微知著的智慧！
自己的公众号：AI2ML
欢迎大家一起学习讨论~

你对贝叶斯统计都有怎样的理解？

5 个回复