信息的本质?先来看看香农在信息论中的定义。香农不光给出了信息,熵等基础定义,更推导出了现代通信中一系列最重要定理,揭示了:
- 1,如何最高效的压缩信息,以及压缩的极限是怎样;
- 2,如何在噪声条件下,做到高效,低错误(任意低的误码率)的传输信息。
当然,信息论中的熵,和物理学中的熵实质是相同的。如果不是有这样的铺垫,香农的成就就有点让人难以置信了。像香农这样,从定义到结构,再到性能边界,一步搞定一个异常重要的新领域,确实是人类文明史上少见的。
香农是如何定义信息的呢?他一点都不磨蹭,直接通过概率来定义信息。信息是概率的函数。确切一点,这个函数的核心是可逆的上凹函数,一般取对数,如果对数的底数取2,即为比特。
香农为什么这样定义信息呢?这样定义的信息可以方便、快速、直觉地量化信息。
从简单的等概模型出发:
[h1]等概模型[/h1]有以下假设:
- 假设1,甲通过一串符号来传递给乙信息;
- 假设2,每个符号的取值都有等概的两种,比如硬币的正反面,或者电压的±1,或者其他任何有差异的两种样本符号;这样的符号可以称之为二元符号。
那么,我们对信息的度量应该具有以下直观的性质:
- 符号串的长度增加一倍,所包含的信息量增加一倍;称之为可加性。
- 每一个符号的种类数越多,信息量也越多。而且,如果每个符号的种类数目如果是8,那么,这样一个符号可以用3个二元符号代替。
根据上面的性质2,我们可以明显的发现,对于等概模型,如果以一个二元符号所携带的信息(单位称之为比特吧)来衡量,那么,一个8元符合所携带的信息为3比特。不要怀疑,比特的定义就是可以这么直觉。如果, ![]()
为2的整数次幂, ![]()
元符号,所携带的信息,用比特来衡量,就是其以为2为底的对数,即 ![]()
。
这么定义等概模型的一个符号所包含的信息量之后,我们验证其是否符合性质1。根据,乘法原理和对数函数性质,连续 ![]()
个 ![]()
元符号的传输的信息量,就等于一个 ![]()
元信号的 ![]()
倍。这个性质是自然而然成立的。
我们仔细反思一下上面的等概模型,其实,一个符号的信息量在于这个符号等概样本的数量,如果信息量定义为这个数量的对数,那么信息量就符合可加性。且很容易用二元信号的信息量为单位来度量一个 ![]()
元信号的信息量。
如果熟悉物理学史(当然,我不是很熟悉,如有错误,请见谅),物理学上最初定义熵好像就是通过等概样本数量出发的。
到这里,香农的定义几乎快结束了。然而,小朋友,你是不是有很多问号。
- 问号1,这是我们平时谈的信息吗?
- 问号2,这似乎有点太简单,太敷衍了吧!
没有人可以否认上面等概模型,是可以传递信息的。一个二元符号,甲可以控制其选择把信息传给乙,按照提前的约定,告诉乙是否是要一起对敌人发起进攻。一串二元符号,可以借助约定好的通用编码规则(ASCII码,摩尔密码等等),来传输任何文章或小说,或者实现WIFI协议。这里我们不必要非得信息源是等概的,浪费一点无关本质嘛(这样会产生浪费,后面我再解释)。
那么至于你对信息的理解是啥,这里不是很关心,至少香农没有关心。我们能把一串二进制序列从地球一段传递到另一端,就可以把一段语音,一副图像,一份直播,传递过去。反过来,你觉得,一本《几何原本》,一段美女的视频含有你需要的所谓的信息,那么,你就该从某种程度上承认,上面的二元符号序列间接的完成了这些信息的传输。
上面我们可以看到,对于等概模型,居然可以传递各种信息了,即便这些信息不一定是等概的。我们继续往下聊,在等概模型中,信息的定义是多么简单和直接,那么,非等概呢?
这一问,你可以多思考一会。答案在后面。
[h1]非等概模型[/h1]上面的问题,其实呢,香农的答案也非常简单,
那就是,对每个样本出现的概率,乘上它所携带的等概信息(假设所有样本都是等概的,且概率相同与此样本),然后求和,即:
![]()
注: ![]()
表示一个符号,确切一点是一个随机变量, ![]()
表示样本1发生。
仔细想想,这个式子也是很符合直觉的。
咱们直接上一个具体的模型,好好体会一下,有以下假设:
- 假设1,甲通过一串符号来传递给乙信息;
- 假设2,每个符号
![]()
,的取值都有三种, ![]()
, ![]()
, ![]()
。且各自概率依次为: ![]()
, ![]()
, ![]()
. 然后,开始我们无法更加直觉的理解:
- 如果,都是所有样本都像
![]()
,那么,此符号的信息量为1bit。即,这个符号仅需要一个二元符号来传输; - 如果,都是所有样本都像
![]()
,那么,此符号的信息量为2bit。即,这个符号仅需要一个四元符号来传输,或者两个二元符号来传输; - 然而,不是所有样本都像
![]()
,且平均有![]()
比例的的样本为 ![]()
,这些样本的信息量为1bit,应该需要1个二元符号来传输。 - 然而,不是所有样本都像
![]()
,且平均有![]()
比例的的样本为 ![]()
,这些样本的信息量为2bit,应该需要2个二元符号来传输。 - 综上,平均来讲,需要
![]()
个二元符号来传输。 那么,这样的编码存在吗?
是的,存在的:
这是一种非前缀编码,对于一串序列是可以唯一翻译出原始信号的。当然,这样的编码不止一种,当然,香农证明了,不存在更短的编码方式。一般的,香农证明了,对于任意离散的随机符号,平均编码长度不可以无限短,且最短平均码长为:
![]()
是的,上面非常符合直觉的结论告诉我们,对于非等概样本的符号的编码不能任意短,也即,压缩是由限制的。当编码的后的概率变成等概之后,就无法寻找到更短的编码方式。其源头可以追溯到:二元等概符号,最少需要一个二元符号来传输。
换句话说,等概的符号(随机数),反而是最难猜测的。概率不等,咱们总是可以聪明一点,偏向多猜测概率较大的,则期望是偏向赢的。
如果,二元符号的一个样本概率比另一个概率大,那么咱们总是可以用更短的编码来替换那个概率较小的样本。从而缩短了平均编码长度。
[h1]香农的一般定义[/h1]不局限于概率为1/2,1/4等,香农给出的信息熵的定义:
![]()
含义为:即假设等概二元离散信源的一个符号的信息量为单位信息量1,任意非等概离散信源一个符号的平均信息为上式。还可以理解为,以二元符号来编码,最短平均编码长度为上式。
[h1]回顾问题,何为信息?[/h1]虽然,本质上,对数函数是可逆的,不能增加新的推论。本质上,用概率可以搞定一切结论,或者用样本频次大小可以搞定一切结论,但是,香农给出的信息熵的定义实在是好用,实在是香。
信息蕴含于信号,信号基于符号的传输时有不同的样本,至少两个,即可实现信号的传输,从而完成信息的传输。
在这里,我们可以通过硬币串来传输;可以通过书信来传播;也可以通过空气振动(声音);在现代,为了速度,更多的是通过电磁波来传播,符号样本的不同,可以区分于电磁波的幅度,频率和相位。
总之,所谓的信息载体,可以有各种不同的载体,最终被接收端识别,即可完成信息的传输。这里的重点在于根据事先约定的含义,发送和解读不同样本,即完成了所谓信息的传递。
如果,发送方的信息是一首显示在屏幕上的唐诗,接收方,在屏幕显示出相同的唐诗,在某种意义上,我们认为完成了信息的传输。是的,必须是某种意义,如果在电子原子的意义上,显然,两边的唐诗是不同的;或者在字体大小,两者也会不同。
对于,小说,对语音通话,或者视频通话,都是相同的。
甚至,面对面的讲话,对于自己的发音,自己听到的和别人听到的其实相差较大。
再深思一下,视觉实则光线经过投影,视锥细胞应激,神经编码,传输,神经网络处理等复杂步骤的综合,你觉得在哪一步丢失了爱人的信息。动物的视觉本身只是大脑(没有大脑,身体也可以)对外界电磁信息的获取与判断,以便做出对应的操作。
生物获取外界信息的方式各种各样,生物之间交流(也可以归结到外界)的方式也是五花八门。
我想,这里应该大致交流了下面这样的信息:
信息的重点通过某种基于某种载体的随机信号的样本,推测出外界环境或天敌或食物或队友的某些状态,确切的说,是提升了某些设想的概率,降低某些设想的可能。
换句话说,信息是减少了某种不确定性。或者,不确定性发送了改变。
显然,信息抽象于信号载体,追问信息和信号载体的关系,好比追问,‘1+1=2’中的1和1个苹果,1个梨的关系;又好比,追问几何中的三角形和纸上画的三角形什么关系。
他们的关系是,在某种抽象的意义下(忽略某些不在乎的细节),抽象模型的行为和实体具有相同性质。
[h1]结束语[/h1]说到这里,我有些惴惴不安了。一些表述不一定准确,毕竟,信息论的学习以及过去很多年了。这个答案,能带来一些回忆和交流,也许就足够了。
直到这里,我们介绍香农的信息熵,才是香农信息论刚刚开始。信号的发送,传播,和接收都会夹杂着噪声,而且热噪声是不可避免的,这个噪声影响下,还能无错的传播信号吗?速率有限制吗?这才是香农信息论的重点之一。
香农的信息熵的定义是简约的,甚至是枯燥的,这样枯燥的定义,及后续一系列更深刻的结论,指导着通信一步步发展,信息速率越来越快。
[h1]扩展:带噪的信号[/h1]上面,我们已经提到了真实通信中,信道(广义信道:包括发送,包括侠义信道,以及接收)都是有噪声的,主要有热噪声。
我们到更广义一点的话题,通信从广义上讲,实则信息通过存储或复制,穿越到不同的时空。书信是其信息载体通过存储,完成空间上的穿越(当然要耗时啦);古代字画是其信息载体通过存储,完成时间上的穿越。网页信息则是通过不断的复制完成空间上的传播和时间上的存储。生物,也是通过复制完成时空上的传播。
其中,噪声将会有怎样的影响呢?没有人的城市,一段漫长时间之后,所有的建筑和痕迹必然会消失。保存再完善的文物字画,慢慢也会在热噪声的影响下消失。
[h1]信号和噪声[/h1]唱片和硬盘中的数据,如何抵抗热噪声呢?数据线中的信号如何抵抗各种噪声呢?
现代通信中给出的方案是,唱片这种连续数据信号,先量化为数字信号,人为的引入量化噪声,这样真的好吗?坏处是,引入了量化噪声;好处是,有了一定的抗噪性能,容易恢复出原信息。这真的有趣。因为我们看到0.95,我们可以推测出原信息是1,而不是0。
在这一步基础之后,可以进一步引入纠错码,来抵抗更大的噪声,错一些bit,还是可以轻松恢复。
就是通过这种方法,互联网上的文字,图像可以自由的传播。本质上,就是通过不断的复制,纠正少的错误。而实现数字信号的无错传播。
至于量化引入的量化噪声,是可以根据需求控制的。
[h1]生命和噪声[/h1]一切事物都会被热噪声,原子运动荒废掉,那么生命是如何抵抗热噪声的呢?
没错,生命也是通过量化和复制来完成。生物必须复杂到能实现自复制,才能延续于热噪声的宇宙之中。什么如何实现自复制呢?是否会陷入无限的自指循环呢?
自我复制,首先体内得有个参照样本?如果这个参照样本得有。那么,参照样本上画着一个身体,其中有一个参照样本。。。这岂不是无限自指了?
懵~~~~~~
冯诺依曼就给出了他猜想的一个结构。大致包含一个指令集,一个可以打印机。打印机可以根据指令集打印机出各部件的,包括指令集。这样的话,打印机先复制指令集,然后,打印出各打印部件组装一个打印机,再然后,把打印机和指令集放出体外。
真的妙,想想,这就是人通过DNA遗传物质来复制小孩的过程啊。不过,冯诺依曼实在DNA发现之前写在书里的。
当然,DNA是量化的。DNA复制也可能出现随机错误,这些错误是否带有一定的纠错功能呢?想必是有的。一个比较重要的是,复制的随机错误,可以搞出新的性质个体,配合自然选择,可以越来越复杂,越来越智能。
这就是生命的进化,噪声没有击垮生命,反而成了进化的动力。甚妙!
|