信息和数据不是虚无的东西吗为什么会占大小？

信息和数据不是虚无的东西吗为什么会占大小？比如我记得信息是依附在物质上的东西，但本身并不属于物质，但是为何会存在大小？比如内存条有8G和16G，大小的区分，但是如果信息不是物质是虚无的东西，它又为何会占大小？

有关回应 · 2021-5-31 19:45:32

因此信息并不是什么虚无的东西。事实上即使你要想删除1比特的信息也需要消耗kTln2焦耳的能量[sup][1][/sup]——信息与现实世界（热力学）存在着真实的连接。
人总是倾向于将主观“能看见、能听见、能闻到、能摸到”的东西当做实在，而把能量、波、数据、空间这些看不见摸不着的东西理解为抽象而虚无的东西。我们需要重新审视自己对“实在”这个词的理解。
[h1]我们看到的都是什么？[/h1]平时我们眼里总是会映入五彩缤纷的大千世界。但是我们真正看到的到底是什么？是苹果香蕉、是花草树木、是蓝天白云还是鸟兽虫鱼？答案是都不是。事实上我们能看到的只有一种东西，那就是“光”。我们之所以能看到物体，感受到各种颜色仅仅是因为我们看到了从这些物体上反射回来的不同波长的光。离开了光，我们看不到任何事物。从根本上来讲，这个世界上根本不存在“颜色”这种东西。颜色不是物体的内秉性质，只有在有光存在的前提下，颜色这个词才具有意义。
况且，即使是光，我们也只能看到在光谱范围内很窄很窄一段被称为“可见光”的光。至于有多窄，您只需看看下面这张图就知道了。那一长条灰白的光谱里存在着一条彩色的细线——那就是我们眼里的整个世界[sup][2][/sup]。离开那段窄小的区域，我们再也无法看见。但是，你能说其余的世界是“虚无”的吗？我相信答案是否定的。

转载自百度图片[h1]所有的感觉都是幻象吗？[/h1]从某种意义上来说，是的。与上述我们讨论的“颜色”类似。我们习惯于将声音、味道当做真实的存在，然而这些在客观上来讲也是“虚无”的。客观上没有声音存在，存在的只有因物体的振动而产生的声波。离开了振动，声音这个概念瞬间失去意义；而味道也只是嘴里和舌头上分布的味觉感受器与物质结构里的特殊分子结构接触产生的神经冲动。颜色、声音、味道都是主观感受，光、振动、分子结构才是客观真实。如果站在客观角度来说的话，确实，所有的感觉都是幻象。
[h1]感觉不到的也许才是真实[/h1]跑了很远的题，但想说明的仅仅是：主观能感觉到的不一定是真实存在的东西（如颜色），而真实存在的东西也不一定能被主观感觉到（如非可见光）。好了，那接下来我们就来说说什么才是“客观实在”。
在开篇已经举了几个例子：能量、波、时空、数据。这些是真实存在的东西吗？
能量和波：质能转换与波粒二象性是早已被发现的物理法则。我相信至少多数人会承认物质与粒子是真实存在的东西。既然如此，能由物质转换而来的“能量”与粒子的另一种形式“波”不也理所当然的应该被看做客观实在吗？
这里顺便再说一个也是经常在社区中看到的提问：物质的本质是粒子还是波？有人说是粒子，有人说是波，有人说既是粒子又是波，还有人说既不是粒子又不是波。在我看来，上述回答都不准确。我更喜欢的回答是：没有本质。我认为这个问题又回到了刚才讨论过的“颜色陷阱”。粒子与波实际上是人类为了更好的理解物质的性质擅自规定出的两个概念。而在客观世界里并不存在“粒子”或者“波”这“两种东西”。我们之所以能够“感受”到粒子或者波仅仅是因为我们对其使用了不同的观测手段。而在客观世界里并不存在这种主观理解上的划分，电子就是电子，当人用这种方式观察，人的主观就会看到粒子，用另一种方式观察，人的主观就会看到波。但电子本身并没有在这两种形式里交替变换。就像是“I”这个符号，有人会说它是英语字母大写的i，有人会说它是竖着的汉字“一”。仅仅因为换了观测手段，就产生了不同的理解，但是如果你要问I在本质上是i还是一，那么我只能回答：没有本质。
抱歉又跑题了。我们再来说“空间”。通常我们会习以为常地将空间想象成一个为解决某个范围内的问题时人为虚构的一个并不存在的舞台。但实际上，空间（时空）已经被爱因斯坦证明是实际存在的。空间具有可塑性，它不仅能膨胀（事实上空间正在暗能量的作用下加速膨胀），在空间里放入重物（如太阳）的话，空间还会像床垫一般变形。这不是爱因斯坦毫无根据的想象，而是实际可以通过数学进行计算出来的（膨胀速度、曲率）。利用数学，我们能真实地“观察”到空间。
最后我们回到题主的问题：数据。题主之所以将数据划分为虚无的东西不就是因为我们无法“感觉”到吗。根据上述所有讨论，数据储存是需要载体的，这个载体可以是石头、可以是书本、可以是电脑内存、也可以是人脑，但是它的存在必须占有空间。并且，数据是可以计算的，数据的最小单位是比特，写入/删除数据都需要能量。这一切难道不能说明数据是真实存在的吗？
[h1]主观与客观[/h1]“感觉”确实是个很奇妙的东西，它可以让我们脱离客观世界，在一个由大脑建立的新世界中以另一种方式重新让我们认识客观。其结果就是导致我们对客观世界的认识产生了偏离与误解。再更进一步地说，即使是刚才谈到的能量、空间、数据，其本身也不过是我们为了便于理解而制定的概念，它们从根本上讲也与颜色一样是主观感受而不是真正的客观实在。
我们在主观世界里“感受”到的东西并不真正存在于客观世界里。而在客观世界里，也并没有什么可被称为“物体”的东西，真正存在的只有物体留下的“痕迹”——有时我们将之称为“物理性质”，或者我更喜爱的说法——“信息”。信息才是最根本、最客观的存在。

有关回应 · 2021-5-31 19:45:33

不如说信息和数据才是这个世界最真实的东西。你想，构成你的物质和构成其它动物的物质，不都是碳氢氧氮磷吗，有什么区别呢？再拆得细一点，构成你和构成石头的东西不都是分子，分子不都是原子，原子都是质子中子电子，那岂不是所有的东西都是一样的了？什么是你跟石头的区别呢？
区别就在于，组成你的物质的结构和组成其它东西的物质的结构不一样，这种结构实际上就是数据和信息。就像人和动物的DNA都是腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶四种的组成，排列顺序不一样，经过RNA转录、核糖体合成就会变成不同的蛋白质，最后形成不同的物种，归根结底不就是数据和信息上的区别么？大家都是人DNA都差不多，思想却千差万别，就在于脑中的神经元之间的连接关系不同，导致每个人有不同的记忆、不同的思想、不同的性格，这不也是数据和信息的不同么？
更进一步说，同样是质子、中子、电子，外层电子排布不一样就有不同的化学性质，能组成不同的分子，这不也是数据和信息的不同么？同一种碳原子，按六边形晶格排列就是不值钱的石墨，按正四面体晶格排列就是值钱的钻石，这不也是数据和信息的不同么？
所以应该反过来说，数据和信息才是构成这个丰富多彩的世界的主体，物质只是承载这些数据和信息的载体。同样是数据和信息，存储在计算机里面自然也不应该看成是虚无的东西，毕竟记录在晶格里、在DNA里跟表示成磁片的磁性、闪存的带电量又有什么区别呢？自然都是要占大小的啊。

有关回应 · 2021-5-31 19:45:34

来一个事实：重置某存储设备的操作，必然伴随放热哦～

现在你还觉得信息是虚无的么。
Bonus:

欢迎来到热力学的世界，你可以从这里开始学起来了。
《热物理概念（第2版）—热力学与统计物理学》，清华大学出版社

有关回应 · 2021-5-31 19:45:35

因为信息载体有大小。
信息必须通过载体才能够表达，而载体能够承载的信息是具有一定特征的。
由于现在电脑普遍采用二进制表达信息，所以一个电位点只能表示一个0和1，因而电位点的数量决定了其能够存储的信息的多少。

有关回应 · 2021-5-31 19:45:36

信息的本质？先来看看香农在信息论中的定义。香农不光给出了信息，熵等基础定义，更推导出了现代通信中一系列最重要定理，揭示了：

1，如何最高效的压缩信息，以及压缩的极限是怎样；
2，如何在噪声条件下，做到高效，低错误（任意低的误码率）的传输信息。

当然，信息论中的熵，和物理学中的熵实质是相同的。如果不是有这样的铺垫，香农的成就就有点让人难以置信了。像香农这样，从定义到结构，再到性能边界，一步搞定一个异常重要的新领域，确实是人类文明史上少见的。
香农是如何定义信息的呢？他一点都不磨蹭，直接通过概率来定义信息。信息是概率的函数。确切一点，这个函数的核心是可逆的上凹函数，一般取对数，如果对数的底数取2，即为比特。
香农为什么这样定义信息呢？这样定义的信息可以方便、快速、直觉地量化信息。
从简单的等概模型出发：
[h1]等概模型[/h1]有以下假设：

假设1，甲通过一串符号来传递给乙信息；
假设2，每个符号的取值都有等概的两种，比如硬币的正反面，或者电压的±1，或者其他任何有差异的两种样本符号；这样的符号可以称之为二元符号。

那么，我们对信息的度量应该具有以下直观的性质：

符号串的长度增加一倍，所包含的信息量增加一倍；称之为可加性。
每一个符号的种类数越多，信息量也越多。而且，如果每个符号的种类数目如果是8，那么，这样一个符号可以用3个二元符号代替。

根据上面的性质2，我们可以明显的发现，对于等概模型，如果以一个二元符号所携带的信息（单位称之为比特吧）来衡量，那么，一个8元符合所携带的信息为3比特。不要怀疑，比特的定义就是可以这么直觉。如果，
为2的整数次幂，
元符号，所携带的信息，用比特来衡量，就是其以为2为底的对数，即
。
这么定义等概模型的一个符号所包含的信息量之后，我们验证其是否符合性质1。根据，乘法原理和对数函数性质，连续
个
元符号的传输的信息量，就等于一个
元信号的
倍。这个性质是自然而然成立的。
我们仔细反思一下上面的等概模型，其实，一个符号的信息量在于这个符号等概样本的数量，如果信息量定义为这个数量的对数，那么信息量就符合可加性。且很容易用二元信号的信息量为单位来度量一个
元信号的信息量。
如果熟悉物理学史（当然，我不是很熟悉，如有错误，请见谅），物理学上最初定义熵好像就是通过等概样本数量出发的。
到这里，香农的定义几乎快结束了。然而，小朋友，你是不是有很多问号。

问号1，这是我们平时谈的信息吗？
问号2，这似乎有点太简单，太敷衍了吧！

没有人可以否认上面等概模型，是可以传递信息的。一个二元符号，甲可以控制其选择把信息传给乙，按照提前的约定，告诉乙是否是要一起对敌人发起进攻。一串二元符号，可以借助约定好的通用编码规则（ASCII码，摩尔密码等等），来传输任何文章或小说，或者实现WIFI协议。这里我们不必要非得信息源是等概的，浪费一点无关本质嘛（这样会产生浪费，后面我再解释）。
那么至于你对信息的理解是啥，这里不是很关心，至少香农没有关心。我们能把一串二进制序列从地球一段传递到另一端，就可以把一段语音，一副图像，一份直播，传递过去。反过来，你觉得，一本《几何原本》，一段美女的视频含有你需要的所谓的信息，那么，你就该从某种程度上承认，上面的二元符号序列间接的完成了这些信息的传输。
上面我们可以看到，对于等概模型，居然可以传递各种信息了，即便这些信息不一定是等概的。我们继续往下聊，在等概模型中，信息的定义是多么简单和直接，那么，非等概呢？
这一问，你可以多思考一会。答案在后面。

[h1]非等概模型[/h1]上面的问题，其实呢，香农的答案也非常简单，
那就是，对每个样本出现的概率，乘上它所携带的等概信息(假设所有样本都是等概的，且概率相同与此样本)，然后求和，即：

注：
表示一个符号，确切一点是一个随机变量，
表示样本1发生。
仔细想想，这个式子也是很符合直觉的。
咱们直接上一个具体的模型，好好体会一下，有以下假设：

假设1，甲通过一串符号来传递给乙信息；
假设2，每个符号
，的取值都有三种，
,
,
。且各自概率依次为：
,
,
.

然后，开始我们无法更加直觉的理解：

如果，都是所有样本都像
,那么，此符号的信息量为1bit。即，这个符号仅需要一个二元符号来传输；
如果，都是所有样本都像
,那么，此符号的信息量为2bit。即，这个符号仅需要一个四元符号来传输，或者两个二元符号来传输；
然而，不是所有样本都像
,且平均有
比例的的样本为
，这些样本的信息量为1bit，应该需要1个二元符号来传输。
然而，不是所有样本都像
,且平均有
比例的的样本为
，这些样本的信息量为2bit，应该需要2个二元符号来传输。
综上，平均来讲，需要
个二元符号来传输。

那么，这样的编码存在吗？
是的，存在的：

;
;
.

这是一种非前缀编码，对于一串序列是可以唯一翻译出原始信号的。当然，这样的编码不止一种，当然，香农证明了，不存在更短的编码方式。一般的，香农证明了，对于任意离散的随机符号，平均编码长度不可以无限短，且最短平均码长为：

是的，上面非常符合直觉的结论告诉我们，对于非等概样本的符号的编码不能任意短，也即，压缩是由限制的。当编码的后的概率变成等概之后，就无法寻找到更短的编码方式。其源头可以追溯到：二元等概符号，最少需要一个二元符号来传输。
换句话说，等概的符号（随机数），反而是最难猜测的。概率不等，咱们总是可以聪明一点，偏向多猜测概率较大的，则期望是偏向赢的。
如果，二元符号的一个样本概率比另一个概率大，那么咱们总是可以用更短的编码来替换那个概率较小的样本。从而缩短了平均编码长度。
[h1]香农的一般定义[/h1]不局限于概率为1/2，1/4等，香农给出的信息熵的定义：

含义为：即假设等概二元离散信源的一个符号的信息量为单位信息量1，任意非等概离散信源一个符号的平均信息为上式。还可以理解为，以二元符号来编码，最短平均编码长度为上式。
[h1]回顾问题，何为信息？[/h1]虽然，本质上，对数函数是可逆的，不能增加新的推论。本质上，用概率可以搞定一切结论，或者用样本频次大小可以搞定一切结论，但是，香农给出的信息熵的定义实在是好用，实在是香。
信息蕴含于信号，信号基于符号的传输时有不同的样本，至少两个，即可实现信号的传输，从而完成信息的传输。
在这里，我们可以通过硬币串来传输；可以通过书信来传播；也可以通过空气振动（声音）；在现代，为了速度，更多的是通过电磁波来传播，符号样本的不同，可以区分于电磁波的幅度，频率和相位。
总之，所谓的信息载体，可以有各种不同的载体，最终被接收端识别，即可完成信息的传输。这里的重点在于根据事先约定的含义，发送和解读不同样本，即完成了所谓信息的传递。
如果，发送方的信息是一首显示在屏幕上的唐诗，接收方，在屏幕显示出相同的唐诗，在某种意义上，我们认为完成了信息的传输。是的，必须是某种意义，如果在电子原子的意义上，显然，两边的唐诗是不同的；或者在字体大小，两者也会不同。
对于，小说，对语音通话，或者视频通话，都是相同的。
甚至，面对面的讲话，对于自己的发音，自己听到的和别人听到的其实相差较大。
再深思一下，视觉实则光线经过投影，视锥细胞应激，神经编码，传输，神经网络处理等复杂步骤的综合，你觉得在哪一步丢失了爱人的信息。动物的视觉本身只是大脑（没有大脑，身体也可以）对外界电磁信息的获取与判断，以便做出对应的操作。
生物获取外界信息的方式各种各样，生物之间交流（也可以归结到外界）的方式也是五花八门。
我想，这里应该大致交流了下面这样的信息：
信息的重点通过某种基于某种载体的随机信号的样本，推测出外界环境或天敌或食物或队友的某些状态，确切的说，是提升了某些设想的概率，降低某些设想的可能。
换句话说，信息是减少了某种不确定性。或者，不确定性发送了改变。
显然，信息抽象于信号载体，追问信息和信号载体的关系，好比追问，‘1+1=2’中的1和1个苹果，1个梨的关系；又好比，追问几何中的三角形和纸上画的三角形什么关系。
他们的关系是，在某种抽象的意义下（忽略某些不在乎的细节），抽象模型的行为和实体具有相同性质。
[h1]结束语[/h1]说到这里，我有些惴惴不安了。一些表述不一定准确，毕竟，信息论的学习以及过去很多年了。这个答案，能带来一些回忆和交流，也许就足够了。
直到这里，我们介绍香农的信息熵，才是香农信息论刚刚开始。信号的发送，传播，和接收都会夹杂着噪声，而且热噪声是不可避免的，这个噪声影响下，还能无错的传播信号吗？速率有限制吗？这才是香农信息论的重点之一。
香农的信息熵的定义是简约的，甚至是枯燥的，这样枯燥的定义，及后续一系列更深刻的结论，指导着通信一步步发展，信息速率越来越快。
[h1]扩展：带噪的信号[/h1]上面，我们已经提到了真实通信中，信道（广义信道：包括发送，包括侠义信道，以及接收）都是有噪声的，主要有热噪声。
我们到更广义一点的话题，通信从广义上讲，实则信息通过存储或复制，穿越到不同的时空。书信是其信息载体通过存储，完成空间上的穿越（当然要耗时啦）；古代字画是其信息载体通过存储，完成时间上的穿越。网页信息则是通过不断的复制完成空间上的传播和时间上的存储。生物，也是通过复制完成时空上的传播。
其中，噪声将会有怎样的影响呢？没有人的城市，一段漫长时间之后，所有的建筑和痕迹必然会消失。保存再完善的文物字画，慢慢也会在热噪声的影响下消失。
[h1]信号和噪声[/h1]唱片和硬盘中的数据，如何抵抗热噪声呢？数据线中的信号如何抵抗各种噪声呢？
现代通信中给出的方案是，唱片这种连续数据信号，先量化为数字信号，人为的引入量化噪声，这样真的好吗？坏处是，引入了量化噪声；好处是，有了一定的抗噪性能，容易恢复出原信息。这真的有趣。因为我们看到0.95，我们可以推测出原信息是1，而不是0。
在这一步基础之后，可以进一步引入纠错码，来抵抗更大的噪声，错一些bit，还是可以轻松恢复。
就是通过这种方法，互联网上的文字，图像可以自由的传播。本质上，就是通过不断的复制，纠正少的错误。而实现数字信号的无错传播。
至于量化引入的量化噪声，是可以根据需求控制的。
[h1]生命和噪声[/h1]一切事物都会被热噪声，原子运动荒废掉，那么生命是如何抵抗热噪声的呢？
没错，生命也是通过量化和复制来完成。生物必须复杂到能实现自复制，才能延续于热噪声的宇宙之中。什么如何实现自复制呢？是否会陷入无限的自指循环呢？
自我复制，首先体内得有个参照样本？如果这个参照样本得有。那么，参照样本上画着一个身体，其中有一个参照样本。。。这岂不是无限自指了？
懵~~~~~~
冯诺依曼就给出了他猜想的一个结构。大致包含一个指令集，一个可以打印机。打印机可以根据指令集打印机出各部件的，包括指令集。这样的话，打印机先复制指令集，然后，打印出各打印部件组装一个打印机，再然后，把打印机和指令集放出体外。
真的妙，想想，这就是人通过DNA遗传物质来复制小孩的过程啊。不过，冯诺依曼实在DNA发现之前写在书里的。
当然，DNA是量化的。DNA复制也可能出现随机错误，这些错误是否带有一定的纠错功能呢？想必是有的。一个比较重要的是，复制的随机错误，可以搞出新的性质个体，配合自然选择，可以越来越复杂，越来越智能。
这就是生命的进化，噪声没有击垮生命，反而成了进化的动力。甚妙！

信息和数据不是虚无的东西吗为什么会占大小？

5 个回复

浏览过的版块