阅读上一个主题 :: 阅读下一个主题 |
作者 |
我粗看了一下所有人的回帖,只有黄老邪的最正点!其他人都是扯,说得倒都专家似的! |
 |
启明 [博客] [个人文集]
游客
|
|
|
作者:Anonymous 在 罕见奇谈 发贴, 来自 http://www.hjclub.org
还是让我这个外行来总结一下吧,这恐怕不是数学能力问题,而是文字的应用理解的问题.
1. 什么是信息熵:
根据闪农(SHANNON)的公式; 信息熵: H=-E(P)LOG2(P); 我们可以看出,这里的所谓信息熵实际就以2为底的某个文字符号在信息中出现概率的集合.
我们知道,在计算机中,使用的是0,1编码,每一位只有两个值,这就是闪农为什么取以2为底的对数的原因.虽然说在他的时代还没有计算机,但是数字编码在通讯中和计算机中的道理是一样的.
2. 为什么要取字符的出现概率?
每一个字符在信息中的出现概率是不一样的,它们所具有的信息量也是不同的.有的可以省略,有的不能省略,它们在传递信息时彼此的权重是不同的,或说它们的重要性不同.所以应该彼此有区别,这就是为什么要取概率的原因.这样做了后,一个编码系统就是最简练的,去掉(削弱了)了冗余度.
假设,如果每一个字符在信息中出现的概率都是一样的,如果是英文的话,它们的出现概率就都是1/26. 这会怎么样呢? H=-LOG2(1/26)(不考虑大写),此时熵值是最大的(4.7). 另一个极端是一个符号出现的概率是0.99999999,而所有其它的加一起不到0.00000001,那么H就是最小值,只有一位(0值),也就是说只需要一位编码就够了.
3. 下面文章的作者通过计算,得出英文的信息熵是大约4.03. 这对于当初计算机设定ASCII码为八位是很有指导意义的.
4. 文章作者通过计算得出,汉字的信息熵是9.X,说明汉字的字符的编码系统必须要在10位以上.我们知道,现在汉字实际上使用的是双字节(16位),在统一码中,汉字排在最后,是四字节后的区域.
5. 楼下很多人说作者的观点有问题,我也认为确实有问题.可不问题不是信息的定义(那是闪农的定义,不是作者的),也不是汉字信息熵的计算方法. 你们都没有说在点上. 实际上,作者犯的最大错误在于,他在统计汉字信息熵的时候,没有严格遵守闪农的信息熵统计假设条件.
上面我说了,闪农在他的计算公式中假设了每个字符在所传递的信息中出现的概率是个随即变量,只有在这个假设条件下,那个计算公式才有意义.然而,汉字在信息中出现,则完全可以是主观的,而不是随机的.汉字出现的概率完全是和信息发出人的语言内容和语言习惯有关的,不是独立的.再偏的字,也有它出现的高概率的时候,比如古文,比如姓名....
这才是我要说明的观点.如果每个汉字的出现概率不是随即的,我们假设有一种平均出现的情况,那么汉字字符的字数的增加,信息熵就会增加到它的最大值,这个应该不难计算.所以汉字的编码空间是无法去冗余的.任何一个汉字都有它的信息价值.
我不是学数学的,这都是外行话,想仍砖头就招呼吧!
作者:Anonymous 在 罕见奇谈 发贴, 来自 http://www.hjclub.org |
|
|
返回顶端 |
|
 |
|
|
|
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您不能在这个论坛下载文件
|
based on phpbb, All rights reserved.
|