阅读上一个主题 :: 阅读下一个主题 |
作者 |
总之,学管理的启明能理解到这一步相当不错了,向你学习 |
 |
越南人 [个人文集]
加入时间: 2004/02/14 文章: 7096
经验值: 97883
|
|
|
作者:越南人 在 罕见奇谈 发贴, 来自 http://www.hjclub.org
启明wrote:
>根据闪农(SHANNON)的公式; 信息熵: H=-ELOG2(P);
> 我们可以看出,这里的所谓信息熵实际就以2为底的
>某个文字符号在信息中出现概率的集合.
析: H=-ELOG2(P)是所有信息熵的和,而汉字信息熵(9.x)应该是每一个字信息熵的平均, 即 汉字信息熵 H = -E ( P *log2(P)), 这样才能算出9.x.
>假设,如果每一个字符在信息中出现的概率都是一样的,
>如果是英文的话,它们的出现概率就都是1/26. 这会怎么样呢?
> H=-26LOG2(1/26)(不考虑大写),此时熵值是最大的.另一个极
>端是一个符号出现的概率是0.99999999,而所有其它的加一
>起不到0.00000001,那么H就是最小值,只有一位(0值),也就
>是说只需要一位编码就够了.
析: 完全错.
H=-26*LOG2(1/26)=122.2
怎么会最大呢?
H=-LOG2(0.99999999) -25LOG2(0.00000001)=664.38
怎么会最小呢?
> 实际上,作者犯的最大错误在于,他在统计汉字信息熵的时候,
>没有严格遵守闪农的信息熵统计假设条件.
析: 完全错,是大量文章,报纸,小说之类统计后的结果.
>上面我说了,闪农在他的计算公式中假设了每个字符在所传递
>的信息中出现的概率是个随即变量,只有在这个假设条件下,那
>个计算公式才有意义.然而,汉字在信息中出现,则完全可以是
>主观的,而不是随机的.汉字出现的概率完全是和信息发出人
>的语言内容和语言习惯有关的,不是独立的.再偏的字,也有
>它出现的高概率的时候.
析: 错,这里的汉字信息熵(9.x)本来就是建立在统计意义上的,
小概率事件不会影响整体编码效率.
>这才是我要说明的观点.如果每个汉字的出现概率不是随即的,
>假设有一种平均出现的情况,那么汉字字符的字数的增加,
>息熵就会增加到它的最大值,这个应该不难计算.所以汉字的
>码空间是无法去冗余的.任何一个汉字都有它的信息价值.
析: 错,基本上不理解编码原理.
作者:越南人 在 罕见奇谈 发贴, 来自 http://www.hjclub.org |
|
|
返回顶端 |
|
 |
|
|
|
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您不能在这个论坛下载文件
|
based on phpbb, All rights reserved.
|