海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 总之,学管理的启明能理解到这一步相当不错了,向你学习
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈
阅读上一个主题 :: 阅读下一个主题  
作者 总之,学管理的启明能理解到这一步相当不错了,向你学习   
越南人
[个人文集]






加入时间: 2004/02/14
文章: 7096

经验值: 97883


文章标题: 总之,学管理的启明能理解到这一步相当不错了,向你学习 (354 reads)      时间: 2005-1-14 周五, 下午6:07

作者:越南人罕见奇谈 发贴, 来自 http://www.hjclub.org

启明wrote:
>根据闪农(SHANNON)的公式; 信息熵: H=-ELOG2(P);
> 我们可以看出,这里的所谓信息熵实际就以2为底的
>某个文字符号在信息中出现概率的集合.

析: H=-ELOG2(P)是所有信息熵的和,而汉字信息熵(9.x)应该是每一个字信息熵的平均, 即 汉字信息熵 H = -E ( P *log2(P)), 这样才能算出9.x.

>假设,如果每一个字符在信息中出现的概率都是一样的,
>如果是英文的话,它们的出现概率就都是1/26. 这会怎么样呢?
> H=-26LOG2(1/26)(不考虑大写),此时熵值是最大的.另一个极
>端是一个符号出现的概率是0.99999999,而所有其它的加一
>起不到0.00000001,那么H就是最小值,只有一位(0值),也就
>是说只需要一位编码就够了.

析: 完全错.

H=-26*LOG2(1/26)=122.2
怎么会最大呢?

H=-LOG2(0.99999999) -25LOG2(0.00000001)=664.38
怎么会最小呢?


> 实际上,作者犯的最大错误在于,他在统计汉字信息熵的时候,
>没有严格遵守闪农的信息熵统计假设条件.

析: 完全错,是大量文章,报纸,小说之类统计后的结果.

>上面我说了,闪农在他的计算公式中假设了每个字符在所传递
>的信息中出现的概率是个随即变量,只有在这个假设条件下,那
>个计算公式才有意义.然而,汉字在信息中出现,则完全可以是
>主观的,而不是随机的.汉字出现的概率完全是和信息发出人
>的语言内容和语言习惯有关的,不是独立的.再偏的字,也有
>它出现的高概率的时候.

析: 错,这里的汉字信息熵(9.x)本来就是建立在统计意义上的,
小概率事件不会影响整体编码效率.

>这才是我要说明的观点.如果每个汉字的出现概率不是随即的,
>假设有一种平均出现的情况,那么汉字字符的字数的增加,
>息熵就会增加到它的最大值,这个应该不难计算.所以汉字的
>码空间是无法去冗余的.任何一个汉字都有它的信息价值.

析: 错,基本上不理解编码原理.


作者:越南人罕见奇谈 发贴, 来自 http://www.hjclub.org
返回顶端
阅读会员资料 越南人离线  发送站内短信
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
不能在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 0.594086 seconds ] :: [ 25 queries excuted ] :: [ GZIP compression enabled ]