海纳百川 :: 阅读主题 - 总之,学管理的启明能理解到这一步相当不错了,向你学习

海纳百川

登录 \| 登录并检查站内短信 \| 个人设置	网站首页 \| 论坛首页 \| 博客 \| 搜索 \| 收藏夹 \| 帮助 \| 团队 \| 注册 \| RSS


	主题: 总之,学管理的启明能理解到这一步相当不错了,向你学习

海纳百川首页 -> 罕见奇谈

阅读上一个主题 :: 阅读下一个主题

作者

总之,学管理的启明能理解到这一步相当不错了,向你学习

越南人
[个人文集]

加入时间: 2004/02/14
文章: 7096

经验值: 97883

标题: 总之,学管理的启明能理解到这一步相当不错了,向你学习 (380 reads) 时间: 2005-1-14 周五, 下午6:07

作者：越南人 在罕见奇谈发贴, 来自 http://www.hjclub.org

启明wrote:
>根据闪农(SHANNON)的公式; 信息熵: H=-ELOG2(P);
> 我们可以看出,这里的所谓信息熵实际就以2为底的
>某个文字符号在信息中出现概率的集合.

析: H=-ELOG2(P)是所有信息熵的和,而汉字信息熵(9.x)应该是每一个字信息熵的平均, 即汉字信息熵 H = -E ( P *log2(P)), 这样才能算出9.x.

>假设,如果每一个字符在信息中出现的概率都是一样的,
>如果是英文的话,它们的出现概率就都是1/26. 这会怎么样呢?
> H=-26LOG2(1/26)(不考虑大写),此时熵值是最大的.另一个极
>端是一个符号出现的概率是0.99999999,而所有其它的加一
>起不到0.00000001,那么H就是最小值,只有一位(0值),也就
>是说只需要一位编码就够了.

析: 完全错.

H=-26*LOG2(1/26)=122.2
怎么会最大呢?

H=-LOG2(0.99999999) -25LOG2(0.00000001)=664.38
怎么会最小呢?

> 实际上,作者犯的最大错误在于,他在统计汉字信息熵的时候,
>没有严格遵守闪农的信息熵统计假设条件.

析: 完全错,是大量文章,报纸,小说之类统计后的结果.

>上面我说了,闪农在他的计算公式中假设了每个字符在所传递
>的信息中出现的概率是个随即变量,只有在这个假设条件下,那
>个计算公式才有意义.然而,汉字在信息中出现,则完全可以是
>主观的,而不是随机的.汉字出现的概率完全是和信息发出人
>的语言内容和语言习惯有关的,不是独立的.再偏的字,也有
>它出现的高概率的时候.

析: 错,这里的汉字信息熵(9.x)本来就是建立在统计意义上的,
小概率事件不会影响整体编码效率.

>这才是我要说明的观点.如果每个汉字的出现概率不是随即的,
>假设有一种平均出现的情况,那么汉字字符的字数的增加,
>息熵就会增加到它的最大值,这个应该不难计算.所以汉字的
>码空间是无法去冗余的.任何一个汉字都有它的信息价值.

析: 错,基本上不理解编码原理.

作者：越南人 在罕见奇谈发贴, 来自 http://www.hjclub.org

返回顶端

昨天俺没说理由之前称别人不懂是个低级错误，俺比较佩服您，向你学习 -- 无业游民 - (0 Byte) 2005-1-15 周六, 上午9:04 (118 reads)

对不起,昨天的公式应该是H=-E(P)LOG2(P);偷懒没写E(P)让你误会了 -- 启明 - (152 Byte) 2005-1-15 周六, 上午1:01 (126 reads)

显示文章:

海纳百川首页 -> 罕见奇谈

所有的时间均为北京时间

您不能在本论坛发表新主题
您不能在本论坛回复主题
您不能在本论坛编辑自己的文章
您不能在本论坛删除自己的文章
您不能在本论坛发表投票
您不能在这个论坛添加附件
您不能在这个论坛下载文件

[ Page generation time: 0.517697 seconds ] :: [ 25 queries excuted ] :: [ GZIP compression enabled ]