| 
 
 
	
		| 阅读上一个主题 :: 阅读下一个主题   | 
	 
	 
	
		| 作者 | 
		 总之,学管理的启明能理解到这一步相当不错了,向你学习 | 
		    
  | 
	 
		
		 
		越南人 [个人文集]
 
 
 
 
 
  加入时间: 2004/02/14 文章: 7096
  经验值: 97883 
 		 | 
		
		
					  
					  
  | 
					   
			
			
			 
			 
				
  | 
			 
			
				
					
					  
					  
					    作者:越南人 在 罕见奇谈 发贴, 来自 http://www.hjclub.org
  启明wrote:
 
>根据闪农(SHANNON)的公式; 信息熵: H=-ELOG2(P);
 
> 我们可以看出,这里的所谓信息熵实际就以2为底的
 
>某个文字符号在信息中出现概率的集合. 
 
 
析: H=-ELOG2(P)是所有信息熵的和,而汉字信息熵(9.x)应该是每一个字信息熵的平均, 即 汉字信息熵 H = -E ( P *log2(P)), 这样才能算出9.x.
 
 
>假设,如果每一个字符在信息中出现的概率都是一样的,
 
>如果是英文的话,它们的出现概率就都是1/26. 这会怎么样呢?
 
> H=-26LOG2(1/26)(不考虑大写),此时熵值是最大的.另一个极
 
>端是一个符号出现的概率是0.99999999,而所有其它的加一
 
>起不到0.00000001,那么H就是最小值,只有一位(0值),也就
 
>是说只需要一位编码就够了.
 
 
析: 完全错.
 
 
   H=-26*LOG2(1/26)=122.2
 
怎么会最大呢?
 
 
   H=-LOG2(0.99999999) -25LOG2(0.00000001)=664.38
 
怎么会最小呢?
 
 
 
> 实际上,作者犯的最大错误在于,他在统计汉字信息熵的时候,
 
>没有严格遵守闪农的信息熵统计假设条件.
 
 
析: 完全错,是大量文章,报纸,小说之类统计后的结果.
 
 
>上面我说了,闪农在他的计算公式中假设了每个字符在所传递
 
>的信息中出现的概率是个随即变量,只有在这个假设条件下,那
 
>个计算公式才有意义.然而,汉字在信息中出现,则完全可以是
 
>主观的,而不是随机的.汉字出现的概率完全是和信息发出人
 
>的语言内容和语言习惯有关的,不是独立的.再偏的字,也有
 
>它出现的高概率的时候.
 
 
析: 错,这里的汉字信息熵(9.x)本来就是建立在统计意义上的,
 
小概率事件不会影响整体编码效率.
 
 
 >这才是我要说明的观点.如果每个汉字的出现概率不是随即的,
 
 >假设有一种平均出现的情况,那么汉字字符的字数的增加,
 
 >息熵就会增加到它的最大值,这个应该不难计算.所以汉字的
 
 >码空间是无法去冗余的.任何一个汉字都有它的信息价值. 
 
 
析: 错,基本上不理解编码原理.
 
  作者:越南人 在 罕见奇谈 发贴, 来自 http://www.hjclub.org | 
					   
					 
				 | 
			 
		  | 
	 
	 
		| 返回顶端 | 
		 | 
	 
	 
		  | 
	 
		
		| 		 | 
	 
	 
	   | 
	 
 
   
	 
 
	    
	    | 
		
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您不能在这个论坛下载文件
  | 
   
 
  
  based on phpbb, All rights reserved.  
 |