海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 给某些人扫盲: 汉字是当今世界上信息量最大的文字
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈
阅读上一个主题 :: 阅读下一个主题  
作者 给某些人扫盲: 汉字是当今世界上信息量最大的文字   
我大爷
[博客]
[个人文集]

游客









文章标题: 给某些人扫盲: 汉字是当今世界上信息量最大的文字 (182 reads)      时间: 2004-9-03 周五, 上午6:32

作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org

汉字作为一个复杂的文字符号系统,其信息熵很高。研究的基本方法是:逐渐扩大汉字容量,随着汉字容量增大,信息熵的增加趋缓;汉字增加到12370以后,不再使信息熵有明显的增加。我国科学家指出:汉字的容量极限是12366个汉字,汉字静态平均信息熵的值 (平均信息量)是9.65比特。通过数理语言学中著名的齐普夫定律(ZIPF’SLAW)核算,这是当今世界上信息量最大的文字符号系统。联合国五种工作语言文字的信息熵的比较如下:

法文:3.98比特
西班牙文:4.01比特
英文:4.03比特
俄文:4.35比特
中文:9.65比特

可以看出,拼音文字的信息熵小,差别不大。汉字的信息量最大。

汉字对拼音文字的这种信息熵优势是什么概念?简单的比喻就是十进制数与二进制数的差别。十进制数字系统需要人记忆0—9,10个符号,二进制只需要记忆0和1两个符号。十进制乘除要记忆9X9表,二进制只需要学会与、或、非的简单逻辑。但是,人类在日常生活中为什么不使用二进制数字系统呢?因为那样很浪费,一个数字“7”表示成二进制就成了“111”,记个大数不把人累死?反过来,人类为什么不用十六进制,或更高的进制呢?一方面是人脑智力的限制,另一方面,十六进制也未必能大幅度提高信息熵。这种信息熵反映在文字上,就是联合国文件中,中文版本一定是最薄的。信息熵高是不是就不利于计算机处理呢?这方面恐怕还很难下结论。简单的比较汉与英文的输入速度是不能说明问题的,因为“字”与“word”是不同的概念。要比较只能比较同一内容的中英文两个不同文本,计算击键数的差值。在“词”的单位基础上,现代汉语与英语是可以进行比较的。现代英语为了应付不断涌现的新事物、新思想、新科技、新概念,也在不断地造词。无非是借助拉丁词根、或重新组合已有单词,结果越是专业科技的词汇,就越长、越难记。

或者是大量使用缩写:如WTO、FBI、IBM、UFO等等,缩写一多就容易混淆、难以理解。在这方面,现代汉语造词的优势就十分突出了。这就是汉字字符集信息熵高的优势。

作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org
返回顶端
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
不能在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 0.917271 seconds ] :: [ 25 queries excuted ] :: [ GZIP compression enabled ]