海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 关于文字的熵
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈
阅读上一个主题 :: 阅读下一个主题  
作者 关于文字的熵   
无业游民
[博客]
[个人文集]

游客









文章标题: 关于文字的熵 (647 reads)      时间: 2005-1-17 周一, 上午8:39

作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org

越南人、鲁肃以及其他熵的专家,本文中俺有任何错误的话,请你们要象冬天般地残酷无情,当场指出。俺是大老粗,不怕丢面子。并且不指望所有的细节都绝对正确,如果能够启发众人的思路,也算达到目的。为了让外行也尽量能够看懂(同时也为了避免穿皇帝新衣的嫌疑),俺不使用任何公式,有时直接会有数字结果或一些术语,上述几位应该理解,其他人则暂时先信一下。

对于不同语言,由于存在着文化历史、语法结构、组词方式、习惯用法造成的不规则性等等各种因素,笼统地比较由大量不同文献得出的统计数据经常会造成误导。但是如果设定一些条件的话,俺认为还是能够进行一些局部范围的比较。比如说,我们不去比较文学作品这类统计数据意义不大的文字,而是把比较对象限定在意义相同并且确定的文件(比如法律文件)范围内,还是能够说明一些问题。

比较的指标也需要明确界定。我们暂不研究准确性、逻辑性、形象性、柔和度、饱满度、悦耳度、铿锵有力度之类无法界定的度量,只比较Mr.Zhang强调的指标:效率。俺先这么定义效率:对于同样意义的文件,如果在计算机上的存放的容量越小,效率越高。为避免格式带来的噪音,比较的数据应该是无格式的原始数据。

在比较不同语言的效率之前,首先我们要区分“文字这种符号系统对意义的编码”和“计算机系统对文字符号的编码”这两个不同概念(Mr.Zhang的文章不区分这两者的差别就进行讨论),我们想要比较的应该是中英文之间关于前者的效率。后者依赖于人为制定的标准,差别可以很大。比方说,中文是双字节储存,如果当初制定的标准用3个字节来储存一个汉字,同一个文件就会比现在大50%。目前的编码标准,英文字母没有用足8个bit的空间,简体字7500个国标字符也没有用足64K空间,两者都有浪费。在计算机上比较原始文本的大小,两种编码的效率混在一起,这种比较没有意义。对于这些人为标准造成的干扰,我们用霍夫曼编码压缩,可以大体过滤。我们无法设计4.7或12.9比特的编码方案,但是用压缩的办法这两者应该差别很小。

因此,俺建议这样比较中英文的效率:选取一定数量的联合国决议或者其他有多种译本的常见法律文件,各取中英文译本进行压缩,把生成后的文件大小进行比较,这样比较的结果能够粗略反映传达同样意义的某类特定文件的中英文之间效率差别。

在暂时无法得到试验结果之前,俺认为可以用另外一种方法大致比较中英文的效率:先承认英文平均信息熵4.03,中文9.6的结论。假定英语文件主要有大小写字母52个加常用标点符号,算60个,实际所需的编码空间为6个bit不到。对于汉字我们用7500这个数字作为常用字总数(虽然汉字平均信息熵9.6bit的结论本身是从更大的字符集的来的),那么所需的空间为12.9bit。英语信息对于符号的利用率为:4.03/6 = 0.66,中文信息对符号的利用率为9.6/12.9 = 0.74,两者其实比较相近。俺的算法基于这样的思想:每个符号的信息量除以符号空间大小,作为该符号系统的效率。这个方法有没有什么问题? 最起码Zhang文中用中文的9.6bit和拼音文字的4bit的比较是荒唐的,两者的符号总数相差太大。

以上的粗糙比较仍然包含的缺陷有:
第一.比较全部是在编码之间进行的,不反映印刷出来的文本。中文字在视觉上包含更多的信息,芦笛的测字已经说明了问题。

第二.语言特点差别造成的误差无法计算。中美联合公报中recongnition和“承认”这两者的意义有差别。把这个问题推向极端,如果某个太平洋岛屿上的土著语言只有几百个词汇,无法精确表达复杂概念。联合国决议用那种文字来写可能很短,但是丢失的意义很多,这种高效率是以其他的损失为代价的。中英文属于同一个级别的语言,但是未必没有类似的差别。

第三,语言使用者的理解能力是个特别重要的因素,因而语言的效率是相对的,将来有可能会变化。大家知道,不管使用什么语言,交流中对方的理解力非常重要。对理解能力很强的人用很少的语言就足够了,他们能够自己通过上下文解读可能有歧义的词汇。对个人如此,对使用某种语言的人群来说也是一样。9.6bit这种数据还只是反应了当代智力水平的中国人使用的书面语言所携带的平均信息量。

为了说明问题,设想有这么一种人种,也使用汉语。他们智力异常发达,能够非常地高地重用字符用来表达不同的含意。比如“想”这个字,在不同的上下文中,现代汉人大致只有这么几个含义:
“我也想信仰上帝”,想是指企图的意思。
“想老婆”,是指思念的意思。
“想几何题”,是指思考的意思。
但是对于这个优秀人种,同一个“想”在不同场合他们能够明白十几种含意,由于符号的重用,他们就不需要用我们这么繁琐的语言来交流。

这种人种是存在过的,叫做古人,由于他们发达的理解能力,他们用很少的文字外加“之呼者也”的辅助,便能够正常交流。如果请他们用古文重写一边“日内瓦协议篇章”,可能只要1/3的篇幅就完成了。现代人经常毫无根据地批评古人语义模糊不清,其实这是因为现代人大脑已经不发达了,对古文总是有随意的不确切的理解。

遗憾的是,在21世纪的今天,古人不幸已经绝迹。作为他们的后代,我们要用冗余度大几倍的符号系统进行通讯,可见我们在退化。就是说,我们正在慢慢变成猿人的过程中。因此,地球气候转暖是一件好事,未来的世界会到处是森林,最好是果树的森林!

批判是比自己写更容易的事,欢迎大家做这件容易的事!


作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org
返回顶端
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
不能在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 0.585472 seconds ] :: [ 23 queries excuted ] :: [ GZIP compression enabled ]