海纳百川 :: 阅读主题 - 关于文字的熵

海纳百川

登录 \| 登录并检查站内短信 \| 个人设置	网站首页 \| 论坛首页 \| 博客 \| 搜索 \| 收藏夹 \| 帮助 \| 团队 \| 注册 \| RSS


	主题: 关于文字的熵

printer-friendly view

海纳百川首页 -> 罕见奇谈

阅读上一个主题 :: 阅读下一个主题

作者

关于文字的熵

无业游民
[博客]
[个人文集]

游客

标题: 关于文字的熵 (893 reads) 时间: 2005-1-17 周一, 上午8:39

作者：Anonymous 在罕见奇谈发贴, 来自 http://www.hjclub.org

越南人、鲁肃以及其他熵的专家，本文中俺有任何错误的话，请你们要象冬天般地残酷无情，当场指出。俺是大老粗，不怕丢面子。并且不指望所有的细节都绝对正确，如果能够启发众人的思路，也算达到目的。为了让外行也尽量能够看懂（同时也为了避免穿皇帝新衣的嫌疑），俺不使用任何公式，有时直接会有数字结果或一些术语，上述几位应该理解，其他人则暂时先信一下。

对于不同语言，由于存在着文化历史、语法结构、组词方式、习惯用法造成的不规则性等等各种因素，笼统地比较由大量不同文献得出的统计数据经常会造成误导。但是如果设定一些条件的话，俺认为还是能够进行一些局部范围的比较。比如说，我们不去比较文学作品这类统计数据意义不大的文字，而是把比较对象限定在意义相同并且确定的文件（比如法律文件)范围内，还是能够说明一些问题。

比较的指标也需要明确界定。我们暂不研究准确性、逻辑性、形象性、柔和度、饱满度、悦耳度、铿锵有力度之类无法界定的度量，只比较Mr.Zhang强调的指标：效率。俺先这么定义效率：对于同样意义的文件，如果在计算机上的存放的容量越小，效率越高。为避免格式带来的噪音，比较的数据应该是无格式的原始数据。

在比较不同语言的效率之前，首先我们要区分“文字这种符号系统对意义的编码”和“计算机系统对文字符号的编码”这两个不同概念（Mr.Zhang的文章不区分这两者的差别就进行讨论），我们想要比较的应该是中英文之间关于前者的效率。后者依赖于人为制定的标准，差别可以很大。比方说，中文是双字节储存，如果当初制定的标准用3个字节来储存一个汉字，同一个文件就会比现在大50%。目前的编码标准，英文字母没有用足8个bit的空间，简体字7500个国标字符也没有用足64K空间，两者都有浪费。在计算机上比较原始文本的大小，两种编码的效率混在一起，这种比较没有意义。对于这些人为标准造成的干扰，我们用霍夫曼编码压缩，可以大体过滤。我们无法设计4.7或12.9比特的编码方案，但是用压缩的办法这两者应该差别很小。

因此，俺建议这样比较中英文的效率：选取一定数量的联合国决议或者其他有多种译本的常见法律文件，各取中英文译本进行压缩，把生成后的文件大小进行比较，这样比较的结果能够粗略反映传达同样意义的某类特定文件的中英文之间效率差别。

在暂时无法得到试验结果之前，俺认为可以用另外一种方法大致比较中英文的效率：先承认英文平均信息熵4.03，中文9.6的结论。假定英语文件主要有大小写字母52个加常用标点符号，算60个，实际所需的编码空间为6个bit不到。对于汉字我们用7500这个数字作为常用字总数（虽然汉字平均信息熵9.6bit的结论本身是从更大的字符集的来的），那么所需的空间为12.9bit。英语信息对于符号的利用率为：4.03/6 = 0.66,中文信息对符号的利用率为9.6/12.9 = 0.74，两者其实比较相近。俺的算法基于这样的思想：每个符号的信息量除以符号空间大小，作为该符号系统的效率。这个方法有没有什么问题? 最起码Zhang文中用中文的9.6bit和拼音文字的4bit的比较是荒唐的，两者的符号总数相差太大。

以上的粗糙比较仍然包含的缺陷有：
第一.比较全部是在编码之间进行的，不反映印刷出来的文本。中文字在视觉上包含更多的信息，芦笛的测字已经说明了问题。

第二.语言特点差别造成的误差无法计算。中美联合公报中recongnition和“承认”这两者的意义有差别。把这个问题推向极端，如果某个太平洋岛屿上的土著语言只有几百个词汇，无法精确表达复杂概念。联合国决议用那种文字来写可能很短，但是丢失的意义很多，这种高效率是以其他的损失为代价的。中英文属于同一个级别的语言，但是未必没有类似的差别。

第三，语言使用者的理解能力是个特别重要的因素，因而语言的效率是相对的，将来有可能会变化。大家知道，不管使用什么语言，交流中对方的理解力非常重要。对理解能力很强的人用很少的语言就足够了，他们能够自己通过上下文解读可能有歧义的词汇。对个人如此，对使用某种语言的人群来说也是一样。9.6bit这种数据还只是反应了当代智力水平的中国人使用的书面语言所携带的平均信息量。

为了说明问题，设想有这么一种人种，也使用汉语。他们智力异常发达，能够非常地高地重用字符用来表达不同的含意。比如“想”这个字，在不同的上下文中，现代汉人大致只有这么几个含义：
“我也想信仰上帝”，想是指企图的意思。
“想老婆”，是指思念的意思。
“想几何题”，是指思考的意思。
但是对于这个优秀人种，同一个“想”在不同场合他们能够明白十几种含意，由于符号的重用，他们就不需要用我们这么繁琐的语言来交流。

这种人种是存在过的，叫做古人，由于他们发达的理解能力，他们用很少的文字外加“之呼者也”的辅助，便能够正常交流。如果请他们用古文重写一边“日内瓦协议篇章”，可能只要1/3的篇幅就完成了。现代人经常毫无根据地批评古人语义模糊不清，其实这是因为现代人大脑已经不发达了，对古文总是有随意的不确切的理解。

遗憾的是，在21世纪的今天，古人不幸已经绝迹。作为他们的后代，我们要用冗余度大几倍的符号系统进行通讯，可见我们在退化。就是说，我们正在慢慢变成猿人的过程中。因此，地球气候转暖是一件好事，未来的世界会到处是森林，最好是果树的森林！

批判是比自己写更容易的事，欢迎大家做这件容易的事！

作者：Anonymous 在罕见奇谈发贴, 来自 http://www.hjclub.org

几处显而易见的问题 -- 黄药师 - (414 Byte) 2005-1-17 周一, 上午9:12 (334 reads)

完全同意，字与字之间，句子与句子之间关系的含糊程度（熵）在汉语是个很大的问题 -- 鲁肃 - (935 Byte) 2005-1-18 周二, 下午3:08 (258 reads)

我觉得应鼓励英语汉语混和应用,以区别一些专门意义 -- 越南人 - (123 Byte) 2005-1-17 周一, 上午9:32 (291 reads)

“大学的学生”与“大学生”并不一样 -- 黄药师 - (47 Byte) 2005-1-17 周一, 上午9:46 (289 reads)

参加游行的有来自于大学的50多个教职员工 -- 越南人 - (12 Byte) 2005-1-17 周一, 上午9:55 (250 reads)

这就是了 -- 黄药师 - (139 Byte) 2005-1-17 周一, 上午10:05 (263 reads)

总之日常生活简单事物用汉语精确表达不成问题, 新型科学名词动词不妨直接用英语 -- 越南人 - (0 Byte) 2005-1-17 周一, 上午10:08 (234 reads)

这是精确度问题，英文也有例子。暂时无法定量比较，还是先研究效率 -- 无业游民 - (222 Byte) 2005-1-17 周一, 上午9:44 (303 reads)

我以为只要心里想得清楚的人就能表达清楚,无非是增加词汇,少用"的" -- 越南人 - (0 Byte) 2005-1-17 周一, 上午9:50 (238 reads)

同意，表达能力经常反映出理解程度 -- 无业游民 - (0 Byte) 2005-1-17 周一, 上午9:51 (242 reads)

欢迎批判，某些部分完全同意 -- 无业游民 - (9 Byte) 2005-1-17 周一, 上午9:32 (260 reads)

嘿嘿，你也8看看他是谁 -- 消极 - (0 Byte) 2005-1-17 周一, 上午9:44 (248 reads)

错了，俺在估计谁会第一个批判，概率最高的（熵最低的）就是他。猜中了 -- 无业游民 - (0 Byte) 2005-1-17 周一, 上午9:47 (237 reads)

哈，鄙人别的本事没有 -- 黄药师 - (34 Byte) 2005-1-17 周一, 上午9:52 (282 reads)

师傅您就别谦虚了，您本事很多，功夫很高。 -- 克里斯琴 - (0 Byte) 2005-1-17 周一, 下午7:15 (267 reads)

别老在人家后面跟帖，屈才了。 -- 克里斯琴 - (42 Byte) 2005-1-17 周一, 下午7:18 (271 reads)

您说到点子上了。请仔细看看俺文中的最后一句话 -- 无业游民 - (598 Byte) 2005-1-18 周二, 上午7:37 (321 reads)

您批评得很好，可您不知事情原委 -- 克里斯琴 - (180 Byte) 2005-1-18 周二, 下午12:58 (325 reads)

嘿嘿，别。我这人没长性，不一定能在这儿呆几天呢。 -- 黄药师 - (0 Byte) 2005-1-18 周二, 上午4:58 (268 reads)

这我不担心，上海川上瘾，这儿有很多牛人，跟别的论坛大有不同。 -- 克里斯琴 - (20 Byte) 2005-1-18 周二, 下午1:05 (252 reads)

您这会挑对了 -- 无业游民 - (0 Byte) 2005-1-17 周一, 上午9:54 (226 reads)

显示文章:

printer-friendly view

海纳百川首页 -> 罕见奇谈

所有的时间均为北京时间

您不能在本论坛发表新主题
您不能在本论坛回复主题
您不能在本论坛编辑自己的文章
您不能在本论坛删除自己的文章
您不能在本论坛发表投票
您不能在这个论坛添加附件
您不能在这个论坛下载文件

based on phpbb, All rights reserved.

[ Page generation time: 5.398795 seconds ] :: [ 21 queries excuted ] :: [ GZIP compression enabled ]