@
Garwih 好吧,我们先把讨论的范围限定在技术类文档,不然就存在中文的莎士比亚更好还是英文的李白更好的极端case了。
举例也要考虑词频,技术类文档专业术语较多,而文学创作的fansy terms用得极少。中文里专业术语,大多是外来词,生造词,这导致了中文用字的笔画更多更大坨。而英文里的长词,技术文档里用到的很少,用到的那么几个也有约定俗成的极短缩写,立即想到的是internationalization,也就是平时常见的缩写i18n的本尊,i和n之间18个字母之意。
英文占空间更多那是的确,但语言从应用的角度来看,不是越简练越好。对于技术文档而言,强调的是逻辑清晰无二义,结构明确易读取。
中文的二义性不用多讨论,光是分词断句的模糊性就贡献不少了,知乎上曾经看到一个讨论,“奉天承运皇帝召曰”到底是怎么断句的,反正我看到最后也没看到明确的结论。
一段技术性的说明,大量外来生造词,初看可能怎么断句都搞不清楚,光是简练又有什么好处呢?而英文空格分词,这事就省了。
再来说语言结构,大段文字极易视觉疲劳,中文所有文字等宽等长,唯一不等的是笔画密度,第一眼看上去没有明确的视觉特征。而英文词汇长短不一,有大小写之分,并且这些特征往往和该词在段落里的权重直接相关,长词显然更可能是核心词,非首词大写的作者必然认为十分重要。
中文语法过于灵活,不同的文风连段落构造方法都不同(参考古龙 vs 金庸)。而英文万变不离其宗,冠词,介词,不定式,从句,都是一眼能看出的很明显的结构,表意作用也固定,谁写都是如此。
中文对技术词汇的译法没有通用的标准,有的干脆就没有翻译,而英文用法是很固定的。
所以以上这些带来了什么,英文文档对于语言熟练者,可以快速检索,随机访问,第一眼看过去就能知道段落的逻辑结构,核心句是什么,哪些句可以无视。我现在日常拿到一个没用过的库,只要文档是英文写的,我不用看完就可以直接开始编码,想要知道什么马上就能从原文里找到,随机存取效率极高。
总结起来就是,英文是用空间换时间,自带数据结构,中文压缩率高,解压时间有时过长,优劣完全取决于应用场合。