文章
人文

中文语言与全球信息秩序

natasha 饭姐

文/natasha

2008年的奥运会,当各国代表团入场的时候,曾经有出现了一个小插曲。这个小插曲如此之小,以至于没有国人注意到:中国人居然这么不显山不漏水地摆了西方人一道。

众所周知,在历届奥运会中,各个国家代表队的编号顺序,一项是以字母表为顺序的。除了向希腊这个奥林匹亚精神的创始国度致敬将它排在第一位外,别的国家都按照字母表先后顺序入场。此顺序已经成为国际惯例,大家习以为常。

然而在2008年的奥运会上,主办方中国别出心裁地以部首和中文笔划作为出场顺序,搞得全世界的新闻直播记者都措手不及:哪个国家挨哪个国家?这搞的是什么鬼?

以字母表为代表的全球通用信息秩序,和以部首和笔划顺序为代表的中文信息秩序,就这样在奥运舞台上交了一次手,然而很快又重新回归波澜不惊。

全球信息秩序的起源可追溯到电报的发明。当电报手段刚刚出现的时候,就有一位法国人想到, 可否发明一种世界性的电报语言,这种电报语言对全世界其他语言来说一律平等,发送频率和便利程度均等。他还以中文作为代表)因为他认为中文是最难的语言,如果这种电报语言能够以中文入手解决了技术问题, 那就有机会将世界上所有语言都纳入其中,真正实现全球平等。

然而他的计划并没有得以实现,取而代之的电报语言是莫斯代码,而莫斯代码又是以英文字母表为基础。因此莫斯代码无法直接发送中文(需要用数字作为中介),甚至一度在发送除英文之外的其他语言都需要克服各种困难。因此,英文在全球信息传输上占据了巨大的先天优势。这种优势来自于一种以它自身作为基础的全球信息秩序。

后来的中文打字机,电脑中文输入法,在长期都不得不试图克服这种在全球信息秩序中的劣势地位。以中文部首为信息秩序的输入法设计思想,曾经在上个世纪大行其道。但对于已经习惯了字母表的西方人来说,这种部首输入法无疑是一种天书,连无所不能的007都表示理解无能:

!

以007的人设,当然要啥会啥,在这里故意让他输给中文输入,其实是一种把中文当作”他者“的调侃,西方观众自然会意。

目前中文在以字母表为基础的全球信息秩序中的介入,仍然不是以第一语言的姿态,而是要借助其他语言和符号的转译。这显然是一种西方霸权的历史残留,无可讳言。不过,全球信息联结已经发展至此,是不是需要扭转字母表的主体地位,见仁见智。如何能够创造性的利用中文语言的特点,让中文母语者在西方语言秩序中立于不败之地,则需要语言学家和信息工程师们发挥创意和智慧了。

菜单
  1. Truth  

    全世界書寫系統的發展都是遵從象形字母到表音文字。這是必然的趨勢,因爲字母具有極大的方便性。中國人當然可以自我安慰,漢字具有什麽美學之類的。但是讓其在全球訊息秩序中具有一個席位明顯是不可能的。這不是霸權不霸權,而是漢字確實很複雜,學習成本確實很高。

    我們假設世界上只有中文,那麽我們該如何設計計算機呢?事實上如果真如此,最底層的還是0和1,但是再往上中國人可能會先設計一套符號,然後用這套符號去編寫一個輸入法來輸入中文。(這是理想情況,大概率是根本無法發明)。而拉丁字母則可以直接掠過這一層。

    中文如果不拉丁化是必然不可能成爲主要語言的。

  2. natasha 饭姐
    natasha  

    @Truth #153569

    因爲字母具有極大的方便性。中國人當然可以自我安慰,漢字具有什麽美學之類的。但是讓其在全球訊息秩序中具有一個席位明顯是不可能的。這不是霸權不霸權,而是漢字確實很複雜,學習成本確實很高。

    这正是以字母表为秩序的西方信息秩序想让你这么认为的。

    中文并非一定要拉丁化。我提到的那位法国人试图发明一种通用电报语言,这种语言将中文理解为可拆分的字体,将部首和笔划以字母的原理进行传输,理论上也是可行的。这是一种语言理念的变革。然而可分式字体也有许多争议,但那是另外一个话题了,有机会再说。

  3. Truth  

    @natasha #153570

    将部首和笔划以字母的原理进行传输

    所以最底層的還得是字母。

  4. natasha 饭姐
    natasha  

    @Truth #153571

    不是的,这里的字母的原理并不是以字母为基础

    我举例吧,比如“把”这个字,可以拆分成一个提手旁和一个巴,这两个部分分别当成这个汉字的基本元素。而英文单词比如an,也是两个字母,即这个中文字和这个英文字都有两个基本元素,那么在信息传输的过程中,就都是传输两个基本元素。

    而莫斯代码,则是真正的底层是字母。因为用莫斯代码传送的中文并不是中文,而是数字,数字再转化成字母。

  5. 邹韬奋 外逃贪官CA
    邹韬奋   虽然韬光养晦,亦当奋起而争(拜登永不为奴:h.2047.one)

    请使用UNICODE

  6. Truth  

    @natasha #153574

    區別是英文可以拆分成獨立的字母,并且每個字母都高度一樣,中文則不可以拆分成獨立的部首,因爲這就丟失了這些部首的排列,以及每個部首在每個字裏的長度也不一樣。所以需要額外的訊息來存儲這些排列。最好的情況是找到了存儲部首排列的方法,但是這也要額外增加許多空間占用。

  7. natasha 饭姐
    natasha  

    @Truth #153576

    并且每個字母都高度一樣,中文則不可以拆分成獨立的部首,因爲這就丟失了這些部首的排列,以及每個部首在每個字裏的長度也不一樣。

    字母不是高度一样哦!a 和f怎么能一样呢?i和m的宽度也不一样。

    从技术手段上说,中文的部首当然是可以拆分的,部首一直是中国辞书学进行检索的重要手段。而且,19世纪的印刷工业已经实际制作出了可分式中文字体,并且很畅销。缺点就是拼合字体不够美观罢了。

    所以,把中文按照拉丁字母的原理进行传输理论上是可能的,但是暂时没有人想要去更改整个信息秩序体系罢了。

  8. Truth  

    字母不是高度一样哦

    我的意思是每一個同樣的字母都“高度(形容詞)”一樣。比如banana裏面,重複的a和n都一樣。但是“王”這個字裏面,重複的這三個橫都不一樣。

  9. natasha 饭姐
  10. 沃森生物  

    据说现在最快的输入法不是拼音,也不是五笔字型,而是语音输入。如何用字母编码汉字已经不是那么重要了,反正底层都是二进制。

  11. Truth  

    @natasha #153581

    英文可以拆分成最基本的26個字母,這26個字母都不一樣,但是每一個字母在任何一個單詞裏都一樣的。a一共只有1種寫法,b一共也只有1種寫法,所以26個字母一共只有26種寫法。

    中文,現在按照你的想法,是想拆分成筆畫;也就是常見的橫竪撇捺之類的。這裏有2個問題,一個是如何精確組合是問題,一個是橫竪撇捺之間也大不相同。比如王有三個橫。僅王一個字,橫就有3種寫法。所以拆分中文是基本不可能。

  12. natasha 饭姐
  13. 能井 元悪魔候補生
    能井   銀髮赤瞳。筋肉美少女。修復系魔法師。身長209cm。体重124kg。

    @Truth #153585

    没记错的话,异体字在unicode里占同一个编码,不同的异体字就是笔画不同。

    这些就是分类学,只有切分得精细和粗犷的区别。我直接把三个横看作一样的就行了。

    我猜你想说的是,英文的最小单位字母,而且是按照严格先后顺序排列的“一维”的“单向”的一堆“可数字母”。比如“bbs”是最小元素的“向量”排列,因此在编码复杂度上比较低。

    而汉字在书写的时候笔画并不是严格按照一个接一个的顺序写的,比如“王”字不是“- - | -”,而是作为“二维”的书写组合方式,在纸面上是高度复杂的组合形式。

    但是好像没有必要直接用“笔画”作为最小元素来进行底层编码吧,unicode也只是对每个“符号”进行编码。只要抽象出来人能够理解的输入方式就可以了,五笔不就是一种吗?我感觉你们唠的不是一个问题。

    你说的要直接给“横竖弯钩”进行底层编码,然后在键盘直接输入这些笔画,然后还要在一个框里正确合成一个汉字,确实比较难。

    不过也可以,比如我对现存所有汉字进行大数据分析,统计第一笔在方框内的出现概率云,然后当我输入“横”的时候在几个经常出现的位置进行选择就好了。没必要完全由自己进行位置的选定。

  14. 能井 元悪魔候補生
    能井   銀髮赤瞳。筋肉美少女。修復系魔法師。身長209cm。体重124kg。

    @natasha #153586

    因为英文目前是将每个字母作为最小元素进行编码,比如“b”“b”“s”是分开各有一个二进制代码表示,每个字母就是一个单独的整体。而不存在“bbs”这个单词单独的编码,输入“bbs”只要直接分别输入单独的三个字母元素就能在屏幕上显示。

    而中日韩表意汉字里每个汉字代表一个二进制代码,打拼音通过罗马字母转换转换每个汉字是作为一个整体出现的。假如直接用二进制给有限个笔画进行编码(比如国标由28个标准笔画),那也就是说每次输入汉字都不能直接调用单独的汉字整体,需要进行“造字”。几乎要模拟人手写字的过程,决定每个笔画的顺序和位置,我想他说的“精确组合”就是这个问题。

    我想你说的仅仅是类似五笔这种互动界面的输入问题?

  15. natasha 饭姐