你的念頭和想法,就是你的資糧;差別在於自己累積的是善或惡的資糧?!

2013年12月12日 星期四

學者新論:中文資訊技朮標准:漢字注音?拼音正詞法?


教育部語言文字應用研究所研究員、博士生導師馮志偉

      

    代前言

    馮志偉教授是教育部語言文字應用研究所研究員、博士生導師。2002年10月中旬,在河南省開封市召開了中國語文現代化學會第五次學朮會議。這篇文章,是根據馮教授的報告摘編的。

    馮志偉教授的文章,提出了語音、歷史和識別的三個正詞法原則結合的方法來施行和完善現代漢語拼音正詞法,從而使全國文化教育工作和中文資訊技朮發展有更嚴格規範的和統一的語言文字根據。馮教授的主張,對國內和國際的規範標准的實行與建設都很有現實意義。

    現代漢語拼音正詞法是1988年中國政府頒布的,是具有法律意義的國家標准規範,而且,也是聯合國等國際組織使用的國際標准規範。這個標准規範的主要內容,是中文書寫中的詞界的確立。

    1989年,漢字優越論和漢字文化論開始泛濫,鼓吹者的目標之一,是否認中文有詞界、進而否定現代漢語拼音正詞法,恢復半個世紀以前逐漸淘汰的漢字注音法。在報刊媒體的鼓動宣傳和某些部門人士的支持下,漢字優越論終于成了氣候,現代漢語拼音正詞法和相關的規範標准的建設受到極大幹擾和破壞,而被淘汰的漢字注音法大有回籠之勢。

    中文資訊技朮不光是輸入輸出漢字,更還有句子和段落的處理、還有排序等數據結構管理和中文演算法語言等等,這些,都需要明確的詞界。為了發展中文文獻管理和翻譯自動化,中國已經投入了三十年左右的時間、上億元的資金和數不勝數的人力,可是,許多基本問題依然處于一籌莫展或停滯不前的狀況,究其技朮原因,主要問題就是詞界模糊、單個漢字連成一片。

    以前,中文書寫沒有標點符號,需要很大的句讀工夫才能避免歧義和正確閱讀。句讀,通俗說,就是分句和確定句界。引進拼音文字的標點符號方法,句界清晰,為避免歧義和正確閱讀提供了極大的方便,而中文還是中文,並沒有因為使用拼音文字的標點符號而不再是中文了。試想,如果取消標點符號,所有的中文文獻都是一個個漢字連成一片,那麼,現在的人工閱讀和計算機文獻處理,會是個什麼樣子?多數人會同意,那將是一場災難性的技朮和文化的倒退。

    同樣,如果沒有現代漢語拼音正詞法確定詞界的方法,那麼,許多中文文獻工作、中文數據管理自動化和翻譯自動化等等工作,就會面臨巨大的困難。跟使用標點符號一樣,確定詞界不是取消漢字、也不是用英文等西方文字代替中文書寫,而是在使用標點符號的基礎上,進一步避免歧義和保証正確閱讀,為中文數據管理和自動翻譯等提供基本的文字方法依據,使計算機操作、人工作業、說話和書寫等等,有統一的標准規範。

    漢字注音是一個個漢字連成一片的方法﹔現代漢語拼音正詞法是確定詞界的方法。恢復漢字注音、還是堅持現代漢語拼音正詞法?這不但是全國基礎教育和文獻管理的大事,而且是中文資訊技朮標准依據的大事,也是中國政府提交給聯合國的國家標准和國際標准是否有效的大事。

    呂叔湘、王均和周有光等老前輩科學家,一開始就看到了漢字優越論的危害,認為那是主張文化倒退。他們主張繼續執行和完善現代漢語拼音正詞法,一步步搞好中文現代化建設。然而,他們堅持科學真理的聲音被一浪高過一浪的媒體炒作淹沒了,直到前幾年網絡熱掩蓋了漢字優越論的熱浪。網絡熱冷卻後,漢字優越論又開始抬頭,跟尊儒復古思潮結合,繼續試圖否定現代漢語拼音正詞法和恢復漢字注音。令人注意的是,隨著漢字優越論和漢字文化論的泛濫,已經有人試圖把文字方式作為搞文化分裂和國家分裂的政治工具。

    主持國際通用字元庫標准的聯碼(Unicode)組織,每年都召開國際學朮會議,討論各種語言文字的數據管理文字方式和字元標准規範等問題。隨著中文資訊技朮市場的發展,近些年來,聯碼會議也越來越多地提出了中文文字方式的詞界問題。中文書寫的詞界和現代漢語拼音正詞法,已經超越國家行政和文化地理的范圍,成為國際科研學朮界十分關注的一個重要問題。

    在這個時候,看到馮志偉教授的《英德法語的正詞法與漢語拼音正詞法》,深受啟發,特別向人民網做了推薦。承蒙人民網編輯部的要求,特做此介紹,且當作前言,奉獻給讀者。(米阿侖)

                                       

    中文資訊技朮標准:漢字注音?拼音正詞法?

    《中華人民共和國國家通用語言文字法》第一章第十八條規定:國家通用語言文字以《漢語拼音方案》作為拼寫和注音的工具。《漢語拼音方案》是中國人名、地名和中文文獻羅馬字母拼寫法的統一規範,並用於漢字不便使用或不能使用的領域。初等教育應當進行漢語拼音教學。

    《漢語拼音方案》不僅是注音的工具,而且也是拼音的工具,要拼音,就必然會涉及到詞兒連寫的問題。在《漢語拼音方案》中,採用y、w和隔音符號'來隔音,就是為瞭解決詞兒連寫的問題,而詞兒連寫的問題,就是漢語拼音正詞法的問題。我們在這裏討論漢語拼音証詞法,是完全符合《中華人民共和國國家通用語言文字法》第一章第十八條的規定的。最近一段時間,似乎特別強調《漢語拼音方案》給漢字注音的功能,而非常忽視甚至試圖削弱《漢語拼音方案》給漢語拼音的功能。因此,我們認為,有必要在這裏借鑒國外正詞法的研究,來進一步加強《漢語拼音正詞法》的研究和改進。

    問題的提出

    正詞法在英語裏叫Orthography。ortho-是正確的意思,-graphy是拼寫法的意思,整個Orthography就是正確的拼寫法的意思。1958年2月11日,國家正式公佈了《漢語拼音方案》,用拉丁字母來拼寫漢語,這就出現了漢語拼音的正詞法問題。

    漢字一連串寫下來,既不分詞又不連寫,只有的書寫單位,沒有的書寫單位。漢語普通話中的詞有單音節的,有多音節的,多數是雙音節的。用漢語拼音來拼寫普通話時,應該分詞連寫,也就是以詞作為書寫單位,使得語言中的表義單位能夠在書面形式上反映出來。這是拼音書寫形式與漢字書寫形式的根本區別。

    比如,中華人民共和國不是寫成zhong hua ren min gong he guo, 也不是寫成 zhonghuarenmingongheguo, 而是寫成 Zhonghua Renmin Gongheguo。這樣的寫法反映了詞語的實際結構,閱讀起來比全分或全連都來得清楚。可見,漢語拼音正詞法就是以詞為單位來正確地書寫漢語普通話的拼寫法。

    任何拼音文字都應該有自己的正詞法。英語、法語、德語等採用拉丁字母作為拼音文字的語言,在長期的歷史過程中,發展出適合於本語言特點的正詞法。漢語拼音雖然不是拼音文字,但是,在它的實際使用中,特別是在與語言資訊處理有關的應用中,也有正詞法的問題。為了深入地研究漢語拼音正詞法問題,有必要對英語、法語和德語的正詞法發展情況進行研究,以便作為我們的借鑒。

    英語的正詞法

    英語分古代英語(西元700年-1100年)、中古英語(西元1100年-1500年)和近代英語(西元1500年至今)。西元 9世紀丹麥入侵英國,至11世紀初,丹麥實際上統治了英國,丹麥語和英語同屬日爾曼語族,加速了古英語的簡化過程。

    1066年法國入侵,法語成為官方語言,法語屬羅曼語族,與英語不是同一個語族,英語吸收了大量的法語詞匯,語法上也受到了法語的影響。在法國入侵之後,英國實際上存在著3種語言:法語是官方語言,拉丁語是宗教語言,英語是社會下層使用的語言。

    後來由於政治上的歷史變動,英語逐漸成為官方語言,學校開始教英語,英語成為了英國的全民共同語。在英語上升為官方語言的過程中,吸收了大量的法語借詞,西元1250年-1400年的150年內,約有10000個法語詞匯進入了英語,75% 至今還在使用。

    由於基督教會的影響,拉丁語詞匯也大量進入英語,使得英語的同義詞大量增加。例如,同是表示 的三個詞,fire來自英語,flame來自法語,conflagration來自拉丁語﹔同是表示的三個詞,ask 來自古英語,inquire來自法語,interrogation來自拉丁語。

    文藝復興時期對古希臘、羅馬文化的研究,大量的拉丁語、希臘語詞匯湧入英語。例如,arithmetic(算朮),grammar(語法),logic(邏輯)來自希臘語, arbitrator(仲裁人), executer(執行者), item(條款)來自拉丁語。

    這些情況,使得在現代英語中,借詞占了 80% 的比重,這些來自不同語言的大量借詞,減少了同形詞和同音詞產生的機會。大量吸收外來詞 -- 這是英語正詞法得以形成和鞏固的一個重要因素。

    英語正詞法中比較嚴重的問題是如何解決英語的書面拼寫形式和讀音之間的矛盾問題。

    由於文藝復興時期印刷朮的推廣和教育的普及,英語的書面拼寫形式逐漸統一,形成了規範的形式,而這些規範的形式又通過印刷的方式進一步固定下來。

    與此同時,英語的語音發生了很大的變化。例如,gnash(咬牙)和 gnat(小昆蟲)中,g不發音,knight (騎士)和 know (知道)中,k不發音,而在中古英語中,這幾個字母全都要發音。又如,輔音字母前的 r (如 arm)和詞尾的 r (如 father)不發音,詞尾的 e (如 live)不發音,而在中古英語中,它們都是要發音的。

    這種情況,使得規範的書面形式與實際的發音之間出現了很大的矛盾。在英語正詞法中,基本上保持歷史上原來的詞形,從而減少了同形詞和同音詞產生的可能性。

    18世紀開始,英國強調語言的規範化,要求語言准確有力。1755年,約翰遜(Samuel Johnson) 編寫了第一部英語詞典,把英語詞的拼寫形式固定了下來。這樣,英語的正詞法就能夠以詞典作為規範的根據。

    尊重歷史,保留詞形的原有形式,這是英語正詞法得以形成的另一個重要因素。

    書面拼寫形式與實際的發音不一致,當然也會給英語的學習和使用帶來一些困難,為了統一讀音,英國從維多利亞時代就開始推行標准語,著名語音學家瓊斯 (Daniel Johns) 編寫的《英語發音詞典》  (English Pronunciation Dictionary) 成了人們必須遵守的發音規範。

    我們可以看到,英語的正詞法主要是遵從歷史原則,同時也適當考慮語音原則。

    法語的正詞法

    法語屬羅曼語族,它的祖先是拉丁語。拉丁語的使用早在羅馬帝國時代就一分為二了:書面的拉丁語古文有嚴格的語法規則,專為貴族和僧侶使用,口頭拉丁語俗體是人民大眾使用的活語言,又稱民間拉丁語。民間拉丁語隨著羅馬帝國版圖的擴大,由軍隊和商人傳到了法國南部的高盧人那裏,並逐漸取代了高盧語,同時又受了高盧語的影響。西元7-8 世紀,原來的民間拉丁語變成了一種新的語言 -- 這就是古代法語。

    12世紀末,以巴黎為中心的方言逐漸成為了法語的全民語言,17世紀以來,由於發展商品經濟的需要,法國一直十分注意語言文字的標准化和規範化,主張清除法語中的不純潔成分。

    在長期的歷史發展過程中,法語的語音有了很大的變化,而書面的拼音形式卻已經基本固定下來,語音的演變並沒有反映在書面的形式上,因此,法語與英語一樣,也存在著書面的拼寫形式與實際讀音之間的巨大差異。這一方面固然給學習法語帶來了一定的困難,但另一方面卻為區分同形詞和同音詞提供有力的手段。

    為瞭解決書面拼寫法和實際讀音的矛盾,法語的正詞法提出了許多行之有效的規則。

    例如,法語詞末的輔音 -ds, -s, -x 等,大多數是古音在書面形式上的遺跡,在現代的口語中已不發音。利用這些形式不同而實際上已經不發音的詞末輔音,就可以區分同形詞和同音詞。poids (重量),pois (豌豆 ),poix(松香)3 個詞,發音都是 ﹝pwa﹞, 是同音詞,由於詞末輔音 -ds, -s, -x 不發音,利用這些形式各不相同的詞末輔音,就可以把這 3 個同音詞在書面形式上區別開來。

    可見,法語正詞法主要是遵從歷史原則,並把這個原則作為區別同音詞的重要手段。

    德語的正詞法

    德國人在使用拉丁字母之前,是使用魯納字母(Rune)的。這種字母的形式很像拉丁字母和希臘字母。德國人在接受了基督教之後,就放棄了魯納字母而改用拉丁字母。西元 2 世紀,拉丁字母的地位在德國進一步鞏固。到了西元 7 世紀,拉丁字母成了西歐各國大部分民族文字的基礎。但是,德國使用的拉丁字母是歌德體的字母,與西歐各國並不完全一樣。在使用拉丁字母來拼寫德語的過程中,德語的正詞法逐漸形成。

    1596年,語言學家魏歇勒 (Wecherer) 建議,名詞的第一個字母大寫,這種辦法有利於辨識名詞,大大地方便了閱讀,但也由此而引起了關於字母的大寫和小寫的一系列正詞法問題的爭論。

    1876年,德國召開了正詞法會議,會上建議取消字母組合th, Thal 寫為Tal(山谷),並研究了[s]和長母音的書寫規則。

    1901年,德國召開了第二次正詞法會議,通過了第一次正詞法會議所提出的各項建議,並採用了著名語言學家格裏木 (Grimm) 的建議,放棄了歌德字體,提倡使用西歐各國普遍使用的拉丁字母。

    著名詞典編纂專家杜登 (Konrad Duden, 1829-1911)編寫了德語正詞法詞典,為德語正詞法的研究立下了功勞。

    德語正詞法主要根據下列原則:

    1. 語音原則:這個原則要求詞中字母的發音應與該字母的表音一致。例如,p, t, k, f 等字母在詞中的任何位置或與任何字母相結合,均依次讀為 ﹝p﹞,﹝t﹞,﹝k﹞,﹝f﹞。這個正詞法原則還要求單詞的發音與其拼寫法盡量保持一致。例如,kalt(冷)讀為﹝kalt﹞,oft (經常)讀為﹝oft﹞等等。在德語中,70%-80% 的詞和字母是符合語音原則的。 由於堅持了語音原則,使得德語的字母和單詞易學易記,給學習和使用帶來了極大的方便。

    2. 形態原則:這個原則要求詞根和詞幹的寫法,在由它們派生出來的詞中保持不變。也就是說,在合成詞中,在名詞的變格形式中,在動詞的變位形式中,在形容詞的比較級和最高級形式中,盡量保持詞根和詞幹的原有形式,必要時採用變音 (Umlaut)。

    3. 識別原則:這個原則要求把聲音相同而意義不同的幾個詞在寫法上加以區別,以便在書面形式上區分同音詞。例如, Lid (眼皮)與 Lied (歌曲)都讀為 ﹝lid﹞, 根據識別原則,把 Lied 中的 ﹝i﹞ 寫為 'ie'; malen(畫圖)和 mahlen(磨碎)都讀為﹝maln﹞,根據識別原則,把 mahlen 中的 ﹝a﹞ 寫為 'ah'.

    4. 歷史原則:這個原則要求保持歷史上的某些傳統寫法。例如,ziehen(拉)一詞中的字母 'h' 是沒有什麼作用的,因為詞根裏 'i' 的長音已經寫為 'ie', 完全沒有必要在加上一個 'h' 來表示長音,但由於這個 'h' 在歷史?上曾經表示過一種特殊的而現在已經不復存在的輔音,根據歷史原則,可以把這個 'h' 保留在 ziehen 的詞形中。

    在這四條原則中,語音原則是德語正詞法的最基本的原則,這個原則使得德語的書面形式比英語和法語易讀,易寫,易記。

    然而,德語有19個母音,23個輔音,共42個音位 (phoneme), 而拉丁字母只有26個,這就不可能處處都遵循語音原則。為了彌補字母之不足,同一個字母可以表示不同的音位,同一個音位可以表示不同的字母,也可以採用字母組合來表示一些單字母不能表示的音位。為了補充語音原則的不足,德語正詞法還規定了如下的字母拼寫規則:

    1. 同一個音位可以用不同的字母或字母組合來表示。

    2. 同一個字母可以表示兩個音位的組合。

    3. 用不同的字母組合方式表示長母音,並使之成為區別同音詞的手段。表示長母音的手段主要有:在母音後加啞音 h 來表示長母音﹔  用重疊母音字母的方式來表示長母音。

    採用不同的方法,一些同音詞就可以區別開來了。例如,

      Aale (鰻魚)   --  Ahle (錐子)

      Moor (沼澤地) --  Mohr (黑種人)

    由此可以看到,德語正詞法十分注意語音原則,但也考慮到了形態原則,識別原則和歷史原則,以區別同音詞,減少拼音文字使用中的同形現象。

    英語、法語和德語的正詞法都考慮到了歷史原則,德語正詞法還考慮到了識別原則。這些語言的正詞法原則可以給漢語拼音的正詞法提供寶貴的經驗。

    中國文字的拼音化運動

    在明朝末年,歐洲一些國家的傳教士來中國傳教,開始用拉丁字母給漢字注音,學習漢語和漢字,並出版了一些漢語譯音讀物,專供歐洲傳教士之用。如 1605 年義大利耶穌會教士利瑪竇 (Matteo Ricci, 1552 - 1610) 在北京出版的《西字奇跡》,1626年法國耶穌會士金尼閣 (Nicolas Trigault) 在杭州出版的《西儒耳目資》。著名語言學家羅常培先生說,《西儒耳目資》是"明末耶穌會在中國音韻學上的第一個貢獻。"

    鴉片戰爭之後,各國傳教士蜂湧來華,他們用拉丁字母給聖經注音,拼寫中國的方言。1867年,英國人威妥瑪 (T. F. Wade) 出版了《語言自邇集》,用 26個拉丁字母來拼寫北京官話,形成了有名的威妥瑪方案。

    這些都是用拉丁字母來拼寫漢字讀音的最早嘗試。這樣的嘗試激發了知識分子對中國文字拼音化的興趣,在清朝末年,開始了切音字運動。

    在切音字運動中提出的拼音字母是多種多樣、琳琅滿目的,可以歸納為三大系:

     假名系:模仿日文假名,採用漢字部首作為拼音符號。例如,1892年盧戇章的《一目了然初階》一書中提出的中國切音新字,1901年王照的官話合聲字母等都屬於假名系。

     速記系:採用速記符號作為拼音符號。 例如,1896年到1897年兩年間出版的蔡錫勇的《傳音快字》、沈學的《盛世母音》、王炳耀的《拼音字譜》等書中提出的方案都屬於速記系。

     拉丁系:採用拉丁字母作為拼音符號。 例如,1906 年朱文熊的《江蘇新字母》、1908 年劉孟揚的《中國音標字母》和江亢虎的《通字》、1909年黃虛白的《拉丁文臆解》等書中提出的方案都屬於拉丁系。

    1911年辛亥革命成功,1913年在北京成立了讀音統一會,通過了注音字母方案,這些字母選自古漢字,具有民族特色,1918年由教育部公佈實行,並在全國推廣,由於語文工作者的熱心倡導,政府的積極支持,注音字母順利地普及到各級學校,成為字典、詞典的注音工具,在幫助學習漢字,普及拼音知識等方面起了很好的作用。這就是民國初年的注音字母運動。

    在清末的切音字運動中,已經開始考慮到拼音正詞法問題。盧戇章在他的《一目了然初階》一書中,已經用短橫連接音節的方法實行了初步的分詞連寫。蔡錫勇的《傳音快字》一書中,提出了"連書"的概念。沈學的《盛世母音》一書中,還把"連書"與詞類問題結合起來討論,主張按詞類"繕寫連書"。王照的《官話合聲字母》、朱文熊的《江蘇新字母》、劉孟揚的《中國音標字書》等書中,都用不同的方式表示了以詞為單位的書寫方法。

    但是,學者們對於以詞為書寫單位,還停留在初步的感性認識階段,還沒有總結出一套較為系統的分詞連寫規則,更談不上建立正詞法的理論。而且。基本上沒有考慮歷史原則。

    在民國初年的注音字母運動中,由於這個運動的倡導者只是僅僅用注音字母來給漢字注音,因而對於分詞連寫的問題幾乎沒有涉及。所以,我們可以說,注音字母運動對於拼音正詞法是沒有什麼貢獻的。 

    1917年陳獨秀在《新青年》上提出了文學革命的口號。1918年錢玄同在《新青年》上發表了《中國今後的文字問題》一文,促進了人們對拼音化問題關注。1923年,《國語月刊》出版了特刊《漢字改革號》,發表了錢玄同的《漢字革命》、趙元任的《國語羅馬字的研究》、黎錦熙的《漢字革命軍前進的一條大路》等論文,開始了國語羅馬字運動。1928年9月26日,由政府正式公佈了國語羅馬字方案,作為注音字母的第二式。這個方案用拉丁字母來拼寫漢語,用字母來表示聲調,考慮的比較周密,已經接近拼音文字。但是,沒有很好地得到推廣。

    在國語羅馬字運動中,黎錦熙明確地提出了詞類連書的問題,並且擬訂了復音詞類構成表,提出了正詞法的初步規則。1928年黎錦熙的《國語模範課本》和1929年趙元任的《最後五分鐘》,通過拼音讀物,對國語羅馬字作了較為系統的試驗。肖迪忱於1934年、孫先六于1936年曾經擬訂了國語羅馬字的分詞連寫條例,但都不夠完整,不夠系統,不夠成熟,而且也完全不考慮歷史原則,很少考慮識別原則。

    30年代初期興起了拉丁化新文字運動。這個運動一開始,就以集體名義制定了《中國漢字拉丁化的原則和規則》,於1931年9月在蘇聯海參威召開的中國新文字代表大會上通過。1934年到1937年間,上海、北京、天津等城市成立了新文字研究團體,出版了拉丁化新文字的書籍和雜志。1938年10月成立了陝甘寧邊區新文字協會。1941年吳玉章發表了《中國拉丁化新文字的寫法規則》一文,對拉丁化新文字的規則作了系統的總結。

    在拉丁化新文字運動中,正詞法問題受到了普遍的重視,許多學者對此作了深入的研究。林漢達發表過不少關於分詞連寫的文章,出版過第一本拼音文字的詞表《國語拼音詞匯》,倪海曙的《中國拉丁化新文字的寫法》一文,提出了詞的拼寫法規則 68 條,對拉丁化新文字的正詞法作了詳盡而系統的總結。可惜,這些總結中,並沒有注意到歷史原則和識別原則,導致同音詞的分化很差,成為而後漢語拼音正詞法的一個隱患。

    漢語拼音正詞法是否應當考慮歷史原則和識別原則?

    1958年2月1日,中國第一屆全國人民代表大會第五次會議通過了《漢語拼音方案》,內容包括:

    字母表:規定字母的形式、名稱和順序。

    聲母表和韻母表:規定漢語中聲母和韻母用字母來表示的方法。

    聲調符號:規定調號形式和標調方法。

    隔音方法:規定隔音符號和隔音字母 y, w, yu 用法。

    顯而易見,   三項是關於拼寫音節的規則,而項已經超出了單個音節的範圍,為拼寫多音節的單詞創造了條件。


沒有留言:

張貼留言