CN86103965A - 采用《拼音中文》系统的方法和设备去处理中文资料、文字、信息或数据 - Google Patents
采用《拼音中文》系统的方法和设备去处理中文资料、文字、信息或数据 Download PDFInfo
- Publication number
- CN86103965A CN86103965A CN86103965.3A CN86103965A CN86103965A CN 86103965 A CN86103965 A CN 86103965A CN 86103965 A CN86103965 A CN 86103965A CN 86103965 A CN86103965 A CN 86103965A
- Authority
- CN
- China
- Prior art keywords
- sound
- tone
- word
- rhyme
- han
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/018—Input/output arrangements for oriental characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Abstract
处理中文文字或数据的方法及设备。本发明制定了一套《拼音中文》系统。采用拼音定调表意的拼音文字为电脑自然语言。《拼音字》与汉字通过汉字库达到唯一转换。每个拼音字不超过四个字母,平均是2.4个字母。拼音中文字母采用七位二进制字符交换码。同音字和同调字分辨得到了解决。拼音字相连组成拼音词,不必在计算机内设词库。拼音中文的词汇可以按《音字序》排列,使汉字得到音字序排列功能。左右手交替打字高速输入键盘设计。
Description
本發明是為中國文字(漢字)資料、文字、信息或數據處理之方法和設備而創造。本發明是建基於特别設計和製訂的《拼音中文》(Phonetic Chinese Language)之上。《拼音中文》的《拼音字》與漢字一一對應,準確的、肯定的解决了漢字中的同音字和同音同調字問題。
現代漢語,又稱普通話,絶大部份是多音節語言。漢語中的詞彙是用一個或多個漢字所組成。漢字是從象形字經過數千年的演變而來,每個字代表一個概念或實物。每個漢字的發音都是一個有音帶調的單音節,稱為《音調節》。在語言中只用單音節是既不够明確也不實際,因為漢語中有太多的同音字。
為了減低同音字的干擾問題,數百年來,尤其是自二十世紀以來,中國語言一直是向着多音節發展。多音節是兩個或兩個以上漢字所組成的詞彙。這樣就大大的减低了同音字干擾現象。現代漢語中約80%是多音節詞(75%是雙音節詞)。中國的文字也隨着語言走向多音節詞的方向。(從文言走向白話)。漢語在漫長的歷史過程中逐漸走向多音節是必然的,也是唯一正確的途徑。西方的語言和文字早在三千年以前就逐漸走上了多音節途徑。
漢字的總數超過五萬字。但是一般使用的大約有8,000
左右。中華人民共和國在1980公佈了國家表准《信息交換用漢字編碼字符集》(基本集GB 2312-80)收有第一級漢字3,755個,第二級漢字3,008個,共收集6,763個漢字。台灣最近頒佈的《通用漢字標準交換碼》設有13,053漢字。每個漢字的標準交換碼是用兩個字節(一個字節{Byte=8bits}是八位二進制組)組成的16位碼代表。標準交換碼的建立將能促進中文電訉的發展和計算機的連機通訉發展。
漢語是有音帶調的語言。漢語所需要的也是一套有音帶調的《音調制》字母系統。《拼音中文》採取的正是一套最基本的《音調制》字母系統。在這最基本系統中,只需要為《拼音中文字母》建立一套七位二進制組(7-bit)的
中文標準字符交換碼
{CSCII-Chinese Standard Code for Information Interchange}
而不需要為大量的漢字和詞去建立代碼。字母系統建立以後即可按照《拼音中文》的拼音定調和定字的方法去直接從鍵盤上以打字輸入的方式拼出,或打出《拼音字》。這與世界上其它先進拼音文字完全是一致的,那就是,只需要為一套數目有限的字母去設計最基本的標準字符交換碼,而不需要為龐大數目的《字》或《詞》去建立代碼。這也就是世界上各種拼音文字之所以能成為電腦自然語言的最基本的理由。然後,《拼音字》與《漢字》的連繋則是從《拼音中文》的拼音定調高智能的方法達到一一對應。因此只需要一本《拼音字》與《漢字》對照的字典就可以了。
漢字享有優久的文化歷史,也是促進幾千年來國家統一的重要文字工具。因此,任何中文資料、數據、或文字處理都必須具備顯示和印出漢字的功能。但是漢字直接輸入是不合實際的。因為字數太多(八千字以上)所需要的鍵盤太大,操作極不方便。同時,漢字不是拼音系統,不具有字母,因此排順序一向是個嚴重問題。諸如字典、人名、索引等的排序問題幾千年來都得不到圓滿解答。雖然漢字可以按部首、邉旁、筆衋或四角號碼等方法排順序,但是這些陳舊落伍、非現代化、非系統化的方法其效率是永遠不能與最理想和最有效按音序排列的方法相比。更不能適應二十一世紀咨詢社會的需要。因此,中國迫切的需要一套,具有排音序功能,而又與漢字平行、等值的音調制拼音文字。
為了幫助學習漢字的發音,中華民國在1918年公佈了《注音字母》,後改稱《注音符號》。注音符號採取了37個字母,包括21個聲母和16個韻母。在16個韻母中又包括了三個極為重要的音素
[-、×、
;i,u,ü]。這三個音素不但充任韻母,而又有聲母的功能稱為《半聲母》或《半韻母》。此外它們又充任在聲與韻之間的介音,稱為《介母》。
注音符號中一個極為重要和先進的概念是使介音從聲母或韻母中独立出來。因為介母的独立,終於發現漢語只有37個音素。這37個音素是21個聲母和16個韻母,16個韻母中的
衣
也充任介母。這是漢語音韻史上的一個最重要的發現。這個發現打破了幾千年來《反切》拼音法,只許聲韻雙拼,所造成的一些誤解。在反切的約束下,介音是不允許獨立的。反切的拼音方式有兩種可能性。一種是介音先與聲母結合組成複聲母。然後再以聲韻雙拼的方法組成單音節。另一種是介意地先與韻母結合組成複韻母。然後再以聲韻雙拼的方法組成單音節。這兩種方法都需要六十多個字母去拼出漢語所有的音節。所以在注音符號公佈以前一般的錯誤觀念都以為漢語的《音素》有六十多個。在注音符號系統中既准許聲韻雙拼(約80%),也准許聲介韻三拼(約20%)。因此只需要37個字母。
注音符號首先確定了漢語只有37個音素。這與世界上主要語言之35-40音素是完全符合的。注音符號又採取了37個字母(符號),每個字母只代表一個音素,相對的每個音素也只用一個字母去代表。這樣《音素》與《字母》達到唯一性轉換的系統稱為《最優音素制》。因為凡是建立在這種字母系統上的文字其拼音字必然是最緊凑,可讀性和可識性都是最高。在過去將近七十年的時間為漢字注音取得了一定的成績。
注音符號雖然是漢語唯一的一套最優音素制字母,但是它只採用了外加《標調符號》的方法去處理漢語的重要特徵-聲調。没有能從文字的基礎上,對漢語-《音調語言》-提供解决聲調問題的基本方法。因此,注音符號也只能停留在注音階段,没有可能再進一步發展成為現代電算機系統所要求的《電腦自然語言》也就是一套在電腦上適用的,而又與漢字平行的拼音文字。
另一方面。中國在1958年公佈《漢語拼音方案》。漢語拼音是以普通話,也就是國語,為標準音。它採取了25個英文字母(V没有採用)為字母。首先,漢語拼音的字母(25個)遠遠少於漢語的音素(37個)所以漢語拼音不是一套理想的《最優音素制》系統,拼法不緊凑。這個結論很明顯的就可以從其音節所需字母數看出。漢語拼音最短的音節需要一個字母,最長的音節則需要六個字母。在《最優音素制》的注音符號系統中,最短的音節需要一個字母,而最長的音節只需要三個字母。
幸好,漢語的語音具有高度規律性,而且只有極少的415個不同的音節。在這種情况下,用漢語拼音去為漢字注音,在政府大力支持下仍然取得了良好的效果。漢語拼音用25個字母,首先組成21聲母和16個韻母(有些聲母和韻母是用兩個或兩個以上的字母所組成)。然後再用三個介母(i,u,和ü)與韻母配合而組成18個複合韻母。漢語的音節則是由聲母與韻母相拼,或是聲母和複韻母相拼而構成唯一性的拼法。音節長度從一個字母到六個字母不等。用漢語拼音代替漢字作輸入、輸出、文件處理等也都比以前所用的方法有所進步。
但是從《漢語拼音》在電算機上去控制或選擇個别漢字時確遭遇到異常的困難。因為漢字具有大量的同音字,只靠注音是無法分辨同音字的。假設一套《基本漢字集》有8,000個不同的漢字,而漢字基本上是《一字一音》的(有些漢字則有兩個或兩個以上不同的單音節發音)因為漢語約有400音節,所以每個音節平均有20個《同音字》。也就是以每一個漢語拼音的音節(或注音符號的音節)平均代表20個不同的漢字。而最高同音字的音節竟逹到150I
同音字。
現代漢語中約有80%是多音節詞,而詞又是從極少數的漢字所組成,兩個、三個、或是四個。如果在計算機中,以《詞》代《字》為電腦語言的單位即可大大的減少同音字的干擾。再進一步將《詞》的定義擴大,也包括單個儿的漢字。在這樣的定義下漢字的《詞》與英文的《word》是相同的。也就是説,在兩個空白鍵之間的《字母串》就是詞。在以下的討論中本文將採用《詞》{word}的擴大定義。當漢語拼音以詞為語言(文字)單位時,同音詞的干擾就遠遠的少過同音字的干擾,在大多數的情况下詞是没有干擾的。這也是漢語拼音25年以來所採取的正確道路。
但是以詞為文字單位就必需在電算機内設有《詞庫》,而詞庫中的詞數約為《漢字庫》中字數的十倍。因此,電腦的儲存量要大大的增加。同時,電腦處理也必需先搜尋詞庫再搜尋字庫,使處理時間顯然增加。即或巨大的詞庫已經建立,漢語中《雙音節同音詞》{Bisyllabic homonym}問題仍然是嚴重的存在着(約有40%的雙音節有同音詞的存在)
由於同音字和同音詞的干擾,採用漢語拼音輸入或其它《拼音轉換》{Phonetic conversion}系統時,不得不啓用特别拼音,或在詞後再加區别鍵去分辨同音詞,或者先把同音字或同音詞顯示出來,再用人工去挑選漢字或詞。
漢語拼音的另一個嚴重缺陷,至少在電腦環境中,是基本上不標聲調,因此蔑視了一個最重要漢語特徵-聲調。所以漢語拼音基本上只是在《音節領域》{sound domain},其最小單位是《音素》{Phoneme},中去尋找分辨《同音字》的方法,而漢語最低的要求却是在《音調領域》{Tone domain},其最小單位是《音調素》{Toneme},中去分辨《同調字》的功能。
西方語言的最小發音單位是《音素》。漢語,因為有聲調的存在,其最小發音單位是《音調素》。《音調素》是比《音素》更小的單位,所以它要求更高的分辨度。《聲調》{Tone}的功能只是修改聲音,聲調是不能單獨存在的。它的修改形式有四種,也就是漢語的《四聲》。第一圖顯示了漢語的四個聲調:(1)第一聲(陰平):高而平,(2)第二聲(陽平):中而上,(3)第三聲(上聲):中下中,(4)第四聲(去聲):上急下。
雖然聲調不能單獨存在,但是漢語的每個音節中必定要有聲調。所以聲調是依附在音節的《核心》上。甚麽是音節的核心?音節可以没有聲母,没有半聲母,没有介母。但是音節絶不能没有韻母,所以韻母就是音節的核心。漢語的音節又絶不能没有聲調的。很明顯的,聲調唯一可以依附的就是韻母。
每一個漢語的單音節(在文字上多半是用不只一個漢字去代表的)都有韻母和聲調,因為聲調的功能是修改音節(韻母)所以必須與音節同時并發。由於這個漢語實質上的需求,只有能將《韻母》和《聲調》合併為一的字母系統才能有效的為漢語建立《音調制》的電腦自然語言。在下面將做更詳細的解説。
漢語中的有音帶調的音節自此以後稱為《音調節》。漢語中的每一個音節毫無例外的都是《音調節》,它也是漢語的最小語言單位。漢字是跟隨着漢語而發展的,所以每一個漢字也毫無例外的代表一個《音調節》。
無疑的,一套《音調制》字母系統去配《音調語言》(漢語)是最理想的。因為只是在《音節領域》中為漢語提供條件,基本上是既不能滿足漢語的要求,更不能發揮漢語的特徵。近百年來,十幾種注音、拼音系統(包括注音符號,漢語拼音等)因為不是建立在音調制基礎上,是不可能發展成為理想的電腦自然語言的。此外,《音節制》系統必須分辨全部《同音字》{Homonyms},而《音調制》系統只須分辨《同調字》{Homotomes}。從分辨同音字降低到分辨同調字,對拼音系統的分辨度的要就減低了三倍(因為只有四分之三的音調節被漢語實際採用)。
為了分辨同音字,曾有文章建議在漢語拼音的音節之後加一個字母去區别同音字。漢語拼音只採用了25個字母,所以最多可以分辨26個同音字。在
漢語拼音詞彙定型化研究材料
(中國人民大學,北京,885頁,1963)中是在音節後用兩個字母去為漢語拼音定詞。其中收集了28,175個雙音節詞,没有同音詞的有16,710個(59.3%),有同音詞干擾的有11,465個(40.7%)。其中同音異調的雙音節詞有8,762個(31.3%),同音同調的雙音節詞有2,703個(9.4%)。這是一本重要的参考資料。雙音節同音詞竟超過40%,是個驚人的數目。雖然向《詞連寫》方向發展是一條唯一正確的道路,但自此以後對於用詞連寫作為主要分辨同音字的方法失去了信心。同時這些分辨同音字的字母是任意採用的,無理可循的,又與所代表的漢字毫無關係。只可能去死記,别無它法。由於這種種困難,大量的研究成果,也無法促進漢語拼音邁進一步。
漢語聲調的重要性,早在1928年趙元任等就很明顯的指出,他們並製訂一套用字母標聲調的《國語羅馬字》系統,也是採用英文字母(羅馬字母)。這個系統是在音節中插入一個標調字母,例如
CHEN:(1)chen (2)chern (3)cheen (4)chenn
CHENG:cheng cherng cheeng chenq
雖然聲調是標了,但是同調字仍然是無法區别,所以也無法定字。既或定字以後,排順序又是大問題。譬如上面的第一例子,因為標調字母的插入,第三聲排在第一聲之前,第四聲又排在第二聲之前。而且標調字母又隨着音節的拼法而有所改變,共有142種變形。因為它是一套相當複雜的系統,而且可讀性不高,更無法定字,所以一直未能推廣。
總結的來説注音符號和漢語拼音,在電腦環境下都不標聲調,國語羅馬字雖標聲調但其音調節變形很複雜。這三個注音、拼音系統雖已經過數十年的演變,但是從來未能與任何一個漢字達到對應,更不用説與幾百、幾千、或萬漢字逹到一一對應了。
最近十年來,在中國、在美國,以漢語拼音為基礎有一些多渠道分歧的發展,在某些局限性的環境下取得一些有效成果。但是從一個高智能的電腦自然語言角度來看,這些成果並没有能解决任何基本問題。
一套音節制的注音系統,一般是採用25-40個字母。基本上都可以準確的拼出漢語的415個音節。但是要到逹漢語最基層有聲帶調的1,292個《音調節》,任何音節制的字母系統都會遭遇到嚴重困難。一方面,假如不標聲調,就無法以電腦自然語言的方式去有效處理漢字。另一方面,假如標聲調,反而降低了拼音系統的可讀性、可識性,也破壞了排順序的可能性。再者,更重要的一步是使拼音字能與漢字逹到《定字》,也就是一一對應。如果做到這一步,音節制的拼音系統就降級再降級成為代碼系統了。這就是音節制字母系統所面對的困難。
在任何一個實用的拼音系統中,《拼音詞》(包括一個或多個與漢字相對應的拼音字)應該可以將一串相連的字母以打字的方式輸入。拼音詞與拼音詞之間是以空白鍵相隔。在現有的,用拼音系統為基礎的,漢字處理系統中是不可能將《拼音詞》中的《拼音字》用邏輯程序的方法自動分隔開。唯一能够找出拼音詞中的漢字是求助於一個《詞庫》。設立詞庫就必須增加電腦存儲量的要求,而且無論是文字或資料處理,其處理時間也必然增長。現有的為漢字處理的拼音系統也不能與大量漢字(譬如八千字以上)達到唯一性的轉換。常常是拼音字只能識别一組漢字(同音字),但最後仍需要人工去鑒定個别漢字。
本發明是從設計一套音調制的《拼音中文字母》開始。用音調制的字母拼音、定調、和定字的方法先組成《拼音字》。拼音字是與漢字一一對應的單音調節字,並以拼音定調的方法準確的拼出漢字的音和調。拼音字相連既可組成多音調節的《拼音詞》。如果再把拼音詞的定義擴大也包括單音調節的拼音字,那麽《拼音詞》的定義就和英文的{word(s)}是完全相同的。但是《拼音字》仍然是只與漢字一一對應的《單音調節字》。詞與詞之間是以《空白鍵》相隔的。然後由詞組成句,由句組成段,由段組成文,而產生《拼音中文》,(PCL-Phonetic Chinese Languge)。本發明《拼音中文》具有下列唯一獨特的優點:
1.《音調制》{Tone-based}:拼音中文採用的是一套經過系統化設計《音調制字母》系統。這套字母提供了全部漢語(國語或普通話)標準發音的音和調。能够以拼音定調{Tonal spelling}的方式直接拼出所有漢語中有音帶調的《音調節》。漢語中的四個聲調是直接造在字母(韻母)裡面的,而不是後加的。韻母和聲調结合在同一個字母上,是永不分開的。因此發音的規則是《音調並發》,而不是先拼音後定調。帶有聲調的韻母稱為《定調韻母》{Voweltone},簡稱《調母》。
2.《唯一性》{Uniqueness}:拼音中文採取了兩個步驟去肯定《拼音字》與漢字逹到唯一性的轉換。第一步是《主要詞根分形》的原則。第二步是《義標》定字的原則,或稱《字尾》定字。也就是在音調節之後加一個不發音的字母以分辨《同調字》而逹到與漢字一一對應。這個分辨字母是在拼音字的音調節之後所以呌《字尾》。但是絶大多數拼音字的《字尾》與漢字的《部首》{Radical}是相同的或是相關的。例如:山、氵、女、日、虫、刀、扌、人、阝、土、木、力、文、石、友、等。因為拼音字《字尾》與漢字《部首》間存在着密切相連的關係,這樣才有效的提高了拼音中文的《易學性》和《可識性》。
3.《靈活性》{Flexibility}:拼音中文的《分隔程序》可以將《拼音詞》中相連接的《拼音字》用邏輯程序的方法分開成為單獨的拼音字,然後再從《漢字庫》中選取相對應的漢字,而不需要在電腦内存儲預先設置龐大的《詞庫》。没有預置詞庫的限制就可以保證《拼音中文》的運用靈活性與漢字是絶對相等的。
八拔把爸 低敵底地 通同統痛
在上面的例子中拼音字在上方,與其相對應的漢字在下方,顯示着三組同音字,每組中有四個不同聲調的拼音字。每個拼音字只用了兩個字母就顯示出三個信息:聲、韻、調。準確的拼出了漢字的《音調節》。因為聲調和韻母是合二為一的《定調韻母》,音調節才能如此的緊凑,保證最高《可讀性》和最高《可識性》。
因為《拼音中文》採用的是《音調制》字母,所以同音不同調的拼音字,由於《定調韻母》的不同就自動的具有不同的拼法。因此,在音調制字母系統中同音字問題是由字母自動解决了,所要處理的只是《同調字》問題。假設一個8,000漢字的基本集,音節制系統必須分辨每個音節平均20個《同音字》,而音調制系統只需要分辨每個音調節平均6個《同調字》。
漢語的每個音節都很規則的分成四個聲調,所以《音調制》{Tone-based}的分辨度是四倍於《音節制》{Sound-based}的分辨度。但是漢語只採用了約四分之三(1292/1660)的音調節,所以實際上音調制的分辨度只是三倍於音節制的分辨度。由於拼音中文特别系統化的設計,將在下面解説,《拼音字》與《漢字》在有理可循,和高智能的原則下,既或在最擁挤的音調節擁有大量的同調字都可以逹到唯一性的轉換。本發明《拼音中文系統》,將在下面作更詳細的解説,在
[-、×、
;i,u,ü]三個音節中的每一個聲調裡可以各分辨255個同調字(相當於1,020(255×4)個同音字)。凡是音調節的韻母是
的可以各分辨170個同調字(相當於680(170×4)個同音字)。其它的音調節,最少也可以各分辨85個同調字(相當於340(85×4)個同音字)。這套可以為漢字提供準確的聲、韻、調的《拼音字》與《漢字》能够以有理可循、高智能的方式逹到唯一性的轉換的《拼音中文》系統是現有漢字處理系統所不能逹到的。
本發明的一個重要優點是准許用户,以打字方式或其它方式,輸入無間斷字母串的《拼音詞》。而拼音中文系統不需要設立詞庫,只用《分隔程序》{Separation Logic Program}即刻可以將《
》
{PPCW-Polysyllabic Phonetic
拼音詞
拼音字Chinese Word}用邏輯方法分隔開。拼音中文的縮寫法是只保留拼音字或拼音詞的第一個字母,譬如:
(拼音字)的縮寫是
,但是縮寫的讀法是和漢字讀法完全相同,而不是只讀出字母的發音。所以
讀作《拼音字》。
無間斷字母串的《拼音詞》輸入方式是個極重要的突破。首先拼音中文電腦系統不需要設立詞庫。任何拼音字可以與任何其它拼音字(包括本身)相連,或多個拼音字相連組成拼音詞,包括人名、地名、新創詞、外來詞等。詞與詞之間是用空白鍵相隔。字母串(詞)輸入以後,《分隔程序》即刻將《拼音詞》分隔成為個别的《拼音字》,然後《拼音字》求助於《漢字庫》,即可將詞中的漢字一一顯出。採用本發明的方法與設備不必建立龐大的詞典,因此可以有效的節省電腦存儲量的需要,又可以節省處理時間。
採用《分隔程序》和《拼音字》與《漢字》逹成唯一性轉換的另一個重要成果是拼音中文電腦可以自動產生中文的《音字序》列表或目録。這是現有的任何中文電腦系統所不能做到的。《音字序》排列(Alphagrammic listing)基本上與《字母序》排列(Alphabetical listing)是相同的,是按《音》、《調》、《字》(漢字)的先後順序排列的,簡稱為《音字序》。但是有下列兩點例外。第一點:拼音中文因為要分辨大量的同調字,一個音調節可能有兩種不同的拼法。這兩種不同拼法的音調節是排在一起的。第二點:因為大部分的拼音字的字尾有一個不發音的《義標》,在多音節詞排序時,因為義標不發音就有可能造成不合理的插隊現象。為了避免這種不合理的插隊現象,《音字序程序》將凡是前面有相同漢字的詞組排在一起。下面將有更詳細的説明。
因為拼音中文是建基在《音調制》字母上,又因為拼音中文採用的是兩個步驟去定字:第一個步驟是《主要詞根分形》的原則,第二個步驟是《義標定字》的原則都將在下面解釋,拼音中文的《拼音字》可以與全部漢字(五萬多)逹到唯一性的轉換。在《基本集》的八千漢字中,在主要詞根分形的原則下,只採用了三種不同的拼法,即可使約3,900拼音字與漢字逹到一一對應。這3,900字的累積頻率約為97%,因為其中約2,400字是常用字。《基本集》剩餘的4,100字中80%以上的《義標》是與漢字的《部首》相同或是相關的。所以拼音中文不但緊凑,而且可讀性高,可識性高。在基本集以外的漢字也都可以只用一個義標去分辨同調字。拼音中文是可以與所有的漢字逹到一一對應的。
拼音中文的最長《拼音字》是四個字母,最短的是一個字母。《拼音字》的頻率加權平均{Frequency-weighted average}長度是2.4個字母。漢語拼音最長不帶聲調的音節是六個字母,加上聲調和定字《義標》以後最長的應該是八個字母。假如漢語拼音能與漢字定字,估計其頻率加權平均長度約為4。所以拼音中文與定字後的漢語拼音長度之比約為3∶5,也就是拼音中文的長度只是定字後漢語拼音長度的60%,由此可見拼音中文的高度緊凑性。拼音中文的85字母是經過長期和慎重的考慮而選取的。選取有兩個原則:第一是與漢語的聲或韻的發音有密切關係,第二是盡量與漢字的部首相同、相似、或相關。使凡是認識漢字的人見了字母都不覺得陌生。最後還要促使《義標》也就是拼音字的《字尾》與漢字的《部首》相符合。
當《拼音字》和漢字同時顯示在銀光屏上或印出時,一邊是拼音字一邊是漢字,或者拼音字在上漢字在下。它們形成緊凑小組,同時拼音字指示出漢字標准發音的《音調節》,和其全部信息包括聲、韻、調。因此,拼音字是一套非常理想的教學漢字工具,拼音字與漢字相輔相成。
《拼音中文》能够使中文處理全部系統化,並逹到與世界先進拼音文字同樣的水平。在這個基礎上,首先它目前就能有效的簡化中文電腦的硬體和軟體。前面曾提到中國國家標準《信息交換用漢字編碼字符集》(1980基本集,)是採用16位二進制{Two-byte}作為電傳和計算機與計算機之間的標準交換碼。類似的,中華民國最近公佈的《通用漢字標準交換碼》(1986)也是採用16位二進制編碼。(這兩種編碼是没有任何人可以記得或認識的,只是為計算機轉換而用)。
本發明《拼音中文》只需要一個七位二進制(7-bit)去為85個拼音中文字母編碼。第十三圖顯示了這一套簡單的《中文標準字符交換碼》{CSCII-Chinese Standard Code for Information Interchange}。這套新建議的編碼正與《美國標準字符交換碼》{ASCⅡ-American Standard Code for Information Interchange}相似,因為它們都是啓用一個七位二進制碼。而這兩個七位二進制碼正好合成一個八位二進制標準碼;其中ASCⅡ已佔用0-127(00H-7FH),CSCⅡ佔用128-255(80H-FFH),現只用到(80H-DFH)(第十三圖)。這兩組編碼完全相似,所不同的只是第一位二進制數:ASCⅡ是“0”,而CSCⅡ則是“1”。這個雙語合成碼可稱為《美中雙語字符交換碼》{USCBLⅡ-U.S.-CHINA Bilingual Information Interchange}可使中英文雙語交換非常方便,因為雙方都有可顯示出的字母和標準編碼,可以隨時施用於電腦或計算機系統上。
《拼音中文》系統完全避免了為大量的漢字去建立交換碼,而且上述的這些16位二進制交換碼是没有人可以記得或認識的。相對的,在拼音中文系統中,每個漢字是用《拼音定調》{Tonal spelling}和《義標定字》高智能的《拼音字》與《漢字》相連貫的,凡是懂中文的人在幾個月内就可以學會(和美國人學英文拼音法是一樣的)。再後,任何操作員只需要一本《拼音字-漢字》對照字典就够了。每一個《拼音字》都是由拼音中文字母(標準交換碼)以唯一性的方法組合而成,再與漢字逹到一一對應。所以每個漢字是以不超過四個字母之標準字符交換碼組成的唯一性《拼音字》去代表的,而其頻率加權平均長度只有2.4個拼音中文字符。因此,採用《拼音中文》可以有效的簡化中文電腦化的軟、硬體。
由於上述之一系列的優點,本發明《拼音中文》系統提供了全部現代化條件去處理中文資料、文字、信息或數據。使用《拼音中文》去操作計算機與使用英文是完全一樣的,但同時又能毫無模棱兩可的輸入或輸出漢字和創造中文的《音字序》排列和目録。
為了本發明的描述和説明下面的圖表將介紹現時選用的一些具體化的方法和設備,但是本發明並不限於現時提出的一些具體化的安排、手段或佈局。
第一圖顯示漢語的四個聲調模式。
第二圖顯示《拼音中文字母系統》{PCA-Phonetic Chinese Alphabet}和各字母在《音節領域》{Sound domain}中代表相同音素之注音符號。
第三圖是漢語的《音節》表{Sound syllables},本圖中是用漢語拼音所採用的符號(25個英文字母)去列表。
第4A-4J圖是漢語的《音調節》表{Tone syllables}本圖中是用拼音中文字符去列表。
第六圖顯示本發明《拼音中文》内《拼音字》現時所採用的不同格式。
第7A-7D圖顯示本發明的《分隔邏輯程序》{Separation Logic Program}的流程圖,簡稱為《分隔程序》。
第八圖顯示本發明之《音字序排序程序》{Alphagrammic sort}所創造《音字序》列表式樣。
第9A-9B圖顯示本發明所用的《義標》也就是《拼音字》的《字尾》與漢字《部首》的密切關係,和其怎樣分辨同調字。
第十圖顯示的是本發明現時選取《拼音中文字母》在鍵盤上的安排法。
第十一圖顯示了本發明分辨《同音字》和《同調字》的兩個音節舉列。
第12A-12B圖顯示本發明《音字序排序程序》中的《比較子程序》流程圖,用來比較兩行拼音中文在《音字序》列表中之先後次序。
第十三圖顯示了七位二進制碼的《拼音中文字母》的標準編碼法。
(一)拼音中文
首先拼音中文採取了40個《音節制》基本字母,包括25個聲母和15個韻母。這40個基本音節制字母與漢語的40個音素完全吻合。一個字母代表一個音素,一個音素也只用一個字母去代表。《音素》與《字母》逹到了唯一性的轉換,也是最理想的拼音字母。所以拼音中文的第一步就是走上《最優音節制》字母系統。這與注音符號是《最優音節制》字母系統基本上是相同的。所不同的是拼音中文採取了兩套:衣[
,i,-],
[山,u,×],迂[于,ü,
],因為這三個音節是漢語中最複雜的音節。一套是充任《半聲母和介母》也稱為《半韻母》,另一套是充任《韻母》。但是這兩套字母的發音是完全相同的。所以,在音節制基礎上,拼音中文就比注音符號多了三個字母。唯有把
分成兩套字母以後,拼音中文才能有效的從《音節制》邁入《音調制》。下面將解釋這個關鍵性的轉換。
漢語音節中的主要成分是《聲母、介母、韻母、聲調》,簡稱為《聲、介、韻、調》。在某些音節中《聲母》或《介母》是可以不存在的。但是《韻母》和《聲調》是每一個漢語音節中所絶對不可缺少的成分。《聲調》又具有一個很不平凡的特徵,那就是《聲調》只有修改音質的功能而不具有發音或收音的功能。因此《聲調》是不能單獨存在的而必須依附在音節的核心上才能發揮它本身的功能。甚麽是音節的核心?只有《韻母》才是漢語每一個音節所不可缺少的發音或收音的成分。因此韻母就是音節的核心。所以《聲調》唯一可依附的就是《韻母》。
拼音中文最基本的發明是促使韻母與聲調合併成為一個字母呌作《定調韻母》{Voweltone}簡稱《韻調》或《调母》。這樣《韻、調》是永遠不能分開的。這才真正反應出漢語《音調並發》的特徵。改進了現有各種拼音方案《先音後調》不合理的慣例。使《韻、調》合併必須適當的增加字母的數目,也就是從《音節制字母》系統邁入《音調制字母》系統。
從拼音中文的《最優音節制》的40個基本字母開始,若給每個韻母,系統化、規律化的四個變形,每個變形代表一個不同的聲調。舉例:
。原來《音節制》中的15個《韻母》就擴展成為《音調制》的60個《定調韻母》。上面的舉例顯示出代表四個聲調的字符是迥然不同的,但又明顯的指出它們是屬於同一個韻母系的,只是聲調不同而已。原來《音節制》中的25個聲母却是原封不動的(不必轉換)直接成為《音調制》的25個聲母。所以拼音中文的《音調制》字母總數是85個。這也説明了為甚麽
必須首先分成兩套。一套是《半聲母》(也就是介母)不必轉換,另一套是《韻母》必須經過四倍的擴展成為《定調韻母》以後才能進入音調制。
前面已經説過,在《音節制》中拼音中文所採取的40個基本字母與漢語的40個《音素》是一一對應的。所以第一步拼音中文的基本字母走上了《最優音節制》字母系統。相同的,在《音調制》中拼音中文所採取的85個字母與漢語的85個《音調素》是一一對應的。所以第二步拼音中文的字母又走上了《最優音調制》字母系統。這裡,《音調素》是《音素》加上了聲調的區别。一個《音素》可以分為四個《音調素》,所以《音調素》是比《音素》更小發的音單位。《最優音調制》字母系統可以保證明確而標準的為漢語拼音定調。所組成的《音調節》是《最緊凑》的,因為韻母和聲調是合二為一的。也具有最高的《可讀性》和《可學習性》。《音調節》才是漢語最小的語言單位。所以不採用《音調制》字母系統是不可能為音調語言(漢語)建立高智能的電腦自然語言的。
拼音中文的第三個重要步驟是採取了《民族形式》的字母。一方面是因為民族形式字母容易被大家接受。另一方面,更重要的是拼音中文多一半的字母都是採用簡單的漢字部首或全字。在最後一步定字的時候,拼音字的《字尾》與漢字的《部首》絶大多數是相同或是相關的。所以採用民族形式字母為拼音中文提供了與漢字間的高智能的《相關性》,提高了拼音中文的《可識性》和《可學習性》。使拼音中文不但是漢字的電腦自然語言,而是與漢字等值的《平行文字》。再加上它是一套明確而標準的拼音定調的音調文字,所以《拼音中文》是漢語和漢字的結晶。
本發明是建基於一套《音調制字母》上。第二圖顯示了《拼音中文》字母全表,是代表發明人現時優先選用具體化的字母。但是其它形式的字母,只要能够明確的顯示出全部漢語的聲、韻、和調的信息,並與漢字保持高度的相關性,也是可以啓用的。不管是怎樣一套字母,一個重要的優越條件是在同一個韻母系中的四個代表不同聲調的字母,稱為《定調韻母》,不但它們應該有着顯著的聲調區别,但同時又必須明顯的相似表示它們是屬於同一個韻母系。所以應該是個系統化的變形,這種系統化的變形又不是限於個别韻母而是適應到所有的韻母。
第二圖:《拼音中文》字母全表顯示了25個《聲母》和60個《定調韻母》{Voweltone}。定調韻母的發音限於一個特定的聲調,總共有85個字母。每一個字母配有一個具有順序的數目字[#1-#85],使它們即刻可以系統化的參與資料、信息、和文字處理。更重要的是使中文得到一套前所未有的、現代化、完整合理的《音字序》排列法。
第二圖中,在拼音中文字母下面的注音符號是用來為拼音中文注音的。拼音中文與注音符號的發音是完全相同,這是當然的,因為這兩套字母都是用來為漢語注音的。第二圖的下方顯示15個韻母,每個韻母的四個變形就是代表四個不同聲調的《定調韻母》簡稱《調母》。因為注音符號本身是不具有聲調的,所以注音符號只顯示在定調韻母的第一聲字母之下。第二圖中的四個定調韻母[#23-#26
]的發音都是[阿,
,a],它們的區别是在聲調上,[
]。
漢語的音素包括有21個聲母和15個韻母。(注音符號採用了16個韻母有兩個韻母的發音是很接近的。但在與聲母相拼時這兩個韻母又是互不干擾的。拼音中文將這兩個韻母合而為一,因此減少了四個定調韻母)。二十一個聲母又分列為兩行(第二圖)。第一行是《短聲母》,第二行是《長聲母》。每個長聲母基本上已經包含有一個内在的韻母。在這個定義下,有些漢字的發音是可以只用一個長聲母去表示的,但它們却又少不了一個定調的符號。因此定調韻母[#27-#30]和[#79-#82]是用來《定調》而不具發音的作用。後者[#79-#82]的主要功能就是定調,所以它們也稱為《定調啞母》。相對的,短聲母是不含有韻母的,它們必須配有定調韻母提供《韻》和《調》。
在這21個聲母[#1-#21]之外,拼音中文字母又設有一個《零聲母》[#22
]。和三個《半聲母》也充任《介母》[#83-#85
,山,于]。零聲母[
]是没有音質的(啞音),但在讀出拼音中文字母的時候它的發音是
。零聲母有多種用途:(1)在排《音字序》時,所有以韻母開始的拼音字都排在零聲母之内。這樣拼音中文的排順序基本上是按25個聲母去排的,這與英文的26個字母排順序很相似。下面有更詳細的説明。(2)零聲母是用於《主要詞根分形》中是分辨同調字的主要區别鍵之一。(3)在詞連寫時,有兩種情况下,零聲母是用來作為分隔拼音字的《分隔鍵》(Delimiter)。下面有更詳細的説明。
《半聲母》[#83
,#84山,#85于],它們具有韻母的發音但却具有聲母的功能,因為是不帶聲調的,相反的必須在其後提供一個有調的《定調韻母》。《半聲母》與其相對應的《定調韻母》的發音是完全相同的。例如:[#83
]與[#27-#30
],[#84山]與[#39-#42
],[#85 于]與[#47-#50
]。半聲母與其相對調母可組成拼音字如下:
醫移已義 污吳五務 淤魚語育
零聲母的另外一個更重要的功能是充任《介母》,因此准許三拼。這與注音符號的方法是一致的。換一個方式説,三個介母又可以和其它韻母組成18個《複合韻母》,也就是72個《複合定調韻母》。因為
是漢語中三個極為複雜的音節,拼音中文採取了兩套
是一個關鍵的决策。有了兩套
衣
之後才可能建立《分隔程序》,有了分隔程序後《詞連寫》問題才可能迎刃而解,解决了詞連寫問題以後才能真正建立起與漢字完全平行和等值的《拼音中文》。
拼音中文採取了15個韻母。每個韻母以系統化、規律化的原則擴展為四個定調韻母。這四個定調韻母是屬於同一個韻母系,但各帶有一個不同的聲調(見第一圖)。使聲調與韻母永不相離。所以15個韻母擴展為60個定調韻母,簡稱《調母》。
阿 啊 啊 啊
凹熬袄奥
每個韻母系的變形都是相似的(第二圖)。凡是屬於一個韻母系的《調母》都含有同樣的《基本韻母》,所以看上去是一目了然的(見上面舉的兩個例子或第二圖)。
踢 提 體 替 哩 離 理 利
知 執 指 制 吃 持 齒 翅。
在第二圖中,不發音是用“0”表示。後者,因長聲母已有内含韻母,所以它們只是定調。
定調韻母[#35-#38
]也有兩個功能。當它們在短聲母[#1-#4
]和半聲母[#83-#85
]之後,它們的發音是[
,o]。當它們在其它聲母之後,發音是[
,e]。這兩個不同韻母系可以公用一套定調韻母是因為漢語中没有韻母音[
,e]在[
山、于]這後,也没有[
,o]在其它聲母之後。這樣有效的運用定調韻母就省去了四個字母。舉例:[o]
波 薄 跛 薄 科 殻 可 克
拼音中文也完全可以做到與英文類似的《縮寫》。縮寫原則是保留《拼音字》或《拼音詞》的第一個聲母。因為下面要常常引用到縮寫這裡必須先解釋一下。在舉例以前先介紹一些要用的拼音字和其對應的漢字:
拼音中文字詞聲韻調半節母零
聲母 韻調
半聲母 介母
零聲母
拼音字 拼音詞 音調節
在拼音中文的範籌中,《音調節》,基本上,只有四種不同的拼法,既:《聲韻》,《聲半韻》,《半韻》和《韻調》。這四種拼法及拼音中文和英文的縮寫及定義顯示如下:
聲韻調
聲半聲母韻調
半聲母韻調
韻調
採用第二圖所顯示的拼音中文字母,可以準確的拼出漢語所有的《音調節》。第(4A-4J)是拼音中文的《音調節全表》。在這個表中,25個《聲母》列於緃坐標,15個《韻母系》再加上18個《複韻母系》列於横坐標。相同音質的漢語拼音和拼音中文字母的《數字序》也列在拼音中文字母的旁邊。
第4A-4D圖顯示了所有的《聲韻》[汙]{CV},《半韻》[
]{SV},和《韻》[于]{V}三種《音調節》。第4E-4J圖顯示了所有的《聲半韻》式[
]{CSV}的《音調節》。一條粗的横線隔開聲母#11與聲母#12,是分開《短聲母》和《長聲母》。這是有必要的,為了去表明《韻調》[#27-30
]和《定調啞母》[#79-#82
]各有兩種不同的發音,要根據前面是《短聲母》或是《長聲母》而定(見上)。相似的,在第4A圖中的《韻調》[#35-#38
]一條横粗線分開聲母[#4丰]和[#5刀],另一條横粗線分開《零聲母》[#22
]和《半聲母》[#83
],因為,看前面的聲母的不同,韻調[#35-#38
]也有兩個不同的發音。
拼音中文字母有可以組成約3,000個不同的音調節的能力。有一些音調節有兩種或兩種以上不同的拼寫法。這些已在第4A-4J圖中顯示,下面將作更詳細的説明。漢語只採用了1,292個音調節。在第4A-4J圖中,没有被漢語採用的音調節是用空白或虚線表示。
拼音中文可以明確的表逹漢語全部1,292個《音調節》而注音符號或漢語拼音只能明確的表逹漢語全部415個《音節》,如要標聲調就必須外加標調符號。第三圖顯示了漢語拼音的全部音節表。把第三圖(音節表)和第4A-4J圖(音調節表)對比,就可以即刻看出《音調制》比《音節制》的分辨度高過三倍以上。不但分辨度高,而拼音中文的《音調節》比漢語拼音的《音節》還要短。因為音調節的緊凑,所以拼音中文的可讀性高,而且又提供了聲調信息。(漢語拼音的音節没有提供聲調信息)。
採用拼音中文字母系統可以準確的為所有漢語音調節去拼音定調{Tonal spelling},依據下列的四個格式:
{CV,SV,V,CSV}。但是《聲母》和《韻調》只能肯定《音調節》的發音,這些信息仍然不足够分辨《同調字》。為了分辨同調字,假如有需要,拼音中文在《音調節》之後再加一個字母去分辨同調字。在《音調節》之後的這個字母不發音,只具有與漢字《定字》的功能。拼音中文系統的定字法有兩個步驟。第一步是採用《主要詞根分形》的原則,第二步是採用《義標定字》的原則。
首先,必須給《拼音字》一個明確的定義。《拼音字》是由一至四個拼音中文字母所組成的字母小串,具有拼音定調的功能,最低限度是漢語的一個《音調節》。當這個字母小串與漢字定字而逹到了唯一性轉換以後就是一個《拼音字》。
《主要詞根分形》是用來分辨在同一個《音調節》中出現頻率最高的三個漢字。按照這個原則一個與漢字逹到唯一性轉換的《拼音字》可以寫為:
(2)疉韻{Secondary}
{TS+V*}是在音調節之後加一個相同的《韻調》,用於代表出現頻率次高的漢字;
下面是兩個音節的《主要詞根分形》舉例:
科 殻 可 克 相 詳 想 向
顆 咳 渴 刻 香 翔 響 象
棵 慤 軻 課 箱 祥 享 項
上面的兩個例子指出,首先每個音節分成四個聲調(横排),然後每個聲調再分成正體、疉韻、零聲母、三式(直排)。所以每個音節,在主要詞根分形這一步就非常系統化得到了一個3×4=12的矩陣,也就是12個分辨度。約3,900個拼音字在《主要詞根分形》這一步得到了定字,其累積出現頻率約為97%。
拼音中文的四聲變化是很規則的,主要詞根分形的方法極為系統化,所以拼音中文是一套非常有效的漢字輸入系統。既或輸入員不記得哪個漢字是正體、疉韻、或零聲母式的拼法,也可以在鍵盤上先試打一個音調節(正體),如果銀光屏上顯示的漢字不是所要的,可以在音調節後加一個韻母(疉韻),或是加一個零聲母(零聲母式)。
除此以外的漢字(出現頻率總和約3%,但字數很多)則是用《義標》去定字的。每一個拼音中文字母,當它們是在音調節後(不發音)而是用來充任《義標》表示漢字的意思(如:山、水、花、草、樹、木、等)。只有一個字母是例外[#79小]是用來表示《兒化韻》的,不充任義標,這將在下面作詳細解説。一個更實際的辦法是用義標去代表漢字的《部首》如:
、山、木、氵、日、女、力、土等,也是表示漢字的意思的。又因為《義標》是拼音字最後的一個字母,所以也稱《字尾》。一個理想的《義標定字》法就是使拼音字的《字尾》和漢字的《部首》相同、相似、或者是相關。
下面是幾個拼音字《字尾》和漢字《部首》相同的舉例。拼音中文字母[#72
,#84山,#68土,#3木]各與漢字的部首是大致相同或是完全相同的:蟲字部[
],山字部[山],土字部[土],和木字部[木]。這些字母就是用來做《義標》它們所代表的意思和原來部首的意思一樣。在第9A圖的上行,音調節
的後邊各加了一個義標(也就是字尾)而組成四個不同的《拼音字》,其相對應的漢字顯示在拼音字之下。很明顯的,漢字的《部首》和拼音字的《字尾》完全相同。這樣《部首》和《字尾》建立密切的關
對記憶拼音字有很大的幫助。上面的例子再加上《主要詞根分形》一并顯示如右:
。
鈀 鉍 鋇 鉑 鈈 鈹 錇 釙 鉕 鏷 鐠 鎇
鎂 鉬 鍆 錳 鐨 釩 鈁 鏑 鍀 銩 鉈 銻
上列的《拼音字》明顯準確的指示出其所代表漢字的聲、韻、調、意(因為義標是表意的)。
第9B圖是另外一個《字尾》的示範,同時也指出義標怎麽去分辨同調字。此圖顯示的是按《音字序》横排的樹木名子,拼音字的《字尾》是[#3木]{m}漢字的《部首》也是[木]。在第9B圖中的第9b圖(虚長方形之内)的四個同音、同義字:
最後兩個字是
梨 李 栗 櫟
陌 限 婢 扳 劈 螞 婦 剃 坭 磊 杲 伉
浛 借 泣 旭 助 峥 漳 蟑 石 楊 梧 緣
用《主要詞根分形》和《義標定字》的方法,拼音中文對每一個《音調節》的《同調字》的最少分辨度是85個(相當於340個同音字分辨度)。對一般的音調節來説,85個同調字分辨度是足足有餘了。但是有些音調節需要有85個以上的同調字分辨度,這種擁擠的音調節分為兩種:(1)音調節的韻母收音是
[#27-#30
],(2)音調節的韻母發音是
衣
[#83-#85
、山、于]。對於這些極為擁擠的音調節拼音中文設有《定調啞母》至少增加一倍上述的同調字分辨度。因此,音調節韻母收音是
的,拼音中文設有170個同調字分辨度(相當於680同音字分辨度)。最複雜音調節韻母發音是
時,拼音中文設有255個同調字分辨度(相當於1,020個同音字分辨度)。遠遠的超過現有的任何系統。最重要的是怎樣以
的方法去逹到如此高的分辨度?這將解説如下。
在第二圖中代表
的發音,可以用半聲母[#83
],或用韻調母[#27-#30
]。類似的,代表
的發音,可以用半聲母[#84山],或用韻調母[#39-#42
]。最後,代表
的發音,可以用半聲母[#85于],或用韻調母[#47-#50
]。因為半聲母[#83-#85
]是不帶聲調的,上面所提到的三組韻調母可以各跟隨在
之後為之定調。此外,定調啞母[#79-#82
]也可以跟隨在[
]之後為之定調。
如上所述,
這三個音節各有三種不同的基本拼寫法,再加上四個聲調的區别,所以各有12個不同的音調節拼法,它們是顯示在第5A-5C圖中的。在這三個圖中的第一行,半聲母是用來提供韻母的發音,其相對之韻調收音(原配韻母)只是用來定調。舉例如下:
醫 移 已 義 污 吳 五 務 淤 魚 語 育
在第5A-5C圖中的第二行,半聲母仍然是用來提供韻母的發音,《定調啞母》是用來定調。例:
一 宜 以 意 嗚 無 武 物 吁 於 與 預
在第5A-5C圖中的第三行,音調節只包括一個單獨的《韻調母》去提供韻和調。其拼寫法如下:
到目前為止,拼音中文還没有必要去為單獨的《韻調母》安排漢字,只是留着備用。
拼音中文對同音字或同調字的高度分辨度是已有或現有系統所不及的。更重要是拼音中文又能够同時保持音調節的緊凑明確所以是易學、易讀、易寫、和易用。
拼音中文對音調節用
韻母收音的分辨度是680個同音字。這麽高的分辨度是因為拼音中文在《短聲母》[#1-#11 阝、卩、木、丰、刀、扌、女、力、工、
、廾]之後設有兩套
韻母收音,一套是[#27-#30
],另一套是[#79-#82
]。事實上,漢語的聲母[#4 丰,#9 I,#10
,#11 廾,#18 日]是從來不與
韻母拼音的。所以上述的兩套韻調母是從來不在聲母[丰、I、
、廾、日]{f,g,k.h.r}之後的。當《韻調母》[#79-#82
]在《長聲母》[#12-#21
]或在《半聲母》[#83-#85
](具有内含韻母)之後,它們不具發音的功能,只是定調。類似的,當《韻調母》[#27-#30
]在《短聲母》之後它們的發音是
,在《長聲母》之後它們不具發音功能只是定調。每個《韻調母》系可以分辨85個同調字。因為這兩個《韻調母》系[#27-#30和#79-#82]的特徵,凡是以
為收韻的音調節,拼音中文可以分辨170個同調字(相當於680個同音字)。遠超過現有系統的分辨能力。
最左邊一列的數字:[1],[2],[3],[4]是表示四個聲調。最右一列的數字:(14)(0)(1)(9)是每個音調節的《同調字》數目,每個音節右列最下的一個數目<24>是該音節的《同音字》數目,也就是四個聲調同調字數的總和。在第十一圖中,《同調字》是列為一行,譬如第一行(最右列有(14)字樣)砂的第一聲調有(14)個《同調字》。在每個《拼音字》之下是其相對應的漢字。最左的三個拼音字是屬於《主要詞根分形》的《正體》、《疉韻》和《零聲母》式,它們與其它的拼音字是用一條直線隔開的。其它十一個同調《拼音字》的最後一個字母(第三個字母)都是《義標》也就是《字尾》。
(二)《分隔邏輯》程序(Separation Logic Program)
一套為漢語所設計的理想拼音文字系統必須具備下列三個條件:
1.它提供充分《音》與《調》的信息,讀者可以依據拼音定調{Tonal spelling}的方法準確的拼出每一個漢語的《音調節》。
2.它提供一套簡明、有效,而且是有理可循的方法去分辨所有的《同音字》和《同音同調字》,同時確保文字的高度可讀性。
3.它具有一套完善精密的結構基礎,在電算機内能够將多音節的《拼音詞》用邏輯方法明確無疑的《分隔》成為單音節的《拼音字》而不需要求助於一個詞典。
在上面已經詳細説過,本發明《拼音中文》系統已經滿足了上述的第一和第二個要求。下面將叙述《拼音中文》也能滿足上述的第三個要求。
《拼音中文》以其字母所組成的《拼音字》只具有下列兩種不同的拼寫法((1)和(2)):
拼音中文 英文
PCW=TS+G (1)
在上面的方程式中
拼音字
音調節
拼音字的格式 Tone-syllable forms
G=Generalized semantic classifier
定字義標
在顯示中英文對照的符號時,下面將採用《大括弧》{}去分開兩種不同文字的符號。例如《定字義標》刀{G}代表一個加在《音調節》後方的拼音中文字母。這個字母可能是從第一步的《主要詞根分形》中的《疉韻》或《零聲母》式而來,也可能是從第二步的《義標》而來,通稱為《定字義標》。符號刀{G}:中的[刀]是拼音中文符號,在大括弧{}内的G是與拼音中文相對應的英文符號。
方程式(1)和(2)可以合併起來成為下面一個方程式:
在這裡
{Q}是《擴意義標》,包括《定字義標》和《無義標》[0]。但是拼音中文系統中,有一個字母是例外的,#79[小]永遠不做《義標》,而是用來做《兒化韻》的,這將在下面作詳細的解説。所以《擴意義標》就是用任何一個拼音中文字母(除了[#79小]以外)做義標,或0=《無義標》也就是不用字母,就等於純粹的《音調節》。所以:(
有85個)
=《任一個拼音中文字母》+《無義標》-《#79小》 (4)
上面曾經提到《音調節》可以有四種不同的格式:
{CV,CSV,SV,V}。而《音調節》之後所加的《擴意義標》又有五種不同的字母:
{O,C,Z,V,S}(O=無義標,[
]{Z}=零聲母)。《擴意義標》[
]{Q}是代表無義標或任何一個字母,除[#79小]以外。([#79小]充任兒化韻,不做義標,下面再詳細解説)。所以《拼音字》可以有二十種不同的格式顯示在第六圖中。
當《拼音字》相連組成《拼音詞》時,第一列和第二列的格式[
]{CV,CSV}是完全可以用邏輯程序隔開的。但是,假如第三列或第四列組成《拼音詞》或部分《拼音詞》時,若緊前方拼音字的《字尾》是個《聲母》即引起與第一列或第二列的混亂。更具體化的説,假如第三列的拼音字在[
]{CVC,CSVC}之後,第三列的拼音字就會與第二列的拼音字發生混擾。相似的,假如第四列的拼音字在[
]{CVC,CSVC}之後,第三列的拼音字就會與第一列的拼音字發生混擾。
為了避免有這種發生混擾的可能,輸入員在輸入拼音中文資料的時候,在兩種情况之下必須在第三列和第四列拼音字之前加一個零聲母[
]{Z}(這個後加的零聲母不是拼音字的一部分,程序只當它是一個臨時借用的隔音符號。當拼音字分隔以後,程序即自動除去這個零聲母)。這兩種情况解釋如下:
(一)拼音字的第一個字母是《韻調母》(第六圖第四列):如有任何前置拼音字時,在詞連寫之前,必須在第四列拼音字之前加一個作臨時隔音符號用的零聲母。舉列如下:
[錯]
可愛平安報恩海岸天安門
(二)拼音字的第一個字母是《半聲母》而其前置拼音字的《字尾》是個《聲母》(第六圖第三列):在詞連寫之前,必須在第三列拼音字之前加一個零聲母。舉列如下:
金魚 李業 助要 限要 汗委
在第六圖中,放在第三列和第四列拼音字之前的《星號》就是提醒輸入員在某些情况下,詞連寫時,必須在拼音字之前加一個零聲母。只要輸入員遵守這個簡單規則,拼音中文系統就可以提供一套《分隔邏輯》程序。《分隔邏輯》具有把《拼音字》從《拼音詞》串中,毫無錯誤的一一隔開的功能,然後再用拼音字,從《漢字庫》中去識别漢字。
漢語中的《兒化韻》是一個特點,所以也需要特别處理。兒化韻的
兒
字是唯一的漢字用來修改其前置漢字的發音,使其收音為
兒
{er}。而它本身却没有單獨的發音。這是唯一的情况,兩個漢字合併成為一個音調節(以
兒
為收音)。《兒化韻》總是拼音詞中的最後一個字。《韻調母》[#79-#82
]獨立時,它們的發音就是
兒
{er}。聲調是由前置漢字而定,所以兒化韻也不具聲調。拼音中文是採用[#79小](兒韻調母系的第一聲)去代表《兒化韻》。因為《兒化韻》是獨立的韻母,照常規應該在其前方加一個零聲母才能與前置的拼音字相連(見上)。但是《兒化韻》並不是一個獨立的音調節,而是容於前置拼音字中的。所以照音韻學的規律是不應該把《兒化韻》與其前置音調節用零聲母隔開的。為了照顾這一點,拼音中文特别准許《兒化韻》與前置拼音字直接相連,但仍然保持是一個(帶兒化韻的)單音調節。另一方面也要肯定《分隔邏輯》能够適當的處理這個例外。因此《分隔邏輯》必須採取特殊設計的程序去處理《兒化韻》將在下面作更詳細的解説。下面的一些舉例顯示《兒化韻》可以直接相連:
一會儿 一塊儿 一點儿 没事儿
第7A-7D圖顯示了一個《分隔邏輯》的流程圖。按照這個方法就可以寫出一個,可以在任何通用計算機上使用的《分隔邏輯》程序。這個程序的功能是將一個輸入的《拼音詞》字母串用邏輯方法分開成為《拼音字》,(不必建立詞庫)。然後再借助於一個《漢字庫》去識别漢字。這個程序可以移植到大型計算機系統上去處理資料、文字、信息、或數據。
雖然現時只選取了一個程序,一個流程圖去作原則性的解釋,本發明不限於這個舉例,或者這個具體化的發明,因為一個普通程序設計員,當了解這個原則以後就可以設計出很多不同的程序去逹到相同的效果,啓用了同一個原則。此外,這裡所解説的程序在識别漢字以後即將漢字顯示出或印出。顯示和印出漢字不是完全必要的,拼音中文及其《分隔邏輯》程序也可以用來識别漢字,並不顯示或印出。更廣義的説本發明及其《分隔邏輯》是可以用來分隔任何多音節、多義節、或多音義節字母串。
指令組
組,以下縮寫為
{Instruction block})清除以下《陣列》{Array}:STRING(J),SEM(M),和PCW(X),並清零下列《旗號》(Flags)RV,Z,E,和變數JMAX。陣列STRING(J)是用來存儲《拼音詞》的{PPCW-Polysyllabic Phonetic Chinese Word}一連串有順序的字母。第一個字母存入STRING(1),第二個字母存入STRING(2),其它字母以此類推。STRING(J)應該有足够的長度去容納所設計系統中最長的《拼音詞》。一般説來,能容納20個字母的長度就够了。假如有需要可採用很大儲量的陣列STRING(J),這樣《拼音詞》之間的《空白鍵》(Space bar)也可以免除。
陣列SEG(M)是5個字母長的陣列,是用來臨時存儲一部分《拼音詞》(PPCW)的字母,為了查詢《拼音字》{PCW-Phonetic Chinese Word}包含有幾個字母。陣列PCW(X)是用來臨時存儲《拼音字》(PCW),從而可以找出它相對的漢字。當陣列STRING(J),SEG(M),和PCW(X)清除時,使每一個字位(Element)等於零,也就是《清零》的意思。
旗號RV是用來確定《兒化韻》{Retroflex Vowel}的旗號,當
{PPCW}的最後一個字母是《兒化韻》[#79小]時旗號RV就定為1。當旗號RV=0時也就是表示
{PPCW}的最後一個字母不是《兒化韻》。
旗號E是《錯誤》旗號。當《分隔邏輯》確定一串字母不可能拼出任何《拼音字》時,旗號E就定為1。
首先在[
12],程序將變數J定為1。程序再去决定是否在《輸入緩冲區寄存器》{Input buffer register)REG A[
#14]中有一個輸入《字節》(character)。為本發明現時陳述簡單,下面假設一個一個字母的輸入REG A的速度低於計算機的處理速度,所以在任一個時間在REG A中最多只有一個輸入字節。若有需要,現有程序可以修改去接收已預先存儲的一串字節,包括多個
{PPCWs},分隔開的或未分隔開的。在這種情况下,程序可能首先將這一串字節分隔成單獨的
{PPCWs}。然後再按照下列的方法處理單獨
{PCW}。
回到[
#14],程序繼續查詢REG A直到一個
{PPCW}的第一個字節在寄存器中出現。那時程序進展到[
#16]去確定在REG A中的字節是否《空白鍵》(與其它字母相對)。若不是,程序進展到[
#18]將陣列STRING(J)(J原先已經定值為1)的第一字節定值等於在REG A中《拼音中文字母》{PCA letters}的《數值》(見第二圖)。然後REG A清零[
#20],變數J增加1[
#22]。變數JMAX也隨着J增加1,以跟踪最後全部輸入STRING(J)的字母總數。然後程序再回到[
#14]等着第二個字母出現於REG A。假若第二個字母不是空白鍵,即將它置於STRING(J)的第二字節,因為在[
#22]時J已增加到2。程序將繼續循環於[
14-23]直到出現於REG A中的字鍵又是一個《空白鍵》。當這個空白鍵出現時一個完整的
{PPCW}《拼音詞》已經全部按字母順序輸入STRING(J)。存儲在JMAX的數目,等於拼音詞的字母數,也得到記録。當一個《拼音詞》全部輸入及記録後,程序進展到[
#24]。[
指令組]
在[
#24]程序進一步去確定《拼音詞》的最後一個字母是不是《兒化韻》字母。這是在[
#24-30]的循環綫路中所確定。在[
#24]首先要確定是最後一個字母是不是[#79小]《兒化韻》字母。假若不是,拼音詞
{PPCW}的最後一個不代表《兒化韻》程序即進展到[
#32]。
假若最後一個字母在STRING(J)是[#79小],必須再進一步去確定它是不是《兒化韻》。因[#79小]是不充任《義標》的,所以它不能在另一個《韻調母》之後。假如它是在一個《韻調母》之後,那麽它一定是個《兒化韻》。類似的,(見第4D圖),它也不能在聲母[#1,#3,#4,#7-11,#18]之後,做為音調節的一部分。(雖然[#3-79
]和[#8-79
]是漢語的音調節,但為了避免混亂,没有給它們安排漢字)。因此,如[#79小]是在一個《韻調母》或聲母[#1,#3,#4,#7-11,#18]之後,它肯定的是代表《兒化韻》。程序即去查詢STRING(J)中的倒數第二個字母,在[
#26]去確定這個字母是不是一個《韻調母》或聲母[#1,#3,#4,#7-11,#18]。假如不是,[#79小]不是《兒化韻》,程序即進展到[
#32]。假如STRING(J)中的倒數第二個字母是一個《韻調母》或聲母[#1,#3,#4,#7-11,#18]那麽[#79小]是代表《兒化韻》。程序即將字串的最後一個字母定值為0,並將RV旗號定值為1(見[
#28,#301])。
當STRING(J)的最後一個字母已確定是不是《兒化韻》以後,下一步必須去識别拼音詞中的第一個《拼音字》,這是在子程序[
#32-76](第7B圖)。
在前面已經説明,《拼音字》最廣義的格式是:
{PCW=TS+Q}。一個《音調節》
{TS}可以是下面的四個格式中的一個[
]{CV,CSV,SV,V},所以音調節的字母數是:1,2,或3個。《擴意義標》
{Q}的字母數是:0或1個,所以《拼音字》的長度可能是:1,2,3,或4個字母。STRING(J)中的第一個《音調節》的長度是在[
#32-42]所確定。
音調節字母:[
]{CV,CSV,SV,V}
這四個格式相當於《音調節》(列在第二行)四個格式的頭兩個字母。假如是與《音調節》的頭兩個字母符合,這兩個字母就是在STRING(J)中第二個音調節的開端,《擴意義標》[
=Q=0]也就是《無義標》,所以《拼音字》就等於《音調節》。假如這兩個字母不與音調節的頭兩個字母符合[
=Q=刀=G]就是《定字義標》《拼音字》的字母數是《音調節》字母數加1。
在第7B圖中,確定STRING(J)中第一個《音調節》字母數的子程序是在[
38]開始。程序首先去確定在STRING(J)中的《拼音詞》
{PPCW}的第一個字母是不是一個《半聲母》。假如是,音調節的格式一定是[
]{SV}所以其長度是兩個字母。因此,程序即進展到[
#34],把《音調節》字母變數定值為n=2。
假如,在STRING(J)中的第一個字母不是半聲母,程序即進展到指令36去確定這第一個字母是不是一個《韻調母》。假如是,《音調節》就是一個《韻調母》,在指令38變數n定值為1。假如STRING(J)中的第一個字母既不是半聲母也不是韻調母,必定是一個聲母。在這個情况下,音調節有兩個可能的格式[
]{CV,CSV},要看第二個字母是韻調母還是半聲母。去作這個確定,程序即進展到指令40去確定STRING(J)中的第二個字母是不是半聲母。假如是,音調節的格式是[
]{CSV},在指令42變數n即定值為3。假如第二個字母不是半聲母,音調節的格式是[汙]{CV}在指令34變數n即定值為2。
當子程序,包括指令組32-42確定音調節字母數,並將n定值為字母數以後,程序即去查詢一個(n+2)字母的字串去確定《擴意義標》[
=Q=0]《無義標》還是一個《定字義標》[刀]{G}。這是在指令組44-76中完成。
在指令44,程序將三個變數定值如下:N=n+1,M=1,J=1。變數N是確定放在SEG(M)陣列中的字母數,變數M是指示SEG(M)陣列中被查詢的字節位,變數J是指示STRING(J)中被查詢的字節位。在開始查詢音調節後的兩個字母之前,必須先將STRING(J)中的前N個字母複製在SEG(M)陣列中。這是在指令組46-50中完成。
當這個複製完成後,程序即進展到指令組52-76,從而去確定《拼音字》的字母數是n還是n+1(也就是去確定,《擴意義標》
{Q}是《有義標》,一個字母,還是《無義標》,没有字母)。去完成這個任務,首先要查詢SEG(M)中的最後兩個字母,去確定這兩個字母是否具有下列格式:[
]{CV,CS,SV,VP},從而確定這兩個字母中,哪一個字母是STRING(J)中第二個拼音字的第一個字母。假如在SEG(M)中倒數第二個字母是STRING(J)中第二個拼音字的第一個字母,那它就不是義標(第一個拼音字的字尾),所以第一個拼音字的字母數就等於音調節的字母數。假如SEG(M)中的最後一個字母,就是STRING(J)中第二個拼音字的第一個字母,那麽SEG(M)中倒數第二個字母是一個《義標》。所以STRING(J)中第一個拼音字的字母數比其音調節字母數多一個。
在指令52程序去確定SEG(M)中的最後一個字母是不是韻調母(現在應該記住,變數M已在指令組46-50增加到N的數目)。假如SEG(M)中的最後一個字母是韻調母,又要去作第二步確定SEG(M)中的倒數第二個字母是不是韻調母。假如是,就是一個《錯誤狀態》(拼音中文的輸入規則不允許第二個拼音字用一個韻調母開始)。假如錯誤狀態存在,程序即進展的指令56使鈴響或其它錯誤指示。程序再進展到指令58將《錯誤旗號》E定值為1,並將變數p定值為N。這也要將在下面再作解釋,程序即將SEG(M)中的全部字母顯示在銀光屏上,這樣輸入員可以查看在哪裡有輸入錯誤。
假如SEG(M)中的倒數第二個字母不是韻調母(指令54),程序進展到指令62去確定它是不是零聲母。假如是,零聲母的《旗號》[
]{Z}即定值為1,變數p定值為n(指令組64-65)。假如倒數第二個字母不是零聲母,程序即進展到指令66將變數p定值為n。在這兩種情况下,程序已確定《擴意義標》
=Q=0,所以p=n。這裡確定了拼音字等於音調節。
再回到指令52,假如SEG(M)的最後一個字母不是韻調母,程序去確定它是不是半聲母(指令68)。假如是,程序即去確定SEG(M)中的倒數第二個字母是不是一個聲母(指令70)。假如是,SEG(M)的倒數第二個字母就是第二個拼音字的開端,所以第一個拼音字的字母數是n個。因此,
{PCW}的長度變數p定值為n(指令66)。假如SEG(M)的倒數第二個字母不是聲母,那麽,在SEG(M)最後一個位置的半聲母就是STRING(J)中第二個拼音字的開端,所以STRING(J)中的第一個拼音字的字母數是(n+1)。因此,程序即進展到指令76,在這儿拼音字的長度變數p即定直為(n+1)。
再回到指令68,若SEG(M)的最後一個字母既不是韻母[于]{V}也不是半聲母[阝]{S},它一定是聲母[氵]{C}或是零聲母[
]{Z}。在這種情况下,STRING(J)中的第一個《拼音字》的長度是(n+1)個字母,同時在指令76,《拼音字》的長度變量p也定值為(n+1)。再到指令76之前,程序先到指令72去確定SEG(M)的最後一個字母是不是零聲母。假若是,零聲母旗號[
=Z]定值為1[
74]。這將造成以後從STRING(J)中取消這個零聲母,解釋在下。
到了這裡,以下的步驟又是到STRING(J)中去查詢下面的一個《拼音字》,確定它的漢字,然後在銀光屏上顯示出來。有如上面的解説,當子程序[
32-90]分析STRING(J)中的第一個《拼音字》時,它是假設STRING(J)的第一個字母也就是第一個《拼音字》的開頭。為了使程序能够再去分析STRING(J)中的第二個《拼音字》,STRING(J)中的字母必須全部《向左移位》,這個移位數等於第一個拼音字的字母數。換句話説,STRING(J)的字母全部移位直到第二個《拼音字》的第一個字母逹到STRING(J)的第一個字節。這個程序是顯示於[
92-104],第7D圖。
如上述,《拼音字》的長度變量p是定值於[
58-66]和[
76],它是等於在STRING(J)中第一個拼音字的長度。為了去分析STRING(J)中的第二個《拼音字》,STRING(J)中的第一個《拼音字》的字母必須除去。假如在第一和第二個《拼音字》之間輸入者插入了一個作為隔音符號用的零聲母,這個零聲母也必須除去。假如誤差旗號是1,銀光屏顯示了(p+2)字母為輸入者去修改。這兩個多出的字母也必須除去。這些是在[
92-104]完成(見第7D圖)。
在[
92]程序去確定零聲母旗號[
=Z]是不是等於1。如果是,《拼音字》的長度變數p即定值為(p+1)。程序再進展到[
100]。如果零聲母旗號不是1,程序即到[
96]去確定誤差旗號是不是1。假如是,在[
98]拼音字長度變量p即定值為(p+2),程序又進展到[
100]。假如誤差旗號不是1,程序就直接到[
100]。
在[
100]變量J定值為1,程序進入一個循環綫路包括[
102-106]。在STRING(J)中的每一個字母向左移p位,確保第二個《拼音字》的第一個字母移植到STRING(J)中的第一字節。在[
104]繼續向左移位,直到J=JMAX時才停止,在[
23]JMAX定值為J,也就是《拼音詞》後的《空白鍵》出現[
16](見第7A
。當移植完成以後,程序即進展到[
108]去確定STRING(J)中還有没有字母。
在這階段,STRING(J)中的第一個《拼音字》
{PCW}已經被完全分析過,也顯示在銀光屏上,並且第一個拼音字所有的字母已被向左移位移出了STRING(J),而原來的第二個拼音字的第一個字母移植到STRING(J)的第一個字節位。假如在STRING(J)中還有拼音字[
108]程序再回到[
32](第7B圖),又重開始分析第一個拼音字,如上所述。當這個拼音字分析和顯示以後,它在STRING(J)中的字母全部向左移並移出STRING(J),再下一個拼音字即取而代之,也就是下一個拼音字的第一個字母移植到STRING(J)中的第一個字節位。這個程序將繼續循環直到《拼音詞》中所有的《拼音字》按次序一一得到分析和顯示(直到STRING(J)中没有字母為止)。
當STRING(J)没有字母以後,程序進展到指令110去確定《兒化韻》旗號是不是1。假如是,《兒化韻》即顯示在銀光屏上指令112,然後程序回到《分隔程序》的開始指令10,再等第二個《拼音詞》中的第一個字母。假如《兒化韻》的旗號不是1,程序直接回到指令10。
《分隔程序》(上面的一些具體的描述只不過是一個舉列)提供了一個重要原則,那就是一個拼音中文的字母串,或别的字母串,(最好是一個《拼音詞》,但這也不是必須的)可以建基於邏輯原則上去用程序自動的將《拼音詞》分隔成《拼音字》,然後借助一個《漢字庫》即可逹到與《漢字》一一對應,這樣就完全不需要一個《詞庫》。一方面節省了大量存儲器的需要和檢索詞庫所花費的時間,另一方面又保證了《拼音字》與《漢字》都享受着高度的零活性。因此促使《拼音中文》成為《漢字》的一套平行文字,可以輔助《漢字》以高智能的方式進入現代化信息咨詢世界。
(三)《音字序》排順序方法(ALPHAGRAMMIC SORT)
《拼音中文》另一個重要優點是它能够用電算機直接和簡捷的把所有的《拼音詞》(也包括《拼音字》)按《音字序》排順序。打破了漢字幾千年以來傳統排順序的困難。
《音字序》(Alphagrammic order)基本上是與《字母序》(Alphabetical order)是相同的。《音字序》是《音、調、字、序》的縮寫,也就是先按《音》次按《調》最後按《字》排順序。(Alphagrammic是Alphabetical-ideogrammic的縮寫)。因為要照顾到拼音中文的兩個特點(也是漢語和漢字的特點),所以不能完全按《字母序》去排。第一:所有的同音詞(字)是排在一起的。在同音詞(字)群中,再按聲調的次序去排。所有的同調字也都排在一起。第二:前面漢字相同的詞彙是排在一起的。第一個列外是因為要區别大量的同調字拼音中文准許一個音調節有兩種或兩種以上的拼法。一種是《原配韻母》另一種是《定調啞母》,雖然拼法不同但是所發的音調是完全相同的所以是應該排在一起的。第二個列外是因為大多數的拼音字的最後一個字母是不發音而表意的《義標》,在詞彙按音調序排列時,因為有《義標》的存在有可能造成不合理的插隊現象。為了避免這種不合理的插隊現象,在詞彙排序時凡是前面相同漢字的詞彙是應該排在一起的。有了《分隔程序》以後,這個因為《義標》存在而造成的插隊現象是很容易避免的。原則上是在詞彙排序之前,把所有的《拼音詞》都分隔成《拼音字》先排第一個《拼音字》順序,然後在相同的第一個《拼音字》的隊伍裡再去排第二個《拼音字》,然後又在相同的第二個《拼音字》的隊伍裡再去排第三個《拼音字》,以此類推。這樣,凡是前面有相同漢字的詞彙都排在一起,避免了任何不合理的插隊現象。所以本排序法的全名是《音、調、字、序》,最後這個
字
是漢字的意思。下面將作更詳細的解釋。
《同調字》排序規律最好是用圖表來説明。第八圖是用本發明的《音字序排序程序》{Alphagrammic Sort},以後簡稱《音字程序》,創造出的中英文詞典示範。第八圖的最左列是拼音中文,按《音字序》排列的《拼音詞》。中間的一列是與《拼音詞》唯一性相對應的漢字或漢字組,再右一列是英文翻譯。
用任何拼音文字去代表漢字的時候,每個漢語《音調節》所需要的字母數,因音調節的格式不同而有所不同。下面將用本發明拼音中文舉列:其音調節的格式是[
]{CV,CSV,SV,V}。《拼音字》的長度則是由兩個因素去决定:第一個因素是《音調節》的長度,第二個因素是有没有《義標》。如果没有義標,《拼音字》與《音調節》相等,長度也相同,(正體)。如果有義標,《拼音字》比《音調節》多一個字母。排順序的一般規律是長的詞排在短的詞之後,但是因為拼音中文具有分辨同調字的特性(義標),如果按照《字母序》(Alphabetical order)去排列,在某些情况下可能一群詞彙,前面有相同的漢字,反而被分開,因為有《義標》的插入。舉列來説,在第八圖中的三個詞:
,假如是照
八億 八萬 八月
罷
本發明的《音字序排序法》為了避免這種不合理的《義標》插隊現象,將上述的《分隔程序》加以修改,即在排順序以前,每個拼音詞中,每兩個《拼音字》之間插入一個《虚空白》{virtual space}。這個《虚空白》是用數目字“0”{zero}去代表的。在排序程序中“0”是在“1”之前,也在所有的英文字母和所有的拼音中文字母之前。
把《分隔程序》稍加修改以後,即可自動的在兩個拼音字之間插入《虚空白》,第7B-7D圖,尤其是指令組32-84和92-108。下面是解釋怎樣去修改《分隔程序》使它有插入虚空白的功能適合用於《音字程序》。指令組54-64和72-74已不需要,可以除去。取代第7C圖指令組82-90的是將PCW(X)中的《拼音字》
{PCW}臨時存入一個《保持陣列》{Holding array},這個陣列可以装入字串中的全部字母,而且虚空白也是在這個陣列中插入。當一個《拼音字》存入《保持陣列》以後,其下一個字節位即存入一個《虚空白》。此後程序回到指令92繼續循迴於《分隔程序》中,直到所有的《拼音字》都已存入《保持陣列》,每個拼音字後都設有一個《虚空白》。這時即可將拼音詞從《保持陣列》複製到大量儲存器以待排序。當所有要排序的詞串都經過《分隔程序》的處理,存入大量儲存器以後,《音字程序》即可自動的按一般《字母序》排列法處理,《虚空白》的順序是在數字“1”之前,而所得的結果就是拼音中文所需要的《音字序》如第八圖。
上述的《音字程序》可以很容易的從每行處理一個《拼音詞》擴大到每行處理一個《拼音詞組》,簡稱《詞組》(包括《字組》)。只要輸入時在每個《拼音詞》之後,輸入一個
{SB=Space bar}其ASCⅡ位置數
空白鍵
是32(H20)。《虚空白》“0”的ASCⅡ位置數是48(H30),所以《空白鍵》是在《虚空白》之前。同時STRING(J)和《保持陣列》都需要增長。
《音字序》排列法的第二個例外(與《字母序》不同的第二點)是將所有的《同調字》排列在一起。但是,拼音中文為了必須分辨大量的《同調字》,凡是《短聲母》中的收音是
衣
或發音是《長聲母》(包括半聲母
衣)的音調節都有兩種不同的拼寫法。一種是用《原配韻母》[#27-30
],另一種是用《定調啞母》[#79-82
]。舉例如下:
低滴 敵迪 底抵 地第
師失 十時 史使 示是
上面的兩個例子,一行短聲母一行長聲母,各屬於一個音節,是按《音字序》排列了。每行的頭兩個字是第一聲,它們排在一起因為是《同調字》,下面一對是第二聲的《同調字》也排在一起。再下以此類推。如果是按《字母序》排列應該如右:[
]因為[#27-30
]的字母數序是在[#79-82
]之前。類似的,三個半聲母[
]各有三種不同的基本拼寫法,凡是《同調字》也都是排在以起的。它們各三種基本不同拼法已在(32-33)頁舉例,這裡不再重複。
第12A-12B圖是《比較》子程序的流程圖,用來比較兩行拼音中文詞組,音調節比音調節或詞比詞,去决定,按《音字序》排列法哪一行應該在先。《比較》又有處理英文,按《字母序》排列的功能。《比較》只是《音字程序》{Alphagrammic sort}中的一個子程序。
在應用《比較》之前,先把全部文件輸入計算機的工作區,再將每一個《信息組》,包括詞,短句等,以下簡稱《詞組》,各安置在一行上。首先《音字程序》建立起《指示字》
{Pointer}陣列(縮寫時保留前面拼音字的第一個字母,但最後一個拼音字可以全部保留。讀出時則與全部漢字發音相同)。
是指示着每一行的第一個字節位,也就是一個陣列儲存着每一行第一個字節位的《行頭住址》。每一行最後的一個字母也给一個《行末標誌》。
住址
變量》也就是《音字程序》所建立的兩個《行頭住址》{Pointers}。《比較》即處理《行頭住址》所指示的兩行詞組,遞回一個數字去表示這兩行是否已逹到正確的《音字序》排列。假如這兩行詞組的次序不對,《音字程序》只是將兩個《指示字》交換,而並不是實際上去交換兩行詞組。
在下面,這被比較的兩行詞組稱為[
]{Line1,Line2}。在指令210,《比較》將兩個《計數器》定值為[
]{I1=I2=0}。
1,
2各為正在被查詢之[
]中《
》
{CC-Current Character}
現字母位
指數
與
2平常是相等,將在下面解釋。
在指令組220-230中,程序去確定在
1和
2是否還有資料要去比較。假如没有,不是在前面處理時已逹到兩行的行末並未覺查有任何不同處,就是這兩行中根本没有資料。在指令220程序去確定是否逹到這兩行的《行末標誌》。假如是,在指令222《比較》程序遞回一個數值“0”。一個“0”數值表示這兩個詞串完全相等,所以没有交換《指示字》的必要。假如不是,既兩行的行末並不是同時逹到,在指令224即去確定是否第一行的行末已逹到。假如是,在指令226《比較》遞回一個“-1”,因為
1比
2短,但是别無不同處,所以《指示字》也不須要交換。假如
1尚未结束,在指令228程序去確定
2是否結束。假如是,在指令230《比較》即遞回一個“+1”。遞回的數值是“+1”表示
1與
2必須交換,因為
2比
1短。
假如並没有一行被確定是短些,《比較》即去比較兩行的各下一個詞去確定它們的《音字序》。
假如兩個相比的詞並不都是拼音詞,譬如説一個是英文詞,它們的順序是在指令組240-250中完成。在指令240,《指示字》[枯1,枯2]{END1,END2}各定值為在
1,
2《現時詞》{Current word}之後的《空白》{space}的住址。拼音中文的詞與詞之間是用《空白鍵》分開的,這也是一般的慣例。所以《空白鍵》是一個很方便的《定義符》{delimiter}可用來比較
1和
2詞與詞的内容。多過一個的空白鍵,控制鍵,和用來作《隔音符號》的零聲母等無關要緊的字鍵,程序則置之不理。
1,
2{I1,I2}可以增加一個數目,為了越過這些無關的字鍵,在這種情况下,它們不一定是相等的。
在指令242程序去查詢《現時詞》是否兩個相比的詞都是拼音中文。假如不是,在指令244即將《短句比函數》{Function COMPARETEXT}應用到兩個《現時詞》上。《文字比》查詢在
1中的每一個字母,從《現字母位》[
1]{I1}到《詞末位》[枯1]{END1}。相似的,《短句比》也去查詢
2的内容,從《現字母位》[
2]{I2}到《詞末位》[枯2]{END2}。這兩個詞的比較是按純粹《字母序》;譬如説是按照標準ASCⅡ-CSCⅡ(第十三圖)的順序。《短句比》遞回一個CMP,其數值可能是0,-1,或+1,要看
1的詞是等於,小於,或大於
2的詞,按照詞彙的習慣定義。
在指令246程序去確定是不是CPM=0。假如是,兩個《現時詞》相同,不必交換。在指令248程序再定值
1=枯1,
2=枯2{I1=END1,I2=END2}這樣就進展到下一個拼音詞。下一步,在指令205,
1和
2各增值1,開始查詢下一個詞。
假如在指令242確定兩個現時詞都是拼音中文,即是兩個拼音字或是兩個拼音詞,它必須一個、一個拼音字去比。這是在指令組260-284中完成。
再參看第12B圖,在指令260,第一個詞的末尾,或者是《現時詞》中的第一個拼音字的末尾,是用《分隔程序》去確定的。《分離》{SEPARATE}子程序遞回兩個《字末》數值[
1,
2]{ENDSYL1,ENDSYL2}。
1{ENDSYL1}是
1中第一個拼音字尾的《指數》{Index}。相似的,
2{ENDSYL2}是
2中第一個拼音字尾的《指數》{Index}。
當字末確定以後,在指令262即比較《現時字》中的聲調。這是在子程序《聲調比》{TONECOMPARE}中完成。《聲調比》和《短句比》相似,但是前者加以修該依據上述在《音字序》中所有《同調字》排在以起,但在《同調字》隊伍中又是按《字母序》去排的。假如拼音字的《義標》(也就是《字尾》)可能造成,前面有相同漢字詞組的分開時,程序即置之不理。《聲調比》的一大優點是將一個音調節中不同拼法的同調字都轉換成一致拼法和聲調,然後再應用《短句比》。
《聲調比》
{TONECOMPARE}遞回一個《聲調數》
{CMPT}。假如
=0{CMPT=0}則表示《現時音調節》是同音調。假如是“-1”或是“+1”則是各表示在
1的《現時音調節》是小於、或是大於
2的《現時音調節》。在指令264假如
{CMPT}不等於“0”,程序進展到指令266再遞回一個《聲調數》。假如
=0,兩個《現時音調節》是《同調節》,必須進一步去確定它們的順序是不是對。去完成這一步,《比較》即採用子程序《短句比》去比較兩個《現時音調節》。在比較拼音中文字母時《短句比》是採用ASCⅡ-CSCⅡ(見第13圖)標準排序法。《中文標準交換碼》CSCⅡ(128-255)是系統化的給每一個《拼音中文字母》定值唯一的一個數目字在128-255之間(第13圖),這些數目字是在ASCⅡ(0-127)數目之後,所以《拼音中文》是排在《英文》之後。在指令268《短句比》遞回一個《短句數》,與上面已經解釋過的情况相似。在指令270程序去確定
{CMP}是否等於“0”。假如不是,在指令272《比較》再遞回一個《短句數》
{CMP}是“-1”或者是“+1”。
假設《短句數》
{CMP}是等於“0”,不但確定了《現時音調節》是《同調節》而且又確定了它們的拼音定調字母也完全相同。在指令274程序去定值
1=
1{I1=ENDSYL1}和
2=
2{I2=ENDSYL2}後即進到下一個《現時音調節》。
在指令276程序測試去確定這兩行中是否有一行已經到了行末。也就是在測試是否
1I1}小於
1{END1}和
2{I2}小於
2{END2}。假如没有一行到了行末,程序即回到指令260去確定在
1和
2的下兩個《音調節》的節末,再應用《聲調比》。
假如不是,也就是
1小於枯1,在
1的《現行拼音詞》比在
2的長,所以這兩行的《住址指示字》必須交換。因此在指令282子程序遞回一個“+1”。假如,
1=枯1,那就是
1的《現行拼音詞》逹到了《行末》,
1比
2短,不需要交換。因此,在指令284子程序遞回一個“-1”來。
(四)輸入鍵盤(KEYBOARD)
拼音中文字母
-Phonetic Chinese Alphabet)顯示在每個字鍵的右方。每個字鍵上有兩個拼音中文字母。右上方的字母相當於上檔字母,使用前必須先按《上檔鍵》{Shift key}。右下方字母相當於下檔字母。在保持聲、韻、調各組合理安排的約束下,本鍵盤的設計是《最優安排》為打字員或操作員提供了最高輸入效率。也是中英文共容鍵盤。
有很多關於高效率鍵盤安排的研究資料。也許最有名要算“Typing Behavior”by A.Dvorak et al(American Book Company,New York,1936)。這個研究建議字鍵的安排應該根據統計資料,使打字員手指從《導鍵》{Home keys:“a,s,d,f,j,k,l,;”}上的移動最低。為了逹到這個目的,出現頻率最高的字母是應該安排在《中排》{Home row}上。第十圖中的最上排稱為《頂排》,第二排稱為《上排》,第三排稱為《中排》,第四排稱為《下排》。所以由上至下是:頂、上、中、下排。拼音中文字母鍵盤的安排基本上是按字母出現頻率的高低去安排的。頻率最高的字母組安排在《中排》,頻率次高的字母組安排在《上排》,頻率第三高的字母組安排在《下排》,頻率最低的字母組安排在《頂排》。按直列的安排來説,拼音中文的鍵盤分成左右兩部,以中間的粗黑線為界。左部是用左手擊鍵,右部是用右手擊鍵。頻率最高的字母組安排在中間的四列(每列四個字鍵),分由兩個食指去控制。次高頻率字母組安排在中指上,頻率第三高的字母組安排在無名指上,頻率最低的字母組安排在小指上。
一般説來,Dvorak的建議對西方拼音文字的鍵盤安排是很適用的。但是拼音中文却另有一些新的要求。首先,拼音中文的韻和調是合併在一個字母上的呌作《韻調母》。最常用字都是由《聲母》和《韻調》雙拼組合而成。聲韻雙拼則以左右手交替打字為最理想。所以本發明的鍵盤設計的重點是放在左右手交替打字上的。在這個大原則下拼音中文的鍵盤是把所有的聲母和半聲母安排在右手下檔,除了出現頻率最低的三個聲母[#19-21
]是在右手上檔。出現頻率最高的五個《韻調母系》是安排在左手下檔。其它的十個《韻調母系》是在上檔,左右各五系。以下《韻調母系》簡稱為《韻調組》,一組裡有四個字母。
因為拼音中文字母數是85個,上下檔都必須用到,上檔有42個字母,下檔有43個字母。但是上檔有換檔的不方便,所以上檔字母的頻率總和要盡量降低。經過了仔細設計上檔字母頻率累積數約為26%,下檔字母頻率累積數約為74%。所以上、下檔的使用率約為1∶3之比。
在横排上,韻調組的安排是依據聲調去决定的。出現頻率最高的《聲調》是第四聲,所以是安排在《中排》,次高是第一聲安排在《上排》。第二聲和第三聲的頻率差不多,一個是在《下排》,另一個是在《頂排》。
為了容易學習和操作,每個《韻調組》的四個聲調都是安排在一列上的。這樣同一韻調組的四個聲調都是用同一個手指去打字輸入的。第十圖,舉例説,韻調組[#31-34
]都是用左手小指,韻調組[#27-30
]都是用左手無名指,又如韻調組[#63-66
]都是用(上檔)右手食指。
類似的,聲母是按發音方法的不同而分成小組的,每組有三個或四個字母不等,稱為《聲母組》,(見第二圖)。頻率最高的聲母組[#22,#83-85
]都是用右手食指。頻率次高的聲母組[#5-8
]都是用右手中指。頻率最低的聲母組[#19-21
]都是用(上檔)右手小指。在每一個《聲母組》中,頻率最高、次高、三高、和最低的字母是各安排在《中、上、下、頂排》。
總结的説,拼音中文鍵盤的安排與西方鍵盤的安排是迥然不同的。所有的聲母排在右方,頻率最高的韻母排在左方。這樣首先可以用聲韻雙拼,右左手交替,高速打字輸入最常用的漢字。鍵盤安排首先是建基於漢語《音、韻、調》的結構上。直列是以《聲母組》和《韻母組》為基礎而分列的。横排則是以《聲調組》為基礎而分排的。但是鍵盤的全部設計是由字母出現頻率而確定。字母出現頻率則是根據漢字的出現頻率和拼音中文的拼音定調和定字的方法估計得來。所以拼音中文的鍵盤是在漢語《音、韻、調》結構的約束下,頻率最優輸入鍵盤。{An optimal Phonetic Chinese Language(PCL)keyboard,subjected to Chinese phonological constraints}。
Claims (44)
1、一個為漢字而設計的圖形式代碼及其存儲方法,也包括《漢字庫》和更基本的《拼音中文》字母
1.1選擇一套漢字去為其設計《點陣繪圖漢字》,簡稱繪圖漢字》的圖形式代碼及其存儲和操作,這全部都可屬於《漢字庫程序》;
1.2在一定精密度的规定下(拼音中文現時挅用雨種不同點陣式精密度,一個是15×18,另一個是24×24,但並不限於所選的精密度)為每個所選漢字漢字設計出《繪圖漢字》;
2、一個方法與第一請求權相關,《拼音中文字母》代表漢語的聲、韻、調、之《音調素》:
2.1設有15個韻母,代表16個不同的韻母音質;
2.2韻母有直接區别漢語聲調的功能;
2.3設有21個聲母,代表漢語的21個聲母音質。
3、一個方法與第二請求權相關,韻母包括下列兩種韻母:
3.1設有15個韻母系,每個韻母系都有區别聲調的功能;
3.2設有3個《半聲母》也稱《半韻母》或《介母》,但没有區别聲調的功能。
4、一個方法與第三請求權相關,韻母有區别四個聲調的功能,稱為《定調韻母》,簡稱《韻調》或《調母》。
5、一個方法與第四請求權相關,每個韻母系是從一個基本韻母(代表第一聲)添加一筆,系統化的變形去代表四個不同的聲調。所以聲調是永遠附屬在韻母上的。
6、一個方法與第二請求權相關,聲母可分為下列三類
6.1設有《短聲母》組,每個字母代表一個聲母發音;
6.2設有《長聲母》組,每個字母代表一個聲母發音;
6.3設有一個無音質的《零聲母》。
16、一個方法與第九請求權相關,選擇最常用和次常用的8,000+漢字作為《主集》。
19、一個方法與第十八請求權相關,《義標》是在拼音字的最後,所以也稱《字尾》。在《主集漢字》8,000字剩餘的4,100字中絶大多數(80%以上)拼音字的《字尾》與漢字的《部首》是相同、相似或是相關,使《拼音字》與相對應的《漢字》之間得到高智能的轉換與聯係。
20、一個方法與第一請求權相關,最長的《拼音字》不超過四個字母。
21、一個方法與第二十請求權相關,《拼音字》的頻率加權平均長度是2.4個字母。
22、一個《拼音中文字母》在鍵盤上安排的方法,包括安排15個韻母系,每個韻母系有四個聲調,總共為60個《定調韻母》。這個安排法包括
22.1至少有四排字鍵,從上往下定為:頂排,上排,中排(Home row),和下排;
22.2確定各聲調(1,2,3或4)的累積頻率;
22.3將最高累積頻率的聲調(第四聲)定在《中排》。
23、一個安排鍵盤方法與第二十二請求權相關,繼續按聲調累積頻率去確定鍵盤的安排
23.1第二高累積頻率的聲調定在《上排》;
23.2第三高累積頻率的聲調定在《下排》;
23.3第四高累積頻率的聲調定在《頂排》。
24、一個安排鍵盤方法與第二十二請求權相關,直列安排
24.1由《頂、上、中、下》四排用同一手指去按鍵的定為《直列》;
24.2每一個《韻調母系》,也稱《韻調組》包括四個聲調,各安排在一個《直列》上。
27、一個安排鍵盤方法與第二十六請求權相關,按字母出現頻率的高低分别安排為左、右手的中指、無名指、和小指去分别操作。此項字母組比上項字母組出現頻率低。
28、一個方法與第二十六請求權相關,其中每個字鍵有上、下檔之分。這個方法是將出現頻率高的聲母、半聲母、和韻調母安排在不需要換檔的《下檔》。
29、一個方法在鍵盤上安排拼音中文字母系統;此系統字母包括多組定調韻母,每組定調韻母有四個字母代表漢語的四聲,又包括多組聲母和半聲母;這個方法包括
29.1鍵盤上劃分出區域,在一區域中的字鍵全部是用一個手去操作的;
29.2確定聲母、半聲母、和韻調母中各小組的相對頻率;
29.3所有的聲母和半聲都安排在右手邊;
29.4高頻率的韻調母安排在左手邊。
30、一個為計算機或打字機輸入拼音中文字母用的鍵盤;該字母有多個聲母、半聲母、和韻調組,每組的四個定調韻母代表漢語的四聲;鍵盤包括
30.1多個字鍵;這些字鍵分别安排在左右兩區,這兩區又分别用左右手去操作;
30.2鍵盤的一個區域是適應高頻率韻調母輸入;
30.3鍵盤的另一個區域是適應高頻率聲母和半聲母輸入。
31、一個鍵盤與第三十請求權相關,其中
31.1該鍵盤上的字鍵横分為四排,即由上至下一個《頂排》,一個《上排》,一個《中排》,一個《下排》;
31.2此《中排》字鍵適用於最高頻率韻調母的《聲調組》(第四聲)。
32、一個鍵盤與第三十一請求權相關,其中
32.1該鍵盤上的字鍵可按直排分為多列,每一列由同一個手指去控制;
32.2至少有一列這樣的字鍵用來輸入同一個韻母系中的四個不同聲調的字母。
33、一個鍵盤與第三十二請求權相關,越靠近鍵盤中間區域的字鍵,越適用於安排高頻率的字母。
34、一個鍵盤與第三十三請求權相關,其中
34.1一個字鍵有上、下兩檔的狀態;
34.2下檔字鍵適用於安排高頻率字母。
35、一個漢字處理的方法,包括下列一些步驟輸入一串拼音中文字母,每個字母各標明了漢語的聲、韻、調,該字母串包括至少兩組字母,每一組字母確定一個不等長的《拼音字》,每個《拼音字》只代表唯一的一個漢字同時又提供了那個漢字的全部發音信息包括聲、韻、調部件和音調節;又從處理這個字母串的程序中毫無疑問的去確定每一個《拼音字》的開始和終端。
37、一個方法,去建立與創造按《音字序》排列的詞組,每個詞組包括一個或多個詞,詞與詞之間是以空白鍵相隔,每個詞包括多個字母,字母組成一個或多個《拼音字》,每個《拼音字》代表一個,唯一的一個,《漢字》同時提供漢字發音的《音調節》和其聲、韻、調、部件,該字母組佔有預定的《字母序》,該程序包括的步驟:
將一套詞組按《音字序》排列,在那裡面首先詞組是按詞中字母的《字母序》排列的,該順序又在下列的範圍内被修改,(1)前面有相同漢字的詞組是列在一起的,(2)所有的《同調字》,雖是不同的拼寫法也是列在一起的;在(1)和(2)兩組中的詞組是按《字母序》排列的。
38、一個處理字母串的方法,包括
38.1輸入一串拼音中文字母,在那裡面
38.1.1該拼音中文字母包括一些聲母、半聲母、韻調母和一個零聲母
{C,S,V,Z};
38.1.2該字母串包括至少兩個《拼音字》
{PCW},每個《拼音字》的式樣是
{TS+Q},在那裡面
{TS}是《音調節》具有下列四個格式之一:
{CV,CSV,SV,V},另[
]{Q}是《擴意義標》,有兩個可能的格式,即《定字義標》(任何一個拼音中文字母,除[#79小]只用作《兒化韻》以外),或《無義標》{null set};
38.1.3每一個《拼音字》只代表一個,唯一的一個漢字同時明確的提供代表漢字的《音調節》及其聲、韻、調部件;和
38.2從輸入的字母串中,將其中所含的拼音字毫無模棱兩可的一一分開。
39、一個方法與第三十八請求權相關,繼續包括,求助於一個《漢字庫》,每個《拼音字》即可明確的轉換成與其唯一相對應的漢字。
40、一個方法與第三十八請求權相關,包括
40.1為拼音中文字母確定一套預定的《字母序》排列
40.2輸入至少兩個拼音中文字母的《拼音詞》;
40.3用《音字序排序程序》為拼音詞排《音字序》,在那裡面該《拼音詞》是按詞中字母的《字母序》排列,這個按《字母序》的排列再經過下列的修改,(1)凡是前面有相同漢字的詞是排在一起的,和(2)所有的《同調字》,既或是不同的拼寫法,也是排在一起的;在(1)和(2)這兩隊中的拼音詞是各按《字母序》排列。
41、一個為漢字建立代碼和存儲漢字的方法,包括
拼音中文字母
41.2為每一個拼音中文字母選擇一個,唯一的一個,七位二進制{7-bit}《二進制代碼》{digital representation};
41.3選擇一套漢字,為其建立代碼和存儲;
41.5存儲一個《漢字庫》(單音節),其中每一個被選漢字的《點繪漢字》圖形式代碼{Digital representation}與其相對應的《拼音字》(二進制代碼)達到唯一性的轉換。(見第一請求權)。
42、一個方法與第四十一請求權相關,在那裡面,拼音中文字母的《二進制代碼》是在128-255(BOH-FFH)範圍之内。
43、一個方法與第四十二請求權相關,在那裡面,拼音中文字母的《二進制代碼》是在128-223(BOH-DFH)範圍之内。
44、一個方法與第四十一請求權相關,在那裡面,拼音中文字母的《二進制代碼》是在128-213(B1H-D5H)範圍之内。
1986.6.4.於美國普林斯頓
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US74530285A | 1985-06-14 | 1985-06-14 | |
US745,302 | 1985-06-14 | ||
US06/870,472 US5175803A (en) | 1985-06-14 | 1986-06-09 | Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language |
US870,472 | 1986-06-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN86103965A true CN86103965A (zh) | 1987-04-01 |
CN1013154B CN1013154B (zh) | 1991-07-10 |
Family
ID=27114434
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN86103965A Expired CN1013154B (zh) | 1985-06-14 | 1986-06-12 | 采用拼音中文的汉字信息处理系统 |
CN198686105610A Pending CN86105610A (zh) | 1985-06-14 | 1986-06-14 | 使用汉语拼音的汉字数据处理和字处理的方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN198686105610A Pending CN86105610A (zh) | 1985-06-14 | 1986-06-14 | 使用汉语拼音的汉字数据处理和字处理的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5175803A (zh) |
CN (2) | CN1013154B (zh) |
HK (1) | HK18495A (zh) |
SG (1) | SG135492G (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100410852C (zh) * | 2002-12-27 | 2008-08-13 | 佳能株式会社 | 字处理方法和装置 |
Families Citing this family (148)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5551018A (en) * | 1993-02-02 | 1996-08-27 | Borland International, Inc. | Method of storing national language support text by presorting followed by insertion sorting |
JP3480958B2 (ja) * | 1993-02-19 | 2003-12-22 | 富士通株式会社 | 文字ファイルアクセス方式 |
US5378068A (en) * | 1993-10-12 | 1995-01-03 | Hua; Teyh-Fwu | Word processor for generating Chinese characters |
US5678039A (en) * | 1994-09-30 | 1997-10-14 | Borland International, Inc. | System and methods for translating software into localized versions |
US5847697A (en) * | 1995-01-31 | 1998-12-08 | Fujitsu Limited | Single-handed keyboard having keys with multiple characters and character ambiguity resolution logic |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
US5903861A (en) * | 1995-12-12 | 1999-05-11 | Chan; Kun C. | Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer |
US6009382A (en) * | 1996-08-19 | 1999-12-28 | International Business Machines Corporation | Word storage table for natural language determination |
KR20000053095A (ko) * | 1996-11-05 | 2000-08-25 | 쿤 춘 찬 | 비음성문자를 컴퓨터에 입력하기 위한 대용 워드로 전환하는 방법 |
US5933800A (en) * | 1996-12-09 | 1999-08-03 | Eten Information System Co., Ltd. | Apparatus for recording user behavior in an inputting scheme |
US6292768B1 (en) * | 1996-12-10 | 2001-09-18 | Kun Chun Chan | Method for converting non-phonetic characters into surrogate words for inputting into a computer |
JP2002532792A (ja) * | 1998-12-10 | 2002-10-02 | イートニ エルゴノミックス インコーポレイテッド | 曖昧コードを基礎とするタッチタイプ装置およびそのような装置を設計する方法 |
USRE43082E1 (en) | 1998-12-10 | 2012-01-10 | Eatoni Ergonomics, Inc. | Touch-typable devices based on ambiguous codes and methods to design such devices |
US6460015B1 (en) | 1998-12-15 | 2002-10-01 | International Business Machines Corporation | Method, system and computer program product for automatic character transliteration in a text string object |
US6389386B1 (en) | 1998-12-15 | 2002-05-14 | International Business Machines Corporation | Method, system and computer program product for sorting text strings |
US7099876B1 (en) | 1998-12-15 | 2006-08-29 | International Business Machines Corporation | Method, system and computer program product for storing transliteration and/or phonetic spelling information in a text string class |
US6496844B1 (en) | 1998-12-15 | 2002-12-17 | International Business Machines Corporation | Method, system and computer program product for providing a user interface with alternative display language choices |
US6411948B1 (en) * | 1998-12-15 | 2002-06-25 | International Business Machines Corporation | Method, system and computer program product for automatically capturing language translation and sorting information in a text class |
JP2000235567A (ja) * | 1999-02-17 | 2000-08-29 | Matsushita Electric Ind Co Ltd | 声調符号無入力式中国語文字変換装置 |
US6385581B1 (en) | 1999-05-05 | 2002-05-07 | Stanley W. Stephenson | System and method of providing emotive background sound to text |
US7403888B1 (en) | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
GB2359398B (en) * | 2000-02-21 | 2004-05-05 | Kenwood Corp | Encoding method |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7047493B1 (en) | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
US7761175B2 (en) | 2001-09-27 | 2010-07-20 | Eatoni Ergonomics, Inc. | Method and apparatus for discoverable input of symbols on a reduced keypad |
US7315982B2 (en) | 2003-02-26 | 2008-01-01 | Xerox Corporation | User-tailorable romanized Chinese text input systems and methods |
US20050027534A1 (en) * | 2003-07-30 | 2005-02-03 | Meurs Pim Van | Phonetic and stroke input methods of Chinese characters and phrases |
US7395203B2 (en) * | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
US8200865B2 (en) | 2003-09-11 | 2012-06-12 | Eatoni Ergonomics, Inc. | Efficient method and apparatus for text entry based on trigger sequences |
US7359850B2 (en) * | 2003-09-26 | 2008-04-15 | Chai David T | Spelling and encoding method for ideographic symbols |
WO2005091252A1 (en) * | 2004-03-19 | 2005-09-29 | Lanstar Corporation Pty Ltd | A method for teaching a language |
US7260780B2 (en) * | 2005-01-03 | 2007-08-21 | Microsoft Corporation | Method and apparatus for providing foreign language text display when encoding is not available |
CN1332295C (zh) * | 2005-04-30 | 2007-08-15 | 武文 | 中文打字键盘 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20090306978A1 (en) * | 2005-11-02 | 2009-12-10 | Listed Ventures Pty Ltd | Method and system for encoding languages |
US7584188B2 (en) * | 2005-11-23 | 2009-09-01 | Dun And Bradstreet | System and method for searching and matching data having ideogrammatic content |
US20080046824A1 (en) * | 2006-08-16 | 2008-02-21 | Microsoft Corporation | Sorting contacts for a mobile computer device |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8103499B2 (en) * | 2007-03-22 | 2012-01-24 | Tegic Communications, Inc. | Disambiguation of telephone style key presses to yield Chinese text using segmentation and selective shifting |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8725497B2 (en) * | 2011-10-05 | 2014-05-13 | Daniel M. Wang | System and method for detecting and correcting mismatched Chinese character |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20230137475A (ko) | 2013-02-07 | 2023-10-04 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
WO2016008512A1 (en) * | 2014-07-15 | 2016-01-21 | Ibeezi Sprl | Input of characters of a symbol-based written language |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US1549622A (en) * | 1925-08-11 | Typewriting machine | ||
US1169739A (en) * | 1913-04-12 | 1916-01-25 | Underwood Typewriter Co | Type-writing machine. |
US1204326A (en) * | 1915-02-08 | 1916-11-07 | Underwood Typewriter Co | Type-writing machine. |
US1549621A (en) * | 1923-02-09 | 1925-08-11 | Underwood Typewriter Co | Typewriting machine |
US1687939A (en) * | 1927-05-19 | 1928-10-16 | Remington Typewriter Co | Typewriting machine |
US2427214A (en) * | 1943-12-11 | 1947-09-09 | Kao Chung-Chin | Keyboard-controlled ideographic printer having permutation type selection |
US2412777A (en) * | 1944-06-28 | 1946-12-17 | Kao Chung-Chin | Chinese language typewriter and the like |
US2613795A (en) * | 1946-04-17 | 1952-10-14 | Mergenthaler Linotype Gmbh | Chinese typewriter |
US2526633A (en) * | 1946-09-25 | 1950-10-24 | Robert S Brumbaugh | Chinese typewriter |
US2625251A (en) * | 1948-05-18 | 1953-01-13 | Kong Pyung Woo | Korean typewriter |
US2950800A (en) * | 1956-10-24 | 1960-08-30 | Graphic Arts Res Foundation In | Ideographic type composing machine |
US3100036A (en) * | 1961-01-16 | 1963-08-06 | Yamura | Apparatus for selecting and typing the letter in the chinese letter printing telegraph, electrical chinese letter typewriter or the like machine |
US3199446A (en) * | 1962-09-07 | 1965-08-10 | Ibm | Overprinting apparatus for printing a character and an accent |
US3631956A (en) * | 1969-02-27 | 1972-01-04 | Hyon Kyu Choi | Multiple language typewriter with logogram capability |
US3809204A (en) * | 1971-12-27 | 1974-05-07 | Yamura Shinkoseisakusho Kk | Keyboard system for chinese character teleprinter, chinese character typewriter, monotype etc. |
US3809203A (en) * | 1972-01-31 | 1974-05-07 | Yamura Shinkoseisakusho Kk | Chinese character (kanji) teleprinter or a chinese character (kanji) punching typewriter or similar apparatus |
US3820644A (en) * | 1972-02-10 | 1974-06-28 | Chan H Yeh | System for the electronic data processing of chinese characters |
US3754459A (en) * | 1972-06-02 | 1973-08-28 | Cps Ass Inc | Ideographic-language input apparatus publication system utilizing same |
US3852720A (en) * | 1973-02-12 | 1974-12-03 | H Park | Method and apparatus for automatically generating korean character fonts |
US3950734A (en) * | 1973-08-16 | 1976-04-13 | Li Tzu Hung | Language processing system |
JPS5938590B2 (ja) * | 1975-02-12 | 1984-09-18 | 透三 中村 | 日本語の読み書き独習用の装置 |
US4096934A (en) * | 1975-10-15 | 1978-06-27 | Philip George Kirmser | Method and apparatus for reproducing desired ideographs |
US4327421A (en) * | 1976-05-13 | 1982-04-27 | Transtech International Corporation | Chinese printing system |
US4079482A (en) * | 1976-05-27 | 1978-03-21 | Yeh Chan H | Electronic data processing of Chinese characters |
US4064983A (en) * | 1976-08-02 | 1977-12-27 | Hitachi, Ltd. | Japanese character word processing system |
BG24190A1 (en) * | 1976-09-08 | 1978-01-10 | Antonov | Method of synthesis of speech and device for effecting same |
US4146337A (en) * | 1977-07-01 | 1979-03-27 | Alan Li | Electric typewriter for multiple languages |
US4173753A (en) * | 1977-09-22 | 1979-11-06 | Hsu Ching Chou | Input system for sino-computer |
US4187031A (en) * | 1978-03-13 | 1980-02-05 | Yeh Chan H | Korean (hangul) electronic typewriter and communication equipment system |
US4251871A (en) * | 1978-09-29 | 1981-02-17 | International Business Machines Corporation | Method and apparatus for storing and reconstructing Chinese-like characters |
US4294550A (en) * | 1980-03-10 | 1981-10-13 | Wang Laboratories, Inc. | Ideographic typewriter |
FR2482747B1 (fr) * | 1980-05-19 | 1986-10-31 | Barouch Eleazar | Dispositif d'encodage de caracteres ideographiques |
WO1982000442A1 (en) * | 1980-08-01 | 1982-02-18 | R Johnson | Ideographic word selection system |
US4365235A (en) * | 1980-12-31 | 1982-12-21 | International Business Machines Corporation | Chinese/Kanji on-line recognition system |
JPS57201926A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | "kanji" selecting method for "kanji" input device |
DE3142138C2 (de) * | 1981-10-23 | 1985-06-27 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur Eingabe chinesischer Zeichen sowie Vorrichtung zur Durchführung des Verfahrens |
US4484305A (en) * | 1981-12-14 | 1984-11-20 | Paul Ho | Phonetic multilingual word processor |
US4500872A (en) * | 1982-03-18 | 1985-02-19 | Dai-E Systems, Inc. | Method for encoding Chinese characters |
US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
US4580241A (en) * | 1983-02-18 | 1986-04-01 | Houghton Mifflin Company | Graphic word spelling correction using automated dictionary comparisons with phonetic skeletons |
US4544276A (en) * | 1983-03-21 | 1985-10-01 | Cornell Research Foundation, Inc. | Method and apparatus for typing Japanese text using multiple systems |
GB2142455B (en) * | 1983-06-20 | 1986-10-08 | Esp Elekt Spezialprojekt Ag | Electronic equipment for automatic writing of chinese/japanese ideograms |
US4609357A (en) * | 1983-08-01 | 1986-09-02 | Clegg Gwendolyn M | Phonetic language translation method |
GB2158776A (en) * | 1984-02-24 | 1985-11-20 | Chang Chi Chen | Method of computerised input of Chinese words in keyboards |
US4565459A (en) * | 1984-06-04 | 1986-01-21 | Dilucia Gilbert | Phonetic Chinese printing apparatus |
DE3505291A1 (de) * | 1985-02-15 | 1986-08-21 | Siemens Ag | Verfahren und anordnung zur eingabe von chinesischen schriftzeichen in ein endgeraet |
-
1986
- 1986-06-09 US US06/870,472 patent/US5175803A/en not_active Expired - Fee Related
- 1986-06-12 CN CN86103965A patent/CN1013154B/zh not_active Expired
- 1986-06-14 CN CN198686105610A patent/CN86105610A/zh active Pending
-
1992
- 1992-12-31 SG SG1354/92A patent/SG135492G/en unknown
-
1995
- 1995-02-09 HK HK18495A patent/HK18495A/xx not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100410852C (zh) * | 2002-12-27 | 2008-08-13 | 佳能株式会社 | 字处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN86105610A (zh) | 1987-06-10 |
SG135492G (en) | 1993-03-12 |
HK18495A (en) | 1995-02-17 |
US5175803A (en) | 1992-12-29 |
CN1013154B (zh) | 1991-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN86103965A (zh) | 采用《拼音中文》系统的方法和设备去处理中文资料、文字、信息或数据 | |
CN1276336C (zh) | 实现快速书写系统的方法和快速书写机 | |
CN1577229A (zh) | 输入音符串进入计算机及文句生产方法及其计算机与媒体 | |
CN1046625A (zh) | 在结构式文件中制作、扩展及收缩组元标记的技术 | |
CN1452083A (zh) | 字符信息的转换处理系统 | |
CN1241101C (zh) | 一种基于汉语音节双读方案的信息输入方法 | |
CN1043209A (zh) | 计算机汉字处理方法 | |
CN1258037A (zh) | 中文键盘及汉字语音码输入方法 | |
CN1109608A (zh) | 自由组合码汉字输入方法及键盘 | |
CN1129058C (zh) | 仿真拼音汉字输入法 | |
CN1019527B (zh) | 字符的图元输入方法及其键盘 | |
CN1275732A (zh) | 汉语键盘输入系统及其应用技术 | |
CN1303504C (zh) | 计算机汉字字母文字化输入法 | |
CN1208187A (zh) | 一种全息万能汉字键盘及输入方法 | |
CN1045021C (zh) | 中文数码电脑汉字输入法及其键盘 | |
CN1357814A (zh) | 计算机汉语键盘及其汉语信息的输入和处理方法 | |
CN1026924C (zh) | 汉字析音编码计算机汉字输入方法 | |
CN1016008B (zh) | 满、锡、蒙、托文智能化语词处理系统 | |
CN1464371A (zh) | 多语种输入方法和系统及其电子字典系统 | |
CN1208710C (zh) | 汉字双笔码输入法 | |
CN1110806A (zh) | 智能五笔双拼码字—词链环式定位联想输入方法 | |
CN1060542A (zh) | 文字键盘、汉字键盘、输入方法 | |
CN1108773A (zh) | 智能简易高效汉字编码系列 | |
CN1391154A (zh) | 汉语输入系统和汉语输入方法 | |
CN1713120A (zh) | 英文字根输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C13 | Decision | ||
C14 | Grant of patent or utility model | ||
C19 | Lapse of patent right due to non-payment of the annual fee |