【分享】國內中文字碼之發展(推薦閱讀)


Recommended Posts

http://bbs.ee.ntu.edu.tw/boards/Linux/7/9/58.html

我國最早之中文字碼為民國六十九年提出之「中文資訊交換碼」 (Chinese

Character Code for Information Interchange, CCCII)。訂定此碼的原動力是

美國急需使用電腦處理東亞語文資料,因此派遣負責人赴東亞考察。當時只有日

本訂定資訊碼標準 JIS C 6226 。在「只此一家,別無分號」的情況下,美方初

步決定採用此標準。我華裔美國亞東圖書館代表與我國代表極力反對,說明日本

漢字無法代表中國文字的理由,並允諾四個月之後提出我方之標準。

我方代表返國之後,上書政務委員李國鼎及國科會、中美會等單位,集合國

內一批文字學家、圖書館學家、以及電腦學者,組成臨時性質之任務編組──國

字整理小組。經過謹慎考察、研究,一套涵蓋中日韓各國語文、以及繁體、簡體

、異體等等之「中文資訊交換碼」出爐了。此碼終為美方接受為處理中日韓資料

之正規標準。至今仍有許多圖書館系統採用,因為只有此碼才能擔當這個重任。

CCCII 在國外受到歡迎,在國內卻遭受排擠。有心人士或是想在歷史留名;

或是自認官大學問大。用盡各種方法打擊 CCCII,並玩起編碼遊戲。這個遊戲,

為咱們中文字碼的悲劇「萬碼奔騰」揭開了序幕。我想這個編碼遊戲,至少讓國

內的資訊工業停滯五年。

下列兩本書,詳細記載了這一段歷史,以及 CCCII 的技術資料。在本文之

後,我從第二本書抄錄一個章節,供無法借到這兩本書的網友參考。打這篇文章

的目的,一方面是前一陣子有許多網友詢問到 CCCII;另一方面,讓網友瞭解現

在我們使用的中文內碼的訂定過程是如何草率。

一、書名:中文字碼:萬碼奔騰,一碼當先

作者:黃大一

出版:永麒科技

二、書名:國字整理小組十年

作者:謝清俊、黃克東

出版:資訊應用國字整理小組

========================================================================

以下文章摘錄自「國字整理小組十年」p15-p18

========================================================================

四、國內外局勢之發展

(一)國內中文字碼之發展

國內有識之士早在民國六十六年起,就多次提起制訂中文字碼的事情。可惜

當時由於國內沒有標準字形而受阻。此事在六十七年、六十八年之國建會及近代

工程討論會中,亦曾討論,甚至有決議作成。然而終究因字形整理的問題而拖延

著。至六十八年,教育部公佈了 4808 個常用字的標準字形後,編字碼的是才有

一線希望。

中文資訊交換碼之所以能在六十九年三月發表,實拜教育部公佈標準常用字

形之賜。然而,在當時,除上述之標準字形外,餘無標準字形。於是國字小組只

得負擔起後續的工作,以期能在七十年將 CCCII 擴充到可實用的字數,並能符

合國際上日益迫切之需求,來維護我們的傳統文字。

當民國六十九年三月中文資訊交換碼發表之事傳到國內以後,並未受到應有

的重視和獎勵,反而引起了杯葛、謾罵、和各種侮辱的情形,此誠始料未及。

引起這種情況的主要原因是:在六十八年國建會的建議中,曾建議我國編中

文字碼,而行政院將此案交主計處電子處理資料中心研究。因此,該單位獲知

CCCII 發表後,赫然震怒。認為國字小組破壞政府體制,此事應該由他們做才是

。於是在民國六十九年五月,召開會議決定要另做一碼。當時國字小組有人出席

該次會議,曾即席說明編制 CCCII 之原委,並說明 CCCII 發表時沒有作者,

這純是為了國家,為了維護文字和文化先鋒。同時表示願和主計處電子處理資料

中心合作或甚至交給他們繼續未完之工作,大家戮力一致對外。非常可惜的是此

建議並未為主計處電子處理資料中心接受,反而一意孤行,非另做一碼不可。

為協調此爭執,有該年九月間在溪頭開的會議。在溪頭開的會議中,國字小

組代表對編碼的作業有詳細的報告。在當時,國內翠於 ISO 資訊交換的相關標

準之了解實在貧乏的可憐,與會人員不明白 ISO 646 及 ISO 2022 是做什麼的

,因此對 CCCII 之編碼技術無法體認。當然也就不明白 CCCII 的長處了。國

字小組之成員雖然全力說明,然而在主事人以政治手段解決技術問題的作法之下

,以為再編一碼亦非難事,而且還可以平息爭端,斷然宣佈要再設計一碼作為解

決之道,由此開啟了中文字碼十年混亂之情,迄今仍然遺禍社會無法解決。

經溪頭會議後,主計處電子處理資料中心邀王金土根據決議所編之碼為「中

文資訊標準碼」,並於民國七十年發表 (記錄上是二月,而事實上到六月才完稿)

。此碼完全不理會 ISO 之相關標準,獨斷專行,在碼的結構上主觀幼稚,在文

字上則由個人任意挑選。當然,這種碼是不能用的,然而主事者並不相信,反而

行文各單位要求採用。經過日本 NEC 及 FACOM 之技術人員在警政署強烈抗議之

下,才明白此碼真不可用,只得偃旗息鼓自行收回。然而其耗費之公帑,即以印

刷而言,上千本二吋厚之巨著就此報廢,更遑論其人力、物力,和時間之投入,

合法之浪費莫以此為甚。

事實上,由此事件之教訓,主事者應該明白溪頭會議之錯誤,以及編碼是涉

及計算機技術與我固有文字學之事,不是無知之輩想得那麼簡單。若是就此收兵

,也就罷了。可嘆的是,在此過程中,主辦單位應用各報章媒體,造成許多打擊

國字小組,對 CCCII 之技術成就惡意曲解,似是而非的謬論,一意認定他們自

己是對的。當發現所編的王金土碼不能時,竟惱羞成怒,執意非再做一個碼不可

。至此情形,已非理性之爭,而是以一己之私,一念之差,置國家社會利益不顧

地孤行到底了。

於是主事者另起一灶,又行設計第二套碼,在民國七十一年七月發表,這碼

名為「中文資訊標準交換碼」。然而,此碼並未完全做完,同年九月又補充附冊

。這些碼雖然號稱採用 ISO 646 及 ISO 2022 標準,然而,又不真正認真執行

,所以徒具虛名,且七月發表和九月補充的字碼均不同, (詳情請月表一) 。當

然此碼依然不能用!

雖然又失敗了,可是主事者巧言隱瞞事實,暗地裡再整旗鼓,又做一碼: 「

通用漢字標準交換碼」並於民國七十二年十月發表。經過以前這許多失敗之經驗

,又從 CCCII 學到不少技術,這一次充滿信心竟以國家標準為支柱,以行政命

令強行推銷此碼,此舉已干犯到國家標準不是強制性質的原則了。雖然此碼修正

了許多過去之缺失,也越來越神似 CCCII,可是主事者所堅持的: 以一萬三千字

為限的錯誤決定,仍然使得此碼窒礙難行。許多廠商為應付採購程序上非要用國

家標準的箝制,在電腦中安置了此碼,然而實際上又不用。形成了可笑亦復可悲

的瞞天過海的情形。這種情形不知造成了多少電腦資源上的浪費,對政府形象之

傷害更是無以言喻!

之後,由於大家心裡明白此碼不可不用又不得不用的情況下,只好再造一碼

,即「五大專案碼」之誕生。爾後,至民國七十五年「通用漢字標準交換碼」又

更新一次版本,字碼又換一次,從民國七十年至七十五年之五年中,六次變易,

世界上找不出這樣子做的「國家標準」。不僅這個過程無法統一字碼,為工業界

造福,反而造成天下大亂,國內中文碼之亂,此實為罪魁禍首。

到今天,這個碼除了在個人電腦中可用以外,稍微大一些的系統都不夠用,

它仍然是採購上必要而又無用的一個設備罷了。無論在台電,自來水、瓦斯、電

信局、警政署、海關、外貿會、出版社、報社、財稅... 此碼的字均不夠用,更

不必談到國家級的系統,像戶政、地政、財稅、圖書館等等系統了。

這麼多年來,主持通用中文標準交換碼的人員對中文資訊交換碼之攻擊和打

擊不遺餘力,凡有中文資訊交換碼之廠商竟不敢明言,以免遭排擠。對通用中文

標準碼以行政命令強制推行,若任何中文系統無此碼者則禁止公家機構採購。在

標準法中明白說明國家標準無強制性,然而有關單位竟一意孤行。在這麼惡劣的

環境下,通用碼無法取得使用上之優勢,實在是該碼設計上缺陷累累 (見經建會

民國七十七年九月製版之 "中共電腦業之發展及其對我之影響 P.173) ,否則以

國家政令之力,豈有中文資訊交換碼活命之空間?

表一 中文標準碼自民國70年至75年歷年變遷簡表

+--+--------+----------+------------+----------+--------+----------+

|名|中文資訊|中文資訊 |中文資訊標準|通用漢字 | 五大 |通用漢字 |

|稱|標準碼 |標準交換碼|交換碼(附冊)|標準交換碼| 專案碼 |標準交換碼|

+--+--------+----------+------------+----------+--------+----------+

|發| | | | | | |

|表| 70年 | 71年 | 71年 | 72年 | 73年 | 75年 |

|時| 二月 | 七月 | 九月 | 十月 | 三月 | 三月 |

|間| | | | | | |

+--+--------+----------+------------+----------+--------+----------+

|發| | 國科會 | | | | 國科會 |

|表| 主計處 | 教育部 | 同左 | 同左 | 資策會 | 教育部 |

|單| | 標準局 | | | 工業局 | 標準局 |

|位| | 主計處 | | | | 主計處 |

+--+--------+----------+------------+----------+--------+----------+

|主| 李 | 何 | 何 | 何 | 果 | 何 |

|持| 克 | 宜 | 宜 | 宜 | | 宜 |

|人| 昌 | 慈 | 慈 | 慈 | 芸 | 慈 |

+--+--------+----------+------------+----------+--------+----------+

|承| 行政院 | | | | (十三 | 行政院 |

|辦| 主計處 | 同左 | 同左 | 同左 | 家業 | 主計處 |

|單|電子資料| | | | 者) | 電子資料 |

|位|處理中心| | | | 不詳 | 處理中心 |

+--+--------+----------+------------+----------+--------+----------+

|結|2 8-bits| | | | | |

| | bytes | 同左 | 同左 | 同左 | 同左 | 同左 |

| | 16 bits| | | | | |

|構| 二元碼 | | | | | |

+--+--------+----------+------------+----------+--------+----------+

|字| 32,768 | 35,344 | 35,344 | 35,344 | 35,344 | |

|位|(奇數碼)| | | | | |

+--+--------+----------+------------+----------+--------+----------+

|字|16,000字| | |5,401 ( | 5,401 |5,401 ( |

| |王金土由| 4,808 | 4,808 |4421-7D4B)| 常用字 |4421-7D4B)|

| |"辭海"中| (常用字) | (常用字) |13,053 ( | 7,652 |7,650 ( |

|構|任意選出| | |30A1-FBE2)| 次常用 |2121-7244)|

+--+--------+----------+------------+----------+--------+----------+

|字|1.總筆劃|1.總筆劃 |1.部首 |1.總筆劃 |1.總筆劃|1.總筆劃 |

|序|2.部首 |2.部首 |2.總筆劃 |2.部首 |2.部首 |2.部首 |

+--+--------+----------+------------+----------+--------+----------+

|I| |合 ISO 646| | | | |

|S|完全不合|部份合 | 同左 | 同左 | 同左 | 同左 |

|O| | ISO 2022 | | | | |

+--+--------+----------+------------+----------+--------+----------+

|獨| | | | 不合 | | |

|一| 合 | 同左 | 同左 | 常用字一 | 合 | 合 |

|性| | | | | | |

+--+--------+----------+------------+----------+--------+----------+

|涵| 不合僅 | 不合 | | 不合 | | 不合 |

|蓋| 32768 | 總字 | 同左 | 總字 | 同左 | 總字 |

|性| 字位 | 4,808 | | 13,053 | | 13,053 |

+--+--------+----------+------------+----------+--------+----------+

|擴| 不合 | 不合 | | 不合 | 不合 | |

|充| 無法 | 總字數 | 同左 | 無法 | 總字數 | |

|性| 擴充 | 35,344 | | 擴充 | 35,344 | |

+--+--------+----------+------------+----------+--------+----------+

|試|不能使用| 無人試用 | |無業者採用|多家採用| |

| |主計處 | 業者字數 | 同左 | 75年三月 |外來程式| |

|用|自行收回| 超過8000 | | 宣佈放棄 |有問題 | |

+--+--------+----------+------------+----------+--------+----------+

|中| 031F | 4C50 | 4C26 |4463 32F6 | A4A4 | 4463 |

|華| 36AB | 6675 | 712B |615E B1AE | B5D8 | 615E |

|民| 05C1 | 4E4A | 623B |4661 39EF | A5C1 | 4661 |

|國| 2730 | 5F54 | 535E |594F A138 | B0EA | 594F |

+--+--------+----------+------------+----------+--------+----------+

亦驢註:想知道主計處編出來的第一套碼有多荒誕,可以看看上表最後一項。

「中」的內碼為 031F 。在 ASCII 標準中 03、1F 都是控制碼。在

以 ASCII 為主的電腦世界,這個字碼不是非常荒謬嗎?

鏈接文章
分享到其他網站

請登入後來留意見

在登入之後,您才能留意見



立即登入