日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

GB18030-2000の文字数

はてなのシステムにより自動リンクされたキーワード「GB18030」の解説を見て驚きました。

中国本土で普及しつある漢字コード規格。100万字を超える漢字をコード化している。OSへの実装は,Unicode3.0を利用。
中国政府は,2001年より,この漢字コード体系の採用を義務化している。

GB18030-2000とは、http://www.antenna.co.jp/gbfs/gb_encode.htmに解説があるやうに、100万を超えるキャラクタを符号化できるエンコーディングスキームが用意され、かつ「1バイトの95(0x20、スペースを含む)文字、符号の894文字と漢字の27,533文字」から成る文字集合の符号位置が定められた規格だと思ってゐたからです。
この情報は、Ken LundeCJKV日中韓越情報処理』で紹介されてゐるhttp://www.jaet.gr.jp/gb18030/や、より最新の情報までフォローされてゐると思しきでも、符号化文字集合の文字数の桁が変はることは無いやうです。

今昔文字鏡ですら非漢字を含めて12万字といふ状況で、100万を超える漢字をコード化してゐるとは驚きです。

“OSへの実装”も、どの時点のどんなプラットフォームの話なのやら。

どなたかキーワード編集の有資格者の方、訂正あるひは補足をお願いします。

なほ、私もあと7日分ほど日記を書けば有資格者になれる見込みなので、例へば安岡孝一センセイ(id:KoichiYasuokaさん)からかういふ解説が良いとコメントを頂戴するやうなことがあれば、丸写しさせていただきます。