日本語練習虫

旧はてなダイアリー「日本語練習中」〈http://d.hatena.ne.jp/uakira/〉のデータを引き継ぎ、書き足しています。

キャラクターのコード化

文字コードって何だらう。文字コードってやつが扱ってる「文字」ってモノに色々と性格が異なる「キャラクター(文字)」が混ざって集まってるおかげで、ある「キャラクター」については正しい説明であるように見えることが、他の「キャラクター」には当てはまらない、といふことが往々にして存在する。
さて、改めて、「文字コード」って何だらう。
Letter、Number、Mark、Ideograph、Symbolなど、様々な「キャラクター」を一堂に会して大きな「キャラクター」の集合をつくり、各々の差異を記述し番号と名前をつける。場合によっては一定の規則の元に、ある特徴を共有するキャラクター群にチームとしての名をつけることもある。何のためにそんな「キャラクターの集合」をつくって番号を振るか? 現代人の日常生活に必要な情報交換を円滑に行ふために。
――ざっくり言ふと、さうして集められ名づけられ番号づけられたキャラクター集合のことをcoded character set(符号化文字集合)と呼び、さうして集められたキャラクター達の個々のキャラクターのことをJIS X 0208:1997とかJIS X 0213:2004の規格票は便宜上すべて「漢字」と呼んでゐる。
かうした符号化文字集合のcode規則のことを「文字コード」と呼んだり、ある特定のキャラクターにつけられた含包符号化文字集合内での番号のことを「文字コード」と呼んだりするやうだ。
さて、色々めんどくさいんで、以下では日常生活で使ふコトバに即して対象となるキャラクター・チームのことを、「ひらがな」とか「漢字」とか「アルファベット」とか「記号」などと呼んでおくことにして、さういった区別をしない場合の呼び方を「キャラクター」といふことにしておかう。
何かあるcoded character setに集められたキャラクターといふのは、形・音・義のすべてやそのどれかあるひは所属チーム(用字系)の違ひを手がかりにして他のキャラクターと区別される。
仮名とかアルファベットなど表音文字の中には、「平仮名へ」と「片仮名ヘ」や、ラテン文字Aとキリル文字Aとギリシア文字Aなど見た目の区別が全くつかないか非常につきにくいキャラクターがある。各々を別の文字として扱った方が何かと便利だったりするってことで、今記したやうに各キャラクターの所属チーム(用字系)の違ひを手がかりにして別のコードが与へられてゐる。
ユニコードにおける「SNOWMAN」とか「POSTAL FACE MARK」なんかは、他に紛らはしいキャラクターが集められてゐないので、財務省活字の顔型郵便マークと郵便局キャラ「ポストン君」のように「違ふ人」に見えるくらいかなり大胆に違っちゃってても良いし、たぶん「字義」(つまり左記のやうに名指され得る何者かであること)は存在しても「音」は持ってない。
同じ絵文字系でも、NAOIさんのところで観察されてゐる「ケータイ絵文字の涙と汗」など、どこまで図形としての表現を変えて大丈夫か、描写がとても難しいキャラクターもある。
漢字は形・音・義を全部備へてゐるから漢字同士は形・音・義の全部によって区別されるかといふと、さうなってゐないキャラクターがある。「柿(カキ)」と「柿(コケラ)」は歴史的に明確に字形が区別されてきたかといふとさうでもないといふ事情もあったりするらしく、(1面)19区33点で「衝突」してゐる(カキとコケラはJIS X 0208:1997とかJIS X 0213:2004では区別できない)。日本唯一の手木版和装本出版社である「芸艸堂」の「芸(ウン)」も、「藝」の“新字体”「芸(ゲイ)」と「衝突」してゐる。集めるキャラクターが「図形文字」つまり眼に見える文字であるため已むを得ぬ仕儀だとか。
かうした次第で、「文字コードが何をコード化してゐるのか」といへば(空白文字や制御文字などの例外を除けば)「図形文字」をコード化してゐるんだども、個々の図形文字同士の区別は「字形だけ」によるのでもでも「字義だけ」によるのでもない。またキャラクターによって、とてもデリケートな区別がされるケースと、とても大雑把な扱ひになるケースがある。
世間一般の人々が使ってゐる文字コードの話をしてゐるのかと思へばオレコードの話だったり*1、既存の文字コードの話なんだけど自分に都合の良い部分しか見てない話*2だったりするので、たまに激しく脱力することがある。
たぶん、以上の己の話も、芝野センセイから見れば脱力系だらう。「電子翻刻における「読み」と「見たまま」」講演会、行きたかったなぁ……。

*1:それはそれで時に輝かしい未来の文字コードだったりするかもしれない!

*2:知ったかぶりだったら単にカッコ悪い。議論のつもりだったら考への浅さが瞬時に露呈してみっともない。