CHISE Conference 2005 (1)
木曜日、いろいろあって忙しいのにCHISE Conference 2005で発表をしてきた(金曜日は市内某所で監禁 (^_^;; されていたため無理だった。今頃皆さんハックしてるんだろうなー)。ここんとこ結構きついスケジュールで準備もあまりできなかった上、参加者も少なめだったが、非常に充実した議論ができた。参加者の皆さん、おつかれさまでした。
○守岡知彦「文字データベース 2.0」
CHISEプロジェクトでは、文字の背番号制度である文字コードのモデルとは異なり、ひとつひとつの文字が素性(情報)の束でできている、というモデルのもと、様々な文字処理を行う環境の構築を目指している。文字データベースはまさにその根幹となるもの。
守岡さんの発表は、文字データベースをバージョンアップするにあたり、まず現状の文字処理、自然言語処理界隈における「やっかいなことの押し付け合い」を指摘。例えば、現在の文字コード業界は、抽象的な「文字そのもの」を扱うのだと自己規定することで、「文字の意味は文字そのものにはふくまれないからよそでやって」「字形は文字そのものには含まれないからよそでやって」みたいな感じで、自然言語処理業界やフォント業界などに面倒な部分を押し付けているのではないか(逆に他の業界もそれ以外の業界におしつけてたりする)、と守岡さんは指摘する。そして、そのように業界からはじき出された「やっかいな」部分、言い換えれば文字の「周縁」にあたる部分をCHISEの文字データベースが引き受けるのだ、と獅子吼?したのである。
(細かく云うと、守岡さんはわかっていてわざと言ってるんだと思うけど、コンテクストに依存して変化する意味とか字形とかの「やっかいな」部分は、実は文字の本質的な部分だったりするわけで、それを「周縁」と評価するのはこれまでの文字のモデルの考え方(音声中心主義)を象徴するものであろう。)
そして、テキスト処理など、従来の文字のモデルが埒外としていた処理において、文字データベースが直接利用されるような環境づくりがこれからのCHISEのあり方であり、文字データベースは様々なコンテクストが混在することが可能な文字間ネットワークの複合体を目指すのだ!と結論づけていたが、これはまさに私がやっている/やろうとしていることに重なるため、まったく賛成である。
((2)へ続く)