CHISE Conference 2005 (2)

(1)の続き。 ○師 茂樹「文字オントロジに基づく文字オブジェクト列間の編集距離」 このネタは、編集距離を使って数理的に写本の比較研究をしたい、という研究テーマがまずあり、じゃあその上にCHISEの文字データベースを使いながらできないか、というちょっと場当たり的な発想から出たもので、色々な意味でCHISE的ではない部分を含むのだが、それがかえって議論を喚起したようで不幸中の幸いとはまさにこのことである。 idstree発表内容は、まず編集距離の文字コード依存による問題点(「有」から「無」への置換と、「無」から「无」への置換が同じコストなのはおかしい、など)を指摘した上で、Chaonモデル(CHISEの文字モデル)下における編集距離の計算では、文字オブジェクトを木構造と見なした上で木の編集距離(Tree Edit Distance)を計算したらいいんじゃないか、と提案するものである。 この発表の最大の問題点は、文字とテキストとの関係を深く考えず、文字(オブジェクト)列=テキストと割り切って処理しちゃおうとしている点である。文字とテキストとの間にある深い溝については、先の書体・組版ワークショップでちょっととりあげ(たが、その時はあまり関心をもってもらえなかった (^_^;;)て以来、関心を持って考えていることである。にもかかわらず、こういう割り切りをしているのは、上に述べたような流れがあるからなのだが、狩野さんが「不幸の手紙」が「棒の手紙」に誤写されてしまう場合を持ち出して質問してくださったおかげで、この文字→テキスト問題が顕在化し、議論へと発展した(感謝!)。「不幸」→「棒」など、漢字や甲骨文字の文字列が文字になってしまう現象などが、既存の枠組みでも可能であったとしても、やはりきちんと考えないとダメだね、みたいな感じで議論が進んで行く。 また、Witternさんが、実際の写本の分析をやるにはもう少し工夫がいるのでは?という指摘もあった。比較の際、素性ごとの重み付けについて考えなければならないと思っていたのだが、それ以外にもいろいろ考えないといけないと思っている。ただ、あまり恣意的にはしたくないので、悩みが大きい。現在、文字データベースに守岡さんがこっそり「mistakable」という素性を入れているそうで、それはけっこうつかえるかもしれない。 (3)へ。