CHISE Conference 2005 落ち穂拾い

狩野さんがコメントを下さったので、お返事。
棒の手紙」については、http://homepage3.nifty.com/hirorin/bonotegami.htm が元ネタです。結構有名かと思って引き合いに出したのですが、却って問題を分かりにくくしてしまったかもしれません。素直に「『麻呂』と『麿』は移行コストを低くしたい (翻刻者の判断で誤差生じることもあるのでは?)」と言ったほうが分かりやすかったですね。
いえいえこちらこそ、不勉強?ながら知りませんでした。おもろい話ですね (^_^;; 会場でも言いましたが、例えば「⿰不幸」という変な字形の素性を持つ文字「棒」を作ることで、文字→文字列というリンクを張ることは可能でしょう。でも文字列→文字というリンクを張ることができないので、本気でやろうとおもったら文字列オブジェクトの枠組みを考えなければならないのだろうと思います。
私の問題意識としては基本的に2つあって、「塩基配列やアルファベット列ならば構成要素の原子性は自明として良いだろうけど、入れ子可能性をもつ漢字では単字と文字列の入れ換えも単一操作とみなすべきでは」という点と、「『同義の漢字が集まった熟語ではたいがいの場合、順序が入れ換え可能である』という事実を計算に反映させたい」という点(最初に「入れ換えは単一操作か」とお尋ねしたのはそのため)です。 いずれにしても、「1回前の操作で消えた文字ないし部品が、単字ないし部品として復活する」という 操作のコストを半分にするとかしてやれば技術的には解決のつく話かなと思います。
なるほど。でもそれをやりはじめると、意味素性では「貧困父母」→「貧父困母」のような複雑?な入れ替えも結構あったりします(音素性では順序性がけっこう強いようにも思いますが)。パターンマッチの問題になるかもしれませんね。
素性の重みづけですが、相互に相関係数をとって1に近いやつはほとんど同じ属性をダブルカウントしていると見なして重みを半分にする (合わせてで約 1 になるように) 程度の処理は必要ではないかと思います。
アイデアありがとうございます。 自分で重み付けって言っといてなんですが、間テクスト性という観点からすれば逆に重み付けを一切しないという荒技も面白いかな、と思ったりしてます (^_^;;
あと、形・音・義がほぼ 1:1:1 になるように正規化したほうが、値の信頼性が増すのではないでしょうか。
正規化の話はあそこでは言わなかったですが、けっこう大きな問題で、何らかの形で正規化しなければならないと考えています。 例えば、基本的に編集距離的なやりかただと素性の数が増えるほど編集回数が増えるという問題があります。仮に素性 a, b, c を持つ文字Cを C{a, b, c} と書くとすると、1編集回数=1編集距離と単純に考えれば、C{a} と D{b} の編集距離は1なのに対して、C{a, b, c, d} とD{a, b, e, f} の編集距離は2になってしまい、後者は50%しか変わっていないのに100%変わっている前者よりも編集距離は多くなってしまいます。ですから、文字オブジェクトの編集距離は δ(C → D) ÷ (δ(C → φ) + δ(φ → D)) (ただしφは素性のない文字)みたいな感じで正規化しないとだめだろーなーと思っています。 またおっしゃる通り、形:音:義 ≒ 1:1:1 みたいな処理も必要だと思います(ああ、入試の得点調整みたいで嫌だ (^_^;;)。