絵文字を検索で使う

小形さんの絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り” - CNET Japanで拙エントリ(携帯電話の絵文字のUnicode登録をめぐる議論の動向 - もろ式: 読書日記)を紹介していただいたおかげで、はてなブックマークが倍増した。とは言え、小形さんの方はブックマークが数百ついているのに対して、私の方はその十分の一程度ではあるが。

さて拙エントリでは、絵文字のUnicode登録に反対する意見のひとつとして、

また、Googleで絵文字を検索する人はいないので、絵文字を通常の文字と同じ扱いにする必要はない。

というのがあると紹介した。確かに検索において絵文字を使うことはなさそうだ、とあのエントリを書いているときは思っていた。ところが、何気なく人工知能学会第23回全国大会(JSAI 2009)の発表題目を眺めていたら(一応会員だし)、あいまいな検索要求を絵文字を使って解決する手法についての発表(山本千尋・安田宜仁・別所克人・内山俊郎・内山匡「クエリとして絵文字を受け付ける情報検索」)があった。

本研究では,絵文字の持つこれらの特性を生かし,漠然とした情報要求を,ユーザが言語によって表現することなく,また,特別なインタフェースを用いることなく検索を行うことを目的とし,クエリの一部として絵文字を受け付ける検索手法の提案を行う.提案手法では,絵文字を文書検索で用いる方法として,絵文字の持つ多義性を言語に変換するための辞書を用意し,辞書を用いて絵文字を言語に変換し,検索を行うという手法を提案する.

絵文字を言語化するための絵文字辞書を作成し、絵文字を単語に変換した上でブーリアン検索を行う手法と、絵文字をベクトルに変換しベクトル空間モデルによる検索を行う手法の二つを比較している。前者の方が「漠然とした情報要求を網羅することができ」、後者は単語による検索と結果が非常に類似する、とのこと。へー。punctuationも含めたらどうなるんだろう。

先のエントリで紹介したように、絵文字はchildishである(絵文字を使う人はリテラシーが低い)という批判もあったけど、この検索システムはますますリテラシーの低下(絵文字リテラシーの向上?)を加速しそうだ (^_^;;

発表者は皆さんNTTの方。絵文字のUnicode登録を見据えての発表…かどうかはわからないけど。