テキスト構造のマイニング

HTML構造における頻出パターンのマイニングによるWWWからの情報抽出 どうもタグの構造のパターンを抽出できるらしい(未読)。だとしたら、大量のTEIでマークアップされたテキスト群に対して...なんてことができるかな。