« かな3グラム分析 | トップページ | 内部告発公表から1年 »

かな3グラムの物差しを作ってみる

前回の「かな3グラム分析」というエントリで、投稿数の多かったIDの「かな3グラム」リストを作ってみました。

今回は、このリスト同士の近さ/遠さを測る物差しを試してみました。物差しと言うのは、ID「A」とID「B」があった時に、それらのリストがどの程度の類似しているか(=どの程度の近さにあるか)を測る道具という意味です。

この道具として「類似度」を以下のように定義しました。

  • Aのリストには、各3グラムに対する出現率が計算されているとする。例えば、リストされた全3グラムの総出現回数が3000で、「しかし」の出現回数が10ならば、「しかし」の出現率は10÷3000=0.33%。
  • ある3グラムが、AとBの両方のリストに存在する場合、その3グラムの出現率の小さい方の値を取る。
  • Aのリストにある全ての3グラムに対して、上記の値を集計したものを、AとBの類似度とする。(Bのリストに対して同じ操作をやったとしても同じ類似度になる筈 ★追記:これは間違っているかもしれません。もう一度考えてみます。)

言い換えると、Aの3グラム全体をBの3グラムで塗りつぶしたら、Aの全体の何%が塗られるか、というのが類似度です。この類似度はAとBの組合せに対して定義されるので、例えばIDが10個あったとすると、類似度は「10×9÷2=45」個ある事になります。

投稿回数が多かった以下の10個のIDに対して、類似度を計算してみました(リスト中に×をつけたのはプログラム上の問題でうまく行かないので除外しました)。

  • "ID","投稿回数"
  • "LcGCvJzD0",181
  • "tDFR9K4O0",179
  • "V+JBJ/g20",172 ×
  • "W0TlTNwBO",142
  • "bHdrgqPh0",141
  • "PUKvC9zG0",125
  • "zW3b9lWV0",113
  • "bhHp1lbI0",103
  • "4W0I7nSj0",99
  • "0N2z540MO",98
  • "???0",98 ×
  • "UvSWUjb+0",95 ×
  • "sIdB1Bjh0",94

類似度の大きい順に並べたリストを以下に置きました。カラムのid1-URLとid2-URLには「必死チェッカーもどき」へのURLを入れておいたので、発言内容が知りたい時はこのカラムをクリックしてください。

http://spreadsheets.google.com/pub?key=rKhn-vQysHs8lDevWs8RNvw&single=true&gid=0&output=html

最大の類似度は、PUKvC9zG0とzW3b9lWV0の43%です。また、この二者とLcGCvJzD0もお互いに高い類似度を示しており、PUKvC9zG0・zW3b9lWV0・LcGCvJzD0が同じような文体の傾向を示しているように見えます。内容を見ると、論調も似通っているように思えます。しかし、類似度が少し小さくなると、正反対の意見内容だったりするので、どこまで有効なのか判断がつきません。

という訳で、もう少しIDの範囲を広げて検証してみようかと思っています。

以上

|

« かな3グラム分析 | トップページ | 内部告発公表から1年 »

文字分析」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1109195/29773106

この記事へのトラックバック一覧です: かな3グラムの物差しを作ってみる:

« かな3グラム分析 | トップページ | 内部告発公表から1年 »