« テキスト処理の道具達(1):Webページの収集ツール | トップページ | テキスト処理の道具達(2):秀丸でGrep »

文字レア度と文書レア度(2)

レア度を計算した記事に、松沢さんから貰ったコメントについて書いてみます。
引用は>で示します。

>現状でわかるのは、特別な意図、特別な事情のある文章は別にして、個人の文章は安
>定感があって、どうしても個性が出るらしいってことですね。

ここでは文字の選び方、使い方に着目している訳ですが、それでも個性は出ていると思います。ただ、当たり前かもしれませんが、同じ人でもテーマによって現れる「字彙」(※)は違ってきます。洋蘭の話題を書くとカタカナの出現比率が高くなるのが一例です。
(※)字彙は勝手な造語で字の集合の意です。自慰じゃないよ。じゃがいもとも違います。当たり前か。

>例えば「日本よ何処へ」のコメント全体を母数にした場合、他の人があまり使わない
>語彙を使う人は、それを構成する文字のレア度が高くなるので、同一人物である可能
>性を見いだすことができると思うんだけど、

はい。レア度が高くなると思います。尤も、レア度が高い文書同士が近いという保証はありません。この方法では、ある母体に対する一次元の距離しか測れないので、どっちの向きに遠いかは分からないのです。

>「日本よ何処へ」におけるレア度の低い
>文章を書く人は、特徴のある文字が少ないのだから、同一人物であることを見抜かれ
>る可能性も低くなってしまうのかな。

平凡な文字を使っていて字彙に特徴がないとしても、文字の使用頻度まで考慮すれば特徴は出てくる可能性があると期待してます。ただ、現状は、最終的に文書レア度という一つの数値に丸めてしまっているために、頻度分布の特徴が無視されてしまいます。

この課題の解決策として、文書と文書の間の「距離」を定義して、その距離が近いもの同士をまとめていく方法がありそうです。これは、クラスタ分析と呼ばれる統計手法の適用です。
例えば、文書Aの頻度分布と文書Bの頻度分布を引き算した差を使ってみる案があります。字彙が同じで各文字の出現率も同じ場合に差はゼロとなりますが、字彙が同じでも各文字の出現率に差がある場合には差が現れます。
ただ、こういう事をすると、同じ書き手の文書であっても内容によって距離が遠くなってしまうかもしれません。この辺、全く直感が働かないので、実験を積み重ねる必要がありそうです。いや~遠大な道に踏み込んでしまったかも。

また、以下のような別の観点でのアプローチも考えられます。

  • レア度の評価尺度を文書数ではなく文字数に変える。文書数の評価では、100文書あると100倍くらいの差しかつかないが、文字数の評価では1万倍くらいの差がつきうる(1文書に100文字あれば1万字。この中に1つの文字であれば1万対1になる)。
  • 単一の文字ではなく、2つの文字の繋がりの頻度を評価する。例えば、「2つの文字」を「2つ」「つの」「の文」「文字」という4つの切片に分けて頻度分析する。

グーの根、じゃなかった、グーグルで検索して発見したのですが、同志社大学の金明哲教授のページには統計的なテキスト解析について様々な研究成果が紹介されています。

この中には、泉鏡花と岡本綺堂の作品に表れる「と、」の頻度を評価した話も載っていました。毎日のように新しい発見があり、寝不足な日々が続きます。今日はこの辺でおやすみなさい。

|

« テキスト処理の道具達(1):Webページの収集ツール | トップページ | テキスト処理の道具達(2):秀丸でGrep »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1109195/25036527

この記事へのトラックバック一覧です: 文字レア度と文書レア度(2):

« テキスト処理の道具達(1):Webページの収集ツール | トップページ | テキスト処理の道具達(2):秀丸でGrep »