« 『日本よ何処へ』の記事内容比較(10月19日→23日)(追記あり) | トップページ | 東村山市民新聞の文字レア度によるコメントの文書レア度評価 »

文字レア度と文書レア度

先日の記事「Google SpreadSheetで東村山市民新聞の字数カウントやってみた(追記2あり)」で、その題名の通り、東村山市民新聞で使われている文字を数えてみました。
これは、一群のWebページやらブログのコメントやらの文書を、その利用文字の傾向から分類できないかと考えたからです。インターネットで調べてみると、どうやら私のやりたいのはクラスタ分析と言われている事のようです。クラスタ分析の初心者向けの解説を読むと、まずは文書と文書の間の距離(どれだけ文書が類似/相違しているかの指標)を定義する必要がありそうです。
この準備のために、今回は、文字のレア度と文書のレア度を定義して計算してみる事にしました。

「文字レア度」は、文字毎に以下のように定義しました。

文字レア度= (総文書数-該当文字の出現する文書数)/総文書数

例えば、100個の文書があったとして、全部の文書に出現する文字の文字レア度は、(100-100)/100 = 0 % となります。全く珍しくないという事です。
逆に、どの記事にも出現しない文字の文字レア度は、(100-0)/100 = 100 % となります。30文書に出現する場合には、(100-30)/100 = 70 % です。
その文書群にとって珍しい字であればあるほど文字レア度は高くなります。

文字レア度を使って、「文書レア度」を、文書毎に以下のように定義しました。
文書レア度= (Σ文書中の文字のレア度)/文書中の文字数
(Σは総和を表す)

つまり、文書レア度とは、その文書に現れる文字の平均的なレア度です。一群の文書の中で、全体から見ると「そぐわない文書」ほどレア度が高くなると考えました。

先日の記事のデータを使って、東村山市民新聞のWebページ毎の文書レア度を計算してみた結果を示します。

これを見ると、結構直感にあった結果が得られているように思います。
文書レア度が高い文書は、目次であったり、洋蘭の紹介であったり、法律や判例の引用が多いものであったりします。逆に、文書レア度が低い文書は、いかにもこのサイトに載りそうな文書だと思うのは私だけでしょうか。

|

« 『日本よ何処へ』の記事内容比較(10月19日→23日)(追記あり) | トップページ | 東村山市民新聞の文字レア度によるコメントの文書レア度評価 »

文字分析」カテゴリの記事

コメント

ちょっと目を離しているうちに、もうそんなところまで。

現状でわかるのは、特別な意図、特別な事情のある文章は別にして、個人の文章は安定感があって、どうしても個性が出るらしいってことですね。

例えば「日本よ何処へ」のコメント全体を母数にした場合、他の人があまり使わない語彙を使う人は、それを構成する文字のレア度が高くなるので、同一人物である可能性を見いだすことができると思うんだけど、「日本よ何処へ」におけるレア度の低い文章を書く人は、特徴のある文字が少ないのだから、同一人物であることを見抜かれる可能性も低くなってしまうのかな。それとも、低いなら低いで、それが同一であることの根拠になるのかな。よくわからん。

それとこの場合、多くのコメントを書いている人の数値が母数に影響してしまうので、コメントの少ない人ほど、レア度が高くなりやすいような気が。「東村山市民新聞」で言うと、洋らんのページが十倍くらいに増えると、洋らんのページのレア度が下がりますよね。

コメント欄の場合、全体がでかいので、そこまでの影響はないのか。

なんにしても面白いですね。

投稿: 松沢呉一 | 2008年10月30日 (木) 18時28分

何度もすまん。

新聞記事か何かを固定の基準して、それとの比較でレア度を出せばいいのですね。そうすると、ある文章固有のレア度、つまり特性をブレない数値にできて、別の場で書かれた文章でも、比較が容易になります。もうそれに着手しているかもしれないけど。

投稿: 松沢呉一 | 2008年10月31日 (金) 18時17分

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1109195/24827312

この記事へのトラックバック一覧です: 文字レア度と文書レア度:

« 『日本よ何処へ』の記事内容比較(10月19日→23日)(追記あり) | トップページ | 東村山市民新聞の文字レア度によるコメントの文書レア度評価 »