« 文字レア度と文書レア度 | トップページ | テキスト処理の道具達(1):Webページの収集ツール »

東村山市民新聞の文字レア度によるコメントの文書レア度評価

前回の記事に企画部長から意見をいただいていながら、何も返事をしなくてすみません。

まずは、今日の題材を片付けてからと思いつつ、始めてみるとPerlのプログラム書きと計算に思わぬ時間がかかってしまいました。

ご意見に対しては、別稿で議論させていただくとして、今回は東村山市民新聞の文字頻度分布(文字レア度)を使って、『日本よ何処へ』ブログのコメントのレア度を計算した結果を報告します。

今回の場合、レア度と言うより、逆に考えて「適合度」と言った方が分かりやすいかもしれません。レア度が低いほど、文字のある種の使い方/選び方が東村山市民新聞と近い(東村山市民新聞に適合度が高い)と考えました。

評価対象は、『日本よ何処へ』の2008年の記事に対して付けられたコメントです。コメント主が同じコメントを一括りにして一つの文書とみなし、東村山市民新聞の文字レア度を使って、文書レア度を計算しました。

2008年に限ってもテキスト量が多くなるのと、文字数が少ないものは評価が難しいと考えたため、コメント主当りの文字数が1万以上のものだけを対象としました(コメント主数は105)。参考までに、コメント主当りの文字数一覧を載せました。

結果は文書レア度の低い順に並べた一覧ですが、予想に反するものとなりました。

ちゃんと検算してないので計算間違い残る可能性はご容赦ください。
レア度30%以下と高い適合度を示したのは「G」「瀬戸シンパは○○(表現自粛)」「大韓王」の3氏です。意外な結果でした。
批判的な論調に立つとレア度が低くなるのかとも思ったのですが、「せと弘幸」氏も8番目にあるので、必ずしもそういう訳ではないようです。

間違いの有無の検証がてら、評価の元となった文字レア度の定義を変えたりして再計算してみるつもりですが、今日はこれで終わります。ここまで来るのに丸2日くらいかかりました。データ量が増えてくるとExcelでは遅くて全然使い物にならないので、計算にも色々工夫が必要になってきます。

ちなみに、今回評価に使った文字レア度一覧はここに示します。東村山市民新聞の文書レア度の結果を見て、レア度の高い10文書をレア度計算の対象から外してあります。

|

« 文字レア度と文書レア度 | トップページ | テキスト処理の道具達(1):Webページの収集ツール »

文字分析」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1109195/24995305

この記事へのトラックバック一覧です: 東村山市民新聞の文字レア度によるコメントの文書レア度評価:

« 文字レア度と文書レア度 | トップページ | テキスト処理の道具達(1):Webページの収集ツール »