« 東村山市民新聞の勝手な目次をGoogle SpreadSheetで作ってみた | トップページ | 『日本よ何処へ』の(勝手な)目次 »

Google SpreadSheetで東村山市民新聞の字数カウントやってみた(追記2あり)

東村山市民新聞の字数カウントを行うGoogle SpreadSheetを作ってみました。まだテスト中ですが、とりあえず公開して寝ることにします。

詳細は後日書きますが、全HTMLの中の本文の文字数をカウントした結果をXMLファイルに格納し、それをSpreadSheet内のimportXML関数を使って参照しています。このXMLファイルがある種のデータベースみたいに使えている訳です。ちなみに、ココログでアップロードできるファイルの大きさの上限は1MBとの事。なんとか収まりました。

一番上の行の右の方の欄に文字を入れると、その文字数が各HTMLファイル行の所に出てきます。N/Aはその文字がなかった事を表します。色々な文字を簡単に試してみられるのが良い点です。
ところが・・・Google SpreadSheetでは、importXMLの個数の上限は50との事。仕方ないので、最初から10ファイル分×5文字分を試してみました。

なんだかWebページとしての公開だと文字数の後ろに[n]という形のゴミが出るので、Google SpreadSheetのShareの形【非常に時間のかかるページなのでリンクを削除しました】で見ていただいた方が良いかと思います。申し訳ありませんが、後者の場合、アクセスしている人Googleにログインしていると、Googleアカウント名が同時にアクセスしている人やSpreadSheetのオーナー(私)には見えてしまうようです。アクセスする際にはそのリスクをご承知おきください。Googleからログアウトしてアクセスすれば、この問題は起こらないと思われます。

【追記:2008.10.26】
上記で行った方法ではGoogle SpreadSheetが遅くて使い物にならなかったですね。
わざわざ開いてみてくださった皆さんにもご迷惑をかけたかもしれません。ごめんなさい。

importXMLなど外部のデータを持ってこれる関数が充実しているのは良いのですが、アクセス処理の部分は基本的にブラウザに負荷がかかる仕組みになっているらしく、大きなデータを何度も取り出すと高負荷になりすぎてうまく行かないようです。

相変わらず大きくて見づらい事には違いありませんが、あらかじめ一覧表に仕立てたものを作ってみました。

以下のように処理してます。

  • 全文字をカウントして全文字数(273,662)に対する割合(出現頻度)を算出。
  • その出現頻度の小さい順に文字を並べる(下に行くほど出現頻度が高くなる)。
    (出現頻度が高い文字には特徴が出ないと考えた)。
  • 各ページの出現頻度も表示。
    (時々、全体の出現頻度に対して突出して大きい頻度の文字がある。これはそのページの文章を特徴付ける文字と言えるかもしれない)。
  • 出現頻度が0.01%未満の文字を削除(Google SpreadSheetのセル数上限に合わせるため)。
    (余りに出現頻度が小さい文字は傾向分析には意味が乏しいと考えた)。
  • index.htmlは特殊な位置づけ(目次)のページなので削除。但し、全体の文字カウントの中には含めている。

一覧は作ったものの、ここから何が導けるかは分かってません。

ちなみに、何が書かかれた記事なのかを調べたいときには、ファイル名を載せた記事の一覧が役立つのではないかと思います。

【追記2:2008.10.27】

出現した全文字の文字数を別の表に載せました。

  • 文字出現率:「その文字の総数」を「全文字の総数」で割った率です。
    一位の「の」は1万回も書かれていて、100文字に3.7文字は「の」です。
  • 記事出現率:「その文字が出現した記事の数」を「全記事の数(175)」で割った率です。
    率の高低に応じて色を付けてみました。例えば、「育」「園」は記事出現率は20~21%と低いのですが、文字出現率は0.2%と結構高い位置にあります。この字が出てくる時には複数回書かれる事が多いのでしょう。
    「!」の記事出現率は73%です。文字出現率0.19%付近でこれだけ高い文字は珍しいという事が分かります。
    「戻」の記事出現率が高いのは、たぶん各ページの最後の方に「戻る」といった表示が出ているためではないかと思います(未確認)。

これから何が分かるのかサッパリ分かりませんが(笑)、何か面白そうではあります。次の課題は、例えばコメント主ごとに使っている文字分布にどういう差が出るか調べてみる事でしょうか。どこにたどり着くんだ、この道は?

【追記:2008.11.16】

Google Spread Sheetで作ったページは余りに時間がかかり過ぎるので削除しました。リンクを辿って遅い思いをされたみなさん、すみませんでした。なお、現状残してあるリンクページもかなり重いです。

|

« 東村山市民新聞の勝手な目次をGoogle SpreadSheetで作ってみた | トップページ | 『日本よ何処へ』の(勝手な)目次 »

文字分析」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1109195/24641529

この記事へのトラックバック一覧です: Google SpreadSheetで東村山市民新聞の字数カウントやってみた(追記2あり):

« 東村山市民新聞の勝手な目次をGoogle SpreadSheetで作ってみた | トップページ | 『日本よ何処へ』の(勝手な)目次 »