« 東村山市民新聞の文字レア度によるコメントの文書レア度評価 | トップページ | 文字レア度と文書レア度(2) »

テキスト処理の道具達(1):Webページの収集ツール

私が試みているテキスト解析に使っているプログラムや利用ツールの方も徐々に紹介して行こうと思います。
尤も、ちゃんとしたプログラムや真っ当なスクリプトは書いていませんので、正しさの保証はこれっぽっちもありません。間違った所があればご教示ください。

まずは、対象となるHTMLファイルを集めるツールです。処理する際にいちいちネットワークにアクセスすると、非効率だし対象となるファイルが確定しないので、最初に一群のファイルをPC上に収集してから集計などの処理をしています。

この収集のためにgetHTMLというフリーウェアを使わせて貰ってます。GUIが付いた版もあるようですが、私はコマンドプロンプトから動かす方を使ってます。

例えば、『日本よ何処へ』のHTMLを全部取得するには、コマンドプロンプトから以下のコマンドを入れればOKです。
gethtml.exe "http://blog.livedoor.jp/the_radical_right/"

以下のようなフォルダ構造が自動的に作られ、LivedoorサイトにあるHTMLファイルが粛々と収集されてきます。
\blog.livedoor.jp\the_radical_right\archives

但し、このコマンドの実行には時間が必要です。『日本よ何処へ』の場合はファイル数が多いので小一時間くらいかかるかもしれません。むやみに高速化するとLivedoorサーバに迷惑がかかるので、ある程度の遅延を入れて収集しているのだと思います。

東村山市民新聞もスタティックなWebページから構成されているので以下のコマンドで収集できます。

getHTML.exe "http://www.geocities.jp/higashimurayamasiminsinbun/"

柳原滋雄氏のコラム日記の場合は、少し事情が異なります。

ここのサイトは、CGI-PLANTというサイトで配布されている「切って出し日記」というシステムを使っているらしく、CGIを呼び出さないと文書を見られません。こういうサイトでは、単にスタティックなリンクを辿るだけでは収集がうまく行きません。しかし、getHTMLは色々と賢い機能をサポートしているらしく、このサイトに対しては、getHTMLの"-b"オプションが有効でした。

getHTML.exe -b "http://www.yanagiharashigeo.com/kd_diary/"

但し、収集したHTMLを処理する方法はまだ考えてません。
この辺の話は、「柳原滋雄コラム日記-目次未満 PDF版 東村山編」を作られたTomatotic-jellyさんに先に伝えられれば良かったかもしれません。

|

« 東村山市民新聞の文字レア度によるコメントの文書レア度評価 | トップページ | 文字レア度と文書レア度(2) »

パソコン・インターネット」カテゴリの記事

コメント

うちは、コマンドが 使えないのでGUIの奴を使いました。あと巡収と言う奴も。
柳原さんのところは、手作業で泣きながら作業しました。
テキストの処理とかも覚えると楽なんでしょうけど、そちら方面は向いてないみたいです。覚えられません。

投稿: Tomatotic-jelly | 2008年11月 4日 (火) 01時55分

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1109195/24995947

この記事へのトラックバック一覧です: テキスト処理の道具達(1):Webページの収集ツール:

« 東村山市民新聞の文字レア度によるコメントの文書レア度評価 | トップページ | 文字レア度と文書レア度(2) »