<   2013年 07月 ( 4 )   > この月の画像一覧
TF-IDFによる各政党のホームページの解析 その3
つづき:
TF-IDFによる各政党のホームページの解析 その1 
TF-IDFによる各政党のホームページの解析 その2

More
[PR]
by mima_ita | 2013-07-22 09:03 | 実験
TF-IDFによる各政党のホームページの解析 その2
TF-IDFによる各政党のホームページの解析 その1の続き

More
[PR]
by mima_ita | 2013-07-22 09:01 | 実験
TF-IDFによる各政党のホームページの解析 その1
測定の概要
各政党のホームページより全てのリンクをたどり、そのHTMLからテキストとして抜き出して単語を抽出する。
この単語の出現頻度をtf-idfにより取得する。
この単語のスコアを元に書く文章の類似度の比較と考察を行なう。

処理の手順
前回の1党、1つのPDFとことなり、データ数が多いので、一端、SQLITEに格納してから解析を行なう。
以下がコードとなる。
http://needtec.sakura.ne.jp/election/analyze_hp.zip

このプログラムを実行するにはPython2.7とMecab(UTF-8)が必要である。

1.トップページよりリンクをたどり、特定のドメインにリンクしているHTMLを全てぬきだす。
 この際、PDFやExcelなどは無視をする。
 下記のコマンドを実行することにより、analyze_hp.sqliteのcategorysテーブルとpagesテーブルにデータを挿入する

 create_partys_db.py


2. DBに格納したページの情報からテキストを抜き出して、これをMeCabにより単語に分割して、その出現頻度をもとめ結果をDBに書き込む。
 下記のコマンドを実行することにより、analyze_hp.sqliteのpagesテーブルからページのデータを取得して、これをMeCabで分割して、その結果をtokensテーブルに格納する。その後、tokensのカテゴリと単語別に出現数を集計した結果をcounting_tokensテーブルに格納する。

 create_tokens.py


3. DBに格納してある単語の出現頻度からtf-idfを計算して、コサイン類似度にて政党間の距離をもとめる。
 下記のコマンドを実行することで、計算結果のreport_tf_idf_result.txtと政党間の距離をグラフであらわしたreport_tf_idf_result.pngが作られる。

 report_tf_idf_to_blog.py > report_tf_idf_result.txt


More
[PR]
by mima_ita | 2013-07-22 05:50 | 実験
TF-IDFによる2013年参議院選挙のパンフレットの解析
測定の概要

各政党のPDFのパンフレットから文章をテキストとして抜き出して単語を抽出する。
この単語の出現頻度をtf-idfにより取得する。
この単語のスコアを元に書く文章の類似度の比較と考察を行なう。


処理の手順

1.urllib2を用いて、HTTP経由でPDFを取得する
2.pdftotextを使用してPDFからテキストを抜き出す
3.MeCabを用いて文章から単語を分割する。
4.TF-IDFを使用して各文章の各単語のスコアを取得する
5.TF-IDFのスコアをもとに文章間のコサイン類似度を取得して各文章間の距離を求める
6.図として描画する


コード

http://needtec.sakura.ne.jp/election/analyze_hp.zip

以下のコマンドを実行する。
election_tfidf.py > election_tfidf_result.txt
election_tfidf_result.txt と election_tfidf_result.pngに結果がでる

Python2.7とMecab(UTF-8)がインストールされていることが前提です。



More
[PR]
by mima_ita | 2013-07-22 04:09 | 実験



実験ですお
検索
カテゴリ
最新の記事
.NET4.5におけるasy..
at 2014-07-02 00:46
.NETでTwitterを検..
at 2014-06-29 00:49
Redmineのプラグインで..
at 2014-06-28 03:29
IO.popenのwrite..
at 2014-06-28 03:25
RedmineのWikiでU..
at 2014-06-28 03:16
以前の記事
最新のトラックバック
その他のジャンル
ブログパーツ