朝日新聞の 特定秘密保護法案のアンケート結果を分析する
概要
現在、朝日新聞が特定秘密保護法案のアンケートを行っている。
賛成、反対、日本の安全が脅かされているか否かが選択でき、コメントも入力できる。

今回は、コメントを形態素解析して、反対・賛成、日本の安全が脅かされているか否かのそれぞれの立場で、使用する単語にどのような特徴がでるか調べるものとする。

Excelによる形態素解析が必要なので、NMecbComを以下からダウンロードしてインストールすること。
NMecabを用いてVBAやWSHで形態素解析を行なう


以下に集計を行ったExcelを添付する。

Excel analyzeAsapi.xlsm





手順
アンケート結果については、下記のURLからすべて取得することが可能である。
http://www.asahi.com/topics/yonshogen/esi/result_himitsu.txt


実際のコメントの取得はMSHTMLでおこなうものとする。
文字データをHTMLDocumentにわたすのには癖があるので気をつけること。

下記のコードは動作しない。
    Dim htmDoc = New HTMLDocument
    htmDoc.Open
    htmDoc.write txt ' ここでエラーとなる。
    htmDoc.Close

インターフェイスに不備があるようだ。以下のようにIHTMLDocumentを用いなければならない
    Dim htmDoc As IHTMLDocument
    Set htmDoc = New HTMLDocument
    htmDoc.Open
    htmDoc.write txt
    htmDoc.Close


HTMLを解析してコメントが取得できたら、それを形態素解析して、マス目ごとに単語の発生頻度を記録する。

全てのマス目のすべての単語の発生頻度を取得できたら、tf-idfを計算してもとめる。
これは、TF-IDFによる2013年参議院選挙のパンフレットの解析でおこなったものである。


入門ソーシャルデータに詳しく記述されている。

全てのマスを比較するのは無理なので四隅を行う。


四隅の比較
以下は4隅のbo1,bo10,box91,bo100において、tf-idfのスコアが高いものを15件取得している。
この際、「あれ」「これ」「する」といった明確に特徴を表さないデータについては排除してある。

box1  日本の安全が脅かされていると感じる 
反対             賛成
box10

単語 tf-idf   単語 tf-idf
1 国民 0.029289   日本 0.035733
2 法案 0.025174   スパイ 0.029264
3 秘密 0.023945   反対 0.023482
4 日本 0.022041   必要 0.021957
5 反対 0.020103   法案 0.020747
6 絶対 0.014605   0.019676
7 主義 0.01408   マスコミ 0.018478
8 政府 0.013447   賛成 0.016542
9 情報 0.013252   安全 0.015648
10 0.013015   報道 0.015599
11 0.012309   中国 0.015301
12 知る 0.011785   情報 0.015288
13 戦争 0.011541   0.015217
14 安全 0.011535   機密 0.015087
15 民主 0.011427   0.014653







box91  日本の安全が脅かされていると感じない
反対             賛成
Box100

単語 tf-idf   単語 tf-idf
1 国民 0.028202   スパイ 0.041069
2 秘密 0.024446   反対 0.035507
3 法案 0.022   日本 0.031701
4 日本 0.021464   法案 0.026586
5 0.018063   必要 0.025163
6 反対 0.015634   マスコミ 0.023247
7 0.014711   賛成 0.023101
8 安全 0.014344   朝日新聞 0.022689
9 脅かす 0.013222   報道 0.020444
10 主義 0.013189   知る 0.019685
11 政権 0.012494   0.018597
12 法律 0.012422   0.018285
13 戦争 0.012392   守る 0.017744
14 保護 0.012032   防止 0.017411
15 民主 0.011896   0.015519

賛成派は「スパイ」の存在を危惧している
日本の安全が脅かされていると思う賛成派は「中国」を具体的な脅威としている。
賛成派は「マスコミ」「報道」「朝日新聞」といったメディアに懐疑的であった。


反対派は「民主」「主義」に重きを置いている
反対派の脅威を感じる層は、この法案により「政府」「政権」が「国民」の「安全」を脅かすようになると認識している。
反対派の脅威を感じない層はマスコミが外国の脅威を煽り立てており、日本は今安全であるという認識である。
反対派はこの法案により「戦争」のできる国になり、「戦前」のような「軍国主義」になってしまうことを恐れている。



「反対」という言葉は4者ともにあるが、その意味は違う。
反対派は「絶対」にこの法案は「反対」という文脈で使っている。
賛成派は「反対」を行う人間、マスコミなどにたいしての疑問を投げかける時に使用している。

おそらく単語のみ見た場合の限界であり、これ以上はCabochaなどの係受け解析をおこなわなければならないであろう。



賛成派に見て取れる思考として、「今」までは「日本」は平和ではない、あるいは「安全」にリスクを抱えており、この法案により「安全」に近づくと考えているようだ。


反対派は逆で、今は日本は「平和」であり、それを「何で」「何故」かえようとするのかが理解できない。それゆえ、現状の平和を壊すものとして「戦争」や「軍国主義」が連想されることになる。


ここは青山参考人が戦後の平和について、「現状でよしとするなら、拉致被害者は日本国民じゃないのか?」と今国会で訴えていたが、少なくとも、このアンケートで反対に票を投じた方は、「拉致」という言葉すら使わなかったので・・・




[PR]
by mima_ita | 2013-11-28 18:55 | VBA
<< twitteRを久しぶりに使用... Excel VBA でニコニコ... >>



実験ですお
検索
カテゴリ
最新の記事
.NET4.5におけるasy..
at 2014-07-02 00:46
.NETでTwitterを検..
at 2014-06-29 00:49
Redmineのプラグインで..
at 2014-06-28 03:29
IO.popenのwrite..
at 2014-06-28 03:25
RedmineのWikiでU..
at 2014-06-28 03:16
以前の記事
最新のトラックバック
その他のジャンル
ブログパーツ