人気ブログランキング | 話題のタグを見る
PythonでXpathを利用したHTMLの操作
urlib2で取得した内容をlxmlに渡して遣ればよろしい。


# -*- coding: utf/-8 -*-
# lxmlのインストール
# easy_install lxml
import urllib2
import lxml.html
import codecs
import datetime, time
import sys

def download(url):
html = ""
for line in urllib2.urlopen (url):
html = html + "\n" + line
html = html.replace("\r","\n")
root = lxml.html.fromstring(html)
contents = root.xpath('//dd')
for content in contents:
print content.text_content().encode('utf-8')

html = sys.argv[1]
download(html)



■使用例:
2chの内容を落としてCabochaによる係り受けの解析をする
http://needtec.sakura.ne.jp/serif/main.py?Analyze2ch
by mima_ita | 2013-06-11 17:24 | python
<< R言語でTwitterを操作する CaboChaを使ってツイート... >>



実験ですお

by mima_ita
検索
カテゴリ
最新の記事
.NET4.5におけるasy..
at 2014-07-02 00:46
.NETでTwitterを検..
at 2014-06-29 00:49
Redmineのプラグインで..
at 2014-06-28 03:29
IO.popenのwrite..
at 2014-06-28 03:25
RedmineのWikiでU..
at 2014-06-28 03:16
以前の記事
最新のトラックバック
その他のジャンル
ブログパーツ