Home > 備忘録 > 言語関連 > 言語共通 > web page のソース読み込み( 47 )
下記のようにすると、大概の web page のソースを文字化けさせないで読込む事ができる
require "open-uri"
url="http://kakaku.com"
html = open(url).read
h="UTF-8"
#p Encoding.name_list #エンコーディング名の一覧
for hh in ["UTF-8","Shift_JIS","EUC-JP","ASCII","ISO-2022-JP"]
begin
html.encode("UTF-8",hh)
h=hh
rescue
#rescue Encoding::UndefinedConversionError
#エンコーディング変換後の文字が存在しない場合に発生
#rescue Encoding::InvalidByteSequenceError
#文字列がそのエンコーディングにおいて不正なバイト列である場合に発生
end
end
html.encode!("UTF-8",h)
puts html$url="http://kakaku.com"
$html = file_get_contents($url);
mb_language("Japanese");
$html = mb_convert_encoding($html,"utf8","auto");
print $htmluse LWP::Simple;
$url="http://kakaku.com"
my $html=get($url);
print $htmlimport urllib2
import lxml.html
url="http://kakaku.com"
f=urllib2.urlopen(url)
html=f.read()
html=lxml.html.fromstring(html)
html=lxml.html.tostring(html,encoding="utf-8")
print html