PHPでHTMLをパースして解析する簡単な方法

今、個人的に管理しているサイトのHTMLが正しく出力されているかを確認するためのスクリプトを書いています。そのために、出力されたHTMLを解析して、中に適切な情報が含まれているかを知る必要が出てきました。
そういうわけで、いわゆるスクレイピングのようなことをしたくなってきました。

HTMLの解析はなかなか大変
simplexml_load_stringでは解析できない。
HTMLを整形できるメソッドがあった
1. 整形前
2. 整形後
整形してからsimplexml_load_stringを使えば解析できる
連想配列にしてしまえばHTML内の要素を取り出すのも簡単
1. 文字化け対策

HTMLの解析はなかなか大変

これがJSONデータを解析するとかなら良いのですが、HTMLを細かく解析するのはなかなか大変です。
なぜなら、HTMLというのは結構みんな自由に書かれてしまっているからです。それでいて、そんな自由に書かれたHTMLもブラウザ上は動いてしまうため、それで良しとされてしまっている。時に中身は最悪だったりします。コンピュータが処理するには、厳密性に欠けるデータなんですね。

simplexml_load_stringでは解析できない。

「PHPに便利な関数ないかなー」と探していると、simplexml_load_stringという関数がありました。これは、XML文書をパースしてオブジェクト化する関数です。これで、HTMLも解析してくれないかな･･･と試してみます。

$html = file_get_contents('http://blog.katty.in/');
$xmlObject = simplexml_load_string($html);
var_dump($xmlObject);

結果としては惨敗。

bool(false)

失敗コードが返ってきました。HTMLで書かれているものって閉じカッコが無かったり、入れ子構造がおかしくなっていたりするので、仕方ないといえば仕方ない･･･。

HTMLを整形できるメソッドがあった

もう少し調べてみると、PHP5から追加されたクラスですが、 DOMDocument::loadHTML を使えば、HTMLをXMLとして適切に整形できるらしいことを知りました。

$domDocument = new DOMDocument();
$domDocument->loadHTML($html);
$xmlString = $domDocument->saveXML();

こんな感じで、HTMLを整形できます。

整形前






三度の飯とエレクトロン

整形後


ä¸‰åº¦ã®é£¯ã¨ã‚¨ãƒ¬ã‚¯ãƒˆãƒãƒ³

整形してからsimplexml_load_stringを使えば解析できる

そういうわけで、整形してからsimplexml_load_stringを使えば無事に解析することができました。

$html = file_get_contents('http://blog.katty.in/');
$domDocument = new DOMDocument();
$domDocument->loadHTML($html);
$xmlString = $domDocument->saveXML();
$xmlObject = simplexml_load_string($xmlString);
var_dump($xmlObject);

object(SimpleXMLElement)#2 (4) {
  ["@attributes"]=>
  array(2) {
    ["dir"]=>
    string(3) "ltr"
    ["lang"]=>
    string(2) "ja"
  }
  ["comment"]=>
  object(SimpleXMLElement)#3 (0) {
  }
...

連想配列にしてしまえばHTML内の要素を取り出すのも簡単

あとは煮るなり焼くなりですが、連想配列にしてしまえば更に簡単に扱えます。たとえば次のように、読み込んで解析したオブジェクトからheadタグ内のtitleタグ内の値を取り出せば、そのページのタイトルを取り出すなどできます。

$array = json_decode(json_encode($xmlObject), true);
echo $array['head']['title'];

三度の飯とエレクトロン

文字化け対策

XMLへの変換に関して文字化けが発生する場合があるようです。
DOMDocument::loadHTMLで文字化けする場合
一手間加えれば解決するので、それでも楽ですね。

TwitterでWPの情報を定期ツイートさせるためにやったこと | くろひつじのメモ帳より:

2014年4月21日 08:30

[…] て困った。次に試したのは、RSSがなくても表示されている状態（つまりHTML）をとってきて解析、という方法。参考）PHPでHTMLをパースして解析する簡単な方法 | 三度の飯とエレクトロン […]

返信
[PHP] ウェブスクレイピングに役立つHTMLパーサーの参考リンクまとめ | プログラマの雑記帳より:

2014年6月22日 04:31

[…] PHPでHTMLをパースして解析する簡単な方法 | 三度の飯とエレクトロン http://blog.katty.in/1400 […]

返信
[PHP] ウェブスクレイピングに役立つHTMLパーサーの参考リンクまとめ | noris blog より:

2014年9月2日 12:04

[…] PHPでHTMLをパースして解析する簡単な方法 | 三度の飯とエレクトロン http://blog.katty.in/1400 […]

返信
[PHP] ウェブスクレイピングに役立つHTMLパーサーの参考リンクまとめ | blog.noris.today より:

2014年11月17日 01:51

[…] PHPでHTMLをパースして解析する簡単な方法 | 三度の飯とエレクトロン http://blog.katty.in/1400 […]

返信
ついにiOSでも使えるようになったApp Indexingとは何か？ | 三度の飯とエレクトロンより:

2015年6月29日 01:35

[…] たとえば地味に人気のあるページである「PHPでHTMLをパースして解析する簡単な方法」を検索してみます。 […]

返信
PHPでHTMLをパース（オブジェクト化）して解析する簡単な方法 | ちびろぼ日記より:

2015年8月30日 21:39

[…] 参照サイト：http://blog.katty.in/1400 […]

返信