最近、WEBのまとめ記事が多いので、どのように収集しているのか、調べてみた。
その中で、「スクレイピング」というキーワードがあったので、ちょっと深入りしてみた。
参考にしたのは「
phpによるスクレイピング処理入門」
そもそも、スクレイピングとは、WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形し直すことだそうです。
この技術を使えば、車の画像だけを集めるとか、いろいろ応用ができそうです。
この入門で苦労した点を整理しておきます。
1.PHP: Tidy 関数の設定
phpinfo();で見たときに存在しなかったため、設定の必要がありました。
C:\xampp\phpにあるPHP.INIから「;extension=php_tidy.dll」を探して「extension=php_tidy.dll」
と修正して保存します。(先頭の「;」をとるだけ)
次にXAMPPのApacheを再起動(下図の赤枠「STOP」をクリック後「START」をクリック)します。
この後、phpinfo();で見ると出来上がっています。
2.サンプルソースの不具合
「4. Webサイトの情報取得方法」に記載のソースを一部修正
07.<title>phpによるスクレイピング処理入門:はてなブックマークの情報を取得
→</title>を追加
07.<title>phpによるスクレイピング処理入門:はてなブックマークの情報を取得 </title>
phpによるスクレイピング処理入門:はてなブックマークの情報を取得
注”<”は、わざと全角にしてあります。
11.define(INIT_URL , "http://b.hatena.ne.jp/");
→INIT_URLをダブルコーテーションではさむ
11.define("INIT_URL" , "http://b.hatena.ne.jp/");
以上です。
ちなみにPHPのバージョンは5.3.1です。