SyntaxHighlighter

2012年12月12日水曜日

スクレイピング

最近、WEBのまとめ記事が多いので、どのように収集しているのか、調べてみた。
その中で、「スクレイピング」というキーワードがあったので、ちょっと深入りしてみた。

参考にしたのは「phpによるスクレイピング処理入門


そもそも、スクレイピングとは、WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形し直すことだそうです。

この技術を使えば、車の画像だけを集めるとか、いろいろ応用ができそうです。

この入門で苦労した点を整理しておきます。

1.PHP: Tidy 関数の設定
 phpinfo();で見たときに存在しなかったため、設定の必要がありました。

 C:\xampp\phpにあるPHP.INIから「;extension=php_tidy.dll」を探して「extension=php_tidy.dll」
 と修正して保存します。(先頭の「;」をとるだけ)
 次にXAMPPのApacheを再起動(下図の赤枠「STOP」をクリック後「START」をクリック)します。
 

 この後、phpinfo();で見ると出来上がっています。



2.サンプルソースの不具合
 「4. Webサイトの情報取得方法」に記載のソースを一部修正
 07.<title>phpによるスクレイピング処理入門:はてなブックマークの情報を取得
→</title>を追加
 07.<title>phpによるスクレイピング処理入門:はてなブックマークの情報を取得 </title>phpによるスクレイピング処理入門:はてなブックマークの情報を取得  
注”<”は、わざと全角にしてあります。

 11.define(INIT_URL , "http://b.hatena.ne.jp/");
→INIT_URLをダブルコーテーションではさむ
 11.define("INIT_URL" , "http://b.hatena.ne.jp/");

以上です。
ちなみにPHPのバージョンは5.3.1です。



0 件のコメント:

コメントを投稿