世の中のWeb1.0サイトをWeb2.0化
進化する“Webスクレイピング”技術の世界
2007/02/20
WebサービスのAPIやRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogle、Yahoo!、楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLやCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術が急速に発展してきているようだ。
HTMLをXML化し、XPathで関連データだけを抽出
例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレイアウト情報を付加したHTMLドキュメントのみ。HTMLは、Webブラウザが解釈して表示することで人間の目には分かりやすいが、コンピュータの自動処理にはなじみにくい。正規表現などの文字列処理を使い、ヒューリスティックに抽出処理を書き下すしかない。それは多くの場合、「関係する情報の始まりを示す特定の文字列から、終わりの文字列に挟まれた特定のタグのうち、特定の正規表現にマッチするもの」といった面倒な処理になる。
もう少し楽な方法は、HTMLドキュメントをツリーとして扱うことだ。処理対象のHTMLは、いつも必ずしも整形式のXHTMLというわけではないが、非整形式のHTMLでも、できる限り整合的な形でXML化するRuby向けライブラリとして「HTree」や「Hpricot」というものが存在する。
ツリー構造であれば、泥臭い文字列処理は多少軽減される。さらに、HpricotではXPathを用いたクエリが使えるので、例えばHTMLドキュメントに含まれるアンカータグのうち、属性としてクラスに“l”が指定されているものを抽出するといったことが、たった1行の指定でできる。これは、Googleの検索結果からリンク部分だけを抜き出す指定だ。
CGIフォームにも対応し、ナビゲーションも自動化
多くの有用なデータは、Webサーバのバックエンドにあるデータベースに格納されている。ユーザーはWebのフォームを使い、必要なデータを引き出す。こうしたWebサーバと人間のやりとりを自動化するツールが、PerlやRuby向けに公開されている。「WWW::Mechanize」は、そうしたツールの1つで、ごく簡単なコマンドの羅列で、指定URLにアクセスし、テキストボックスに文字列を入力、続いてリンクをクリックしたり、次ページに移動したりといった処理を自動化できる。
これまで、こうしたWebスクレイピング関連のツールは個別に開発されてきたが、2月9日に一般向けリリースが初公開された「scRUBYt! 0.2.0」は、Webスクレイピング技術の集大成のようなフレームワークだ。名前が示すとおり、scRUBYt!はRuby向けのツールを組み合わせもので、HpricotとWWW::Mechanizeを統合し、さらにXPathよりも人間に分かりやすい構文が使えるようにしたもの。
scRUBYt!を開発したPeter Szinek氏によれば、データベースに対してSQLクエリを発行するような感覚で、WebサイトのHTMLドキュメントを扱えるようになるという。同氏はWebスクレイピングを解説する自身のサイトで、「Webを機械可読の世界にする試みとしてセマンティックWebやオントロジー、タクソノミーなどさまざまな努力があり、すでに有望な結果が出始めている分野もあるが、Webの世界全体がそうした“フレンドリーな世界”になるのは、楽観的に見てもWeb88.0になるころではないか」と皮肉な見解を述べている。
関連記事
情報をお寄せください:
- プログラムの実行はどのようにして行われるのか、Linuxカーネルのコードから探る (2017/7/20)
C言語の「Hello World!」プログラムで使われる、「printf()」「main()」関数の中身を、デバッガによる解析と逆アセンブル、ソースコード読解などのさまざまな側面から探る連載。最終回は、Linuxカーネルの中では、プログラムの起動時にはどのような処理が行われているのかを探る - エンジニアならC言語プログラムの終わりに呼び出されるexit()の中身分かってますよね? (2017/7/13)
C言語の「Hello World!」プログラムで使われる、「printf()」「main()」関数の中身を、デバッガによる解析と逆アセンブル、ソースコード読解などのさまざまな側面から探る連載。今回は、プログラムの終わりに呼び出されるexit()の中身を探る - VBAにおけるFileDialog操作の基本&ドライブの空き容量、ファイルのサイズやタイムスタンプの取得方法 (2017/7/10)
指定したドライブの空き容量、ファイルのタイムスタンプや属性を取得する方法、FileDialog/エクスプローラー操作の基本を紹介します - さらば残業! 面倒くさいエクセル業務を楽にする「Excel VBA」とは (2017/7/6)
日頃発生する“面倒くさい業務”。簡単なプログラミングで効率化できる可能性がある。本稿では、業務で使うことが多い「Microsoft Excel」で使えるVBAを紹介する。※ショートカットキー、アクセスキーの解説あり
|
|
キャリアアップ
- - PR -
転職/派遣情報を探す
「ITmedia マーケティング」新着記事
「AIによる顧客体験(CX)向上」に懐疑的な見方が広がる――Qualtrics調査
Qualtricsが実施した年次グローバル調査から見えたカスタマーエクスペリエンス(CX)の現...
2025年のSNS大予測 AIの時代に「ソーシャル」はどう変わる?
もういくつ寝ると2025年……と数えるのはさすがに気が早いかもしれないが、それでも2024...
SEOで陥りがちな失敗は「アルゴリズム変更に対応できなかった」が最多に 原因は?
SEOの成功には何が必要なのか、失敗経験者へのアンケートで浮き彫りになったこととは……。