画像データをキーワード検索で効率的に収集する方法（Python「icrawler」のBing検索）：AI・機械学習のデータセット辞典

Bingキーワード検索による画像データの収集を、Pythonライブラリのicrawlerを使って簡単に行う方法を紹介する。たった3行のコードで非常にシンプル。

» 2020年10月28日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　機械学習などで画像データを使いたい場合に、既存のオープンデータセットを活用できれば手軽に済む。しかし既存のものが存在しない場合には自分でデータセットを作る必要があるだろう。画像を集める際に活用したいのがWeb検索エンジンではないだろうか。

　実際にGoogleなどで画像検索を行って1つずつ手動で収集することも不可能ではないが、できればプログラムを使ってある程度は自動化したい。そのようなニーズにマッチするPythonライブラリ「icrawler」があるので、本稿ではその使い方を紹介する。

icrawlerパッケージのインストール

　GitHub上でhellock氏によりオープンソース開発されているicrawlerはWebクローラーのミニフレームワークであり、BingやBaiduなどの検索エンジンに対応している（※元々はGoogleにも対応していたが、2020/10/26執筆時点ではエラーが出て使用できない）。またicrawlerは、PyPIパッケージとして配布されており、Python環境で手軽にインストールできる（リスト1）。

!pip install icrawler

リスト1　icrawlerパッケージのインストール（Jupyter環境の場合）
※通常のコマンドライン環境では、先頭の!は不要。

　図1はリスト1のコードを、Windows上のVisual Studio Code（以下、VS Code）における［ターミナル］で実行した結果である。

図1　icrawlerのインストール結果（Windows上のVS Codeでの例）

　それではさっそく使ってみよう。

icrawlerライブラリの使い方（Bing編）

　本稿では、icrawlerを使って「sunflower（ひまわり）」の画像をBing検索してみる。そのコードは、リスト2のように非常にシンプルだ。

# Bing用クローラーのモジュールをインポート
from icrawler.builtin import BingImageCrawler

# Bing用クローラーの生成
bing_crawler = BingImageCrawler(
    downloader_threads=4,           # ダウンローダーのスレッド数
    storage={'root_dir': 'images'}) # ダウンロード先のディレクトリ名

# クロール（キーワード検索による画像収集）の実行
bing_crawler.crawl(
    keyword="sunflower ひまわり",   # 検索キーワード（日本語もOK）
    max_num=100)                    # ダウンロードする画像の最大枚数