データセット「浮世絵顔」(v1.0)について説明。1万6653枚の浮世絵の「顔画像データ+メタデータ(作品名や役者などの書誌情報)+アノテーションデータ(顔パーツと顔領域の座標データ)」が無料でダウンロードでき、画像認識などに利用できる。データセットをダウンロードできるPythonファイルについても紹介。
ARC浮世絵顔データセット(以下、浮世絵顔)は、浮世絵の「顔」画像データセットである(図1)。このデータセットには、浮世絵に関する作品名/役者/版元/絵師/上演年などの書誌情報といったメタデータと、目/口/鼻などの顔パーツと顔領域の座標データ(=機械学習で自動抽出した結果)といったアノテーションデータが含まれる。
浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築する(デジタル浮世絵研究)という目的で、ARC(立命館大学アート・リサーチセンター)によって元となる浮世絵画像とそのメタデータ(図2)が提供され、人文学オープンデータ共同利用センター*1によって浮世絵顔データセットとそのアノテーションデータ(図3)が作成された。
*1 データサイエンス共同利用基盤施設(ROIS-DS)のデータ共有支援事業の一つである「人文学オープンデータ共同利用センター(CODH:Center for Open Data in the Humanities)」では、日本の古文書から抽出したさまざまなデータセットを公開している。データセットのオープン化を推進することで「データサイエンスに基づく人文学(人文情報学)」という新たな学問分野の創出などを目指している。
2021年6月現在の最新バージョンv1.0における浮世絵顔データセット全体は(9203件の浮世絵画像から抽出した)、
で構成される。
作成する顔画像のサイズはカスタマイズできる。後述するコマンド指定例では256pxの正方形、明示的に指定しない場合は512pxの正方形となる。
浮世絵顔はCC BY-SA 4.0ライセンスとなっている。
データセットに関する研究内容を参照する際に使える論文情報を以下にまとめておく。
実際に浮世絵顔を使うには、
に含まれるarc_download.py(Pythonファイル)を利用して、まずはARC浮世絵画像をダウンロードする。
なお、GitHubリポジトリに含まれるPythonファイルを実行するには、事前準備として、
pip install -r requirements.txt
を実行しておく必要がある。その後、
python3 arc_download.py
を実行すればよい。さらに、
python3 face_extract.py \
--images_dir ./scratch/arc_images/ \
--face_landmarks_file ./scratch/arc_face.csv \
--arc_metadata_file ./scratch/arc_metadata.csv \
--new_images_dir ./scratch/arc_extracted_face_images \
--new_face_landmarks_file ./scratch/arc_extracted_face_face.csv \
--new_arc_metadata_file ./scratch/arc_extracted_face_metadata.csv \
--new_size 256 \
;
を実行することで、顔部分を抽出して視覚化できる。これにより、浮世絵顔の画像群が抽出できる仕組みである。※つまり、顔画像は最初から加工されているわけではなく、手元で自動処理により加工することになる。
その他にも以下のようなPythonファイルが提供されており、さまざまな画像処理を自動化できる。
また、メタデータやアノテーションデータは以下のようなCSVファイルで提供されている。
メタデータやアノテーションデータの詳細、また上記のデータセットの拡張についてはGitHubリポジトリを参照してほしい。
Copyright© Digital Advantage Corp. All Rights Reserved.