データセット「Food-101N」について説明。31万9枚、101種類の料理カラー写真(アップルパイや餃子など)の「画像+ラベル」データが無料でダウンロードでき、ラベルノイズ問題の研究や画像認識などのディープラーニングに利用できる。
Food-101Nデータセット(以下、Food-101N)は、101種類の「料理カラー写真」(アップルパイや餃子など)の画像データセットであるFood-101を拡張したバージョン、具体的には分類のラベル(=正解を示す教師データ)にノイズが多い(=約20%の分類ラベルが間違っている)バージョンである(図1)。Food-101Nは、「(人間による正確なラベル付けを極力なくした場合の)ラベルノイズを解決する学習のためのデータセット(A Dataset for Learning to Address Label Noise)」と説明されており、基本的な用途が限定されているが、名前からFood-101と混同しやすいため簡単に紹介しておくことにした。
101種類のラベル名とインデックス番号は、Food-101と同じなので、記事「Food-101:料理カラー写真(アップルパイや餃子など)の画像データセット:AI・機械学習のデータセット辞典 - @IT」を参考にしてほしい。
Food-101Nデータセット全体は、
で構成される。全ての画像は、24bit RGBフルカラー画像で、辺(=幅と高さ)の最小長が320pxになるように再スケーリングされている(※Food-101は最大長が512pxだったので仕様が異なる)。
より詳しくは、
を参照してほしい。
このデータセットは、人工知能発展のための非商用研究目的において自由に使用できる(※ライセンスは指定されていない。著作権は放棄していないものと考えられる)。
引用情報を以下にまとめておく。
実際にFood-101Nを使うには、
からダウンロードすればよい(約8GB)。対応するライブラリはないので、自らロードするコードを記述する必要がある。
Copyright© Digital Advantage Corp. All Rights Reserved.