データセットが効率よく見つけられるPapers With CodeのDatasetsを紹介。各データセットのページでは、データセット利用に向くタスクや、ベストな性能を発揮するモデル、コードありの論文、各ライブラリのデータローダー、データセットの人気傾向などを確認できる。
最近、非常に有用な新しいデータセットの一覧サイトが登場したので紹介したい。
「Papers With Code」というサイトをご存じだろうか? さまざまなタスク(例えば画像分類やテキスト生成など)に対して現時点でベストな性能を発揮する「機械学習モデル」や、スターの多い「コードあり論文」などをランキング形式で紹介してくれる、無料でオープンなサイトである。
そのPapers With Codeに最近(2021/04/13)、「Datasets」というデータセット一覧サイトが追加されている。図1はそのトップページだ。
英語ではあるが、詳細な説明は要らないだろう。簡単に概説しておくと、中央には各データセットを利用する論文数順で人気のデータセットが一覧表示されている。
キーワード検索できるだけでなく、[Modality](モダリティ:データ種別)/[Task](タスク:問題種別)/[Language](言語)でフィルタリングできる。機械学習の際に「どのデータセットを使えばよいか」を悩むことはよくあると思うが、このランキング表示は非常に参考になるのではないだろうか。
図1のデータセット名(例えばImageNet)をクリック/タップしてページを開くと、図2のように表示される。
これも直観的に把握できると思うので、細かな説明は不要だと思う。ここではヒントだけ示しておくと、上部にデータセットの概要説明や画像枚数などが紹介されている。
その下の[Benchmarks](ベンチマーク)には、データセットを利用したタスクの一覧が表示されており、各行ではそのタスクにおけるデータセット(この場合ImageNet)利用の[Trend](人気)や、現在時点での[Best Model](ベストな性能を発揮するモデル)などが表示されている。
その下では、データセットを利用する[Papers](Paper With Code:コードあり論文)の一覧が、コードが格納されているGitHubリポジトリへのスター順で掲載されている(※ただし、TensorFlowなどの人気リポジトリにコードがある論文はスターが多くなってしまうという問題もある……)。
さらにその下では、データセットをロードするためのライブラリ機能(例えばPyTorch/TensorFlowなどのデータローダー)へのリンク集である[Dataset Loaders]や、データセットがよく利用されているタスクへのタグリンク集である[Tasks]、類似のデータセットの画像付きリンク集である[Similar Datasets]が表示されている。
右側にはサンプル画像や、利用数のグラフ、ライセンス、モダリティ、言語などが表示されている。特に利用数を参照することで、そのデータセットが人気を落としているか、上昇中か、継続維持しているかなどが分かりやすいので、今後の利用方針の参考にできるだろう。
Papers With CodeのDatasetsの登場と同時に、
も作成されている。新しいデータセットがツイートされているので、興味がある人は参考にするとよいだろう(ちなみに、筆者を中心に本フォーラムが運営する@DeepInsiderJPアカウントもあるので、見てみて参考になりそうであれば、ぜひフォローしていただけるとうれしい)。
関連として、本連載「AI・機械学習のデータセット辞典」では、データセットを効率的に探す手段として以下のような記事を公開している。併せて参考にしてほしい。
Copyright© Digital Advantage Corp. All Rights Reserved.