Papers With CodeのDatasets：人気度まで分かるデータセット一覧サイト：AI・機械学習のデータセット辞典

データセットが効率よく見つけられるPapers With CodeのDatasetsを紹介。各データセットのページでは、データセット利用に向くタスクや、ベストな性能を発揮するモデル、コードありの論文、各ライブラリのデータローダー、データセットの人気傾向などを確認できる。

» 2021年06月30日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

連載目次

　最近、非常に有用な新しいデータセットの一覧サイトが登場したので紹介したい。

Papers With CodeのDatasetsとは？

　「Papers With Code」というサイトをご存じだろうか？　さまざまなタスク（例えば画像分類やテキスト生成など）に対して現時点でベストな性能を発揮する「機械学習モデル」や、スターの多い「コードあり論文」などをランキング形式で紹介してくれる、無料でオープンなサイトである。

　そのPapers With Codeに最近（2021/04/13）、「Datasets」というデータセット一覧サイトが追加されている。図1はそのトップページだ。

データセット一覧サイト： Machine Learning Datasets | Papers With Code

図1　Papers With CodeのDatasetsのトップページ

　英語ではあるが、詳細な説明は要らないだろう。簡単に概説しておくと、中央には各データセットを利用する論文数順で人気のデータセットが一覧表示されている。

　キーワード検索できるだけでなく、［Modality］（モダリティ：データ種別）／［Task］（タスク：問題種別）／［Language］（言語）でフィルタリングできる。機械学習の際に「どのデータセットを使えばよいか」を悩むことはよくあると思うが、このランキング表示は非常に参考になるのではないだろうか。

各データセットのページ内容

　図1のデータセット名（例えばImageNet）をクリック／タップしてページを開くと、図2のように表示される。

図2　ImageNetのデータセットページ

　これも直観的に把握できると思うので、細かな説明は不要だと思う。ここではヒントだけ示しておくと、上部にデータセットの概要説明や画像枚数などが紹介されている。

　その下の［Benchmarks］（ベンチマーク）には、データセットを利用したタスクの一覧が表示されており、各行ではそのタスクにおけるデータセット（この場合ImageNet）利用の［Trend］（人気）や、現在時点での［Best Model］（ベストな性能を発揮するモデル）などが表示されている。

　その下では、データセットを利用する［Papers］（Paper With Code：コードあり論文）の一覧が、コードが格納されているGitHubリポジトリへのスター順で掲載されている（※ただし、TensorFlowなどの人気リポジトリにコードがある論文はスターが多くなってしまうという問題もある……）。

　さらにその下では、データセットをロードするためのライブラリ機能（例えばPyTorch／TensorFlowなどのデータローダー）へのリンク集である［Dataset Loaders］や、データセットがよく利用されているタスクへのタグリンク集である［Tasks］、類似のデータセットの画像付きリンク集である［Similar Datasets］が表示されている。

　右側にはサンプル画像や、利用数のグラフ、ライセンス、モダリティ、言語などが表示されている。特に利用数を参照することで、そのデータセットが人気を落としているか、上昇中か、継続維持しているかなどが分かりやすいので、今後の利用方針の参考にできるだろう。

　Papers With CodeのDatasetsの登場と同時に、