「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。
本連載では、よく使われる代表的なデータセットや面白いデータセット、新しいデータセットを個別に取り上げて紹介している。記事を拡充中ではあるものの、数はまだまだ少ない。「より多くのデータセットをカテゴリーごとに一望したい」というニーズは高いのではないかと思う。
そこで本稿では、
に条件を絞って、データセット一覧のサイトを紹介する。上記の条件に当てはまる良質なサイトは3つほどある。それらをお勧め順で紹介していく。
ちなみに、デーセットを一望したり探したりするためには、「PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧」や「機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選」「Dataset Search(データセット検索)」も役立つと思うので、必要に応じて本稿と併せて活用してほしい。
このサイトは、複数のコントリビュータとともに、piqcy(@icoxfog417)氏(ちなみに同氏のメルマガ「Weekly Machine Learning」を記事「おすすめのメルマガ3選」でも紹介した)がメインで管理しているGitHubリポジトリである。
非常に頻繁に更新されている生きたデータセット一覧サイトである。これを最初に紹介したのは何よりも、日本語で短い紹介文が付いているからだ。
カテゴリー分類は以下のようになっており、300個以上のデータセットへのリンクがある(※2020年7月31日、筆者調べ)。
2つ目のサイトも、複数のコントリビュータで管理しているGitHubリポジトリである。英語圏では「Awesome ○○」(素晴らしい○○)というタイトルで、ベストリンク集を作るのがはやっているが、このリポジトリはその機械学習データセット版である。データセット一覧ページ自体は自動生成になっているようで、各項目には緑色の「I am well.(OK)」とオレンジ色の「Please fix me.(要修正)」のいずれかのマークが付けられている。
更新頻度にムラはあるものの、頻繁に更新されているデータセット一覧サイトである。ただし、英語であり、概要的なタイトルが付けられているものもあるが、データセット内容の説明はないという欠点もある。
カテゴリー分類は以下のようになっており、700個以上のデータセットへのリンクがある(※2020年7月31日、筆者調べ)。
ちなみに、Awesomeシリーズの一つに、画像認識のセマンティックセグメンテーションに使えるデータセット一覧「Awesome Semantic Segmentation Datasets」もある。
このサイトは、カリフォルニア大学アーバイン校が管理&公開する機械学習データセットのリポジトリである。データセット提供サイトとして有名であり、学術系ということで信頼性も高い。
ほぼ毎週のように頻繁に更新されているデータセット一覧サイトだ。ただし、説明が英語で、カテゴリーは表形式データや時系列データが中心となっており、カテゴリーの幅は狭いのが欠点である。例えば画像データセットなどはかなり少ない(※後述のカテゴリー分類の「Other(その他)」に分類されている)。
カテゴリー分類は以下のようになっており、550個以上のデータセットへのリンクがある(※2020年7月31日、筆者調べ)。
データセットを探しやすいように、以下のようなフィルタリング手段が提供されている。
以上、非常に大量のデータセットを一望できるサイトを3つ紹介した。
今回の条件からは外れるが、メディア記事系の「データセット | Lionbridge AI」ではさまざまな切り口でデータセットを紹介する記事が頻繁に公開されているので、新しいデータを常に探している人にはお勧めである。
また、「【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW」は100個厳選でデータセットを紹介している。頻繁に更新されているわけではないが、ほどよく限られた数の選択肢からデータセットを探したい場合に参考になるだろう。
Copyright© Digital Advantage Corp. All Rights Reserved.