アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト:AI・機械学習のデータセット辞典
「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。
本連載では、よく使われる代表的なデータセットや面白いデータセット、新しいデータセットを個別に取り上げて紹介している。記事を拡充中ではあるものの、数はまだまだ少ない。「より多くのデータセットをカテゴリーごとに一望したい」というニーズは高いのではないかと思う。
そこで本稿では、
- 300個以上のデータセットを紹介している大型サイト
- 毎週/毎月のようにアクティブに更新されているサイト
に条件を絞って、データセット一覧のサイトを紹介する。上記の条件に当てはまる良質なサイトは3つほどある。それらをお勧め順で紹介していく。
ちなみに、デーセットを一望したり探したりするためには、「PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧」や「機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選」「Dataset Search(データセット検索)」も役立つと思うので、必要に応じて本稿と併せて活用してほしい。
arXivTimes/DataSets
- 公式サイト:arXivTimes/DataSets
このサイトは、複数のコントリビュータとともに、piqcy(@icoxfog417)氏(ちなみに同氏のメルマガ「Weekly Machine Learning」を記事「おすすめのメルマガ3選」でも紹介した)がメインで管理しているGitHubリポジトリである。
非常に頻繁に更新されている生きたデータセット一覧サイトである。これを最初に紹介したのは何よりも、日本語で短い紹介文が付いているからだ。
カテゴリー分類は以下のようになっており、300個以上のデータセットへのリンクがある(※2020年7月31日、筆者調べ)。
- Vision(コンピュータビジョン)
- Video(ビデオ)
- Scene(シーン)
- 3D(3次元)
- Satellite(衛星)
- BodyParts(人体パーツ)
- Medical(医療)
- Art(芸術)
- Image Captioning/Visual QA(画像キャプション/視覚的質問応答)
- NLP(自然言語処理)
- Parallel Corpus(並列コーパス)
- Classification(分類)
- Sentiment(感情)
- Entity Recognition(エンティティ認識)
- Knowledge Base(ナレッジベース)
- Q&A(質問応答)
- Reasoning(論理推論)
- Dialog(対話)
- Summarization(要約)
- Correction(訂正)
- Audio(オーディオ)
- Sound(サウンド)
- Speech(スピーチ)
- Music(音楽)
- Other(その他)
- Chemical(化学)
- Security(セキュリティ)
- Reinforcement Learning(強化学習)
- Dataset Summary Page(データセットまとめページ)
- To make your own(自分で作るには)
Awesome Public Datasets
- 公式サイト:Awesome Public Datasets
2つ目のサイトも、複数のコントリビュータで管理しているGitHubリポジトリである。英語圏では「Awesome ○○」(素晴らしい○○)というタイトルで、ベストリンク集を作るのがはやっているが、このリポジトリはその機械学習データセット版である。データセット一覧ページ自体は自動生成になっているようで、各項目には緑色の「I am well.(OK)」とオレンジ色の「Please fix me.(要修正)」のいずれかのマークが付けられている。
更新頻度にムラはあるものの、頻繁に更新されているデータセット一覧サイトである。ただし、英語であり、概要的なタイトルが付けられているものもあるが、データセット内容の説明はないという欠点もある。
カテゴリー分類は以下のようになっており、700個以上のデータセットへのリンクがある(※2020年7月31日、筆者調べ)。
- Agriculture(農業)
- Biology(生物学)
- Climate+Weather(気候+天気)
- ComplexNetworks(複雑ネットワーク)
- ComputerNetworks(コンピュータネットワーク)
- DataChallenges(データ課題)
- EarthScience(地球科学)
- Economics(経済)
- Education(教育)
- Energy(エネルギー)
- Finance(ファイナンス)
- GIS(地理情報システム)
- Government(政府)
- Healthcare(健康管理)
- ImageProcessing(画像処理)
- MachineLearning(機械学習)
- Museums(美術館)
- NaturalLanguage(自然言語)
- Neuroscience(神経科学)
- Physics(物理)
- ProstateCancer(前立腺がん)
- Psychology+Cognition(心理学+認知)
- PublicDomains(パブリックドメイン)
- SearchEngines(検索エンジン)
- SocialNetworks(ソーシャルネットワーク)
- SocialSciences(社会科学)
- Software(ソフトウェア)
- Sports(スポーツ)
- TimeSeries(時系列)
- Transportation(交通手段)
- eSports(eスポーツ)
- Complementary Collections(補完的なデータセット集)
ちなみに、Awesomeシリーズの一つに、画像認識のセマンティックセグメンテーションに使えるデータセット一覧「Awesome Semantic Segmentation Datasets」もある。
UCI Machine Learning Repository
このサイトは、カリフォルニア大学アーバイン校が管理&公開する機械学習データセットのリポジトリである。データセット提供サイトとして有名であり、学術系ということで信頼性も高い。
ほぼ毎週のように頻繁に更新されているデータセット一覧サイトだ。ただし、説明が英語で、カテゴリーは表形式データや時系列データが中心となっており、カテゴリーの幅は狭いのが欠点である。例えば画像データセットなどはかなり少ない(※後述のカテゴリー分類の「Other(その他)」に分類されている)。
カテゴリー分類は以下のようになっており、550個以上のデータセットへのリンクがある(※2020年7月31日、筆者調べ)。
- Data Type(データタイプ)
- Multivariate(多変量)
- Univariate(一変量)
- Sequential(連続)
- Time-Series(時系列)
- Text(テキスト)
- Domain-Theory(ドメイン理論)
- Other(その他)
データセットを探しやすいように、以下のようなフィルタリング手段が提供されている。
- Task(タスク)
- Classification(分類)
- Regression(回帰)
- Clustering(クラスタリング)
- Other(その他)
- Attribute Type(属性タイプ)
- Categorical(カテゴリー)
- Numerical(数値)
- Mixed(混合)
- Area(分野)
- Life Sciences(生命科学)
- Physical Sciences(物理学)
- CS / Engineering(コンピュータ科学/エンジニアリング)
- Social Sciences(社会科学)
- Business(ビジネス)
- Game(ゲーム)
- Other(その他)
- # Attributes(属性数)
- Less than 10(10未満)
- 10 to 100(10〜100)
- Greater than 100(100より多い)
- # Instances(インスタンス数)
- Less than 100(100未満)
- 100 to 1000(100〜1000)
- Greater than 1000(1000より多い)
- Format Type(フォーマットタイプ)
- Matrix(行列)
- Non-Matrix(非行列)
以上、非常に大量のデータセットを一望できるサイトを3つ紹介した。
今回の条件からは外れるが、メディア記事系の「データセット | Lionbridge AI」ではさまざまな切り口でデータセットを紹介する記事が頻繁に公開されているので、新しいデータを常に探している人にはお勧めである。
また、「【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW」は100個厳選でデータセットを紹介している。頻繁に更新されているわけではないが、ほどよく限られた数の選択肢からデータセットを探したい場合に参考になるだろう。
Copyright© Digital Advantage Corp. All Rights Reserved.