4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。
AWS/Azure/GCP/IBMといったクラウドプラットフォームでは、各クラウド内で簡単に使えるオープンなデータセットが提供されている。本稿ではそのデータセットの一覧/検索ページについて紹介する。なお、この一覧ページのデータセットの中には、必ずしも機械学習には向いていないものも幾つかは含まれると想定されるので、あらかじめご了承いただきたい。
図1に示す通り、AWS(Amazon Web Services)では執筆時点(2021/02/04時点)で216個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、タグで絞り込める。
また図2に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、利用例(チュートリアルや、ツール&アプリケーション、出版物など)へのリンクが掲載されている点も便利だ。調査研究や学術利用をしたい人にはお勧めできる。
筆者が手動で確認した限りでは、Azureでは執筆時点(2021/02/04時点)で36個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、[天気][衛星映像][社会経済学のデータ][City safety][公休日][機械学習用のサンプル データセット]という絞り込み(※実際に実行されるのは検索)も用意されている。
また図4に示すようにそれぞれの詳細ページには概要説明文があり、データのプレビューや、図5に示すようにデータロード用のコードを含むJupyterノートブックがダウンロードできるのが便利だ。特に日本語に対応している点も大きなメリットではないだろうか。現場で実用したい人にお勧めだ。
一覧ページの[データセット]という見出しの下で確認できるが、GCPでは執筆時点(2021/02/04時点)で208個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、カテゴリーで絞り込める。
また図7に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、図8に示すようにテーブルスキーマの確認や(BigQueryによる)データのSQLクエリーがすぐに行えるのが便利だ。非常にパワフルなので、効率的に作業したい人にお勧めしたい。
図9に示す通り、IBMでは執筆時点(2021/02/04時点)で40個のデータセットが簡単に利用できるようになっている。もちろん文字列検索も可能だ。
また図10に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、図11に示すようにデータをロードしてグラフで可視化するためのコードが含まれたJupyterノートブックがダウンロードできるのが便利である。IBM Cloudを利用している企業であれば便利に活用できるだろう。
以上、4つのクラウドプラットフォームで利用可能なデータセットの一覧ページについて紹介した。筆者がここ数年で確認している範囲では、これらのページは変更されやすい。あくまで執筆時点の情報である点に注意してほしい。もしリンク切れなど、本稿の内容が有効ではなくなったことに気付いた場合は、お手数であるがお問い合わせ窓口などから情報をお寄せいただけるとありがたい。
Copyright© Digital Advantage Corp. All Rights Reserved.