4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。
AWS/Microsoft Azure/Google Cloud(本稿では「「GCP」と略す)/IBMといったクラウドプラットフォームでは、各クラウド内で簡単に使えるオープンなデータセットが提供されている。本稿ではそのデータセットの一覧/検索ページについて紹介する。なお、この一覧ページのデータセットの中には、必ずしも機械学習には向いていないものも幾つかは含まれると想定されるので、あらかじめご了承いただきたい。
図1に示す通り、AWS(Amazon Web Services)では改訂時点(2024/09/25時点)で577個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、タグで絞り込める。
また図2に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、利用例(チュートリアルや、ツール&アプリケーション、出版物など)へのリンクが掲載されている点も便利だ。調査研究や学術利用をしたい人にはお勧めできる。
筆者が手動で確認した限りでは、Azureでは改訂時点(2024/09/25時点)で27個のデータセットが簡単に利用できるようになっている。
また図4に示すようにそれぞれの詳細ページには概要説明文があり、データのプレビューや、図5に示すようにデータロード用のPythonコードが簡単にコピーできるのが便利だ。特に日本語に対応している点も大きなメリットではないだろうか。現場で実用したい人にお勧めだ。
一覧ページの[データセット]という見出しの下で確認できるが、GCPでは改訂時点(2024/09/25時点)で238個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、カテゴリーで絞り込める。
また図7に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、図8に示すようにテーブルスキーマの確認や(BigQueryによる)データのSQLクエリーがすぐに行えるのが便利だ。非常にパワフルなので、効率的に作業したい人にお勧めしたい。
図9に示す通り、IBMでは改訂時点(2024/09/25時点)で49個のデータセットが簡単に利用できるようになっている。もちろん文字列検索も可能だ。
また図10に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、図11に示すようにデータをロードしてグラフで可視化するためのコードが含まれたJupyterノートブックがダウンロードできるのが便利である。IBM Cloudを利用している企業であれば便利に活用できるだろう。
以上、4つのクラウドプラットフォームで利用可能なデータセットの一覧ページについて紹介した。筆者がここ数年で確認している範囲では、これらのページは変更されやすい。あくまで執筆時点の情報である点に注意してほしい。もしリンク切れなど、本稿の内容が有効ではなくなったことに気付いた場合は、お手数であるがお問い合わせ窓口などから情報をお寄せいただけるとありがたい。
「Google Cloud 一般公開データセットのトップページ」と「IBM Developerでのデータセットの検索結果ページ」のリンクを修正しました。また、全ての画像を最新(2024年9月25日)のスクリーンキャプチャー画像に差し替え、表示内容や操作が変わっている場合は、その説明も修正しました。
Copyright© Digital Advantage Corp. All Rights Reserved.