クラウド(AWS/Azure/GCP/IBM)で手軽に使えるオープンデータセットAI・機械学習のデータセット辞典

4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。

» 2024年09月25日 05時00分 公開
[一色政彦デジタルアドバンテージ]
「AI・機械学習のデータセット辞典」のインデックス

連載目次

 AWS/Microsoft Azure/Google Cloud(本稿では「「GCP」と略す)/IBMといったクラウドプラットフォームでは、各クラウド内で簡単に使えるオープンなデータセットが提供されている。本稿ではそのデータセットの一覧/検索ページについて紹介する。なお、この一覧ページのデータセットの中には、必ずしも機械学習には向いていないものも幾つかは含まれると想定されるので、あらかじめご了承いただきたい。

Registry of Open Data on AWS

図1 AWSで使えるオープンデータセットの一覧/検索ページ 図1 AWSで使えるオープンデータセットの一覧/検索ページ

 図1に示す通り、AWS(Amazon Web Services)では改訂時点(2024/09/25時点)で577個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、タグで絞り込める。

 また図2に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、利用例(チュートリアルや、ツール&アプリケーション、出版物など)へのリンクが掲載されている点も便利だ。調査研究や学術利用をしたい人にはお勧めできる。

図2 AWSで利用できる各データセットの詳細ページの例 図2 AWSで利用できる各データセットの詳細ページの例

Azure Open Datasets

図3 Azureで使えるオープンデータセットの一覧/検索ページ 図3 Azureで使えるオープンデータセットの一覧/検索ページ

 筆者が手動で確認した限りでは、Azureでは改訂時点(2024/09/25時点)で27個のデータセットが簡単に利用できるようになっている。

 また図4に示すようにそれぞれの詳細ページには概要説明文があり、データのプレビューや、図5に示すようにデータロード用のPythonコードが簡単にコピーできるのが便利だ。特に日本語に対応している点も大きなメリットではないだろうか。現場で実用したい人にお勧めだ。

図4 Azureで利用できる各データセットの詳細ページの例 図4 Azureで利用できる各データセットの詳細ページの例

図5 Azureではデータセットを利用するためのPythonコードが簡単にコピー可能 図5 Azureではデータセットを利用するためのPythonコードが簡単にコピー可能

Google Cloud 一般公開データセット

図6 GCPで使えるオープンデータセットの一覧/検索ページ 図6 GCPで使えるオープンデータセットの一覧/検索ページ

 一覧ページの[データセット]という見出しの下で確認できるが、GCPでは改訂時点(2024/09/25時点)で238個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、カテゴリーで絞り込める。

 また図7に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、図8に示すようにテーブルスキーマの確認や(BigQueryによる)データのSQLクエリーがすぐに行えるのが便利だ。非常にパワフルなので、効率的に作業したい人にお勧めしたい。

図7 GCPで利用できる各データセットの詳細ページの例 図7 GCPで利用できる各データセットの詳細ページの例

図8 GCPではBigQueryを使って自由度の高いデータ内の確認が可能 図8 GCPではBigQueryを使って自由度の高いデータ内の確認が可能

IBM Developerの「データセット」カテゴリー

図9 IBMで使えるオープンデータセットの一覧/検索ページ 図9 IBMで使えるオープンデータセットの一覧/検索ページ

 図9に示す通り、IBMでは改訂時点(2024/09/25時点)で49個のデータセットが簡単に利用できるようになっている。もちろん文字列検索も可能だ。

 また図10に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、図11に示すようにデータをロードしてグラフで可視化するためのコードが含まれたJupyterノートブックがダウンロードできるのが便利である。IBM Cloudを利用している企業であれば便利に活用できるだろう。

図10 IBMで利用できる各データセットの詳細ページの例 図10 IBMで利用できる各データセットの詳細ページの例

図11 IBMではデータセットを利用するためのJupyterノートブックを入手可能 図11 IBMではデータセットを利用するためのJupyterノートブックを入手可能


 以上、4つのクラウドプラットフォームで利用可能なデータセットの一覧ページについて紹介した。筆者がここ数年で確認している範囲では、これらのページは変更されやすい。あくまで執筆時点の情報である点に注意してほしい。もしリンク切れなど、本稿の内容が有効ではなくなったことに気付いた場合は、お手数であるがお問い合わせ窓口などから情報をお寄せいただけるとありがたい。

「AI・機械学習のデータセット辞典」のインデックス

AI・機械学習のデータセット辞典

ここを更新しました(2024年9月25日)

「Google Cloud 一般公開データセットのトップページ」と「IBM Developerでのデータセットの検索結果ページ」のリンクを修正しました。また、全ての画像を最新(2024年9月25日)のスクリーンキャプチャー画像に差し替え、表示内容や操作が変わっている場合は、その説明も修正しました。

Copyright© Digital Advantage Corp. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。