日本政府が公開するオープンデータの中でも、機械学習/データサイエンスに活用できるお勧めのデータセットを厳選して紹介する。具体的には「e-Stat(政府統計の総合窓口)」「Tellus(衛星データプラットフォーム)」「過去の気象データ(気象庁)」の3つ。
本稿では、
に条件を絞って、データセットの取得/活用サイトを紹介する。この条件に当てはまるサイトを3つだけ厳選し、お勧め順で紹介していく。
日本の政府系のオープンデータで一番有名なのが「e-Stat」である。統計学やデータサイエンスに携わるもの/学ぶものであれば、名前は聞いたことがあるだろう。かつては各省庁がバラバラに管理&公開していた公的データを、一カ所に集めて誰でも簡単に利用できるようにしたサイトである(2008年から運用が開始され、2018年にリニューアルされた)。
統計分野は多岐にわたり、「国土・気象」「人口・世帯」「労働・賃金」「農林水産業」「鉱工業」「商業・サービス業」「企業・家計・経済」「住宅・土地・建設」「エネルギー・水」「運輸・観光」「情報通信・科学技術」「教育・文化・スポーツ・生活」「行財政」「司法・安全・環境」「社会保障・衛生」「国際」「その他」という17分野が提供されている。データセットは、条件指定によるフィルタリングやグラフ化が行える。例えば人口ピラミッドのグラフも簡単に作成できる。
また、もちろん無料でExcel/CSV形式ファイルとしてダウンロードすることもできる。さらに、APIも提供されているので、プログラムを組んで自動的にデータを取得することも可能だ。政府系のデータを使ってデータ分析や機械学習を行いたい場合には、最初にチェックしたいサイトである。
総務省統計局が管理しており、e-Statの使い方に関する情報発信を積極的に行っている。具体的には、「gacco」という無料動画学習サイトで「データサイエンスのオンライン講座」として「誰でも使える統計オープンデータ」や「社会人のためのデータサイエンス入門」という講座を年に1回ぐらいのペースで開講している(※ただし、いずれも執筆した2020年8月時点では閉講している。gaccoの講座については「機械学習/深層学習〜統計学/データサイエンス、毎日10分×1カ月で学べる無償動画【2020年春版】:AI・機械学習の独学リソース」を参考にしてほしい)。
日本政府の衛星データを無償利用できるプラットフォームサイトが「Tellus」(テルース)だ。利用できるオープンデータは、JAXA(宇宙航空研究開発機構)の人工衛星「つばめ」の観測画像である(2019年に経済産業省とJAXAが衛星データの利活用を目指して事業化した)。Tellus Marketを見ると分かるように、「広域光学」「SAR(合成開口レーダー)」「海面水温」「地表面温度」「標高」「降雨量」「地図」「位置情報」「航空写真」「磁気図」「気象」「アナグリフ(立体写真)」「植生」などといったデータが利用できる。
利活用の事例としては、衛星データからの「資産調査」に始まり、「株価予測」「保険]「物流」「建設・不動産」「地形把握」「インフラ監視」「農作物の生育予測」「魚群探査・養殖監視」「森林監視・管理」「天気予報」「紫外線・大気汚染情報」「疫病監視」「防災・防衛」「解析結果提供」まで多岐にわたっている。データを簡単に可視化できる「Tellus OS」というツールが提供されており、仮想マシンやAPIが原則無料で使える。仮想マシンには、データ分析ツールのJupyterLabが含まれており、Python/R言語を用いたデータ分析や機械学習がすぐに行える。
ただし、Tellus外へのオリジナルデータのダウンロードは原則禁止されている(一部のデータは、二次成果物として加工後であれば、ダウンロードを許可していることがある)。オープンデータといっても、制限がないわけではないので注意してほしい。
Tellus事業はさくらインターネットが受注し、公式サイトを管理するとともに、「宙畑」(そらばたけ)という開発者向けサイトを運営している(お勧め記事:「自宅学習におすすめ!11日でマスター衛星データの学び方ガイド2020 | 宙畑」)。また、「Tellus Trainer」と「Tellus×TechAcademy 初心者向け Tellus 学習コース」といった講座が(5月22日から無償で)提供されており、機械学習による物体検知などが学べる。さらに、経済産業省主催で「Tellus Satellite Challenge」というデータ分析のコンテストが定期的に実施されているので(例:「The 4th Tellus Satellite Challenge:海岸線の抽出 | SIGNATE - Data Science Competition」)、学んだ知識の実践活用もしやすい。
日本の「過去の気象データ」は、国土交通省気象庁のサイトから簡単にダウンロードできる。利用できるオープンデータは、日本全国(47都道府県)と南極にあるアメダス(AMeDAS:Automated Meteorological Data Acquisition System)の観測データである。「気温」「降水量」「日照率/日照時間」「積雪量/降雪量」「風速/風向」「湿度/気圧」「雲量/天気概況」などといったデータが利用できる。
日本全国と南極の[地点]と、上記の観測データ[項目]、取得したい[期間]、数値形式に関する[表示オプション]を選択して、[画面に表示]ボタンを押すことで簡単に表データが表示される。また、[CSVファイルをダウンロード]ボタンをクリックするだけで、CSV形式ファイルを無料でダウンロードできる。操作方法やデータ内容は非常にシンプルなので、何も学ばなくても使いこなせるだろう。データ分析や機械学習にも利用しやすい(と思われる)。
以上、政府系のデータセットを取得できるサイトを紹介した。この他、「政府系データセットの一覧」サイトとしては、
がある。また、政府系というわけではないが、学術研究向けのデータセット一覧が「NII(国立情報学研究所)のIDR(情報学研究データリポジトリ)」で管理されている。
Copyright© Digital Advantage Corp. All Rights Reserved.