データサイエンティスト協会は、「データサイエンス100本ノック(構造化データ加工編)」をGitHubに公開した。データと実行環境を構築するためのスクリプト、演習問題がDockerのコンテナとして実装されており、データ加工について無料で学べる。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
データサイエンティスト協会は2020年6月15日、構造化データの加工について無料で学べる環境「データサイエンス100本ノック(構造化データ加工編)」を「GitHub」に公開したと発表した。データと実行環境を構築するためのスクリプトと演習問題をセットにして、データの加工や集計、統計学、機械学習を使用したモデリングの前処理などを学べるようにしたもの。対象はデータサイエンスの初学者。
データサイエンティスト協会は、「最近はデータ活用の重要性が広く認知され、書籍やWebサイトなどデータ分析のスキル向上に役立つ情報源が多く提供されているものの、学習者がそれを実践するためのデータやプログラミング実行環境を持ち合わせていないことが多い」としている。そのため、データ活用の実践力を身に付ける機会が限られているという。
データサイエンス100本ノックは、こうした状況を受け、「基礎的なデータ処理の修行場」として利用することを目的に公開した。実行環境が対応する言語はSQLとPython、Rで、100問の演習問題が用意されている。演習問題は全ての言語で共通しており、「列に対する操作」や「ソート」「数値変換」「名寄せ」など、22のカテゴリーに分けられている。各設問に対する回答例も用意されている。
データサイエンス100本ノックは、Dockerを利用したコンテナとして実装されている。対応するOSは、Windows 10またはmacOS 10.13以上。利用するには「Docker Desktop」か「Docker Toolbox」(Windows 10 Home Editionの場合)が必要だ。
Copyright © ITmedia, Inc. All Rights Reserved.