データを取り込む・格納するための方法を理解する:ITエンジニアのためのデータサイエンティスト養成講座(3)(1/4 ページ)
データ分析を行う際の対象となるデータにはさまざまな形式が存在します。データ分析を行うには、まず、データを取り込む方法や、結果セットを書き出したり、データベースに格納したりする手続きが必要です。今回はデータの取得、格納といった分析のための下処理の手続きを紹介します。
前回(本連載第2回)は、データ分析に必要な機能と、その機能を実装したPython環境や必要なライブラリのセットアップ方法を説明しました。今回は、分析に必要なデータを、CSV(カンマ区切り)形式のファイルやリレーショナルデータベース、Webサイトなどから取り込む方法について解説します。さらに、結果セットをCSV形式で書き出したり、リレーショナルデータベースに格納する方法も紹介します。
データ収集フェイズで意識すべきこと
具体的な方法を解説する前に、データ収集のポイントとして次の3点を説明しておきましょう。
データ収集のポイント(1)目的を明確にする
例えば「データが手元にあるので、それを基に何か分析できないか」というように、漠然とデータ分析に取り組むケースがあります。ところが、このようにデータありきで分析を始めてしまうと“分析すること”が目的となってしまいがちです。分析の目的を明確にしておくことが大切です。
例えば、売上を予測したいのか、あるいは顧客層を分析したいのかによって、必要なデータは変わってきます。そのため、目的に沿ったデータ収集を心掛ける必要があります。さらに、分析を念頭に置いて、どの項目が従属変数(目的変数)や独立変数(説明変数)になり得るかを意識する必要もあります。
データ収集のポイント(2)データの格納場所と形式を意識する
分析対象とするデータの格納場所と形式は、データを準備する際に技術的に大きくかかわるので、しっかりと考えておくことが大切です。また、データ更新のタイミングや頻度、そのデータが恒常的に利用できるかどうかという点にも注意を払う必要があります。
データ収集のポイント(3)過去のアクションに対する結果も取り込む
例えば顧客層などを分析する場合では、過去のキャンペーンに反応があったかどうかといった、何らかのアクション結果に関するデータは分析の精度を上げるために役立ちます。必要条件と言っても過言ではありません。さらに、一度分析した結果に基づくアクションからも、その結果としてデータが出てくるので、このデータも次の分析の際に必ず取り込むよう心掛けます。本連載第1回でも触れましたが、分析結果を利用してアクションや意思決定を素早く行い、結果をフィードバックするというプロセスを“継続”していくことが重要です。
これ以外にも、投資に値する結果が得られるかどうかは、実際に分析してみないと評価できない部分もあるので、有償か無償かという点もデータを収集する際に重要な要素です。
Copyright © ITmedia, Inc. All Rights Reserved.