ビジネスのデータ分析業務に12年ほど関わる筆者の経験に基づきデータ分析のプロジェクトがどのようなものかをお話しします。
前回の「4W1Hで分かる、ビジネスに本当に役立つデータ分析とは、どんなものか」では、「データ分析とは、そもそも何なのか」「何のためにやるのか」といったお話を紹介しました。連載2回目の今回は、データ分析のプロジェクトがどのようなものかをお話しします。具体的な内容ですが、まずプロジェクトのメンバーと座組みを示し、その後、プロジェクトの流れに沿って、概要を説明していきます。
今回の内容は、あくまで筆者の経験に基づくものですが、他のデータ分析者に聞いてみると、おおよそ同じような流れであるようなので、一般的なものに近いと考えていただいてもよいかもしれません。
ここでは、データ分析プロジェクトの企画から、納品までの流れを説明します。
ここが全ての始まりです。事業側でニーズが顕在化して、分析側に声を掛けることもありますし、分析側から提案することもあります。それ以外にも、さまざまなパターンがありますが、今回は省きます。
事業側と分析側で集まり、最初の話し合いを持ちます。解決すべき課題は何か、そのために必要となるデータはどんなものがあるか、どのような分析によって解決できるか、最終的なアウトプットは何にするかなどプロジェクトの大まかなスコープを決め、どのような、どれくらいの成果が期待できそうかについても考えます。
分析プロジェクトは、データがあってはじめて成り立ちますので、データのAvailability(利用可能性)は、ここで必ず確認しておきます。具体的にいうと、解決に十分なデータ(量・種類・質)があるかどうかの確認です。細かい確認はプロジェクト開始後に行うので、ここでは必要なデータが確実に存在し、入手可能であることを確認しておきます。
ここでデータが必要十分で、かつ「分析を行う意味がありそうだ」ということが見立てられれば、プロジェクトの立ち上げに進みます。
ビジネスでの他のプロジェクトと同じように、企画書を作成し、予算を確保します。またここで作成した企画は、その後の分析のためのラフプランになります。内容としては、以下のようなものを含むことが多いようです。
企画にGOをもらうためには「いくらの費用で、いつごろ、どのようなアウトプットが出るか」「アウトプットを活用することで、どれくらいの効果が得られるか」を明確に提示することが重要です。これがしっかりしていれば、多少の困難はあってもプロジェクトはうまく進むはずです。
逆に、この部分が曖昧だと、何かの弾みで企画が通ったとしても、良いアウトプットが得られないリスクが高まります。これらを防ぐためには、「あると望ましい項目」をできるだけ検討しておき、企画の精度を高めておくことが重要です。
また、もう一つやるべきこととして、「期待値の調整」というものがあります。これは、プロジェクトが成功したときに、達成できることに加えて、達成できないことも明確にしておき、事業側の同意を得ておくということです。データ分析になじみがないと、上記の区別は難しいものです。
調整を行っておかないと、プロジェクトが終わりに差し掛かった頃に、「事業側ができると思っていたことが、実はできなかった」という不整合が起こることがあります。
無事、企画にGOが出たら、早速プロジェクトのキックオフに向けて、詳細なプランを作成します。これは、分析側が行います。【3】での「あると望ましい項目」の部分を、実際に作業ができるように、細かく割っていきます。
これは、スケジュールでいうと、企画書の段階では週ごとに矢羽で示したような簡単なスケジュール表だったものを、ガントチャートに落としていくような作業です。
プロジェクトに参画するメンバー全員が顔をそろえて、キックオフミーティングを行います。詳細プランに従って、工程やスケジュールの確認、座組みの確認、ゴールの再確認などを行います。士気を高めるために、ここで飲み会をするのもよいと思います(笑)。
データ分析は、データの準備が8割といわれます。これは、「良い分析を行うためには、データの準備を丁寧に行うことが重要である」ということを示しています。
データの準備は、「集める」「まとめる」「精査する」といった工程で行われます。もう少し具体的にいうと、分析に必要なデータを方々から集め、分析できるようにそれらを一つにまとめ、そこからおかしなデータを排除し、分析にかけられる状態にする工程です。
まず、「集める」です。分析で使うデータは、いろいろなところに散らばって存在しています。例えば、売上データはPOSシステムに格納され、プロモーション費用は会計データベースにあり、自社WebサイトのアクセスログデータはHadoopに、営業行動履歴データはAccessで管理されている、などなど……。個人情報管理に注意しなければならない昨今、これらの各データベースにアクセスし、集めるだけでも大変な労力です。しかし、次の工程で広く仮説を検討するため、工数が許す限り、多くの種類・長い期間のデータを集めておきます
これらのデータが無事集まったら、次は「まとめる」工程です。一言で言うと、これらのデータを、何らかのデータベースに一元化(一つのデータベースにまとめること)します。まとまったデータベースのことを、専門用語でデータマートと呼ぶことがあります。
この後の「精査する」は、次の工程で行われます。
ここでは、集めたデータをいろいろな観点で集計します。集計を行う目的は、「データ精査」と「仮説出し」です。前回のお話に対応させるならば、ここでは「分析」を行うための「仮説導出」を行いながら、データをきれいにする作業を続けます。
集計してみると、データにおかしなところが次々と見つかります。例えば時系列で集計してみると、ある時点だけ急に値が大きかったり、小さかったり、突然傾向が変わったり、途切れていたり……。これらの状況を、事情を知っているメンバーと確認していきます(ここでは、事業側の施策担当者やデータ管理者がゲストで参加することもあります)。
ここでのポイントは、上記のような異常な変動が、取り除くべき「ノイズ」なのか、分析に含めるべき「事実」なのかを見分けることです。気になる部分は徹底的に質問して解明します。
例えば、傾向が突然変わっていたとしても、施策を変えた結果であれば、それは現実に起こったことなので、排除せずに分析にかけるべきです。一方、システムの不具合などで値が変わってしまったのであれば、それは現実に起こったことではなく「嘘の値」なので、何らかの方法で本来の値に補正する、おかしい部分を除去するなどの対応を行います。なお、ここでどれだけ頑張るかが、その後の分析の質に大きく影響しますので、気になる部分は徹底的に解明します。データ準備は、以上の工程を経て、ようやく終わります。
仮説出しには、「散布図」や「相関分析」をよく用います。どちらの方法も、2種類のデータの動きの近さを測定するものです。前者はそれを図示するもので、後者は数値化するものです。これらの例を下図に示します。
上図では、広告費が高いほど売上も高い傾向にある。相関係数も0.6と、正の方向で比較的大きい値
→「広告費を掛けると売上が伸びる」という仮説を立てられる
※相関係数:二つの系列(種類)のデータの変動の近さを示す指標で、-1〜1の値を取る。値が正の場合は、一方が大きいほどもう一方も大きい傾向があることを示す。負の場合は逆に、一方が大きいほどもう一方は小さい傾向がある。また、値の絶対値が1に近づくほど、それらの動きの連動性が強いことを示す。
これらの方法を用いて、仮説を作っていきますが、ここで作る仮説は、今後、絶対に変えてはいけないというものではありません。ここでは「ざっくりとした」仮説を作り、そこから先はデータに聞きながら(=分析しながら)、確度を高めていくといった感じです。
ここから、ようやく分析作業に入ります。通常は、課題に応じて分析手法は決まりますので、それで解析にかけていきます。解析作業で具体的に行うことは、「統計モデル」を作成することです。
「統計モデル」(以下、単にモデル)とは、実際の現象を何本もの数式で示したもので、いわば「仮説の束」といえるものです。これを観察することで、現実に起きていることの解釈や原因究明、今後の予測などを行うことができます。
モデルの作成は、統計的な妥当性と、事業側の持つ仮説をすり合わせながら行います。言い換えると、「事業側の仮説を、分析側で検証する」やりとりを繰り返すということです。具体的にいうと「分析側でモデルを作り、それを施策担当者に提示し、実務の観点からコメントをもらい、そこからさらにモデルを作成する」というやりとりを繰り返し、統計モデルを磨き込みます。
ちなみに、この過程で、新たな仮説が見つかることもよくあります(実務担当者が思いついたり、データから見えてきたりすることが多いです)。その場合は、工数とスケジュールの許す範囲で、その仮説を表すデータを取得し、分析に加えていきます。
このプロセスは、基本的にはやればやるほどよいので、工数が許す限り実施します。
分析結果が確定したら、企画書、または詳細プランの中で決めていたものを作成します。よくあるアウトプットとしては、分析結果とそこからの知見などをまとめた報告書や、作成したモデルを組み込み、予測やシミュレーションを行えるようにしたツールなどです。
ツールの場合、分析を始めたころから時間も経っており、当初とはビジネス状況や分析の方向性が変わっていることもありますので、再度仕様を見直すこともあります。
今回は、データ分析のプロジェクトがどんなものか、流れに沿って説明しました。前回の内容と併せて読んでいただくと、データ分析についての理解を深めていただけます。
青柳憲治
リクルートテクノロジーズ ITソリューション統括部 ビッグデータ部 ビッグデータ1G
筑波大学大学院ビジネス科学研究科企業科学専攻(博士後期課程)
大学卒業後、マーケティング・コンサルティング企業に入社。約8年間、広告効果分析を中心としたマーケティング関連データの分析業務に携わる。
2012年1月よりリクルート入社。リクルートグループ全体のマーケティングの高度化を目指してデータ解析チームを立ち上げ、現在に至る。
また業務の傍ら、筑波大学大学院ビジネス科学研究科(博士前期課程)・同大学院企業科学専攻(博士後期課程)に所属し、先端的な統計解析手法を用いた計量マーケティングをテーマとして研究に取り組む。
Copyright © ITmedia, Inc. All Rights Reserved.