5分で分かるデータサイエンス:5分で分かるシリーズ(1/2 ページ)
データサイエンスをビジネスで活用したい人に向け、データサイエンスの概要と知るべき理由、データ分析やAIとの違い、必要なスキル、作業フロー、活用シーンを、5分で読めるコンパクトな内容で紹介。最後に、次の一歩を踏み出すための参考情報もまとめる。
データサイエンスの基礎知識(リテラシー:いわゆる「読み・書き・そろばん」的な素養)は、多くの社会人が知っておくべきです。本稿では、データサイエンスの定義から、知るべき理由、必要なスキル、基本的な作業フロー、活用シーンまでを簡単に紹介します。
1分 ―― データサイエンス(DS:Data Science)とは
データサイエンスとは、数学/統計学/機械学習といった科学的(学術的)な知識と、プログラミングといったITエンジニアリングのスキルと、組織や業務に関するビジネス知識を駆使して、(大量の)データから有用な結論や知見を導き出し、主にビジネス上の意思決定をサポートするアプローチのことです。
データ分析や人工知能との違い
データ分析(データアナリティクス)とデータサイエンスの違いはこちらで説明しています。
また、AI(人工知能)とデータサイエンスの違いはこちらで説明しています。さらに説明を加えると、AIは、何らかの処理を自動化する「ソフトウェア」とも言えます。よって、データサイエンスによる意思決定をソフトウェアとして自動化すること、例えば各種パンの需要を予測して自動発注するシステムも、「AI」と表現できるでしょう。
なぜデータサイエンスを知るべきなのか
高校生は2023年4月(令和5年度)から始まる選択科目「情報II」でデータサイエンスを学びます。2022年に政府が公表した「AI戦略 2022」(「AI戦略 2019」と「AI戦略 2021」に続く改訂版)では2025年までの大目標として、全ての高校卒業生(約100万人卒/年)が「数理・データサイエンス・AI」のリテラシーを習得することが、また文理を問わず全ての大学生・高専生(約50万人卒/年)が「数理・データサイエンス・AI」の初級レベル知識&スキルを習得することが掲げられています。
日本では企業/産業の国際的競争力を高めることが最重要課題となっているためです。これによって2025年には、データサイエンスのリテラシーや初級レベルを学んだ高校/大学の卒業生がドドッと入社してくるので、多くの社会人にとってデータサイエンスの基礎を知ることが必須となっています。
2分 ―― データサイエンティストに必要なスキル
データサイエンスの専門職は、データサイエンティストと呼ばれます。データサイエンティストとなる人材の育成や業界発展への貢献のために、2013年にデータサイエンティスト協会が設立されており、データサイエンスに必要なスキルセットとしてはその協会が公表した図が有名です(図2)。
3つのスキルの内容について簡単に紹介します。より具体的には「データサイエンティスト・スキルチェックリスト・ビューアー」をご参照ください。なお、前述の定義(図1)で示した「科学的(学術的)な知識」「ITエンジニアリングのスキル」「ビジネス知識」は、図2の「データサイエンス力」「データエンジニアリング力」「ビジネス力」に相当します。
データサイエンス力
統計学/機械学習に基づくデータ分析とAI実装の知識が、場合によっては数理最適化の知識も必要となります。また、統計学や機械学習を数学的に理解するためには、大学基礎レベルの数学力も必要です。分野によっては、より高度な数学の知識が求められる場合もあります。
データエンジニアリング力
データサイエンスでは作業フロー(後述)の中でも、データを取得して意味のある使える形に整理/変換する前処理の作業に、大半の時間(一説には8割)を費やすと言われています。その際に、データベース上のデータを扱うためのSQL言語や、データを加工/変換するためのプログラミング(Python言語など)のスキルが必要となります。またITセキュリティやAIシステム運用の知識が求められる場合もあります。
ビジネス力
データサイエンスの場合、通常は企業/組織内のビジネスデータを分析したり、ビジネスに関連する画像データなどからAIを作成したりします。よってデータ分析やAIの課題背景を理解するためには、その組織におけるビジネスに関する知識が必要となります。また組織マネジメントやプロジェクト管理のスキル、AI倫理や法律、契約方法などの知識が求められる場合もあります。
3分 ―― データサイエンスの作業フロー
データ分析とAI
データサイエンスで実施することは、大きく分けて、
- データ分析: 主にインサイト(洞察)を得ることが目的
- AIの実装: 主に予測などの処理の自動化が目的
の2種類があります。このうち後者の「AIの実装」の作業フローについてはこちらで説明済みです。
データ分析については、明確に区分できない場合もありますが、
- 統計学の手法をメインに活用するデータ分析(データアナリティクス寄り、いわゆる統計解析)
- 機械学習の手法をメインに活用するデータ分析(データサイエンス寄り)
の2種類があります。このうち前者の「統計学メインのデータ分析」の作業フローについてはこちらで紹介しています。
「機械学習メインのデータ分析」の作業フロー
ここでは後者の「機械学習メインのデータ分析」の作業フローについて簡単に紹介します(図3)。
- 問題定義: 問いかけなどで問題を把握して明確化
- 計画: データを分析する計画を立てる
- 前処理: (大量の)データを収集して整理/変換
- モデリングと分析: プログラミングで作成した機械学習モデルで、データを分析
- 結論: 分析結果から結論を出して共有し、【目標】ビジネス上の意思決定をサポート
このフローは「運用」部分を除いたAI実装のフローとほぼ同じです。「統計学メインのデータ分析」の作業フローと比べると「モデリング」が追加されている点が特徴的な違いです。
データ分析やAIでは、データの整理/変換の前に「統計学メインのデータ分析」と可視化を行い、まずはデータの特徴を把握することが一般的です。この作業は探索的データ分析(EDA)と呼ばれます。
目次
1分 ―― データサイエンス(DS:Data Science)とは(現ページ)
2分 ―― データサイエンティストに必要なスキル(現ページ)
3分 ―― データサイエンスの作業フロー(現ページ)
4分 ―― データサイエンスの活用シーン(職務別と業界別)(次ページ)
5分 ―― まとめと、次の一歩のための参考情報(次ページ)
Copyright© Digital Advantage Corp. All Rights Reserved.


