連載
» 2023年07月13日 05時00分 公開

初めてのデータ分析。手軽に体験してみようAI・データサイエンス超入門

データ分析とは具体的にどのようなことをするのか? 全くイメージが湧かない人、自分ではやってみたことがない人に向けて、気軽な疑似体験を通してデータ分析の雰囲気をお伝えします。具体的には、データを整理/変換し、グラフを作成して統計量も計算。さらにデータから次の数値を予測してみます。

[一色政彦デジタルアドバンテージ]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

「AI・データサイエンス超入門」のインデックス

連載目次

 最近は、質問に答えてくれるChatGPTなどの文章生成AIや、指示したテキストからイラストが作成できるStable Diffusionなどの画像生成AIが大きな話題ですよね。そういった一般社会で注目される話題の裏で、企業の中やビジネスパーソンの間ではリスキリングやDX(デジタル・トランスフォーメーション)が急激に進んできています。

 ある調査の結果によると、この1年で驚くべき変化が起きていました。リスキリング対象者層において「リスキリングに既に取り組んでいる」人が、2022年時点ではわずか1.4%だったのに対し、2023年には42.8%と急増したそうです。この数字からも、リスキリング/DXが急速に進んでいることは明らかです。

 リスキリング/DXの現場では、文章生成AIや画像生成AIといった話題の生成系AIよりも、「現在手元にある売り上げデータを分析したい」といったデータ分析のニーズの方が大きいのではないでしょうか(ちなみに本連載では、データ分析を自動化/効率化したソフトウェアを分析系AIと呼んでいます)。そこで今回は、データ分析(分析系AI)とは具体的にどのようなことをするのか? 全くイメージが湧かない人、自分ではやってみたことがない人に向けて、気軽な疑似体験を通してデータ分析の雰囲気をお伝えします。具体的には図1のような分析を体験します。

図1 データ分析の体験イメージ: 表形式データで基礎的な統計処理(=相関)や売り上げの予想(=回帰分析) 図1 データ分析の体験イメージ: 表形式データで基礎的な統計処理(=相関)や売り上げの予想(=回帰分析)

 前回は、データやデジタル技術といった基本概念や、AI/データ分析/データサイエンスの違い、それらがなぜ有用で重要なのかを示し、AIを軸に「AI・データサイエンスの整理と全体像」をまとめました。そこで、AIについて本連載では大まかに、

  • 分析系AI: 数値解析、数値予測、分類、グループ分けなど
  • 識別系AI: 画像認識、文章の感情判定など
  • 生成系AI: 画像生成、文章生成など

という3つに分類しました(あくまで大まかに分けただけで、この分類では整理しづらいAIや、複数の分類に属するAIもあります)。本稿では、このうち「分析系AI」にフォーカスし、図2の流れに沿ってデータを分析していきます。

図2 今回のデータ分析の流れ 図2 今回のデータ分析の流れ

連載:

『社会人1年生から学ぶ、AI・データサイエンス超入門』

社会人1年生から学ぶ、AI・データサイエンス超入門

 この連載では、人工知能(AI)やデータ分析/データサイエンスをこれまでに学んだことがない社会人(新卒の社会人1年生からベテラン社員まで大歓迎!)に向けて、「データ&AIを活用したいなら、最初に知っておくべき全体概要」、具体的にはAI・データサイエンスの概要と、データ分析(数値予測などの分析系AI)、画像認識などの識別系AI、文章生成などの生成系AIを紹介します。
 難しい知識の習得よりもシンプルな経験を重視して、手を動かして体験しながら学べる内容ですので、肩の力を抜いてぜひとも気楽に読み進めてください。


1. データ分析の目標を設定する

 今回は、架空のアイスクリーム屋さんの売り上げデータ(100件分)を使って、気温がアイスクリームの売り上げにどのくらい影響するのかを調べます。

 さらに、次の日の気温と曜日から、アイスクリームの売り上げ(101件目)を予測します。これによって、「アイスクリームをどれだけ用意すべきか」が事前に把握できるようになりますね。なお、このような予測を自動化するソフトウェアが、いわゆる需要予測AI(前回説明済み)です。

図3 アイスクリーム屋さんの売り上げデータの一部(Excelデスクトップ版で開いた例) 図3 アイスクリーム屋さんの売り上げデータの一部(Excelデスクトップ版で開いた例)

 このような目標を設定するには、まず「現在の自社ビジネスにどんな問題があるのか?」といった質問を社内の人に投げかけ、社内の問題を把握することから始めるのが基本です。今回の場合は、「気温が低いとアイスクリームが余ってしまい、気温が高いと売り切れが多くなって、ビジネスの機会を逃している」という現場の声があったと仮定しています。この問題を解決するために、上記の2つの目標を設定しました。

2. データを収集する

 今回のデータは、こちらからダウンロードできるサンプルファイル(analytic_ai.xlsxファイル)に含めました。このデータは、生成系AIのChatGPT(GPT-3.5)で、下記のプロンプト(テキスト)を入力して自動生成した後、手動で数値を少しずつ変えるなどして調整したものです。

 プロンプト内容: 架空の「アイスクリームの売り上げデータ」をCSV形式で作成してください。日付、曜日、気温、売上金額という列項目で、100件のデータを作成してください。土日は多く売れて、気温が高いと多く売れる結果になるようにしてください。

 続きのプロンプト内容×2回: 続きのCSVを生成してください。

 なお「<ファイル名>.xlsx」は、(ご存じと思いますが)Microsoft Excel(エクセル)という表計算ソフトのファイル形式です。もし手元のPCにExcelデスクトップ版がインストールされていない場合は、下記どちらかのオンラインツールを使ってください。

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。