社会人が学ぶべき、やさしいAI・データサイエンス：AI・データサイエンス超入門

生成系AIを中心に、今、データ＆AI活用が一般社会に広まってきています。そもそも「データ」や「AI」「データ分析」「データサイエンス」とは何なのか。それらの概念を説明し、AI・データサイエンスの全体像を整理します。さらに、社会人がAI・データサイエンスを学ばなければならない理由と学ぶ方法を紹介します。

» 2023年05月18日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

連載目次

　最近は、テレビの経済ニュース番組などでChatGPTという生成系AIが毎日のように取り上げられるなど、かつてないほどAIが盛り上がっていますよね。そんな時代ですので、皆さんの社内でも、

　AIとデータを活用しよう！

という話が出やすい状況ではないかと思います。

　しかしそういう話になっても、

　AIやデータを活用するのに、何を学べばよいのかが分からない

　本を手に取ってみたが、自分には難しそう

といった感想を持っている人も少なくないのではないかと思います。

　そんな普通の人、具体的にはAIやデータ分析／データサイエンスをこれまでに学んだことがない社会人（図1）に向けて、本連載では基礎中の基礎となる「データ＆AIを活用したいなら、最初に知っておくべき全体概要」を紹介していきます。社会人1年目からすぐに学び始められるように、手を動かして体験しながら学べるやさしい内容です。構えずに「ちょっと試してみよう」と気軽な気持ちで読み進めてみてください。

図1　本連載の読者ターゲット（新卒の社会人1年生からベテラン社員まで大歓迎！）

　今回は、初回なので手を動かす体験はないのですが、以下のように「AI・データサイエンスの概要」について紹介します。

AI・データサイエンスとは何か？
AI・データサイエンスを学ばなければならない理由
AI・データサイエンスの整理と全体像
AI・データサイエンスを学ぶ方法

連載：

『社会人1年生から学ぶ、AI・データサイエンス超入門』

　この連載では、人工知能（AI）やデータ分析／データサイエンスをこれまでに学んだことがない社会人（新卒の社会人1年生からベテラン社員まで大歓迎！）に向けて、「データ＆AIを活用したいなら、最初に知っておくべき全体概要」、具体的にはAI・データサイエンスの概要と、データ分析（数値予測などの分析系AI）、画像認識などの識別系AI、文章生成などの生成系AIを紹介します。
　難しい知識の習得よりもシンプルな経験を重視して、手を動かして体験しながら学べる内容ですので、肩の力を抜いてぜひとも気楽に読み進めてください。

一色政彦

筆者紹介： ＠ITのDeep Insider編集部の編集長。2017年にAIの「G検定」（第1回）に合格し、2022年に「データサイエンティスト検定リテラシーレベル」に合格。はてなブックマーク（アカウント名：misshiki）でAI＆データサイエンスの最新情報をウオッチ中。考えるための補助ツールとしてChatGPTも時々使っています。

AI・データサイエンスとは何か？

　最初に「AI／データ分析／データサイエンスって何なの？」という話から始めていきます。

　これらに共通するのは「デジタルデータ」を活用することです。そもそもデータとは、事実や情報の集まりのことです。もっと具体的にいうと、数値やテキストなどで構成された表形式データや、テキスト／画像／動画／音声などのことです（図2）。この他にも、紙の書籍や新聞、手書きのメモ、体重や身長、料理の具材と分量など、あらゆる情報が「データ」と言えますが、ここでいうデジタルデータとは、パソコン（PC）などのコンピュータ上で扱えるように電子的（デジタル）な情報に変換されたデータのことです。

図2　さまざまなデータ

　「AI」「データ分析」「データサイエンス」という用語には厳密な定義文が存在するわけではないので、ここでは筆者なりに以下のように定義しておきます（※それぞれのより詳しい定義と説明を知りたい場合は、各名称のリンク先を参照してください）。ちなみに、AI／データ分析／データサイエンスなどは、まとめてデジタル技術と表現される場合があるので、覚えておくとよいでしょう。

AI（人工知能）：（データから学習することで）読む／書く／聞く／話すなど人間が行う「知的活動」を疑似的に実現したコンピュータプログラム（＝ソフトウェア）のこと
データ分析（データアナリティクス）：基本的な統計処理などのデータ分析（データアナリシス）の手法を活用して、データから有用な結論や知見を導き出し、主にビジネス上の意思決定をサポートすること
データサイエンス：数学／統計学／機械学習といった科学的（学術的）な知識と、プログラミングといったITエンジニアリングのスキルと、組織や業務に関するビジネス知識を駆使して、（大量の）データから有用な結論や知見を導き出し、主にビジネス上の意思決定をサポートすること。なお、データサイエンスの仕事として、AIの実装が含まれることもある

　図3を見ると、一般的なデータ分析と比べて、データサイエンスの方が深い学術知識と高いITスキルがより求められることが分かりますね。

図3　データ分析とデータサイエンスの違い
※単純化して図示している。このようにはっきりと区別できるわけではなく、使う手法やツールなどは重複している場合がある。

　図4を見ると、データサイエンスとAIの大きな違いは、「分析結果から得られたインサイト（洞察）によって“人間”が意思決定すること」に重きを置くか、「予測など何らかの処理を自動化／効率化する“ソフトウェア”（を作成すること）」に重きを置くか、という点にあることが分かりますね。例えば、売り上げデータを分析して人気が上昇する可能性のある商品を特定して、その商品をより効果的に売り出す意思決定をすることは、「データサイエンス」と言えます。また例えば、ChatGPTのようにチャット形式で文章を自動的に生成するソフトウェアは、「AI」と言えます。

図4　データサイエンスとAIの違い
※単純化して図示している。このようにはっきりと区別できるわけではなく、使う手法やツールなどは重複している場合がある。

　これらの定義を見て、

　やっぱり自分には関係ないかな？！

と思った方、ちょっと待ってください！　「これらを知らない」では済まされない時代になってきているからです。これについて次に説明します。

AI・データサイエンスを学ばなければならない理由

　今は生成系AIが話題になっていることから、「知っておいた方がいいのかな」と気になっている人は少なくないと思います。実際に、大学や企業などでチャットAIの利用に関するガイドラインを発表することが増えてきており（例えば東京大学のガイドラインや、日本ディープラーニング協会が公開している企業向けひな型ガイドラインなど）、学術領域やビジネス領域での生成系AIの利用が徐々に広がってきていると感じられますよね（ちなみに大学方面では「生成系AI」と表記され、ニュースでは「生成AI」と表記されることが多い、と筆者は感じていますが、本連載では「生成系AI」という表記で統一しました）。

　AIは、すでに人ごとではなくなりつつあるのです。これまで「AI」と言えば「専門家が“作る”ものであり、自分には関係がない」と考えていた人が多いのではないかと思います。しかしこれからは、企業でのAI利用の成功事例が認知されるにつれ、専門家ではない普通の社会人であっても「事務的な仕事はAIを使って効率化しよう」（図5）という話が多く出てくるようになるでしょう。今後、多くの社会人はAIを“使う”ことからは逃げられなくなる、と筆者は予想しています。

図5　データとデジタル技術の活用のビフォー／アフター（1）

　また、「今の中学生や高校生、大学生は、授業／講義でAI・データサイエンスを学んでいる」という事実を知っているでしょうか？　「どのような内容を学んでいるか」については『社会人1年生から学ぶ、やさしいデータ分析』の第1回で簡単に紹介されていますので、ぜひ参照してみてください。高校生は2023年4月（令和5年度）から始まった選択科目「情報II」でAI・データサイエンスを学んでいます。ちなみに、「情報II」の教員研修用教材を見ると、図6のように高校生が分かる「レベル感」と「図解＆体験」となっており、これなら多くの社会人が学べそうですよね。本連載でもこのレベル感を目指しています。

図6　「レベル感」と「図解＆体験」（高等学校情報科「情報II」教員研修用教材から引用して加工）

　2025年からは、高校や大学で学ぶ「AI・データサイエンス」の基礎知識＆スキルを持った新卒が会社に入社してくるようになります（参考：「5分で分かるデータサイエンス」「編集後記『Deep Insiderの2023年の方針』」）。よってすでに社会人の方、特にソフトウェアエンジニアは、2023年の今からAI・データサイエンスについて少しずつゆるーく学び始めるのがベストではないでしょうか。

　企業の経営者や管理職の観点では、データを分析して現状把握や将来予測、より迅速な意思決定ができるようになることが、AI・データサイエンスの大きなメリットです（参考：「5分で分かるデータ分析」）。データに基づいてビジネス上の意思決定（図7）を行う企業経営は「データドリブン経営」と呼ばれ、近年、注目を集めています。

図7　データとデジタル技術の活用のビフォー／アフター（2）

　以上が、AI・データサイエンスを学ばなければならない理由です。学ぶモチベーションが落ちてきたら、以上の内容を振り返ってみることをお勧めします。

AI・データサイエンスの整理と全体像

　AI／データ分析／データサイエンスの大ざっぱな全体像を図8にまとめました。すでに説明済みですが、データ分析は統計処理を中心に活用し、データサイエンスは統計的手法だけでなく機械学習／ディープラーニングも活用します。AIは機械学習／ディープラーニングを中心に活用します。

図8　AI／データ分析／データサイエンスの大ざっぱな全体像
※単純化して図示している。このようにはっきりと区別できない場合がある。

　また、AIについて本連載では、大まかに、

分析系AI： 数値解析、分類、グループ分けなど
識別系AI： 画像認識、文章の感情判定など
生成系AI： 画像生成、文章生成など

という3つに分類することにしました。「どのようなAIが考えられるか」について、それぞれ簡単に例を挙げて紹介します。

分析系AI

　ここで言う「分析系AI」とは、古くからある統計処理なども含むさまざまな「データ分析」を、自動化／効率化したソフトウェアを指します。データ分析には、例えば平均値やグラフ化、相関といった基本的な統計処理（記述統計と呼ばれる）から、一部のサンプルデータ（＝標本）からデータ全体（＝母集団）の性質を推測する統計処理（推測統計と呼ばれる）や、「表形式データ」から次の数値データを予測する統計処理／機械学習（回帰分析と呼ばれる）、その他のさまざまな統計的手法や機械学習／ディープラーニングなどが含まれます。図9は表計算ソフトを使ったデータ分析／データサイエンスの例です（これを自動化などすれば「分析系AI」とも呼べますね）。

図9　表形式データで売り上げの予想（＝回帰分析）や基礎的な統計処理（＝相関）

　なお、「回帰分析」という難しい用語が登場しましたが、「回帰」とは以下のような意味です。同類の用語に「分類」や「クラスタリング」もあるので、一緒に覚えておきましょう（参考：「5分で分かるデータ分析」）。

回帰： データから数値を予測すること。例えば「過去の売り上げデータから来月の売上金額を予測する」など
分類： 各データの分類を予測（＝判別）すること。例えば「各画像データの分類が犬か猫かを判別する」など
クラスタリング： データをグループ分けすること。例えば「成績データを文系向きと理系向きにグループ分けする」など

　回帰分析の典型的な例が、賃貸住宅価格の予測です。部屋数や面積、駅からの距離など複数の項目データ（説明変数と呼ばれる）から、対象となる賃貸住宅価格（目的変数と呼ばれる）を予測します。なお、賃貸住宅価格の回帰分析を「AI」として実施する場合、「価格の予測」（を自動化／効率化する“ソフトウェア”）に重きが置かれます。一方で、「データ分析／データサイエンス」として実施する場合、予測よりも「価格がどうやって決まるか」という分析結果（と、それに基づき“人間”が行う意思決定）の方に重きが置かれる、という違いがあります（前掲の図4でも説明しました）。

　回帰分析は、例えば「部屋数が価格決定にどれくらい寄与（＝影響）したのか」が数値として分かりますので、予測結果の理由が誰にとっても分かりやすいという特長があります（解釈性や説明可能性と呼ばれます）。このため回帰分析は、データ分析／データサイエンスの際に非常によく使われているようです。

　分析系AIを自分の業務に当てはめてイメージしやすいように、代表的な例を紹介しておきます（参考：『金融AI成功パターン』。「金融」の事例ですが、他の業界にも応用可能だと思います）。

需要予測AI： 例えば「どの時間帯に商品がどれくらい売れるかの予測」など。時系列（＝時間順に並ぶ）データでの回帰
価値算出AI： 先ほども例示した「賃貸住宅価格の予測」など。回帰
審査／判別AI： 例えば「人ごとにお金を融資する際に貸し倒れになるかの判別（いわゆる与信審査）」など。分類
ターゲティングAI： 例えば「人ごとにメール送信の効果が高いかの判別」など。分類
不正検知／異常検知： 例えば「クレジットカードの使用ごとに不正かの判別」など。分類（＋ルールベースの不正検知との組み合わせが有効）

　全く同じAIの活用方法はあまりないかもしれませんが、よくあるAIの活用パターンは、上記のようにある程度、決まっていると筆者は考えています。上記の5つのパターンを参考に、各自が持つデータや業務ごとにどのような分析系AIが可能かを考えてみるとよいでしょう。

識別系AI

　2012年頃から「ディープラーニング」というAI用語が約10年近く流行してきました。この時に話題になったのが、画像データが「猫かどうか」を判別できる、つまり画像認識などを行う「識別系AI」で、その認識／識別の精度（＝性能）が徐々に人を上回るようになってきました。図10はMicrosoft Lobeという画像認識AIツールを使った識別系AIの例です（参考：「画像認識の機械学習を、無料で誰でも簡単に作れる『Microsoft Lobe』」）。

図10　画像データで紅茶の種類の自動識別

　先ほどの分析系AIは主に表形式データ（構造化データと呼ばれる）を扱うのに対し、識別系AIは主に画像／動画／テキスト／音声などのデータ（非構造化データと呼ばれる）を扱う、という違いがあります。識別系AIは分析系AIよりもイメージしやすいのではないかと思います。識別系AIの代表的な例を簡単に示しておきます。

画像認識AI： 例えば「手書き文字の認識」や「メロン等級の自動判別」など
文章認識AI： 例えば「映画の感想テキストがポジティブかネガティブかの感情判定」や「文章から固有名詞の抽出」など
音声認識AI： 例えば「AmazonのスマートスピーカーのAlexa」や「YouTubeの自動文字起こし機能」など

生成系AI

　さらに2022年8月頃から「画像生成AI」や「チャットAI」が大流行して今に至ります。生成系AIも、識別系AIと同様に、その生成の精度（＝性能）が徐々に人を上回るようになってきました。図11はChatGPTというチャットAI（文章生成AI）ツールを使った生成系AIの例です。

図11　チャットAIでの返答テキストの自動生成

　説明するまでもないと思いますが、生成系AIの代表的な例を簡単に示しておきます。

画像生成AI： 例えば「テキストを入力することで画像が生成されるStable Diffusion」など
文章生成AI： 例えば「テキストを入力することで返答のテキストがチャット形式で生成されるChatGPT」など
音声合成AI： 例えば「入力されたテキストを話す」「音楽を作曲する」など

　以上、大まかに分析系AI／識別系AI／生成系AIという3つの分類でAIを紹介しました。もちろんこの分類では整理しづらいAIや、複数の分類に属するAIもあります。例えば「この本を買った人にはこちらもお勧め」のようなレコメンデーション機能も「AI」と言えますし（※しいて整理するなら分析系AIになります）、チャットAIはテキストを認識した上でテキストを生成しているので「識別系AIであり、かつ生成系AIでもある」とも言えます。ですが本連載では、AI・データサイエンスの全体像をシンプルに理解できることを優先して、このようにまとめてみました。