生成系AIを中心に、今、データ&AI活用が一般社会に広まってきています。そもそも「データ」や「AI」「データ分析」「データサイエンス」とは何なのか。それらの概念を説明し、AI・データサイエンスの全体像を整理します。さらに、社会人がAI・データサイエンスを学ばなければならない理由と学ぶ方法を紹介します。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
最近は、テレビの経済ニュース番組などでChatGPTという生成系AIが毎日のように取り上げられるなど、かつてないほどAIが盛り上がっていますよね。そんな時代ですので、皆さんの社内でも、
AIとデータを活用しよう!
という話が出やすい状況ではないかと思います。
しかしそういう話になっても、
AIやデータを活用するのに、何を学べばよいのかが分からない
本を手に取ってみたが、自分には難しそう
といった感想を持っている人も少なくないのではないかと思います。
そんな普通の人、具体的にはAIやデータ分析/データサイエンスをこれまでに学んだことがない社会人(図1)に向けて、本連載では基礎中の基礎となる「データ&AIを活用したいなら、最初に知っておくべき全体概要」を紹介していきます。社会人1年目からすぐに学び始められるように、手を動かして体験しながら学べるやさしい内容です。構えずに「ちょっと試してみよう」と気軽な気持ちで読み進めてみてください。
今回は、初回なので手を動かす体験はないのですが、以下のように「AI・データサイエンスの概要」について紹介します。
この連載では、人工知能(AI)やデータ分析/データサイエンスをこれまでに学んだことがない社会人(新卒の社会人1年生からベテラン社員まで大歓迎!)に向けて、「データ&AIを活用したいなら、最初に知っておくべき全体概要」、具体的にはAI・データサイエンスの概要と、データ分析(数値予測などの分析系AI)、画像認識などの識別系AI、文章生成などの生成系AIを紹介します。
難しい知識の習得よりもシンプルな経験を重視して、手を動かして体験しながら学べる内容ですので、肩の力を抜いてぜひとも気楽に読み進めてください。
筆者紹介: @ITのDeep Insider編集部の編集長。2017年にAIの「G検定」(第1回)に合格し、2022年に「データサイエンティスト検定 リテラシーレベル」に合格。はてなブックマーク(アカウント名:misshiki)でAI&データサイエンスの最新情報をウオッチ中。考えるための補助ツールとしてChatGPTも時々使っています。
最初に「AI/データ分析/データサイエンスって何なの?」という話から始めていきます。
これらに共通するのは「デジタルデータ」を活用することです。そもそもデータとは、事実や情報の集まりのことです。もっと具体的にいうと、数値やテキストなどで構成された表形式データや、テキスト/画像/動画/音声などのことです(図2)。この他にも、紙の書籍や新聞、手書きのメモ、体重や身長、料理の具材と分量など、あらゆる情報が「データ」と言えますが、ここでいうデジタルデータとは、パソコン(PC)などのコンピュータ上で扱えるように電子的(デジタル)な情報に変換されたデータのことです。
「AI」「データ分析」「データサイエンス」という用語には厳密な定義文が存在するわけではないので、ここでは筆者なりに以下のように定義しておきます(※それぞれのより詳しい定義と説明を知りたい場合は、各名称のリンク先を参照してください)。ちなみに、AI/データ分析/データサイエンスなどは、まとめてデジタル技術と表現される場合があるので、覚えておくとよいでしょう。
図3を見ると、一般的なデータ分析と比べて、データサイエンスの方が深い学術知識と高いITスキルがより求められることが分かりますね。
図4を見ると、データサイエンスとAIの大きな違いは、「分析結果から得られたインサイト(洞察)によって“人間”が意思決定すること」に重きを置くか、「予測など何らかの処理を自動化/効率化する“ソフトウェア”(を作成すること)」に重きを置くか、という点にあることが分かりますね。例えば、売り上げデータを分析して人気が上昇する可能性のある商品を特定して、その商品をより効果的に売り出す意思決定をすることは、「データサイエンス」と言えます。また例えば、ChatGPTのようにチャット形式で文章を自動的に生成するソフトウェアは、「AI」と言えます。
これらの定義を見て、
やっぱり自分には関係ないかな?!
と思った方、ちょっと待ってください! 「これらを知らない」では済まされない時代になってきているからです。これについて次に説明します。
今は生成系AIが話題になっていることから、「知っておいた方がいいのかな」と気になっている人は少なくないと思います。実際に、大学や企業などでチャットAIの利用に関するガイドラインを発表することが増えてきており(例えば東京大学のガイドラインや、日本ディープラーニング協会が公開している企業向けひな型ガイドラインなど)、学術領域やビジネス領域での生成系AIの利用が徐々に広がってきていると感じられますよね(ちなみに大学方面では「生成系AI」と表記され、ニュースでは「生成AI」と表記されることが多い、と筆者は感じていますが、本連載では「生成系AI」という表記で統一しました)。
AIは、すでに人ごとではなくなりつつあるのです。これまで「AI」と言えば「専門家が“作る”ものであり、自分には関係がない」と考えていた人が多いのではないかと思います。しかしこれからは、企業でのAI利用の成功事例が認知されるにつれ、専門家ではない普通の社会人であっても「事務的な仕事はAIを使って効率化しよう」(図5)という話が多く出てくるようになるでしょう。今後、多くの社会人はAIを“使う”ことからは逃げられなくなる、と筆者は予想しています。
また、「今の中学生や高校生、大学生は、授業/講義でAI・データサイエンスを学んでいる」という事実を知っているでしょうか? 「どのような内容を学んでいるか」については『社会人1年生から学ぶ、やさしいデータ分析』の第1回で簡単に紹介されていますので、ぜひ参照してみてください。高校生は2023年4月(令和5年度)から始まった選択科目「情報II」でAI・データサイエンスを学んでいます。ちなみに、「情報II」の教員研修用教材を見ると、図6のように高校生が分かる「レベル感」と「図解&体験」となっており、これなら多くの社会人が学べそうですよね。本連載でもこのレベル感を目指しています。
2025年からは、高校や大学で学ぶ「AI・データサイエンス」の基礎知識&スキルを持った新卒が会社に入社してくるようになります(参考:「5分で分かるデータサイエンス」「編集後記『Deep Insiderの2023年の方針』」)。よってすでに社会人の方、特にソフトウェアエンジニアは、2023年の今からAI・データサイエンスについて少しずつゆるーく学び始めるのがベストではないでしょうか。
企業の経営者や管理職の観点では、データを分析して現状把握や将来予測、より迅速な意思決定ができるようになることが、AI・データサイエンスの大きなメリットです(参考:「5分で分かるデータ分析」)。データに基づいてビジネス上の意思決定(図7)を行う企業経営は「データドリブン経営」と呼ばれ、近年、注目を集めています。
以上が、AI・データサイエンスを学ばなければならない理由です。学ぶモチベーションが落ちてきたら、以上の内容を振り返ってみることをお勧めします。
AI/データ分析/データサイエンスの大ざっぱな全体像を図8にまとめました。すでに説明済みですが、データ分析は統計処理を中心に活用し、データサイエンスは統計的手法だけでなく機械学習/ディープラーニングも活用します。AIは機械学習/ディープラーニングを中心に活用します。
また、AIについて本連載では、大まかに、
という3つに分類することにしました。「どのようなAIが考えられるか」について、それぞれ簡単に例を挙げて紹介します。
ここで言う「分析系AI」とは、古くからある統計処理なども含むさまざまな「データ分析」を、自動化/効率化したソフトウェアを指します。データ分析には、例えば平均値やグラフ化、相関といった基本的な統計処理(記述統計と呼ばれる)から、一部のサンプルデータ(=標本)からデータ全体(=母集団)の性質を推測する統計処理(推測統計と呼ばれる)や、「表形式データ」から次の数値データを予測する統計処理/機械学習(回帰分析と呼ばれる)、その他のさまざまな統計的手法や機械学習/ディープラーニングなどが含まれます。図9は表計算ソフトを使ったデータ分析/データサイエンスの例です(これを自動化などすれば「分析系AI」とも呼べますね)。
なお、「回帰分析」という難しい用語が登場しましたが、「回帰」とは以下のような意味です。同類の用語に「分類」や「クラスタリング」もあるので、一緒に覚えておきましょう(参考:「5分で分かるデータ分析」)。
回帰分析の典型的な例が、賃貸住宅価格の予測です。部屋数や面積、駅からの距離など複数の項目データ(説明変数と呼ばれる)から、対象となる賃貸住宅価格(目的変数と呼ばれる)を予測します。なお、賃貸住宅価格の回帰分析を「AI」として実施する場合、「価格の予測」(を自動化/効率化する“ソフトウェア”)に重きが置かれます。一方で、「データ分析/データサイエンス」として実施する場合、予測よりも「価格がどうやって決まるか」という分析結果(と、それに基づき“人間”が行う意思決定)の方に重きが置かれる、という違いがあります(前掲の図4でも説明しました)。
回帰分析は、例えば「部屋数が価格決定にどれくらい寄与(=影響)したのか」が数値として分かりますので、予測結果の理由が誰にとっても分かりやすいという特長があります(解釈性や説明可能性と呼ばれます)。このため回帰分析は、データ分析/データサイエンスの際に非常によく使われているようです。
分析系AIを自分の業務に当てはめてイメージしやすいように、代表的な例を紹介しておきます(参考:『金融AI成功パターン』。「金融」の事例ですが、他の業界にも応用可能だと思います)。
全く同じAIの活用方法はあまりないかもしれませんが、よくあるAIの活用パターンは、上記のようにある程度、決まっていると筆者は考えています。上記の5つのパターンを参考に、各自が持つデータや業務ごとにどのような分析系AIが可能かを考えてみるとよいでしょう。
2012年頃から「ディープラーニング」というAI用語が約10年近く流行してきました。この時に話題になったのが、画像データが「猫かどうか」を判別できる、つまり画像認識などを行う「識別系AI」で、その認識/識別の精度(=性能)が徐々に人を上回るようになってきました。図10はMicrosoft Lobeという画像認識AIツールを使った識別系AIの例です(参考:「画像認識の機械学習を、無料で誰でも簡単に作れる『Microsoft Lobe』」)。
先ほどの分析系AIは主に表形式データ(構造化データと呼ばれる)を扱うのに対し、識別系AIは主に画像/動画/テキスト/音声などのデータ(非構造化データと呼ばれる)を扱う、という違いがあります。識別系AIは分析系AIよりもイメージしやすいのではないかと思います。識別系AIの代表的な例を簡単に示しておきます。
さらに2022年8月頃から「画像生成AI」や「チャットAI」が大流行して今に至ります。生成系AIも、識別系AIと同様に、その生成の精度(=性能)が徐々に人を上回るようになってきました。図11はChatGPTというチャットAI(文章生成AI)ツールを使った生成系AIの例です。
説明するまでもないと思いますが、生成系AIの代表的な例を簡単に示しておきます。
以上、大まかに分析系AI/識別系AI/生成系AIという3つの分類でAIを紹介しました。もちろんこの分類では整理しづらいAIや、複数の分類に属するAIもあります。例えば「この本を買った人にはこちらもお勧め」のようなレコメンデーション機能も「AI」と言えますし(※しいて整理するなら分析系AIになります)、チャットAIはテキストを認識した上でテキストを生成しているので「識別系AIであり、かつ生成系AIでもある」とも言えます。ですが本連載では、AI・データサイエンスの全体像をシンプルに理解できることを優先して、このようにまとめてみました。
最後に、AI・データサイエンスをどうやって学べば良いかについて紹介します。
AI/データ分析/データサイエンスをまとめてバランスよく学べるコンテンツはなかなかありません。それぞれ個別に学ぶ必要があるわけですが、本連載ではAIを軸に全体概要を学べるようにしてみました。特にAIの活用については、本連載から緩く気楽に学び始めることをお勧めします。
データ分析については、連載『社会人1年生から学ぶ、やさしいデータ分析』で学ぶことをお勧めします。2023年4月から始動した新連載で、約9カ月かけて記事を公開していくのでゆっくりと学んでいくことができます。
より高度なデータサイエンスについては、上記のデータ分析だけでなく、Python言語によるプログラミングや、Pythonによるデータ処理、機械学習の考え方や実践方法についても学ぶ必要があります。
Python言語については連載『Python入門』で、Pythonによるデータ処理については連載『Pythonデータ処理入門』で学ぶことをお勧めします。
機械学習については、本連載の終了後に連載『機械学習入門』を開始する予定ですので、ぜひ続けて読んでいただけるとうれしいです。
本連載は次回以降、
という3本の体験型の記事を展開しています。前掲の図9/図10/図11で例示したようにデータ分析やAIを手軽に実践するためのツールも増えてきていますので、自分で実践する際もそれほど難しい作業ではなくなってきています。
次回は「初めてのデータ分析」ということで、手軽な表計算ソフトを使ってデータ分析を体験してみることにします。お楽しみに。
Copyright© Digital Advantage Corp. All Rights Reserved.