2022年は、Stable Diffusion、OpenAI Whisper、ChatGPTなど、高品質な大規模AI/機械学習モデルが幾つも登場し、データサイエンティスト以外の非エンジニアにも大きな注目を集めた。2023年の「AI/機械学習」界わいはどう変わっていくのか? 幾つかの情報源を参考に、6個の予測を行う。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
年末なので、2020年/2021年/2022年に続き今年も、来年2023年向けの「AI/機械学習の予測」をしてみようと思う。とはいっても、未来を予言できるほどの情報力も自信も筆者にはないので、幾つかのサイトからの情報源(本稿の最後に掲載)を大いに参考にして、筆者なりの考えをまとめてみる。本稿では、下記の6項目を予想した。
上記の幾つかの技術は、説明の切り口が違うだけで内容がオーバーラップしていることを、あらかじめご容赦いただきたい。知っておくべき重要なキーワードは、分かりやすく項目タイトルに出すことを重視したためである。
それではさっそく、1つ目から順に紹介していこう。なお、番号順は優先度/可能性順というわけではなく、単に書いた順である。
2022年の8月以降では、
などが登場し、なんとこれらがオープンソースであった。オープンソースなので、手元で動かして楽しんだり、さまざまなカスタマイズを試したりしやすい。そうした内容がSNS上に多数投稿されることで、これらの最先端AIの人気が爆発した。
大規模なAIの構築には非常にお金がかかるとされている。一般の個人や中小企業が通常は手にしづらいものがオープンソースで公開されたことは、AIの歴史上でも大きな出来事だと筆者は考えている。2022年9月に公開されたStable Diffusionの記事では、筆者は以下のようにコメントした。
私は「Stable Diffusion登場前と後で世の中は変わってしまった」と考えています。
「変わってしまった」とそこまで強く主張する理由は、Midjourneyまではソースコードが非公開でしたが、Stable Diffusionはオープンソースだからです。オープンソースということは、誰もが手元で使えるようになったということです。
私の目には、Stable Diffusionを基点にさまざまな企業や人がこの技術を使って何かしらのサービスを作ったりしてさらに発展していくように映りました。覆水盆に返らず。始まった大きなうねりはもう止められない、というのが主張の理由です
2023年は、オープンソースがメガトレンドになるのは間違いない(と筆者は考えている)。それにより技術発展がさらに加速していくだろう。
Stable Diffusionの成功を見たから、OpenAIはWhisperや、テキストから3Dモデルを生成する「Point-E」などをオープンソースで公開した、と筆者は考えている。2023年はこれらの成功を見て、さらに多くの企業や組織が大規模AIをオープンソースで公開していくのではないだろうか。また、オープンソースであるがゆえに、2022年8月以降に起きた大きなAIブームや技術発展がまた繰り返されるだろう。
上の予測項目と関連もしくは重複する内容ではあるが、別の切り口から見ると、2022年8月以降は「Stable Diffusion」「OpenAI Whisper」「ChatGPT(図2)」といった生成系AI(Generative AI)が多数登場して、業界内のデータサイエンティストやAI(機械学習)エンジニアといった専門職にとどまらず、ソフトウェアエンジニアやイラストレータ、さらには一般のビジネスパーソンにまで大きな注目を集めた。
2022年12月下旬現在でも、先ほど挙げたPoint-Eなど新たな生成系AIが登場し続けている。この勢いが2023年に突然、終わってしまうとは考えられない。
2023年は、生成系AIがさらに発展するとともに、これらの亜種や、別の活用領域への展開、全く別の新しい生成系AIが登場し、それに世間が大注目する可能性が極めて高いのではないだろうか。
2022年は、上記の通り、試しやすい「ChatGPT」や「OpenAI Whisper(図3)」が登場したことで、AI関係者以外の一般のビジネスパーソンがAIに触れたり知ったりする機会が増えた。つまりAIが個人にとっても企業にとってもより身近になってきた、民主化してきたということだ。
また、日本の経済産業省が2022年12月に「デジタルスキル標準」として、
を取りまとめて公開した。データ分析やAIのようなデジタル技術の活用と、その元となるデータの活用について、国による一つの指針が示されたわけである。2022年に流行した「リスキリング」のかけ声とともに、各企業でのデータ活用やAI活用には今、追い風が吹いている状況だ。
2023年は、こういった最近の情勢を受けて、実際の現場でデータとAIを活用する機運がさらに高まり、実際に使用が増加する、つまりデータ&AI活用の民主化がさらに進むだろう、と予想している。ちなみにDeep Insiderでも2023年は、データ&AI活用を始めるための入門コンテンツを増やしていきたいと考えているので、気になる方はぜひ@ITのDeep Insiderをウオッチしていただけるとうれしい。
関連として、「ハイパーオートメーション」という言葉も2023年のトレンド予測でよく出る用語だ。これは、特定の業務の自動化にとどまらず、AIやRPA(ロボティック・プロセス・オートメーション)などのさまざまなデジタル技術と自動化ツールを組み合わせることで、複数の業務を連動させて自動化させる、という概念である。
2022年は「Stable Diffusion」や「ChatGPT」が注目された一方で、「生成系AIによって生成した画像やテキストを投稿しないように」などの制約を課したサイトやサービスが幾つか出てきた。例えば海外の人気Q&Aサイト「Stack Overflow」ではChatGPTの投稿を一時的に禁止するポリシーを発表している(図4)。いかにももっともらしい不正解の回答が大量に投稿されたことがこの禁止の理由である。今や、AIで生成したものと、人間が作成したもので見分けが付きにくくなってきているため、このような規制/ポリシーでしか排除できないという問題がある。
一方で生成系AIの投稿を何とかサイト/サービス内に取り込もうとする動きもある。例えばイラスト投稿サイト「pixiv」では従来のイラスト作品とAI生成作品を区別する機能などがリリースされている。また、画像素材サイト「Adobe Stock」ではAI生成作品の受け入れとその規約について発表している。
生成された作品だけでなく、学習元となる画像やテキスト、コードの著作権などの権限についても、非難や訴訟などの問題が発生している。例えば生成系AIの一つであるNovelAIは、「無断転載されたイラストがある」と言われるアニメ画像サイト「Danbooru」から学習しているとして批判が噴出した。また、コーディング支援AIの「GitHub Copilot」が、「著作権で保護されたコードを生成している」と批判され、著作権侵害として訴訟が起こされている。
ここで紹介したものは、2022年に起こった問題やその対策のほんの一部である。こういった「生成系AIの光と陰」の「陰」の部分が、2023年は問題としてより明らかになり、懸念や議論が強まっていくだろう。
この他の懸念点として、2022年12月に公開されたChatGPTの記事で以下のようにコメントした状況が訪れてしまう可能性もある。
ChatGPTなどで生成された少し間違った情報がインターネット上に増えれば、少し間違った情報をまた学習してもっと間違った情報を生成するはずなので、インターネットの品質が徐々に壊れていく可能性もちょっと想像できてしまいますね。
2022年に登場した「ChatGPT」のキーとなる技術がRLHF(Reinforcement Learning from Human Feedback)だ。これは、より人間にとって適切な生成(ChatGPTでは質問に対する回答)になるように、文字通り「人間のフィードバックを用いた強化学習」によりモデルをファインチューニング(=微調整)する手法である。
ChatGPT公式サイトでは、図5のように3つのステップでモデルを最適化する手法が説明されている(※その内容説明は簡単ではないので割愛する)。これはInstructGPTというモデルと同じ手法になっており、実際に図5はInstructGPT公式サイトの図とほぼ同じである。
RLHFによって非常に自然な回答になることがChatGPTで証明された、と言えるだろう。2023年は、このRLHFを多くの企業や組織、研究者が調査し、さまざまな応用例を世の中に出してくる可能性が高いのではないだろうか。
基盤モデル(Foundation Model)とは、テキスト/画像/音声/数値など複数のモダリティからの大量のデータで訓練され、その後のファインチューニングなどでさまざまなタスクに適応できる大規模モデルのことだ(図6)。つまりマルチモーダルかつマルチタスクなAIである。OpenAIが発表したGPT-3や、同じくOpenAIが発表して「Stable Diffusion」にも使われているCLIPなどがその代表例である。2021年にスタンフォード大学のHAI(人間中心のAI研究所)によって広められた用語で、2022年中に徐々に脚光を浴びるようになってきた。
2022年は、例えばDeepMindが発表した汎用(はんよう)型の人工知能であるGatoなどの基盤モデルが登場した。また、既に何度も出ているChatGPTやStable Diffusionも基盤モデルの一種と言えるだろう。
2023年もこの傾向は続き、より多くのマルチモーダル性を備え、より多くのタスクを実行可能という、機能性豊富な基盤モデルが続々と登場してくるのではないかと予想される。
以上、各情報源を参考にしつつ、筆者の実感を基に、6個の大予測をしてみた。この内容に賛成できる/できない、などの意見や感想もあると思うが、あくまで年末最後を記念した占い的な記事に過ぎない(※ざっくりとした根拠しかない)ので、その点は差し引いて捉えていただきたい。
2022年の皆さんのご愛読に感謝したい。2023年も引き続きのご愛読をお願いしたい。
Copyright© Digital Advantage Corp. All Rights Reserved.