IBM、2024年に注目すべき9つのAIトレンドを解説マルチモーダルAI、小規模言語モデル、シャドーAIなど

IBMは、2024年に注目すべき最も重要な9つのAIトレンドを公式ブログで解説した。

» 2024年02月16日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 IBMは2024年2月9日(米国時間)、2024年に注目すべき最も重要なAI(人工知能)トレンドを9つ挙げて解説した。記事の筆者は、データやAIに関する執筆やビデオ制作を手掛けるデーブ・バーグマン氏だ。

 記事では、「2022年は生成AIが爆発的に普及し始め、2023年はそれがビジネスの世界に根付き始めた。2024年は、研究者や企業がこの技術の飛躍的な進化を日常生活にどのように取り入れるかを模索する、AIの未来にとって極めて重要な年となるだろう」との見通しを示し、2024年に注目すべき9つの重要なAIトレンドを解説している。以下では、その概要を紹介する。

AIへの期待がより現実的なものに

 Gartnerのハイプサイクルによると、生成AIは「過度な期待のピーク期」に位置付けられており、今後は「幻滅期」に移行することになる。

 昨今のAIブームは、「ChatGPT」のようなスタンドアロンツールが話題を呼ぶことが多い一方で、インパクトのある多くの生成AIツールが、既存のツールを強化、補完する、企業環境の統合要素として実装されつつある。「Microsoft Office」の「Copilot」機能や、「Adobe Photoshop」の「Generative Fill」機能、さまざまな生産性支援/コラボレーションアプリケーションの仮想エージェントなどだ。

 日常的なワークフローのどの領域で、生成AIの活用に最初に弾みがつくかが、AIツールの将来に大きな影響を与えるだろう。

マルチモーダルAI(とビデオ)

 生成AIの次の進歩の波は、特定の領域におけるパフォーマンス向上だけでなく、複数の種類のデータを入力とするマルチモーダルモデルに焦点を当てたものになる。

 OpenAIの「GPT-4V」やGoogleの「Gemini」などのプロプライエタリモデルや、「LLaVa」「Adept」「Qwen-VL」などのオープンソースモデルのような新世代の学際的モデルは、自然言語処理(NLP)とコンピュータビジョンのタスクの間を自由に行き来できる。Googleが2024年1月下旬に発表した「Lumiere」は、テキストからの動画生成に加え、画像から動画を生成したり、画像を動画生成のスタイル参照に使用したりすることもできる。

 マルチモーダルAIの最も直接的な利点は、より直感的で汎用(はんよう)性の高いAIアプリケーションや仮想アシスタントに応用できることだ。ユーザーは、画像について質問し、自然言語による回答を得たり、何かを修理するための説明書を音声で求めると、手順説明とともに、視覚的な参考資料を入手したりできるようになる。

 より高いレベルのマルチモーダルAIは、モデルがより多様なデータ入力を処理できるようにし、より幅広く、豊富な情報をトレーニングと推論に利用することを可能にする。中でも動画は、モデルの能力向上に大きく貢献する可能性がある。

小規模言語モデルとオープンソースの進歩

 特定のドメインに特化したモデル、特にLLM(大規模言語モデル)では、パラメーター数を増やすことによる効果は、頭打ちになっている可能性がある。

 巨大モデルはAIブームを後押ししてきた。OpenAIのGPT-4モデルは、約1兆7600億パラメーターを持つとうわさされている。だが、数千億のパラメーターを持ち、大量の電力を消費するモデルをトレーニングし、維持するには、膨大な資金とサーバ群が必要になる。それらを確保できるのは、ごく一部の巨大企業だけだ。

 一方、小型言語モデルは、はるかに少ないリソースで済む。LLMで現在進んでいるイノベーションの多くは、より少ないパラメーターからより大きな出力を得る手法に集中している。最近の30〜700億パラメーターのモデル(特に、LLaMa、「Llama 2」、Mistralの基盤モデルを基に2023年に構築されたモデル)の進歩が示すように、モデルの小型化は、パフォーマンスをあまり犠牲にすることなく実現できる。

 オープンモデルのパワーは今後も成長し続けると予想される。Mistralは2023年12月、それぞれ70億パラメーターの8つのニューラルネットワークを統合したMoE(Mixture of Expert)モデル「Mixtral」をリリースした。Mistralは、Mixtralがほとんどのベンチマークで、Llama 2の70B(700億)パラメーターモデルの6倍の推論速度を記録しただけでなく、ほとんどの標準的なベンチマークで、はるかに大規模なOpenAIのGPT-3.5に匹敵するか、上回るパフォーマンスを発揮したと主張している。

 Metaは2024年1月、「Llama 3」モデルのトレーニングを開始したことを発表し、同モデルをオープンソース化することを確認した。モデルサイズなど詳細は公表されていないが、Llama 3はLlama、Llama 2のフレームワークを踏襲すると予想するのが妥当だろう。

 こうしたモデルの小型化は、「AIの民主化に貢献する」「モデルをより小型なデバイスでローカルに実行できるようになる」「AIの説明可能性を高める」という重要な恩恵をもたらす。

GPU不足とクラウドコスト上昇

 モデルの小型化傾向は、起業家の取り組みに加えて、必要性によって拍車が掛かりそうだ。クラウドコンピューティングのコスト上昇と、GPUなどハードウェアが入手しにくくなっていることが背景にある。

 現在、クラウドプロバイダーがコンピューティングの負担の多くを担っており、自社でインフラを維持するAI導入企業は比較的少ない。ハードウェア不足は、オンプレミスサーバをセットアップするハードルとコストを引き上げる一方だろう。長期的には、それがクラウドコストの上昇圧力になるかもしれない。プロバイダーが生成AI需要に効果的に対応するために、自社のデータセンターインフラの更新、最適化を進めるためだ。

 企業がこの不確実な状況を乗り切るには、モデルと導入/展開環境の両方で柔軟性が必要になる。モデルに関しては、必要性と実用性の観点から、より小型で効率的なモデルや、より大型で高パフォーマンスなモデルを適宜選択する必要がある。

モデルの最適化がより容易に

 よりコンパクトなモデルのパフォーマンスを最大化しようとする傾向は、オープンソースコミュニティーの最近の成果によって支えられている。

 多くの重要な進歩は、新しい基盤モデルによって促進されてきただけではない。トレーニング済みモデルのトレーニング、調整、微調整、アラインメントのための新しい手法とリソース(オープンソースのデータセットのような)によっても促進されてきた。今後もそうだろう。2023年に定着した注目すべき手法には、以下のようなものがある。

LoRA(Low-Rank Adaptation)

 トレーニング済みモデルの重みを凍結し、各トランスフォーマーブロックにトレーニング可能なレイヤーを注入する。これにより、更新が必要なパラメーターの数が大幅に減少する。

クオンタイゼーション(量子化)

 モデルのデータポイントを表現する精度を下げ(16bit浮動小数点から8bit整数に)、メモリ使用量を削減し、推論を高速化する。

DPO(Direct Preference Optimization)

 チャットモデルに通常使われるRLHF(人間のフィードバックを用いた強化学習)は強力だが、複雑で不安定だ。DPOは、同様の利点を約束する一方で、計算量が少なく、大幅にシンプルだ。

 これらの手法は新興企業やアマチュアなどに、以前は手の届かなかった洗練されたAI機能を提供することで、AIを取り巻く状況に変化を起こす可能性がある。

カスタマイズされたローカルモデルとデータパイプライン

 企業は2024年には、独自モデルの開発を通じて差別化を一層追求できる。適切なデータと開発フレームワークがあれば、既存のオープンソースAIモデルやツールを、ほぼあらゆる現実世界のシナリオに対応させることが可能だ。

 オープンソースモデルを利用すれば、企業は法外な金額のインフラ投資をせずに、独自データでトレーニングし、特定のニーズに合わせて微調整した強力なカスタムAIモデルを迅速に開発できる。これは、高度に専門的な語彙(ごい)や概念を使用する法律、医療、金融のような分野で特に意味を持つ。

 また、法律、金融、医療は、そこそこのハードウェアでローカルに実行できる小規模モデルから恩恵を受ける業種の代表例でもある。AIのトレーニング、推論、RAG(検索拡張生成)をローカルに保つことで、プロプライエタリなデータや機密性の高い個人情報が、クローズドソースモデルのトレーニングに使用されたり、第三者の手に渡ったりするリスクを回避できる。

 さらに、全ての知識をLLM自体に直接保存するのではなく、RAGを用いて関連情報にアクセスすることで、モデルサイズの縮小、速度のさらなる向上、コスト削減が可能になる。

より強力な仮想エージェント

 より洗練された効率的なツールが登場し、AIチャットbotに関する1年程度にわたる市場のフィードバックも得られており、企業が仮想エージェントのユースケースを、顧客向けチャットbotからさらに広げる準備が整ってきている。

 Stanford Institute for Human-Centered Artificial Intelligence(Stanford HAI:スタンフォード大学人間中心人工知能研究所)のディスティングイッシュト エデュケーション フェローであるピーター・ノービグ氏は、「2023年はAIとチャットができるようになった年といえる。2024年は、仮想エージェントがユーザーの代わりに、予約、旅行プラン作り、他のサービスへの接続などをやってくれるようになるだろう」と予測する。

 特に、マルチモーダルAIにより、仮想エージェントとのシームレスなやりとりの機会が大幅に増えそうだ。例えば、「ユーザーが冷蔵庫を開けてスマホのカメラを内部に向け、利用できる食材で作れるレシピをリクエストする」といったことが可能になる。

規制、著作権、倫理的なAIに関する懸念

 マルチモーダル機能の向上や、AI利用のハードルが下がっていることを背景に、ディープフェイク、プライバシーの悪用、バイアス(偏見)の永続化、さらにはCAPTCHAの回避なども、サイバー犯罪者にとってますます容易になる可能性がある。

 こうした動向に歯止めをかけるために、世界の各地域で規制の整備が進められている。

 欧州連合(EU)は2023年12月、人工知能法について暫定合意に達した。この法律では、顔画像などのスクレイピング、生体認証分類システム、社会的スコアリングシステム、社会的・経済的操作のためのAIの使用を禁止している他、安全、基本的権利、法の支配を脅かす可能性のあるAIシステムのカテゴリーを定義し、監視の対象にしようとしている。

 米国では、バイデン政権が2023年10月、連邦政府機関におけるAI技術の使用に関する包括的な大統領令を発表した。その数カ月前には、著名なAI開発会社から、AIの信頼とセキュリティに関する一定の規制枠組みを順守するとの自発的な確約を取り付けた。カリフォルニア州とコロラド州が、AIに関連する個人のデータプライバシー権に関する独自の法律を推進していることも注目される。

 中国は、AIが生成したコンテンツについての明確な表示の義務付けなど、正式なAI規制に向けてより積極的に動いている。LLMのトレーニングデータと生成コンテンツについて、真正性を要求する規制も導入される見込みであり、専門家はこれについて、LLMの出力を検閲する方針の表れと受け止めている。

 一方、コンテンツ生成に使われるAIモデルのトレーニングにおける著作物の役割は、依然として議論の的となっている。New York TimesがOpenAIに対して起こした著作権訴訟の結果は、AI関する今後の法律制定に大きく影響するかもしれない。

シャドーAI(と企業のAIポリシー)

 生成AIツールが普及し、使いやすくなったことで、企業にとっては、その利用による法律上、規制上、経済上の問題や、風評の発生を防ぐことが、ますます重要になっている。企業は、生成AIに関する慎重で首尾一貫した、明確なポリシーを持つだけでなく、「シャドーAI」(「BYOAI」とも呼ばれる)にも注意しなければならない。

 シャドーAIは、従業員がIT部門の承認や監督なしに、職場で使用するAIを指す。多くの消費者向けAIサービス(無料のものもある)では、非技術者でも生成AIツールを即座に使える。

 だが、こうした従業員は、進取の姿勢は良いとしても、セキュリティ、プライバシー、コンプライアンスに関する関連知識や視点が欠けているかもしれない。これは企業を大きなリスクにさらす可能性がある。従業員は知らないうちに、ユーザー入力を継続的に学習する一般向けAIモデルに企業秘密を漏らしてしまったり、自社独自のコンテンツ生成モデルのトレーニングに、著作権で保護された素材を使用したりして、自社が法的に訴えられる原因を作ってしまうかもしれない。

 これらの問題は、生成AIの危険性が、その能力とほぼ比例して高まっていることを示している。大きな力には大きな責任が伴う。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。