生成AIの「オープン」「オープンソース」は本当なのか。オランダのラドバウド大学は、文章や画像を生成する46の生成AI(40の大規模言語モデルと6つの画像生成モデル)について、14の基準でオープン性を検証した論文を公開した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
オランダのラドバウド大学は2024年6月5日(中央ヨーロッパ時間)、生成AI(人工知能)のオープン性に関する論文を公開した。論文を執筆したのは同大学の言語コミュニケーション学科で助教授のアンドレアス・リーゼンフェルト氏とマーク・ディンゲマンセ氏だ。生成AIのオープン性に関する検証をした背景について、次のように説明している。
「この1年、オープンをうたう生成AIが急増している。しかし、それらは本当にどれだけオープンなのだろうか? 『生成AIにおけるオープンソースとは何か』という問題は、近い将来施行されるEU(欧州連合)のAI規制法において特に重要性を増す。AI規制法はオープンソースの生成AIモデルに対して一部の規制を緩和する特例を設けているためだ。生成AIのオープン性を評価することは急務となっている」
論文では「オープン」や「オープンソース」と説明されている46の生成AI(40の大規模言語モデル〈LLM〉と6つの画像生成モデル)について、トレーニングデータセット、技術文書、ライセンス、アクセス方法など14の観点から「オープン性スコア」という指標に基づきランク付けを実施した。その結果を以下の表に示している。
論文では検証結果について「多くの生成AIプロバイダーがトレーニングやファインチューニングに関するデータの情報を隠すことで、科学的、法的、規制上の精査を逃れようとしている。生成AIにおけるオープン性とは、複数の要素から構成されるものであり、アクセス性やライセンスなど、単一の特徴に依存してモデルをオープンかどうか判断するのはリスクがある。エビデンスに基づいてオープン性を評価することで、モデルが効果的に規制される。プロバイダーが責任を持ち、科学者が生成AIを精査することで、エンドユーザーが情報に基づいて意思決定をすることに役立つ」と述べている。
論文では同じ手法を用いて、6つの画像生成AIも検証している。
論文では、オープンとうたわれているモデルの内、AI研究を促進することを目的として共同開発された1760億パラメーターを持つLLMの「BloomZ」と、Metaが開発した700億パラメーターを持つ「Llama 2」を例に、オープン性の違いを次のように分析している。
BloomZはモデルのトレーニング、ファインチューニング、実行のためのソースコードを公開している。一方、Llama 2はモデルのソースコードが一切提供されておらず、モデルを実行するためのスクリプトのみが共有されている。
BloomZはモデルのトレーニングに使用されたデータセットの内容を公開している。一方、Llama 2は「Metaの製品やサービスからのデータを含まない、公開されているソースからの新しいデータのミックス」とのみ紹介している。
BloomZ、Llama 2ともにベースモデルのLLMのウェイトを公開している。だが、Llama 2のウェイトにアクセスするには同意書が必要だ。
BloomZは、ファインチューニングのためのトレーニングデータとして「xP3」(クロスリンガル・パブリック・プール・オブ・プロンプト)を公開している。一方、Llama 2はプレプリント(論文誌で出版される前の論文)で「指定されたガイドラインを適用した人間に基づく100万以上の大規模データセット(Meta報酬モデリングデータと呼ばれる)に基づいてファインチューニングが行われた」と記述しているが、データは非公開となっている。
ファインチューニング後のバージョンのモデルウェイトは、BloomZではオープンだが、Llama 2ではアクセスリクエストが必要だ。
BloomZには2つの関連するライセンスがある。ソースコードはOSI(Open Source Initiative)が承認したオープンソースライセンスである「Apache License 2.0」で提供され、モデルの重みは「BigScience RAIL(Responsible AI Licences) License v1.0」(以後、RAIL)の下でリリースされている。一方、Llama 2はMeta独自のコミュニティーライセンスの下でリリースされている。
どちらのライセンスも有害な使用ケースを制限することを目的としている。だが、モデル出力の表現方法に関する実装には重要な違いがある。RAILはユーザーに対して「機械生成されたテキストであることを明示的かつ理解可能な形で免責事項を述べずにコンテンツを生成してはならない」と規定しているが、Llama 2の場合は「Llama 2の出力を人間が生成したものであると表現してはならない」と規定している。Llama 2のライセンスは、AIが生成したコンテンツの使用に関して自由度を与えており、AIが生成したコンテンツを人間が作ったものと誤解させる可能性も高くなっている。
Copyright © ITmedia, Inc. All Rights Reserved.