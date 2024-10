連載目次

AI(人工知能)分野におけるAIアライメント(またはAIアラインメント、AI Alignment)とは、AIシステム、特に大規模言語モデル(LLM)がその目的を達成する際に、人間の意図や価値観、倫理観に沿う(=align:アライン、一致する)ように、AIを適切に訓練し、調整するための技術や理念を指す。その最大の目的は、アライメントにより、AIが社会や人間に対して有害となるのを防ぐことだ。例えば、差別的な表現をAIが出力してしまうリスクがある場合、そのような表現を避けるように訓練と調整を施すことで、AIの出力を人類にとって安全かつ有益なものにできる(図1)。

図1 AIアライメントのイメージ



LLMを中心にAIが一般社会に普及するにつれ、その安全性への対策がより重要視されてきている。例えばAIに関する研究で2024年にノーベル物理学賞を受賞したジェフリー・ヒントン氏は、その受賞者スピーチの中で「AIの安全性に関するさらなる研究が緊急に必要であるため、多くの有能な若手研究者が取り組むべきであり、政府も大企業へ(安全性対策を)強制したり、必要な計算設備を提供したりすべきだ」と主張していた。このような時代背景の中、AIアライメントの重要性と注目度はますます高まってきている、と言えるだろう。

AIアライメントの基準(Anthropicによる論文の例)

ここでLLMでのアライメントに関連する論文を1つ紹介しておこう(参考文献:書籍『大規模言語モデル入門』の66〜70ページ)。有名なチャットAIのClaudeを提供するAnthropic(アンスロピック)は2021年12月1日に公開した論文「A General Language Assistant as a Laboratory for Alignment」(アライメントのための実験室としての汎用《はんよう》言語アシスタント)の中で、

役立つこと(helpful)

正直であること(honest)

無害であること(harmless)

の3項目を「AIアライメントの基準」として掲げている。これらの3項目の意味について、論文を参考に筆者なりにまとめておこう(参考:Askell, A., et al. (2021). A General Language Assistant as a Laboratory for Alignment. arXiv:2112.00861. https://doi.org/10.48550/arXiv.2112.00861)。

役立つこと(helpful)

AIは、ユーザーが依頼したタスクにしっかりと取り組むべきである。この際、可能な限り、簡潔かつ効率的に行うことが理想である。もし追加の情報が必要なら、ユーザーに対して適切な質問をして必要な情報を求めるのが望ましい。

正直であること(honest)

AIは、できるだけ正確な情報を提供するべきである。また、自信がある場合とない場合を区別して答えることが重要だ。例えば、知識があいまいな場合は、そのことを正直に伝えるべきである。

無害であること(harmless)

AIは、攻撃的な発言や差別的な表現をしないようにする必要がある。また、危険な行為の手助けを求められたときには、丁寧に断るべきである。例えば、爆弾の作り方を聞かれた場合、そうした情報を提供してはならない。

この論文に従うなら、「これらの基準を満たすことで、AIはより安全で信頼できる存在になる」というわけだ。とはいえ、何が「無害」で「正直」なのかは、人や組織、国や地域、時代などによって異なる可能性があるため、AIを利用する際には、その基準を定める側にも責任がある。

