情報処理推進機構（IPA）は2025年9月16日、「AIセーフティ評価ツール」をオープンソースソフトウェア（OSS）として公開した。このツールは、IPAのAI（人工知能）の安全に関する研究所AIセーフティ・インスティテュート（AISI）が開発したもので、AIの安全性を客観的に評価できるという。

AI技術の普及に伴い、有害情報の出力や偽情報の拡散、プライバシー侵害、AIシステムを狙った攻撃など、多様なリスクが顕在化している。AISI は「これらに対処するには、透明性や公平性、セキュリティを含むAIの安全性、つまり『AIセーフティ』の確保が不可欠だ」と指摘している。

AISIはこれまでAIセーフティの評価観点を整理したガイドを発行してきた。しかし「実際の評価には個別の評価項目設定や環境構築が必要で、事業者にとって負担が大きい点が課題だった」と振り返る。

この課題を解決するために開発されたのが、AIセーフティ評価ツールだ。汎用（はんよう）的な評価項目を利用し、AIシステムの安全状態を総合的に評価する。例えば、危険な質問に対する応答を検証することで、出力の安全性を測定できる。攻撃者の視点を取り入れた「自動レッドチーミング機能」も搭載し、AIシステムが想定外の利用や攻撃にどのように対処するかも自動で検証可能だ。

評価は「有害情報の出力制御」「偽誤情報防止」「公平性と包摂性」「プライバシー保護」「セキュリティ確保」など、10個の観点を対象とし、総合スコアとして可視化される。

このツールは、オープンソースライセンス「Apache License 2.0」の下で公開されている。AISIは今後、評価データセットやドメイン別の評価手法を集約し、「AIセーフティに関するハブとしての役割」を目指すという。