NIST、LLMのネタバレ制御など3つのシナリオでAIの社会的リスクと影響を評価するプログラム「ARIA」を発表「AIの機能を総合的な視点から評価する手法の確立を目指す」

NISTは、AIのリスクと影響を評価するプログラム「ARIA」を発表した。NISTは、ARIAの成果を通じて、AI技術の設計、開発、リリース、使用におけるガイドライン、ツール、方法論および指標を提供するという。

» 2024年06月20日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 米国国立標準技術研究所(NIST)は2024年5月28日(米国時間)、AI(人工知能)の能力と影響の理解を深めることを目的としたテスト、評価、妥当性確認、検証(TEVV)プログラム「Assessing Risks and Impacts of AI(以後、ARIA)」を発表した。

 ARIAは、あるAI技術を展開する際にそのAI技術が有効で、信頼性が高く、安全で、セキュリティとプライバシーが確保され、公正であるかどうかを、組織や個人が判断できるように支援することを目的としている。

 商務省標準技術担当次官兼NIST所長のローリー・E・ロカシオ氏は「ARIAは、AI技術の利用が拡大する中で、現実世界のニーズに応えるように設計されている。この新たな取り組みは、米国AI安全研究所を支援し、NISTの研究コミュニティーとの既に広範な関わりをさらに拡大し、現実世界におけるAIの機能性をテスト、評価するための信頼性の高い手法の確立に役立つ」と述べている。

AIをどのようにテスト、評価するのか

 ARIAプログラムの初期評価(ARIA 0.1)では、大規模言語モデル(LLM)の社会的影響力やリスクに焦点を当てたパイロット試験が実施される。具体的には、「TV Spoilers(TVシリーズのネタバレ情報を制御する能力)」「Meal Planner(異なる人口集団向けに食事プランをパーソナライズする能力)」「Pathfinder(旅行計画を合成する能力)」という3つのシナリオにおいて、次の3つのテストレベルに基づいてLLMを評価する。

  • モデルテスト:AIモデルの性能と精度をテストし、基本的な動作を評価する
  • レッドチーミング:システムの脆弱(ぜいじゃく)性を探し出し、悪用のリスクを評価する
  • フィールドテスト:現実世界の環境でAIシステムをテストし、パフォーマンスを評価する

 NISTのARIAプログラムリーダーであるレバ・シュワルツ氏は「ARIAは、人々がAI技術を使用する際に何が起こるかなど、AIシステムをコンテキストに基づいて評価する。これによって、AI技術の純粋な影響を、より広範で総合的な視点から評価できるようになる」と述べている。

 NISTはARIAの成果を通じて、AI技術の設計、開発、リリース、使用におけるガイドライン、ツール、方法論および指標を企業に提供する方針だ。これにより、企業はより安全で信頼性の高いAIシステムを構築できるようになるとしている。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。