用語「透明性(Transparency)」について説明。機械学習のプロセスや内容が誰にでもはっきりと分かるようになっていること、またはそのような状態にすることを指す。
透明性(Transparency)とは、通常の意味では、「ガラスの箱」のように、対象物の中身が透けて見えている状態を指す。AI/機械学習においても同様の意味で、機械学習のプロセス全体や各工程内の内容が、誰にでもはっきりと分かるようになっている状態を指す。
また、透明なAI(Transparent AI)とは、透明性を高めたAIのことを指す。
なぜこれらの用語が、わざわざ存在するのだろうか。それは次のような背景があるからだ。
そもそもAIや機械学習のソリューションは、複雑で不透明であることが多い。「一体どのようなデータセットから学習したAIなのか?」「どのように訓練&評価して機械学習モデルが作成されたのか?」などの詳細情報は、分かりやすく明示されていないことがほとんどなのである。
しかしそのようなAI/機械学習モデルを実利用する段階になると、
工程や作成方法のはっきりしないものは信頼して使えない
という懸念が、各所から表明されることになる。例えばデータセットやモデルが不透明な場合、機械学習の研究者にとっては再現性の問題が生じるだろう。また、AIシステムの開発者にとっては、「どうやって作られたか」がよく分からないモデルを無責任に利用する判断は安易に下せないという問題が生じる可能性がある。データセットやモデルの透明性が高ければ、研究者はさらにモデルを改善する研究が行えるし、開発者は責任を持って「機械学習モデルを使うべきか」を判断できるはずである。
このような背景から、機械学習のプロセス/データ/モデル作成方法などを透明化する必要性が叫ばれているのだ。実際に、ここ近年(2019年9月執筆)、透明性に関する研究論文などが発表されてきている(※以降の「手法・技術」の説明は、2019年9月18日開催の「Google Developers ML Summit Tokyo : Human-Centered Machine Learning」でのAndrew Zaldivar氏のセッション「Transparent AI: A Framework for ML Model Provenance, Usage & Fairness-Informed Evaluation」を大幅に参考にした)。
透明性を高めるためには、データセットの内容やモデルや作成方法を具体的に記述したものを提示する必要がある。
実際にそれを行うには、まずは「表記方法の標準化」が必要だ。例えば、スーパーで売っている「納豆」のパッケージを見てみよう(図2)。日本では食品表示法により、一般用加工食品に対する「原材料名」の表示方法が定義されている。
これにより、消費者は商品の原材料が明確に分かる。これと同じような標準化がAIにも必要ということだ。
データカード
データセットの表記方法の標準化については、「データカード(Data Card)」という手法があり、一部で実用されている。例えば、「Open Images Extended - Crowdsourced – Google AI」というデータセットではデータカード(ベータ版)が提供されている。図3はその表記例(英語)で、「ライセンス」や「作成更新日時」「地理(どの地域で取得されたデータか)」「教師ラベルの作成方法」などの詳細情報が記載されている。
モデルカード
また、機械学習モデルの表記方法の標準化については、「モデルカード(Model Card)」という手法が、論文「Model Cards for Model Reporting」で提案されている。モデルカードには「モデルの詳細」や「使用目的」「訓練/評価の方法」「注意点」などの詳細情報が記載される(図4)。
「透明性」の関連用語として「XAI(Explainable AI:説明可能なAI)」「解釈可能性(Interpretability)」がある。透明性だけではXAIは実現できないが、XAIを実現するための一つの材料とはなるだろう。
Copyright© Digital Advantage Corp. All Rights Reserved.