Microsoftの自然言語モデル「DeBERTa」、ベンチマークで人間を上回る記録を達成：SuperGLUEベンチマークランキングで首位に

Microsoftが最近アップデートした自然言語モデル「DeBERTa」が、自然言語理解（NLU）モデルを評価するベンチマーク「SuperGLUE」で、人間を上回る記録を達成した。今後は「Bing」「Microsoft 365」「Dynamics 365」「Azure Cognitive Services」といったMicrosoft製品をサポートする他、DeBERTaのソースコードも公開する。

» 2021年01月20日 18時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Microsoftは2021年1月6日（米国時間）、最近アップデートした事前トレーニング済み自然言語モデル「DeBERTa」（Decoding-enhanced BERT with disentangled attention）が、自然言語理解（NLU）モデルを評価する高度なベンチマーク「SuperGLUE」で、人間を上回る記録を達成したと報告した。

　NLUはAIの目標として最も古いものの一つであり、SuperGLUEは現在、NLUモデルを評価するための最も先進的なベンチマークだ。SuperGLUEは質問応答や自然言語推論、共参照解決、語義曖昧性解消など、幅広いNLUタスクからなるテストだ。

SuperGLUEベンチマークとは（出典：Microsoft）

　SuperGLUEのスコアは複数のテストから算出される。例えば上図にある因果推論タスク（COPA）はこのようなテストだ。「子供が病気に免疫ができた」という前提と、「何が原因でこの病気になったのか」という質問が与えられたとき、モデルは2つのもっともらしい候補から答えを選ぶように求められる。

候補1 彼は病気への暴露を避けた
候補2 彼は病気のためのワクチン接種を受けた

　人間にとっては簡単な問題だが、AIモデルにとっては難しい。AIモデルが正解に達するには、前提と選択肢との間の因果関係を理解する必要があるからだ。

DeBERTaの性能はどの程度なのか

　Microsoftは15億のパラメーターを持つ48のTransformerレイヤーで構成されたDeBERTaの大規模バージョンをトレーニングすることで、性能を高めた。その結果、単一のDeBERTaモデルがSuperGLUEのマクロ平均スコア（89.9）が初めて人間のパフォーマンス（89.8）を上回った。

SuperGLUEベンチマークランキング（2021年1月6日時点）（出典：Microsoft）

　アンサンブルDeBERTaモデルがSuperGLUEベンチマークランキングの首位となり、人間のベースラインのスコア（89.8）を上回る90.3を記録した。同モデルは、GLUEベンチマークのマクロ平均スコアのランキングでも、90.8で首位に立っている。

DeBERTaはどのようなモデルなのか

　DeBERTaは、自己教師あり学習によって大量の生テキストコーポラで事前トレーニングされたTransformerベースの自然言語モデルだ。

　他の事前トレーニング済みモデル（PLM）と同様に、さまざまなダウンストリームNLUに適応させることが可能な汎用（はんよう）言語表現の学習を目的としている。

　DeBERTaは、下図にある3つの新しい技術で従来の最新PLM（BERT、RoBERTa、UniLMなど）を進化させたものだ。この3つの技術とは非分離の注意メカニズム（disentangled attention mechanism）、改良マスクデコーダー、微調整用仮想敵対トレーニングだ。

DeBERTaのアーキテクチャ。DeBERTaは、非分離の注意メカニズムと改良マスクデコーダーなどによって、BERTやRoBERTaを進化させたものだ。非分離の注意メカニズムでは、各単語は、各単語の内容と相対的位置をそれぞれコード化した2つのベクトルで表現される（出典：Microsoft）

ソースコードを公開し、Microsoft 365にも利用する

　Microsoftは、今回の15億のパラメーターを持つDeBERTaモデルとソースコードを公開する計画だ。DeBERTaは、自然言語表現モデル「Microsoft Turing」の次期バージョン（Turing NLRv4）への統合が進められているところだ。

　同社によれば15億のパラメーターを持つDeBERTaは、110億のパラメーターを持つGoogleの「T5」モデルと比べて、トレーニングとメンテナンスの電力効率がはるかに高く、圧縮し、さまざまな設定のアプリケーションに展開することも容易だという。

　Microsoft Turingモデルは、同社内における言語のイノベーションを全て集約する。「Bing」「Microsoft 365」「Dynamics 365」「Azure Cognitive Services」といったMicrosoft製品をサポートするよう大規模にトレーニングされる。

　チャットbotやレコメンデーション、質問への回答、検索、パーソナルアシスタント、顧客サポート自動化、コンテンツ生成など、人と機械、人と人の自然言語によるやりとりを含む幅広いシナリオを支えるためだ。これにより、Microsoftの全社的取り組み「AI at Scale」を通じて、数億人のユーザーに恩恵をもたらすと、同社は説明している。

　「DeBERTaがSuperGLUEで人間を上回るパフォーマンスを発揮したことは、『汎用AI』への重要なマイルストーンだ。ただし、DeBERTaはSuperGLUEで有望な結果を出したとはいえ、人間の知能レベルのNLUには全く到達していない。人間は、さまざまなタスクから学習した知識を利用して、タスク固有の説明を全く、またはほとんど受けずに、新しいタスクを解決する能力が極めて高い。今後、DeBERTaにこうした能力を持たせる方法を探ることは有意義だ」（Microsoft）

2021年の「AI／機械学習」はこうなる！　5大予測
2020年は、自然言語処理（NLP）のTransformer技術に基づくBERT／GPT-3や、画像生成のディープフェイクが大注目となる一方で、倫理に関する問題がさまざまな方面でくすぶり続けた。2021年の「AI／機械学習」界わいはどう変わっていくのか？　幾つかの情報源を参考に、5個の予測を行う。
もはやPoCばかりやっている場合ではない――企業が抱くAIへの誤解と課題
Deep Learningがブレークスルーとなった昨今の「第3次AIブーム」。2020年は、企業の「AI」活用において、ブームのままPoC（概念実証）で終わるのか、本番で稼働するシステムやサービスに適用できるのかの分水嶺（れい）となるだろう。その成否を分かつものは何なのだろうか。本特集では、現在の機械学習・Deep Learningにおけるさまざまな課題の中でも技術的なものを中心に整理し、その解決策としてAutoML（機械学習自動化）、MLOps（機械学習基盤）といった技術を解説。加えて、それらを活用している企業の事例を紹介する。初回は、日本ディープラーニング協会の理事に、2020年現在のAI活用における課題について聞いた。
各AI研究分野の立ち位置を示す「AIマップ」（人工知能学会の公開リソース）とは？
人工知能学会が公開している「AIマップβ」を紹介。4枚のAIマップの概要と使い方の例を示す。AIマップは、各AI研究分野の立ち位置を確認したり整理したりするのに役立つだろう。