AIの文章生成能力はまだ不十分――その理由は、常識推論能力が低いため：10種類以上のNLPモデルを検証

南カリフォルニア大学などの研究チームは自然言語処理が近年発展しているものの、AIにはまだ、妥当な文の作成に必要な常識に欠けていることを実証した。

[＠IT] PC用表示関連情報

LINE

Hatena

　南カリフォルニア大学は2020年11月16日、現時点のAI（人工知能）による自然言語処理（NLP）には限界があり、妥当な文の作成に必要な常識に欠けていることを実証した。

　同大学のコンピュータサイエンス学部助教のシャン・レン氏と博士課程の学生ユーチェン・リン氏などの研究チームは、研究の狙いを次のように説明している。

　「現在の機械テキスト生成モデルは、多くの人を納得させる記事を書くことができる。だが基本的にはトレーニング段階で入力されたものを模倣しているにすぎない。われわれの論文では、最新のテキスト生成モデルが日常生活の自然なシナリオを記述した文を作り上げることができるかどうかという問題を取り上げた」（リン氏）

「犬」や「フリスビー」「投げる」といったごく簡単な単語を用いて、理にかなった文章を生成できるかどうかを調べたものの、結果は良くなかった（出典：南カリフォルニア大学）

　AI研究者にとって、AIに常識推論（世界についての基本的な知識を用いて推論する）能力を持たせることは長年の課題だった。図の例では人がフリスビーを投げ、犬がキャッチするというのが常識だ。つまり犬同士でフリスビーを投げ合うことはない。

　最新の深層学習モデルは、90％程度の精度を達成できるようになっており、NLPはこの目標に近づいているように見える。

　研究チームは、独自に開発したテキスト生成タスクを用いて、機械モデルの常識推論能力をテストした。

　「人間は自分を取り巻く環境の中で認識する一般的な概念を理解し、活用することを学ぶ中で、文を作る能力を獲得する。文を作る能力の獲得は、人間が幼児から大人に向かって発達する際の大きなマイルストーンと考えられている。われわれは、文を生み出すこうした生成的常識推論能力を機械が本当に獲得できるかどうかをテストしようとした」（リン氏）

3万以上の概念と7万以上の文をまず学習させた

　研究チームはさまざまな機械モデルを評価するために、「CommonGen」と呼ばれる制約付きテキスト生成タスクを開発し、機械の生成的常識をテストするベンチマークとして使用した。

　3万5141の概念と7万7449の文から成るデータセットを用意し、テキスト生成モデルにこれを学習させた。

　CommonGenタスクは、一般的な概念の組み合わせを用いて、日常的なシナリオを記述した理にかなった文を生成するというものだ。例えば、「dog」（犬）、「frisbee」（フリスビー）、「catch」（キャッチする）、「throw」（投げる）といった単語を用いて、「a man throws a frisbee and his dog catches it」（男がフリスビーを投げ、飼い犬がそれをキャッチする）といった文を生成することだ。

　しかし、CommonGenタスクのような課題は2種類の能力を要求するため難しい。常識的知識に基づく関係推論能力と、見たことのない概念の組み合わせを扱う構成的一般化の能力が必要となるからだ。

人の能力と比較するとかなり見劣りがする

　最新のテキスト生成モデルを10種類以上選び、CommonGenタスクを処理させたところ、最も好成績を収めたモデルでも、精度は31.6％にとどまり、人間の63.5％とは大きな開きがあった。

　テキスト生成モデルは、例えば、「dog throws a frisbee ……」（犬がフリスビーを投げる）、「giving massage to a table」（テーブルにメッセージを伝える）といった意味が通らないフレーズを生成する場合が多かった。

最新のテキスト生成モデルが生成した文の例。最も成績が良い「T5」でも犬がフリスビーを投げるという文章を生成してしまった（出典：南カリフォルニア大学）

　「驚いたことに、機械モデルは、『人間がフリスビーを投げる』方が、犬が投げるよりもはるかに筋が通るという単純な常識的知識も思い出せない。最も成績が良かった『T5』というモデルですら、大規模データセットでトレーニングした後も、ばかげた間違いをすることがあった」（リン氏）

　研究チームは、テキスト生成モデルに対する従来のテストについて、次のような見解を示している。「これまでのテストは一般的に4～5個の選択肢から回答を選ばせるものであり、常識に基づく識別力に主にフォーカスしていた。例えば『大人はどこでスティックのりを使用しますか？　A：教室、B：オフィス、C：机の引き出し』といった問題だ。こうしたテストは、大規模なモデルトレーニングによって簡単に好成績が取れてしまう」（レン氏）

　これに対し、研究チームが提案したCommonGenタスクは、機械が持つ常識の生成的な側面に焦点を当てている。

　研究チームは、今回のテストに使用されたタスクとデータセットが新たなベンチマークの役割を果たし、常識に基づく自然言語生成に関する将来の研究に貢献することを期待している。

　そのためにさまざまな一般的なモデルをテストし、達成したスコアをまとめた表も用意しているという。他の研究者が将来のプロジェクトで今回のモデルの有効性を判断するのに役立ててもらうためだ。

　研究チームの論文は、2020年11月16日に開催されたFindings of Empirical Methods in Natural Language Processing（EMNLP：自然言語処理の経験的手法の発見）カンファレンスで発表された。

AIの文章生成能力はまだ不十分――その理由は、常識推論能力が低いため：10種類以上のNLPモデルを検証

3万以上の概念と7万以上の文をまず学習させた

人の能力と比較するとかなり見劣りがする

関連記事

関連リンク

Smart & Social 記事ランキング