検索
ニュース

AIの文章生成能力はまだ不十分――その理由は、常識推論能力が低いため10種類以上のNLPモデルを検証

南カリフォルニア大学などの研究チームは自然言語処理が近年発展しているものの、AIにはまだ、妥当な文の作成に必要な常識に欠けていることを実証した。

Share
Tweet
LINE
Hatena

 南カリフォルニア大学は2020年11月16日、現時点のAI(人工知能)による自然言語処理(NLP)には限界があり、妥当な文の作成に必要な常識に欠けていることを実証した。

 同大学のコンピュータサイエンス学部助教のシャン・レン氏と博士課程の学生ユーチェン・リン氏などの研究チームは、研究の狙いを次のように説明している。

 「現在の機械テキスト生成モデルは、多くの人を納得させる記事を書くことができる。だが基本的にはトレーニング段階で入力されたものを模倣しているにすぎない。われわれの論文では、最新のテキスト生成モデルが日常生活の自然なシナリオを記述した文を作り上げることができるかどうかという問題を取り上げた」(リン氏)


「犬」や「フリスビー」「投げる」といったごく簡単な単語を用いて、理にかなった文章を生成できるかどうかを調べたものの、結果は良くなかった(出典:南カリフォルニア大学

 AI研究者にとって、AIに常識推論(世界についての基本的な知識を用いて推論する)能力を持たせることは長年の課題だった。図の例では人がフリスビーを投げ、犬がキャッチするというのが常識だ。つまり犬同士でフリスビーを投げ合うことはない。

 最新の深層学習モデルは、90%程度の精度を達成できるようになっており、NLPはこの目標に近づいているように見える。

 研究チームは、独自に開発したテキスト生成タスクを用いて、機械モデルの常識推論能力をテストした。

 「人間は自分を取り巻く環境の中で認識する一般的な概念を理解し、活用することを学ぶ中で、文を作る能力を獲得する。文を作る能力の獲得は、人間が幼児から大人に向かって発達する際の大きなマイルストーンと考えられている。われわれは、文を生み出すこうした生成的常識推論能力を機械が本当に獲得できるかどうかをテストしようとした」(リン氏)

3万以上の概念と7万以上の文をまず学習させた

 研究チームはさまざまな機械モデルを評価するために、「CommonGen」と呼ばれる制約付きテキスト生成タスクを開発し、機械の生成的常識をテストするベンチマークとして使用した。

 3万5141の概念と7万7449の文から成るデータセットを用意し、テキスト生成モデルにこれを学習させた。

 CommonGenタスクは、一般的な概念の組み合わせを用いて、日常的なシナリオを記述した理にかなった文を生成するというものだ。例えば、「dog」(犬)、「frisbee」(フリスビー)、「catch」(キャッチする)、「throw」(投げる)といった単語を用いて、「a man throws a frisbee and his dog catches it」(男がフリスビーを投げ、飼い犬がそれをキャッチする)といった文を生成することだ。

 しかし、CommonGenタスクのような課題は2種類の能力を要求するため難しい。常識的知識に基づく関係推論能力と、見たことのない概念の組み合わせを扱う構成的一般化の能力が必要となるからだ。

人の能力と比較するとかなり見劣りがする

 最新のテキスト生成モデルを10種類以上選び、CommonGenタスクを処理させたところ、最も好成績を収めたモデルでも、精度は31.6%にとどまり、人間の63.5%とは大きな開きがあった。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る