次に、長文読解問題の学習データについて説明します。BERTの事前学習モデルに対して、長文読解問題用にファインチューニングする必要があります。ファインチューニングについては、第2回を参考にしてください。ファインチューニングによって、本文と各選択肢を連結した入力に対して正解／不正解を判定する分類モデルを作成します。

　学習データには、「RACE」と呼ばれる中国の中高生向けの英語問題を使用します。RACEに含まれる英語問題は、センター試験英語の長文読解問題と同じ形式なので、RACE用に学習したモデルを使うことで、長文読解問題を解くことができます。また、RACEは2万8000を超える段落と10万問近くの問題を含む巨大なデータセットであるため、センター試験のみで学習するよりもより高性能なモデルが学習できると期待できます。

　最後に、学習データの入力形式について説明します。学習データを加工して作成した入力データ形式を以下に示します。

　tokenは、本文と問題文、選択肢を連結して作成します。tokenには［CLS］と［SEP］というトークンが挿入されています。［CLS］トークンは、classification embeddingと呼ばれており、分類タスクにおいて利用されます。今回は分類なのでこのトークンが使用されますが、分類タスク以外では無視されます。［SEP］トークンは文の区切りを表すトークンであり、複数文の入力を可能にしています。

　segment_idは、tokenで文章を2つ入力した場合、どちらの文章のトークンであるかを識別する記号です。なお、BERTで入力できるトークン数は512トークンまでです。今回のように長い文章を入力する場合は、複数のトークンに分割して入力する必要があることに注意してください。

　以上で長文読解問題用のモデルをファインチューニングおよび評価する環境が整います。実際にモデルを学習して解いてみたところ、以下のような結果になりました。ただし、モデルを作るための学習にはGPUが必要になる点に注意してください。

文読解問題の解答結果と考察

　BERTによって長文読解問題に取り組んだ結果を以下の表に示します。


解答番号	解答	答え	正誤
［42］	（1）	（1）	○
［43］	（2）	（2）	○
［44］	（2）	（4）	×
［45］	（2）	（1）	×
［46］	（2）	（2）	○
2017年度センター試験英語大問5の結果

　その結果、5問中3問正解することができました。先行研究（※）では5問中4問正解していたので、それと比較すると性能は低くなっています。この原因について、先行研究ではBERTの改良版である自然言語処理モデル「XLNet」を使っているためだと考えています。BERTからXLNetに変えることでさらなる性能向上ができると予想されます。

※杉山弘晃、成松宏美、菊井玄一郎、東中竜一郎、堂坂浩二、平博順、南泰浩、大和淳司／センター試験を対象とした高性能な英語ソルバーの実現／言語処理学会第26回年次大会／pp.1-3（2020）

　正解した問題および間違えた問題を詳しく見つつ、BERTが正解しやすい問題の傾向を解説していきたいと思います。

　まずは正解した問題について見ていきます。

正解した問題

When Yuji realized that he had turned into a cat, he first felt ［42］

（1）astonished

（2）embarrassed

（3）excited

（4）satisfied

解答：（1）

正解：（1）

　猫になったYujiが最初にどう感じたかを問われています。本文の第3段落に、"I was so surprised that I couldn't move."とあるため、"surprised"の類義語である"astonished"が正解になります。人間が猫になったときによく起きそうな感情は簡単には想像できないため、BERTが問題文だけでなく、本文と問題文の両方の情報を用いて解答した可能性が高いです。

　では、本当に問題文だけで解けないのかについても検証してみました。解答方法としては、第3回で使った問題文に対してもっとも自然な選択肢を選ぶ方法を用いて解答しています。


文章	スコア
When Yuji realized that he had turned into a cat, he first felt astonished.	-35.02
When Yuji realized that he had turned into a cat, he first felt embarrassed.	-30.8
When Yuji realized that he had turned into a cat, he first felt excited.	-35.23
When Yuji realized that he had turned into a cat, he first felt satisfied.	-33.77
文章の自然さでスコアリングをした結果

　（2）embarrassedの選択肢が最も自然な文章であるという結果になりました。つまり、今回の解答方法だと問題文のみの情報だけでは正解できないということが分かりました。従って、今回学習したモデルでは、本文の内容と問題文の両方を考慮して解答しているといえます。

　続いて、正解できなかった問題についても見てみましょう。

正解できなかった問題

At the end of the story, Yuji did not pick up his smartphone because he ［45］.

（1）decided it was time to improve his attitude

（2）realized that it was not yet fully charged

（3）wanted to sick to his old priorities

（4）was afraid of being scolded by his mother

解答：（2）

正解：（1）

　本文の最後では、Yujiがスマホを拾わなかった理由を問われています。本文の第9段落に、"I don't like this guy."という記述があります。これは、Yujiがスマホに集中して勉強や周りのことが手につかなくなっている状態を、猫の姿になって客観視することで、スマホに依存している自分に嫌気が差したことを表現しています。従って、そんな自分の姿勢を改善したいと決心している（1）が答えになります。

　この問題は、本文に答えとなる文章はないため、文脈から答えを推測する必要があります。さらに、この問題はひっかけ問題となっており、本文の終わりはこのような文章になっています。

Without thinking, as was my usual habit in the morning, I started to walk to my desk where my smartphone had completed charging and … I stopped.

本文の終わりの一部

　「いつもの習慣で、充電が完了したスマホがある机に向かって歩き始めたが……やっぱりやめた」とあります。この文だけでは、なぜスマホを手に取ろうとしたのに途中でやめたのかという理由が書かれていません。この理由を、本文の第9段落に書かれていることから推測する必要があるのですが、この文だけを読んで解答しようとすると「完全に充電されていないことに気付いたため」という（2）が正解だろうと早とちりしてしまいそうになります。さらに、問題文に出てきた単語が本文の最後に登場するため、選択肢（2）が本文と問題文において最も関係性がある選択肢であるというのは、人間であってもそう考えるでしょう。

　この問題のように広い文脈を理解する必要がある問題については、人間同様BERTにとっても難易度が高い問題であるということが分かります。

まとめ

　今回はBERTを使って、センター試験英語の長文読解問題にチャレンジしました。正答率は、前回試した穴埋め問題と比較すると低い、6割という結果になりました。BERTで使用されているTransformerは、比較的長い文章の関係性を学習することが得意ですが、今回は上限の512トークンを超えているため、BERTでは対応しきれなかった可能性が高いと考えられます。これについては、本文中の関係がありそうな段落のみを抽出して使用し、選択肢と本文の関係性を正しく認識できるようにすることで、より正答率を上げられるようになると考えています。

　今回示した正答率が高いか低いかについては、適応するドメインによって変わります。例えば、YouTubeの字幕を機械翻訳する場合だと、過去の動画全てに対して人手で翻訳して字幕を付けるとすれば多くのコストがかかります。8割が正しく翻訳でき、2割ほどが誤った翻訳になっていたとしても、コスト削減の効果が大きいならば、2割のリスクを許容して導入する価値があります。誤った翻訳を人手で直すコストが追加でかかるとしても、一から人手で字幕を付けるコストに比べると非常に小さいため、このリスクは許容範囲内だと思います。

　一方、医療現場など人の命に直結する仕事に導入する場合は、患者の問診結果から9割正しい診断ができるシステムがあったとしても、偽陰性（本当は病気なのに誤って病気ではないと判断されるケース）が0に近くならない限りは、導入をためらう可能性もあります。

　従って、自然言語処理技術を実用化できるかどうかは、適応するドメインや準備できるデータセットの量や質、どの程度リスクを許容できるかなど状況を正確に把握して判断することが重要になってきます。

　本連載ではセンター試験を題材にして、BERTでどのような問題が解決できるのかを示しました。皆さまの身の回りにある仕事を自動化できるかもというきっかけになりましたら幸いです。また、本連載を読んで自然言語処理に興味が湧いたならば、これをきっかけにより応用的な自然言語処理タスクにぜひチャレンジして自己研さんしてみてください。

参考文献

RACE

杉山弘晃、成松宏美、菊井玄一郎、東中竜一郎、堂坂浩二、平博順、南泰浩、大和淳司／センター試験を対象とした高性能な英語ソルバーの実現／言語処理学会第26回年次大会／pp.1-3（2020）

著者紹介

河田尚孝（カワタナオタカ）

　ソフトウェア開発企業のNTTテクノクロスで、深層学習モデルを用いた新規ソリューションの検討・開発業務に従事。

　NTTテクノクロスは音声認識および自然言語処理技術を用いた製品である「ForeSight Voice Mining」を提供しており、筆者自身も音声音響・画像映像・自然言語といったマルチメディアを統合的に扱いより高度な推論を実現する次世代メディア処理AIを搭載した「SpeechRec」の開発業務に取り組んでいる。