BERTにセンター試験長文読解を解かせてみる――意外に高くない正答率とその理由を考察:センター英語を例に分かる、自然言語処理入門(終)
センター試験を例に、自然言語処理の基礎を解説する本連載。最終回はセンター試験英語の長文読解問題を自然言語処理で解答し、その結果について考察する。
前回は、BERTを使ってセンター試験英語の穴埋め問題にチャレンジしました。今回は、センター試験用にファインチューニングしたモデルを使い、センター試験英語の長文読解問題にチャレンジします。
本記事で使用するソースコード一式はこちらで公開していますので、参考にしていただければと思います(本リポジトリは個人のものであり、筆者が所属する団体とは関係がありません)。
長文読解問題にチャレンジ
今回は、BERTを使って2017年度センター試験英語の大問5で出題された長文読解問題にチャレンジします。
まずは、長文読解問題の形式について説明します。読解問題は、本文と複数の問題で構成されており、本文の内容に関する問題に対してそれぞれ正解となる選択肢を1つ選択します。
次に、長文読解問題の学習データについて説明します。BERTの事前学習モデルに対して、長文読解問題用にファインチューニングする必要があります。ファインチューニングについては、第2回を参考にしてください。ファインチューニングによって、本文と各選択肢を連結した入力に対して正解/不正解を判定する分類モデルを作成します。
学習データには、「RACE」と呼ばれる中国の中高生向けの英語問題を使用します。RACEに含まれる英語問題は、センター試験英語の長文読解問題と同じ形式なので、RACE用に学習したモデルを使うことで、長文読解問題を解くことができます。また、RACEは2万8000を超える段落と10万問近くの問題を含む巨大なデータセットであるため、センター試験のみで学習するよりもより高性能なモデルが学習できると期待できます。
Copyright © ITmedia, Inc. All Rights Reserved.