BERTにセンター試験を解かせてみて分かった、得意な問題と苦手な問題の傾向センター英語を例に分かる、自然言語処理入門(3)

センター試験を例に、自然言語処理の基礎を解説する本連載。第3回はセンター試験英語の穴埋め問題を自然言語処理で解答し、その結果について考察する。

» 2022年11月14日 05時00分 公開
[河田尚孝NTTテクノクロス]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 前回は、BERTによる文脈理解について説明しました。今回は、BERTの事前学習モデル(bert-base)をそのまま使ってセンター試験英語穴埋め問題にチャレンジします。

大学入試センター試験

 センター試験は全ての問題がマークシート形式で出題され、複数の選択肢の中から正解を選んで解答します。2022年10月現在はセンター試験が廃止されており、代わりに大学入学共通テストが実施されています。もちろん現行の試験でも問題なく解くことは可能ですが、センター試験はデータセットが公開されているため、そのデータセットを利用しました(※引用に際し、公開元から許諾を得ています)。本連載ではモデル学習の他にセンター試験の解説のために、問題文を一部引用しています。今回は自然言語処理による読解力を明らかにするために、複数の科目の中から英語を対象にしてセンター試験にチャレンジします。

 本記事で使用するソースコード一式はこちらで公開していますので、参考にしていただければと思います(本リポジトリは個人のものであり、筆者が所属する団体とは関係がありません)。

穴埋め問題にチャレンジ

 今回は2017年度センター試験英語の大問2に出題される穴埋め問題(以下、穴埋め問題)に対して、BERTを使って解答することにチャレンジします。穴埋め問題とは、文章中の1単語、あるいは複数単語が抜けており、その抜けている単語を選択肢の中から1つ選択する問題です。

 穴埋め問題については幾つか種類があるため、今回は説明のために以下の4種類に分類しました。

  • 単語穴埋め問題(1単語)
  • 単語穴埋め問題(2単語)
  • 単語並べ替え問題
  • 文章並べ替え問題

 単語穴埋め問題(1単語)は、4つの選択肢の中から1つを選択して解答する問題です。同様に、単語穴埋め問題(2単語)は穴抜けになっている単語が2つになっている問題文に対して、4つの選択肢から1つを選択して解答する問題です。

単語穴埋め問題(1単語)

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。