NTTは、約16万3000語からなる「令和版単語親密度データベース」を構築した。約20年前に作成した、約7万7000語からなる平成版データベースを更新。さらに語彙数調査を実施して、各学年・年齢での語彙獲得状況をモデル化した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
NTTは2020年6月3日、約16万3000語からなる「令和版単語親密度データベース」を構築したと発表した。単語親密度は、単語のなじみ深さを成人による評定実験によって数値化したもの。約20年前に作成した平成版データベースを更新した。
さらに、小中高校生を含む約4600人を対象に語彙(ごい)数調査を実施して、各学年・年齢での語彙獲得状況を、単語親密度に対応付けてモデル化した。これを基に、令和版語彙数推定テストを作成した。
NTTは単語親密度などの基盤的言語資源の構築に取り組んでおり、約7万7000語からなる平成版単語親密度データベースが公開している。このデータベースは、構築から時間がたっており、単語親密度自体が時代とともに変化している可能性や、「インターネット」や「コンビニ」といった新しい単語に対応していないといった課題があった。また、既存の語彙数推定テストについても、推定できる語彙数の上限が単語親密度データベースの単語数に依存し、7万7000語以上の語彙数を推定できないという問題があった。
令和版単語親密度データベースを平成版と比べると、両者に強い相関があり、多くの単語は20年以上たっても親密度に大きな変化がなかった。ただし、一部には、親密度が大きく変化した単語もあった。例えば、「アナフィラキシー」や「マニフェスト」「熱中症」といった単語は親密度が上昇しており、「ミリバール」や「純毛」「コレクトコール」といった単語は親密度が低下した。
今回のデータベース構築に当たって児童や生徒を対象に語彙数調査を実施したところ、特に小中学生で急激に語彙数が上昇することが分かった。成人でも、年齢とともに語彙数が上昇することが確認できた。
年齢にかかわらず、親密度が高い単語ほど知っている人の割合が高くなる傾向にあり、年齢が上がれば上がるほどこの傾向が顕著になることが分かった。ただし、小中学生に限ると、比較的親密度が高い単語でも、知っているかどうかにばらつきがあった。
NTTは、今後、自治体と協力して学童期から語彙数調査をより広範に進めるとしている。そして語彙数と読解力や学力全般との関係を分析し、効果的な学習支援の実現を目指すという。
Copyright © ITmedia, Inc. All Rights Reserved.