NTTは、約16万3000語からなる「令和版単語親密度データベース」を構築した。約20年前に作成した、約7万7000語からなる平成版データベースを更新。さらに語彙数調査を実施して、各学年・年齢での語彙獲得状況をモデル化した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
NTTは2020年6月3日、約16万3000語からなる「令和版単語親密度データベース」を構築したと発表した。単語親密度は、単語のなじみ深さを成人による評定実験によって数値化したもの。約20年前に作成した平成版データベースを更新した。
さらに、小中高校生を含む約4600人を対象に語彙(ごい)数調査を実施して、各学年・年齢での語彙獲得状況を、単語親密度に対応付けてモデル化した。これを基に、令和版語彙数推定テストを作成した。
NTTは単語親密度などの基盤的言語資源の構築に取り組んでおり、約7万7000語からなる平成版単語親密度データベースが公開している。このデータベースは、構築から時間がたっており、単語親密度自体が時代とともに変化している可能性や、「インターネット」や「コンビニ」といった新しい単語に対応していないといった課題があった。また、既存の語彙数推定テストについても、推定できる語彙数の上限が単語親密度データベースの単語数に依存し、7万7000語以上の語彙数を推定できないという問題があった。
令和版単語親密度データベースを平成版と比べると、両者に強い相関があり、多くの単語は20年以上たっても親密度に大きな変化がなかった。ただし、一部には、親密度が大きく変化した単語もあった。例えば、「アナフィラキシー」や「マニフェスト」「熱中症」といった単語は親密度が上昇しており、「ミリバール」や「純毛」「コレクトコール」といった単語は親密度が低下した。
Copyright © ITmedia, Inc. All Rights Reserved.