平成から令和で「なじみ深さ」が変わった単語とは NTTが令和版単語親密度データベースを構築言語心理学や言語教育などに活用

NTTは、約16万3000語からなる「令和版単語親密度データベース」を構築した。約20年前に作成した、約7万7000語からなる平成版データベースを更新。さらに語彙数調査を実施して、各学年・年齢での語彙獲得状況をモデル化した。

» 2020年06月05日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 NTTは2020年6月3日、約16万3000語からなる「令和版単語親密度データベース」を構築したと発表した。単語親密度は、単語のなじみ深さを成人による評定実験によって数値化したもの。約20年前に作成した平成版データベースを更新した。

 さらに、小中高校生を含む約4600人を対象に語彙(ごい)数調査を実施して、各学年・年齢での語彙獲得状況を、単語親密度に対応付けてモデル化した。これを基に、令和版語彙数推定テストを作成した。

言語心理学や言語教育などの基礎指標として活用

 NTTは単語親密度などの基盤的言語資源の構築に取り組んでおり、約7万7000語からなる平成版単語親密度データベースが公開している。このデータベースは、構築から時間がたっており、単語親密度自体が時代とともに変化している可能性や、「インターネット」や「コンビニ」といった新しい単語に対応していないといった課題があった。また、既存の語彙数推定テストについても、推定できる語彙数の上限が単語親密度データベースの単語数に依存し、7万7000語以上の語彙数を推定できないという問題があった。

画像 平成版から令和版への単語親密度の変化

 令和版単語親密度データベースを平成版と比べると、両者に強い相関があり、多くの単語は20年以上たっても親密度に大きな変化がなかった。ただし、一部には、親密度が大きく変化した単語もあった。例えば、「アナフィラキシー」や「マニフェスト」「熱中症」といった単語は親密度が上昇しており、「ミリバール」や「純毛」「コレクトコール」といった単語は親密度が低下した。

小中学生で急激に語彙数が上昇

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

AI for エンジニアリング
「サプライチェーン攻撃」対策
1P情シスのための脆弱性管理/対策の現実解
OSSのサプライチェーン管理、取るべきアクションとは
Microsoft & Windows最前線2024
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。