ニュース
「文節内の主語に当たる単語を区別して学習」 日本語自然言語処理ライブラリのバージョンアップ版をリクルートが提供:「機能性食品」をどこで区切るのか
リクルートは、Python向けの日本語自然言語処理ライブラリ「GiNZA version 4.0」をオープンソースで無償提供した。多言語対応自然言語処理フレームワーク「spaCy version 2.3」に合わせてライブラリを再設計した。
リクルートは2020年8月17日、Python向けの日本語自然言語処理ライブラリ「GiNZA version 4.0」をOSS(オープンソースソフトウェア)で無償提供した。同社の研究開発機関であるMegagon Labsが開発した。
複合語の区切り方を3段階から選択できる
GiNZA version 4.0は、多言語対応自然言語処理フレームワーク「spaCy version 2.3」に合わせてライブラリを再設計した。「GiNZA version 3.0」よりも日本語解析の精度を高め、高速に処理できるという。日本語文法の解析機能を強化して、日本語の文節を単位とする解析結果が容易に得られるようにした。リクルートは「文節内の主語に当たる単語を区別して学習することで、文節単位での依存構造を捉えることが可能だ」としている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Python向け日本語自然言語処理ライブラリ「GiNZA」、リクルートがGitHubで公開
リクルートのAI研究機関であるMegagon Labsは、Python向け日本語自然言語処理ライブラリ「GiNZA」をオープンソースとしてGitHubで公開した。国立国語研究所のテキストコーパスを利用した学習済みモデルも組み込んだ。 - 「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法(LDA)」「Word2vec」とは
最近流行の機械学習/Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ/ツールの使い方を中心に解説する連載。今回は機械学習を使った自然言語分析のライブラリ「Gensim」について解説します。 - ディープラーニングで自動筆記 − Kerasを用いた文書生成(前編)
ディープラーニングによる自然言語処理の一つ「文書生成」にチャレンジしてみよう。ネットワークにLSTM、ライブラリにKeras+TensorFlowを採用し、徐々に精度を改善していくステップを説明する。