連載
[文章生成]PyTorchのRNNクラスを使って文章生成を行う準備をしよう:作って試そう! ディープラーニング工作室(2/2 ページ)
青空文庫から取得した小説データのインデックスへの変換、インデックスのベクトル化、RNNへの入力など、文章生成の準備と全体の流れを確認します。
形態素のベクトル化
既に述べましたが、上で作成したインデックス列はさらにベクトル化する必要があります。ベクトル化とは、特定の単語(あるいは形態素)のインデックスをn次元の実数ベクトルで表現することです。「n次元の実数空間に単語を埋め込む」ということからこれを「埋め込み」「embedding」などと表現することもあります。
形態素をベクトル化することには、単語間の結び付きをベクトルで表現できることや、語彙数(辞書の要素数)が膨大な量になった場合でも指定した次元数のベクトルとして表現できることから計算量を削減できるといったメリットがあります。こうした情報やベクトル化の方法などについては「挑戦! word2vecで自然言語処理(Keras+TensorFlow使用)」などを参照してください。
Copyright© Digital Advantage Corp. All Rights Reserved.