既に述べましたが、上で作成したインデックス列はさらにベクトル化する必要があります。ベクトル化とは、特定の単語(あるいは形態素)のインデックスをn次元の実数ベクトルで表現することです。「n次元の実数空間に単語を埋め込む」ということからこれを「埋め込み」「embedding」などと表現することもあります。
形態素をベクトル化することには、単語間の結び付きをベクトルで表現できることや、語彙数(辞書の要素数)が膨大な量になった場合でも指定した次元数のベクトルとして表現できることから計算量を削減できるといったメリットがあります。こうした情報やベクトル化の方法などについては「挑戦! word2vecで自然言語処理(Keras+TensorFlow使用)」などを参照してください。
Copyright© Digital Advantage Corp. All Rights Reserved.