アットマーク・アイティ @IT@IT自分戦略研究所QA@ITイベントカレンダー+ログ

 @IT > テキスト・マイニングに活用されるClementine
 
@IT[FYI]

 

◆ 実践e−CRM〜Clementine導入効果に迫る
 第5回 テキスト・マイニングに活用されるClementine

数値データを超える広がりと深さを持つ
膨大な文章データ(テキスト)から、
新たな知見を得る“テキスト・マイニング”

その概要とClementineを活用したテキスト・マイニングを紹介!


目 次
テキスト・マイニングとは?
テキスト・マイニングの適用分野
テキスト・マイニングが注目されてきた背景
Clementineによるテキスト・マイニング
テキスト・マイニング解析例
今後のテキスト・マイニング技術の進歩に必要なこと

 

「CLUG Japan 2001」

 去る2001年9月14日、第一回Clementineユーザー会「CLUG Japan 2001」(SPSS株式会社主催)が開催された。今回は、多種多彩なプログラムの中から、特別講演「テキスト・マイニングとClementine:ブランド連想データの分析」の発表内容に、講師を務めた豊田裕貴氏(法政大学大学院 社会科学研究科)との個別インタビューの内容を加えたものをベースに、「テキスト・マイニング」の概要とClementineによるテキスト・マイニングの特徴を解説する。


 

テキスト・マイニングとは?



法政大学大学院 社会科学研究科 豊田裕貴氏
 テキスト・マイニングを豊田氏の言葉を借りて一言で表現するならば、「テキストデータを対象にしたデータマイニング」となる。ここでおそらく、読者の中には、新たな疑問が生じる方がいるだろう。1つは、「テキストデータとは何?」、もう1つは、「データマイニングとは何?」という2点である。本稿では、まずこの2点について答えることでテキスト・マイニングの本質をおさえてみよう。

 まず、「テキストデータ」だが、文章や単語・句など、デジタル化された文字のことを指す。一般に、データマイニングでは定型的な数値データ(POSデータなど)を扱い、テキストデータは分析対象としない。それは、テキストデータは本来、非定型であいまいなため、分析対象としては扱いにくかったからだ。したがって、テキストデータについては、主に手作業による集計・分析が行われてきており、統計解析ツールやデータマイニングツールを活用した分析はあまり実施されていない。

 次に「データマイニング」だが、これは当サイトで連載している「マーケターのためのデータマイニング講座」第1章でも解説されているように、仮説構築に役立つ、新たな知見の発見が狙いである。つまり、仮説の検証を目的とするデータ分析ではなく、大量のデータに潜んでいる思いもしなかったデータの関係性や意味を発掘(発見)するために、さまざまな角度からデータを検討することである。

 したがって、「テキスト・マイニング」を上記の説明を元に分かりやすく言い換えると、「大量の文章や文字・句に埋もれている関係性を発掘することで、仮説構築のための新たな知見を得る分析手法」となるだろう。

 
 

テキスト・マイニングの適用分野

 さて、実務上、最もテキスト・マイニングへ関心を寄せている業界はマーケティング関連の業界である。なぜなら、さまざまな自由回答をはじめ、アンケート調査などで蓄積されたテキストデータの処理に長年頭を悩ませてきたからだ。また、最近多くの企業では、従来のアンケート調査に加え、お客様相談窓口、すなわちコールセンターから、消費者の生の声を得ようとテキストデータをデジタルデータ化して蓄積している。企業は、この膨大なデータをテキスト・マイニングによって分析することで、さまざまな問い合わせに対して的確な回答を迅速に返す仕組みを構築したり、新たな商品開発のヒントを得ることを狙っているのである。

 そもそも、インターネットを核としたIT化の進展により、あらゆる資料がデジタル化・データベース化されつつあるいま、テキスト・マイニングは、さまざまな業界・研究分野に適用可能な、汎用的な分析技術として期待されているのである。

 
 

テキスト・マイニングが注目されてきた背景

 テキスト・マイニングが注目されてきた背景には、文章作成に原稿用紙を使わず、最初からワープロを使用するのが当たり前となったエンドユーザー・コンピューティングの本格到来と、Webやメールなどインターネットの普及によって、あらゆるデータがデジタル化されネット上に存在していることがある。もし、紙に印刷されただけの文章を分析しようと思ったら、まずデジタル化しなければならない。それには当然ながら費用がかかる。しかし、分析のための下処理にしか過ぎないテキストのデジタル化に高額な費用を計上するのは、現実的ではなかった。ところが、現在はあらゆる種類のデジタルデータが容易に入手・保存できる。分析者にとっては、宝の山に囲まれている状態だと言ってよいかもしれない。

 また同時に、テキストを分析するために必要なツールの進歩も見逃せない。日本語の場合、英語のように単語ごとにスペースで区切られていない。したがって、分析する前に、文章を名詞や形容詞、助詞といった要素に分解する必要性がある。この技術は「形態素解析」と呼ばれ、言語学の分野で研究・開発されてきたものである。例えば、「キリンの一番搾りはうまい」という文章は、形態素解析にかけると、次のように分解、すなわち“分かち書き”される。

形態素解析の例:
キリン(名詞)/ の(名詞接続助詞)/ 一番搾り(名詞)/ は(副助詞)/ うまい(形容詞)

 この形態素解析での研究成果が広く公開されるようになり、まだまだ完璧とは言えないまでも、実用に十分耐えうるレベルの環境を容易に利用できるようになってきている。すなわち、テキスト・マイニングのための第一関門である、「テキストデータの分解(分かち書き)」をようやくクリアできるようになったのである。さらに、データマイニングの分野では、ニューラルネットワークをはじめとする人工知能をベースとする分析技術が進展し、文字のようなあいまいなデータの処理が得意なツールが充実してきている。

 このように、昨今テキスト・マイニングが脚光を浴び、あたかもブームのような様相を呈しているのは、まさに分析の対象であるデータのデジタル化の進展と、その分析に適したデータマイニング技術の進展という、2つの条件が揃ったからであろう。

 
 

Clementineによるテキスト・マイニング

 さて、現在のところ、Clementineでテキスト・マイニングを実現するための方法については、次のとおりである。

 SPSSでは、テキストデータの分解、すなわち形態素解析ツールとして、奈良先端科学技術大学院大学が開発した「茶筌」(ChaSen)というフリーソフトの使用を推奨する。豊田氏によると、解析の精度が高いことに加え、辞書への単語登録も容易であること、また処理速度が速いなどフリーソフトとはいえ、非常に優れたツールだそうだ。

 そして、Clementine6.0では、外部ツールの処理を一連の分析フローに取り込むためのインターフェイスCEMI(Clementine External Module Interface)が実装されているため、Clementineの操作画面の中で、「茶筌」でのデータ処理も含む、テキスト・マイニングの分析プロセスを一気通貫で組むことができる。テキスト・マイニングだからといって、慣れないまったく別のツールを操作する必要性がなく、Clementine自体が持つメリットをそのまま享受することができるのである。

 
CEMIにより、Clementineへ茶筌を登録できる[拡大]

Clementineでは、茶筌を1ノードのように扱うことができる[拡大]

 実際、Clementine+茶筌の組み合わせで、さまざまなテキスト・マイニングを実践している豊田氏は、次のようなメリットを指摘している。

操作性の高さ
 テキスト・マイニングは、データ処理途中での知見を前処理に反映させるてやり直す、といった試行錯誤的な操作が不可欠だが、Clementineだといつでも処理を止めて前処理に戻ることができる。

豊富な分析手法を使える分析自由度の高さ
 
例えばアンケートデータの分析の場合など、テキストデータと回答者属性をくっつけるというデータ統合が簡単であり、Clementineが持つ豊富な分析手法が活用できる

ユーザー負担の軽さ
 「茶筌」はフリーソフトであるため、Clementineユーザーなら、追加コストなしに手軽に本格的なテキスト・マイニングが実現できる。

ストリームの変更による拡張性の高さ
 基本的な処理の仕組みさえ理解できれば、使用者がそれぞれの対象データや分析目的にそったストリームを組むことができる。またユーザー間で、ストリームの変更やテキスト・マイニング上の処理の成果を共有できれば、常に最新の成果を基にしたテキスト・マイニングツールをClementineで実現できる。

 
 

テキスト・マイニング解析例

 CLUG当日に、豊田氏の講演で紹介された、Clementine+茶筌によるテキスト・マイニングの解析例を簡単に紹介しよう。調査対象者に対していくつかのブランドの名前を見せ、そのブランド名から連想する言葉を自由回答で記入してもらった部分をテキスト・マイニングした結果である。

 例えば、携帯電話の「i-mode」というブランドで連想された言葉から、茶筌を用いて単語を抽出した後、Clementineで分析する。その結果、「広末涼子」「田村正和」というタレント名や「Docomo」というブランド名を主に挙げた回答者群と、「便利」「高い」「メール」といったi-modeを経験することによって得られる評価や機能面を主に挙げた回答者群という、2つの特徴的なグループを抽出することができたという。これは、ブランドイメージの形成特徴として、広告やブランドそのもののイメージを優先する層と、経験・評価といった価値判断を伴ったイメージを優先する層の存在を示唆するものであり、広告戦略などに活用できる可能性を示している。

※ブランド連想による広告効果測定に関する研究は、豊田氏がすでに2001年夏、小川孔輔教授(法政大学)と共同で日本マーケティングサイエンス学会に発表している。

 
 

今後のテキスト・マイニング技術の進歩に必要なこと

 豊田氏によれば、テキスト・マイニング技術・ツールの更なる向上のためには、次の2点が必要であると言う。

テキスト処理上のノウハウのフィードバック
 分析にかける前の、下準備としてのテキストデータの処理には、解決しなければならないさまざまな課題・問題がまだまだ山積されている。そこで、テキスト・マイニング研究者が実践を通じて蓄積した処理テクニックをお互いに公開し、処理技術の向上を共同で図っていく必要がある。

導入される分野の研究者や実務家の専門知識のフィードバック
 テキスト・マイニングの技術的な側面の向上と同時に、テキスト・マイニングが実際に適用される分野、例えばマーケティングの専門家などが、ユーザーの立場からテキスト・マイニングの改善点を開発者にフィードバックしていくといったことが重要である。

 テキスト・マイニングは、非定型なテキストを扱うだけに分析の自動化は困難である。むしろ、数値データの分析以上に分析者のビジネスセンスが要求される。その意味では、データマイニングツールは、テキスト・マイニングを実施する分析者を支援するためのツールとして、さらに使い勝手のよいツールとして進化していかなければならないのである。



 Clementineは、テキスト・マイニング機能を組み込むことで、数値データだけでなくテキストデータをも分析できるようになった。Clementineの操作性の高いユーザーインターフェイスを通じて、企業内のあらゆるデータがハンドリングできるのである。したがって、Clementineは、さらに使い勝手のよいデータマイニングツールへとまさに進化したといえるだろう。

 
Index
広告企画:実践e-CRM〜Clementine導入効果に迫る
  第1回 データマイニング・ツール導入のススメ
  第2回 導入事例:株式会社ソフマップ
  第3回 Clementine 6.0が登場
  第4回 ソリューションテンプレートなら「自分にもできる!」
第5回 テキスト・マイニングに活用されるClementine

 


データマイニング・ツールに関するアンケートにお答えください
抽選で5名様に1万円分の図書券をプレゼントいたします

アンケートはこちら

 
関連リンク集

NEWS

(株)ソフマップがオンラインショップサイト「Sofmap.com」のレコメンドエンジンの構築にSPSSデータマイニングツール「Clementine」を採用

(2000年11月01日)
(株)NTTダイナミックテレマがデータベースマーケティング事業のコアツールとして日本IBM/SPSSによる統合型データマイニング・ソリューションを活用したデータ分析サービスを提供


KDnuggets社の調査でClementineが急速な延びを記録。SPSS社のデータマイニングツールがKDnuggets社のホームページ上での調査でトップに


SPSS各種問い合わせ

ご購入前の製品に関するお問い合わせ

資料請求に関するお問い合わせ

無料セミナー・SPSSソリューションセミナーに関するお問い合わせ


トレーニング

SPSSトレーニング・コース

統計コース

アプリケーション・コース

Clementine初級編


</comment> <tr> <td bgcolor="#EEEEEE"><font size="2"><a href="javascript:KeepIt();"> <img src="/club/keepoint/images/ico_kpt.gif" alt="kee&lt;p&gt;oint保存" border="0" align="absmiddle" width="24" height="18">kee&lt;p&gt;ointで保存</a></font></td> </tr> <comment>

 
@ITトップ@IT Special インデックス会議室利用規約プライバシーポリシーサイトマップ