[運用]
|
|
POPFileの入手
POPFileは以下のサイトで配布されている、フリー・ソフトウェアである。プログラム本体やドキュメントなどは、以下のページを参照していただきたい。
トップ・ページの右上にある「クイック・リンク」をクリックすると、POPFileの最新版のダウンロード・ページへ移動する(次の画面参照)。
POPFileのダウンロード・ページ | |||
先のPOPFileのホームページにある「POPFile のダウンロード」のリンクをクリックすると、このダウンロード・ページが表示される(ダウンロード・ページはこちら)。原稿執筆時の最新バージョンは、2008年5月27日に公開されたVer.1.0.1。 | |||
|
POPFileのインストール
上のページでWindows版のダウンロード用リンクをクリックすると、popfile-1.0.1-windows.zipというzipファイルが得られる。展開すると中にsetup.exeという実行ファイルが含まれているので、これをどこかローカルのディスク上へコピーしてから、ダブルクリックするとPOPFileのインストーラが起動する。以下、順にインストール手順について見てみよう。
なお、以下では新規インストールの例を紹介するが、すでにPOPFileの旧版をインストールしており、バージョンアップする場合は、万一のときのために現在のPOPFileフォルダをどこかにコピー(バックアップ)してから、単に上書きインストールすればよい。従来の設定や辞書データなどはそのまま引き継ぐことができる。
インストーラの最初のステップでは、インストールする言語を選択する。POPFileのセットアップ・プログラムは1つのバイナリで複数の言語に対応しており、ユーザー・インターフェイスのメニューなどを日本語や英語などに自由に変更できる(インストール後に変更することも可能)。
言語の選択 | |||
セットアップの最初の段階では、インストールする言語を選択する。日本語メニューにするには「Nihongo」を選択する。 | |||
|
言語を選ぶと、セットアップ・ウィザードが(選択した言語で)表示されるので、[次へ]をクリックして先へ進む。
セットアップ・ウィザードの起動画面 | |||
言語を選ぶと、セットアップ・ウィザードが(選択した言語で)表示される。 | |||
|
最初にライセンス条項が表示されるので、内容を確認して先へ進む。
ライセンスの表示 | ||||||
POPFileのライセンスなどに関する情報が表示されるので、内容を確認して先へ進む。 | ||||||
|
次の画面では、「日本語の分かち書き」に使用するプログラムを選択する。日本語の分かち書きとは、メールの本文から日本語の単語を切り出す処理のことであり(例:「重要な処理である」→「重要な」「処理」「である」などと分ける)、POPFileのベイジアン・フィルタにおける分類処理で利用される、重要な処理である。単語ごとに、どのバケツに分類できるかを計算するためだ。日本語は英語と異なり、単語が空白文字で区切られているわけではない。そのため単語を切り出す処理を行わないと、例えば文章単位でしか迷惑メールかどうかを判断できなくなり、少し語尾や言い方を変えただけで、迷惑メールではないと判断される可能性がある。
日本語の分かち書き処理のプログラムの選択 | |||
メールの本文などから日本語の単語を切り出すための処理プログラムを選択する。が、どれを使っても分類の精度に大きな差はないようである。 | |||
|
デフォルトでは「Kakasi(KAnji KAna Simple Inverter)」という、シンプルな「漢字→かな(ローマ字)変換プログラム」を利用して、日本語の単語を切り出している。
Kakasi以外に、より高度な形態素解析エンジンであるMeCab(めかぶ)も選択できるが、辞書サイズが大きくなるというデメリットがある。逆に辞書を使わず、文字種のみに基づいて分かち書きを処理する「内蔵パーサ:文字種による分割」を使うこともできる(例えば連続するひらがなやカタカナ、漢字を単語と見なすなど)。内蔵パーサーなら処理は軽いし、辞書も不要なのでディスク・サイズは少なくて済む。
だが実際のところ、どの方法を使っても最終的な分類の精度は変わらないようである(上の画面のメッセージ参照)。どの方法で単語を切り出したとしても、最終的にはベイズ理論で分類するため、学習時と参照時で同じ方法で単語が切り出せればよいからのようだ。逆にいうと、運用開始後にこの処理アルゴリズムを変更すると(後でも変更可能)、単語の切り出し処理の方法が変わり、分類精度が一時的に低下することになる(しばらく学習すれば、また精度は向上する)。特に理由がない限り、デフォルトのKakasiを選択しておけばよいだろう。
インストールの次の画面では、インストールするコンポーネントを選択する。デフォルトではPOPFileのコア・コンポーネントとスキン設定(メニューのスタイルやウィンドウの色など)、言語、日本語のパーサーが選択されている。NNTPやSMTPのProxy、IMAPサポートなどが必要なら、該当するチェック・ボックスをオンにする。メール・サーバとの接続にSSL(Secure Socket Layer)を使用する場合も同様だ(詳細はTIPS「POPFileでSSLを使ってメール・サーバに接続する」を参照のこと)。
インストールするコンポーネントの選択 | ||||||
NNTPやSMTPのProxy、IMAPなどのサポートが必要な場合は、それぞれのチェック・ボックスをオンにする。以下の例では、すべてデフォルトのままの設定でインストールしたものを使用している(メールはPOP3プロトコルでのみアクセスするものとする)。 | ||||||
|
次の画面では、POPFileプログラムのインストール先を指定する。学習した辞書などのデータは、ユーザーごとのフォルダに置かれるので、この場所には書き込まれることはない。
POPFileプログラムのインストール先の指定 | |||
デフォルトでは%ProgramFiles%\POPFileフォルダにインストールされる。 | |||
|
次の画面はインストールのサマリーである。内容を確認後、[インストール]ボタンをクリックすると、実際にPOPFileプログラムがインストールされる。
インストールのサマリー | |||
ここまでの設定の概要が表示されているので、内容を確認後、[インストール]ボタンをクリックすると、実際のインストールが始まる。 | |||
|
INDEX | ||
[運用]POPFileで構築する迷惑メール・フィルタ | ||
POPFileを導入して迷惑メールを分類する(前編) | ||
1.迷惑メールとその対策 | ||
2.迷惑メールの分類をサポートするPOPFile | ||
3.POPFileのインストール(1)―入手と機能の選択 | ||
4.POPFileのインストール(2)―初期バケツの作成 | ||
5.POPFileのインストール(3)―メール・アカウントの設定 | ||
6.POPFileの管理画面 | ||
POPFileのトレーニングとメーラの設定(後編) | ||
1.POPFileのトレーニング(1) | ||
2.POPFileのトレーニング(2) | ||
3.メーラによるメールの分類 | ||
4.設定のカスタマイズと使いこなし | ||
運用 |
- Azure Web Appsの中を「コンソール」や「シェル」でのぞいてみる (2017/7/27)
AzureのWeb Appsはどのような仕組みで動いているのか、オンプレミスのWindows OSと何が違うのか、などをちょっと探訪してみよう - Azure Storage ExplorerでStorageを手軽に操作する (2017/7/24)
エクスプローラのような感覚でAzure Storageにアクセスできる無償ツール「Azure Storage Explorer」。いざというときに使えるよう、事前にセットアップしておこう - Win 10でキーボード配列が誤認識された場合の対処 (2017/7/21)
キーボード配列が異なる言語に誤認識された場合の対処方法を紹介。英語キーボードが日本語配列として認識された場合などは、正しいキー配列に設定し直そう - Azure Web AppsでWordPressをインストールしてみる (2017/7/20)
これまでのIaaSに続き、Azureの大きな特徴といえるPaaSサービス、Azure App Serviceを試してみた! まずはWordPressをインストールしてみる
|
|