English

自然言語処理用ツールのホームページ

このページには、web上で形態素解析器を実行させるために必要なツール及びそのインストールの仕方が書いてあります。

1. テキストエディター

文字エンコーディング処理機能(例えば、Shift-JISからUTF-8への変換機能)、シンタクス・ハイライティング機能、正規表現の検索・置換機能のあるプログラムを使用する。

Windows上では、Notepad++を使用している。

2. webサーバ: WAMP

webサーバとしてWAMP (すなわち、webサーバのWindows ApacheとMySQLとPHPライブラリが一つになっているもの)を、webアプリケーション開発用にインストールする。 インストールすれば、PHPで書かれているCMS(例えば、WordpressとDotclear blogsやPHPbb forumやPIWIK statisticsなど)をインストールすることができるようになる。

2.1 インストール

Visual C++ 2010 SP1 Redistributable Package x64をダウンロードし、インストールする。

Visual C++ Redistributable for Visual Studio 2012をダウンロードし、インストールする。

WAMPをインストールする前に、C++ライブラリーをインストールしなければならない。そうでないと、プログラムが動かなくなる。

Wampserverのページを開いて、 wampserver2.5-Apache-2.4.9-Mysql-5.6.17-php5.5.12-64b.exeダウンロードし、インストールする。

デフォールトのブラウザとしてFireFoxを指名する。

2.2 テスト

WAMPをパスが C:\wamp\ となるようCドライブにインストールする。

Tray menuに「W」という文字のアイコンが現れるはずである。もし現れていなければ、スタートメニューの検索ボックスに「wamp」とタイプする。それから、 「start wampserver64」プログラムを起動する。

もしその「W」アイコンが赤あるいはオレンジ色であれば、サーバがまだ起動していないことを示す。 何か問題が生じているかもしれない。Skypeをシャットダウンし、再びトライする。それでも問題が解決しないようであれば、web上で解決方法を探す。

もしその「W」アイコンが緑色であれば、サーバーが無事に起動しています。

W」アイコンをクリックし、www directory(フォルダー)をオープンする。このダイレクトリー(フォルダー)内に、 自分のプロジェクト用に新しいダイレクトリー(フォルダー)を作る。(ここでは、このダイレクトリー(フォルダー)に「ActiveReading」 という名前をつけておく。)

使用する(文字変換可能な)テキストエディターで、新しいファイルを作り、それに「test.php」という名前をつけ、 「ActiveReading」ダイレクトリー(フォルダー)内に保存する。

そのファイルをオープンし、以下のコードをコピーし、ファイルにペーストし、保存する。

<html>
    <head>
      <meta charset="UTF-8" />
      <title>PHP test page</title>
    </head>
    <body>
     <h1>PHP test page</h1>
     <?php echo '<p>This is a PHP test page';?></p>
    </body>
</html>

W」アイコンをクリックし、そのlocalhostメニューを起動する。ブラウザ上で、wampserverホームページがオープンするはずである。アドレスバーに、 「http://localhost/ActiveReading」とプロジェクトダイレクトリー(フォルダー)の名前をタイプする。

すると、ブラウザのページに「ActiveReading」ダイレクトリー(フォルダー)のインデクス(ファイルの名前)が現れるはずである。先程作ったファイル 「test.php」をクリックする。すると、以下の内容がブラウザのページに現れるはすである。

PHP test page

This is a PHP test page

3. 日本語の形態素解析器:MeCab

3.1 インストール

このページを開いて:https://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#download

Binary package for MS-Windows (mecab-0.996.exe) をダウンロードし、インストールする。

辞書の文字コード:Shift-JIS

3.2 テスト

デスクトップでMecab.lnkをクリックしてください。

次の文をMecabの入力画面にタイプしてください:「これはテストの文ですよ。

以下のような結果が出力されるはずです。

これはテストの文ですよ。
これ	名詞,代名詞,一般,*,*,*,これ,コレ,コレ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
テスト	名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
の	助詞,連体化,*,*,*,*,の,ノ,ノ
文	名詞,一般,*,*,*,*,文,ブン,ブン
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
よ	助詞,終助詞,*,*,*,*,よ,ヨ,ヨ
。	記号,句点,*,*,*,*,。,。,。
EOS

次にWindowsのコマンドプロンプト(cmd)でMeCabを使用してみよう。

cmdプログラムを起動し、次のコマンドをタイプしてください。

cd Desktop
Mecab.lnk

先程使った日本文をタイプしてください。同じ結果が出力されるはずです。

コントロール C とタイプして、MeCabを出て、cmdコマンドプロンプトに戻ってください。

MeCabのhelp messageを見るには、「Mecab.lnk -h」とタイプしてください。

MeCabがどの辞書を使っているのか調べるには、「Mecab.lnk -D」とタイプしてください。

PHPからMeCabを呼び出す時には、UTF-8エンコーディングを使用する必要があります。エンコーディングを変更するには、スタートメニューに行き、 すべてのプログラム -> MeCab -> Recompile UTF-8 dictionaryまで行きます。

コマンドプロンプトでまた、「Mecab.lnk -D」とタイプしてください。「charset:UTF-8」と表示されるはずです。

MeCabをWindowsのコマンドプロンプトで使用する場合は、辞書の文字エンコーディングをShift_JISに変更しなければなりません

4. 英語の形態素解析器:Tree tagger

4.1 インストール

このページを開いてください:www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/. そして、このファイルをダウンロードしてください:www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger-windows-3.2.zip.

ファイルを解凍し、Cドライブに「Software」という名前のフォルダーを作り、その中に保存してください。(「 C:\Software」) それから、アーカイブを以下のURLからダウンロードしてください: www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/english-par-linux-3.2-utf8.bin.gz これを解凍し、C>Software>TreeTaggerの「lib」フォルダー( C:\Software\TreeTagger\lib\)にインストールしてください。, そのファイルの名前は「english-utf8.par」となっているはずです。

4.2 テスト

perlプログラム画筆用ですから、Cygwin ターミナルを開いて下さい。

次のコマンドをタイプしてください。

$ cd /cygdrive/c/Software/TreeTagger

$ echo 'you are great students!' | cmd/utf8-tokenize.perl -e -a lib/english-abbreviations | bin/tree-tagger.exe lib/english-utf8.par -token -lemma

次の出力結果が表示されるはずです。

you	PP	you
are	VBP	be
great	JJ	great
students	NNS	student
!	SENT	!