このページには、web上で形態素解析器を実行させるために必要なツール及びそのインストールの仕方が書いてあります。
文字エンコーディング処理機能(例えば、Shift-JISからUTF-8への変換機能)、シンタクス・ハイライティング機能、正規表現の検索・置換機能のあるプログラムを使用する。
Windows上では、Notepad++を使用している。
webサーバとしてWAMP (すなわち、webサーバのWindows ApacheとMySQLとPHPライブラリが一つになっているもの)を、webアプリケーション開発用にインストールする。 インストールすれば、PHPで書かれているCMS(例えば、WordpressとDotclear blogsやPHPbb forumやPIWIK statisticsなど)をインストールすることができるようになる。
Visual C++ 2010 SP1 Redistributable Package x64をダウンロードし、インストールする。
Visual C++ Redistributable for Visual Studio 2012をダウンロードし、インストールする。
WAMPをインストールする前に、C++ライブラリーをインストールしなければならない。そうでないと、プログラムが動かなくなる。
Wampserverのページを開いて、
wampserver2.5-Apache-2.4.9-Mysql-5.6.17-php5.5.12-64b.exe
ダウンロードし、インストールする。
デフォールトのブラウザとしてFireFoxを指名する。
WAMPをパスが C:\wamp\
となるようCドライブにインストールする。
Tray menuに「W」という文字のアイコンが現れるはずである。もし現れていなければ、スタートメニューの検索ボックスに「wamp」とタイプする。それから、 「start wampserver64」プログラムを起動する。
もしその「W」アイコンが赤あるいはオレンジ色であれば、サーバがまだ起動していないことを示す。 何か問題が生じているかもしれない。Skypeをシャットダウンし、再びトライする。それでも問題が解決しないようであれば、web上で解決方法を探す。
もしその「W」アイコンが緑色であれば、サーバーが無事に起動しています。
「W」アイコンをクリックし、www directory
(フォルダー)をオープンする。このダイレクトリー(フォルダー)内に、
自分のプロジェクト用に新しいダイレクトリー(フォルダー)を作る。(ここでは、このダイレクトリー(フォルダー)に「ActiveReading
」
という名前をつけておく。)
使用する(文字変換可能な)テキストエディターで、新しいファイルを作り、それに「test.php
」という名前をつけ、
「ActiveReading
」ダイレクトリー(フォルダー)内に保存する。
そのファイルをオープンし、以下のコードをコピーし、ファイルにペーストし、保存する。
<html> <head> <meta charset="UTF-8" /> <title>PHP test page</title> </head> <body> <h1>PHP test page</h1> <?php echo '<p>This is a PHP test page';?></p> </body> </html>
「W」アイコンをクリックし、そのlocalhostメニューを起動する。ブラウザ上で、wampserverホームページがオープンするはずである。アドレスバーに、
「http://localhost/ActiveReading
」とプロジェクトダイレクトリー(フォルダー)の名前をタイプする。
すると、ブラウザのページに「ActiveReading
」ダイレクトリー(フォルダー)のインデクス(ファイルの名前)が現れるはずである。先程作ったファイル
「test.php
」をクリックする。すると、以下の内容がブラウザのページに現れるはすである。
PHP test page
This is a PHP test page
このページを開いて:https://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#download
Binary package for MS-Windows (mecab-0.996.exe) をダウンロードし、インストールする。
辞書の文字コード:Shift-JIS
デスクトップでMecab.lnkをクリックしてください。
次の文をMecabの入力画面にタイプしてください:「これはテストの文ですよ。
」
以下のような結果が出力されるはずです。
これはテストの文ですよ。 これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ は 助詞,係助詞,*,*,*,*,は,ハ,ワ テスト 名詞,サ変接続,*,*,*,*,テスト,テスト,テスト の 助詞,連体化,*,*,*,*,の,ノ,ノ 文 名詞,一般,*,*,*,*,文,ブン,ブン です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス よ 助詞,終助詞,*,*,*,*,よ,ヨ,ヨ 。 記号,句点,*,*,*,*,。,。,。 EOS
次にWindowsのコマンドプロンプト(cmd
)でMeCabを使用してみよう。
cmd
プログラムを起動し、次のコマンドをタイプしてください。
cd Desktop
Mecab.lnk
先程使った日本文をタイプしてください。同じ結果が出力されるはずです。
コントロール C
とタイプして、MeCabを出て、cmd
コマンドプロンプトに戻ってください。
MeCabのhelp messageを見るには、「Mecab.lnk -h
」とタイプしてください。
MeCabがどの辞書を使っているのか調べるには、「Mecab.lnk -D
」とタイプしてください。
PHPからMeCabを呼び出す時には、UTF-8エンコーディングを使用する必要があります。エンコーディングを変更するには、スタートメニューに行き、
すべてのプログラム -> MeCab -> Recompile UTF-8 dictionary
まで行きます。
コマンドプロンプトでまた、「Mecab.lnk -D
」とタイプしてください。「charset:UTF-8
」と表示されるはずです。
MeCabをWindowsのコマンドプロンプトで使用する場合は、辞書の文字エンコーディングをShift_JISに変更しなければなりません
このページを開いてください:www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/. そして、このファイルをダウンロードしてください:www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger-windows-3.2.zip.
ファイルを解凍し、Cドライブに「Software」という名前のフォルダーを作り、その中に保存してください。(「 C:\Software
」)
それから、アーカイブを以下のURLからダウンロードしてください:
www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/english-par-linux-3.2-utf8.bin.gz
これを解凍し、C>Software>TreeTaggerの「lib
」フォルダー( C:\Software\TreeTagger\lib\
)にインストールしてください。,
そのファイルの名前は「english-utf8.par
」となっているはずです。
perlプログラム画筆用ですから、Cygwin
ターミナルを開いて下さい。
次のコマンドをタイプしてください。
$ cd /cygdrive/c/Software/TreeTagger
$ echo 'you are great students!' | cmd/utf8-tokenize.perl -e -a lib/english-abbreviations | bin/tree-tagger.exe lib/english-utf8.par -token -lemma
次の出力結果が表示されるはずです。
you PP you are VBP be great JJ great students NNS student ! SENT !