1. はじめに
エックスサーバーで借りているサーバー (OS は CentOS 7 のようです) に、MeCab をインストールします。
2. エックスサーバーに MeCab をインストールする手順
サーバー上のアカウント名は、foo とします。
2.1. MeCab のインストール
mecab-0.996.tar.gz ファイルをダウンロードします。
$ curl -fsSL 'https://drive.usercontent.google.com/download?id=0B4y35FiV1wh7cENtOXlicTFaRUE&export=download' -o mecab-0.996.tar.gzmecab-0.996.tar.gz ファイルを展開します。
$ tar xzvf mecab-0.996.tar.gzmecab をインストールします。
$ cd mecab-0.996
$ ./configure --prefix=/home/foo/local/mecab-0.996 --with-charset=utf8 --enable-utf8-only
$ make
$ make check
$ make install--prefixオプションにより、/home/foo/local/mecab-0.996にインストールするよう指定しています。
2.2. IPA辞書のインストール
IPA辞書ファイル mecab-ipadic-2.7.0-20070801.tar.gz をダウンロードします。
$ curl -L https://github.com/shogo82148/mecab/releases/download/v0.996.10/mecab-ipadic-2.7.0-20070801.tar.gz -o mecab-ipadic-2.7.0-20070801.tar.gzmecab-ipadic-2.7.0-20070801.tar.gz を展開します。
$ tar xzvf mecab-ipadic-2.7.0-20070801.tar.gzインストールに必要な Makefile ファイルを作成します。
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --prefix=/home/foo/local/mecab-ipadic-2.7.0-20070801 \
--with-charset=utf8 \
--with-mecab-config=/home/foo/local/mecab-0.996/bin \
--with-dicdir=/home/foo/local/ipadic--prefixオプションにより、/home/foo/local/mecab-ipadic-2.7.0-20070801にインストールするよう指定していますが、ここには何も配置されませんでした。--with-dicdirオプションにより、辞書ファイルが配置されるディレクトリを指定しています。
生成された Makefile ファイル内の以下の行を修正します(2箇所)。
mecab_dict_index = /mecab-dict-index
↓
mecab_dict_index = /home/foo/local/mecab-0.996/libexec/mecab/mecab-dict-indexMECAB_DICT_INDEX = /mecab-dict-index
↓
MECAB_DICT_INDEX = /home/foo/local/mecab-0.996/libexec/mecab/mecab-dict-indexmake コマンドを実行します。
$ make
(省略)
done!
To enable dictionary, rewrite /mecabrc as "dicdir = /home/foo/local/ipadic"「辞書を有効にするために、mecabrc ファイルで “dicdir = /home/foo/local/ipadic” と書き換えてください」というメッセージが表示されたため、それに従います。
$ vi /home/foo/local/mecab-0.996/etc/mecabrcdicdir = XXXXXXXXXXXXXXXの行を、dicdir = /home/foo/local/ipadicに書き換えます。
IPA辞書をインストールします。
$ make install/home/foo/local/ipadicディレクトリに、辞書ファイルが生成されます。- 先ほども書きましたが、
configureコマンドの--prefixオプションで指定したディレクトリには、何も生成されませんでした。
3. mecabコマンドを使ってみる
~/local/mecab-0.996/bin/mecab コマンドを実行してみます。
$ ~/local/mecab-0.996/bin/mecab
太郎はこの本を二郎を見た女性に渡した。 ← この文章を入力して Enterキーを押します。
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
この 連体詞,*,*,*,*,*,この,コノ,コノ
本 名詞,一般,*,*,*,*,本,ホン,ホン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二 名詞,数,*,*,*,*,二,ニ,ニ
郎 名詞,一般,*,*,*,*,郎,ロウ,ロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。 EOS次の例として、以下を記述したテキストファイル kokoro.txt を用意します。
私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間を憚る遠慮というよりも、その方が私にとって自然だからである。私はその人の記憶を呼び起すごとに、すぐ「先生といいたくなる。筆を執っても心持は同じ事である。よそよそしい頭文字などはとても使う気にならない。- 夏目漱石の小説「こころ」の冒頭部分です。
この文章から、出現回数の多い名詞を調べます。
$ cat kokoro.txt | ~/local/mecab-0.996/bin/mecab | grep 名詞 | sort | uniq -c | sort -r
3 先生 名詞,一般,*,*,*,*,先生,センセイ,センセイ
3 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
2 人 名詞,一般,*,*,*,*,人,ヒト,ヒト
1 憚 名詞,一般,*,*,*,*,*
1 本名 名詞,一般,*,*,*,*,本名,ホンミョウ,ホンミョー
1 方 名詞,非自立,一般,*,*,*,方,ホウ,ホー
1 筆 名詞,一般,*,*,*,*,筆,フデ,フデ
1 頭文字 名詞,一般,*,*,*,*,頭文字,カシラモジ,カシラモジ
1 世間 名詞,一般,*,*,*,*,世間,セケン,セケン
1 心持 名詞,一般,*,*,*,*,心持,ココロモチ,ココロモチ
1 自然 名詞,形容動詞語幹,*,*,*,*,自然,シゼン,シゼン
1 事 名詞,非自立,一般,*,*,*,事,コト,コト
1 記憶 名詞,サ変接続,*,*,*,*,記憶,キオク,キオク
1 気 名詞,非自立,一般,*,*,*,気,キ,キ
1 遠慮 名詞,サ変接続,*,*,*,*,遠慮,エンリョ,エンリョ
1 ごと 名詞,非自立,副詞可能,*,*,*,ごと,ゴト,ゴト
1 これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ
1 ここ 名詞,代名詞,一般,*,*,*,ここ,ココ,ココ最も多く出現した名詞は「先生」と「私」で、回数は3回でした。




