Ubuntu17.10にmecabをインストールした件

スポンサーリンク

Ubuntu17.10にmecabをインストール

基本的にはQiitaの記事を参照。

``bash sudo apt install mecab sudo apt install libmecab-dev sudo apt install mecab-ipadic-utf8 ``` この段階で動作確認 ```tex...

ほぼインストールしたばかりのubuntu17.10へmecabを追加していきます。

最初にするのは、mecabのインストール。

sudo apt install mecab
sudo apt install libmecab-dev
sudo apt install mecab-ipadic-utf8

これで、一応mecab自体は動きます。しかし、辞書がちょっと弱い。特に固有名詞など。

とりあえず、「アビスパ福岡の監督である井原正巳とキング城後寿」と読み込ませて分析。

$ mecab
アビスパ福岡の監督である井原正巳とキング城後寿

アビスパ 名詞,一般,*,*,*,*,*
福岡    名詞,固有名詞,地域,一般,*,*,福岡,フクオカ,フクオカ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
監督    名詞,サ変接続,*,*,*,*,監督,カントク,カントク
で      助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある    助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
井原    名詞,固有名詞,人名,姓,*,*,井原,イハラ,イハラ
正巳    名詞,固有名詞,人名,名,*,*,正巳,マサミ,マサミ
と      助詞,並立助詞,*,*,*,*,と,ト,ト
キング  名詞,固有名詞,人名,姓,*,*,キング,キング,キング
城後    名詞,固有名詞,人名,姓,*,*,城後,ジョウゴ,ジョーゴ
寿      名詞,固有名詞,人名,名,*,*,寿,ヒサシ,ヒサシ
EOS                                                 

まあ違ってはないのですが、アビスパ福岡、井原正巳、城後寿などは固有名詞、人名として認識して欲しいわけです。

そこで辞書を強化。mecab-ipadic-NEologdを追加します。

mecab-ipadic-NEologd とは

github上に公開されているmecab用の辞書です。多数のWeb上の言語資源から得た新語を追加することでカスタマイズしたとのこと。さらに特徴的なのは週2回情報が更新されること。web上で現れた新しい言葉がすぐに反映されるのが特徴です。

インストールは以下。

git clone https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
sudo ./bin/install-mecab-ipadic-neologd

です。最初のインストールで同じような辞書「mecab-ipadic-utf8」をインストールしていますが、こちらは併用となります。公式で併用をオススメされています。

【Neologd:github】

mecab-ipadic-neologd - Neologism dictionary based on the language resources on the Web for mecab-ipadic

ここで、2点。もしここで、「make is nof found」と表示されてしまった場合。makeが上手く動いていない可能性があります。

sudo apt install --reinstall build-essential

として、build-essential を再インストールしてください。おそらく解決するはず(個人的には解決しました)。

次に「curl is not found」と表示されてしまった場合。これは、curlがインストールされていない可能性がありますので、インストールしてあげます。

sudo apt install curl

でOKです。

個人的にはほぼまっさらのUbuntuにmecabをインストールする際に生じたエラーは2点でした。

インストールが正常に行われると、最後に以下のような表記が出てきます。

Usage:
    $ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd ...

[install-mecab-ipadic-NEologd] : Finish..

辞書を使うためには、辞書設定を「/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd」にしろ。ということですね。

$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd

にて実行すると、NEologdを読み込んでくれます。

ただ、毎回mecabを使う度このコマンドを打つのはめんどくさいのでmecabの設定ファイルを書き換えます。

$ sudo vim /etc/mecabrc

として、dicdir = ~

となっている行があるので、こちらを

dicdir = /usr/lib/mecab/dic/mecab-ipadic-neologd

と書き換えてしまいます(※念のため、デフォルトのものはコピペしてコメントアウトしておきましょう)。

以上にて設定完了です。これで、mecabを普通に起動しても、辞書はNEologdを読み込んでくれます。

先程、デフォルトの確認で分析した文章を改めてmecabで調べてみます。

$ mecab
アビスパ福岡の監督である井原正巳とキング城後寿

と、入力してみると…。

アビスパ福岡	名詞,固有名詞,一般,*,*,*,アビスパ福岡,アビスパフクオカ,アビスパフクオカ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
監督	名詞,サ変接続,*,*,*,*,監督,カントク,カントク
で	助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある	助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
井原正巳	名詞,固有名詞,人名,一般,*,*,井原正巳,イハラマサミ,イハラマサミ
と	助詞,並立助詞,*,*,*,*,と,ト,ト
キング	名詞,固有名詞,人名,姓,*,*,キング,キング,キング
城後寿	名詞,固有名詞,人名,一般,*,*,城後寿,ジョウゴヒサシ,ジョーゴヒサシ
EOS

きっちり固有名詞、人名を形態素解析して認識してくれていますね。NEologdを読み込んでくれているようです。

自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)
  • 奥野 陽, グラム・ニュービッグ, 萩原 正人
  • 価格   ¥ 2,592
  • 販売者 Amazon.co.jp
クリックして今すぐチェック
スポンサーリンク

シェアする

フォローする

スポンサーリンク