Text::MeCab::Dictでカスタム辞書

| コメント(0) | トラックバック(0)
ちょっとリリースそのものでバタバタしてしまいましたが、Text::MeCabを使って、mecabのカスタム辞書に語句を比較的容易に追加できるようにしました。例はText::MeCab 0.20004に同梱されているeg/add_custom.plを参照してください。

自分の場合はちょっと人名をがばっと追加したかったのでAcme::Actor::JA(codereposのみ -- CPANにはアップしてません)とText::MeCab::Dictを使って3000人程の人名を追加してやりました。これをすると何がいいかというと、これまでだとものすごく有名な人の名前で検索する場合とかに「姓」「名」に名前が分けられてしまっていたところがその名前全体をひとつの語句として認識してくれるようになります。

# 追加前 shell > 堂本光一 堂本 名詞,固有名詞,人名,姓,*,*,堂本,ドウモト,ドーモト 光一 名詞,固有名詞,人名,名,*,*,光一,コウイチ,コーイチ # 追加後 shell > mecab 堂本光一 堂本光一 名詞,固有名詞,人名,*,*,*,堂本光一,どうもとこういち,*


ちなみに二つ目の読みがひらがななのはただ面倒くさかったからです。
ちゃんとやればカタカナに変換も容易でしょう。

Author

Daisuke Maki (a.k.a lestrrat): Perl hacker, Director of Japan Perl Association, YAPC::Asia Tokyo Organizer (2009-2012), Fluent in Japanese, English. Ex-Brazilian (sorta)

#perl #c #ruby #java #mysql #english #japanese #opensource #stf #cooking #scotch #cigar


このエントリーをはてなブックマ
ークに追加

翔泳社よりモダンPerl入門(2010)を出版させていただいております。できれば内容をアップデートしたいので是非皆様・・・現在の在庫処理にお力をお貸しください!><

月別アーカイブ