ちょっとリリースそのものでバタバタしてしまいましたが、Text::MeCabを使って、mecabのカスタム辞書に語句を比較的容易に追加できるようにしました。例はText::MeCab 0.20004に同梱されているeg/add_custom.plを参照してください。
自分の場合はちょっと人名をがばっと追加したかったのでAcme::Actor::JA(codereposのみ -- CPANにはアップしてません)とText::MeCab::Dictを使って3000人程の人名を追加してやりました。これをすると何がいいかというと、これまでだとものすごく有名な人の名前で検索する場合とかに「姓」「名」に名前が分けられてしまっていたところがその名前全体をひとつの語句として認識してくれるようになります。
ちなみに二つ目の読みがひらがななのはただ面倒くさかったからです。
ちゃんとやればカタカナに変換も容易でしょう。
自分の場合はちょっと人名をがばっと追加したかったのでAcme::Actor::JA(codereposのみ -- CPANにはアップしてません)とText::MeCab::Dictを使って3000人程の人名を追加してやりました。これをすると何がいいかというと、これまでだとものすごく有名な人の名前で検索する場合とかに「姓」「名」に名前が分けられてしまっていたところがその名前全体をひとつの語句として認識してくれるようになります。
# 追加前
shell >
堂本光一
堂本 名詞,固有名詞,人名,姓,*,*,堂本,ドウモト,ドーモト
光一 名詞,固有名詞,人名,名,*,*,光一,コウイチ,コーイチ
# 追加後
shell > mecab
堂本光一
堂本光一 名詞,固有名詞,人名,*,*,*,堂本光一,どうもとこういち,*
ちなみに二つ目の読みがひらがななのはただ面倒くさかったからです。
ちゃんとやればカタカナに変換も容易でしょう。