2008年03月20日 22:08
chasenをインストール
壮大な目論見。自身のブログのタグクラウドの作成。むろん他のサービスを利用するのではなく自己完結。
さて、その一歩としてchasenをインストールした。辞書等のutf-8への変換に手間取ったものの、なんとか成功。では、chasenとはなんぞや、
ChaSen - Wikipedia から2008年3月20日に引用ChaSen(茶筌)は、形態素解析ツールのひとつ。奈良先端科学技術大学院大学松本研究室で開発された。
名称の由来は、同大学の位置する奈良県生駒市の特産品である茶筌にちなむ。 ベースとなった形態素解析ツールは Juman であるが、統計的な手法を用いており、解析速度と使い勝手の向上を目指している。現在はIPA品詞体系を使用しており、Juman とはその方向性が異なっている。
形態要素解析ツールとは?この辺、たぶんOKAMURAさんあたりが詳しいはずです。簡単に言えば、テキストを日本語の品詞別に分類してリストアップしてくれるもの。ということで良いはず。
これで、前段階はできた。あとはデータベースとの連携。まぁ、私のブログといっても「v3」だけでも500を越えるエントリが存在します。NanoBloggerはあまりにも基本的なコードのみで作るという前提から専用データベースを採用していません。リスト形式のエントリリストを使って管理しているんですね。これはこれでシンプルな構造でよろしい。iBlogなどもそうです。ところが、この形式だとリストが長くなればなっただけ時間がかかる。それだけでなく、あまり応用も利かないわけですよ。ある意味限界があるわけですな。以前から、それなら応用部分は別途作ってNanoBloggerには骨格だけ生成してもらえばいいじゃんと思っていた。例えばサイドバーに表示させているiTunesの再生リスト。アレはNanoBloggerが生成しているのではなく、外部のプログラム(この場合はシェルスクリプト)が作っている。それをNanoBloggerがhtml生成時に読み込んでいるだけなんですね。
例えば、サーバーサイドでプログラムを動かすことができればユーザーのリクエストごとにプログラムが応答して返答を返すことができる。しかし.Macのサーバーではできない。サーバーを移せばいいじゃん。という選択肢もあるわけだけど、會澤はへそ曲がりだからそれはしたくない。なので、めんどくさいことをやろうとするわけですよ。バカですねぇ。
単語への切り分けができたからといっても、それは第一歩。実際どのようにしようかとかはまだ模索中。ただ、すべてのエントリから単語情報を引き出し、それをリスト化することは可能になったわけで、そこからどんな風にしようか色々思いをめぐらせております。きっと色々できるツールの類があるのだと思いますが、私はウェブデザイナーでもありませんし、それで仕事してるわけでもないので楽しみたいと思います。できあがったシステムがどんなものになるのか私にもさっぱりわかりませんが、これからこれから。
會澤の妄想エントリでした。
蛇足で追記。ちなみに、オプションを指定せずにこのエントリの日本語を解析・出力すると「output.txt」こんな感じになります。リンクファイルは、タブ区切りのテキストファイルですのでブラウザでは見づらいかも。
Posted by kaizawa | TrackBacks