2004年05月30日 (日)

Bulkfeeds の Similarity Search に iBlog を対応させる

以前 iblogPatcher-1.3 をリリースした頃から実施していたのですが、相当期間継続して検証ができたので紹介します。Bulkfeeds の Similarity Search に iBlog が出力する rss.xml を対応させる方法です。実に簡単です。

テンプレートファイル FeedPage.txt をちょちょいのちょいといじれば終わりです。

Similarity Search とは

Bulkfeeds は rss.xml などの RSS を元に blog サイトの検索サービスを提供している大変ありがたいところです。大分前から Similarity Search という検索も提供されています。

この Similarity Search は、RSS に載っているエントリの内容を形態素解析して単語に分割し、その中の単語から、そのエントリの特徴をよく言い表していると思われるものを抽出します。そして、同じ単語を特徴語として持っている他のエントリを探し出してくれるというものです。これを利用すると、Bulkfeeds 内で似た話題の記事を検索できるだけでなく、その結果を自分の blog の中に表示することもできるのです。

似た者検索ができるのは、Bulkfeeds に「アグリゲートされているエントリ」だけです。要は Bulkfeeds に RSS が登録されたブログのエントリから似た者検索ができるのですが、実は iBlog が出力する rss.xml では「アグリゲートされているエントリ」と認識されなかったんです。Similarity Search が提供され始めた頃にすぐに気付いてなんでだろうと思っていたのですが、ある日、rss.xml を眺めていて見当が付きました。そのときはそれで安心して何もしないまま忘れていたのですが、iblogPatcher-1.3 を作るとき、つまり iBlog-1.3.6 にバージョンアップしたときについでに実施しました。

変更要領

ホームから

Library > Application Support > iBlog > TemplateSets
と辿ったフォルダの中にある FeedPage.txt が rss.xml のテンプレートファイルです。この中に
<link><![CDATA[$DocumentRoot$]/<$EntryLink$>]]></link>
と書いてある箇所があります。これを
<link>[$DocumentRoot$]/<$EntryLink$></link>
一部全角を使っています。コピーしたら修正してください。
と <![CDATA[ ]]> を取り除いてやれば OK です。

せっかちさんは注意

何か変更したらすぐに成果を確かめたくなるのが人情。ですが、上のようにした rss.xml を Bulkfeeds に食わせてもすぐには結果は現れません。上に述べた形態素解析というのは、文法に従ってその文や文章を単語に分かち書きする処理のことです。これを行っていますから、そうそうほいほい処理されるものではありません(昔、私も形態素解析プログラム書いていました)。ですから、ある程度時間が経たないと似たものが検索できません。どれくらい経つといいかは Bulkfeeds の説明を見てください。


Posted: 00:04    | Comment | Trackback


以下、類似エントリです。