2008年03月23日 21:51

GETA インストール成功

OKAMURAさんのアドバイスがなければ完成しませんでした。まずはお礼申し上げます。


さて、GETA(汎用連想計算エンジン)とはいかなるもので、どのように使うのか。私なんぞが解説する必要もなければ、私の解説などなんの役にも立たぬのは百も承知の上で、次のようなことを考えています。

GETA イメージ
  entry01 entry02 entry03 entry04 entry05
keyword01 1       3
keyword02   2     2
keyword03   5 3 6  
keyword04 4     4  
keyword05   3   4 5
keyword06     6    
keyword07   1   2  

上記の表は次のように考えて下さい。エントリーが1〜5まであります。そしてそのエントリーにあるキーワードが1〜7まで7つあるとします。表の数字はそれぞれ登場回数だと思って下さい。ここではあえて重み付けは行いません。

  • キーワード2が登場するエントリーは「エントリー2」と「エントリー5」です。
  • エントリー3に登場するキーワードは「キーワード3」と「キーワード6」です。
  • エントリー4には4つのキーワードが登場しますが、その中でより登場回数が多いのは「キーワード3」です。
  • 7つのキーワードのうち、もっともたくさん登場するのは「キーワード3」です。

誤解を恐れずに言えば、これら簡単・高速に抽出するのがGETAというエンジンの基本であると思っています。他にもライブラリとしてここに重み付けをしたり関連性を持たせたりするルーチンが付与されています。更にさらに誤解を恐れずに言えば、いわゆるリレーショナルデータベースの機能特化製品であるとも言えるかもしれませんね(研究などに使っていらっしゃる人が見たら激怒するような話ですが、ゴメンナサイ当面あまり高度な機能を使用するつもりないんです)。


当初の目的がいかなるものであったか、「キーワードクラウド」だったんですね。どんな使い方をするつもりなのか。

  • このブログエントリからキーワードを抽出する(chasenにフィルタリングするつもりです)。
  • 該当キーワードが属しているエントリを抽出する(まさに今回のGETAが該当します)。
  • 抽出されたエントリ・リストをhtml化してキーワードへリンクしてやる(カテゴリのようなイメージ)
  • 全キーワードから登場回数が多いものをより強調するような仕組みを作る(これでクラウド:雲っぽく)
  • キーワードにリンクを張った状態で並べたhtmlファイルを生成してNanoBlogger経由でこのブログに張り込む。

chasenからの出力にフィルタリングするよりもGETAからの出力にフィルタリングさせる方がよりGETAの使い方としては正しいでしょうね。そして、そこにGETAのライブラリを使ってやることでより高度なフィルタリングなり、抽出が可能になると。ここが腕の見せ所。


ちなみに、キーワードクラウドを使う。ということだけであれば、ネット上のサービスでそのようなものがありますね(よく調べてないけど)。頭の体操というとくだけすぎですが、自分でやってみることで得られることは大きいはずです。ソフトウェアを生成するということが仕事であれば、先人の知恵を取り入れて効率化するということが必要とされますが、それとも違いますからね。

...という言い訳を先において、いつ完成するかわかりませんので期待もプレッシャーも無用に願います。


Posted by kaizawa | TrackBacks