◀   |   |   ▶
◀   |   |   ▶

わが家にやってくる検索ロボット



今さらながら気がついたんですが、私の自宅サーバにも、検索ロボットくんたちが毎日のようにやって来ているようです。

意味不明のロボットもまじってますが。


わが家のサーバは、Yahoo! BB の 12Mbps の ADSL で常時接続された G4 iMac。Yahoo! BB の場合、半固定 IP アドレスなので必要性はあまりないのですが、いちおう Dynamic DO!.jp を使ってドメイン名でもアクセスできるようにしてあります。

わざわざサーバを動かしているのは、ComCom さん作のブログ埋め込み用 BBS『プチビー MX』と、コメント記憶ロボ『まるこめ君』や、あんでるどんさん作のBlogPet エントリ収納ボックス『BlogPet 飼育箱』を動作、表示させるためです。プチビーは PHP で、まるこめ君と BlogPet 飼育箱は perl で作られた CGI ですが、Mac OS X の標準(隠し?)機能でかんたんに動作させられます。

また、常時 perl を動かすことで、OKAMURA さん 作のCacheUpItが、このブログに埋め込まれる各種の外部サービスを Javascript 化して iDisk にアップロードしてくれています。

前置きが長くなりましたが、こうした自宅サーバを運用するうえで気になるのがセキュリティです。一応、MacOSX の「パーソナルファイアーウォール」とルータのファイアーウォールで外部からの接続を制限していますが、高度なセキュリティ対策を実行しているわけではないので、少々不安はあります。

サーバへのアクセス状況は、コンソール.app で httpd の access_log を見ることで確認できます。(ほかにも確認すべきログがあるのかも) サーバを立ち上げた当初は、ひんぱんに確認していましたが、最近はとんとご無沙汰していました。

で、久しぶりに access_log をのぞいていると、毎日複数の IP アドレスから robots.txt へのアクセスがあります。多い日には10回も。自サバに robots.txt は置いていませんから、サーバは404を返しているようです。

残念ながら、アクセス者の user agent が不明なので、IP アドレスから WHOIS 検索して推測してみました。

まずは Google Inc.。さすがは世界で最も利用されている検索サービス。こんな場末にも毎日来てます。

おつぎは Microsoft Corporation。なんとか Google の牙城をくずそうとしているだけあって、やることはやってますって感じでしょうか。

さて、つぎは… Inktomi Corporation ...? ここは、2つのまったく異なる IP アドレスからアクセスして来ています。ホームページから判断すると Yahoo! の1部門のようですが、ピンと来ません。でも、『日本のサーチエンジンの歴史』というページを読んで、なんとなく理解できました。老舗の検索サービス会社で、goo を NTT とともに共同開発した企業のようです。

ただ、goo で自サバのドメイン名をサーチすると、このブログと、そのミラーサイト程度しかヒットしません。いっぽう、米 Yahoo! で検索すると、自宅サバ内にある Apache インストールのテストページや、マニュアルページまで表示されます。検索に来ているのは、Yahoo! かもしれません。

ナゾなのが Scansoft, Inc.。www.scansoft.com にアクセスすると、Nuance Communications という会社にリダイレクトされますが、ここが Scansoft のホームページであることに間違いないようです。
(参考:Japan.internet.com Webファイナンス - 音声ソフトの ScanSoft、競合する Nuance を買収

日本語版ページはここ。
スキャンソフト - 音声・画像処理ソリューションのリーディング・サプライヤ

音声認識技術をメインにする会社のようなんですが、そこがなぜゆえに、こんなちんけなサーバを毎日1回、律儀に検索に来ているのか? わからん。

投稿: 2006年01月16日 (月) at 01:29   | | | |

◀   |   |   ▶
◀   |   |   ▶