クローラ / web crawler

検索エンジン用のデータベースにデータを蓄積するために使用される自動の収集ロボットを指す。ウェブ・クローラー、スパイダー、ボットなどとも呼ばれる。

サーバー上のハイパーテキストという糸を辿ってページを発見しデータ収集する様を表すスパイダー、リンクを辿る様が「這いずり回る、泳ぎ回る」という意味でクローラーと呼ばれるようになった。

HTML文書などをテキストデータとして蓄積する事が役目。クローラーの動作は多くのサーバリソースを消費し、同時に収集対象であるウェブサーバ側にも負担をかけるため、主要な検索エンジン(Google,Bing,Yahoo)以外のクローラーを遮断するケースも少なく無い。

中にはスパムやサーバー攻撃を行うクローラーも存在し、検索対象ページの収集以外の目的で使用されている場合も多くある。robots.txtでロボットの情報収集を抑制する依頼は可能だが、この命令に従うクローラーは「ほぼ皆無」に等しく、もしクローラーを制御したいならサーバ単位でのチューニングが必要である。

逆に、クローラーの巡回が無いとデータは蓄積されず、よって検索対象にもならない。SEOの基本の一つに、「如何にこのクローラーを上手く引き込むか」という手法、手段の実行がある。各検索サイトに登録する事が基本となる。またクローラの収集頻度や所要時間も検索結果に影響する場合がある。

クローラーはリンクを辿るだけでなく、通知(ping,PuSH,Fetch)をし、サイトマップを提示する事で効率よく巡回予約が可能である。

最近の検索エンジンはHTML文書以外にも、画像、各種ドキュメントフォーマットなどの内容も取得可能になっている。しかし、そのためには複数のクローラーを活動させる必要があり、サーバーのコストパフォーマンスと効率的なデータ運用を求められるため一部の大手検索エンジンでしか出来ない事も年々増えている。