SEOの基本、ウェブサイトを作ったら出来るだけ多くのユーザーを集めましょう。主要ウェブクローラーのご紹介

2023年8月21日

ウェブサイトの更新はマーケティングを提供している企業であればアウトプットとしても活用し、社員が多い場合や営業所が日本全国にある場合は共有情報としても活用できます。

検索上位を目指す。目指さないはそのサイト、ブランドの目的によって異なりますので、ウェブの指標をどこに置くかによって運営方法は型にハマらず提供するのも今は一般的になっています。

とは言え、ローカル地域のみに発信するウェブサイトであっても、日本全国に発信するウェブサイトであってもSEOに良い影響を与えられるようにするのが最善ですね。

そこで忘れたくないのが、ウェブクローラー。
クローラーは、サイトマップに加えられた変更をスクレイピングし、コンテンツを検索エンジンにインデックスする役割を担います。

今回は主要ウェブクローラーボットをご紹介していきます。

ウェブクローラーとは

ウェブクローラーとは、ウェブページをスキャンし、検索エンジンにインデックス情報を提供するコンピュータプログラムです。
通称「スパイダー」または「ボット（bot）」とも呼ばれます。

検索エンジンが、検索を行うユーザーに最新のページを表示するには、このクローラーに通知、クローラーに気づいてもらう必要があります。
ウェブページのSEOは、関連性、被リンク、利用しているホスティングサービスなど、さまざまな要素が関係しますが、まずは、検索エンジンにクロールされ、インデックス化されなければ意味がありません。
サイトが適切にクロールされる様、各種クローラーのNG要素に該当しないよう、クローラビリティを高めることが鍵となります。

すべての検索エンジン向けにデータを収集する集約的なクローラーは存在しません。
日本向けと想定してもGoogleでは上位表示になっていてもBingでは上位表示にならないもの。キャリアが提供しているモバイル用、Yahoo!などなど。
少し大変ですが、検索エンジンには、それぞれ特徴や強みがあります。
主要なウェブクローラーを調べてリスト化しておくと、受け入れるべきクローラー、逆に拒否すべきクローラーを区別しやすくなるはずです。

また、マーケティング担当者は、自社のサイトがどの検索エンジンと相性がよく、引き合いが多い。という事も把握できると、雑な言い方ですが全てのクローラーを相手にしなくてもいい。という事にもなりますね。

ウェブクローラーの仕組み

ウェブクローラーは、公開されているウェブページを自動でスキャンし、データをインデックス化します。

そして、ウェブページに関連する特定のキーワードを検出し、取得したデータをGoogleやBingなどの関連検索エンジンに登録（インデックス化）します。

その後、ユーザーがキーワードで検索を行うと、検索エンジンのアルゴリズムがそのデータを取得します。

クロールは、既知のURLから優先的に行われます。既知のURLとは、ウェブクローラーの巡回を誘導するシグナルのあるページを意味。
そのシグナルには、以下のようなものが挙げられています。

被リンク:ページへのリンクが他のサイトに設置された回数
訪問者数:ページへのアクセス数
ドメインオーソリティ（DA）:ドメインの総合的な質

クローリング後、検索エンジンのインデックスにデータが格納・蓄積されていきます。ユーザーが検索を開始すると、アルゴリズムがインデックスから取得したデータが検索結果のページに表示される仕組みです。

長くなってしまいましたが、現在でも活用できる主要クローラーをご紹介。
尚、マーケットの対象が海外ではない。海外からのアクセスは避けたい。というサイトもあると思いますので、提供元も確認の上、ご対応ください。

主要クローラー

Googlebot

Googlebotは、Googleの検索エンジンに表示するサイトをクロールするGoogle専用のウェブクローラー。

Googlebotには、PC版とスマートフォン版がありますが、基本的には1つのクローラーであると言われています。
Googlebotは、通常、数秒ごとにサイトを訪れます（サイトのrobots.txtで拒否されていない場合）。
読み込まれたページのバックアップは、統合データベースであるGoogleキャッシュに保存され、サイトの旧バージョンも確認することができます。

また、細かなクロールはGoogle Search Consoleによって把握する事ができ、ページを検索エンジン向けに最適化するサービスとして活用は必須です。

Bingbot

Bingbotは、2010年にMicrosoftによって開発され、提供されています。
Bingで最新の検索結果が表示されるよう、URLのスキャンとインデックスを行います。

Googlebot同様、サイトのrobots.txtで、Bingbot（ユーザーエージェント名「bingbot」）のクロールを許可するかどうかを定義できます。

また、Bing Webmaster Toolsやを駆使することで、サイトへのアクセスや検索結果表示状況について高い柔軟性が確保できます。
BingはAIも提供していますが、アクセス解析などを見て対応するのが望ましいです。

Applebot

Applebotは、AppleのSiriやSpotlightの提案で紹介されるウェブページのクロールとインデックス作成を行います。

SiriとSpotlightの提案に表示させるコンテンツの順位を決定する際には、さまざまな要素が考慮され、GoogleやBingよりやや複雑となっています。

重視されるポイントとして、ユーザーエンゲージメント、検索キーワードの関連性、リンク数と質、位置情報ベースのシグナル、ウェブページのデザインが挙げられます。

DuckDuckBot

DuckDuckBotは、ウェブブラウザ上で非常に高いプライバシー保護を提供するDuckDuckGoの専用クローラーです。

DuckDuckBot APIを使用すると、DuckDuckBotが自分のサイトを巡回しているかどうかを確認することができます。クロールされると、DuckDuckBot APIのデータベースにIPアドレスとユーザーエージェントが保存されます。

ただし、日本でのユーザー利用数は少なめなので候補程度に。といった形です。

Yandex Bot

Yandex Botは、Yandex専用のクローラー。Yandexは、ロシア最大、かつロシアで最も使用されている検索エンジンです。日本向けサイトの場合はほぼ活用する必要はありません。

Baidu Spider

中国では、Googleの利用が禁止されているため、中国市場に事業を拡大する場合には、Baidu Spiderによるクロールを有効にすることが重要です。

自社サイトがBaidu Spiderにクロールされているかを確認するには、baiduspider、 baiduspider-image、baiduspider-videoなどのユーザーエージェント名に注目してください。

中国市場に事業を展開する予定がない場合には、robots.txtでBaidu Spiderをブロックすると、Baiduの検索結果ページ（SERP）にサイトが表示されなくなります。

その他にも多くのクローラーがありますが、まずは主要クローラー5つをご紹介させていただきました。

AIで代替できるものと、二重チェックで検索しなければいけないケース。
事業としてローカルな地域（病院や保育園、教育機関など）のみのサイトが海外から思いっきりアクセスほしい！という事はないと思いますが、一応存在だけは・・・という場合はGoogleマップだけで充分です。

次回はSEOツールのクローラーをご紹介予定です。

現在、自社サイトが検索に意図したものがヒットしない。上位にこない。上位から除外したい。などSEOに関する様々なお悩みはお問合せフォームからお気軽にご連絡ください。