クローラーとは?SEOに必要な基礎知識とクローリングを最適化する方法

ホームページ制作

SEOを担当されている方ならクローラーやクローリングといった言葉をよく耳にするのではないでしょうか。今回はそんなクローラーに関する基礎知識と、最適化することのメリットやその手法について紹介します。

クローラーとは?

クローラーとは、インターネット上に存在するWebサイトや画像などのあらゆる情報を取得し、自動的に検索データベースを作成する巡回プログラムのことで、Google や Bing(Microsoft) などの検索サイトを提供している企業がそれぞれ運営しています。Web上を這う(クロールする)ことから「クローラー」と呼ばれます。

クローラーの機能は検索エンジンの仕組みに結びついています。
現在の検索エンジンは、ほとんどがロボット型検索エンジンです。ロボット型検索エンジンの主な仕組みは以下の通りです。

  1. インターネット上で収集したWebサイトのページ情報をデータベース化
  2. データベースに登録されたページのランク付け
  3. その並び順で検索結果を表示

この仕組みのなかで、「インターネット上でWebサイトのページ情報を収集する」プログラムとして動いているのがクローラーです。(クローリングと言います。) 逆に言うと、Webサイトが検索エンジンの検索結果に表示されるには、クローラーの巡回で自社のサイトが認識されることが必要になります。

クローラーが行なっていること

では、クローラーは具体的に何を行っているのでしょうか。もう少し詳しく解説します。

大抵の場合クローラーは、既にデータベースに登録されているWebサイトから、リンク先へ遷移して巡回します。

クローラーがページにたどり着くと、「解析(パーシング)」を行います。ページの情報を処理し、検索アルゴリズムが扱いやすいデータに変換、その結果をデータベースに登録します。解析によりリンクを見つけると、そのリンク先に飛び、リンク先のページで収集した情報を解析し登録する、という工程を繰り返します。

クローリングの対象

クローラーのサーバーとの通信手段は「HTTP/HTTPSプロトコル」なので、HTTP/HTTPSで取得できる情報は、すべてクローリングの対象となります。

具体的には、

  • テキストファイル
  • CSSファイル
  • JavaScriptファイル
  • 画像
  • Flash
  • PDF

などがあります。

著名な検索エンジンのクローラー

著名な検索エンジンのクローラーは以下の通りです。

  • Googlebot(Google)
  • Bingbot(マイクロソフトが運営するbing)
  • Yahoo Slurp(日本以外のYahoo!)
  • Baiduspider(百度)
  • Yetibot(Naver)

このほかにも、画像専門のクローラー、広告専門のクローラーなどが存在します。

Webサイト制作におけるクローラーの重要性

検索エンジンにとって、ユーザーに価値ある検索結果を伝えるために、クローラーがWebサイトの情報を把握することは、非常に重要なことです。 一方 Webサイト制作者・運営者にとっては、自サイトがクローラーによってクローリングされることが重要になのです。

クローリングされることでもたらされること

Web サイト制作者・運営者が常にクローリングを考慮すべき理由は、大きく2つあります。

1. クローリングされることによって初めて検索エンジンの検索結果自サイトや次ページが表示される

検索で自サイトにたどり着いてもらうためには、何よりもまずクローリングされることが大事です。クローリングされることがWebサイトのアクセスアップの鍵を握っているのです。

2. 何度もクローリングされることによって、Googleなどの検索アルゴリズムに、自サイトやページのより正確な最新の情報が解析・評価され、検索結果一覧での表示順位に反映される

ほとんどの Web サイトでは最新の情報に日々更新が行われています。クローラーに、より多くの情報を収集してもらうことが、検索順位の向上につながります。しかし、クローラーは一度のクローリングですべての情報を収集できません。何度もクローラーに認識してもらう必要があります。

Web サイト制作者・運営者は、良いコンテンツを増やすだけでなく、クローラーが巡回しやすいWebサイトになっているか否かということも考慮する必要があります。クローラーの巡回を考慮するということは検索サイトでの検索結果の表示順位を意識することであり、そして、表示順位は、自社サイト訪問数に大きな影響を及ぼすため、現代のWeb サイト運営における重要事項の一つです。

クローラーの巡回しやすさのことを「クローラビリティ」といい、クローラーが巡回しやすくすることを「クローラビリティを高める」といいます。クローラビリティを高めることが必要になります。

クローリングされたくないサイト

テスト運用中のページや、まだ内容がないコンテンツ、またWebサイト内検索などで検索結果が「0」のページなどをクローリングされることもあります。それにより、検索結果に表示させる価値が低いWebサイトだと認識され、検索評価を下げてしまう恐れがあります。

その対策としては、robots.txt(ロボットテキスト)と呼ばれるファイルをトップディレクトリ(index.htmlと同じ階層)にアップロードする方法が有効です。こうすることでクローラーの動きを制御し、まだ完成していないページへのクローリングを防ぐことができます。

Googleのクローラーについて

mac-freelancer-macintosh-macbook-40185.jpeg

クローラーの中でも最も有名かつ重要なのが「Googlebot」です。2010年11月より、Yahoo! の検索エンジンはGoogleのシステムを使用しているため、日本においては、Googlebotの働きが現在の検索エンジンの根幹となっているともいえます。

どのくらいの頻度で、どのWebサイトをクロールし、どのくらいの情報を収集するかは、Googleのプログラムが決めています。

まずは自社のWebサイトがインデックスされているかチェックしよう!

Webサイトがインデックスされていないと、検索結果に表示されません。まずは、自社のWebサイトがどれだけインデックスされているかを確かめましょう。
検索窓に「site:(ここに自社のWebサイトのドメインを入力)」と入力し、検索します。
結果が表示されていれば、クローラーの巡回がされているということがわかります。

クローリングを開始させるには?

Webサイトを立ち上げや新たなコンテンツの追加に際して、クローリングを開始させたい場合には、まずGoogleに知らせる必要があります。「クローラーが行なっていること」項で書いたように、Google のクローラーはリンクをたどって新しいサイトにたどり着きますが、新たなサイトがすぐにクローリングされることは稀です。ここではサイト制作者・運用者が意識的に Google に知らせる方法として、サイトマップをGoogleに提供する方法と、Fetch as GoogleでWeb ページを報告する方法をご紹介します。

・サイトマップをGoogleに提供する方法

「sitemap.xml」をGoogle search console 経由でGoogleに提供する方法です。 sitemap.xmlとは、そのWebサイトのすべてのページのURLを記載したxml形式のファイルのことです。URLの情報、最終更新日、更新頻度などがわかるようになっています。作成することが難しい場合は、sitemap.xmlを自動生成してくれるツールもあるので、活用してみてください。 そして作成したファイルをサーバーにアップロードします。
Google search consoleにログインし、画面左側のタブにある「クロール」>「サイトマップ」をクリックします。そして右上にある「サイトマップの追加/テスト」をクリックします。入力欄にXML形式で入力し「サイトマップを送信」を押せば完了です。

・Fetch as Googleを使う方法

インデックスされていないWebページや、新たなWebページは、Google search consoleの「Fetch as Google」を使ってGoogleに報告することが可能です。
Google search consoleにログインし、先ほどと同じく、画面左側のタブにある「クロール」>「Fetch as Google」をクリックします。そこで表示された入力画面にインデックスされていないページのURLを入力して「取得」を押し、「インデックスに送信」をクリックします。その次の画面で「このURLのみをクロールする」を選択し、「送信」をクリックすれば完了です。

なお、この方法ではURL一つひとつを送信する手間がかかり、また、報告実施できる月間上限数が設定されているため、いわば緊急時の対応と言えます。通常の更新には、「サイトマップを Google に提供する方法」が適しています。詳細は、Google のヘルプ記事を参照ください。

クローラーの動きを確認する方法

クローラーが自社のWebサイトをどれくらいの頻度で巡回しているかを確認してみましょう。こちらも「Google search console」を使うことで、クローラーの動きを確認できます。

先ほどと同じく「クロール」>「クロールの統計情報」をクリックします。ここでは、クローラーがWebサイトに訪問しクロールした統計情報がグラフで過去90日分表示されます。1日あたりの「クロールされたページ数」「ダウンロードされたページのKB数」「ページのダウンロード時間」といった情報をみることができます。
クロールされたWebページ数が極端に減っている場合や、Webページのダウンロード時間が極端に長い場合は、特に注意が必要です。Webページに何か問題がありクローラーの巡回が止まっているという事態も考えられます。

ちなみに、1日のクロールされたWebページ数が100を超えると、検索流入で10万アクセス程が見込めるといわれています。

次は、画面左側の「Google インデックス」>「インデックスステータス」をクリックしてみてください。インデックスされたページ数をグラフの形でみることができます。このグラフが、Webサイトのページ数増加に合わせて増加していれば問題ありません。

クローラビリティを向上させるコツ6選

pexels-photo-256307.jpeg

1. WebサイトURLの見直しを行う

WebサイトのURLには、「www.」が含まれているものと、含まれていないものがあります。同じページでも、「www.」が含まれているものと含まれていないものが重複している場合があります。その場合は、重複コンテンツと見なされ、Googleからマイナス評価を受ける可能性があります。

まずはWebサイト内のインデックスされているページで重複がないか確認してみましょう。先ほど、インデックスされているかを確かめるために使った、「site:(自社のWebサイトのドメインを入力)」でGoogle検索します。出てくるページのURLで重複しているものがあれば、下記の手順で解消しましょう。

1. 「Google Search Console」にログインし、ダッシュボードを開く。
2. 右上の設定マークから「サイトの設定」を選択する。
3. 「使用するドメイン」の欄に「URLをwww.xxxx.comと表示」と「URLをxxxx.comと表示」という選択肢があるので、どちらかを選び「保存」をクリックする。
4. 上記設定が完了したら、設定しなかった方のURLから、設定した方のURLへアクセスできるように301リダイレクトを用いて設定する。

2. 3段階の構造にする

トップページから2クリックですべてのWebページにたどり着ける構造にします。それによってクローラーがすべてのWebページを隅々まで巡回しやすくなります。

3. テキストでのリンクを設定する

画像リンクではなく、テキストリンクを設定します。クローラーの巡回率はテキストリンクの方が高いとされています。

4. パンくずリストを設定する

パンくずリストとは、ユーザーが今Webサイト内でどの位置にいるのか分かりやすくするためのリストのことです。よく、Webサイトの上の方に階層順にリンクをリストアップしたものを見かけると思います。それがパンくずリストです。
パンくずリストがあるとクローラーが現在Webサイト内のどの階層にいるのかを認識しやすくなります。その結果、クローラーの回遊率が上がります。

5. ページネーションは数字で設置する

ページネーションとは、前後ページに移動するときにクリックするボタンです。ページネーションを「次のページ」や「前のページ」という言葉で設置するよりも、「1」「2」「3」などの数字で設置した方が、クローラビリティが高まります。

6. アンカーテキストを内容がわかるように改善する

アンカーテキストとは、リンクが貼られている部分のテキストのことです。アンカーテキストには、リンク先がどのようなページなのかを伝える役割があります。「こちら」「この記事」などというテキストにリンクを貼ると、クローラーにとってリンク先のページの階層構造などが分かりにくいため、回遊率が下がってしまいます。内容が分かりやすいテキストに改善しましょう。

まとめ

いかがでしたでしょうか。SEO対策というとコンテンツの対策にフォーカスが当たりがちですが、コンテンツのSEO対策と同等に、Webサイトの内部を整えることもSEO対策上非常に重要です。クローラビリティを高めて、サイト流入数を増加させましょう。

TOP