クローラーとは?SEOに必要な基礎知識とクローリングを最適化する方法

ホームページ制作
SEOを担当されている方ならクローラーやクローリングといった言葉をよく耳にするのではないでしょうか。今回はそんなクローラーに関する基礎知識と、最適化することのメリットやその手法について紹介します。
イノーバでは、BtoBマーケティングに本格的に取り組みたいけれど、社内にノウハウや専門人材が不足していて、思うようにスタートダッシュを切れない、という方に伴走型マーケティング支援サービスを提供しています。ご興味がございましたらご覧ください。
目次
目次
検索エンジンの仕組み
SEO対策を考える際、検索エンジン(Search Engine)は不可欠な要素となっています。まずは検索エンジンの仕組みについて知っておきましょう。
検索エンジンとは、インターネット上の情報をキーワードやフレーズで検索し、関連性の高いWebページやコンテンツを提供するWebツールやプログラムを指します。GoogleやBing、Yahooがこれにあたります。
1990年代初頭、人の手 によってカテゴリーに分類される「ディレクトリ型」が登場しました。その後1990年代後半から「ロボット型」が普及し始めます。ロボット型は自動的にWebページを巡回し、情報を収集します。ディレクトリ型からロボット型への進化により、検索エンジンはより効率的に広範囲な情報を提供できるようになり、ユーザーはより関連性の高いWebページを見つけることができるようになったのです。
クローラーとは?
クローラーとは、インターネット上に存在するWebサイトや画像などのあらゆる情報を取得し、自動的に検索データベースを作成する巡回プログラムのことで、検索サイトを提供している企業がそれぞれ運営しています。Web上を這う(クロールする)ことから「クローラー」と呼ばれます。
クローラーの機能は現在の主流であるロボット型検索エンジンの仕組みに結びついています。ロボット型検索エンジンの主な仕組みは以下の通りです。
- インターネット上で収集したWebサイトのページ情報をデータベース化
- データベースに登録されたページのランク付け
- その並び順で検索結果を表示
この仕組みのなかで、「インターネット上でWebサイトのページ情報を収集する」プログラムとして動いているのがクローラーです。(クローリングと言います。)
クローラーが行なっていること
では、クローラーは具体的に何を行っているのでしょうか。もう少し詳しく解説します。
大抵の場合クローラーは、既にデータベースに登録されているWebサイトから、リンク先へ遷移して巡回します。
クローラーがページにたどり着くと、「解析(パーシング)」を行います。ページの情報を処理し、検索アルゴリズムが扱いやすいデータに変換、その結果をデータベースに登録します。解析によりリンクを見つけると、そのリンク先に飛び、リンク先のページで収集した情報を解析し登録する、という工程を繰り返します。
クローリングの対象
クローラーのサーバーとの通信手段は「HTTP/HTTPSプロトコル」なので、HTTP/HTTPSで取得できる情報は、すべてクローリングの対象となります。
具体的には、
- テキストファイル
- CSSファイル
- JavaScriptファイル
- 画像
- Flash
などがあります。
著名な検索エンジンのクローラー
著名な検索エンジンのクローラーは以下の通りです。
- Googlebot(Google)
- Bingbot(マイクロソフトが運営するbing)
- Yahoo Slurp(日本以外のYahoo!)
- Baiduspider(百度)
- Yetibot(Naver)
このほかにも、画像専門のクローラー、広告専門のクローラーなどが存在します。
Webサイト制作におけるクローラーの重要性
クローラーはSEO対策において非常に重要な役割を果たします。
Webサイトが検索エンジンのデータベースに登録されることをインデックスと言い、インデックス化されていることがSEO対策の大前提となります。そのインデックスに登録されるためにはクローラーに認識されること、すなわちクローリングされることが必須です。
御社のWebサイトがどんなに素晴らしいコンテンツだったとしても、クローラーに巡回されなかった場合、検索エンジンにインデックスされることも、検索結果に表示されることもないのです。
クローラーが御社のWebサイトを巡回することによって、検索エンジンがWebサイトの内容を理解し、関連ワードと結びつけることもできるのです。さらに言えば、ランク付けにも影響するため検索順位の向上にも関わってきます。
検索エンジンにとって、ユーザーに価値ある検索結果を伝えるために、クローラーがWebサイトの情報を把握することは非常に重要なことです。 一方 Webサイト制作者・運営者にとっては、自社サイトがクローラーによってクローリングされることが重要なのです。
クローリングされることでもたらされること
Web サイト制作者・運営者が常にクローリングを考慮すべき理由は、大きく2つあります。
1. クローリングされることによって初めて検索エンジンの検索結果にWebサイトが表示される
検索で自社サイトにたどり着いてもらうためには、先述の通り何よりもまずクローリングされることが大事です。クローリングされることがWebサイトのアクセスアップの鍵を握っているのです。
2. 何度もクローリングされることによって、Googleなどの検索アルゴリズムに、より正確で最新の情報が解析・評価され、検索結果一覧での表示順位に反映される
ほとんどの Web サイトでは最新の情報に日々更新が行われています。クローラーに、より多くの情報を収集してもらうことが検索順位の向上につながります。しかし、クローラーは一度のクローリングですべての情報を収集できません。何度もクローラーに認識してもらう必要があります。
Web サイト制作者・運営者は、良いコンテンツを増やすだけでなく、クローラーが巡回しやすいWebサイトになっているか否かということも考慮する必要があります。クローラーの巡回を考慮するということは検索サイトでの検索結果の表示順位を意識することであり、そして、表示順位は、自社サイト訪問数に大きな影響を及ぼすため、現代のWeb サイト運営における重要事項の一つです。
Web サイト制作者・運営者は、良いコンテンツを増やすだけでなく、クローラーが巡回しやすいWebサイトになっているか否かということも考慮する必要があります。クローラーの巡回を考慮するということは検索サイトでの検索結果の表示順位を意識することであり、そして、表示順位は、自社サイト訪問数に大きな影響を及ぼすため、Web サイト運営における重要事項の一つです。
クローラーの巡回しやすさのことを「クローラビリティ」と言い、クローラーが巡回しやすくすることを「クローラビリティを高める」と言います。そして、クローラビリティを高めることによって「クロールバジェット」は増加する可能性があります。
クロールバジェットとは、検索エンジンがWebサイトをクロールする際に割り当てられるリソース量や頻度のことで、クローラビリティが高くなると、クローラーはそのWebサイトは頻繁に訪れる必要があると判断し、クロールバジェットを増やします。
つまり、クローラビリティの向上はクロールバジェットに関わり、ひいては適切なクロールとインデックス化を促進することにつながります。
クローリングされたくないサイト
テスト運用中のページやまだ内容がないコンテンツ、またWebサイト内検索などで検索結果が「0」のページなどをクローリングされることもあります。それにより、検索結果に表示させる価値が低いWebサイトだと認識され、検索評価を下げてしまう恐れがあります。
その対策としては 、robots.txt(ロボットテキスト)と呼ばれるファイルをトップディレクトリ(index.htmlと同じ階層)にアップロードする方法が有効です。
また、WebページのHTMLヘッダーにnoindexを追加することで検索エンジンのインデックスに追加されないようにすることもできます。
このほかパスワード保護の設定やリンクの制御など、こられの対策方法を組み合わせてクローラーの動きを制御し、まだ完成していないページへのクローリングを防ぐことができます。
ウェブクローラーとウェブスクレイピングの比較
Web上の情報を収集するための手法として「ウェブクローラー」と「ウェブスクレイピング」があります。これは似て非なるものなので正しく認識しておきましょう。
ウェブクローラーは、Web上の情報を収集してデータベース化・インデックス化するために使用されるプログラムです。自動的にWebサイトを巡回し、リンクをたどってWebページを収集します。広範囲にわたり、大量の情報を収集することが主な目的です。
ウェブスクレイピングは、Webサイトからデータを収集し、解析するために使用される技術のことを指します。HTMLやXMLコードを解析して必要なデータを取得し、再利用することが主な目的です。商品価格の比較サイトやまとめサイト、競合他社の商品・サービスとの比較に利用されています。
Googleのクローラーについて
クローラーの中でも最も有名かつ重要なのが「Googlebot」です。Yahoo!の検索エンジンはGoogleのシステムを使用しているため、日本においては、Googlebotの働きが現在の検索エンジンの根幹となっていると言っても過言ではありません。
どのくらいの頻度で、どのWebサイトをクロールし、どのくらいの情報を収集するかは、Googleのプログラムが決めています。
まずは自社のWebサイトがインデックスされているかチェックしよう!
Webサイトがインデックスされていないと、検索結果に表示されません。まずは、自社のWebサイトがどれだけインデックスされているかを確かめましょう。
検索窓に「site:(ここに自社のWebサイトのドメインを入力)」と入力し、検索します。結果が表示されていれば、クローラーの巡回がされているということがわかります。
クローリングを開始させるには?
Webサイトを立ち上げや新たなコンテンツの追加に際して、クローリングを開始させたい場合には、まずGoogleに知らせる必要があります。「クローラーが行なっていること」項で書いたように、Google のクローラーはリンクをたどって新しいサイトにたどり着きますが、新たなサイトがすぐにクローリングされることは稀です。ここではサイト制作者・運用者が意識的に Google に知らせる方法として、サイトマップをGoogleに提供する方法と、Fetch as GoogleでWeb ページを報告する方法をご紹介します。
・サイトマップをGoogleに提供する方法
「sitemap.xml」をGoogle search console 経由でGoogleに提供する方法です。 sitemap.xmlとは、そのWebサイトのすべてのページのURLを記載したxml形式のファイルのことです。URLの情報、最終更新日、更新頻度などがわかるようになっています。作成することが難しい場合は、sitemap.xmlを自動生成してくれるツールもあるので、活用してみてください。そして作成したファイルをサーバーにアップロードします。
Google search consoleにログインし、画面左側のタブにある「クロール」>「サイトマップ」をクリックします。そして右上にある「サイトマップの追加/テスト」をクリックします。入力欄にXML形式で入力し「サイトマップを送信」を押せば完了です。
・Fetch as Googleを使う方法
インデックスされていないWebページや、新たなWebページは、Google search consoleの「Fetch as Google」を使ってGoogleに報告することが可能です。
Google search consoleにログインし、先ほどと同じく、画面左側のタブにある「クロール」>「Fetch as Google」をクリックします。そこで表示された入力画面にインデックスされていないページのURLを入力して「取得」を押し、「インデックスに送信」をクリックします。その次の画面で「このURLのみをクロールする」を選択し、「送信」をクリックすれば完了です。
なお、この方法ではURL一つひとつを送信する手間がかかり、また、報告実施できる月間上限数が設定されているため、いわば緊急時の対応と言えます。通常の更新には、「サイトマップを Google に提供する方法」が適しています。詳細は、Google のヘルプ記事を参照ください。
参考記事(Search Console ヘルプ):URL の再クロールを Google にリクエストする
クローラーの動きを確認する方法
クローラーが自社のWebサイトをどれくらいの頻度で巡回しているかを確認してみましょう。こちらも「Google search console」を使うことで、クローラーの動きを確認できます。
先ほどと同じく「クロール」>「クロールの統計情報」をクリックします。ここでは、クローラーがWebサイトに訪問し、クロールした統計情報がグラフで過去90日分表示されます。1日あたりの「クロールされたページ数」「ダウンロードされたページのKB数」「ページのダウンロード時間」といった情報をみることができます。
クロールされたWebページ数が極端に減っている場合やWebページのダウンロード時間が極端に長い場合は、特に注意が必要です。Webページに何か問題がありクローラーの巡回が止まっているという事態も考えられます。
ちなみに、1日のクロールされたWebページ数が100を超えると、検索流入で約10万アクセスが見込めると言われています。
次は、画面左側の「Google インデックス」>「インデックスステータス」をクリックしてみてください。インデックスされたページ数をグラフの形でみることができます。このグラフがWebサイトのページ数増加に合わせて増加していれば問題ありません。
クローラビリティを向上させるコツ10選
1. WebサイトURLの見直しを行う
WebサイトのURLには、「www.」が含まれているものと、含まれていないものがあります。同じページでも、「www.」が含まれているものと含まれていないものが重複している場合があります。その場合は、重複コンテンツと見なされ、Googleからマイナス評価を受ける可能性があります。
まずはWebサイト内のインデックスされているページで重複がないか確認してみましょう。先ほど、インデックスされているかを確かめるために使った「site:(自社のWebサイトのドメインを入力)」でGoogle検索します。出てくるページのURLで重複しているものがあれば、下記の手順で解消しましょう。
- 「Google Search Console」にログインし、ダッシュボードを開く。
- 右上の設定マークから「サイトの設定」を選択する。
- 「使用するドメイン」の欄に「URLをwww.xxxx.comと表示」と「URLをxxxx.comと表示」という選択肢があるので、どちらかを選び「保存」をクリックする。
- 上記設定が完了したら、設定しなかった方のURLから、設定した方のURLへアクセスできるように301リダイレクトを用いて設定する。
2. 3段階の構造にする
トップページから2クリックですべてのWebページにたどり着ける構造にします。それによってクローラーがすべてのWebページを隅々まで巡回しやすくなります。
3. テキストでのリンクを設定する
画像リンクではなく、テキストリンクを設定します。クローラーの巡回率はテキストリンクの方が高いとされています。
4. パンくずリストを設定する
パンくずリストとは、ユーザーが今Webサイト内でどの位置にいるのか分かりやすくするためのリストのことです。よく、Webサイトの上の方に階層順にリンクをリストアップしたものを見かけると思います。それがパンくずリストです。
パンくずリストがあるとクローラーが現在Webサイト内のどの階層にいるのかを認識しやすくなります。その結果、クローラーの回遊率が上がります。
関連記事:パンくずリストとは?意味やSEO効果、設置における注意点
5. ページネーションは数字で設置する
ページネーションとは、前後ページに移動するときにクリックするボタンです。ページネーションを「次のページ」や「前のページ」という言葉で設置するよりも、「1」「2」「3」などの数字で設置した方がクローラビリティが高まります。
6. アンカーテキストを内容がわかるように改善する
アンカーテキストとは、リンクが貼られている部分のテキストのことです。アンカーテキストには、リンク先がどのようなページなのかを伝える役割があります。「こちら」「この記事」などというテキストにリンクを貼ると、クローラーにとってリンク先のページの階層構造などが分かりにくいため、回遊率が下がってしまいます。内容が分かりやすいテキストに改善しましょう。
7. XMLサイトマップを作成する
サイトの階層構造、各ページのURL、更新頻度、最終更新日などWebサイトのすべての重要なページを含むXMLサイトマップを作成し、検索エンジンに通知します。これによりWebサイトが把握されやすくなり、検索エンジンによる巡回とインデックス化が効率的に行われます。
8. robots.txtを設置する
Webサイトのルートディレクトリにrobots.txtを設置し、クローラーに対してアクセスの許可や制限を行います。正しく設定することによってクローラビリティを向上させることができます。
9. 内部リンクを最適化する
Webサイトの階層構造を精査し、重要なページは短い階層のリンクを提供します。階層構造がフラットなほどクローラーがページに到達しやすくなります。また、1つのページに多くのリンクがあると、クローラーが重要なページを見逃す場合があるので内部リンクを適切に設定しましょう。
10. リンクが切れているWebページを減らす
壊れたページを修正し、404エラーを削減することでクローラがスムースにページを巡回することができます。定期的にWebサイト内のリンクを確認し、リンク切れやリンク先が存在しないページを修正しましょう。リンク切れを最小限に抑えることはSEOにとっても重要です。
まとめ
SEO対策と言えばコンテンツの対策にとらわれがちですが、コンテンツのSEO対策と同等に、Webサイトの内部を整えることもSEO対策上非常に重要です。クローラビリティを高めて、サイト流入数を増加させましょう。
また、イノーバでは、「戦略策定・計画立案」から、「伴走支援」、各種コンテンツの「コンテンツ制作」まで、幅広くかつ中長期に渡って、BtoBマーケティングをご支援します。
伴走型マーケティング支援サービスに関心がございましたら、ご参照ください。
人気記事