【SEO用語】robots.txtの役割/効果/使い方について

SEO

robots.txtというファイルのことをご存知ですか?robots.txtはSEO対策において、重要な役割を果たすファイルですが、意外にもその本来の用途が正しく理解されていないことが少なくありません。

この記事では、robots.txtの概要、ならびに正しい使い方や利用時の注意点などをご紹介します。 

そもそもrobots.txtとは?

robots.txtは、GoogleやYahoo!といった検索エンジンに対して指示を出すのに用いられるファイルです。より正確には、検索エンジンがWebサイトを調査するのに用いる「クローラー」というプログラムに対する指示を出すためにrobots.txtを使います。

 

クローラーというのは、検索エンジンにインデックス登録を行うことを目的にWeb上の様々なページを巡回するプログラムです。GoogleやYahoo! 、Bingといった検索エンジンが、それぞれ固有のクローラーを使用しています。robots.txtを利用すると、こうした検索エンジンのクローラーに対して指示を出すことが可能です。

robotstxt.png 

robots.txtで何ができるのか

では、robots.txtを使うと具体的にどのような指示が出せるのでしょう?
robots.txtで出せる指示は非常にシンプルで、「指定したWebページやファイルに対するアクセス可否」の一点のみを、クローラーの種類別に指定することが可能です。

 

アクセス可否を指定する主な目的は、クローラーの不要なページへのアクセスを制限することで、重用なページにより多く訪問してもらえることです。前述のとおり、クローラーはWebサイトの情報を収集するために定期的にページやコンテンツを訪問します。この訪問は一般のユーザがWebページを閲覧する時と同じように行われるため、クローラーの訪問によってWebサイトに一定の負荷がかかってしまいます。

また、クロール数にも上限があるため、robots.txtを用いて不要なページへのアクセスを制限するわけです。

 

robots.txtの使い方

robots.txtの実態はHTMLファイルなどと同じテキスト形式のファイルで、メモ帳などのテキストエディタで作成します。作成したファイルは、FTPツールを使ってWebサイトの最上位のフォルダに配置します。たとえばWebサイトのドメイン名が、****.com なら、robots.txtのURLは以下のようになります。

http://www.***.com/robots.txt

ファイル名はrobots.txtで、大文字・小文字が区別されます。一文字でも間違っているとrobots.txtだとは認識されないため、使用する場合は注意して下さい。

 

robots.txtの記載内容

robots.txtには、Webサイト上のディレクトリやファイルへのアクセス可否を次のように記載します。

User-agent: [クローラーの種類]

Disallow: [アクセスを拒否するディレクトリやファイル]

 

User-agent:

クローラーの種類を指定します。たとえば、Googleのクローラーに対する指示を書く場合は「Googlebot」と記載します。また、「*(半角アスタリスク)」を指定すると、すべてのクローラーに対して一括で指示を出すことが可能です。

 

Disallow:

上記のUser-agentで指定したクローラーに対してアクセスを許可しないディレクトリやファイルのURLを記述します。 /*.gif のようにアスタリスクを使うと、所定のファイル形式すべてを不許可とすることも可能です。

 

なお、robots.txtの詳しい記述方法については、下記のページをご参照下さい。

 

robots.txt利用時の注意点

robots.txtを使用する際には、いくつか注意すべきことがあります。以下、特に気をつけて頂きたいポイントをご紹介します。

 

「検索エンジンに表示させない」ことを指定するものではない

しばしば、「Webページを検索エンジンに表示させないため手法」としてrobots.txtが紹介されることがありますが、Googleが提供するSearch Consoleのヘルプ(下記)でも述べられているとおり、このような使い方は誤りです。

 

確かに、robots.txtにアクセスを不許可とする指定を書き込んでおけば、結果としてそのページはほとんどの場合検索エンジンの結果一覧に表示されなくなります。しかし、前述の通りこれは本来の用途とは異なる利用方法のため、確実にそのようになるという保証はありません。

Webサイトにページを表示させたくない場合は、HTMLファイル内にてメタタグを利用してインデックスを不許可とする指定を行う必要があります。

 

robots.txtには強制力はない

robots.txtは検索エンジンのクローラーに対して指示を出すためのファイルですが、全てのクローラーがrobots.txtの指示に正しく従うという保証はありません。

Googleのクローラ(Googlebot)は基本的にrobots.txtの指示に従いますが、他の検索エンジンのクローラーがそうするとは限りませんし、クローラーによって指示の解釈の仕方が異なる可能性もあります。

 

他サイトからリンクされている場合はインデックス登録が行われる

robots.txtでアクセスを拒否したファイルは原則として検索エンジンにインデックス登録されませんが、外部のWebサイトから当該ページがリンクされている場合は、そちらを経由してインデックス登録が行われる可能性があります。

繰り返しになりますが、インデックス登録を行わせないことを目的としてrobots.txtを使用しないように注意してください。

 

本来の用途を理解して正しく活用しよう

以上、この記事ではrobots.txtの概要と正しい利用法、利用時に注意しておきたいポイントをご紹介しました。robots.txtの本来の用途を理解した上で、適切に活用するよう心がけて頂ければと思います。