robots.txtとは?検索エンジンにクロール方針を伝えるためのファイル

クロール制御とサイトマップ案内の基本

robots.txtは、検索エンジンなどのクローラーに対して、サイト内のクロール方針を伝えるためのテキストファイルです。sitemap.xmlとの役割の違い、できること、できないこと、実務での注意点を整理します。

概要

robots.txtとは、検索エンジンなどのクローラーに対して、サイト内のどのページを見に来てよいか、どの場所は見に来ないでほしいかを伝えるためのテキストファイルです。

Webサイトのルート直下に置かれることが多く、たとえば https://example.com/robots.txt のようなURLで確認できます。Googlebotなどのクローラーは、サイトを巡回するときにrobots.txtを確認し、その内容を参考にしてクロール対象を判断します。

robots.txtは、検索エンジンへの案内板

robots.txtは、検索エンジンに対する案内板のようなものです。サイト運営者は、管理画面、検索結果に出す必要のないページ、重複しやすいページ、クロールしてほしくないディレクトリなどをrobots.txtで指定できます。

たとえば、以下のような内容です。

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

これは、すべてのクローラーに対して /admin/ 以下をクロールしないでほしいと伝え、あわせてサイトマップの場所も知らせる例です。

ただし、robots.txtはあくまで「お願い」に近い仕組みです。正規の検索エンジンは通常この指示を尊重しますが、すべてのアクセスを技術的に防ぐセキュリティ機能ではありません。

robots.txtでできること

robots.txtでできる主なことは、クローラーの巡回範囲を調整することです。検索エンジンに見てほしくない場所を指定したり、sitemap.xmlのURLを伝えたり、特定のクローラーごとに方針を分けたりできます。

特に大きなサイトでは、検索エンジンが不要なページばかり巡回しないようにするために使われます。検索結果に出したいページへクロールを集中させることで、サイト全体の認識を整理しやすくなります。

一方で、小規模なコーポレートサイトや静的サイトでは、複雑な設定を入れすぎる必要はありません。むしろ、誤って重要なページをブロックしてしまう方が問題になります。

robots.txtでできないこと

robots.txtでよく誤解されるのは、「書けば検索結果に出なくなる」と考えてしまうことです。

robots.txtは、主にクロールを制御するためのものです。すでに検索エンジンに知られているURLや、外部サイトからリンクされているURLは、robots.txtでクロールを止めても検索結果にURLだけ表示される可能性があります。

検索結果に出したくない場合は、robots.txtだけでなく、noindex、認証、ページ削除、Search Consoleでの対応など、目的に合った方法を選ぶ必要があります。

また、robots.txtに秘密のURLを書くのも避けるべきです。robots.txtは誰でも見られる公開ファイルです。見られたくない管理画面や非公開ページの存在を、逆に知らせてしまうことがあります。

sitemap.xmlとの関係

robots.txtには、sitemap.xmlの場所を書くことがあります。

sitemap.xmlは、検索エンジンに対して「このサイトにはこういうページがあります」と伝えるためのファイルです。robots.txtが「どこを見に来てよいか、見に来ないでほしいか」を伝えるものだとすれば、sitemap.xmlは「見てほしいページ一覧」を伝えるものです。

この2つは役割が違います。robots.txtでクロール方針を示し、sitemap.xmlで重要なページを案内する。この組み合わせによって、検索エンジンがサイト構造を理解しやすくなります。

実務で注意したいこと

robots.txtで一番怖いのは、設定ミスです。たとえば、サイト全体をブロックする設定を本番環境に置いてしまうと、検索エンジンがページを巡回できなくなる可能性があります。開発環境では便利な設定でも、本番サイトに残ると大きな問題になります。

また、CloudflareやGoogle Sites、CMS、ホスティングサービスを使っている場合は、自分が置いたrobots.txtとは別に、サービス側の設定が影響することもあります。ブラウザで見えている内容、Search Consoleでの判定、実際のクローラーの扱いが一致しているかを確認することが大切です。

robots.txtは小さなファイルですが、検索エンジンとの関係では影響が大きいファイルです。複雑な設定を増やすより、まずは「重要なページをブロックしていないか」「sitemap.xmlを正しく案内しているか」「本番で意図した内容が配信されているか」を確認した方が安全です。

まとめ

robots.txtとは、検索エンジンなどのクローラーに対して、サイト内のクロール方針を伝えるためのテキストファイルです。

不要な場所を巡回しないように伝えたり、sitemap.xmlの場所を案内したりすることで、検索エンジンがサイトを理解しやすくなります。

ただし、robots.txtはセキュリティ機能ではありません。秘密のページを隠す目的では使えず、検索結果から確実に消すための仕組みでもありません。

実務では、複雑な設定を入れるより、必要なページをブロックしていないか、sitemap.xmlが正しく案内されているか、本番環境で意図した内容が配信されているかを確認することが大切です。