SEOにおいてURLは非常に重要な役割を果たしています。本記事では、URL構造を最適化するためにチェックすべきポイントを紹介します。
Googlebot 制御とは?
Googlebotとは?
Googlebotとは、Googleのクロール用のbot(クローラ)を指します。クローラはリンクを辿ってページを移動して、webサイトを検出するため、SEOにおいて重要な役割を果たします。
しかし、クロールは無制限に実施されるわけではなく、サイトごとにクロール量の割り当て(クロールバジェット)が設けられています。そのため、クロールの効率性を上げるために、質の低いコンテンツや検索結果に表示させたくないページに対しては、Googlebotを制御する必要があります。
Googlebot 制御に関してのポイントとは?
今回は、以下のようなGoogle botを制御する方法やポイントについてチェックをしていきましょう。
- インデックスが不要なページにはnoindex/nofollowを付与しているか
- robots.txtは適切に設定しているか
- XMLサイトマップは用意されているか
- JavaScript、CSS、画像ファイルをブロックしていないか
インデックスが不要なページにはnoindex/nofollowを付与しているか
インデックスが不要なページとは?
インデックスが不要なページは以下のようなページを含みます。
- 質が低く、検索結果表示をさせたくないページ
- キャンペーンやイベントなど検索結果から流入をさせたくないページ
- 会員ページなど特定のユーザーに限定して公開しているページ
上記のようなページに対して、クロールを制御することで、クロールすべきページへのクロールを増やすことができ、SEOにおいて評価を高めることができます。
noindex/nofollowとは
「noindex」はページをインデックスさせない、「nofollow」はページ上のa要素のリンクを辿らせないという意味を持ちます。
インデックスが不要なページには、Googlebotにクロールさせないために<metaname=”robots” content=”noindex,nofollow”>を記述します。
robots.txtは適切に設定しているか
robots.txtとは?
robots.txtとは、コンテンツをクロールされないように制御するファイルのことを指します。robots.txtを活用することで、クロールされるコンテンツを制御して、有利なコンテンツを効果的にクロールさせることが可能になります。robots.txtを活用するとクロールを最適化することができ、SEOに良い効果をもたらします。
robots.txtはクロール制御の有無にかかわらず、常に「ドメイン/robots.txt」でアクセス可能にしましょう。サイトリニューアル期間中にGooglebotをブロックし、そのままの状態でrobots.txtを公開してしまっているサイトなども見受けられるため、注意してください。
robots.txtの設定方法
robots.txtの確認方法やファイルの設定方法を説明します。
1. robots.txtファイルの書き方
robots.txtはFTPソフトを使って、テキストファイルで記述します。記述する内容は以下の3つの要素です。
また、ファイル名は必ず「robots.txt」にします。これから各要素の意味や書き方についてご説明します。
- User-Agent
- Disallow
- Sitemap
User-Agent
User-Agentは、どの種類クローラーを制御するかを指定します。Googlebotと指定した場合、Googleのwebクロールを制御することになります。しかし、基本的には「*」(すべてのクローラーの意味)で指定しても問題はありません。
Disallow
Disallowは、クローラーのアクセスを制御するファイルを指定するものです。Disallowで指定されたファイルやディレクトリはクロールがブロックされます。Disallowで指定がない場合にはクロールが許可されることになるため、「Disallow: 」のように空白になっていれば、すべてのファイルやディレクトリがクロールの対象となります。
「Disallow:/example/」と記載した場合には、このディレクトリ配下がブロックされます。
Sitemap
Sitemapは、sitemap.xmlの場所をクローラーに伝えるものです。これを記述しておくとSitemapを積極的に読んでもらえるので、是非記載しておきましょう。
以上を踏まえてrobots.txtのテキストファイルを作ると以下のようになります。
(例)
User-Agent:*
Disallow:/example/
Sitemap:http://aaaaaa.jp/sitemap
2. ファイルが正しくかけているか確認する方法
サーバーに設置する前に、ファイルに誤りがないか確認をしましょう。確認するためには Google SearchConsoleのrobots.txtテスターを利用します。
「クロール > robots.txtテスター」をクリックし、1.で作成したテキストを貼り付け、「テスト」をクリックします。ここでファイルがしっかりブロックされたか確認ができます。
ファイルの設定方法
robot.txtファイルは、ドメインのルートディレクトリに設置します。これはrobot.txtという名前のテキストファイルを作成するだけです。ただし、サブディレクトリ型のサイトではこれは使えません。
○:http://aaaaaa.jp/robots.txt
×:http://aaaaaa.jp/bbb/robots.txt
そのためサブディレクトリ型のサイトに関してはrobots metaタグを使用する必要があります。
また、ファイルを設置してから反映されるまではタイムラグがありますので、ご注意ください。
XMLサイトマップは用意されているか
サイトマップとは?
全ページを検索エンジンに正しく認識してもらうために、XMLサイトマップ(sitemap.xml)を作成します。
XMLサイトマップとは、webサイト全てのリンクやページを地図のように一覧で記載しているページを指し、XMLサイトマップは、ユーザーは閲覧できず、Googlebotにクロールしてもらう目的に特化したページになります。サイトマップには、XMLサイトマップの他にも、HTMLサイトマップも存在しますが、サイトマップの目的や役割が異なるので注意が必要です。
XMLサイトマップの注意点
また、XMLサイトマップには、robots.txtでブロックしているページやrel=”canonical”で他のURLへ正規化しているページは記載しないように注意します。XMLサイトマップは忘れずにGoogle SearchConsoleにも登録しましょう。
JavaScript、CSS、画像ファイルをブロックしていないか
検索エンジンがサイトのコンテンツを正しく把握できるように、サイト内のJavaScript、CSS、画像ファイルなどがすべてクロール可能になっている必要があります。Googlebotに対して、サイト内のJavaScript、CSS、画像ファイルなどのクロールを許可していない場合、コンテンツのレンダリングとインデックス作成を行う、検索エンジンの動作に直接悪影響を及ぼし、結果として検索順位の低下に繋がる可能性があります。
CMSによっては、デフォルトの設定でブロックされているディレクトリがあるため、注意が必要です。
まとめ
本記事では、SEOにおけるGooglebot 制御について説明しました。テクニカルな箇所もあり、難易度が少し高い領域かもしれませんが、SEOにおいて効果的な取り組みになるので、ぜひ取り組んでみてください。