Google Search Console の使い方 - サイトマップの追加

公開日:
更新日:
0Google Search Console

サイトマップとは

サイトマップ (sitemap.xml) とは、検索エンジンにクロールしてほしい Web ページをリストにしたものです。Web サイトの全体像をまとめたコンテンツもサイトマップと呼びますが、別物であり本ページでは扱いません。


Web サイトが検索エンジンのインデックスに登録されるためには、Google や Yahoo! などの検索エンジンのクローラーにクロールしてもらう必要があります。通常、検索エンジンは、Web ページのリンクをもとにクロールしていますが、サイトマップを登録すればクローラーに効率よく正確にクロールしてもらえます。サイトマップは、Web ページの階層情報もリスト化しているため、Web サイトの構造をクローラーに伝えることができるためです。ただし、大前提として Web ページの階層構造は、サイトマップに頼らなくてもユーザやクローラーが迷わずにすむようにシンプルで巡回しやすいように設計する必要があります。


サイトマップに書かれている情報は、ページのURL、最終更新日、更新頻度、ページの優先度などです。URL 以外の情報は URL の "メタデータ" と呼ばれ、XML 形式で定義されます。この XML ファイルを Google など検索エンジンに登録することで、クローラーは XML に定義された各 Web ページをクローリングします。


ただし、サイトマップに記載されている Web ページが必ずインデックスに登録されるわけではありません。逆に、サイトマップに記載されていない Web ページがインデックスに登録される場合もあります。サイトマップは、あくまでクローラーに対して Web サイトの情報を伝えるためのファイルであり、インデックスに登録するかの最終的な判断は検索エンジンが行います。


しかし、サイトマップはクローラにWebサイトの正確な構造を効率よく伝えることができるため、積極的に作成していきましょう。サイトマップについては、"サイトマップ (sitemap.xml) の作り方" を参照して下さい。

サイトマップを追加する

Google Search Console からサイトマップを追加するには、左側にあるメニューの "クロール" から "サイトマップ" を選択します。Web サーバに保存されているサイトマップのファイルを指定し、"サイトマップを送信" をクリックします。サイトマップのフォーマットをテストしたい場合は、"サイトマップをテスト" をクリックします。サイトマップのフォーマットについては、"サイトマップ (sitemap.xml) の作り方" を参照して下さい。


ウェブマスターツールからsitemapの送信
ウェブマスターツールからsitemapの送信


サイトマップに定義されているページの数は青色のバーでグラフに表示されます。インデックスに登録されたページは、赤色のバーでグラフに表示されます。サイトマップを登録しても、すぐにはインデックスされないため、注意して下さい。前述の通り、サイトマップを送信してもインデックスされる保証はありませんが、ひとつの目安として通常 24 時間以内にはインデックスされます。


サイトマップ レポートでサイトマップを管理する - Search Console ヘルプ

サイトマップの形式

サイトマップの形式の代表例は "sitemap.xml" といった XML ファイルです。しかし、サイトマップの形式は XML だけではなく RSS や Atom 形式も存在します。


RSS や Atom 形式は "フィード" と呼ばれ、比較的新しい更新内容を含みます。XML はサイト全体を網羅し、RSS や Atom は最近の更新内容を含めるということはクローラーにとって重要な意味を持ちます。


クローラーが Web サイトを効率よくクローリングするためには、毎回すべての Web ページを巡回する必要はありません。クローラーのリソースも有限であるため、効率よくクローリングするためには更新のあったページのみクローリングすれば良いことになります。そのため、XML はサイトの階層構造をクローラーに通知するのに対して、RSS や Atom は更新のあったページをクローラーに通知します。


Google ではクローラーの最適化を行うために XML と RSS/Atom の登録を推奨しています。これらのファイルをクローラーに読み込ませることによって、コンテンツの状態を常に最新の状態に保つことができます。フィードの作り方については、"Perl でフィード (Atom) を作成する方法" を参照して下さい。

PubSubHubbub の存在

Google に更新を通知する方法としてサイトマップの他に "PubSubHubbub" があります。


PubSubHubbub (パブサブハブバブ) とは、更新情報を Google にリアルタイムで通知することができるプロトコルです。略して、PuSH (プッシュ) とも呼ばれます。Pub は Publisher (配信)、Sub は Subscriber (購読) を意味しており、その間に Hub というサービス (中間サーバ) があるため、このような名前になっています。配信側がコンテンツを更新すると、Hub が購読側に通知を行います。購読側は更新情報をすぐに知ることができるため、リアルタイムの情報配信が実現できる仕組みになっています。


ブログやニュースを Atom や RSS などで購読している場合、Atom や RSS リーダーは、一定間隔でコンテンツに更新情報がないかを問い合わせています。しかし、コンテンツが更新されても、次の問い合わせが行われるまでは購読側に更新されたことが通知されず、リアルタイムで更新情報を検知することができない問題点があります。


このプロトコルは、データフィードとして Atom や RSS を拡張した設計となっており、HTTP の通知を Push 技術を用いて行っています。これは、サーバ上のフィードに一定間隔でアクセスしなくても、Hub が更新情報を購読側に通知するため、リアルタイムで更新情報を得ることができます。また、HTTP 経由でアクセスできるデータであれば、どのようなデータ形式 (テキスト、画像、動画など)にも適用できます。PubSubHubbub の詳しい仕様は以下から確認できます。


PubSubHubbub Core 0.4 -- Working Draft

PubSubHubbub の詳細については "PubSubHubbubの使い方" を参照して下さい。