サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
今年の「#文学」
info-search.yahoo.co.jp
1つのSitemapsでは、最大50,000ページ(ファイルサイズの上限は10MB=10,485,760バイトまで)の情報を検索エンジンに送信でき、ファイルサイズが10MBを超える場合には、サーバーでGzip圧縮を用いて10MB以下に圧縮して送信することもできます。サイトマップで通知するウェブページの総数が50,000ページを超える場合は、複数のSitemapsを作成し、作成した複数のSitemapsをまとめるサイトマップインデックスを作成します。 サイトマップインデックスの記述方法 サイトマップインデックスはUTF-8のエンコードで作成します。 1つのサイトマップの情報は、<sitemap>~</sitemap>でくくります。 1つのサイトマップの情報は、SitemapsのURLおよび最終更新日の情報で構成されます。 属性説明
自分の管理・運営するサイトのウェブページが、インデックスに登録されているかどうかを確認するには、いくつかの方法があります。もっとも簡単なのは、Yahoo!検索で、インデックスに登録されているかどうかを確認したいウェブページにある文字列を、「"」でくくって検索する方法です。 例:ウェブページの<title>に「私の愛犬ソフィー」と設定している場合 「"私の愛犬ソフィー"」を検索キーワードにして検索し、検索結果から自分のサイトのウェブページがあるかを探します。 検索結果が多い場合には、「"私の愛犬ソフィー" "川原でお散歩"」のようにウェブページ内にあるほかの文字列を追加して、検索結果を絞り込みます。 また、ドメイン名を検索キーワードにして検索する方法もあります。 ドメイン名をキーワードにした方法 インデックスに登録されているかを確認したいサイトのドメイン名の前に「site:」をつけて検索しま
「キャッシュ」とは、インデックスを作成する際に各ウェブページの内容を保存したものです。目的のウェブページが見られなくなっているような場合や更新されている場合でも、キャッシュリンクからキャッシュを表示することによってインデックス作成時の情報を探せることがあります。 サイト内のウェブページが検索結果に表示されるのはいいがキャッシュさせたくないという場合は、メタタグにキャッシュ拒否の記述をするか、ウェブページをホスティングしているサーバーでディレクティブを設定します。 メタタグを使用する方法 HTMLの<head>のなかに次のように記述します。 <meta name="robots" content="noarchive"> サーバーで設定する方法 ウェブページをホスティングしているサーバーのHTTPヘッダーの設定で、次のようなディレクティブ設定をします。 X-Robots-Tag:NOARCH
サイトマップ(サイトを構成するURLを記載したファイル)への対応状況や、サイトマップの記述の方法などの情報。 サイトマップによる効率的な巡回 サイトを構成するURLを記載したファイルを「サイトマップ」と呼び、サイトマップのURLを検索エンジンに通知しておくと、クローラーは効率的にサイトを巡回できます。 Sitemapsの記述方法 サイトマップのフォーマットの一つにXML形式のSitemapsがあります。このページではSitemapsの記述方法を、sitemaps.orgの内容をもとに説明しています。 複数のSitemapsを使用する場合 XML形式のサイトマップ(Sitemaps)にはファイルサイズや記述できるURL数に上限があります。上限を超えた場合、複数のファイルに分割しますが、このときに必要なサイトマップインデックスの記述方法について、このページで説明しています。 Sitemapsの
サイト管理者が特定のウェブページを検索結果から削除する方法は以下のとおりです。あなたがサイト管理者でない場合には、以下の対処をサイト管理者に依頼してください。 インターネットからウェブページを削除せず、検索結果に表示されないようにする ベーシック認証などを利用して、ウェブページの閲覧に認証が必要な状態にする。 robots.txtを設置して、クローラーの巡回を拒否する。詳しくは「サイト単位、ディレクトリ単位での巡回の拒否設定」をご覧ください。 ウェブページのメタタグでインデックスへの登録を拒否する。詳しくは「特定のウェブページの、インデックスへの登録を拒否」をご覧ください。 インターネットからウェブページを削除する 削除された時点で元データの参照はできなくなりますが、検索結果にタイトルやサマリーは表示されます。インデックスは定期的に更新されており、更新のタイミングで、ウェブページのタイトル
更新日 2010年11月24日 robots.txtは、検索エンジンに対する要求を伝えるファイルです。サイト管理者はrobots.txtをとおして、次の情報を伝えることができます。 クローラーに巡回してほしくないウェブページやディレクトリ サイトマップの位置 クローラーはrobots.txtの記述に従ってサイト内のウェブページを巡回します。クローラーによる巡回の際は、まずサイトのルートディレクトリ(サイトの一番上の階層)にあるrobots.txtを探します。robots.txtが設置されていなかった場合には、そのサイトに対する巡回制限はないものとみなしてサイト内のウェブページを巡回し、robots.txtが設置されていた場合には、その内容に従って巡回します。 robots.txtの記述や設置の方法は、次のページを参照してください 「サイト単位、ディレクトリ単位での巡回の拒否設定 1」 「サ
転送元のサイトやウェブページから転送先のウェブページに一時的に移動したことを伝えるリダイレクトの方法です。家を訪ねた人に、仮住まいに住んでいることを、仮住まいの住所とともに伝えることにたとえられます。 サーバーの設定によるリダイレクトの設定方法 サーバー側で設定を行う方法の代表例としては、「.htaccess」というファイルにリダイレクトのルールを記述して、サーバーの所定の場所に置く方法があります。ただし、サーバーによっては「.htaccess」の利用を制限している場合もあります。サーバー側での設定については、サーバーの管理者にお問い合わせください。 ウェブページのHTMLの記述によるリダイレクトの設定方法 サーバーの設定によるリダイレクトの設定方法が使用できない場合には、HTMLの<head>内に以下のように記述してリダイレクトを設定します。 記述方法 <meta http-equiv=
HTMLのページヘッダ(<head>)内にメタタグによる次のような情報を記述することで、検索エンジンに対して指示を出せます。 指示の内容メタタグの記述方法(例)備考
サイトには、URLは異なるがウェブページの内容は変わらないというケースがあります。たとえば、URLがトラッキング用のパラメータを含んでいる場合や、URLに含まれるパラメータをもとに閲覧環境によってウェブページの表示を最適化しているような場合です。 例 http://www.example.com/products?trackingid=feed http://www.example.com/products?sessionid=hgjkeor2 http://www.example.com/products?printable=yes&trackingid=footer このような場合、検索エンジンのインデックスに個々のURLで登録されると、同じ内容のウェブページが検索結果に表示されたり、同じ内容のウェブページであるにもかかわらず、各URLにクローラーが巡回し、サーバーに負荷をかけてしまう
Sitemaps形式はサイトマップの一般的なフォーマットで、サイト内のウェブページおよびそのウェブページに関する最終更新日や更新頻度、サイト内でのウェブページの優先順位などをXML形式で記述したものです。Sitemaps形式のXMLの記述方法を以下に解説します。 基本的な記述の方法とXMLタグの定義 SitemapsファイルはUTF-8のエンコードで作成します。 サイト内のウェブページの情報は、<url>~</url>でくくります。 サイト内のウェブページの情報は、サイト内のウェブページURLおよびそのウェブページに関する最終更新日や更新頻度、サイト内でのウェブページの優先順位の情報で構成されます。 属性説明
コンピュータやサーバーとの間で、HTTPによる通信が行われている場合、たとえば、ブラウザでウェブページを表示したり、クローラーがウェブページを巡回したりするときには、ウェブページの設置されているサーバーとブラウザやクローラーとの間で、お互いの状態(ステータス)をやりとりしています。このステータスをあらわすコードが「HTTPステータスコード」です。 代表的なHTTPステータスコードには次のようなものがあります。 ステータスコード内容
Yahoo!検索に表示されている検索結果(キャッシュおよびキャッシュリンクも含みます)は、 データや独自のアルゴリズムにもとづいて自動的に作成されています。このため、検索結果に表示されるタイトルやサマリーなどは、特定のウェブページのみを作為的に変更するということができません。
サイトマップとは、サイトを構成するURLを記載したファイルで、例えばsitemaps.org(外部サイト)で定義されているようなフォーマットが一例となります。 サイトのサイトマップを用意し、検索エンジンに通知しておくと、クローラーは、通常の巡回方法よりも効率的にサイトを巡回できるため、更新したウェブページや新しいウェブページなどが、より早く巡回されるようになります。サイトマップは、以下の方法で、検索エンジンに通知できます。 なお、サイトマップの記述については、「Sitemapsの記述方法」を参考にしてください。 robots.txtに記述 robots.txtに、サイトマップファイルのURLを記述します。 robots.txtの記述例 Sitemap: http://www.example.com/sitemap.xml
「検索エンジンスパム」とは、検索キーワードと十分な関連性がないにもかかわらず、意図的に検索結果に表示されるように操作をしているウェブページを指します。 以下は、検索エンジンスパムの例です。 検索する利用者をほかのウェブページに転送するためだけに存在するウェブページ ほかのウェブページとまったく同じ内容で作られたウェブページ 情報をほとんど公開していないにもかかわらず、自動的かつ大量に作られているウェブページ 検索エンジンが付与する表示順を不正に上昇させているウェブページ 検索する利用者に見えないテキストを使っているウェブページ 過度な相互リンクを行い、サイトの認知度を不自然に上昇させているウェブページ 検索エンジンの検索結果に表示される内容と利用者が目にするウェブページの内容が異なるウェブページ 検索エンジンのためだけに作られたウェブページ 特定の社名を悪用しているウェブページ 過度なポッ
あるウェブページにリダイレクトが設定されている場合、クローラーは、次のステータスコードをもとに、リダイレクト先のURLをインデックスに登録するか、リダイレクト元のウェブページをインデックスに登録するかを判定します。 種類説明
HTMLのメタタグの記述、またはサーバーの設定で、サイト内の特定のウェブページをインデックスに登録することを拒否できます。 メタタグを使用する方法 HTMLの<head>のなかに次の記述をします。 <meta name="robots" content="noindex"> 上記は、すべての検索エンジンでインデックスへの登録を拒否する方法です。 サーバーで設定する方法 ウェブページをホスティングしているサーバーのHTTPヘッダーの設定で、次のようなディレクティブを設定します。 X-Robots-Tag: NOINDEX 注意 robots.txtで巡回が拒否されているウェブページでも、公開されているほかのウェブページからリンクされていると、URLのみが検索結果に表示されることがあります(URLやドメイン名を検索キーワードにして検索した場合)。
ウェブページが検索結果に表示された場合、サマリーが表示されないようにするには、メタタグで次のような記述をします。 例: <meta name="robots" content="nosnippet"> 注意 検索結果に表示されるタイトルやサマリーは、検索サービスの利用者にとって、検索キーワードにあったウェブページであるかどうかを判断する基準となります。サマリーを非表示にする場合は、この点にご注意ください。
検索結果でウェブページの表示順序を上げるためのヒントは、以下のとおりです。 なお、ウェブページの表示順序を上げる基本的な方法は、インターネット利用者が求める独自の情報を持つとともに、インターネット利用者(人)にとってわかりやすく、また検索エンジン(機械)にとっても解釈しやすいウェブページにすることです。 全体
クローラー ウェブページの巡回・収集を行うクローラーに関連する説明や、REP(Robots Exclusion Protocol)に従ったrobots.txtの設置方法などの解説。 クローラーによるウェブページの巡回と収集 ロボッツ・エクスクルージョン・プロトコルとクローラー サイト単位、ディレクトリ単位での巡回の拒否設定 1 » 一覧を見る
このページを最初にブックマークしてみませんか?
『インフォセンター - Yahoo!検索』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く