米Googleの検索エンジンでは,現在,新しいコンテンツを見つけるために,一度に1兆件のユニークURLを見て回るという。同社Web検索インフラ・チームのソフトウエア・エンジニア,Jesse Alpert氏とNissan Hajaj氏が米国時間2008年7月25日に同社公式ブログに投稿した記事によると,1998年に構築した最初のGoogleインデックスは2600万ページだった。2000年には10億に拡大し,その後8年間で膨大な数のコンテンツがWeb上に登場した。
Googleの検索では,最初のページから新しいページへのリンクをたどり,そこからまた新しいページへのリンクをたどる。これを繰り返して膨大なリンクのリストができあがる。同じコンテンツでも自動複製などにより複数のURLが設けられている場合があり,これら重複を除いたユニークURLのリストは1兆件。1日当たり作成されるWebページは数十億ページにのぼるという。
インデックスが2600万ページ規模だった当初は,Webページ重要度を評価する「PageRank」のグラフを2時間で計算し,一定期間使用していた。現在は,継続的に新しいページの情報を収集し,1日に数回PageRankグラフを計算している。Alpert氏とHajaj氏は,この作業を,1兆の交差点がある道路図を作っているようなものだと説明する。「道路と交差点が米国の5万倍ある,米国全土より5万倍大きい道路図だ」(両氏)