Ok, let's get this party started! A couple weeks ago I said I was publishing the most important thing I ever wrote. I was wrong. Documentation related to the Google Search algorithm leaked and I spent the weekend tearing it apart. ipullrank.com/google-algo-le… ✌🏾
2024-05-28 11:10:19数週間前、私はこれまで書いた中で最も重要なものを発表すると言いました。それは間違いだった。
Google検索のアルゴリズムに関するドキュメントが漏洩したため、私は週末をかけてそれを徹底的に調べました。
Googleのサーチアルゴリズムが漏洩。 さすがにこの規模のリークは歴史上、初めてのことだと記憶しています。 そして、Google自身は否定していたもののSEO業界では長年疑われていたアルゴリズムの数々が実在していたことも明らかになりました。 2,596個のモジュール、計14,014個のランキング特徴量。 以下、主なものを解説していきます。 1. ドメイン権威 Googleの公式見解は「我々はドメイン権威のようなものは持っていない」というものだったが、siteAuthorityというfeatureの存在が確認された。 2. クリック これもGoogleの公式見解と異なり、GlueやNavBoostというランキングシステムにより、クリック情報が検索ランクに影響を与えていることが明らかになった。NavBoostは2005年から存在していて、過去18ヶ月のクリックデータを元にしている。 3. ホスト年齢 hostAgeというフィーチャーの存在によって、生まれたばかりの新しいサイトはやはりサンドボックスに閉じ込められていることが明らかに。hostAgeという言葉自体がhost + ageの合成語だけでなく、一単語で「人質・担保」という意味を持つので言葉遊びですね。 4. Chromeのデータ Chromeの利用データはサーチに影響しないという公式見解をよそに、やはりChromeのデータは使われていた。使わないわけがないので否定すること自体が公式見解の信憑性を損ねていたと思います。 5. アーキテクチャ Googleのランキングシステムは単体の巨大なアルゴリズムではなくマイクロサービスの集合体。Trawler (クロール) / Alexandria (インデックス) / Mustang (ランキング) / SuperRoot (クエリー処理) などからなる。 6. リランカー これに加えて、NavBoost / QualityBoost / RealTimeBoostなどのブースターでSERPの一等地に何を表示させるかを競い合わせている。中でもNavBoostは出現率が高く強力な様子。 7. Pandaアルゴリズム Amit SinghalがリードしたPandaは、ユーザー行動や外部リンクなどに基づいてランクのスコアを調整する。特許にもなっている。ドメイン、サブドメイン、パスなどの多レベルで適用される。オブザーバビリティを担保するため、あえて機械学習を使ってないという点が印象的。 8. author属性 Google公式のE-E-A-T推奨通り、author属性は特徴量になっていた。ほとんどのサイトやフィードでauthor系メタデータはちゃんと入力されていないケースが多いが、これは対応したほうが良いかもしれない。 9. 降格 リンク先のコンテンツとのミスマッチ、SERPにおけるユーザー行動、UXの不備、検索ワードとドメイン名が完全一致する場合、製品レビュー系コンテンツ、グローバルページ、ポルノ、などは降格される。 10. リンクグラフはまだまだ重要 sourceTypeなどのメトリックによりリンクの重みが変わる。インデックス・ティアに分けられ、重要度高・更新頻度高・アクセス頻度高のコンテンツはより高速なフラッシュメモリに保存され、ティアの低いインデックスはハードディスクに保存される。 11. リンクスパムはベロシティ・シグナル重視 スパムは短期間に大量投下されたもののスパイクを検出することを特に重視している。怪しいものを見つけたら現在のベースラインと比較して異常値を検出。 12. 最新20件のページ更新履歴を保持 インデックスされたページの評価が高まってから変更して別のコンテンツに誘導するなどのハックを防ぐために過去20件の変更履歴を保持していることが判明。逆にいうと最大20件とバレてしまったので狙われそう… 13. ショートコンテンツの独創性を評価 Twitterのようなショートコンテンツでは、OriginalContentScoreにより、文字数をカウントし、オリジナリティを評価。 14. 日付は重要 鮮度は重要。bylineDate / syntacticDate / semanticDateなどにより、コンテンツの正確な日時情報を様々な角度から抽出している。 15. ビデオサイトは別扱い もし50%以上のページがビデオならビデオサイトとして扱う 16. Your Money Your Life (YMYL) も特別扱い 公式情報通り、お金や健康など人生にクリティカルな影響を与える情報はより厳格に扱われる。 17. ゴールドスタンダードはある goldenというフィーチャーで人間あるいはAIにラベルされたコンテンツは実在する。 paulgraham.com/articles.html とかかな笑 18. Embeddingによるトピックチェック ページのコンテンツがサイトの趣旨に沿ったものであるかどうかをembeddingでチェックしている。これで、サイトにあると違和感を感じるような内容かどうかをチェック。 19. 零細個人サイトは特別扱い? smallPersonalSiteというフィーチャーで、資金力にものを言わせることができない個人サイトは公平のためブーストしている様子。 というわけで、これまで謎だったGoogle検索エンジンの様々な側面が今回初めて公にリークされたので、可能な範囲で解説してみました。興味がある方は、以下のリンクの原文を当たってみてください。 SEO業界はざわつきそうですね。 ipullrank.com/google-algo-le…
2024-05-29 01:59:35SEO専門家。株式会社 so.la 代表。 個人ブログ: webweb.hatenablog.com (ご連絡はTwitterのDMではなくメールにてお願いいたします。お問い合わせメールアドレスは so.la に記載しております。) 辻正浩のポストは試験運用中です。
Google検索アルゴリズムの内部資料がリーク。searchengineland.com/google-search-… ソースも一通り確認しましたが興味深い内容でした。 昨年の裁判公開資料の方が詳細がわかる事や、これまでの各種の動きから自明の事が中心でしたが、自分の考えや既に進めてる施策が正解っぽいとわかって安心しました。(1/n)
2024-05-29 02:50:52ただ著者情報周りの話は想定外でした。しかしこれをどう捉えるべきか迷うなあ。 今回の件でも影響がわずかか無い事が多いはずです。AI関係もあるしこの資料の知識だけで実際の施策に落とし込もうとすると失敗も多そうなので、SEO専門の人は必読資料と思いますが、それ以外はスルーでいいかなあ。(2/n)
2024-05-29 02:50:52【翻訳】 読んでるよ @iPullRank のGoogleアルゴリズムリークの記事、そしてこれに出くわしました:「Googleは、リンクを分析するときに、特定のURLに対して最後の20の変更のみを使用します... これにより、Googleで「白紙の状態」にするために、ページを変更してインデックスに登録する必要がある回 x.com/keywordian/sta…
2024-05-29 03:54:43I'm reading through @iPullRank's Google algorithm leak article, and came across this: "Google only uses the last 20 changes for a given URL when analyzing links ... This should give you a sense of how many times you need to change pages and have them indexed to get a “clean slate” in Google." So let's say your site was hit by the HCU, and you vastly improved it. Of course, you still haven't seen any sign of recovery. But if you make changes to your pages 19 more times (and get each change indexed before making the next change), the original version of the page that was hit during the HCU will be effectively erased from Google's memory, and if your page truly is high quality, it should rank where it belongs. (All other factors ignored). Right?
2024-05-29 02:27:41@iPullRank 簡単に言うと、googleからペナルティを受けても20回更新したら復活するということか…
2024-05-29 03:55:29えっ本当に??/HUGE Google Search document leak reveals inner workings of ranking algorithm searchengineland.com/google-search-…
2024-05-29 02:14:37これほんまなんじゃろか Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked ipullrank.com/google-algo-le…
2024-05-29 03:05:49日本語メインで仕事をしているからか、 どうしても海外のリーク系の記事の信憑性を判断しかねるな。 だが興味深い内容ではある。 ipullrank.com/google-algo-le…
2024-05-29 04:03:53結局しょっちゅう変わるブラックボックスを推測すること自体コスパが悪過ぎるのでこの期に及んで外部SEOなんか信用してないけど中身が見れるタイミングがあると思わなかったので面白いなぁこれ。 x.com/kenn/status/17…
2024-05-29 03:20:37じっくり読みたい。 面白いのはGooglerが発した表現をマイクがいちいち多面展開してそのすべての面で検証(裏とりの裏まで)してるところw Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked - iPullRank ipullrank.com/google-algo-le…
2024-05-28 17:16:00ipullrank.com/google-algo-le… 判断は難しい。公式情報を信じながらも、これをケアすることとバッティングしないなら対処しても良いという感じではないか。個人的にはこういうネタは嫌いではない。
2024-05-28 22:13:30え、Googleのアルゴリズム関連の文書がリークされたのか。ちょうど検索サイトの生き死にが掛かった潮目で、なかなかセンセーショナルな話だ。Googleもインターネットにおける一種の最大の権威なわけで、盛者必衰栄枯盛衰諸行無常、そういう営みからは逃れられないのかもな
2024-05-29 03:18:37Googleのサーチアルゴリズムが漏洩って、すごいニュースだなー。Googleのコアビジネスに影響するだろ。最近のGoogleは落ち目だなー。 内容としては、おおむねSEO業界で長年言われていたことが事実だったという内容でした。 ipullrank.com/google-algo-le…
2024-05-29 03:25:19例のGoogleアルゴリズム漏洩。長年SEOをやってきていれば「だと思った。いつものでしょ?」てな内容ですが、具体的な数字が入ってるのは驚いたな。 あとなにげに、今でも使えるハックの情報が入ってる。真似するサイトが増えると対策されちゃうから、次の手段を考えないとなー。 x.com/rustybrick/sta…
2024-05-29 03:36:06ICYMI: Google Search ranking and API document leak seroundtable.com/google-search-…
2024-05-29 02:46:00