Google als Mitleser: Warum so viele Webseiten deinen Besuch verraten
Ich ernte regelmäßig ungläubige Blicke, wenn ich sage:
Wenn ihr ein Google-Konto nutzt – egal in welcher Art – kann euch Google praktisch über das gesamte Internet verfolgen.
Nachfolgend möchte ich die Aussage kurz erläutern.
Sobald eine Webseite Inhalte von Dritten nachlädt, wird dieser Drittanbieter zum stillen Mitleser. Und Google ist als Drittanbieter auf extrem vielen Webseiten eingebunden (Analytics, Ads/DoubleClick, Tag Manager, Fonts, reCAPTCHA, Maps, YouTube, gstatic/CDN usw.). In einer bekannten Messstudie (Top-1-Million-Webseiten) wird Google in Größenordnungen von »nahezu 80 %« als Tracking-/Third-Party-Akteur genannt. Diese Zahl schwankt je nach Zeitraum und Messmethode, aber die Richtung ist seit Jahren stabil: Google taucht sehr häufig auf.
Was dabei oft missverstanden wird: Dazu braucht es nicht zwingend ein »Tracking-Cookie«. Schon der bloße Abruf einer Ressource (Schrift, Bild etc.) von Google verrät etwas. Wenn dein Browser beim Besuch einer Webseite zusätzlich Google-Server kontaktiert, dann sieht Google mindestens: Deine öffentliche IP-Adresse, den Zeitpunkt – und typischerweise auch, von welcher Webseite die Anfrage ausgelöst wurde (über Referrer/Origin-Informationen, je nach Browser-Policy).
So entsteht Tracking in der Praxis
Nehmen wir einen typischen Tagesstart: Jemand öffnet Gmail im Browser oder ein Android-Gerät geht online. Spätestens dann hat Google einen belastbaren Zuordnungspunkt: Dieses Konto (oder diese Session) ist gerade von dieser öffentlichen IP aus aktiv. Ab jetzt ist die entscheidende Frage: Wie oft werden beim normalen Surfen Google-Server nachgeladen?
Und genau hier greift die massive Verbreitung von Google-Komponenten. Viele Webseiten laden beim Aufruf zusätzliche Ressourcen von Google nach, etwa Schriften, Skripte, Analytics, Werbe- oder Messpixel. Sobald das passiert, baut dein Browser eine Verbindung zu Google auf – und das ist technisch zwangsläufig mit einer IP-Übermittlung verbunden. Ohne IP kann der Server nicht antworten.
Warum schon Google Fonts ausreichen
Google Fonts wirken harmlos: »Ist doch bloß eine Schrift.« Technisch ist es aber ein Drittabruf bei Google-Servern. Ein vereinfachter Request sieht ungefähr so aus:
Host: fonts.googleapis.com User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:147.0) Gecko/20100101 Firefox/147.0 Accept: text/css,*/*;q=0.1 Accept-Language: en-US,en;q=0.5 Accept-Encoding: gzip, deflate, br Referer: https://www.spiegel.de/
Wichtig daran:
- Die IP steht nicht im Header drin, wird aber transportbedingt vom Server verarbeitet.
- Moderne Browser senden bei Cross-Site-Requests oft nicht mehr den kompletten Referrer-Pfad, sondern mindestens die Origin (Schema+Domain). Das schützt Details, aber nicht die zentrale Information »du warst gerade auf spiegel.de«. Genau diese Information ist für »wer besucht welche Seite« bereits ausreichend.
Wenn zusätzlich ein Google-Login aktiv ist
Ohne Login sieht Google beim Nachladen von Google-Diensten vor allem »Spuren«: Dein Browser fragt bei Google etwas an, dabei sieht Google Zeitpunkt, deine IP (technisch bedingt) und meist die besuchte Seite als Domain (über Origin/Referrer). Das lässt sich oft zu einem Surfprofil bündeln, aber es ist eher eine Beobachtung auf Ebene von Browser oder Anschlussnetz – nicht sauber einer konkreten Person zugeordnet.
Mit aktivem Login ändert sich das Bild deutlich, weil Google deine IP-Adresse in diesem Moment direkt mit einer laufenden Konto-Sitzung verknüpfen kann: »Konto X ist gerade über IP Y aktiv.« Wenn du danach surfst und auf anderen Webseiten Google-Ressourcen nachgeladen werden, sieht Google diese Abrufe wieder von derselben IP (plus Zeitpunkt und oft die anfragende Domain). Dadurch lassen sich Seitenbesuche deinem Konto zuordnen – selbst dann, wenn nicht immer zusätzliche Kennungen im Request mitsenden. Unterm Strich wird aus »jemand mit IP Y besucht Webseite Z« dann »Konto X besucht Webseite Z«.
Warum »IP-Anonymisierung« das Grundproblem nicht löst
In Diskussionen wird gern auf »IP-Anonymisierung in Analytics« verwiesen. In GA4 ist das tatsächlich entschärft: Google sagt, dass IP-Adressen nicht geloggt oder gespeichert werden und – für EU-Nutzer – vor dem Logging verworfen werden. Das ist eine Verbesserung bei der Speicherung und Auswertung innerhalb von Analytics. Am Grundmechanismus ändert es aber wenig: Wenn Webseiten Google-Komponenten einbinden, müssen Browser diese Ressourcen bei Google abrufen. Dabei sieht Google die IP zwangsläufig kurzfristig (sonst keine Antwort) und bekommt weiterhin verwertbare Signale wie Zeitpunkt und typischerweise mindestens die anfragende Domain (Origin) plus Browser-Metadaten.
Unterm Strich: GA4 kann IP-Speicherung reduzieren, aber es verhindert nicht, dass Google über eingebundene Drittressourcen in großem Maßstab mitbekommt, welche Webseiten gerade besucht werden, und diese Signale zusammenführen kann.
Selbst prüfen, wie verbreitet Google ist
Wer das einmal live sehen will, braucht keinen Spezialaufbau: Browser-Entwicklertools öffnen (Netzwerk-Tab), Seite neu laden, nach »google«, »gstatic«, »doubleclick«, »googletagmanager«, »fonts« filtern. Je nachdem, was dort auftaucht, bekommt man ein sehr gutes Gefühl dafür, wie oft beim ganz normalen Surfen Drittverbindungen zu Google entstehen.
Was kann man dagegen tun?
Für Webseitenbetreiber ist der Hebel am größten: Lokal hosten (bspw. Schriften), unnötige Drittanbieter vermeiden, Einbettungen (Maps/YouTube/reCAPTCHA) kritisch prüfen oder erst nach echter Zustimmung laden.
Als Besucher bleibt es bei Schadensbegrenzung: Tracking-Blocker (uBlock Origin), strikte Trennung von Google-Login (separates Profil/Container), und konsequentes Blocken von Drittressourcen dort, wo es praktikabel ist. Das ist nicht »perfekt«, aber es reduziert die Zahl der Kontakte zu Google-Servern.