Du hast ein 7-Tage-Logfile. 68 Prozent der Googlebot-Requests gehen auf URLs, die nie ranken sollen. Du brauchst keine weitere Diagnose. Du brauchst eine Reihenfolge.
Technische SEO-Maßnahmen gegen Entropie sind keine Optimierungen. Sie sind Eingriffe in die Steuerungslogik eines Systems. Entscheidend ist nicht nur was du tust, sondern in welcher Reihenfolge du eingreifst. Wer mit dem sichtbarsten Problem anfängt, verliert Zeit. Wer mit dem größten Ressourcenleck anfängt, gewinnt Wirkung – und damit die Legitimität für alle nächsten Eingriffe.
Dieser Artikel setzt voraus, dass du weißt, was Crawl-Budget, canonical und noindex bedeuten. Er erklärt nicht was diese Konzepte sind, sondern wann sie falsch angewendet werden – und welches davon du zuerst brauchst.
Nicht jede technische Maßnahme reduziert Entropie gleich stark. Die Priorisierung folgt nicht technischer Einfachheit, sondern systemischer Hebelwirkung. Jeder Eingriff lässt sich nach fünf Fragen bewerten:
Warum Reihenfolge wichtiger ist als Vollständigkeit
Entropie-Reduktion ist kein Audit, das man abarbeitet. Es ist ein Interventionsproblem unter Ressourcenknappheit. Du kannst nicht alle Hebel gleichzeitig ziehen – und du solltest es nicht versuchen, weil jede Maßnahme Entwicklerkapazität, Abstimmungsrunden und politisches Kapital kostet.
Die vier Hebel, die ich im Folgenden beschreibe, unterscheiden sich nicht nur in ihrer Technik. Sie unterscheiden sich in der Art von Unordnung, die sie adressieren. Crawl-Budget-Steuerung greift an der Eingangspforte. Faceted Navigation stoppt die größte Quelle unkontrollierter URL-Erzeugung. Indexierungskontrolle bereinigt was bereits im System ist. Interne Verlinkung lenkt Aufmerksamkeit aktiv auf das, was ranken soll.
Die Reihenfolge ist kein Dogma – aber sie ist die wahrscheinlich wirksamste Standardsequenz für große, unkontrollierte Enterprise-Domains.
Hebel 1 – Crawl-Budget-Steuerung: erst die Abflüsse schließen
Bevor du indexierst, deindexierst oder verlinkst, musst du verstehen, wohin Googlebot tatsächlich geht. Das Logfile ist dabei das einzige Instrument, das dir zeigt, was wirklich passiert – nicht was du konfiguriert hast, sondern was Google tatsächlich tut.
Logfile zuerst, Crawler-Tool zweimal. Ein Crawler zeigt dir deine eigene Sicht auf die Website. Das Logfile zeigt dir Googles Sicht. Beides hat seinen Platz – aber für Crawl-Budget-Fragen ist das Logfile die einzige verlässliche Datenquelle.
Drei Kernfragen, die du ans Logfile stellen musst:
robots.txt als Mustersteuerung, nicht als URL-Sammelbecken. Der häufigste Enterprise-Fehler: Eine robots.txt die aus hunderten einzelner URL-Einträge besteht, die über Jahre akkumuliert wurden. Das ist kein Steuerungssystem – es ist ein Archiv vergangener Schmerzen. Saubere robots.txt-Steuerung funktioniert über Muster. Wenn du einen ganzen URL-Raum ausschließen willst, willst du ihn als Muster sperren, nicht als Liste.
Ein weiterer wichtiger Punkt: Googles offizielle Crawl-Budget-Dokumentation ist explizit: robots.txt ist kein Werkzeug zur temporären Budget-Umverteilung. Google verschiebt nicht automatisch freigewordenes Budget auf andere Seiten, solange die Server-Kapazität nicht der Engpass ist. Der Effekt ist real – aber er funktioniert anders als die meisten SEOs erwarten.
User-agent: Googlebot
# Faceted Navigation: alle Parameterkombinationen sperren
Disallow: /*?*farbe=
Disallow: /*?*groesse=
Disallow: /*?*sortierung=
# Interne Suche: kein organischer Wert, hoher Crawl-Anteil
Disallow: /suche/
Disallow: /search/
# Pagination tief: ab Seite 3 kein Crawl-Wert
Disallow: /*?seite=[3-9]
Disallow: /*?seite=[1-9][0-9]
# Session-IDs und Tracking-Parameter: erzeugen Duplicate-URL-Räume
Disallow: /*?sessionid=
Disallow: /*?ref=
Disallow: /*?utm_
# Systemseiten: Login, Warenkorb, Checkout – nie relevant für organisch
Disallow: /login/
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /konto/
Allow: /
Zwei Hinweise zu crawl-delay und Sitemaps: crawl-delay ist für Googlebot kein praktischer Hebel – Google ignoriert ihn offiziell. Sinnvoll ist er höchstens für Bing oder andere Crawler mit explizitem Support. XML-Sitemaps sind kein Crawl-Budget-Tool – sie sind ein Discovery-Signal. Sie helfen Google, URLs zu finden, die es noch nicht kennt. Sie erhöhen nicht das Budget, das Google auf bekannte URLs verwendet.
Was bereits indexiert ist, bleibt im Index – solange es nicht aktiv deindexiert wird. Disallow verhindert künftiges Crawlen, löscht keine Vergangenheit.
Hebel 2 – Faceted Navigation und Parameter-Räume: den größten URL-Produzenten kontrollieren
Faceted Navigation ist in Enterprise-E-Commerce oft der größte einzelne Entropie-Treiber – nicht weil Filter eine schlechte UX-Entscheidung sind, sondern weil unkontrollierte Zustandsräume schlecht sind. Der Unterschied ist nicht trivial.
Das Problem ist nicht Duplicate Content. Das Kernproblem ist kombinatorische URL-Erzeugung ohne SEO-Gate: Discovery, Crawl und Signaldiffusion gleichzeitig. Wie das im Logfile aussieht – und wie es entsteht – habe ich im Hub-Artikel zur SEO-Entropie beschrieben. Hier geht es um die Intervention.
Es gibt vier Interventionsoptionen – keine davon ist universell richtig. Die Wahl hängt davon ab, was du mit dem URL-Raum bezwecken willst:
| Intervention | Was sie tut | Was sie nicht tut | Wann richtig |
|---|---|---|---|
| Nicht verlinkbar machen | Verhindert Discovery | Sperrt keine bereits bekannten URLs | Neue URL-Räume vor der Entstehung |
| Canonical auf Ziel-URL | Konsolidierungshinweis an Google | Stoppt nicht den Crawl | Wenn die URL echten UX-Wert hat, aber nicht ranken soll |
| noindex + follow | Hält URL aus dem Index | Stoppt nicht den Crawl | Wenn Links auf der Seite gecrawlt werden sollen |
| Disallow in robots.txt | Stoppt künftigen Crawl des Musters | Entfernt URL nicht aus dem Index | Wenn kein organischer Wert existiert oder entstehen soll |
Vor der Entscheidung helfen fünf Fragen, die richtige Intervention zu wählen:
// Canonical dynamisch setzen – abhängig von Parameterkombination
function setCanonical() {
const params = new URLSearchParams(window.location.search);
const canonicalUrl = document.querySelector('link[rel="canonical"]');
// Einzelparameter mit Suchvolumen: eigene canonical behalten
const indexableParams = ['farbe', 'groesse', 'marke'];
const activeParams = [...params.keys()];
const isIndexable = activeParams.length === 1 &&
indexableParams.includes(activeParams[0]);
if (!isIndexable && canonicalUrl) {
// Alle Kombinationen auf Kategorie-URL kanonisieren
const baseUrl = window.location.pathname.split('?')[0];
canonicalUrl.setAttribute('href', baseUrl);
}
}
document.addEventListener('DOMContentLoaded', setCanonical);
Wichtig: Wenn du den Business Case intern formulierst, vermeide „das ist Duplicate Content.“ Kein Director Product dreht seine Roadmap wegen Duplicate Content um. Die richtige Sprache lautet: „X Prozent unseres Googlebot-Budgets geht in URL-Räume, die keinen organischen Ertrag liefern und nie liefern werden.“ Das ist eine Ressourcenfrage, keine SEO-Theorie.
Ein Hinweis für die Umsetzungsebene: Bei Enterprise-Domains wird Canonical- und robots-Logik für Parameter-Räume heute oft nicht mehr im Backend ausgerollt, sondern an der Edge – über Cloudflare Workers, Akamai EdgeWorkers oder Fastly. Edge-Logik ist in diesem Kontext oft der effizienteste Weg, weil sie keine Template-Anpassungen braucht, sofort skaliert und keinen Deploy-Zyklus erfordert. Das bedeutet: weniger Owner-Konflikte bei der Umsetzung, weil die SEO-Steuerung von der Produkt-Release-Pipeline entkoppelt ist. Voraussetzung ist allerdings, dass das Edge-Layer dokumentiert und versioniert wird – sonst ist es nur eine weitere Entropie-Quelle, die niemand im Blick hat.
Wer sie als Einzel-Maßnahme behandelt, wird sie in jedem nächsten Produktzyklus wiederholen müssen.
Hebel 3 – Indexierungskontrolle: Präzision nach der Bereinigung
Indexierungskontrolle ist präziser als Crawl-Steuerung – aber langsamer in der Wirkung. Google muss Seiten erst crawlen, dann Direktiven lesen, dann deindexieren. Das dauert Wochen bis Monate. Deshalb ist es nicht der erste Hebel, auch wenn er der intuitivere ist. Viele Teams greifen hier zu früh ein, weil noindex, canonical und hreflang sauber und kontrolliert wirken. In Wirklichkeit lösen sie oft nur die sichtbare Schicht des Problems.
Die drei Instrumente haben klar getrennte Aufgaben – und typische Fehlanwendungen:
noindex hält eine URL aus dem Index – stoppt aber nicht den Crawl. Wer Crawl-Waste reduzieren will, löst das nicht mit noindex. Wer den Index bereinigen will, ohne interne Links auf der Seite zu verlieren, wählt noindex + follow. Der häufigste Enterprise-Fehler: noindex auf Seiten setzen, die gleichzeitig in robots.txt gesperrt sind. Google liest den noindex-Tag nur dann, wenn es die Seite gecrawlt hat. Geblockter Crawl + noindex = noindex wird ignoriert.
Im Enterprise-Umfeld ist der X-Robots-Tag
im HTTP-Response-Header oft praktikabler als der HTML-Meta-Tag –
besonders für Nicht-HTML-Ressourcen wie PDFs, Excel-Exporte oder Druckversionen,
die im Crawler auftauchen, aber nie indexiert werden sollten.
Template-Anpassungen sind dafür nicht notwendig;
der Header kann auf Server- oder CDN-Ebene für ganze URL-Muster gesetzt werden.
Dieselbe Logik gilt: geblockter Crawl macht auch den HTTP-Header unsichtbar.
canonical ist ein Konsolidierungshinweis, keine Direktive. Häufige Enterprise-Fehler: self-referencing canonicals auf inhaltsschwachen Seiten (führen zu nichts), Canonical-Ketten (A → B → C, Google folgt nicht zuverlässig tiefer als eine Ebene), canonical auf eine Zielseite mit anderem Intent (Google ignoriert den canonical, weil der Inhalt zu abweichend ist). Canonical löst kein Crawl-Problem. Es konsolidiert Signale.
hreflang ist der häufig unterschätzte Entropie-Erzeuger bei internationalen Setups. Nicht als International-SEO-Thema – als Governance-Versagen. Die typischen Entropie-Muster laut Aleyda Solis‘ Implementierungsleitfaden: fehlende Return-Tags (wenn A auf B zeigt, muss B auf A zurückzeigen), kaputte Cluster mit nicht-200-URLs, canonicals die quer über Sprachen zeigen, und – das häufigste Governance-Problem – verwaiste Märkte.
Verwaiste Märkte: Ländervarianten für Märkte, die das Unternehmen nicht mehr aktiv bedient. Die hreflang-Tags existieren noch, die Teams dahinter nicht mehr. Niemand hat nach dem Marktaustritt die Cluster bereinigt, weil niemand Ownership für internationale URL-Strukturen hatte. Das Ergebnis: Google bekommt widersprüchliche Signale, kaputte Rückverweise und URLs die auf deindexierte oder umgeleitete Seiten zeigen.
✅ Korrektes Cluster: bidirektional, alle 200, canonical korrekt
<!-- Auf der DE-Seite -->
<link rel="alternate" hreflang="de" href="https://example.com/de/produkt/" />
<link rel="alternate" hreflang="en" href="https://example.com/en/product/" />
<link rel="alternate" hreflang="fr" href="https://example.com/fr/produit/" />
<link rel="alternate" hreflang="x-default" href="https://example.com/en/product/" />
<link rel="canonical" href="https://example.com/de/produkt/" />
❌ Typisches Entropie-Muster: verwaister Markt + fehlender Return-Tag
<!-- AT-Seite verweist auf CH – aber CH ist deindexiert -->
<link rel="alternate" hreflang="de-AT" href="https://example.com/at/produkt/" />
<link rel="alternate" hreflang="de-CH" href="https://example.com/ch/produkt/" />
<!-- CH-Seite existiert nicht mehr (301 auf DE) -->
<!-- Return-Tag auf AT fehlt auf CH-Seite -->
<!-- Canonical auf CH zeigt auf DE: Google ignoriert den hreflang-Cluster -->
Sie reduziert nicht automatisch, was Google crawlt. Crawl-Steuerung und Indexierungssteuerung sind getrennte Probleme – und brauchen getrennte Werkzeuge.
Hebel 4 – Interne Verlinkung: Steuerung nach der Bereinigung
Interne Verlinkung ist kein Cleanup-Hebel. Sie ist ein Allokationshebel. Wer anfängt, mit interner Verlinkung Entropie zu bekämpfen, bevor die groben Abflüsse gestoppt sind, lenkt Aufmerksamkeit in ein immer noch unstrukturiertes System. Aber: intern ist sie politisch oft früher umsetzbar als tiefere Plattform-Eingriffe. Das macht sie in manchen Kontexten zum pragmatischen Parallelhebel, nicht zwingend zum letzten Schritt.
Interne Links machen drei verschiedene Dinge – und es hilft, den Unterschied zu verstehen:
| Link-Typ | Primäre Funktion | Beispiele |
|---|---|---|
| Discovery-Links | Googlebot findet die URL | Sitemap, Navigation, Breadcrumb |
| Priorisierungs-Links | Signalisiert Wichtigkeit einer URL | Hub-Seiten, Kategorie-Übersichten, Redaktionelle Empfehlungen |
| Thematische Kontext-Links | Stärkt semantische Relevanz | Related Products, ähnliche Artikel, interne Textlinks |
Orphan Pages als Steuerungsversagen, nicht als Audit-Fund. Eine Orphan Page ist eine URL, die Googlebot kennt – meist über Sitemap oder externe Links – aber auf die kein einziger interner Link zeigt. Sie hat kein PageRank-Gewicht. Interne Links sind kein „Aufmerksamkeitssignal“ – sie sind hartes PageRank-Routing. Jede URL ohne eingehende interne Links ist ein isolierter Knoten im Linkgraph: kein Budget-Abfluss, aber verschenktes Kapital. Google kann diese Seite nicht im Kontext des restlichen Systems einordnen und nicht signifikant priorisieren – egal wie gut der Inhalt ist. Der Botify-Datensatz, den ich im Hub-Artikel zitiere, zeigt, dass 26 Prozent des Crawl-Budgets auf Orphan Pages entfallen können. Das ist kein technisches Problem. Es ist ein Governance-Problem: Diese Seiten existieren, weil sie einmal gebaut wurden – und niemand hat seitdem entschieden, ob sie noch Teil der Informationsarchitektur sein sollen.
Jede Orphan Page braucht genau eine Entscheidung: verlinken, deindexieren oder löschen und 301. Keine vierte Option.
import pandas as pd
# Logfile-Export: gecrawlte URLs von Googlebot (7 Tage)
logfile = pd.read_csv('googlebot_log_7d.csv') # Spalten: url, requests, status_code
# Crawl-Export: interne Linkstruktur (z.B. Screaming Frog Export)
crawl = pd.read_csv('internal_links.csv') # Spalten: destination_url, source_url
# GSC-Export: organische Performance pro URL (90 Tage)
gsc = pd.read_csv('gsc_performance.csv') # Spalten: url, impressions, clicks
# Nur Googlebot-Requests mit Status 200
crawled = logfile[logfile['status_code'] == 200][['url', 'requests']]
# URLs mit mindestens einem eingehenden internen Link
linked = crawl[['destination_url']].drop_duplicates().rename(
columns={'destination_url': 'url'})
linked['has_internal_link'] = True
# Verknüpfen: gecrawlt + intern verlinkt + GSC-Performance
result = crawled.merge(linked, on='url', how='left')
result = result.merge(gsc, on='url', how='left')
result['has_internal_link'] = result['has_internal_link'].fillna(False)
result['impressions'] = result['impressions'].fillna(0)
# Orphan-Kandidaten: gecrawlt, kein interner Link, kein organischer Ertrag
orphans = result[
(result['has_internal_link'] == False) &
(result['impressions'] == 0)
].sort_values('requests', ascending=False)
# Action-Labels vergeben
def classify(row):
if row['requests'] > 50:
return 'hoher Crawl-Waste → prüfen: löschen oder verlinken'
elif row['requests'] > 10:
return 'mittlerer Crawl-Waste → deindexieren oder mergen'
else:
return 'niedriger Crawl-Waste → beobachten'
orphans['action'] = orphans.apply(classify, axis=1)
orphans.to_csv('orphan_candidates.csv', index=False)
print(f"{len(orphans)} Orphan-Kandidaten identifiziert.")
Click-Depth unter 3 für alle Seiten, die ranken sollen. Keine globalen Footer-Links auf alles. Thematische Kontext-Links statt navigatorischer Vollständigkeit.
Die Eingriffslogik als System
Die vier Hebel sind keine unabhängigen Maßnahmen. Sie bauen aufeinander auf:
Ausnahmen von dieser Sequenz gibt es – und sie sind legitim: Wenn internationale Cluster so kaputt sind, dass falsche Märkte prominent ranken, kann hreflang früher kommen. Wenn interne Verlinkung vollständig kollabiert ist (Click-Depth über 6 für Kernseiten), ist ein begrenzter Link-Eingriff parallel zu Hebel 1 sinnvoll. Und wenn Produktteams im Wochentakt neue URL-Räume erzeugen, ist Governance nicht der nächste Schritt – sie ist der gleichzeitige.
Was technische Eingriffe nicht lösen
Technische Maßnahmen reduzieren bestehende Entropie. Sie verhindern nicht automatisch, dass neue entsteht.
Ich habe Projekte begleitet, in denen ein sauberes robots.txt-Setup, konsequente Facet-Kontrolle und ein bereinigter Linkgraph in zwölf Wochen messbar Wirkung gezeigt haben: Crawl-Effizienz auf strategisch relevanten Seiten deutlich gestiegen, Impression-Kurven auf Kategorie- und Produkt-URLs nach oben. Und sechs Monate später war ein Großteil des Fortschritts wieder verschwunden – weil drei neue Produkt-Features in der Zwischenzeit neue Parameterräume erzeugt hatten, weil ein neues CMS-Modul Footer-Links auf alle Kategorien gesetzt hatte, und weil niemand das SEO-Gate geprüft hatte, bevor es live ging.
Ohne Entscheidungsrechte, ohne Seitentyp-Ownership und ohne Freigabelogik produziert die Organisation dieselben Muster erneut. Der technische Eingriff ist Rückgewinnung von Kontrolle – nicht deren dauerhafte Sicherung.
Was dauerhafte Sicherung bedeutet, beschreibe ich im Artikel zum Ownership-Vakuum: Wer entscheiden darf, was im Index bleibt. Und wer Nein sagen darf, bevor neue Seiten entstehen.
Sondern dadurch, dass sie Ressourcenströme neu ordnet. Wer das verstanden hat, arbeitet nicht mehr an Einzelfehlern. Er greift in Systeme ein.
Technische Maßnahmen reduzieren Entropie. Governance entscheidet, ob sie wiederkommt.
Das Gesamtbild: wie Entropie entsteht, was die Zahlen zeigen, wie man den Grad des Kontrollverlusts misst – und welche drei Fragen mehr sagen als jeder Crawler-Report.
→ Zum ArtikelWarum technische Eingriffe allein nicht reichen – und was der Fingerabdruck im Crawl über die Entscheidungsstruktur einer Organisation verrät.
→ Zum ArtikelStrategisches De-Indexieren als Entropie-Reaktion – und warum die eigentliche Frage nicht ist, welche Seiten weg sollen, sondern wer das entscheiden darf.
→ Zum Artikel