Du hast ein 7-Tage-Logfile. 68 Prozent der Googlebot-Requests gehen auf URLs, die nie ranken sollen. Du brauchst keine weitere Diagnose. Du brauchst eine Reihenfolge.

Technische SEO-Maßnahmen gegen Entropie sind keine Optimierungen. Sie sind Eingriffe in die Steuerungslogik eines Systems. Entscheidend ist nicht nur was du tust, sondern in welcher Reihenfolge du eingreifst. Wer mit dem sichtbarsten Problem anfängt, verliert Zeit. Wer mit dem größten Ressourcenleck anfängt, gewinnt Wirkung – und damit die Legitimität für alle nächsten Eingriffe.

Dieser Artikel setzt voraus, dass du weißt, was Crawl-Budget, canonical und noindex bedeuten. Er erklärt nicht was diese Konzepte sind, sondern wann sie falsch angewendet werden – und welches davon du zuerst brauchst.

Wenn du noch nicht bewertet hast, wie hoch der Entropie-Grad deiner Domain ist: Das Entropie-Scoring-Modell liefert einen strukturierten Ausgangspunkt über fünf Dimensionen. Dieser Artikel beginnt dort, wo das Scoring endet.

Nicht jede technische Maßnahme reduziert Entropie gleich stark. Die Priorisierung folgt nicht technischer Einfachheit, sondern systemischer Hebelwirkung. Jeder Eingriff lässt sich nach fünf Fragen bewerten:

1
Wie schnell ist der Effekt im Logfile sichtbar?
Eingriffe ohne messbares Signal in 2–4 Wochen sind für den ersten Schritt ungeeignet. Momentum ist im Enterprise-SEO keine weiche Kategorie – es ist die Voraussetzung für Folgeeingriffe.
2
Reduziert der Eingriff Crawl-Waste oder nur Index-Waste?
Beides ist relevant – aber Crawl-Waste ist das unmittelbarere Problem. Was nicht gecrawlt wird, kann nicht indexiert werden. Was gecrawlt wird, kostet Ressourcen – unabhängig vom Indexierungsstatus.
3
Ist er regelbasiert und skalierbar?
Einzelfall-Fixes sind kein Hebel. Ein Eingriff, der manuell auf tausend URLs angewendet werden muss, ist kein Entropie-Eingriff. Es ist Zeitverschwendung mit Dokumentationspflicht.
4
Löst er einen Owner-Konflikt aus?
Der erste Eingriff sollte möglichst ohne tiefen politischen Widerstand durchsetzbar sein. Nicht weil Konflikte zu vermeiden wären – sondern weil der erste Eingriff Vertrauen aufbauen muss, kein Kapital verbrauchen.
5
Verändert er Symptome oder die Steuerungslogik?
Wer noindex auf tausend Filterseiten setzt, hat ein Symptom behandelt. Wer verhindert, dass neue Filterseiten unkontrolliert entstehen, hat die Steuerungslogik verändert. Beides ist notwendig – in dieser Reihenfolge.

Warum Reihenfolge wichtiger ist als Vollständigkeit

Entropie-Reduktion ist kein Audit, das man abarbeitet. Es ist ein Interventionsproblem unter Ressourcenknappheit. Du kannst nicht alle Hebel gleichzeitig ziehen – und du solltest es nicht versuchen, weil jede Maßnahme Entwicklerkapazität, Abstimmungsrunden und politisches Kapital kostet.

Die vier Hebel, die ich im Folgenden beschreibe, unterscheiden sich nicht nur in ihrer Technik. Sie unterscheiden sich in der Art von Unordnung, die sie adressieren. Crawl-Budget-Steuerung greift an der Eingangspforte. Faceted Navigation stoppt die größte Quelle unkontrollierter URL-Erzeugung. Indexierungskontrolle bereinigt was bereits im System ist. Interne Verlinkung lenkt Aufmerksamkeit aktiv auf das, was ranken soll.

Die Reihenfolge ist kein Dogma – aber sie ist die wahrscheinlich wirksamste Standardsequenz für große, unkontrollierte Enterprise-Domains.

Wo die vier Hebel in der Entropie-Kette ansetzen
!
Quelle der Entropie
Unkontrollierte URL-Erzeugung – Features, Filter, Paginierung, Inhalte ohne Gate
H1
Hebel 1 – Crawl-Budget-Steuerung
robots.txt-Muster, Logfile-Analyse → welche URLs Googlebot überhaupt erreicht
H2
Hebel 2 – Faceted Navigation
kombinatorische URL-Räume begrenzen → stoppt täglich neue Entropie-Quellen
H3
Hebel 3 – Indexierungskontrolle
noindex, canonical, hreflang → was Google im Index behält und als Einheit sieht
H4
Hebel 4 – Interne Verlinkung
PageRank-Routing, Orphan-Auflösung → aktive Priorisierung nach der Bereinigung
Reduzierte Entropie
Crawl-Budget fokussiert · Index kontrolliert · Signale priorisiert

Hebel 1 – Crawl-Budget-Steuerung: erst die Abflüsse schließen

Bevor du indexierst, deindexierst oder verlinkst, musst du verstehen, wohin Googlebot tatsächlich geht. Das Logfile ist dabei das einzige Instrument, das dir zeigt, was wirklich passiert – nicht was du konfiguriert hast, sondern was Google tatsächlich tut.

🟢 Woran du erkennst, dass du hier anfangen musst
Mehr als 40–50 % der Googlebot-Requests gehen auf URL-Muster, die du nicht aktiv rankst oder gerankt haben willst. Typisch: Filter-URLs, Pagination-Ketten, interne Suchergebnisse, Session-ID-Varianten.
🔴 Typischer falscher Erstzug
Einzelne URLs in der robots.txt sperren, statt URL-Räume über Muster zu steuern. Oder: crawl-delay setzen in der Annahme, das verschiebt Budget – tut es für Google nicht.

Logfile zuerst, Crawler-Tool zweimal. Ein Crawler zeigt dir deine eigene Sicht auf die Website. Das Logfile zeigt dir Googles Sicht. Beides hat seinen Platz – aber für Crawl-Budget-Fragen ist das Logfile die einzige verlässliche Datenquelle.

Drei Kernfragen, die du ans Logfile stellen musst:

1
Welche URL-Muster absorbieren den größten Anteil der Requests?
Nicht einzelne URLs – Muster. /produkt?farbe= ist ein Muster. /suche?q= ist ein Muster. /seite/ mit anschließender Zahl ist ein Muster. Gruppiere nach Präfix oder Parameterschlüssel, nicht nach Einzel-URL.
2
Welche Muster werden häufig gecrawlt, ohne organischen Ertrag zu liefern?
Verknüpfe Logfile-Daten mit GSC-Daten (Impressionen, Klicks) auf URL-Muster-Ebene. Was Googlebot täglich besucht und was null Impressionen in 90 Tagen hat – das ist dein erster Eingriffspunkt.
3
Wo verschwendet Googlebot Requests auf 4xx, 5xx oder Redirect-Ketten?
Fehlerhafte URLs die regelmäßig gecrawlt werden sind ein direkter Budget-Abfluss. Google wird eine URL, die es kennt, nicht einfach vergessen – aber ein sauberer 404 ist ein starkes Signal, sie zukünftig zu überspringen.

robots.txt als Mustersteuerung, nicht als URL-Sammelbecken. Der häufigste Enterprise-Fehler: Eine robots.txt die aus hunderten einzelner URL-Einträge besteht, die über Jahre akkumuliert wurden. Das ist kein Steuerungssystem – es ist ein Archiv vergangener Schmerzen. Saubere robots.txt-Steuerung funktioniert über Muster. Wenn du einen ganzen URL-Raum ausschließen willst, willst du ihn als Muster sperren, nicht als Liste.

Ein weiterer wichtiger Punkt: Googles offizielle Crawl-Budget-Dokumentation ist explizit: robots.txt ist kein Werkzeug zur temporären Budget-Umverteilung. Google verschiebt nicht automatisch freigewordenes Budget auf andere Seiten, solange die Server-Kapazität nicht der Engpass ist. Der Effekt ist real – aber er funktioniert anders als die meisten SEOs erwarten.

robots.txt – Musterbasierte Steuerung (E-Commerce)
User-agent: Googlebot

# Faceted Navigation: alle Parameterkombinationen sperren
Disallow: /*?*farbe=
Disallow: /*?*groesse=
Disallow: /*?*sortierung=

# Interne Suche: kein organischer Wert, hoher Crawl-Anteil
Disallow: /suche/
Disallow: /search/

# Pagination tief: ab Seite 3 kein Crawl-Wert
Disallow: /*?seite=[3-9]
Disallow: /*?seite=[1-9][0-9]

# Session-IDs und Tracking-Parameter: erzeugen Duplicate-URL-Räume
Disallow: /*?sessionid=
Disallow: /*?ref=
Disallow: /*?utm_

# Systemseiten: Login, Warenkorb, Checkout – nie relevant für organisch
Disallow: /login/
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /konto/

Allow: /

Zwei Hinweise zu crawl-delay und Sitemaps: crawl-delay ist für Googlebot kein praktischer Hebel – Google ignoriert ihn offiziell. Sinnvoll ist er höchstens für Bing oder andere Crawler mit explizitem Support. XML-Sitemaps sind kein Crawl-Budget-Tool – sie sind ein Discovery-Signal. Sie helfen Google, URLs zu finden, die es noch nicht kennt. Sie erhöhen nicht das Budget, das Google auf bekannte URLs verwendet.

robots.txt steuert den Eintritt. Sie bereinigt nicht den Index.
Was bereits indexiert ist, bleibt im Index – solange es nicht aktiv deindexiert wird. Disallow verhindert künftiges Crawlen, löscht keine Vergangenheit.

Hebel 2 – Faceted Navigation und Parameter-Räume: den größten URL-Produzenten kontrollieren

Faceted Navigation ist in Enterprise-E-Commerce oft der größte einzelne Entropie-Treiber – nicht weil Filter eine schlechte UX-Entscheidung sind, sondern weil unkontrollierte Zustandsräume schlecht sind. Der Unterschied ist nicht trivial.

Das Problem ist nicht Duplicate Content. Das Kernproblem ist kombinatorische URL-Erzeugung ohne SEO-Gate: Discovery, Crawl und Signaldiffusion gleichzeitig. Wie das im Logfile aussieht – und wie es entsteht – habe ich im Hub-Artikel zur SEO-Entropie beschrieben. Hier geht es um die Intervention.

🟢 Woran du erkennst, dass du hier anfangen musst
URL-Muster mit Parametern stellen einen überproportionalen Anteil des Crawls – und haben in der GSC-Verknüpfung keine oder kaum Impressionen. Häufig: mehr als 20 % des Crawls auf Filterkombinationen.
🔴 Typischer falscher Erstzug
Canonical auf die Kategorie-Seite setzen und davon ausgehen, das Problem sei gelöst. Canonical ist ein Hinweis, keine Direktive. Google ignoriert ihn, wenn die Seiten inhaltlich zu ähnlich sind.
Wie unkontrollierte Facets URL-Räume multiplizieren
/kategorie/sneaker
1 URL
Basis-Kategorie – rankt, wird gecrawlt ✓
/kategorie/sneaker?farbe=[n]
~12
1 Parameter × 12 Farboptionen
/kategorie/sneaker?farbe=[n]&groesse=[m]
~168
12 Farben × 14 Größen
/kategorie/sneaker?farbe=[n]&groesse=[m]&marke=[k]
~3.360
× 20 Marken
/kategorie/sneaker?farbe=[n]&…&sortierung=[s]&seite=[p]
100k+
Crawl-Waste · kein organischer Wert · niemand hat das entschieden
Jede Zeile ist das Ergebnis einer einzelnen Produktentscheidung – nicht einer SEO-Entscheidung.

Es gibt vier Interventionsoptionen – keine davon ist universell richtig. Die Wahl hängt davon ab, was du mit dem URL-Raum bezwecken willst:

Intervention Was sie tut Was sie nicht tut Wann richtig
Nicht verlinkbar machen Verhindert Discovery Sperrt keine bereits bekannten URLs Neue URL-Räume vor der Entstehung
Canonical auf Ziel-URL Konsolidierungshinweis an Google Stoppt nicht den Crawl Wenn die URL echten UX-Wert hat, aber nicht ranken soll
noindex + follow Hält URL aus dem Index Stoppt nicht den Crawl Wenn Links auf der Seite gecrawlt werden sollen
Disallow in robots.txt Stoppt künftigen Crawl des Musters Entfernt URL nicht aus dem Index Wenn kein organischer Wert existiert oder entstehen soll

Vor der Entscheidung helfen fünf Fragen, die richtige Intervention zu wählen:

1
Hat die URL eigenständigen Suchintent?
Gibt es Nutzer, die explizit nach dieser Filterkombination suchen – mit Volumen, das eine eigene URL rechtfertigt? Wenn nein, ist Konsolidierung die richtige Richtung.
2
Hat sie stabiles Suchvolumen oder nur theoretische Kombinierbarkeit?
Kombinierbarkeit ist kein Suchvolumen. /sneaker?farbe=rot&groesse=42&marke=nike kann existieren – muss aber nicht existieren nur weil es technisch möglich ist.
3
Gibt es eine kanonische Zielseite, die denselben Intent sauber abdeckt?
Wenn ja: canonical auf diese Seite, interne Verlinkung auf Zielseite stärken, Filter-URL aus Sitemap entfernen.
4
Wird die URL aktiv intern angesteuert?
Interne Links sind Discovery-Signale. Eine Seite, auf die 200 interne Links zeigen, wird Google trotz Disallow weiter crawlen wollen. Verlinkungsreduktion ist häufig der notwendige Vor-Hebel.
5
Würdest du diesen Seitentyp heute bewusst noch einmal bauen?
Das ist die Ownership-Frage. Wenn niemand im Raum mit Ja antworten kann – oder die Frage niemand beantworten darf – ist das ein Ownership-Vakuum, kein technisches Problem.
Faceted Navigation – Canonical via JavaScript + robots.txt-Muster
// Canonical dynamisch setzen – abhängig von Parameterkombination
function setCanonical() {
  const params = new URLSearchParams(window.location.search);
  const canonicalUrl = document.querySelector('link[rel="canonical"]');

  // Einzelparameter mit Suchvolumen: eigene canonical behalten
  const indexableParams = ['farbe', 'groesse', 'marke'];
  const activeParams = [...params.keys()];

  const isIndexable = activeParams.length === 1 &&
    indexableParams.includes(activeParams[0]);

  if (!isIndexable && canonicalUrl) {
    // Alle Kombinationen auf Kategorie-URL kanonisieren
    const baseUrl = window.location.pathname.split('?')[0];
    canonicalUrl.setAttribute('href', baseUrl);
  }
}

document.addEventListener('DOMContentLoaded', setCanonical);

Wichtig: Wenn du den Business Case intern formulierst, vermeide „das ist Duplicate Content.“ Kein Director Product dreht seine Roadmap wegen Duplicate Content um. Die richtige Sprache lautet: „X Prozent unseres Googlebot-Budgets geht in URL-Räume, die keinen organischen Ertrag liefern und nie liefern werden.“ Das ist eine Ressourcenfrage, keine SEO-Theorie.

Ein Hinweis für die Umsetzungsebene: Bei Enterprise-Domains wird Canonical- und robots-Logik für Parameter-Räume heute oft nicht mehr im Backend ausgerollt, sondern an der Edge – über Cloudflare Workers, Akamai EdgeWorkers oder Fastly. Edge-Logik ist in diesem Kontext oft der effizienteste Weg, weil sie keine Template-Anpassungen braucht, sofort skaliert und keinen Deploy-Zyklus erfordert. Das bedeutet: weniger Owner-Konflikte bei der Umsetzung, weil die SEO-Steuerung von der Produkt-Release-Pipeline entkoppelt ist. Voraussetzung ist allerdings, dass das Edge-Layer dokumentiert und versioniert wird – sonst ist es nur eine weitere Entropie-Quelle, die niemand im Blick hat.

Facet-Kontrolle ist kein Cleanup. Sie ist Produktarchitektur unter SEO-Bedingungen.
Wer sie als Einzel-Maßnahme behandelt, wird sie in jedem nächsten Produktzyklus wiederholen müssen.

Hebel 3 – Indexierungskontrolle: Präzision nach der Bereinigung

Indexierungskontrolle ist präziser als Crawl-Steuerung – aber langsamer in der Wirkung. Google muss Seiten erst crawlen, dann Direktiven lesen, dann deindexieren. Das dauert Wochen bis Monate. Deshalb ist es nicht der erste Hebel, auch wenn er der intuitivere ist. Viele Teams greifen hier zu früh ein, weil noindex, canonical und hreflang sauber und kontrolliert wirken. In Wirklichkeit lösen sie oft nur die sichtbare Schicht des Problems.

🟢 Woran du erkennst, dass du hier anfangen musst
GSC zeigt viele URLs als „gecrawlt – aktuell nicht indexiert“ oder „doppelter Inhalt ohne kanonische Seite“. Index-Waste ist hoch, Crawl-Waste bereits unter Kontrolle. Oder: internationale Märkte ranken für falsche Regionen.
🔴 Typischer falscher Erstzug
noindex auf URLs setzen, die robots.txt-geblockt sind. Google kann den noindex-Tag nicht lesen, wenn es die Seite nicht crawlen darf. Der häufigste Kollisionsfehler im Enterprise-Setup.

Die drei Instrumente haben klar getrennte Aufgaben – und typische Fehlanwendungen:

noindex hält eine URL aus dem Index – stoppt aber nicht den Crawl. Wer Crawl-Waste reduzieren will, löst das nicht mit noindex. Wer den Index bereinigen will, ohne interne Links auf der Seite zu verlieren, wählt noindex + follow. Der häufigste Enterprise-Fehler: noindex auf Seiten setzen, die gleichzeitig in robots.txt gesperrt sind. Google liest den noindex-Tag nur dann, wenn es die Seite gecrawlt hat. Geblockter Crawl + noindex = noindex wird ignoriert.

Im Enterprise-Umfeld ist der X-Robots-Tag im HTTP-Response-Header oft praktikabler als der HTML-Meta-Tag – besonders für Nicht-HTML-Ressourcen wie PDFs, Excel-Exporte oder Druckversionen, die im Crawler auftauchen, aber nie indexiert werden sollten. Template-Anpassungen sind dafür nicht notwendig; der Header kann auf Server- oder CDN-Ebene für ganze URL-Muster gesetzt werden. Dieselbe Logik gilt: geblockter Crawl macht auch den HTTP-Header unsichtbar.

canonical ist ein Konsolidierungshinweis, keine Direktive. Häufige Enterprise-Fehler: self-referencing canonicals auf inhaltsschwachen Seiten (führen zu nichts), Canonical-Ketten (A → B → C, Google folgt nicht zuverlässig tiefer als eine Ebene), canonical auf eine Zielseite mit anderem Intent (Google ignoriert den canonical, weil der Inhalt zu abweichend ist). Canonical löst kein Crawl-Problem. Es konsolidiert Signale.

hreflang ist der häufig unterschätzte Entropie-Erzeuger bei internationalen Setups. Nicht als International-SEO-Thema – als Governance-Versagen. Die typischen Entropie-Muster laut Aleyda Solis‘ Implementierungsleitfaden: fehlende Return-Tags (wenn A auf B zeigt, muss B auf A zurückzeigen), kaputte Cluster mit nicht-200-URLs, canonicals die quer über Sprachen zeigen, und – das häufigste Governance-Problem – verwaiste Märkte.

Verwaiste Märkte: Ländervarianten für Märkte, die das Unternehmen nicht mehr aktiv bedient. Die hreflang-Tags existieren noch, die Teams dahinter nicht mehr. Niemand hat nach dem Marktaustritt die Cluster bereinigt, weil niemand Ownership für internationale URL-Strukturen hatte. Das Ergebnis: Google bekommt widersprüchliche Signale, kaputte Rückverweise und URLs die auf deindexierte oder umgeleitete Seiten zeigen.

hreflang – Korrektes Cluster vs. typisches Entropie-Muster
✅ Korrektes Cluster: bidirektional, alle 200, canonical korrekt

<!-- Auf der DE-Seite -->
<link rel="alternate" hreflang="de" href="https://example.com/de/produkt/" />
<link rel="alternate" hreflang="en" href="https://example.com/en/product/" />
<link rel="alternate" hreflang="fr" href="https://example.com/fr/produit/" />
<link rel="alternate" hreflang="x-default" href="https://example.com/en/product/" />
<link rel="canonical" href="https://example.com/de/produkt/" />

❌ Typisches Entropie-Muster: verwaister Markt + fehlender Return-Tag

<!-- AT-Seite verweist auf CH – aber CH ist deindexiert -->
<link rel="alternate" hreflang="de-AT" href="https://example.com/at/produkt/" />
<link rel="alternate" hreflang="de-CH" href="https://example.com/ch/produkt/" />
<!-- CH-Seite existiert nicht mehr (301 auf DE) -->
<!-- Return-Tag auf AT fehlt auf CH-Seite -->
<!-- Canonical auf CH zeigt auf DE: Google ignoriert den hreflang-Cluster -->
Indexierungskontrolle ordnet, was Google sehen darf.
Sie reduziert nicht automatisch, was Google crawlt. Crawl-Steuerung und Indexierungssteuerung sind getrennte Probleme – und brauchen getrennte Werkzeuge.

Hebel 4 – Interne Verlinkung: Steuerung nach der Bereinigung

Interne Verlinkung ist kein Cleanup-Hebel. Sie ist ein Allokationshebel. Wer anfängt, mit interner Verlinkung Entropie zu bekämpfen, bevor die groben Abflüsse gestoppt sind, lenkt Aufmerksamkeit in ein immer noch unstrukturiertes System. Aber: intern ist sie politisch oft früher umsetzbar als tiefere Plattform-Eingriffe. Das macht sie in manchen Kontexten zum pragmatischen Parallelhebel, nicht zwingend zum letzten Schritt.

🟢 Woran du erkennst, dass du hier anfangen musst
Wichtige Seiten haben einen hohen Click-Depth-Wert (über 3–4 Klicks von der Startseite), niedrige interne Linkanzahl und trotzdem Ranking-Potenzial. Oder: Logfile zeigt gecrawlte URLs ohne eingehende interne Links (Orphan-Kandidaten).
🔴 Typischer falscher Erstzug
Footer-Links auf alle Hauptkategorien setzen als „interne Verlinkungsmaßnahme“. Globale Footer-Links sind PageRank-Gießkanne, kein Steuerungssignal. Sie verdünnen statt zu priorisieren.

Interne Links machen drei verschiedene Dinge – und es hilft, den Unterschied zu verstehen:

Link-Typ Primäre Funktion Beispiele
Discovery-Links Googlebot findet die URL Sitemap, Navigation, Breadcrumb
Priorisierungs-Links Signalisiert Wichtigkeit einer URL Hub-Seiten, Kategorie-Übersichten, Redaktionelle Empfehlungen
Thematische Kontext-Links Stärkt semantische Relevanz Related Products, ähnliche Artikel, interne Textlinks

Orphan Pages als Steuerungsversagen, nicht als Audit-Fund. Eine Orphan Page ist eine URL, die Googlebot kennt – meist über Sitemap oder externe Links – aber auf die kein einziger interner Link zeigt. Sie hat kein PageRank-Gewicht. Interne Links sind kein „Aufmerksamkeitssignal“ – sie sind hartes PageRank-Routing. Jede URL ohne eingehende interne Links ist ein isolierter Knoten im Linkgraph: kein Budget-Abfluss, aber verschenktes Kapital. Google kann diese Seite nicht im Kontext des restlichen Systems einordnen und nicht signifikant priorisieren – egal wie gut der Inhalt ist. Der Botify-Datensatz, den ich im Hub-Artikel zitiere, zeigt, dass 26 Prozent des Crawl-Budgets auf Orphan Pages entfallen können. Das ist kein technisches Problem. Es ist ein Governance-Problem: Diese Seiten existieren, weil sie einmal gebaut wurden – und niemand hat seitdem entschieden, ob sie noch Teil der Informationsarchitektur sein sollen.

Jede Orphan Page braucht genau eine Entscheidung: verlinken, deindexieren oder löschen und 301. Keine vierte Option.

Python – Orphan-Page-Identifikation aus Logfile + Crawl-Datensatz
import pandas as pd

# Logfile-Export: gecrawlte URLs von Googlebot (7 Tage)
logfile = pd.read_csv('googlebot_log_7d.csv')  # Spalten: url, requests, status_code

# Crawl-Export: interne Linkstruktur (z.B. Screaming Frog Export)
crawl = pd.read_csv('internal_links.csv')       # Spalten: destination_url, source_url

# GSC-Export: organische Performance pro URL (90 Tage)
gsc = pd.read_csv('gsc_performance.csv')        # Spalten: url, impressions, clicks

# Nur Googlebot-Requests mit Status 200
crawled = logfile[logfile['status_code'] == 200][['url', 'requests']]

# URLs mit mindestens einem eingehenden internen Link
linked = crawl[['destination_url']].drop_duplicates().rename(
    columns={'destination_url': 'url'})
linked['has_internal_link'] = True

# Verknüpfen: gecrawlt + intern verlinkt + GSC-Performance
result = crawled.merge(linked, on='url', how='left')
result = result.merge(gsc, on='url', how='left')
result['has_internal_link'] = result['has_internal_link'].fillna(False)
result['impressions'] = result['impressions'].fillna(0)

# Orphan-Kandidaten: gecrawlt, kein interner Link, kein organischer Ertrag
orphans = result[
    (result['has_internal_link'] == False) &
    (result['impressions'] == 0)
].sort_values('requests', ascending=False)

# Action-Labels vergeben
def classify(row):
    if row['requests'] > 50:
        return 'hoher Crawl-Waste → prüfen: löschen oder verlinken'
    elif row['requests'] > 10:
        return 'mittlerer Crawl-Waste → deindexieren oder mergen'
    else:
        return 'niedriger Crawl-Waste → beobachten'

orphans['action'] = orphans.apply(classify, axis=1)
orphans.to_csv('orphan_candidates.csv', index=False)
print(f"{len(orphans)} Orphan-Kandidaten identifiziert.")
Interne Verlinkung ist der Hebel, mit dem du nach dem Aufräumen aktiv priorisierst.
Click-Depth unter 3 für alle Seiten, die ranken sollen. Keine globalen Footer-Links auf alles. Thematische Kontext-Links statt navigatorischer Vollständigkeit.

Die Eingriffslogik als System

Die vier Hebel sind keine unabhängigen Maßnahmen. Sie bauen aufeinander auf:

1
Stoppe die größten Crawl-Abflüsse
Ohne Logfile-Analyse weißt du nicht, wo du anfängst. Ohne Crawl-Steuerung verpufft alles was danach kommt.
2
Begrenze unkontrollierte URL-Erzeugung
Faceted Navigation und Parameter-Räume sind in Enterprise-E-Commerce der größte einzelne Multiplikator für Entropie. Wer hier nicht eingreift, produziert täglich neue Abflüsse.
3
Bereinige Index- und Signalschichten
noindex, canonical, hreflang greifen erst, nachdem die groben Crawl-Abflüsse unter Kontrolle sind. Davor lösen sie nur die sichtbare Schicht.
4
Lenke Aufmerksamkeit aktiv auf Ziel-URLs
Interne Verlinkung entfaltet ihren vollen Wert erst in einem bereinigten System. Sie ist das Instrument, mit dem du nach dem Aufräumen wieder aktiv steuerst.

Ausnahmen von dieser Sequenz gibt es – und sie sind legitim: Wenn internationale Cluster so kaputt sind, dass falsche Märkte prominent ranken, kann hreflang früher kommen. Wenn interne Verlinkung vollständig kollabiert ist (Click-Depth über 6 für Kernseiten), ist ein begrenzter Link-Eingriff parallel zu Hebel 1 sinnvoll. Und wenn Produktteams im Wochentakt neue URL-Räume erzeugen, ist Governance nicht der nächste Schritt – sie ist der gleichzeitige.

Was technische Eingriffe nicht lösen

Technische Maßnahmen reduzieren bestehende Entropie. Sie verhindern nicht automatisch, dass neue entsteht.

Ich habe Projekte begleitet, in denen ein sauberes robots.txt-Setup, konsequente Facet-Kontrolle und ein bereinigter Linkgraph in zwölf Wochen messbar Wirkung gezeigt haben: Crawl-Effizienz auf strategisch relevanten Seiten deutlich gestiegen, Impression-Kurven auf Kategorie- und Produkt-URLs nach oben. Und sechs Monate später war ein Großteil des Fortschritts wieder verschwunden – weil drei neue Produkt-Features in der Zwischenzeit neue Parameterräume erzeugt hatten, weil ein neues CMS-Modul Footer-Links auf alle Kategorien gesetzt hatte, und weil niemand das SEO-Gate geprüft hatte, bevor es live ging.

Ohne Entscheidungsrechte, ohne Seitentyp-Ownership und ohne Freigabelogik produziert die Organisation dieselben Muster erneut. Der technische Eingriff ist Rückgewinnung von Kontrolle – nicht deren dauerhafte Sicherung.

Was dauerhafte Sicherung bedeutet, beschreibe ich im Artikel zum Ownership-Vakuum: Wer entscheiden darf, was im Index bleibt. Und wer Nein sagen darf, bevor neue Seiten entstehen.

Technische SEO reduziert Entropie nicht dadurch, dass sie Seiten optimiert.
Sondern dadurch, dass sie Ressourcenströme neu ordnet. Wer das verstanden hat, arbeitet nicht mehr an Einzelfehlern. Er greift in Systeme ein.

Technische Maßnahmen reduzieren Entropie. Governance entscheidet, ob sie wiederkommt.


→ Zum Artikel → Zum Artikel → Zum Artikel