Corner-top-right-trans
Berliner Beauftragter für Datenschutz und Informationsfreiheit

Indexierung durch Suchmaschinen


Wie kann die Indexierung bestimmter Unter-Webseiten verhindert werden?

Lässt sich die Veröffentlichung personenbezogener Daten nicht vermeiden, muss der Webseitenbetreiber überprüfen, ob und in wieweit die Indizierung des Webangebotes durch Suchmaschinen wünschenswert ist.

Oft ist es zumindest nicht erwünscht, dass das Webangebot bei einer Suche nach einem veröffentlichten Personennamen gefunden wird. Sollte dies doch der Fall sein, muss der Betreffende bei seiner Einwilligung zur Veröffentlichung seiner Daten darauf hingewiesen werden, dass die Einwilligung auch die Auffindbarkeit seiner personenbezogenen Daten über Suchmaschinen beinhaltet.

Sollen Kontaktdaten zwar veröffentlicht werden aber Suchmaschinen nicht zugänglich sein, so sollte überlegt werden, ob bzw. welche Teile des Webangebotes von Suchmaschinen indiziert werden sollen.

Personenbezogene Daten (Namen, Adressen) sollten nur in begründeten Ausnahmefällen indiziert werden!

Als Maßnahme zur Einschränkung der Indizierung der eigenen Webseite bieten sich Maßnahmen wie das Robots-Protokoll an. Über dieses Protokoll kann man Spider bzw. Crawler von Suchmaschinen und Webarchive genau anweisen, welche Teile des Webangebotes durchsucht und indiziert werden dürfen.

Beispiel: robots.txt

Sie haben beispielsweise ein Webangebot unter “http://www.beispiel-xyz.de” mit den Unterseiten “index.html”, “kontakt.html”, “impressum.html” und einem Unterverzeichnis “daten”. Angenommen, sie wünschen nicht, dass Ihre im Impressum angegebenen Kontaktdaten und die Seiten im Unterverzeichnis “daten” von Suchmaschinen indiziert werden. Dies können Sie über eine Datei “robots.txt” festlegen, die über “http://www.beispiel-xyz.de/robots.txt” abrufbar sein muss. Um die oben genannten Verbote durchzusetzen, müsste die Datei folgenden Inhalt haben:
# robots.txt fuer http://www.beispiel-xyz.de/
#
User-agent: *                   # Anweisungen gelten für jeden Spider
Disallow: /impressum.html       # impressum.html wird nicht indexiert
Disallow: /daten                # Zugriff auf alle Dateien des Verzeichnisses verboten 

Mit folgenden Eintrag würde das gesamte Webangebot für Spider gesperrt:

User-agent: *
Disallow: /

Alternativ kann man einzelne Webseiten mit Hilfe von Meta-Tags im Kopfbereich (zwischen <head> und </head>) vor einer Indexierung schützen:

<html>
<head>
...
<meta name="robots" content="noindex,nofollow" />
...
</head>
<body>
...
</body>
</html>

Die Anweisung legt fest, dass die Webseite nicht indexiert wird und auch keiner der Links auf der Webseite weiterverfolgt wird.

Weitergehende Informationen zum Robots-Protokoll finden Sie z.B. in der WikipediaExterner-link

Achtung: Das Robots-Protokoll ist nur eine Vereinbarung, an die sich ein Spider halten kann oder auch nicht. Bekannte Suchmaschinen und Webarchive halten sich an die Vorgaben dieses Protokolls. Allerdings durchsuchen auch andere Spider das Netz, beispielsweise Spamversender auf der Suche nach E-Mail-Adressen. Diese halten sich sicherlich nicht an die Vorgaben des Robots-Protokolls. Um personenbezogene Daten auch davor zu schützen, kann es sich anbieten, die Daten nicht als Text sondern als Bild zu veröffentlichen. Ein weitere Methode ist der Verzicht auf physische Links zu Webseiten mit personenbezogenen Daten und statt dessen die Verlinkung über einen JAVA-Script-Befehl. Ein solcher Link ist für Spider nicht so einfach zu erkennen und wird daher oft nicht weiterverfolgt.

Mit Hilfe des Robots-Protokolls kann festgelegt werden, welche Teile eines Webangebotes von Suchmaschinen indiziert und von Webarchiven archiviert werden dürfen. Durch geschickten Einsatz kann vermieden werden, dass z.B. eine Suche nach dem Namen einer Person erfolgreich ist, während die Suche auf Basis des Inhaltes weiterhin möglich bleibt.

14.11.2008