Web Analytics: Zugriffe von Bots und Spiders ausfiltern

By 4. August 2014Technologie
Google Analytics: Die neue Option „Bots herausfiltern“

Wer die Zugriffe auf eine Website misst, interessiert sich in aller Regel nur für Besucher aus Fleisch und Blut. Längst nicht jeder Page Request stammt aber von einem menschlichen Besucher: Ein erheblicher Teil der Zugriffe geht von Computerprogrammen (Bots, Spiders, Crawlers) aus. Ein prominentes Beispiel ist der Googlebot, der Websites für die Google-Suche indexiert; zwar ist sein Besuch sehr willkommen (denn sonst wäre die Website bei Google nicht auffindbar), doch sollten diese Zugriffe nicht in der normalen Besucherstatistik auftauchen.

Nicht wenige Zugriffe gehen auch auf das Konto von Spambots: Diese Computerprogramme sind auf der Suche nach E-Mail-Adressen auf Websites, oder sie hinterlassen Werbebotschaften in Diskussionsforen und Kommentarformularen. Der Besuch eines Spambots ist ärgerlich, aber kaum zu unterbinden. Definitiv unsinnig ist es jedoch, die so generierten Visits und Page Views in der Website-Statistik mitzuzählen. Dasselbe gilt auch für Angriffe von Botnets, welche nach dem Bruteforce-Prinzip in das Website-Backend einzubrechen versuchen oder gar mit einer DDoS-Attacke den Webserver lahmlegen wollen – naturgemäss werden bei solchen Angriffen eine Vielzahl von Page Views generiert.

Wahrscheinlich gibt es nicht wenige Webmasters auf dieser Welt, die sich zu Unrecht über die guten Besucherzahlen ihrer Website freuen, weil maschinelle Zugriffe nicht ausgefiltert werden. Einige verlassen sich möglicherweise darauf, dass Bots kein JavaScript ausführen können und deshalb von Google Analytics (und anderen Statistik-Tools, die auf Page Tagging basieren) gar nicht gezählt werden können. Leider ist diese Annahme zumindest teilweise falsch, denn es gibt sehr wohl Bots, die JavaScript verstehen – unter anderem auch der Googlebot, wie diese Ankündigung von Google belegt.

Maschinelle Zugriffe zu erkennen und auszufiltern ist nicht trivial. Längst nicht jeder Bot gibt sich per User Agent String offen als solcher zu erkennen – viele geben statdessen vor, reguläre Web-Browser zu sein. Auch das Blockieren von IP-Adressen ist aufwändig und oft schwierig, weil Botnets von vielen verschiedenen Rechnern aus operieren. Insofern ist es eine gute Nachricht, dass Google Analytics seit kurzem die Möglichkeit bietet, sämtliche bekannten Bots und Spiders auszuschliessen. „Bekannt“ bedeutet in diesem Fall, dass sie in der IAB/ABC International Spiders & Bots List eingetragen sind und sich mit dem dort registrierten User Agent String identifizieren. Die vielen zwielichten Bots werden also nicht erkannt, aber es ist trotzdem empfehlenswert, die Option „Bots herausfiltern“ in Google Analytics zu aktivieren. Und wer es ganz genau wissen will, legt eine separate Datenansicht an, um die Zahlen mit und ohne Bots vergleichen zu können.

Leave a Reply