Hallo @pameo
ein klares “Jein”. 😉
Wir lesen den User Agent aus und versuchen daran den Crawler/Bot zu erkennen:
https://github.com/pluginkollektiv/statify/blob/667518428b30b0522367fb2c955d1913e1ef672f/inc/class-statify-frontend.php#L213-L245
Aktuell sind das diese Textteile:
'bot', 'slurp', 'crawler', 'spider', 'curl', 'facebook', 'fetch', 'python', 'wget', 'monitor'
Mit JS oder Nicht-JS hat das gar nichts zu tun. Die interne Verarbeitung ist dieselbe.
Damit erwischen wir (hoffentlich) den Großteil.
Es gibt aber auch schon Überlegungen wie das noch optimiert werden kann:
https://github.com/pluginkollektiv/statify/issues/217
Vielleicht macht es auch Sinn hier einen Filter anzubieten, damit erfahrene Nutzer, Bots/Crawler selbst ergänzen können. Je nachdem welche Tools vielleicht auch selbst im Einsatz sind (Linkchecker mit eigenem User Agent z.B.).
Hast du einen konkreten Bot/Crawler im Auge oder war das eine generelle Frage?
Beste Grüße
Torsten
Thread Starter
pameo
(@pameo)
Hallo Torsten,
trotz “Jein” eine super klare Antwort – danke dafür!
War eine generelle Frage.
viele Grüße Gerhard
Mit JS oder Nicht-JS hat das gar nichts zu tun. Die interne Verarbeitung ist dieselbe.
Im Prinzip ja, allerdings schließt JS basiertes Tracking tatsächlich eine Reihe automatisierter Anfragen aus. Es gab Zeiten, da hat JS 90% und mehr aussortiert.
Suchmaschinen und Crawler führen es aber inzwischen zunehmend aus, um dynamische Inhalte so, wie sie der Nutzer sieht, korrekt zu erfassen. Die weisen sich aber überwiegend erkennbar als “bot“ oder “crawler“ aus. Gleiches gilt für Tools zur Accessibility Analyse, o.Ä.
Monitoring-Systeme, Link-Crawler, Webanalyzer, etc. sind etwas vielfältiger was die UserAgent Kenner angeht, falls sie nicht sogar einen echten Browser vorgaukeln. Die allermeisten führen aber weiterhin kein JS aus, da für die Anwendung nicht nötig.
Aber das “Jein“ bleibt. Eine absolute Trefferquote gibt es mit keiner der beiden Methoden, aber man versucht es.