Perplexity AI hat Daten selbst von Websites erfasst, die Entwickler die Analyse untersagten

Von Viktor Tsyrfa | heute, 20:20
CEO Perplexity entwirren: Führungsherausforderungen in der Tech-Welt CEO von Perplexity. Quelle: Kimberly White/Getty Images

Cloudflare hat eine Studie veröffentlicht, die Folgendes zeigt: Perplexity AI kroch (lud Daten herunter und analysierte sie) Websites, selbst wenn sie ausdrücklich in robots.txt angeben, dass automatisierter Zugriff verboten ist. Darüber hinaus umging das System den Schutz, indem es den Benutzer-Agenten änderte (zum Beispiel Chrome auf macOS imitierte) und den Verkehr über verschiedene ASNs umleitete - "stealth scraping".

Die AI-Aktivität wurde auf Zehntausenden von Domains mit Millionen von Anfragen täglich erkannt, und Cloudflare konnte den Bot mithilfe von ML-Modellen und Netzwerksignalen identifizieren.

Perplexity ist eine KI-gesteuerte Suchmaschine, die versucht, eine intelligentere Alternative zu Google zu sein, jedoch mit einem Fokus auf Konversion und dialogbasierte Suche. Sie versucht, die gefundenen Ergebnisse zu analysieren und dem Benutzer sofort einen Auszug zu geben, ohne dass auf Links geklickt werden muss. Im Allgemeinen hat Google diesen Trend aufgegriffen und seine eigene Gemini zu seiner Suchmaschine hinzugefügt.

Wie Perplexity reagiert

Der Sprecher des Unternehmens, Jesse Dwyer, sagte, dass die Anschuldigung ein "Hoax" sei und dass die veröffentlichten Screenshots keinen Zugang zu den Inhalten bewiesen. Später sagte er sogar, dass der betreffende Bot nicht zu Perplexity gehörte.

Geschichte verdächtigen Verhaltens

Bereits 2024 veröffentlichten Journalisten von Wired und Entwickler Robb Knight Erkenntnisse, dass Perplexity robots.txt ignorierte, indem es versteckte IP-Adressen und Drittanbieter-Crawler verwendete. Der CEO des Unternehmens bestätigte die Existenz solcher Crawler, weigerte sich jedoch, klar zu erklären, ob man deren Verwendung einstellen würde.

Ob es legal ist

Die robots.txt-Datei ist eine einfache Textdatei, die Seiten beschreibt, die von Such- und Werbebots nicht analysiert werden sollen. Sie hat keine Mechanismen, um tatsächlich zu verhindern, dass diese Adressen analysiert werden, sondern gibt lediglich Empfehlungen. Auf diese Weise "verstehen" Bots, wo persönliche oder technische Informationen sind, die nicht zur Analyse bestimmt sind. Echter vertraulicher Informationen können jedoch nicht auf diese Weise verborgen werden. Die Verwendung verschiedener Bots, IPs, Umleitungen und die Substitution des Benutzer-Agenten sind ebenfalls nicht verboten. Die Aktionen von Perplexity sind vollkommen legal, wenn auch unethisch. Derzeit gibt es keine wirksamen Mittel, um Informationen öffentlich zu machen und zu verhindern, dass sie von KI abgerufen werden. Entweder sollten vertrauliche Informationen nur nach Identifizierung freigegeben werden, oder es sollte akzeptiert werden, dass KI daraus lernen und es für eigene Zwecke nutzen wird.

Reaktionen und Folgen

Die BBC droht mit einer Klage wegen des Scrapings ohne Erlaubnis: Sie fordert die Entfernung von Materialien, Entschädigung und die Beendigung des Zugriffs. Amazon / AWS hat außerdem eine interne Überprüfung von Perplexity eingeleitet, weil die Nutzungsbedingungen ihrer Dienste verletzt wurden.

Quelle: techcrunch.com