Apple und die Universität Washington testen KI-Agenten auf Gemini und ChatGPT, Fazit: Die Technologie ist noch nicht bereit

Von: Anry Sergeev | gestern, 16:48

Während wir alle aktiv testen, wie KI Essays schreiben, Code generieren oder Bilder erstellen kann, haben Forscher von Apple und der Universität Washington eine viel praktischere Frage gestellt: Was würde passieren, wenn wir der künstlichen Intelligenz vollständigen Zugriff auf das Management mobiler Anwendungen geben? Und vor allem, wird sie die Konsequenzen ihrer Handlungen verstehen?

Was bekannt ist

In der Studie mit dem Titel "Von der Interaktion zur Auswirkung: Sicherere KI-Agenten durch das Verständnis und die Bewertung der Auswirkungen mobiler UI-Operationen", die für die IUI 2025-Konferenz veröffentlicht wurde, hat ein Team von Wissenschaftlern eine ernsthafte Lücke identifiziert:

Moderne großangelegte Sprachmodelle (LLMs) verstehen Schnittstellen ziemlich gut, sind aber katastrophal schlecht darin, die Konsequenzen ihrer eigenen Handlungen in diesen Schnittstellen zu verstehen.

Zum Beispiel sieht für eine KI das Klicken auf die Schaltfläche "Konto löschen" fast genau gleich aus wie "Gefällt mir". Der Unterschied zwischen ihnen muss ihr noch erklärt werden. Um Maschinen beizubringen, zwischen der Bedeutung und den Risiken von Handlungen in mobilen Anwendungen zu unterscheiden, hat das Team eine spezielle Taxonomie entwickelt, die zehn Haupttypen der Auswirkungen von Handlungen auf den Benutzer, die Schnittstelle und andere Personen beschreibt und auch Umkehrbarkeit, langfristige Konsequenzen, Ausführungsüberprüfung und sogar externe Kontexte (z. B. Geolokalisierung oder Kontostatus) berücksichtigt.

Die Forscher haben einen einzigartigen Datensatz von 250 Szenarien erstellt, in denen die KI verstehen musste, welche Handlungen sicher sind, welche eine Bestätigung benötigen und welche besser nicht ohne einen Menschen durchgeführt werden sollten. Im Vergleich zu den beliebten AndroidControl- und MoTIF-Datensätzen ist der neue Satz viel reicher an Situationen mit realen Konsequenzen, von Einkäufen und Passwortänderungen bis hin zur Verwaltung von Smart Homes.


Eine Webschnittstelle für Teilnehmer zur Generierung von Aktionsnachverfolgungen einer Schnittstelle mit Einflüssen, einschließlich eines Mobiltelefonbildschirms (links) und Anmelde- und Aufnahmefunktionen (rechts). Illustration: Apple

Die Studie testete fünf Sprachmodelle (LLMs) und multimodale Modelle (MLLMs), nämlich:

  • GPT-4 (Textversion) - eine klassische Textversion ohne Arbeit mit Schnittstellenbildern.
  • GPT-4 Multimodal (GPT-4 MM) ist eine multimodale Version, die nicht nur Text, sondern auch Schnittstellenbilder (z. B. Screenshots von mobilen Anwendungen) analysieren kann.
  • Gemini 1.5 Flash (Textversion) ist ein Modell von Google, das mit Textdaten arbeitet.
  • MM1.5 (MLLM) ist ein multimodales Modell von Meta (Meta Multimodal 1.5), das sowohl Text als auch Bilder analysieren kann.
  • Ferret-UI (MLLM) ist ein spezialisiertes multimodales Modell, das speziell für das Verständnis und die Arbeit mit Benutzeroberflächen trainiert wurde.

Diese Modelle wurden in vier Modi getestet:

  • Zero-shot - keine zusätzliche Ausbildung oder Beispiele.
  • Knowledge-Augmented Prompting (KAP) - mit der Hinzufügung von Wissen über die Taxonomie der Auswirkungen von Handlungen auf das Prompt.
  • In-Context Learning (ICL) - mit Beispielen im Prompt.
  • Chain-of-Thought (CoT) - mit Prompts, die schrittweises Denken beinhalten.

Was haben die Tests gezeigt? Selbst die besten Modelle, einschließlich GPT-4 Multimodal und Gemini, erreichen eine Genauigkeit von gerade über 58 % bei der Bestimmung des Einflussniveaus von Handlungen. Die schlechteste KI hat Schwierigkeiten mit den Nuancen des Typs der Umkehrbarkeit von Handlungen oder deren langfristiger Wirkung.

Interessanterweise haben die Modelle die Tendenz, Risiken zu übertreiben. Zum Beispiel könnte GPT-4 das Löschen des Verlaufs eines leeren Rechners als kritische Handlung klassifizieren. Gleichzeitig könnten einige ernsthafte Handlungen, wie das Senden einer wichtigen Nachricht oder das Ändern finanzieller Daten, von dem Modell unterschätzt werden.


Die Genauigkeit der Vorhersage des Gesamteinflussniveaus bei Verwendung verschiedener Modelle. Illustration: Apple

Die Ergebnisse zeigten, dass selbst Top-Modelle wie GPT-4 Multimodal nicht 60 % Genauigkeit bei der Klassifizierung des Einflussniveaus von Handlungen in der Schnittstelle erreichen. Sie haben insbesondere Schwierigkeiten, Nuancen wie die Wiederherstellbarkeit von Handlungen oder deren Auswirkungen auf andere Benutzer zu verstehen.

Infolgedessen zogen die Forscher mehrere Schlussfolgerungen: Erstens sind komplexere und nuanciertere Ansätze zum Verständnis von Kontexten erforderlich, damit autonome KI-Agenten sicher arbeiten können; zweitens müssen Benutzer in Zukunft selbst den "Vorsicht"-Level ihrer KI einstellen - was ohne Bestätigung getan werden kann und was absolut nicht erlaubt ist.

Diese Forschung ist ein wichtiger Schritt zur Gewährleistung, dass intelligente Agenten in Smartphones nicht nur Tasten drücken, sondern auch verstehen, was sie tun und wie es Menschen betreffen könnte.

Quelle: Apple