Alibabas KI-Modell Qwen2.5-VL kann Booking.com auf Android ausführen und Tickets von Chongqing nach Peking buchen (Video)
Das Qwen-Team von Alibaba hat die Veröffentlichung einer neuen Reihe von KI-Modellen Qwen2.5-VL angekündigt, die eine Reihe von Text- und Bildanalyseaufgaben durchführen können.
Was bekannt ist
Die Modelle sind in der Lage, Dateien zu verarbeiten, Videos zu verstehen, Objekte in Bildern zu zählen und PCs zu steuern - ähnlich wie das Modell, das in OpenAI Operator arbeitet.
Laut Testdaten übertrifft Qwen2.5-VL OpenAIs GPT-4, Anthropics Claude 3.5 und Googles Gemini 2.0 Flash in den Bereichen Videoverständnis, Mathematik, Dokumentenanalyse und Beantwortung von Fragen. Das Modell ist in der Lage, Grafiken und Diagramme zu analysieren, Daten aus eingescannten Rechnungen und Formularen zu extrahieren und mehrstündige Videos zu "verstehen".
Qwen2.5-VL-Testergebnisse. Illustration: Alibaba
Eine interessante Funktion von Qwen2.5-VL ist die Fähigkeit, mit Software auf PCs und mobilen Geräten zu interagieren. Ein auf X veröffentlichtes Video zeigt ein Qwen2.5-VL-Modell, das die Booking.com-App auf Android startet und ein Flugticket von Chongqing nach Peking bucht. Bei einem Test auf einem Linux-Desktop erwies sich das Modell jedoch als weniger effizient und beschränkte sich auf das Wechseln von Tabs.
Die Qwen2.5-VL-Modelle haben auch gewisse Einschränkungen bei den Themen, die sie diskutieren, insbesondere im Qwen-Chat, aufgrund der Kontrollen der chinesischen Internet-Regulierungsbehörden, die die Einhaltung der "sozialistischen Grundwerte" verlangen.
Die Qwen2.5-VL-Modelle stehen in der Qwen-Chat-App und auf der Hugging Face-Plattform zum Testen zur Verfügung. Für das Modell Qwen2.5-VL-72B gibt es eine spezielle Lizenz, die eine Genehmigung für die kommerzielle Nutzung für Unternehmen mit mehr als 100 Millionen monatlich aktiven Nutzern erfordert.
Quelle: @_philschmid