Das Modell ChatGPT GPT-4o erzeugt Bilder mit lesbaren Etiketten

OpenAI hat ein wichtiges Update für GPT-4o eingeführt, das es ermöglicht, Bilder mit unglaublich genauem Text zu erzeugen. Mit dieser neuen Funktion können Benutzer detaillierte, qualitativ hochwertige Bilder mit Sprachansagen erstellen und sie während des Prozesses so anpassen, dass sie die beabsichtigte Bedeutung genau wiedergeben.
Was bekannt ist
Es sieht so aus, als könnten wir unleserliche Inschriften oder bizarre Symbole, die in älteren KI-Modellen oft auftauchten, jetzt vergessen.
Im Gegensatz zu herkömmlichen Methoden der Bilderzeugung, bei denen Sie eine einzelne Abfrage verbessern müssen, verwendet GPT-4o einen dynamischen Ansatz. Zunächst gibt man einen grundlegenden Hinweis, wie z. B. "Katze", und kann dann in einen Dialog mit dem Modell treten, um gewünschte Details hinzuzufügen, wie z. B. einen Detektivhut oder ein Monokel.








OpenAI zeigte, wie die Benutzer nach und nach Szenen erstellen können, indem sie Elemente aus verschiedenen Bildern kombinieren. Das Modell zeigt eine hohe Genauigkeit bei der Wiedergabe von Text auf Schildern oder Objekten, was einen bedeutenden Fortschritt gegenüber früheren Modellen darstellt, die geschriebene Wörter nicht korrekt wiedergeben konnten.
Mit dem GPT-4o können Sie auch mit Fotos arbeiten, indem Sie Änderungen an ihnen vornehmen. Das Modell kann 10-20 Objekte in einer Szene verarbeiten, während andere Modelle oft bei 5-8 Objekten aufhören.




Allerdings ist nicht alles perfekt: Es gibt einige Nachteile, wie z. B. das Beschneiden von unten, Missverständnisse bei nicht-lateinischem Text und Probleme bei mehr als 20 Objekten. Dennoch bietet die neue Funktion Genauigkeit und Flexibilität, die Designern und Kreativen neue Möglichkeiten eröffnen.
Quelle: OpenAI, Gizmochina