KI generiert Videos in Echtzeit während du die Maus bewegst – 29 FPS ohne Verzögerung

Von: Paul Schmitt | heute, 13:12

Forscher haben MotionStream vorgestellt - ein Modell, das Videos on the fly generiert, während du die Maus bewegst. Kein vorheriges Rendering. Keine nachträgliche Bearbeitung. Direkt jetzt.

Wie es funktioniert:

  • Läuft auf einer einzigen H100
  • 29 FPS und 0,4 Sekunden Latenz
  • Steuerung der Objekt- und Kamerabewegung über Tracking-Punkte
  • Du ziehst mit der Maus - die Tasse bewegt sich, das Wasser folgt ihr

Technisch ist es ein Video-Diffusion-Modell mit Causal Distillation und Attention Sink gegen Fehlerakkumulation. Plus ein Lightweight-VAE-Decoder für die Geschwindigkeit.

Interessant ist, dass man Videos in Echtzeit bearbeiten kann: Das Modell nimmt den eingehenden Stream, bewertet die Tracking-Punkte und generiert das Ergebnis on the fly basierend auf dem bearbeiteten ersten Frame.

Einer der Autoren, Xun Huang, schreibt: "Wenn Video-Modelle in Echtzeit interaktiv werden, fühlt es sich ganz anders an. Du schaust nicht mehr nur ein Video - du spielst damit".

Der Code befindet sich noch im internen Review der Firma. Es gibt keine Release-Termine. Aber die Methodik ist im Paper beschrieben, und da sie auf Open-Source-Entwicklungen basiert, lassen sich die Ergebnisse reproduzieren.

Alle Demos sind rohe Bildschirmaufnahmen ohne Nachbearbeitung.