"Genie 3"
Bahnbrechend: Neue Google-KI verwandelt Texte in spielbare 3D-Welten
06.08.2025Mit einem einfachen Textsatz virtuelle Umgebungen entstehen lassen – was vor einigen Jahren noch wie Zukunftsmusik klang, ist nun Realität.
Google DeepMind hat die neueste Version seines Weltmodells vorgestellt: Genie 3. Diese Technologie kann aus Text lebendige, interaktive Räume entstehen lassen. Das Ganze läuft flüssig in Echtzeit und bleibt dabei für einige Minuten erstaunlich stabil – bei einer Bildrate von 24 Bildern pro Sekunde und einer Auflösung von 720p.
Virtuelle Welt auf Knopfdruck – Google stellt neue KI vor
Bei Google DeepMind wird seit mehr als zehn Jahren daran gearbeitet, wie Computer sich durch Simulationen Wissen aneignen können. Diese sogenannten Weltmodelle helfen dabei, künstliche Intelligenzen zu trainieren. Sie lernen zum Beispiel, wie sich Objekte bewegen, wie Wetter funktioniert oder wie Entscheidungen Einfluss auf ihre Umgebung haben.
Genie 3 ist das bisher leistungsstärkste Modell dieser Art. Im Vergleich zu seinen Vorgängern (Genie 1 und Genie 2) kann man sich nun erstmals frei in den erzeugten Welten bewegen – und zwar in Echtzeit.
Das kann Genie 3 genau
- Echte Natur erleben: Die Technik kann natürliche Phänomene darstellen – etwa Lichtverhältnisse oder Wasser. Auch komplexe Vorgänge wie Regen oder Wind lassen sich simulieren.
- Tiere, Pflanzen und Fantasiefiguren: In den generierten Welten tauchen Tiere auf, Pflanzen wachsen – sogar Figuren aus Fantasiegeschichten können dargestellt werden.
- Orte und frühere Zeiten: Man kann durch nachgebaute Landschaften gehen, vergangene Jahrhunderte erleben oder sich Szenen aus der Geschichte anzeigen lassen.
- Welt ändern durch Text: Wer die Welt beeinflussen möchte, kann das mit Text tun: Ein kurzer Satz reicht, und schon ändert sich das Wetter oder ein neues Objekt erscheint. Das nennt sich „Promptable World Events“.
Das ist technisch neu bei Genie 3
Damit die Welt in Echtzeit reagiert, muss das System blitzschnell rechnen. Jede Entscheidung der Person wird sofort in neue Bilder übersetzt – mehrfach pro Sekunde. Gleichzeitig merkt sich die KI, was vor einer Minute passiert ist. Dadurch bleibt die Umgebung stimmig, auch wenn man später an einen bestimmten Ort zurückkehrt.
Während andere Methoden (wie sogenannte NeRFs) auf vorgegebene 3D-Daten angewiesen sind, erstellt Genie 3 jede Szene Bild für Bild neu – gesteuert durch den eingegebenen Text und die Handlungen der Nutzerin oder des Nutzers.
Dafür kann Genie 3 verwendet werden
Die erzeugten Welten können dazu dienen, künstliche Agenten zu trainieren – also Programme, die selbstständig Entscheidungen treffen. Ein Beispiel dafür ist der sogenannte SIMA-Agent von Google.
In Tests konnte dieser Agent in verschiedenen virtuellen Umgebungen Aufgaben lösen, die ihm vorher gestellt wurden. Dadurch wird es möglich, künstliche Systeme noch besser auf komplexe Herausforderungen vorzubereiten – etwa in der Forschung oder später auch im Alltag.
Das ist noch nicht möglich
Trotz aller Fortschritte gibt es einige Dinge, die noch nicht funktionieren:
- Die handelnden Figuren können nur eine begrenzte Anzahl an Aktionen ausführen.
- Wenn mehrere Figuren gleichzeitig handeln, kommt das System an seine Grenzen.
- Real existierende Orte können noch nicht exakt nachgebaut werden.
- Texte sind nur dann klar lesbar, wenn sie in der Beschreibung der Welt vorkommen.
- Längere Spielsitzungen sind noch nicht möglich – die Technik hält nur ein paar Minuten durch.
Genie 3 wird zunächst nur in einer Testversion veröffentlicht – für Forschende und kreative Fachleute. Damit will man herausfinden, welche neuen Möglichkeiten es gibt, aber auch, welche Risiken auftreten können. Ein besonderes Augenmerk liegt darauf, die Technik so zu entwickeln, dass sie verantwortungsvoll eingesetzt wird. Deshalb arbeitet Google DeepMind eng mit Fachleuten für Ethik und Technologieentwicklung zusammen.