Daniel Cremers Weltmodelle: Was nach ChatGPT kommt

Daniel Cremers Weltmodelle: Warum laut dem TU-Professor nicht ChatGPT der KI-Durchbruch war, was nach den Sprachmodellen kommt und der Streit um AlphaFold.

Daniel Cremers Weltmodelle: Der wahre KI-Durchbruch hieß ImageNet

Daniel Cremers ist einer der weltweit einflussreichsten Computer-Vision-Forscher und Pionier der KI-Weltmodelle. Im YouTube-Interview erklärt der Professor der TU München, warum aus seiner Sicht nicht ChatGPT der eigentliche KI-Durchbruch war. Den Wendepunkt verortet er im Jahr 2015. Damals schlug eine Maschine den Menschen erstmals bei der Bildklassifizierung auf dem Datensatz ImageNet.

Cremers begründet das mit der Evolution. Schach sei kein Spiel, für das das Gehirn gebaut ist. Sehen dagegen sei überlebenswichtig. Wer den Tiger im Gebüsch erkennt, lebt länger. Diese menschliche Kernfähigkeit zu reproduzieren, bezeichnet er als die wahre Herausforderung der künstlichen Intelligenz.

Der Datensatz ImageNet stammt von Fei-Fei Li, einer Kollegin von Cremers. Sie treibt heute mit World Labs die Entwicklung von Weltmodellen voran. Genau hier setzen Daniel Cremers Weltmodelle an: bei einem echten räumlichen Verständnis der Welt.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Was Weltmodelle von Sprachmodellen unterscheidet

Ein Sprachmodell sagt das wahrscheinlichste nächste Wort voraus. Diese Next-Token-Prediction funktioniert für Text und Bilder. Für die dreidimensionale Welt genügt sie laut Cremers nicht. Er nennt das Spatial Intelligence. Sein Startup SE3 Labs bringt Maschinen bei, reale Räume zu verstehen.

Der Unterschied wird bei humanoiden Robotern konkret. ChatGPT kennt alles aus dem Internet. Den Weg zur nächsten Bushaltestelle kennt es nicht. Ein Roboter im Alltag muss Objekte, Eigenschaften und Interaktionen erfassen. Rollt ein Ball auf die Straße, folgt oft ein Kind. Ein physikalisches Weltmodell lernt das mit weniger Daten als reines End-to-End-Training. Ein ähnliches Robotik-Muster zeigt die goodBytz-Roboterküche.

KI ist ein Werkzeugkasten, keine Wollmilchsau

Cremers warnt vor jedem Hype-Begriff. Erst war es das LLM, dann das Foundation Model, dann das World Model. Er beschreibt KI als großen Werkzeugkasten. Für die kürzeste Route nach Hamburg eigne sich ein Wegealgorithmus, kein Sprachmodell. Es werde nie das eine Modell geben, das alles kann.

Daraus leitet er eine Warnung an die Politik ab. Ein nationales LLM hält Cremers für gefährlich. Projekte wie BloombergGPT hätten Millionen verbrannt und den Anschluss verloren. Sein Rat lautet: nicht auf den aktuellen Zug aufspringen, sondern die übernächste Modellgeneration entwickeln. Mehrgleisig fahren schlage das Wetten auf ein Pferd.

Tesla gegen Waymo: Warum Cremers auf die Kamera setzt

Beim autonomen Fahren ist Cremers klarer Verfechter der Kamera. LiDAR-Sensoren seien teuer, schwer und groß. Ein Dachaufbau für eine halbe Million Euro verkaufe kein Auto. Seine Arbeitsgruppe lieferte mit LSD-SLAM die Grundlage, aus einer einzigen Kamera dichte 3D-Welten zu rekonstruieren.

Reine Simulation genügt ihm nicht. Den Sim-to-Real-Gap unterschätzen viele. Sein Startup DeepScenario filmt mit Drohnen reale Kreuzungen. Es trackt tausende Verkehrsteilnehmer zentimetergenau. Daraus entstehen reaktive Agenten, die menschliches Fahrverhalten in seiner ganzen Bandbreite abbilden. Bei Gelb bremsen die einen, die anderen geben Gas.

AlphaFold und der verpasste Nobelpreis

2016 stellte das Team von Cremers das weltweit erste neuronale Netz vor, das Proteinstrukturen aus Aminosäuresequenzen vorhersagt. Das war zwei bis drei Jahre vor AlphaFold von DeepMind. Die Arbeit erschien nicht in Nature, sondern als Plenarvortrag auf der KI-Tagung NeurIPS.

2024 ging der Chemie-Nobelpreis an Demis Hassabis. Cremers hörte sich die Begründung des Komitees an. Alle vier genannten Beiträge von AlphaFold standen nach seiner Darstellung bereits 2016 in seinem Paper. Multiple Sequence Alignment, Koevolutions-Statistik, tiefes neuronales Netz und CASP-Benchmark. Beobachter sehen darin ein PR-Defizit der deutschen Forschung. Cremers reiht sich damit ein in die Riege der führenden deutschen KI-Pioniere.

Energieeffizienz und was Deutschland jetzt tun muss

Eine offene Großbaustelle ist die Energie. Das menschliche Gehirn generiert Sprache mit 20 Watt. Große Modelle fressen mehr Strom als ganze Länder. Cremers plädiert für neuromorphe Ansätze und Spiking Neural Networks. Mittelfristig müsse man die Grundstruktur der Netze neu denken.

Beim Standort bleibt er Optimist. Deutschland habe die Talente, etwa an der TU München mit bis zu 2.200 Studenten pro Vorlesung. Über die TUM Venture Labs bringt er Forschung in Startups. Sein Bild: Deutschland brauche statt zehn Think Tanks einen Do Tank.

Fazit: Weltmodelle als nächster Sprung nach den Sprachmodellen

Branchenkenner ordnen Daniel Cremers Weltmodelle als nächsten großen Hebel nach den Sprachmodellen ein. Humanoide Roboter werden günstiger und vielseitiger. Wer KI-Tools früh produktiv einsetzt, gewinnt Tempo. Ein Mitarbeiter bei SE3 Labs generierte mit Claude an einem Tag 11.000 Zeilen Code. Angst vor Jobverlust hält Cremers für falsch. Die Waschmaschine habe Arbeit erleichtert, nicht nur ersetzt.

Häufige Fragen

Was war laut Daniel Cremers der eigentliche KI-Durchbruch?

Nicht ChatGPT und nicht AlphaGo. Daniel Cremers sieht den wahren Durchbruch im Jahr 2015. Damals schlug eine Maschine den durchschnittlichen Menschen erstmals bei der Bildklassifizierung auf dem Datensatz ImageNet. Für ihn zählt das mehr als Schach, weil Sehen eine evolutionär verankerte menschliche Kernfähigkeit ist. Diese visuelle Weltwahrnehmung zu reproduzieren, hält er für die eigentliche Aufgabe der künstlichen Intelligenz.

Was unterscheidet ein Weltmodell von einem Sprachmodell?

Ein Sprachmodell sagt per Next-Token-Prediction das nächste Wort voraus. Es kennt Wissen aus dem Internet, aber keine räumlichen Zusammenhänge. Ein Weltmodell baut eine physikalische, dreidimensionale Repräsentation der Umgebung. Es erfasst Objekte, Eigenschaften und Interaktionen. Cremers nennt das Spatial Intelligence. Humanoide Roboter brauchen genau dieses räumliche Verständnis, um sich im Alltag zu bewegen.

Warum bevorzugt Daniel Cremers Kameras gegenüber LiDAR?

Kameras sind deutlich billiger, leichter und kleiner als LiDAR-Sensoren. Ein LiDAR-Aufbau kann eine halbe Million Euro kosten und macht ein Serienauto unverkäuflich. Die Arbeitsgruppe von Cremers entwickelte mit LSD-SLAM Verfahren, die aus einer einzigen Kamera detailreiche 3D-Welten rekonstruieren. Auch für den Menschen sind die Augen der wichtigste Sinn. Computer Vision ist für ihn deshalb der Kern der gesamten künstlichen Intelligenz.

Was hat das TU-München-Team mit AlphaFold zu tun?

2016 präsentierte das Team von Cremers das erste neuronale Netz zur Vorhersage von Proteinstrukturen aus Aminosäuresequenzen. Das war zwei bis drei Jahre vor AlphaFold. Alle vier Beiträge, mit denen das Nobelkomitee 2024 den Preis an DeepMind begründete, standen laut Cremers schon in diesem Paper. Da es auf der NeurIPS statt in Nature erschien, blieb es in der Biologie-Community weitgehend unbeachtet.

Was muss Deutschland im KI-Wettlauf jetzt tun?

Cremers sieht Talente und Forschung als Stärke, etwa an der TU München. Es fehle am Transfer in Firmen und an Sichtbarkeit. Er fordert mehr PR und mehr Ausgründungen über Strukturen wie die TUM Venture Labs. Statt Überregulierung brauche es vernünftige Kompromisse zwischen Datenschutz und Fortschritt. Sein Leitsatz: Deutschland braucht statt vieler Think Tanks einen Do Tank.

Gib hier deine Suche ein