Erstmals lösen KI-Modelle Aufgaben auf höchstem Niveau bei der Internationalen Mathematik-Olympiade – und zeigen, wie sich das Denken verändert.
Erstmals lösen KI-Modelle Aufgaben auf höchstem Niveau bei der Internationalen Mathematik-Olympiade – und zeigen, wie sich das Denken verändert.
Künstliche Intelligenz schlägt Mathegenies
Zum ersten Mal in der Geschichte haben KI-Systeme eine Leistung erbracht, die bislang nur besonders begabte Jugendliche aus aller Welt geschafft haben: Bei der Internationalen Mathematik-Olympiade (IMO) erreichten KI-Modelle von Google DeepMind und OpenAI Ergebnisse, die dem Niveau einer Goldmedaille entsprechen.
We achieved gold medal-level performance ????on the 2025 International Mathematical Olympiad with a general-purpose reasoning LLM!
— OpenAI (@OpenAI) July 19, 2025
Our model solved world-class math problems—at the level of top human contestants. A major milestone for AI and mathematics. https://t.co/u2RlFFavyT
Die IMO ist der wohl bekannteste Schülerwettbewerb im Bereich Mathematik. Jährlich treten dort Jugendliche unter 20 Jahren aus über 100 Ländern an, um sich mathematischen Aufgaben von höchstem Schwierigkeitsgrad zu stellen. Dabei handelt es sich nicht um einfache Schulmathematik, sondern um Rätsel, die oft tagelange Überlegungen erfordern. Dass KI-Systeme nun fünf von sechs Aufgaben auf diesem Niveau lösen konnten, überrascht viele Fachleute. Denn bisher galt Mathematik – besonders in dieser Tiefe – als Paradebeispiel für menschliches Denkvermögen.
Eine der Aufgaben zum Miträtseln
Wer sich selbst ein Bild machen möchte: Eine der Aufgaben der diesjährigen IMO lautete wie folgt:
So arbeiteten Google und OpenAI an ihrem Erfolg
Die Systeme „Gemini Deep Think“ von Google DeepMind sowie ein bislang nicht namentlich genanntes Modell von OpenAI wurden speziell auf sogenanntes „Reasoning“ trainiert – also auf die Fähigkeit, logisch zu argumentieren. Google arbeitete dabei eng mit dem offiziellen IMO-Komitee zusammen. Das Ergebnis wurde sogar durch externe Fachleute offiziell bestätigt. OpenAI ging einen anderen Weg: Man ließ frühere Gewinner der Mathematik-Olympiade die Antworten der KI überprüfen.
The model was trained using techniques developed through years of OpenAI’s reasoning research—methods designed to help our models break down problems and deliberate over multiple steps. Learn more: https://t.co/LDtyNbr1yh
— OpenAI (@OpenAI) July 19, 2025
Zwar trat OpenAI damit nicht offiziell bei der IMO an, dennoch gelten die Ergebnisse als ernstzunehmender Meilenstein. Früher mussten Menschen die Aufgaben zunächst so umformulieren, dass die KI sie überhaupt verstehen konnte. Dieses Jahr war das nicht mehr nötig. Die neuen Systeme verstehen und beantworten Aufgaben in normaler Sprache – genau wie menschliche Teilnehmer.
Warum das so teuer war
OpenAI nutzte für seine Lösung eine spezielle Rechenmethode: Die KI durfte besonders lange über jede Aufgabe „nachdenken“ – eine sogenannte Testzeit-Berechnung. Dabei wurden viele verschiedene Lösungsansätze parallel durchgerechnet, was laut OpenAI „extrem teuer“ war. Auf Deutsch gesagt: Es wurde sehr viel Rechenleistung verwendet – und damit auch viel Geld.
Wie hoch die genauen Kosten waren, wollte OpenAI nicht verraten. Klar ist aber: Diese Form von KI-Leistung ist noch nicht alltagstauglich. Die Systeme arbeiten aktuell nur dann zuverlässig, wenn man ihnen sehr viele Ressourcen zur Verfügung stellt. Für den praktischen Einsatz – etwa in Schulen oder Forschungseinrichtungen – sind solche Modelle also noch zu teuer.
Stimmen aus der Fachwelt
Junehyuk Jung, Mathematiker und Gastforscher bei Google DeepMind, erklärt gegenüber der Nachrichtenagentur Reuters: „Der Moment, in dem wir schwierige logische Probleme in normaler Sprache lösen können, eröffnet neue Möglichkeiten für die Zusammenarbeit zwischen KI und Fachleuten.“ Matthias Bastian, Technikjournalist, ergänzt: „Die Fähigkeit, über Stunden hinweg korrekt zu argumentieren, war lange ein Schwachpunkt von Sprachmodellen. Der Wettlauf um logikfähige KI hat nun eine neue Phase erreicht.“