Google und OpenAI

Neuer Meilenstein: KI holt erstmals Gold bei Mathe-Olympiade

23.07.2025

Erstmals lösen KI-Modelle Aufgaben auf höchstem Niveau bei der Internationalen Mathematik-Olympiade – und zeigen, wie sich das Denken verändert.

Zur Vollversion des Artikels

Erstmals lösen KI-Modelle Aufgaben auf höchstem Niveau bei der Internationalen Mathematik-Olympiade – und zeigen, wie sich das Denken verändert.

Künstliche Intelligenz schlägt Mathegenies

Zum ersten Mal in der Geschichte haben KI-Systeme eine Leistung erbracht, die bislang nur besonders begabte Jugendliche aus aller Welt geschafft haben: Bei der Internationalen Mathematik-Olympiade (IMO) erreichten KI-Modelle von Google DeepMind und OpenAI Ergebnisse, die dem Niveau einer Goldmedaille entsprechen.

Die IMO ist der wohl bekannteste Schülerwettbewerb im Bereich Mathematik. Jährlich treten dort Jugendliche unter 20 Jahren aus über 100 Ländern an, um sich mathematischen Aufgaben von höchstem Schwierigkeitsgrad zu stellen. Dabei handelt es sich nicht um einfache Schulmathematik, sondern um Rätsel, die oft tagelange Überlegungen erfordern. Dass KI-Systeme nun fünf von sechs Aufgaben auf diesem Niveau lösen konnten, überrascht viele Fachleute. Denn bisher galt Mathematik – besonders in dieser Tiefe – als Paradebeispiel für menschliches Denkvermögen.

Eine der Aufgaben zum Miträtseln

Wer sich selbst ein Bild machen möchte: Eine der Aufgaben der diesjährigen IMO lautete wie folgt:

So arbeiteten Google und OpenAI an ihrem Erfolg

Die Systeme „Gemini Deep Think“ von Google DeepMind sowie ein bislang nicht namentlich genanntes Modell von OpenAI wurden speziell auf sogenanntes „Reasoning“ trainiert – also auf die Fähigkeit, logisch zu argumentieren. Google arbeitete dabei eng mit dem offiziellen IMO-Komitee zusammen. Das Ergebnis wurde sogar durch externe Fachleute offiziell bestätigt. OpenAI ging einen anderen Weg: Man ließ frühere Gewinner der Mathematik-Olympiade die Antworten der KI überprüfen.

Zwar trat OpenAI damit nicht offiziell bei der IMO an, dennoch gelten die Ergebnisse als ernstzunehmender Meilenstein. Früher mussten Menschen die Aufgaben zunächst so umformulieren, dass die KI sie überhaupt verstehen konnte. Dieses Jahr war das nicht mehr nötig. Die neuen Systeme verstehen und beantworten Aufgaben in normaler Sprache – genau wie menschliche Teilnehmer.

Warum das so teuer war

OpenAI nutzte für seine Lösung eine spezielle Rechenmethode: Die KI durfte besonders lange über jede Aufgabe „nachdenken“ – eine sogenannte Testzeit-Berechnung. Dabei wurden viele verschiedene Lösungsansätze parallel durchgerechnet, was laut OpenAI „extrem teuer“ war. Auf Deutsch gesagt: Es wurde sehr viel Rechenleistung verwendet – und damit auch viel Geld.

Wie hoch die genauen Kosten waren, wollte OpenAI nicht verraten. Klar ist aber: Diese Form von KI-Leistung ist noch nicht alltagstauglich. Die Systeme arbeiten aktuell nur dann zuverlässig, wenn man ihnen sehr viele Ressourcen zur Verfügung stellt. Für den praktischen Einsatz – etwa in Schulen oder Forschungseinrichtungen – sind solche Modelle also noch zu teuer.

Stimmen aus der Fachwelt

Junehyuk Jung, Mathematiker und Gastforscher bei Google DeepMind, erklärt gegenüber der Nachrichtenagentur Reuters: „Der Moment, in dem wir schwierige logische Probleme in normaler Sprache lösen können, eröffnet neue Möglichkeiten für die Zusammenarbeit zwischen KI und Fachleuten.“ Matthias Bastian, Technikjournalist, ergänzt: „Die Fähigkeit, über Stunden hinweg korrekt zu argumentieren, war lange ein Schwachpunkt von Sprachmodellen. Der Wettlauf um logikfähige KI hat nun eine neue Phase erreicht.“