Christian Stump hat mit Kolleginnen und Kollegen aktuellen Large Language Models mathematische Übungsaufgaben gestellt.

© RUB, Marquard

Mathematik

Large Language Models lösen Übungsaufgaben auf höchstem Niveau

In einem Benchmark haben 49 internationale Forschende die Künstliche Intelligenz mit 100 Aufgaben auf die Probe gestellt. Nur wenige blieben ungelöst.

Mit 100 Fragen hat eine Gruppe von 49 internationalen Mathematikern und Mathematikerinnen aktuellen Large Language Models auf den Zahn gefühlt: Welche Übungsaufgaben auf höchstem Niveau können sie lösen? Welche noch nicht? „Die Ergebnisse haben uns beeindruckt”, berichtet Prof. Dr. Christian Stump von der Ruhr-Universität Bochum, Initiator der Aktion. „Nur zwei Aufgaben blieben ungelöst. Das zeigt, dass die mathematischen Problemlösungsfähigkeiten von Künstlichen Intelligenzen sich stark verbessert haben.“

Die Forschenden haben sich zu einem dreitägigen Workshop am Max-Planck-Institut für Mathematik in den Naturwissenschaften in Leipzig getroffen. Dort haben sie über die ScienceBench Plattform einen Benchmark mit 100 mathematischen Fragen zusammengestellt. Diese bewegten sich in ihrer Komplexität mindestens auf dem Niveau von Promotionen. Die Antworten mussten eindeutig und den Autoren bekannt, durften aber nicht explizit in Veröffentlichungen erschienen sein. 

Diese Fragen stellten sie fünf aktuellen Large Language Models (LLMs) ein einziges Mal. 41 Aufgaben blieben danach ungelöst. Die besten drei Modelle des ersten Durchgangs konfrontierten sie noch 20 weitere Male mit denselben Fragen. „Zwischen einzelnen Durchgängen eines Modells zur exakt gleichen Frage gibt es eine große Variation in den Antworten“, erklärt Christian Stump. „Bei 20 sehen wir schon deutlich mehr gelöste Fragen als bei einem Durchgang. Es blieben nur noch 16 ungelöste Fragen übrig.“ 

Abschließend stellten sie die Fragen drei Mal hintereinander zwei sogenannten Heavy-Thinking-Modellen. Sie konnten weitere 14 Übungsaufgaben lösen, sodass zum Schluss nur zwei Aufgaben vollständig ungelöst blieben. 

Getestet wurden die Modelle GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7, DeepSeek-V4-Pro, Grok 4.3, GPT-5.5 Pro (Extended Thinking) und Gemini 3.1 Pro Deep Think.

Originalveröffentlichung

Christian Stump et al.: Benchmarks in Leipzig, online erschienen auf arxiv.org, 2026, DOI: 10.48550/arXiv.2606.05818
 

Pressekontakt

Prof. Dr. Christian Stump
Algebraische Kombinatorik
Fakultät für Mathematik
Ruhr-Universität Bochum
E-Mail: christian.stump@ruhr-uni-bochum.de

Download hochauflösender Bilder
Der Download der gewählten Bilder erfolgt als ZIP-Datei. Bildzeilen und Bildnachweise finden Sie nach dem Entpacken in der enthaltenen HTML-Datei.
Nutzungsbedingungen
Die Verwendung der Bilder ist unter Angabe des entsprechenden Copyrights für die Presse honorarfrei. Die Bilder dürfen ausschließlich für eine Berichterstattung mit Bezug zur Ruhr-Universität Bochum verwendet werden, die sich ausschließlich auf die Inhalte des Artikels bezieht, der den Link zum Bilderdownload enthält. Mit dem Download erhalten Sie ein einfaches Nutzungsrecht zur einmaligen Berichterstattung. Eine weitergehende Bearbeitung, die über das Anpassen an das jeweilige Layout hinausgeht, oder eine Speicherung der Bilder für weitere Zwecke, erfordert eine Erweiterung des Nutzungsrechts. Sollten Sie die Fotos daher auf andere Weise verwenden wollen, kontaktieren Sie bitte redaktion@ruhr-uni-bochum.de

Veröffentlicht

Dienstag
09. Juni 2026
11:05 Uhr

Teilen