Prof. Dr. Christian Stump leitet an der RUB die Arbeitsgruppe Algebraische Kombinatorik.
© Roberto Schirdewahn

Mathematik

Qualitätscheck für die neuesten KI-Sprachmodelle

Mithilfe schwieriger Mathe-Aufgaben aus der aktuellen Wissenschaft: Forschende unterziehen die neuesten KI-Sprachmodelle einem wissenschaftlich basierten Leistungsvergleich.

Wie gut sind die aktuellen Sprachmodelle im Vergleich? Das ermittelt Prof. Dr. Christian Stump mittels schwieriger Mathe-Aufgaben, die er verschiedene Sprachmodelle lösen lässt. Mathematikerinnen und Mathematiker aus aller Welt steuern Aufgaben für sein Benchmark-Projekt bei. Die Modelle schneiden sehr unterschiedlich ab: Während das beste im aktuellen Benchmark über 40 Prozent der gestellten Aufgaben richtig lösen kann, schafft das schlechteste nur 12 Prozent. Alle Infos sind online.

Veröffentlicht

Dienstag
11. November 2025
11:25 Uhr

Teilen