Bild
Prof. Dr. Christian Stump leitet an der RUB die Arbeitsgruppe Algebraische Kombinatorik.
Mathematik
Qualitätscheck für die neuesten KI-Sprachmodelle
Mithilfe schwieriger Mathe-Aufgaben aus der aktuellen Wissenschaft: Forschende unterziehen die neuesten KI-Sprachmodelle einem wissenschaftlich basierten Leistungsvergleich.
Wie gut sind die aktuellen Sprachmodelle im Vergleich? Das ermittelt Prof. Dr. Christian Stump mittels schwieriger Mathe-Aufgaben, die er verschiedene Sprachmodelle lösen lässt. Mathematikerinnen und Mathematiker aus aller Welt steuern Aufgaben für sein Benchmark-Projekt bei. Die Modelle schneiden sehr unterschiedlich ab: Während das beste im aktuellen Benchmark über 40 Prozent der gestellten Aufgaben richtig lösen kann, schafft das schlechteste nur 12 Prozent. Alle Infos sind online.
Angeklickt