Mathematik
Qualitätscheck für die neuesten KI-Sprachmodelle
Mithilfe schwieriger Mathe-Aufgaben aus der aktuellen Wissenschaft: Forschende unterziehen die neuesten KI-Sprachmodelle einem wissenschaftlich basierten Leistungsvergleich.
Wie gut sind die aktuellen Sprachmodelle im Vergleich? Das ermittelt Prof. Dr. Christian Stump mittels schwieriger Mathe-Aufgaben, die er verschiedene Sprachmodelle lösen lässt. Mathematikerinnen und Mathematiker aus aller Welt steuern Aufgaben für sein Benchmark-Projekt bei. Die Modelle schneiden sehr unterschiedlich ab: Während das beste im aktuellen Benchmark über 40 Prozent der gestellten Aufgaben richtig lösen kann, schafft das schlechteste nur 12 Prozent. Alle Infos sind online.
Begonnen hat Stump das Projekt aus wissenschaftlicher Neugier: „Ich habe zu einigen Benchmarks Aufgaben aus meiner Forschung beigesteuert. Mich interessierte, welche wissenschaftlichen Fragen bereits durch die Modelle gelöst werden können“, erzählt er. „Aber diese Benchmarks waren selbst für die teilnehmenden Wissenschaftler*innen wie eine Black Box, die Qualität der Benchmarks war nicht nachzuvollziehen.“
Selbst Promovierende bräuchten Stunden oder Tage
Kurzerhand bereitete er einen eigenen Aufruf vor, dem zahlreiche Kolleg*innen folgten. Sie reichten bereits über 200 Aufgaben aus verschiedenen Bereichen der Mathematik ein. Diese sind so gestellt, dass selbst Promovierende im jeweiligen Forschungsgebiet Stunden oder Tage zur Lösung der Aufgaben bräuchten. „Dabei handelt es sich um Übungsaufgaben, deren Lösungen wir kennen“, erklärt Christian Stump.
Die KIs bekommen natürlich nur die Aufgabe. So lässt sich abgleichen, ob sie die richtige Lösung ermitteln können oder nicht. „Unser Benchmark basiert ausschließlich auf wissenschaftlicher Expertise, die Fragen kommen von Forschenden aus der ganzen Welt und werden nach wissenschaftlichen Kriterien in den Benchmark aufgenommen", sagt Christian Stump. Das ermöglicht eine zuverlässige Qualitätskontrolle für Sprachmodelle und zeigt die großen Unterschiede zwischen den Modellen der verschiedenen KI-Firmen.