Digital Humanities Wenn Computer antike Texte lesen
Wie das funktioniert und wozu es gut ist, bringt Philologin Julia Jennifer Beine in ihrem Kurs „Digitale Methoden in der Klassischen Philologie: Dyskolos digital“ Studierenden bei.
In der Mitte des Seminarraumes sitzen ein Student und eine Studentin nebeneinander, sie tragen Mund-Nase-Masken. Ein weiterer Teilnehmer ist per Zoom hinzugeschaltet. Julia Jennifer Beine, die zurzeit ihre Doktorarbeit im Fachbereich Klassische Philologie bei Prof. Dr. Manuel Baumbach schreibt, steht vorne, neben einer großen Leinwand. Darauf ist der Bildschirm ihres Computers zu sehen, der Textauszüge einer griechischen Komödie zeigt. „Im Seminar werden wir den Text von Menanders Komödie Dyskolos so aufbereiten, dass er erstmals mit digitalen Methoden nutzbar gemacht werden kann“, erklärt Beine. Ziel des Kurses sei es, den Text zitierfähig in der Drama-Corpora (DraCor)-Infrastruktur zu veröffentlichen. „Das ist eine Infrastruktur, in der sich bereits über 1.000 Dramentexte von der Antike bis in die Moderne befinden, in verschiedenen Sprachen“, erläutert die Doktorandin.
Wenn man mehr Texte analysieren möchte, als man lesen kann, hilft die DraCor-Infrastruktur.
Juila Jennifer Beine
Damit dies möglich wird, müssen die Texte zunächst ausgezeichnet werden. Die Wissenschaftlerin erklärt: „Wenn ein Computer einen Text liest, weiß er nicht, welcher Teil Regieanweisung, Figurenrede oder Sprecheranweisung ist. Damit er das erkennt, erhält der entsprechende Teil des Textes eine Auszeichnung (englisch: Markup). So kommt zum Beispiel um den Sprecher oder die Sprecherin herum die Markierung „Speaker“. Diese Auszeichnungen werden mit den gleichen Schriftzeichen geschrieben wie der normale Text. Das macht es sehr anfängerfreundlich.“
Wie Schachteln, die man ineinander steckt
Das fertig kodierte Textdokument muss man sich in etwa so vorstellen wie Schachteln, die man ineinander steckt. „Man hat eine große Schachtel, die zum Beispiel „Drama“ heißt und dann gibt es eine kleinere, mit dem Namen „Akt 1“, eine noch kleinere, die „erste Figurenrede“ heißt, mit Angabe des oder der Sprechenden. Darin: „erste Zeile oder erster Vers“. Das heißt, man muss nicht vor jeder Zeile den Sprechenden nennen, sondern markiert nur den Anfang und das Ende der Rede“, erklärt Beine.
Damit Wissenschaftlerinnen und Wissenschaftler in verschiedenen Ländern die Texte auf die gleiche Art und Weise auszeichnen, gibt es seit den 1980er-Jahren den Auszeichnungsstandard der Text Encoding Initiative (TEI). Die TEI ist eine Arbeitsgemeinschaft, deren Ziel es ist, einen Standard anzubieten und zu pflegen, mit dem möglichst viele Texte in den Geisteswissenschaften ausgezeichnet (kodiert) werden können, also beispielsweise Dramen und Romane ebenso wie Lyrik oder Lexika. So können Forschende weltweit mit den ausgezeichneten Texten arbeiten – unabhängig vom Sprachraum. Dafür hat die TEI eine Art Handbuch erstellt, das immer weiter ergänzt wird. TEI bezeichne dabei drei Dinge: die Text Encoding Initiative, das Regelwerk und das Dateiformat der ausgezeichneten Texte.
[einzelbild: 1]
Im Kurs lernen die Studierenden die Auszeichnung nach TEI. Souverän leitet Beine sie Schritt für Schritt durch das Programm oXygen, einen Editor, der mit vielen verschiedenen Formaten umgehen kann. Jede und jeder arbeitet an einem anderen Akt der Komödie. Student Nils Koenen kommentiert: „Ich finde es extrem spannend, wie sich grundlegende Informatik und die alten griechischen Texte zusammenlegen lassen und dass man nach dem Auszeichnen ein Ergebnis vor Augen hat, das auch veröffentlicht wird.“ Wer einen Text mit Markup versehen hat, wird im TEI-Dokument namentlich genannt. Das Auszeichnen der Texte falle ihm relativ leicht: „Man folgt ja einem Schema. Wenn man das einmal durchschaut hat, klappt es richtig gut.“ Die anderen Studierenden stimmen ihm zu.
Über die DraCor-Infrastruktur kann man gut quantitative Textanalysen durchführen.
Julia Jennifer Beine
Der ausgezeichnete Text wird von den Studierenden in die spezifische GreekDraCor-Infrastruktur eingefügt, den Teil des DraCor für altgriechische Texte. „Über diese Infrastruktur kann man gut quantitative Textanalysen durchführen“, erklärt Beine. Wie viele Wörter sprechen Männer, Frauen, Sklaven, Diener, Herren? Nimmt man die anderen Dramenkorpora hinzu, kann man zum Beispiel auch untersuchen, ob Redeanteile nach Geschlecht oder Typ über die Jahrhunderte zunehmen.
[infobox: 1]
Zum Abschluss der Sitzung beschäftigt sich der Kurs mit der Anwendungs-/Programmier-Schnittstelle (Application Programming Interface, API). „Was ist überhaupt eine API“, möchte die Kursleiterin wissen. Eine Studentin antwortet: „Eine Schnittstelle, die die Kommunikation zwischen verschiedenen Programmen ermöglicht.“ Julia Jennifer Beine stimmt zu: „Genau, durch die standardisierte Schnittstelle wird es möglich, koordiniert Daten auszutauschen. Dadurch wird sichergestellt, dass die Daten zuverlässig sind und jeder Schritt nachvollziehbar ist.“
Die API ist die Schnittstelle, über die ich mit einem Code Informationen aus dem DraCor herausziehen kann. So erhalte ich genau die Textteile, die ich analysieren möchte.
Julia Jennifer Beine
„Und was können wir dann mit einer API im DraCor machen?“ fragt Beine. Die Studentin erklärt: „Wir könnten uns zwei Personen raussuchen und nachsehen, wie viel sie im Vergleich sprechen.“ Ein Kommilitone ergänzt: „Über welche Themen sprechen sie? Worüber sprechen Männer? Worüber Frauen?“ Und Nils Koenen führt aus: „Wie groß sind die Redeanteile der einzelnen Figuren? Hat sich das im Vergleich mit den anderen Textkorpora im Zeitverlauf geändert? Welche Anteile machen Dialoge und Monologe aus? An welchen Orten spielen die Texte?“
DraCor, API, TEI – das sind mittlerweile keine Fremdwörter mehr für die Studierenden. Student Nils Koenen ist begeistert vom Kurs. „Ich habe schon unfassbar viel mitnehmen können. Es gibt so viele Programme und ganz verschiedene Hilfstools in der Philologie, die das Studium wesentlich erleichtern. Hier wird uns das ganze Paket der Digital Humanities nähergebracht. Nicht nur die Digitalisierung für das Dramakorpus, die auch auf andere Texte anwendbar ist, sondern auch ganz andere Möglichkeiten, digitale Tools zu nutzen.“
[infobox: 2]