TEXTSTATISTISCHE UNTERSUCHUNGEN AN MITTELHOCHDEUTSCHEN TEXTEN
Abstract
The following paper offers an introduction to a set of programs called ErMaStat, which is an instrument for textual analysis of Middle High German rhymed epics. With the help of ErMaStat, texts can be analysed with respect to statistical differences, for example in the case of uncertain authorship or if the relative chronology of works of one author is unclear. ErMaStat is the first set of programs in the area of German Medieval Studies which makes it possible to record a large number of different textual features automatically and without any manual input, and subsequently carries out a statistical analysis. The scope of the textual features that can be examined is wide: It ranges from simple quantitative features such as words per line, function words and grammatical phenomena to an automatic analysis of meter. The power of ErMaStat is demonstrated on a number of scholarly issues in German Medieval Literature. It can be shown that the results of the so-called ›schallanalytische Untersuchungen‹ practised by Elisabeth Karg-Gasterstädt are more plausible than hitherto assumed. Another result is that statistical evidence can be presented for the theory that the first thousand lines of Hartmann von Aue's Iwein were written immediately after Hartmann had finished Erec.
Im Rahmen meiner Dissertation über Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten habe ich das Programmpaket ErMaStat entwickelt und dokumentiert, ein Instrument der Textanalyse für mittelhochdeutsche Versromane. Mit ihm können Texte in Hinblick auf statistische Unterschiede untersucht werden, etwa bei Fragen unklarer Autorschaft oder der Chronologie innerhalb des Werks eines Autors. Mit ErMaStat wurde erstmals in der germanistischen Mediävistik ein Programmpaket vorgestellt, das eine Vielzahl von Textmerkmalen automatisch erfasst und statistisch auswertet. Die Bandbreite der untersuchten Textmerkmale ist groß: Sie bewegt sich von einfachen quantitativen Merkmalen wie Wörtern pro Zeile über Funktionswörter und grammatikalische Phänomene bis hin zu einer automatischen metrischen Analyse. Im Folgenden will ich das Programmpaket vorstellen und die wichtigsten Ergebnisse diskutieren.[1]
Wann immer man versucht, sich literaturwissenschaftlichen Fragestellungen mit quantifizierenden Verfahren zu nähern, so muss man dabei voraussetzen, dass Texte von unterschiedlichen Autoren (oder unterschiedlicher Schaffensperioden eines Autors) bestimmte unterscheidende Merkmale auf phonologischer, morphologischer, lexikalischer und syntaktischer Ebene aufweisen, die sich quantitativ erfassen lassen. Diese Voraussetzung ist nicht unproblematisch; der Einsatz quantifizierender Verfahren und die Relevanz ihrer Ergebnisse sind nicht unumstritten.[2]
Willie van Peer hat auf die Grundlagenprobleme bei statistischen Arbeiten hingewiesen: Es sei problematisch, einen Text auf Zahlen zu reduzieren, da dabei sein »essentially process-like character« verloren gehen müsse.[3] Stilistische Merkmale quantitativ zu erfassen sei schwierig: Wie will man einem Computer beibringen, Textmerkmale wie Metapher, Ironie, Hyperbel oder Paradoxon zu erfassen? Wie will man die Bedeutung eines Wortes erfassen, das in einem übertragenen Sinn gebraucht wird? »As is well known, a whale is not always simply a whale in a novel, but may develop into something which was quite unpredictable from it’s known biological properties.«[4]
Es müsse bedacht werden, dass Wörter verschiedene Bedeutungen und Konnotationen in verschiedenen Werken oder bei verschiedenen Autoren haben. Ergebnisse von statistischen Tests, die mit einer Wahrscheinlichkeit von 95% und einer endlichen Zahl linguistischer Variablen herausfinden können, dass ein Werk zu einem von zwei stilistischen Systemen gehört, seien mit Vorsicht zu genießen. Direkte Rückschlüsse auf die Art des stilistischen Systems seien – so van Peer – nicht erlaubt, da es ja auch möglich sei, dass ein Autor eine bestimmte Stilebene beispielsweise ironisch zitiere; eine quantitative Analyse könne das aber kaum erkennen.
Louis Milic konstatiert, die Forschung habe zwar zahlreiche praktische statistische Arbeiten hervorgebracht. Doch die theoretische Grundannahme, Stil sei messbar, sei nicht bewiesen worden, noch sei die Grundfrage beantwort: »is there such a thing as style and where is it located?«.[5] Seit Plato ist – so Milic – diese Frage immer wieder anders beantwortet worden. Die in der Romantik entwickelte Auffassung, nur individueller Stil sei gut und reflektiere den Autor und manchmal seine Umwelt, sei bis heute die nachhaltigste. Diese Theorie wurde ausgebaut um die Annahme, der Stil eines Autors habe eine Beziehung zu seiner Persönlichkeit, und ein ›reifer‹ Stil sei stabil. Diese ›Basistheorie‹ bilde, oft unausgesprochen, die Grundlage für zahlreiche statistische Untersuchungen. Es blieben Fragen offen: ›Hat‹ ein Autor nur einen Stil? Kann er ihn willkürlich ändern? Doch hat die computergestützte Stilforschung keine Alternative, denn:
If a writer’s style is not individual, if it is at any given time different from what it was the day before and will be different the next day, if it has no individual stability, how can it be analyzed and what can be the point of reaching conclusions about it?[6]
Allerdings stelle sich dieses Problem auch bei der konventionellen philologischen Forschung, wenn sie annehme, eine Stilanalyse könne bei Interpretations-, Datierungs- oder Urheberschaftsfragen helfen.[7]
Das Problem der unzureichenden theoretischen Grundlagen wird auch mit einem Blick auf die Terminologie sichtbar. In Anlehnung an die englischsprachige Forschungsliteratur – dort wird von ›stylometry‹ gesprochen – nennt Fotis Jannidis in seinem Aufsatz Was ist Computerphilologie? die Methode der quantitativen Textuntersuchung »computergestützte Stilanalyse (Stylometrie)«.[8] Bei der Verwendung des Begriffs ›Stilanalyse‹ stellt sich jedoch die Frage, ob das Messen quantifizierbarer Texteigenschaften diesem Begriff gerecht wird:
Dabei braucht das (Proto-)Typische sich nicht unbedingt in hohen statistischen Werten belegen zu lassen, was z.B. leicht möglich ist bei Zählungen im Merkmalsbereich Satzlänge, Satzformen, Wortarten, Wortbildungsmodelle, Stilfiguren o.ä. [...]. Oft bilden nicht Merkmale, die gegenüber anderen Merkmalen besonders häufig auftreten (z.B. eine bestimmte Wortart gegenüber einer bestimmten Stilfigur), die Grundlage für das Erkennen eines Individualstils, sondern Merkmale – auch wenn sie statistisch in vergleichsweise geringer Frequenz vorkommen – mit besonderer Signalwirkung.[9]
Gerade in Anbetracht der Vielzahl der Definitionen des Begriffs ›Stil‹[10] halte ich es eher für empfehlenswert, davon sprechen, dass quantifizierende Methoden nur eine Teilmenge dessen erfassen können, was unter diesem Begriff verstanden werden kann. Daher scheint es mir auch angemessener – weil unproblematischer – zu sein, von ›computergestützten textstatistischen Untersuchungen‹ anstelle von ›computergestützter Stilanalyse‹ zu sprechen.
Das gilt auch für das einzelne Untersuchungsobjekt: Während die englischsprachige Forschungsliteratur teilweise von ›style markers‹ spricht[11], scheint es mir in Anlehnung an Jannidis[12] geeigneter zu sein, den neutraleren Begriff ›Textmerkmale‹ vorzuziehen. Ein weiteres Problem bei der Verwendung des Begriffs ›style marker‹ ist, dass damit die Frage aufgeworfen wird, ob der Begriff impliziert, dass alle Stileigenschaften sinnvoll quantifiziert werden können. Diese Problematik wird durch die Verwendung von ›Textmerkmal‹ umgangen. Das gilt umso mehr, als es schwierig ist, bei einem einzelnen Textmerkmal zu bestimmen, ob sein Vorkommen in unterschiedlichen Texten eher Ausdruck von Individual- oder Werkstil, von Bereichs- oder Gruppenstil, von Textsorten- oder Zeitstil sein kann.[13]
Ich halte es nicht für notwendig, eine bestimmte Stildefinition für meine textstatistischen Untersuchungen zu geben. Der Computerphilologe steht hier offensichtlich vor dem gleichen Problem wie der Intelligenzforscher, der oft genug im Rahmen von Intelligenztests ›Intelligenz‹ als das definiert, was in diesem Test gemessen werden kann. Es mag bezeichnend für das Grundlagenproblem der ›stylometry‹ sein, wenn mitunter am Beginn einschlägiger Untersuchungen ähnlich anmutende Definitionen stehen: »The Stylometrist therefore looks for a unit of counting which translates accurately the ›style‹ of the text, where we may define ›style‹ as a set of measurable patterns which may be unique to an author.«[14]
Der praktischen textstatistischen Forschung ist es inzwischen gelungen, zu demonstrieren, dass bei bestimmten Textgruppen mit quantifizierenden Untersuchungen Erfolge erzielt werden können. So sind offenbar bestimmte Textmerkmale ziemlich zuverlässig dazu geeignet, Texte verschiedener Autoren signifikant voneinander zu unterscheiden – ein empirisches Argument, das zwar für die Leistungsfähigkeit statistischer Untersuchungen spricht, das aber freilich keine theoretische Grundlage darstellt.[15]
Vor diesem Hintergrund scheint es opportun zu sein, sich mit dem Verweis auf die Erfolge zu begnügen, und die Methode – so theoriefrei wie möglich – mit einem lediglich empirischen Anspruch anzuwenden. Doch das ist nicht ganz ohne Implikationen möglich. Denn wenn ich Fragen wie Werkdatierung oder der Chronologie innerhalb eines Werkes untersuche, komme ich nicht darum herum, folgende Vorannahmen zu benennen, die freilich kaum bewiesen werden können:[16]
Bei der quantifizierenden Textanalyse wird ein Teilbereich dessen untersucht, was – wie auch immer – als ›Stil‹ bezeichnet werden kann. ›Stil‹ kann auf unterschiedlichem Niveau stabil sein: Innerhalb des Gesamtwerks eines Autors, innerhalb eines einzelnen Werkes, innerhalb von größeren Abschnitten eines Werkes.
Es gibt Textmerkmale, bei denen Differenzen zwischen Werken unterschiedlicher Autoren, unterschiedlichen Werken eines Autors und unterschiedlichen Textabschnitten eines Werkes gemessen werden können.
Es ist plausibel, dass die messbaren Unterschiede zwischen unterschiedlichen Autoren größer sind als die zwischen den Werken eines Autors, sowie dass die Unterschiede zwischen den Werken eines Autors größer sind als die zwischen den Abschnitten eines Werkes.
Zwar bleibt als Fazit: Eine allgemeine Theorie der quantifizierenden Stilanalyse gibt es nicht. Doch liegt der Charme von formalen und statistischen Methoden darin, dass eben nicht subjektive oder inhaltliche Gründe (wie Motive, Stoffe oder Interpretationsvorschläge) über die untersuchten Hypothesen entscheiden, sondern empirische und nachprüfbare Daten den Ausschlag geben.
Die Literatur zu bislang durchgeführten statistischen Arbeiten zu Fragen unklarer Autorschaft oder der Werkdatierung zeigt: Es gibt keine Patentlösung bei der Auswahl der Untersuchungsmethode oder der zu untersuchenden Textmerkmale.[17] Viele Computerphilologen entwickeln eine eigene Methode, wenden sie an, und erklären, sie sei in der Lage, Antworten auf die untersuchte Fragestellung zu geben. Einigkeit, welche Verfahren am besten geeignet sind, herrscht nicht.[18]
Dieser Befund führt mich zu der These, dass es sinnvoll ist, Untersuchungen zu möglichst vielen Textmerkmalen durchzuführen. Zwar müssen die Textmerkmale, die Texte verschiedener Autoren voneinander unterscheiden, nicht unbedingt die gleichen Textmerkmale sein, die dazu geeignet sind, auch Unterschiede innerhalb einzelner Werke aufzudecken. Dennoch halte ich es für plausibel, anzunehmen, dass es – falls es sich bei beiden Textmerkmalen um unterschiedliche Mengen handelt – eine mehr oder weniger große Schnittmenge zwischen beiden gibt, da in jedem Fall stilistische Aspekte erfasst werden. Diese These wird von Joseph Rudman in seiner Bilanz bislang durchgeführter statistischer Untersuchungen zu Fragen unklarer Autorschaft bestätigt:
Many studies have compared a single style marker (or some small number of style markers) to a fingerprint – an authentication method considered infallible. However, one whorl or one loop is not sufficient for a positive identification. Also, there have been no practitioners who have claimed infallibility for their study [...] It is important to look at as many of the myriad style markers as possible – some markers will overlap with those of the controls and of the other suspects, but a matching pattern should emerge.[19]
Auf dieser Grundlage kann plausibel angenommen werden, dass ein Programmpaket, das eine Vielzahl an Textmerkmalen erfasst, ein geeignetes Instrument darstellt, um mittelhochdeutsche Texte mit statistischen Verfahren zu untersuchen. Ein weiterer Vorteil bei der gleichzeitigen Anwendung einer Vielzahl an Textmerkmalen liegt darin, dass so sofort offensichtlich wird, welche Merkmale Ergebnisse liefern – eventuell erwartete beziehungsweise erwünschte Ergebnisse –, und welche nicht. Rudman bezeichnet ›Cherry Picking‹ als unzulässig: Analyseergebnisse, die nicht die gewünschten Resultate liefern, dürfen nicht ignoriert werden.[20]
ErMaStat, Abkürzung für Erlanger-Mittelalter-Statistik, ist ein Instrument der Textanalyse für mittelhochdeutsche Texte. Mit ErMaStat ist es möglich, mittelhochdeutsche Versromane oder Ausschnitte aus ihnen in Hinblick auf statistische Unterschiede zu untersuchen. ErMaStat erfasst eine möglichst große Anzahl verschiedener Textmerkmale. Die Vielzahl der Textmerkmale reicht von einfachen quantitativen Merkmalen wie Wort- oder Satzlängen, über Vokal- und Konsonantenverteilungen, über Funktionswörter und einfache Stilmittel zu syntaktischen Phänomenen, zu lexikalischen Untersuchungen bis hin zu einer metrischen Analyse. Um die Auswertung der Ergebnisse zu erleichtern, fasse ich einander ähnliche Textmerkmale in Merkmalsgruppen zusammen. Im Folgenden gebe ich dazu einen knappen Überblick.[21]
Diese Merkmalsgruppe enthält durchschnittliche Zeilenlänge in Buchstaben, Silben und Wörtern. Weitere Detailwerte werden für unterschiedlich lange Wörter gebildet. Aus der Zahl der Silben und der Zahl der Buchstaben wird der Quotient Zeichen-pro-Silbe errechnet. Alle Satzzeichen werden gezählt. Satzzeichen sind Indikatoren; zum Beispiel für direkte Rede, für Ausrufe- und Fragesätze oder für die Neigung eines Textes zu Nebensätzen. Die durchschnittliche Satzlänge in Wörtern und in Zeichen wird ermittelt.[22]
Alle Vokale werden gezählt. Gruppenwerte[23] werden für alle Diphthonge, für alle Monophthonge, für kurze und lange sowie für helle und dunkle Vokale gebildet. Für alle Konsonanten wird ein Gesamtwert gebildet. Zudem wird der Gruppe der stimmlosen, ›harten‹ Plosive c k p t eine Gruppe der stimmhaften, ›weichen‹ Plosive g b d gegenübergestellt.
Hier werden Artikel, Pronomina, Negationswörter, Adverbialpronomina, Präpositionen und Konjunktionen gezählt.[24] Gruppenwerte werden gebildet für die Summe jeweils aller Negationen, Präpositionen, Konjunktionen, Adverbialpronomina, Artikel und Pronomina.
Bei den Negationen wird niht als Sonderfall betrachtet, da es zum Beispiel beim Parzival mehr als die Hälfte der Negationswörter ausmacht. Deshalb wird ein eigener Gruppenwert ›Negationen ohne niht‹ erhoben. Nicht erfasst werden können mit diesem Verfahren proklitisches en oder enklitisches ne, da zahlreiche Wörter mit en beginnen und auf ne enden können (Beispiele: ende, manne), ohne dass hier Enklise oder Proklise vorliegen. Ebenso wenig kann eine Aussage darüber getroffen werden, wie häufig Satz- oder Sondernegationen auftreten.
Konsonantische Alliterationen werden getrennt von
vokalischen Assonanzen erfasst. Zusätzlich werden in Anlehnung an die
Unterscheidung reiner/unreiner
Reim[25]
unreine Assonanzen in aufeinander folgenden Wörtern erfasst. Enjambements
werden gezählt. Dazu sucht das Programm nach Punkt, Frage- oder Ausrufezeichen, die nicht am
Zeilenende liegen. Steht kein Satzzeichen am Ende dieser Zeile, dann wird diese
Zeile als Zeile mit Enjambement gezählt (Beispiel: »der iu dienet. ob
ich kann« Parzival. 182, 26). Nicht zu den Enjambements gerechnet wird
dabei der Beginn direkter Rede nach Doppelpunkt und Anführungszeichen
(Beispiel: »er sprach: ›hân ich
werdekeit‹« Pz.
269, 4).
Wortendungen, die auf bestimmte grammatische Kategorien hindeuten, werden gezählt. So spricht das Suffix -lîch für das Vorliegen eines Adjektivs. Einsilbige Wörter werden nicht erfasst: Vor der Endung muss noch mindestens ein Vokal stehen. Freilich muss hinsichtlich der grammatischen Kategorie Ambivalenz in Kauf genommen werden: So steht die Endung -en unter anderem bei fast allen Formen in der schwachen Deklination, meist beim Dativ der starken Deklination sowie meist beim Infinitiv.
Ich erfasse zwei Wiederholungsindices: Erstens einen Wert ›Wiederholte Wörter‹, der die Anzahl der Wörter, die in 100 Zeilen mehr als einmal vorkommen, enthält; zweitens einen Wert ›Wortwiederholungen‹ in 100 Zeilen, der darüber Auskunft gibt, wie oft die Wörter, die mehr als einmal in 100 Zeilen vorkommen, wiederholt wurden. Während der Wert ›Wiederholte Wörter‹ Auskunft darüber gibt, wie viele einzelne Wörter es sind, die wiederholt werden, gibt der Wert ›Wortwiederholungen‹ an, wie oft wiederholte Wörter wiederholt werden; hier geht also auch ein, ob ein Wort dreimal oder zehnmal in 100 Zeilen vorkommt.
Unter der Type-token-Ratio versteht man den Quotienten aus der Größe des Vokabulars – also aus der Anzahl der verschiedenen Wörter – und der Gesamtzahl der Wörter in einem Text. Sowohl bei der Type-Token-Ratio als auch bei den Hapax Legomena wird angenommen, dass sie Indikatoren für lexikalischen Reichtum sind; beide Parameter sind also ein Variationsindex für das Vokabular eines Textes.[26] Bei meinen Tests während der Programmentwicklung sah ich die These eindrucksvoll bestätigt, dass sowohl die Häufigkeit der einmal vorkommenden Wörter als auch die Type-Token-Ratio von der Textlänge abhängig ist.[27] Um dieser Problematik gerecht zu werden, erhebe ich die Type-Token-Ratio nur für gleich lange Textstücke. ErMaStat prüft, wie viele Wörter das kürzeste Textsegment enthält. Enthält zum Beispiel das kürzeste Textsegment 25.000 Wörter, so werden für die anderen Vergleichstexte nur ihre jeweils ersten 25.000 Wörter untersucht, die übrigen Wörter bleiben unberücksichtigt. Neben der allgemeinen Type-Token-Ratio erfasse ich noch eine differenzierte Type-Token-Ratio, die die Funktionswörter ausblendet. Die Erhebung des differenzierten Wertes ist sinnvoll, da Verben, Substantive, Adjektive und Adverbien in größerem Maße Träger von Textsinn als die Funktionswörter sind.
Passivkonstruktionen bestehen aus einem Wort mit dem Präfix ge, ver, er sowie einer Flexionsform von sîn oder werden. Wenn sowohl Vorsilbe als auch Hilfsverb in der gleichen Zeile auftreten und keine Satzzeichen zwischen beiden stehen, wird diese Erscheinung gezählt. Freilich werden dabei nicht nur Passivkonstruktionen, sondern auch das umschriebene Perfekt und Plusquamperfekt erfasst. Diese Konstruktionen haben über die beschriebenen formalen Merkmale hinaus noch eine Gemeinsamkeit: Sätze, die solche Konstruktionen enthalten, sind stärker markiert als beispielsweise Sätze im Indikativ Präsens Aktiv. [28] Da es Wörter gibt, bei denen der Stamm mit er-, ge- oder ver- beginnt (zum Beispiel »ûz verrem lande« Pz. 65, 26), wird eine Wortliste hinzugezogen, damit hier nicht irrtümlich eine Vorsilbe erkannt wird.
Erkannt werden nicht alle, aber wohl doch die meisten Passivkonstruktionen (zum Beispiel Pz. 6, 28 »dâ wesen beide von genant«). Gewisse Fehler treten auf, wenn Hilfsverb und Partizip nicht in der gleichen Zeile stehen (Pz. 1, 3-4 »gesmæhet unde gezieret/ ist«). Probleme bereiten die Homonyme sîn und sît, die auch Präposition, Konjunktion oder Pronomen sein können. Da sîn und sît seltener als Verbalformen auftreten als als Präposition, Konjunktion oder Pronomen, wurde darauf verzichtet, die Kombination von Vorsilbe mit sîn und sît zu erfassen. Da diese Fehler jedoch bei allen Suchläufen relativ gleichermaßen auftreten dürften, bleiben die vergleichenden Zahlen dennoch aussagekräftig.
Alle Wörter, die häufiger als 0,1% in Bezug auf die Gesamtzahl aller Wörter in den untersuchten Texten vorkommen, werden gezählt; für die Summe aller häufigen Wörter wird ein Gruppenwert gebildet.
Für alle Wörter, die häufiger als 0,05% sind, wird nach allen möglichen Zweiwortkombinationen gesucht. Hier – sowie bei der Zählung der häufigen Wörter (8) – wird jeweils ein rudimentärer Flexionsabgleich[29] verwendet. Die Ergebnisse zeigen, dass bei diesem Wert besonders oft Kombinationen gefunden werden, in denen Artikel, Pronomina, Konjunktionen und Präpositionen miteinander kombiniert sind. daz er und und der sind besonders häufig; typische Beispiele mit Beteiligung von Verben beziehungsweise Substantiven sind dô sprach oder der künec. Ich nehme an, dass dieser Wert darüber Auskunft gibt, wie stark ein Textsegment zu formelhaften Wendungen neigt.
Die grundsätzlichen Probleme bei einer Automatisierung der metrischen Analyse liegen darin, dass Literaturwissenschaftler bei der manuellen Analyse zum einen über Sprachkompetenz und Textverständnis verfügen, zum anderen sind ihnen Interpretationsspielräume möglich, die sich etwa aus unterschiedlichen metrischen Schulen oder aus unterschiedlicher Textinterpretation ergeben können. Nicht selten kommen zwei metrische Analysen zu zwei verschiedenen Ergebnissen, die beide sinnvoll sein können.[30] Von einem Computer kann kein Textverständnis oder gar ein Interpretationsvorschlag erwartet werden. Wenn das vom Computer ermittelte Ergebnis nicht offensichtlich falsch ist, wird es für die Zwecke der Vergleichbarkeit zweier Texte akzeptiert. Das Ergebnis dieses Versuches scheint mir, vor allem gemessen an den grundsätzlichen Problemen und Schwierigkeiten eines solchen Unterfangens, zumindest befriedigend zu sein: Es gelingt, etwa 97% der betonten Silben richtig zu erkennen.
Da in der Forschungsliteratur keine Entscheidungsbäume oder klare Regelsysteme zu finden sind, welche Silben betont und unbetont sind, war ich darauf angewiesen, verschiedene Einzelregeln zu finden, und zu überlegen, in welcher Hierarchie sie zu einander stehen. Nach der Fertigstellung des Grobgerüsts, das zunächst Grundregeln wie Erstsilbenbetonung, Zweitsilbenbetonung bei Vorsilbe und Alternierung enthielt, war ich darauf angewiesen, mittels ›trial and error‹ einzelne Regeln zu erproben. Je nach Erfolg des Programms wurden einzelne Regeln als mehr oder weniger brauchbar erkannt, und aus den Fehlern, die in der Testphase aufgefallen waren, ließen sich wiederum weitere Beobachtungen machen, die als weitere Regeln ausprobiert werden konnten. Die Annahmebedingung für eine neue Regel lautete: Sie muss wesentlich mehr Fehler beseitigen als neue verursachen. Das Ergebnis ist ein Algorithmus, der aus über 50 Einzelregeln besteht. Zahlreiche Ergebnisdaten werden erhoben, angefangen von verschiedenen Reimvokalen über Alternierungsindikatoren bis hin zur Kadenzanalyse.[31]
Die Ergebniswerte können nur aus den angewandten Untersuchungskriterien resultieren; auch wenn dabei Fehler auftreten können, wenn zum Beispiel eine tatsächlich klingende Kadenz als volle Kadenz analysiert wird, treten diese Probleme gleichermaßen bei allen untersuchten Textdateien auf. Da verschiedene Textdateien nach den gleichen Analysemustern verglichen werden, heben sich diese Fehler gegenseitig auf, so dass eine vergleichende Analyse nicht beeinflusst wird.[32]
In ErMaStat wird die Häufigkeit der jeweiligen Textmerkmale ermittelt. Um die Frage beantworten zu können, ob die Unterschiede bei einem Textmerkmal zwischen zwei Texten signifikant sind, wird ein statistisches Prüfverfahren angewandt. Als Testverfahren wurde der Wilcoxon-White-Test für unabhängige Stichproben gewählt, ein nicht-parametrisches Prüfverfahren auf dem Rangskalenniveau.[33] Wie in der Prüfstatistik üblich, formuliere ich eine sogenannte Nullhypothese. Sie besagt, dass die Unterschiede durch den Zufall bedingt sind. Die Unterschiede sind signifikant, wenn die Nullhypothese durch das Prüfverfahren mit einer Wahrscheinlichkeit von mindestens 95% zurückgewiesen werden kann.[34]
ErMaStat vergleicht zwei oder mehr Textdateien miteinander und prüft bei jedem Textmerkmal und bei jedem Textvergleich, ob die Unterschiede signifikant sind. Ausgegeben werden absolute Werte (zum Beispiel Kommata in Datei-1 und Datei-2), relative Werte (zum Beispiel Kommata pro Zeile in Datei-1 und Datei-2) sowie Signifikanzwerte, die angeben, wie hoch die Wahrscheinlichkeit ist, dass die Unterschiede (zum Beispiel zwischen Datei-1 und Datei-2) nicht durch den Zufall bedingt sind.
In der Regel werden über 500 einzelne Textmerkmale erfasst. Die Zahl schwankt, da etwa die Zahl der ›häufigen Wörter‹, als Wörter, die häufiger als 0,1% in Bezug auf die Gesamtzahl aller Wörter vorkommen, von Text zu Text variiert. Aufgrund der Menge der Ergebnisdaten ist es ein Gebot der Ökonomie, einzelne Textmerkmale zu Merkmalsgruppen zusammenzufassen und Übersichtswerte zu bilden.
So werden als Gruppenwerte die Werte zusammengefasst, die der Anwender für besonders wichtig erachtet, und Werte, die mehrere gleichartige Einzelwerte in ihrer Summe repräsentieren. So werden für alle einzeln definierten Präpositionen jeweils Signifikanztests durchgeführt, aber auch für die Gesamtsumme aller Präpositionen. Die Werte für die einzelnen Präpositionen gehen nicht in die ›Gruppenwerte‹ ein, die Summe aller Präpositionen (›Alle Präpositionen‹) hingegen schon. Die Übersichtstabellen zu den Merkmalsgruppen werden ein zweites Mal für die jeweiligen ›Gruppenwerte‹ ausgegeben. In diesen Übersichten ist sichergestellt, dass die zahlreichen Einzelwerte nicht die wirklich wichtigen Ergebnisse überlagern. So kann es bei den Daten der metrischen Analyse zum Beispiel 112 Einzelwerte geben, davon können beispielsweise 26 Einzelwerte ›Reimvokale‹ und 65 Einzelwerte ›Metrische Verteilungsmuster‹ sein. Bei der Übersicht Metrik-Gruppenwerte sind diese Einzelwerte ausgeblendet, wichtigere Daten wie der Kadenztyp (zum Beispiel der Wert ›Klingende Kadenzen‹) kommen hier eher zur Geltung. Bei der Beurteilung der Ergebnisse ist entscheidend, bei wie viel Prozent der durchgeführten statistischen Einzelvergleiche tatsächlich signifikante Unterschiede vorliegen.
Eine erste Untersuchung habe ich zu den Romanen Parzival, Tristan, Wigalois und Willehalm durchgeführt. ErMaStat zeigt hier sehr große Unterschiede zwischen den Werken auf, Parzival und Willehalm liegen etwas näher beieinander als die übrigen Texte.[35] Das Programmpaket ist offensichtlich sehr gut dazu in der Lage, Texte verschiedener Autoren voneinander zu unterscheiden.
Gesamtübersicht:
Übersicht zu den Merkmalsgruppen:
Vergleich für Text |
Parzival- |
Wigalois- |
Tristan- |
Parzival- |
Wigalois- |
Parzival- |
Wort-, Zeilen- und Satzlängen, Satzzeichen |
84% |
76.01% |
84% |
88.01% |
92% |
68.01% |
Vokal- und Konsonantenverteilung |
76.74% |
65.12% |
69.77% |
86.05% |
67.44% |
58.14% |
Funktionswörter |
37.13% |
36.53% |
50.3% |
50.9% |
34.73% |
24.56% |
Alliterationen, Assonanzen und Enjambements |
20% |
60.01% |
80.01% |
80.01% |
60.01% |
80.01% |
Wortendungen |
47.06% |
52.94% |
64.71% |
41.18% |
64.71% |
47.06% |
Wiederholungsindices, Type-Token-Ratio |
75.01% |
100% |
100% |
100% |
100% |
50.01% |
Kombination Vorsilbe-Hilfsverb |
42.86% |
28.57% |
57.14% |
57.14% |
28.57% |
0% |
Häufige Wörter |
59.63% |
58.72% |
72.48% |
69.72% |
53.21% |
44.95% |
Kombinationen aus zwei Wörtern |
36.11% |
44.44% |
44.44% |
41.67% |
41.67% |
11.11% |
Metrik |
43% |
50.01% |
56.01% |
63% |
38.01% |
28.01% |
Erläuterung zu den Tabellen: In der ersten Tabellenzeile steht die Angabe, welche Texte in der jeweiligen Spalte miteinander verglichen werden. Die Prozentzahlen in der Spalte geben an, wie hoch der Prozentsatz der signifikanten Unterschiede von den möglichen signifikanten Unterschieden ist.
Beispiel: In der zweiten Spalte finden sich die Werte, die sich bei einem Vergleich von Parzival mit Wigalois ergeben. Bei der Merkmalsgruppe ›Wort-, Zeilen- und Satzlängen, Satzzeichen‹ werden 25 einzelne Textmerkmale untersucht, es gibt also 25 mögliche Signifikanzwerte. Davon sind 21 Unterschiede signifikant (bei α= 95%). Das führt zu der hier dargestellten Angabe: Bei 84% der durchgeführten Vergleiche sind tatsächlich signifikante Unterschiede vorhanden.
Seit über einhundert Jahren versucht die altgermanistische Forschung, die Frage zu klären, ob die Vorgeschichte zu Wolfram von Eschenbachs Parzival am Beginn der Arbeit des Dichters am Text stand, oder ob die Kapitel, die von den Abenteuern von Parzivals Vater handeln, erst nach Abschluss der eigentlichen Jugendgeschichte des Titelhelden entstanden sind. Unbestritten ist, dass Wolfram bei der Abfassung von Parzivals Abenteuern in den Büchern III-VI den Conte du graal Chrétiens zumindest kannte. Das Fehlen einer solchen Vorlage für die Gahmuret-Handlung hat jedoch zu der Frage geführt, ob die Bücherfolge im Parzival der Chronologie seiner Entstehung entspricht, oder ob Wolfram, Chrétien folgend, mit Buch III begonnen und die Vorgeschichte erst nachträglich hinzugefügt hat.
Elisabeth Karg-Gasterstädt hat in ihrer Dissertation 1925 die Frage der Priorität der Bücher III-VI untersucht. Mit ihren rhythmisch-melodischen Studien, die auf der Schallanalyse nach Eduard Sievers[36] beruhen, bemühte sie sich, »zunächst von allen Regeln und logischen Erwägungen abstrahierend, ... ganz in den Text einzudringen und ihn möglichst so vorzutragen, wie Wolfram selbst ihn gelesen haben wollte«.[37] Bei ihren Leseversuchen kam Karg-Gasterstädt zu dem Ergebnis, dass man es im Parzival nicht mit einer einheitlichen Lesart, sondern mit vier in Bezug auf ihren rhythmisch-melodischen Bau ganz verschiedenen Typen zu tun habe. Die Verteilung dieser vier Typen über den Parzivaltext ermöglicht Karg-Gasterstädt zunächst die These der Verschiedenartigkeit unterschiedlicher Parzival-Abschnitte und sodann eine These über Reihenfolge der Entstehung des Parzival.[38]
Die Studien von Karg-Gasterstädt konnten bislang kaum nachvollzogen werden[39], da Karg-Gasterstädt bei ihrer Analyse des Parzivaltextes in vier Schalltypen keine eindeutigen Klassifikationsmerkmale nennt, sondern mit Metaphern und Analogien arbeitet. So beschreibt sie Typ 1 mit Vokabeln wie ›Lebhaftigkeit‹, ›tiefe Tonlage gleich einem Cello‹, ›Tonkurve in Zickzackbewegungen‹ oder ›rhythmische Ausdrucksbewegung in großen Bögen‹. Dennoch haben sie in der Forschungsliteratur zur Entstehungsgeschichte des Parzival noch lange verschiedenen Autoren als offenbar objektive Begründung ihrer Theorien und Folgerungen gedient, da sie »ohne Rücksicht auf inhaltliche Bezüge zunächst nur im Hinblick auf die Betrachtung der Form vorgenommen wurden«.[40] Andere Autoren sind aufgrund anderer Überlegungen zu dem gleichen Ergebnis gelangt wie Karg-Gasterstädt in ihrer Dissertation: Die beiden Eingangsbücher des Parzival seien, so die weit verbreitete Überzeugung, erst nach den Büchern III-VI entstanden.[41]
Es ist heute nicht mehr möglich, mit Hilfe der Beschreibungen von Karg-Gasterstädt die Verse im Parzival den Typen 1-4 zuzuordnen. Die textstatistische Untersuchung wird durch den Anhang von Karg-Gasterstädt ermöglicht: Hier ist festgehalten, welcher Vers welchem Schalltyp angehört. Meine vergleichenden Untersuchungen können allerdings zeigen, dass die statistischen Unterschiede zwischen den Schalltypen deutlich größer sind als Unterschiede zwischen jeweils zwei zu einer Büchergruppe zusammengenommenen Parzival-Büchern. Vergleicht man die Unterschiede zwischen der herkömmlichen Textanordnung in Büchergruppen mit denen der Schalltypen, so zeigt sich: Von allen möglichen Signifikanztests sind bei den Schalltypen 14,9% signifikant, nur 10,4% bei den Büchergruppen.
Unterschiede zwischen den Schalltypen:
Vergleich für Textsegment: |
Typ 1- Typ 2 |
Typ 2- Typ 3 |
Typ 1- Typ 3 |
Gesamt |
Signifikanzwerte >95% in % |
11.65% |
16.81% |
16.27% |
14.91% |
Unterschiede zwischen den Büchergruppen (BG):
Vergleich für Textsegment: |
BG1-BG2 |
BG2-BG3 |
BG3-BG4 |
BG1-BG3 |
BG2-BG4 |
BG1-BG4 |
Gesamt |
entspricht Text |
Buch1/2 -Buch3/4 |
Buch3/4 -Buch5/6 |
Buch5/6 -Buch7/8 |
Buch1/2 -Buch5/6 |
Buch3/4 -Buch7/8 |
Buch1/2 –Buch7/8 |
|
Signifikanzwerte >95% in % |
7.76% |
7.02% |
9.98% |
11.47% |
12.75% |
13.68% |
10.44% |
Bei den besonders wichtigen Werten, bei der Metrik und bei den Gruppenwerten ist dieser Befund noch deutlicher: 33,3% (Schalltypen) gegenüber 17,7% (Büchergruppen).[42] Die Zahlen belegen, dass der Text der jeweiligen Schalltypen signifikantere Textmerkmale als der nach Büchern sortierte Text aufweist. Die Zahlen lassen den Schluss zu, dass der Text der jeweiligen Schalltypen signifikantere Textmerkmale als der nach Büchern sortierte Text aufweist, in denen diese Schalltypen die ›Hauptmasse‹ bilden. Würde man annehmen, dass die Entscheidung von Karg-Gasterstädt, welche Zeile welchem Schalltyp zuzuordnen ist, nicht aufgrund unterschiedlicher Textmerkmale, sondern aufgrund des Zufalls erfolgt ist, so wäre zu erwarten, dass die Unterschiede zwischen den Schalltypen geringer wären als die zwischen den Büchergruppen, da der Text der Schalltypen aus unterschiedlichen Büchergruppen stammt und somit eine Nivellierung zu erwarten wäre. Das ist jedoch nicht der Fall: Karg-Gasterstädt war offensichtlich in der Lage, Zeilen mit unterschiedlichen Merkmalen unterschiedlichen Schalltypen zuzuordnen.
Wenn man jedoch annimmt, dass der Text, den Karg-Gasterstädt den vier Schalltypen zuordnet, jeweils unterschiedliche Merkmale aufweist, dann liegt es nahe, auch anzuerkennen, dass die so betriebene Schallanalyse tatsächlich – wie auch immer – greifbare Ergebnisse hervorgebracht hat. Daraus kann zwar nicht zwingend gefolgert werden, dass die Schallanalyse vier verschiedene Textschichten entdeckt hat, doch werden solche Überlegungen auf dieser Basis deutlich plausibler – zumal sich die Hauptkritik in der Rezeption der rhythmisch-melodischen Studien weniger gegen die weiteren Überlegungen von Karg-Gasterstädt als gegen die Schallanalyse selbst richtet. Erkennt man jedoch weiter an, dass die vier Schalltypen vier unterschiedliche Textschichten enthalten, dann muss man auch den Hypothesen von Karg-Gasterstädt bezüglich der Entstehungsreihenfolge Plausibilität beimessen: Die These der Priorität der Bücher III-VI gewinnt somit durch die hier durchgeführten textstatistischen Untersuchungen erheblich an Gewicht – mit allen möglichen Konsequenzen.[43]
Aus dem statistischen Blickwinkel ist diese Untersuchung recht dankbar: Da zweimal der gleiche Text in anderer Anordnung miteinander verglichen werden konnte, steht man hier nicht vor dem Problem, mit einem Stück Unsicherheit etwa konstatieren zu müssen: Diese Ergebnisse sind vermutlich hoch genug, um die Fragestellung zu stützen. Vielmehr bieten die Unterschiede zwischen Schalltypen und Büchergruppen die Möglichkeit, festzuhalten: Die Unterschiede bei den Schalltypen sind deutlich größer. Die Frage nach der Entstehung des Parzival kann auch nach meinen Untersuchungen nicht mit letzter Sicherheit beantwortet werden.[44] Allerdings gewinnen die schallanalytischen Studien erheblich an Gewicht.
In seinen sprachlich-stilistischen Untersuchungen beobachtet Konrad Zwierzina für die ersten 1000 Iwein-Verse eine weniger ausgefeilte Reimtechnik als beim übrigen Iwein und einige weitere Unterschiede, zum Beispiel beim Wortschatz;[45] Arnold Schirokauer vermutet eine Arbeitspause zwischen den ersten 1000 und den übrigen Iwein-Versen.[46] Auf dieser Grundlage setzt Werner Schröder übereinstimmend mit Schirokauer die Datierung der ersten 1000 Verse unmittelbar nach der Arbeit Hartmanns am Erec an, die übrigen Verse habe Hartmann erst nach dem Armen Heinrich verfasst.[47]
Bei einer statistischen Prüfung einer möglichen Frühdatierung der ersten 1000 Iwein-Verse wäre zu erwarten, dass deutliche Unterschiede zwischen diesen Versen und dem übrigen Iwein zu finden sind. Gleichzeitig müssten die Unterschiede zwischen diesen Versen und dem Erec kleiner sein, als die Unterschiede des übrigen Iwein zum Erec.[48] Hier soll untersucht werden, ob diese Fragestellungen mit ErMaStat nachvollzogen werden können. Dazu wird der Text in folgende Abschnitte segmentiert:
IWEIN 1: Vers 1-1000
IWEIN 2: Vers 1001-Romanende
IWEIN 3: Vers 1001-5000
IWEIN 4: Vers 5001-Romanende
IWEIN 5: vollständiger Text des Erec
Die Fragestellung ist, ob (A) die Unterschiede zwischen IWEIN 1 und IWEIN 2 so groß sind, dass die Beobachtung Schröders nachvollzogen werden kann, und ob (B) die Unterschiede zwischen IWEIN 1 und IWEIN 5 geringer sind als die Unterschiede zwischen jeweils IWEIN 2 zu IWEIN 5, IWEIN 3 zu IWEIN 5 sowie IWEIN 4 zu IWEIN 5.
Vergleich für Textsegment: |
entspricht Text |
Signifikanzwerte >95% in % |
IWEIN 1 - IWEIN 2 |
Iw.1-1000~ Iw.1001-Ende |
7.37% |
IWEIN 2 - IWEIN 3 |
Iw.1001-Ende~ Iw.1001-5000 |
0% |
IWEIN 3 - IWEIN 4 |
Iw.1001-5000~ Iw.5001-Ende |
7.18% |
IWEIN 4 - IWEIN 5 |
Iw.5001-Ende~ Erec |
26.93% |
IWEIN 1 - IWEIN 3 |
Iw.1-1000~ Iw.1001-5000 |
6.82% |
IWEIN 1 - IWEIN 4 |
Iw.1-1000~ Iw.5001 |
7% |
IWEIN 1 - IWEIN 5 |
Iw.1-1000~ Erec |
15.27% |
IWEIN 2 - IWEIN 4 |
Iw.1001-Ende~ Iw.5001 |
0.36% |
IWEIN 2 - IWEIN 5 |
Iw.1001-Ende~ Erec |
32.5% |
IWEIN 3 - IWEIN 5 |
Iw.1001~ Erec |
26.76% |
Die Summenwerte zeigen:
Die Unterschiede zwischen IWEIN 1-IWEIN2, also Iw. 1-1000 und dem übrigen Iwein liegen bei 7,4%, also in einer vergleichbaren Größenordnung wie die Büchergruppen 1-2 und 2-3 des Parzival. Die Unterschiede von IWEIN 1 zu IWEIN 3 und von IWEIN 1 zu IWEIN 4, also von Iw. 1-1000 zu Iw. 1001-5000 und Iw. 1-1000 zu Iw. 5001-8166 liegen mit 10,3% und 14,7% ebenfalls relativ hoch. Sie sind insgesamt größer als die übrigen Unterschiede innerhalb des Iwein (vor allem relevant IWEIN 3-4, also zwischen Iw. 1001-5000 und Iw. 5001-8166: 7,2%). Die Fragestellung (A) kann vorsichtig positiv beantwortet werden.
Die Unterschiede zwischen dem Erec (IWEIN 5) und den ersten 1000 Iwein-Versen (IWEIN 1) sind mit 15,3% erheblich geringer als die zwischen den übrigen Iwein-Versen und dem Erec (IWEIN 2-Erec: 32,5%, IWEIN 3-Erec: 26,8%, IWEIN 4-Erec: 27,0%). Die Fragestellung (B) kann klar positiv beantwortet werden.
Diese Ergebnisse untermauern die Frühdatierung der ersten 1000 Iwein-Verse, zumindest sprechen die Zahlen für ihre Nähe zum Erec.
Mit ErMaStat habe ich in der germanistischen Mediävistik Neuland betreten. Erstmals wird für philologische Fragestellungen ein Programmpaket vorgestellt, in dem die Erfassung einer großen Zahl verschiedenster Textmerkmale und die Auswertung der gewonnenen Daten durch ein statistisches Prüfverfahren in einem einzigen Programmpaket integriert sind. ErMaStat kann auf eine große Zahl von mittelhochdeutschen Texten in vierhebiger Reimzeile angewendet werden.
Der Reiz, der von quantifizierenden Verfahren ausgeht, liegt in der intersubjektiven Nachvollziehbarkeit: Korrekt erhobene Zahlen kann man kaum anzweifeln, allenfalls kann man ihre Bewertung in Frage stellen. Freilich können statistische Erhebungen die hermeneutische Tätigkeit des Philologen nicht ersetzen, noch erreichen sie je den Charme einer geglückten Interpretation. Sie können aber eine Entscheidungshilfe bei Streitfragen sein, bei denen durch traditionelle Forschung anders keine Einigkeit zu erzielen ist.
Der Schwerpunkt dieser Arbeit liegt auf der Relevanz nicht der mathematischen, sondern der philologischen Kompetenz – das kommt insbesondere in der automatischen metrischen Analyse zum Ausdruck. In ErMaStat geht es nicht um das bloße Analysieren beliebiger Musterstrukturen mit multivariaten statistischen Methoden, sondern um die Untersuchung einer Vielzahl konkreter Texteigenschaften. Mit ErMaStat werden Computer und Statistik in den Dienst der Philologie gestellt. Es geht hier nicht um eine weitere Ausbreitung des Herrschaftsbereichs der Informatik und der Statistik, sondern darum, den Computer als wertvolles Hilfsmittel für Fragestellungen einzusetzen, die der Literaturwissenschaftler formuliert.
Friedrich Michael Dimpel (Erlangen)
Dr. Friedrich Michael Dimpel
Universität Erlangen-Nürnberg, Haus B
Bismarckstraße 1
D-91054 Erlangen
fhdimpel@phil.uni-erlangen.de
(23. November 2004)
Text
|
Pz. 1-4,10
|
Pz. 1-34,10
|
Pz. 1-167,20
|
Pz. gesamt
|
Zeilenzahl
|
100
|
1000
|
5000
|
24812
|
Types
|
298
|
1377
|
3471
|
8054
|
Token
|
528
|
5266
|
26520
|
130724
|
Ratio
|
0,5644
|
0,2615
|
0,1309
|
0,0616
|