Friedrich M. Dimpel: Textstatistische Analysen an mittelhochdeutschen Texten

The following paper offers an introduction to a set of programs called ErMaStat, which is an instrument for textual analysis of Middle High German rhymed epics. With the help of ErMaStat, texts can be analysed with respect to statistical differences, for example in the case of uncertain authorship or if the relative chronology of works of one author is unclear. ErMaStat is the first set of programs in the area of German Medieval Studies which makes it possible to record a large number of different textual features automatically and without any manual input, and subsequently carries out a statistical analysis. The scope of the textual features that can be examined is wide: It ranges from simple quantitative features such as words per line, function words and grammatical phenomena to an automatic analysis of meter. The power of ErMaStat is demonstrated on a number of scholarly issues in German Medieval Literature. It can be shown that the results of the so-called ›schallanalytische Untersuchungen‹ practised by Elisabeth Karg-Gasterstädt are more plausible than hitherto assumed. Another result is that statistical evidence can be presented for the theory that the first thousand lines of Hartmann von Aue's Iwein were written immediately after Hartmann had finished Erec.

Im Rahmen meiner Dissertation über Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten habe ich das Programmpaket ErMaStat entwickelt und dokumentiert, ein Instrument der Textanalyse für mittelhochdeutsche Versromane. Mit ihm können Texte in Hinblick auf statistische Unterschiede untersucht werden, etwa bei Fragen unklarer Autorschaft oder der Chronologie innerhalb des Werks eines Autors. Mit ErMaStat wurde erstmals in der germanistischen Mediävistik ein Programmpaket vorgestellt, das eine Vielzahl von Textmerkmalen automatisch erfasst und statistisch auswertet. Die Bandbreite der untersuchten Textmerkmale ist groß: Sie bewegt sich von einfachen quantitativen Merkmalen wie Wörtern pro Zeile über Funktionswörter und grammatikalische Phänomene bis hin zu einer automatischen metrischen Analyse. Im Folgenden will ich das Programmpaket vorstellen und die wichtigsten Ergebnisse diskutieren.[1]

Die Problematik statistischer Stiluntersuchungen

Wann immer man versucht, sich literaturwissenschaftlichen Fragestellungen mit quantifizierenden Verfahren zu nähern, so muss man dabei voraussetzen, dass Texte von unterschiedlichen Autoren (oder unterschiedlicher Schaffensperioden eines Autors) bestimmte unterscheidende Merkmale auf phonologischer, morphologischer, lexikalischer und syntaktischer Ebene aufweisen, die sich quantitativ erfassen lassen. Diese Voraussetzung ist nicht unproblematisch; der Einsatz quantifizierender Verfahren und die Relevanz ihrer Ergebnisse sind nicht unumstritten.[2]

Willie van Peer hat auf die Grundlagenprobleme bei statistischen Arbeiten hingewiesen: Es sei problematisch, einen Text auf Zahlen zu reduzieren, da dabei sein »essentially process-like character« verloren gehen müsse.[3] Stilistische Merkmale quantitativ zu erfassen sei schwierig: Wie will man einem Computer beibringen, Textmerkmale wie Metapher, Ironie, Hyperbel oder Paradoxon zu erfassen? Wie will man die Bedeutung eines Wortes erfassen, das in einem übertragenen Sinn gebraucht wird? »As is well known, a whale is not always simply a whale in a novel, but may develop into something which was quite unpredictable from it’s known biological properties.«[4]

Es müsse bedacht werden, dass Wörter verschiedene Bedeutungen und Konnotationen in verschiedenen Werken oder bei verschiedenen Autoren haben. Ergebnisse von statistischen Tests, die mit einer Wahrscheinlichkeit von 95% und einer endlichen Zahl linguistischer Variablen herausfinden können, dass ein Werk zu einem von zwei stilistischen Systemen gehört, seien mit Vorsicht zu genießen. Direkte Rückschlüsse auf die Art des stilistischen Systems seien – so van Peer – nicht erlaubt, da es ja auch möglich sei, dass ein Autor eine bestimmte Stilebene beispielsweise ironisch zitiere; eine quantitative Analyse könne das aber kaum erkennen.

Louis Milic konstatiert, die Forschung habe zwar zahlreiche praktische statistische Arbeiten hervorgebracht. Doch die theoretische Grundannahme, Stil sei messbar, sei nicht bewiesen worden, noch sei die Grundfrage beantwort: »is there such a thing as style and where is it located?«.[5] Seit Plato ist – so Milic – diese Frage immer wieder anders beantwortet worden. Die in der Romantik entwickelte Auffassung, nur individueller Stil sei gut und reflektiere den Autor und manchmal seine Umwelt, sei bis heute die nachhaltigste. Diese Theorie wurde ausgebaut um die Annahme, der Stil eines Autors habe eine Beziehung zu seiner Persönlichkeit, und ein ›reifer‹ Stil sei stabil. Diese ›Basistheorie‹ bilde, oft unausgesprochen, die Grundlage für zahlreiche statistische Untersuchungen. Es blieben Fragen offen: ›Hat‹ ein Autor nur einen Stil? Kann er ihn willkürlich ändern? Doch hat die computergestützte Stilforschung keine Alternative, denn:

If a writer’s style is not individual, if it is at any given time different from what it was the day before and will be different the next day, if it has no individual stability, how can it be analyzed and what can be the point of reaching conclusions about it?[6]

Allerdings stelle sich dieses Problem auch bei der konventionellen philologischen Forschung, wenn sie annehme, eine Stilanalyse könne bei Interpretations-, Datierungs- oder Urheberschaftsfragen helfen.[7]

Das Problem der unzureichenden theoretischen Grundlagen wird auch mit einem Blick auf die Terminologie sichtbar. In Anlehnung an die englischsprachige Forschungsliteratur – dort wird von ›stylometry‹ gesprochen – nennt Fotis Jannidis in seinem Aufsatz Was ist Computerphilologie? die Methode der quantitativen Textuntersuchung »computergestützte Stilanalyse (Stylometrie)«.[8] Bei der Verwendung des Begriffs ›Stilanalyse‹ stellt sich jedoch die Frage, ob das Messen quantifizierbarer Texteigenschaften diesem Begriff gerecht wird:

Dabei braucht das (Proto-)Typische sich nicht unbedingt in hohen statistischen Werten belegen zu lassen, was z.B. leicht möglich ist bei Zählungen im Merkmalsbereich Satzlänge, Satzformen, Wortarten, Wortbildungsmodelle, Stilfiguren o.ä. [...]. Oft bilden nicht Merkmale, die gegenüber anderen Merkmalen besonders häufig auftreten (z.B. eine bestimmte Wortart gegenüber einer bestimmten Stilfigur), die Grundlage für das Erkennen eines Individualstils, sondern Merkmale – auch wenn sie statistisch in vergleichsweise geringer Frequenz vorkommen – mit besonderer Signalwirkung.[9]

Gerade in Anbetracht der Vielzahl der Definitionen des Begriffs ›Stil‹[10] halte ich es eher für empfehlenswert, davon sprechen, dass quantifizierende Methoden nur eine Teilmenge dessen erfassen können, was unter diesem Begriff verstanden werden kann. Daher scheint es mir auch angemessener – weil unproblematischer – zu sein, von ›computergestützten textstatistischen Untersuchungen‹ anstelle von ›computergestützter Stilanalyse‹ zu sprechen.

Das gilt auch für das einzelne Untersuchungsobjekt: Während die englischsprachige Forschungsliteratur teilweise von ›style markers‹ spricht[11], scheint es mir in Anlehnung an Jannidis[12] geeigneter zu sein, den neutraleren Begriff ›Textmerkmale‹ vorzuziehen. Ein weiteres Problem bei der Verwendung des Begriffs ›style marker‹ ist, dass damit die Frage aufgeworfen wird, ob der Begriff impliziert, dass alle Stileigenschaften sinnvoll quantifiziert werden können. Diese Problematik wird durch die Verwendung von ›Textmerkmal‹ umgangen. Das gilt umso mehr, als es schwierig ist, bei einem einzelnen Textmerkmal zu bestimmen, ob sein Vorkommen in unterschiedlichen Texten eher Ausdruck von Individual- oder Werkstil, von Bereichs- oder Gruppenstil, von Textsorten- oder Zeitstil sein kann.[13]

Ich halte es nicht für notwendig, eine bestimmte Stildefinition für meine textstatistischen Untersuchungen zu geben. Der Computerphilologe steht hier offensichtlich vor dem gleichen Problem wie der Intelligenzforscher, der oft genug im Rahmen von Intelligenztests ›Intelligenz‹ als das definiert, was in diesem Test gemessen werden kann. Es mag bezeichnend für das Grundlagenproblem der ›stylometry‹ sein, wenn mitunter am Beginn einschlägiger Untersuchungen ähnlich anmutende Definitionen stehen: »The Stylometrist therefore looks for a unit of counting which translates accurately the ›style‹ of the text, where we may define ›style‹ as a set of measurable patterns which may be unique to an author.«[14]

Der praktischen textstatistischen Forschung ist es inzwischen gelungen, zu demonstrieren, dass bei bestimmten Textgruppen mit quantifizierenden Untersuchungen Erfolge erzielt werden können. So sind offenbar bestimmte Textmerkmale ziemlich zuverlässig dazu geeignet, Texte verschiedener Autoren signifikant voneinander zu unterscheiden – ein empirisches Argument, das zwar für die Leistungsfähigkeit statistischer Untersuchungen spricht, das aber freilich keine theoretische Grundlage darstellt.[15]

Vor diesem Hintergrund scheint es opportun zu sein, sich mit dem Verweis auf die Erfolge zu begnügen, und die Methode – so theoriefrei wie möglich – mit einem lediglich empirischen Anspruch anzuwenden. Doch das ist nicht ganz ohne Implikationen möglich. Denn wenn ich Fragen wie Werkdatierung oder der Chronologie innerhalb eines Werkes untersuche, komme ich nicht darum herum, folgende Vorannahmen zu benennen, die freilich kaum bewiesen werden können:[16]

Zwar bleibt als Fazit: Eine allgemeine Theorie der quantifizierenden Stilanalyse gibt es nicht. Doch liegt der Charme von formalen und statistischen Methoden darin, dass eben nicht subjektive oder inhaltliche Gründe (wie Motive, Stoffe oder Interpretationsvorschläge) über die untersuchten Hypothesen entscheiden, sondern empirische und nachprüfbare Daten den Ausschlag geben.

Autorschaftsfragen: Das Fehlen der Standardmethode

Die Literatur zu bislang durchgeführten statistischen Arbeiten zu Fragen unklarer Autorschaft oder der Werkdatierung zeigt: Es gibt keine Patentlösung bei der Auswahl der Untersuchungsmethode oder der zu untersuchenden Textmerkmale.[17] Viele Computerphilologen entwickeln eine eigene Methode, wenden sie an, und erklären, sie sei in der Lage, Antworten auf die untersuchte Fragestellung zu geben. Einigkeit, welche Verfahren am besten geeignet sind, herrscht nicht.[18]

Dieser Befund führt mich zu der These, dass es sinnvoll ist, Untersuchungen zu möglichst vielen Textmerkmalen durchzuführen. Zwar müssen die Textmerkmale, die Texte verschiedener Autoren voneinander unterscheiden, nicht unbedingt die gleichen Textmerkmale sein, die dazu geeignet sind, auch Unterschiede innerhalb einzelner Werke aufzudecken. Dennoch halte ich es für plausibel, anzunehmen, dass es – falls es sich bei beiden Textmerkmalen um unterschiedliche Mengen handelt – eine mehr oder weniger große Schnittmenge zwischen beiden gibt, da in jedem Fall stilistische Aspekte erfasst werden. Diese These wird von Joseph Rudman in seiner Bilanz bislang durchgeführter statistischer Untersuchungen zu Fragen unklarer Autorschaft bestätigt:

Many studies have compared a single style marker (or some small number of style markers) to a fingerprint – an authentication method considered infallible. However, one whorl or one loop is not sufficient for a positive identification. Also, there have been no practitioners who have claimed infallibility for their study [...] It is important to look at as many of the myriad style markers as possible – some markers will overlap with those of the controls and of the other suspects, but a matching pattern should emerge.[19]

Auf dieser Grundlage kann plausibel angenommen werden, dass ein Programmpaket, das eine Vielzahl an Textmerkmalen erfasst, ein geeignetes Instrument darstellt, um mittelhochdeutsche Texte mit statistischen Verfahren zu untersuchen. Ein weiterer Vorteil bei der gleichzeitigen Anwendung einer Vielzahl an Textmerkmalen liegt darin, dass so sofort offensichtlich wird, welche Merkmale Ergebnisse liefern – eventuell erwartete beziehungsweise erwünschte Ergebnisse –, und welche nicht. Rudman bezeichnet ›Cherry Picking‹ als unzulässig: Analyseergebnisse, die nicht die gewünschten Resultate liefern, dürfen nicht ignoriert werden.[20]

ErMaStat

ErMaStat, Abkürzung für Erlanger-Mittelalter-Statistik, ist ein Instrument der Textanalyse für mittelhochdeutsche Texte. Mit ErMaStat ist es möglich, mittelhochdeutsche Versromane oder Ausschnitte aus ihnen in Hinblick auf statistische Unterschiede zu untersuchen. ErMaStat erfasst eine möglichst große Anzahl verschiedener Textmerkmale. Die Vielzahl der Textmerkmale reicht von einfachen quantitativen Merkmalen wie Wort- oder Satzlängen, über Vokal- und Konsonantenverteilungen, über Funktionswörter und einfache Stilmittel zu syntaktischen Phänomenen, zu lexikalischen Untersuchungen bis hin zu einer metrischen Analyse. Um die Auswertung der Ergebnisse zu erleichtern, fasse ich einander ähnliche Textmerkmale in Merkmalsgruppen zusammen. Im Folgenden gebe ich dazu einen knappen Überblick.[21]

1. Wort-, Zeilen- und Satzlängen, Satzzeichen

Diese Merkmalsgruppe enthält durchschnittliche Zeilenlänge in Buchstaben, Silben und Wörtern. Weitere Detailwerte werden für unterschiedlich lange Wörter gebildet. Aus der Zahl der Silben und der Zahl der Buchstaben wird der Quotient Zeichen-pro-Silbe errechnet. Alle Satzzeichen werden gezählt. Satzzeichen sind Indikatoren; zum Beispiel für direkte Rede, für Ausrufe- und Fragesätze oder für die Neigung eines Textes zu Nebensätzen. Die durchschnittliche Satzlänge in Wörtern und in Zeichen wird ermittelt.[22]

2. Vokal- und Konsonantenverteilung

Alle Vokale werden gezählt. Gruppenwerte[23] werden für alle Diphthonge, für alle Monophthonge, für kurze und lange sowie für helle und dunkle Vokale gebildet. Für alle Konsonanten wird ein Gesamtwert gebildet. Zudem wird der Gruppe der stimmlosen, ›harten‹ Plosive c k p t eine Gruppe der stimmhaften, ›weichen‹ Plosive g b d gegenübergestellt.

3. Funktionswörter

Hier werden Artikel, Pronomina, Negationswörter, Adverbialpronomina, Präpositionen und Konjunktionen gezählt.[24] Gruppenwerte werden gebildet für die Summe jeweils aller Negationen, Präpositionen, Konjunktionen, Adverbialpronomina, Artikel und Pronomina.

Bei den Negationen wird niht als Sonderfall betrachtet, da es zum Beispiel beim Parzival mehr als die Hälfte der Negationswörter ausmacht. Deshalb wird ein eigener Gruppenwert ›Negationen ohne niht‹ erhoben. Nicht erfasst werden können mit diesem Verfahren proklitisches en oder enklitisches ne, da zahlreiche Wörter mit en beginnen und auf ne enden können (Beispiele: ende, manne), ohne dass hier Enklise oder Proklise vorliegen. Ebenso wenig kann eine Aussage darüber getroffen werden, wie häufig Satz- oder Sondernegationen auftreten.

4. Alliterationen, Assonanzen und Enjambements

Konsonantische Alliterationen werden getrennt von vokalischen Assonanzen erfasst. Zusätzlich werden in Anlehnung an die Unterscheidung reiner/unreiner Reim[25] unreine Assonanzen in aufeinander folgenden Wörtern erfasst. Enjambements werden gezählt. Dazu sucht das Programm nach Punkt, Frage- oder Ausrufezeichen, die nicht am Zeilenende liegen. Steht kein Satzzeichen am Ende dieser Zeile, dann wird diese Zeile als Zeile mit Enjambement gezählt (Beispiel: »der iu dienet. ob ich kann« Parzival. 182, 26). Nicht zu den Enjambements gerechnet wird dabei der Beginn direkter Rede nach Doppelpunkt und Anführungszeichen (Beispiel: »er sprach: ›hân ich
werdekeit‹« Pz. 269, 4).

5. Wortendungen

Wortendungen, die auf bestimmte grammatische Kategorien hindeuten, werden gezählt. So spricht das Suffix -lîch für das Vorliegen eines Adjektivs. Einsilbige Wörter werden nicht erfasst: Vor der Endung muss noch mindestens ein Vokal stehen. Freilich muss hinsichtlich der grammatischen Kategorie Ambivalenz in Kauf genommen werden: So steht die Endung -en unter anderem bei fast allen Formen in der schwachen Deklination, meist beim Dativ der starken Deklination sowie meist beim Infinitiv.

6. Wiederholungsindices, Type-Token-Ratio

Ich erfasse zwei Wiederholungsindices: Erstens einen Wert ›Wiederholte Wörter‹, der die Anzahl der Wörter, die in 100 Zeilen mehr als einmal vorkommen, enthält; zweitens einen Wert ›Wortwiederholungen‹ in 100 Zeilen, der darüber Auskunft gibt, wie oft die Wörter, die mehr als einmal in 100 Zeilen vorkommen, wiederholt wurden. Während der Wert ›Wiederholte Wörter‹ Auskunft darüber gibt, wie viele einzelne Wörter es sind, die wiederholt werden, gibt der Wert ›Wortwiederholungen‹ an, wie oft wiederholte Wörter wiederholt werden; hier geht also auch ein, ob ein Wort dreimal oder zehnmal in 100 Zeilen vorkommt.

Unter der Type-token-Ratio versteht man den Quotienten aus der Größe des Vokabulars – also aus der Anzahl der verschiedenen Wörter – und der Gesamtzahl der Wörter in einem Text. Sowohl bei der Type-Token-Ratio als auch bei den Hapax Legomena wird angenommen, dass sie Indikatoren für lexikalischen Reichtum sind; beide Parameter sind also ein Variationsindex für das Vokabular eines Textes.[26] Bei meinen Tests während der Programmentwicklung sah ich die These eindrucksvoll bestätigt, dass sowohl die Häufigkeit der einmal vorkommenden Wörter als auch die Type-Token-Ratio von der Textlänge abhängig ist.[27] Um dieser Problematik gerecht zu werden, erhebe ich die Type-Token-Ratio nur für gleich lange Textstücke. ErMaStat prüft, wie viele Wörter das kürzeste Textsegment enthält. Enthält zum Beispiel das kürzeste Textsegment 25.000 Wörter, so werden für die anderen Vergleichstexte nur ihre jeweils ersten 25.000 Wörter untersucht, die übrigen Wörter bleiben unberücksichtigt. Neben der allgemeinen Type-Token-Ratio erfasse ich noch eine differenzierte Type-Token-Ratio, die die Funktionswörter ausblendet. Die Erhebung des differenzierten Wertes ist sinnvoll, da Verben, Substantive, Adjektive und Adverbien in größerem Maße Träger von Textsinn als die Funktionswörter sind.

7. Vorsilbe und Hilfsverb

Passivkonstruktionen bestehen aus einem Wort mit dem Präfix ge, ver, er sowie einer Flexionsform von sîn oder werden. Wenn sowohl Vorsilbe als auch Hilfsverb in der gleichen Zeile auftreten und keine Satzzeichen zwischen beiden stehen, wird diese Erscheinung gezählt. Freilich werden dabei nicht nur Passivkonstruktionen, sondern auch das umschriebene Perfekt und Plusquamperfekt erfasst. Diese Konstruktionen haben über die beschriebenen formalen Merkmale hinaus noch eine Gemeinsamkeit: Sätze, die solche Konstruktionen enthalten, sind stärker markiert als beispielsweise Sätze im Indikativ Präsens Aktiv. [28] Da es Wörter gibt, bei denen der Stamm mit er-, ge- oder ver- beginnt (zum Beispiel »ûz verrem lande« Pz. 65, 26), wird eine Wortliste hinzugezogen, damit hier nicht irrtümlich eine Vorsilbe erkannt wird.

Erkannt werden nicht alle, aber wohl doch die meisten Passivkonstruktionen (zum Beispiel Pz. 6, 28 »dâ wesen beide von genant«). Gewisse Fehler treten auf, wenn Hilfsverb und Partizip nicht in der gleichen Zeile stehen (Pz. 1, 3-4 »gesmæhet unde gezieret/ ist«). Probleme bereiten die Homonyme sîn und sît, die auch Präposition, Konjunktion oder Pronomen sein können. Da sîn und sît seltener als Verbalformen auftreten als als Präposition, Konjunktion oder Pronomen, wurde darauf verzichtet, die Kombination von Vorsilbe mit sîn und sît zu erfassen. Da diese Fehler jedoch bei allen Suchläufen relativ gleichermaßen auftreten dürften, bleiben die vergleichenden Zahlen dennoch aussagekräftig.

8. Häufige Wörter

Alle Wörter, die häufiger als 0,1% in Bezug auf die Gesamtzahl aller Wörter in den untersuchten Texten vorkommen, werden gezählt; für die Summe aller häufigen Wörter wird ein Gruppenwert gebildet.

9. Wortkombinationen

Für alle Wörter, die häufiger als 0,05% sind, wird nach allen möglichen Zweiwortkombinationen gesucht. Hier – sowie bei der Zählung der häufigen Wörter (8) – wird jeweils ein rudimentärer Flexionsabgleich [29] verwendet. Die Ergebnisse zeigen, dass bei diesem Wert besonders oft Kombinationen gefunden werden, in denen Artikel, Pronomina, Konjunktionen und Präpositionen miteinander kombiniert sind. daz er und und der sind besonders häufig; typische Beispiele mit Beteiligung von Verben beziehungsweise Substantiven sind dô sprach oder der künec. Ich nehme an, dass dieser Wert darüber Auskunft gibt, wie stark ein Textsegment zu formelhaften Wendungen neigt.

10. Metrische Analyse

Die grundsätzlichen Probleme bei einer Automatisierung der metrischen Analyse liegen darin, dass Literaturwissenschaftler bei der manuellen Analyse zum einen über Sprachkompetenz und Textverständnis verfügen, zum anderen sind ihnen Interpretationsspielräume möglich, die sich etwa aus unterschiedlichen metrischen Schulen oder aus unterschiedlicher Textinterpretation ergeben können. Nicht selten kommen zwei metrische Analysen zu zwei verschiedenen Ergebnissen, die beide sinnvoll sein können.[30] Von einem Computer kann kein Textverständnis oder gar ein Interpretationsvorschlag erwartet werden. Wenn das vom Computer ermittelte Ergebnis nicht offensichtlich falsch ist, wird es für die Zwecke der Vergleichbarkeit zweier Texte akzeptiert. Das Ergebnis dieses Versuches scheint mir, vor allem gemessen an den grundsätzlichen Problemen und Schwierigkeiten eines solchen Unterfangens, zumindest befriedigend zu sein: Es gelingt, etwa 97% der betonten Silben richtig zu erkennen.

Da in der Forschungsliteratur keine Entscheidungsbäume oder klare Regelsysteme zu finden sind, welche Silben betont und unbetont sind, war ich darauf angewiesen, verschiedene Einzelregeln zu finden, und zu überlegen, in welcher Hierarchie sie zu einander stehen. Nach der Fertigstellung des Grobgerüsts, das zunächst Grundregeln wie Erstsilbenbetonung, Zweitsilbenbetonung bei Vorsilbe und Alternierung enthielt, war ich darauf angewiesen, mittels ›trial and error‹ einzelne Regeln zu erproben. Je nach Erfolg des Programms wurden einzelne Regeln als mehr oder weniger brauchbar erkannt, und aus den Fehlern, die in der Testphase aufgefallen waren, ließen sich wiederum weitere Beobachtungen machen, die als weitere Regeln ausprobiert werden konnten. Die Annahmebedingung für eine neue Regel lautete: Sie muss wesentlich mehr Fehler beseitigen als neue verursachen. Das Ergebnis ist ein Algorithmus, der aus über 50 Einzelregeln besteht. Zahlreiche Ergebnisdaten werden erhoben, angefangen von verschiedenen Reimvokalen über Alternierungsindikatoren bis hin zur Kadenzanalyse.[31]

Die Ergebniswerte können nur aus den angewandten Untersuchungskriterien resultieren; auch wenn dabei Fehler auftreten können, wenn zum Beispiel eine tatsächlich klingende Kadenz als volle Kadenz analysiert wird, treten diese Probleme gleichermaßen bei allen untersuchten Textdateien auf. Da verschiedene Textdateien nach den gleichen Analysemustern verglichen werden, heben sich diese Fehler gegenseitig auf, so dass eine vergleichende Analyse nicht beeinflusst wird.[32]

Statistisches Prüfverfahren

In ErMaStat wird die Häufigkeit der jeweiligen Textmerkmale ermittelt. Um die Frage beantworten zu können, ob die Unterschiede bei einem Textmerkmal zwischen zwei Texten signifikant sind, wird ein statistisches Prüfverfahren angewandt. Als Testverfahren wurde der Wilcoxon-White-Test für unabhängige Stichproben gewählt, ein nicht-parametrisches Prüfverfahren auf dem Rangskalenniveau.[33] Wie in der Prüfstatistik üblich, formuliere ich eine sogenannte Nullhypothese. Sie besagt, dass die Unterschiede durch den Zufall bedingt sind. Die Unterschiede sind signifikant, wenn die Nullhypothese durch das Prüfverfahren mit einer Wahrscheinlichkeit von mindestens 95% zurückgewiesen werden kann.[34]

Die Ergebnisausgabe von ErMaStat

ErMaStat vergleicht zwei oder mehr Textdateien miteinander und prüft bei jedem Textmerkmal und bei jedem Textvergleich, ob die Unterschiede signifikant sind. Ausgegeben werden absolute Werte (zum Beispiel Kommata in Datei-1 und Datei-2), relative Werte (zum Beispiel Kommata pro Zeile in Datei-1 und Datei-2) sowie Signifikanzwerte, die angeben, wie hoch die Wahrscheinlichkeit ist, dass die Unterschiede (zum Beispiel zwischen Datei-1 und Datei-2) nicht durch den Zufall bedingt sind.

In der Regel werden über 500 einzelne Textmerkmale erfasst. Die Zahl schwankt, da etwa die Zahl der ›häufigen Wörter‹, als Wörter, die häufiger als 0,1% in Bezug auf die Gesamtzahl aller Wörter vorkommen, von Text zu Text variiert. Aufgrund der Menge der Ergebnisdaten ist es ein Gebot der Ökonomie, einzelne Textmerkmale zu Merkmalsgruppen zusammenzufassen und Übersichtswerte zu bilden.

So werden als Gruppenwerte die Werte zusammengefasst, die der Anwender für besonders wichtig erachtet, und Werte, die mehrere gleichartige Einzelwerte in ihrer Summe repräsentieren. So werden für alle einzeln definierten Präpositionen jeweils Signifikanztests durchgeführt, aber auch für die Gesamtsumme aller Präpositionen. Die Werte für die einzelnen Präpositionen gehen nicht in die ›Gruppenwerte‹ ein, die Summe aller Präpositionen (›Alle Präpositionen‹) hingegen schon. Die Übersichtstabellen zu den Merkmalsgruppen werden ein zweites Mal für die jeweiligen ›Gruppenwerte‹ ausgegeben. In diesen Übersichten ist sichergestellt, dass die zahlreichen Einzelwerte nicht die wirklich wichtigen Ergebnisse überlagern. So kann es bei den Daten der metrischen Analyse zum Beispiel 112 Einzelwerte geben, davon können beispielsweise 26 Einzelwerte ›Reimvokale‹ und 65 Einzelwerte ›Metrische Verteilungsmuster‹ sein. Bei der Übersicht Metrik-Gruppenwerte sind diese Einzelwerte ausgeblendet, wichtigere Daten wie der Kadenztyp (zum Beispiel der Wert ›Klingende Kadenzen‹) kommen hier eher zur Geltung. Bei der Beurteilung der Ergebnisse ist entscheidend, bei wie viel Prozent der durchgeführten statistischen Einzelvergleiche tatsächlich signifikante Unterschiede vorliegen.

Statistischer Vergleich von Parzival, Wigalois, Tristan und Willehalm

Eine erste Untersuchung habe ich zu den Romanen Parzival, Tristan, Wigalois und Willehalm durchgeführt. ErMaStat zeigt hier sehr große Unterschiede zwischen den Werken auf, Parzival und Willehalm liegen etwas näher beieinander als die übrigen Texte.[35] Das Programmpaket ist offensichtlich sehr gut dazu in der Lage, Texte verschiedener Autoren voneinander zu unterscheiden.

Vergleich für Text	Parzival- Wigalois	Wigalois- Tristan	Tristan- Willehalm	Parzival- Tristan	Wigalois- Willehalm	Parzival- Willehalm
Wort-, Zeilen- und Satzlängen, Satzzeichen	84%	76.01%	84%	88.01%	92%	68.01%
Vokal- und Konsonantenverteilung	76.74%	65.12%	69.77%	86.05%	67.44%	58.14%
Funktionswörter	37.13%	36.53%	50.3%	50.9%	34.73%	24.56%
Alliterationen, Assonanzen und Enjambements	20%	60.01%	80.01%	80.01%	60.01%	80.01%
Wortendungen	47.06%	52.94%	64.71%	41.18%	64.71%	47.06%
Wiederholungsindices, Type-Token-Ratio	75.01%	100%	100%	100%	100%	50.01%
Kombination Vorsilbe-Hilfsverb	42.86%	28.57%	57.14%	57.14%	28.57%	0%
Häufige Wörter	59.63%	58.72%	72.48%	69.72%	53.21%	44.95%
Kombinationen aus zwei Wörtern	36.11%	44.44%	44.44%	41.67%	41.67%	11.11%
Metrik	43%	50.01%	56.01%	63%	38.01%	28.01%

Erläuterung zu den Tabellen: In der ersten Tabellenzeile steht die Angabe, welche Texte in der jeweiligen Spalte miteinander verglichen werden. Die Prozentzahlen in der Spalte geben an, wie hoch der Prozentsatz der signifikanten Unterschiede von den möglichen signifikanten Unterschieden ist.

Beispiel: In der zweiten Spalte finden sich die Werte, die sich bei einem Vergleich von Parzival mit Wigalois ergeben. Bei der Merkmalsgruppe ›Wort-, Zeilen- und Satzlängen, Satzzeichen‹ werden 25 einzelne Textmerkmale untersucht, es gibt also 25 mögliche Signifikanzwerte. Davon sind 21 Unterschiede signifikant (bei α= 95%). Das führt zu der hier dargestellten Angabe: Bei 84% der durchgeführten Vergleiche sind tatsächlich signifikante Unterschiede vorhanden.

Prüfung der schallanalytischen Studien von Elisabeth Karg-Gasterstädt

Seit über einhundert Jahren versucht die altgermanistische Forschung, die Frage zu klären, ob die Vorgeschichte zu Wolfram von Eschenbachs Parzival am Beginn der Arbeit des Dichters am Text stand, oder ob die Kapitel, die von den Abenteuern von Parzivals Vater handeln, erst nach Abschluss der eigentlichen Jugendgeschichte des Titelhelden entstanden sind. Unbestritten ist, dass Wolfram bei der Abfassung von Parzivals Abenteuern in den Büchern III-VI den Conte du graal Chrétiens zumindest kannte. Das Fehlen einer solchen Vorlage für die Gahmuret-Handlung hat jedoch zu der Frage geführt, ob die Bücherfolge im Parzival der Chronologie seiner Entstehung entspricht, oder ob Wolfram, Chrétien folgend, mit Buch III begonnen und die Vorgeschichte erst nachträglich hinzugefügt hat.

Elisabeth Karg-Gasterstädt hat in ihrer Dissertation 1925 die Frage der Priorität der Bücher III-VI untersucht. Mit ihren rhythmisch-melodischen Studien, die auf der Schallanalyse nach Eduard Sievers[36] beruhen, bemühte sie sich, »zunächst von allen Regeln und logischen Erwägungen abstrahierend, ... ganz in den Text einzudringen und ihn möglichst so vorzutragen, wie Wolfram selbst ihn gelesen haben wollte«.[37] Bei ihren Leseversuchen kam Karg-Gasterstädt zu dem Ergebnis, dass man es im Parzival nicht mit einer einheitlichen Lesart, sondern mit vier in Bezug auf ihren rhythmisch-melodischen Bau ganz verschiedenen Typen zu tun habe. Die Verteilung dieser vier Typen über den Parzivaltext ermöglicht Karg-Gasterstädt zunächst die These der Verschiedenartigkeit unterschiedlicher Parzival-Abschnitte und sodann eine These über Reihenfolge der Entstehung des Parzival.[38]

Die Studien von Karg-Gasterstädt konnten bislang kaum nachvollzogen werden[39], da Karg-Gasterstädt bei ihrer Analyse des Parzivaltextes in vier Schalltypen keine eindeutigen Klassifikationsmerkmale nennt, sondern mit Metaphern und Analogien arbeitet. So beschreibt sie Typ 1 mit Vokabeln wie ›Lebhaftigkeit‹, ›tiefe Tonlage gleich einem Cello‹, ›Tonkurve in Zickzackbewegungen‹ oder ›rhythmische Ausdrucksbewegung in großen Bögen‹. Dennoch haben sie in der Forschungsliteratur zur Entstehungsgeschichte des Parzival noch lange verschiedenen Autoren als offenbar objektive Begründung ihrer Theorien und Folgerungen gedient, da sie »ohne Rücksicht auf inhaltliche Bezüge zunächst nur im Hinblick auf die Betrachtung der Form vorgenommen wurden«.[40] Andere Autoren sind aufgrund anderer Überlegungen zu dem gleichen Ergebnis gelangt wie Karg-Gasterstädt in ihrer Dissertation: Die beiden Eingangsbücher des Parzival seien, so die weit verbreitete Überzeugung, erst nach den Büchern III-VI entstanden.[41]

Es ist heute nicht mehr möglich, mit Hilfe der Beschreibungen von Karg-Gasterstädt die Verse im Parzival den Typen 1-4 zuzuordnen. Die textstatistische Untersuchung wird durch den Anhang von Karg-Gasterstädt ermöglicht: Hier ist festgehalten, welcher Vers welchem Schalltyp angehört. Meine vergleichenden Untersuchungen können allerdings zeigen, dass die statistischen Unterschiede zwischen den Schalltypen deutlich größer sind als Unterschiede zwischen jeweils zwei zu einer Büchergruppe zusammengenommenen Parzival-Büchern. Vergleicht man die Unterschiede zwischen der herkömmlichen Textanordnung in Büchergruppen mit denen der Schalltypen, so zeigt sich: Von allen möglichen Signifikanztests sind bei den Schalltypen 14,9% signifikant, nur 10,4% bei den Büchergruppen.

Bei den besonders wichtigen Werten, bei der Metrik und bei den Gruppenwerten ist dieser Befund noch deutlicher: 33,3% (Schalltypen) gegenüber 17,7% (Büchergruppen).[42] Die Zahlen belegen, dass der Text der jeweiligen Schalltypen signifikantere Textmerkmale als der nach Büchern sortierte Text aufweist. Die Zahlen lassen den Schluss zu, dass der Text der jeweiligen Schalltypen signifikantere Textmerkmale als der nach Büchern sortierte Text aufweist, in denen diese Schalltypen die ›Hauptmasse‹ bilden. Würde man annehmen, dass die Entscheidung von Karg-Gasterstädt, welche Zeile welchem Schalltyp zuzuordnen ist, nicht aufgrund unterschiedlicher Textmerkmale, sondern aufgrund des Zufalls erfolgt ist, so wäre zu erwarten, dass die Unterschiede zwischen den Schalltypen geringer wären als die zwischen den Büchergruppen, da der Text der Schalltypen aus unterschiedlichen Büchergruppen stammt und somit eine Nivellierung zu erwarten wäre. Das ist jedoch nicht der Fall: Karg-Gasterstädt war offensichtlich in der Lage, Zeilen mit unterschiedlichen Merkmalen unterschiedlichen Schalltypen zuzuordnen.

Wenn man jedoch annimmt, dass der Text, den Karg-Gasterstädt den vier Schalltypen zuordnet, jeweils unterschiedliche Merkmale aufweist, dann liegt es nahe, auch anzuerkennen, dass die so betriebene Schallanalyse tatsächlich – wie auch immer – greifbare Ergebnisse hervorgebracht hat. Daraus kann zwar nicht zwingend gefolgert werden, dass die Schallanalyse vier verschiedene Textschichten entdeckt hat, doch werden solche Überlegungen auf dieser Basis deutlich plausibler – zumal sich die Hauptkritik in der Rezeption der rhythmisch-melodischen Studien weniger gegen die weiteren Überlegungen von Karg-Gasterstädt als gegen die Schallanalyse selbst richtet. Erkennt man jedoch weiter an, dass die vier Schalltypen vier unterschiedliche Textschichten enthalten, dann muss man auch den Hypothesen von Karg-Gasterstädt bezüglich der Entstehungsreihenfolge Plausibilität beimessen: Die These der Priorität der Bücher III-VI gewinnt somit durch die hier durchgeführten textstatistischen Untersuchungen erheblich an Gewicht – mit allen möglichen Konsequenzen.[43]

Aus dem statistischen Blickwinkel ist diese Untersuchung recht dankbar: Da zweimal der gleiche Text in anderer Anordnung miteinander verglichen werden konnte, steht man hier nicht vor dem Problem, mit einem Stück Unsicherheit etwa konstatieren zu müssen: Diese Ergebnisse sind vermutlich hoch genug, um die Fragestellung zu stützen. Vielmehr bieten die Unterschiede zwischen Schalltypen und Büchergruppen die Möglichkeit, festzuhalten: Die Unterschiede bei den Schalltypen sind deutlich größer. Die Frage nach der Entstehung des Parzival kann auch nach meinen Untersuchungen nicht mit letzter Sicherheit beantwortet werden.[44] Allerdings gewinnen die schallanalytischen Studien erheblich an Gewicht.

Untersuchungen zum Iwein Hartmanns von Aue: Datierung der ersten 1000 Iwein-Verse

In seinen sprachlich-stilistischen Untersuchungen beobachtet Konrad Zwierzina für die ersten 1000 Iwein-Verse eine weniger ausgefeilte Reimtechnik als beim übrigen Iwein und einige weitere Unterschiede, zum Beispiel beim Wortschatz;[45] Arnold Schirokauer vermutet eine Arbeitspause zwischen den ersten 1000 und den übrigen Iwein-Versen.[46] Auf dieser Grundlage setzt Werner Schröder übereinstimmend mit Schirokauer die Datierung der ersten 1000 Verse unmittelbar nach der Arbeit Hartmanns am Erec an, die übrigen Verse habe Hartmann erst nach dem Armen Heinrich verfasst.[47]

Bei einer statistischen Prüfung einer möglichen Frühdatierung der ersten 1000 Iwein-Verse wäre zu erwarten, dass deutliche Unterschiede zwischen diesen Versen und dem übrigen Iwein zu finden sind. Gleichzeitig müssten die Unterschiede zwischen diesen Versen und dem Erec kleiner sein, als die Unterschiede des übrigen Iwein zum Erec.[48] Hier soll untersucht werden, ob diese Fragestellungen mit ErMaStat nachvollzogen werden können. Dazu wird der Text in folgende Abschnitte segmentiert:

Die Fragestellung ist, ob (A) die Unterschiede zwischen IWEIN 1 und IWEIN 2 so groß sind, dass die Beobachtung Schröders nachvollzogen werden kann, und ob (B) die Unterschiede zwischen IWEIN 1 und IWEIN 5 geringer sind als die Unterschiede zwischen jeweils IWEIN 2 zu IWEIN 5, IWEIN 3 zu IWEIN 5 sowie IWEIN 4 zu IWEIN 5.

Diese Ergebnisse untermauern die Frühdatierung der ersten 1000 Iwein-Verse, zumindest sprechen die Zahlen für ihre Nähe zum Erec.

Fazit

Mit ErMaStat habe ich in der germanistischen Mediävistik Neuland betreten. Erstmals wird für philologische Fragestellungen ein Programmpaket vorgestellt, in dem die Erfassung einer großen Zahl verschiedenster Textmerkmale und die Auswertung der gewonnenen Daten durch ein statistisches Prüfverfahren in einem einzigen Programmpaket integriert sind. ErMaStat kann auf eine große Zahl von mittelhochdeutschen Texten in vierhebiger Reimzeile angewendet werden.

Der Reiz, der von quantifizierenden Verfahren ausgeht, liegt in der intersubjektiven Nachvollziehbarkeit: Korrekt erhobene Zahlen kann man kaum anzweifeln, allenfalls kann man ihre Bewertung in Frage stellen. Freilich können statistische Erhebungen die hermeneutische Tätigkeit des Philologen nicht ersetzen, noch erreichen sie je den Charme einer geglückten Interpretation. Sie können aber eine Entscheidungshilfe bei Streitfragen sein, bei denen durch traditionelle Forschung anders keine Einigkeit zu erzielen ist.

Der Schwerpunkt dieser Arbeit liegt auf der Relevanz nicht der mathematischen, sondern der philologischen Kompetenz – das kommt insbesondere in der automatischen metrischen Analyse zum Ausdruck. In ErMaStat geht es nicht um das bloße Analysieren beliebiger Musterstrukturen mit multivariaten statistischen Methoden, sondern um die Untersuchung einer Vielzahl konkreter Texteigenschaften. Mit ErMaStat werden Computer und Statistik in den Dienst der Philologie gestellt. Es geht hier nicht um eine weitere Ausbreitung des Herrschaftsbereichs der Informatik und der Statistik, sondern darum, den Computer als wertvolles Hilfsmittel für Fragestellungen einzusetzen, die der Literaturwissenschaftler formuliert.

Friedrich Michael Dimpel (Erlangen)

Dr. Friedrich Michael Dimpel
Universität Erlangen-Nürnberg, Haus B
Bismarckstraße 1
D-91054 Erlangen
fhdimpel@phil.uni-erlangen.de

(23. November 2004)

[1] Dieser Beitrag beruht auf meiner Dissertation: F.M.D.: Computergestützte textstatistische Untersuchungen. Tübingen: Francke 2004. Aus ihr habe ich im Folgenden einige Passagen wörtlich übernommen, ohne dies im Einzelfall zu kennzeichnen.

[2] Vgl. Siegfried J. Schmidt: Empirische Literaturwissenschaft in der Kritik. In: R.. Viehoff (Hg.): Alternative Traditionen. Dokumente zur Entwicklung einer empirischen Literaturwissenschaft. (Konzeption Empirische Literaturwissenschaft X) Braunschweig: Vieweg 1991, S. 309-337, hier S. 314-337; Jörg Schönert: Empirische Literaturwissenschaft: Verschlossene wissenschaftliche Anstalt oder Bastion mit offenen Toren? Überlegungen zur Organisation literaturwissenschaftlicher Theorie und Praxis. (Lumis Schriften 5) Siegen: Die Blaue Eule 1985, S. 6 ff. und S. 149; Joseph Rudman: The State of Authorship Attribution Studies: Some Problems and Solutions. In: CHum 31 (1997), S. 351-365, hier S. 351.

[3] Willie van Peer: Quantitative Studies of Literature. A Critique and an Outlook. In: CHum 23 (1989), S. 301-307, hier S. 302.

[4] Willie van Peer: Quantitative Studies, S. 303. (Fußnote 3).

[5] Louis T. Milic: Progress in Stylistics: Theory, Statistics, Computers. In: CHum 25 (1991), S. 393-400, hier S. 393.

[6] Louis T. Milic: Progress in Stylistics, S. 394. (Fußnote 5)

[7] Ebd.

[8] Fotis Jannidis: Was ist Computerphilologie? In: Jahrbuch für Computerphilologie 1 (1999), S. 39-60, bzw. <http://www.computerphilologie.uni-muenchen.de\jahrbuch\jb1\jannidis-1.html>. Vgl. auch die französische Terminologie ›stylométrie‹ (Jean-Marie Zemb: Ist der Stil meßbar? In: G. Stickel (Hg.): Stilfragen. [Jahrbuch für deutsche Sprache 1994], S. 128-149, hier S. 129).

[9 ] Wolfgang Fleischer/Georg Michel/Günter Starke: Stilistik der deutschen Gegenwartssprache. Frankfurt a. M. u.a.: Lang 1993, S. 42f. Vgl. auch Jean-Marie Zemb: Ist der Stil meßbar?, S. 140. (Fußnote 8): Eine »vielgestaltige« Aufgabe bestehe in der inventio und expositio der These, dass »dieser und jener Stil sehr wohl ziemlich meßbar ist, der Stil an sich dagegen letzten Endes überhaupt nicht«.

[10] Vgl. etwa Barbara Sandig: Stilistik der deutschen Sprache. (Sammlung Göschen 2229) Berlin/New York: de Gruyter 1986, S. 156-164; Bernhard Sowinski: Stiltheorien und Stilanalysen. (Sammlung Metzler 263) Stuttgart: Metzler 1999, S. 17-69.

[11] Joseph Rudman: The State of Authorship Attribution Studies, S. 360. (Fußnote 2).

[12] Fotis Jannidis: Was ist Computerphilologie? (Fußnote 8).

[13] Vgl. bspw. Wolfgang Fleischer/Georg Michel/Günter Starke: Stilistik der deutschen Gegenwartssprache, S. 28 ff. (Fußnote 9); Theo Bungarten: Zur Formelhaftigkeit in Heinrich Wittenwilers Ring Wortwiederholungen und grammatische Versmuster. In: CHum 13 (1979), S. 289-304, hier S. 289.

[14] David I. Holmes: Authorship Attribution. In: CHum 28 (1994), S. 87-106 und S. 87.

[15] Die von Stammatos/Fakotakis/Kokkinakis verwendete Kombination mehrerer Untersuchungsverfahren ist selbst bei kurzen (circa 1000 Wörter) griechischen Zeitungstexten der Gegenwart dazu in der Lage, mit einer Zuverlässigkeit von 87% Texte verschiedener Autoren voneinander zu unterscheiden. E. Stammatos/N. Fakotakis/G. Kokkinakis: Computer-Based Authorship Attribution Without Lexical Measures. In: CHum 35 (2001), S. 193-214, hier S. 207f. Vgl. zu dieser Frage auch: Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 22-37 (Fußnote 1).

[16] Vgl. etwa Lubomír Doleel: Ein Begriffsrahmen für die statistische Stilanalyse. Übersetzt von Dieter Wunderlich. In: J. Ihwe (Hg.): Literaturwissenschaft und Linguistik 1. Frankfurt a.M.: Athenäum 1972, S. 67-87, hier S. 69: »Wenn wir die Annahme akzeptieren, daß (a) stilistische Merkmale Tendenzen sind in Richtung auf gewisse Ausdrucksarten, und (b) die Mannigfaltigkeit der konkreten Manifestationen eine zugrundeliegende stilistische Stabilität wiedergibt, dann kann die Wahrscheinlichkeitsauffassung als eine adäquate Theorie des Stils angesehen werden, und nicht bloß als sekundärer Aspekt einer stilistischen Theorie oder als besondere Beschreibungstechnik [...] Selbst solche Aussagen von Stil, die eine statistische Terminologie vermeiden, enthalten in einer intuitiven Form den Begriff der ›Präferenz‹«.

[17] Vgl. etwa die Übersicht in Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 19-37. (Fußnote 1).

[18] So postuliert beispielsweise F. J. Damerau: The Use of Function Word Frequencies as Indicators of Style. In: CHum 9 (1975), S. 271-280, nur Funktionswörter seien charakteristisch für einen Autor. Dagegen Rosanne G. Potter: Statistical Analysis of Literature: A Retrospective on Computers and the Humanities, 1966-1990. In: CHum 25 (1991), S. 401-429, hier S. 409.

[19] Joseph Rudman: The State of Authorship Attribution Studies, S. 360f. (Fußnote 2).

[20] Joseph Rudman: The State of Authorship Attribution Studies, S. 358f. (Fußnote 2).

[21] Beispiele, eine ausführliche Beschreibung sowie Diskussion einiger auftretender Probleme finden sich in Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 39-81. (Fußnote 1).
Während in der Editionsphilologie unter dem Stichwort ›New Philology‹ gefordert wird, verschiedene Textfassungen zu berücksichtigen, ist es bei einer textstatistischen Analyse ein Gebot der Ökonomie, einen edierten und normalisierten Text als Grundlage zu verwenden. Vgl. zu dieser Problematik Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 36f. (Fußnote 15).

[22] Ein grundsätzliches Problem bei der Erfassung der Satzzeichen ist, dass sie nicht in den Handschriften überliefert sind, sondern erst vom Herausgeber eingefügt werden. Allerdings bleibt keine andere Möglichkeit, als auf die Kompetenz der Herausgeber zu vertrauen, wenn man sich dieser Möglichkeit nicht berauben will. Dieses Problem wirkt sich stärker aus, wenn verschiedene Texte, die nach unterschiedlichen Prinzipien ediert sind, miteinander verglichen werden. Weniger problematisch ist es, Teile eines Romans miteinander zu vergleichen.

[23] Als Gruppenwerte bezeichne ich Werte, die mehrere gleichartige Einzelwerte zu einem Durchschnittswert gruppieren. So erfasse ich etwa 36 verschiedene Präpositionen. Zusätzlich zu diesen Einzelwerten wird noch ein Gruppenwert ›Summe aller Präpositionen‹ gebildet.

[24] Untersuchungen auf der Grundlage von Funktionswörtern sind in der Literatur recht beliebt. Vgl. etwa David I. Holmes: Authorship Attribution, S. 87-106, hier S. 90f. (Fußnote 14). Die Klassifikation der Adverbialpronomina erfolgt nach PWG, §224,2.

[25] Vgl. etwa Ursula Schulze: Assonanz/II. Deutsche Literatur. In: Lexikon des Mittelalters I, München/Zürich: Artemis 1980, Sp. 1126.

[26] Vgl. Andrew Q. Morton: Once. A Test of Authorship Based on Words which are not Repeated in the Sample. In: Literary and Linguistic Computing 1 (1986), S. 1-8; John Charles Baker: Pace: A Test of Authorship Based on the Rate at which New Words Enter an Author’s Text. In: Literary and Linguistic Computing 3 (1988), S. 36-39; David I. Holmes: Authorship Attribution. (Fußnote 14); Harald Baayen/Hans van Halteren/Fiona Tweedie: Outside the Cave of Shadows: Using Syntactic Annotation to Enhance Authorship Attribution. In: Literary and Linguistic Computing 11 (1996), S. 121-131.

[27] In der folgenden Tabelle stehen die von mir ermittelten Werte zu einigen Textabschnitten des Parzivals mit stark variierender Textlänge. Allerdings kann mein Programmpaket nur einen rudimentären Flexionsabgleich vornehmen (siehe Fußnote 29).

Text	Pz. 1-4,10	Pz. 1-34,10	Pz. 1-167,20	Pz. gesamt
Zeilenzahl	100	1000	5000	24812
Types	298	1377	3471	8054
Token	528	5266	26520	130724
Ratio	0,5644	0,2615	0,1309	0,0616

Vgl. zum Zusammenhang der Textlänge und der Type-Token-Ratio auch Ludovic Lebart/André Salem/Lisette Berry: Exploring Textual Data. Dordrecht/Boston/London 1998, S. 28 ff.; Fiona Tweedie/Harald Baayen: How Variable May a Constant be? Measures of Lexical Richness in Perspective. In: CHum 32 (1998), S. 232-352; Barron Brainerd: Two Models for the Type-Token Relation with Time-Dependant Vocabulary Reservoir. In: D. Thoiron/D. Serant/D. Labbe (Hg.): Vocabulary Structure and Lexical Richness. Paris: Champion-Slatkine 1988, S. 13-22.

[28] Roman Jacobson unterscheidet Akkusativ und Nominativ als merkmalshaftig versus merkmalslos. Nach Wolf Thümmel: Markiertheitstheorie. In: H. Glück (Hg.): Metzler Lexikon Sprache. Stuttgart/Weimar: Metzler 2000, S. 426.

[29] Bei dem implementieren Flexionsabgleich überprüft ErMaStat, ob das gesuchte Wort in flektierter Form vorliegt, indem ein möglicher Wortstamm mit einer Liste an möglichen Flexionsendungen kombiniert wird. Dieser Flexionsabgleich ist deshalb rudimentär, weil damit Phänomene wie etwa Homonyme, Auslautverhärtung oder Wechsel des Stammvokals nicht erfasst werden können. Vgl. Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 44f. (Fußnote 1).

[30] Vgl. etwa Thomas Bein: Germanistische Mediävistik. Eine Einführung. (Grundlagen der Germanistik) Berlin: Erich-Schmidt-Verlag 1998, S. 70. So bezeichnet Jones selbst die These, dass dem Dichter selbst immer nur eine einzige metrische Verwirklichung vorschwebte, als »eine schon an sich unbeweisbare Hypothese. [...] Hennig betrachtet die metrische Mehrdeutigkeit als ein wesentliches Charakteristikum des Verses der ›Wiener Genesis‹.« Vgl. William Jervis Jones: Rîmen, die sich zeinander lîmen. Ansätze zur computergestützten Analyse des mittelhochdeutschen Reimpaarverses. In: ZfdPH 110 (1991), S. 384-406, hier S. 386; vgl. auch Ursula Hennig: Untersuchungen zur frühmittelhochdeutschen Metrik am Beispiel der ›Wiener Genesis‹. Tübingen: Niemeyer 1968, S. 272; sowie Achim Barsch: Metrik, Literatur und Sprache. Generative Metrik zwischen empirischer Literaturwissenschaft und generativer Phonologie. (Konzeption Empirischer Literaturwissenschaft XII) Braunschweig: Vieweg 1991, S. 4 ff.

[31] Vgl. die ausführliche Dokumentation in Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 57-78. (Fußnote 1).

[32] Es besteht also lediglich bei einigen Textmerkmalen eine gewisse Differenz zwischen dem, was nominell, und dem, was tatsächlich untersucht wird.

[33] Bei den Werten zur Type-Token-Ratio wird ausnahmsweise der Log-likelihood-Test angewendet, da der Wilcoxon-White-Test bei diesen Werten nicht angewandt werden kann. Vgl. Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 56. (Fußnote 1).

[34] Vgl. zur Diskussion um die Auswahl des Prüfverfahrens Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 33-36, (Fußnote 1). Sowie zu seiner Implementierung S. 39-42.

[35] Dass Parzival und Willehalm nicht noch näher beieinander liegen, kann damit erklärt werden, dass hier Texte unterschiedlicher Gattungen untersucht wurden.

[36] Eduard Sievers: Metrische Studien Bd. 1; Bd 4. Leipzig 1918, sowie Eduard Sievers: Rhythmisch-melodische Studien. Heidelberg: Teubner 1912. Die Unterscheidung von Sievers von fünf verschiedenen Verstypen mit verschiedenem Versrhythmus hat in Bezug auf die skaldische Dichtung Anerkennung gefunden. (Vgl. etwa Otto Paul/Ingeborg Glier: Deutsche Metrik. Ismaning: Hueber 1989, S. 32f.) Während diese Typeneinteilung bei Sievers ausschließlich auf rhythmischen Kriterien beruht, operiert Karg-Gasterstädt bei ihrer Übertragung der Typentheorie auf den Parzival im Unterschied dazu vor allem mit dem Begriff ›Melodiekurve‹. Zu der Typeneinteilung bei Sievers siehe Eduard Sievers: Altgermanische Metrik. Halle: Niemeyer 1893, S. 31 ff.

[37] Elisabeth Karg-Gasterstädt: Zur Entstehungsgeschichte des Parzival. Halle: Niemeyer 1925, S. 6.

[38] Vgl. zur Entstehungsgeschichte des Parzival, zur Schallanalyse nach Karg-Gasterstädt und ihrer Rezeption Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 83-105. (Fußnote 1).

[39] Vgl. Karl Kurt Klein: Zur Entstehungsgeschichte des Parzival. In: Beiträge 82 (1961), S. 13-28.

[40] Karl Kurt Klein: Zur Entstehungsgeschichte des Parzival, S. 27. (Fußnote 39).

[41] So etwa schon Adalbert Baier: Der Eingang des Parzival. In: Germania 25 (1880), S. 403-407. Des Weiteren vor allem Ludwig Grimm: Wolfram von Eschenbach und die Zeitgenossen, 1. Teil: Zur Entstehung des Parzival. Diss. Leipzig 1897, S. 28; Albert Schreiber: Neue Bausteine zu einer Lebensgeschichte Wolfram von Eschenbachs. In: Deutsche Forschungen, Heft 7. (Neudruck 1975) Frankfurt a. M. 1922, S. 9-14, hier S. 12; Arthur T. Hatto: Two notes on Wolfram and Chrétien. In: MLR 42 (1947), S. 243-246; Arthur T. Hatto: Zur Entstehung des Eingangs und der Bücher I und II des Parzival. In: ZfdA 84 (1952), S. 232-240; Jean Fourquet: Die Entstehung des Parzival. In: Wolfram-Studien 3 (1975), S. 20-27; Heinrich Hempel: Der Eingang von Wolframs Parzival. In: ZfdA 83 (1951), S. 162-180; Frederick Norman: Meinung und Gegenmeinung: die literarische Fehde zwischen Gottfried von Straßburg und Wolfram von Eschenbach. In: Miscellanea di studi in onore di Bonaventure Tecchi 1969, S. 67-86; Karl Kurt Klein: Zur Entstehungsgeschichte des Parzival, S. 27. (Fußnote 39); sowie Karl Bertau: Deutsche Literatur im europäischen Mittelalter. Bd. 2: 1195-1220. München: Beck 1973, S. 787f.

Dagegen schon Albert Nolte: Der Eingang des Parzival. Ein Interpretationsversuch. Marburg: Elwert 1900, S. 61.

[42] Zu den ausführlichen Ergebnissen siehe Friedrich Michael Dimpel: Computergestützte textstatistische Untersuchungen an mittelhochdeutschen Texten, S. 106 ff. (Fußnote 1); sowie <http://www.dimpel.de/ ermastat>.

[43] Z.B. für die Frage nach der Homogenität des Parzival-Textes. Vgl. Karl Bertau: Deutsche Literatur im europäischen Mittelalter, S. 788. (Fußnote 41).

[44] Allerdings gibt es nach wie vor ein starkes Gegenargument gegen die Priorität der Bücher III-VI: Erst ab Buch V setzt eine regelmäßige Gliederung des Parzival-Textes in Dreißigern ein. Vgl. dazu Arthur T. Hatto: Zur Entstehung des Eingangs und der Bücher I und II des Parzival, S. 238 ff. (Fußnote 41); gegen Hatto: Gesa Bonath: Untersuchungen zur Überlieferung des Parzival Wolframs von Eschenbach, Bd. 1 und 2. Lübeck/Hamburg: Matthiesen 1970/71, S. 124.

[45] Konrad Zwierzina: Beobachtungen zum Reimgebrauch Hartmanns und Wolframs. In: Abhandlungen zur germanistischen Philologie. (Festgabe für Richard Heinzel. Neudruck Hildesheim. Zürich/New York 1985) Halle: Olms 1901, S. 437-511.

[46] »Der Iwein ist nicht aus einem Guß; es klafft eine zeitliche Lücke nach den ersten tausend Versen, die sich nun vielleicht füllen läßt mit der offenbar bestellten dringlichen Arbeit ›Der arme Heinrich‹.« Arnold Schirokauer: Zur Interpretation des Armen Heinrich. In: ZfdA 83 (1951), S. 59-78, hier S. 61.

[47] Werner Schröder: Zur Chronologie der drei großen mittelhochdeutschen Epiker. In: DVjs 31 (1957), S. 264-302, insbes. S. 280-283; dagegen Volker Mertens: Laudine. Soziale Problematik im x Hartmanns von Aue. (ZfdPH Beihefte 3) Berlin 1978, S. 90-96; sowie Christoph Cormeau/Wilhelm Störmer: Hartmann von Aue: Epoche-Werk-Wirkung. München: Beck 1993, S. 26f.

[48] Die Anwendung meines Programmpakets auf den Erec ist angesichts der Überlieferungslage nicht unproblematisch, da der vollständige Text nur im bairischen Frühneuhochdeutsch des Ambraser Heldenbuchs vorliegt. Die vorliegende Ausgabe ist – wie alle mittelhochdeutschen Ausgaben – eine Rekonstruktion. Allerdings bestätigen die überlieferten Fragmente sowohl die überdurchschnittlich gute Qualität der Vorlage von Hans Ried als auch die Qualität der Rekonstruktion, so dass stilistische Vergleiche möglich sind. Ebenso wie meine textstatistischen Untersuchungen verwenden u.a. Zwierzina und Schröder den rekonstruierten mittelhochdeutschen Text als Grundlage für ihre stilistische Analyse.

Vgl. Werner Schröder: Zur Chronologie der drei großen mittelhochdeutschen Epiker. (Fußnote 47) und Konrad Zwierzina: Beobachtungen zum Reimgebrauch Hartmanns und Wolframs. (Fußnote 45). Zur Überlieferung des Erec vgl. Christoph Cormeau/Wilhelm Störmer: Hartmann von Aue., S. 22 ff. (Fußnote 47), Hartmann von Aue: Erec. Hg. v. Albert Leitzmann, fortgeführt von Ludwig Wolff. 6. Auflage, besorgt von Christoph Cormeau und Kurt Gärtner. Tübingen: Niemeyer 1985, S. XV ff.; Joachim Bumke: Untersuchungen zur Überlieferungsgeschichte der höfischen Epik im 13. Jahrhundert. Die Herbort-Fragmente aus Skokloster. Mit einem Exkurs zur Textkritik der höfischen Romane. In: ZfdA 120 (1991), S. 257-304. Hier S. 291f.; sowie Kurt Gärtner: Der Text der Wolfenbütteler Erec-Fragmente und seine Bedeutung für die Erec-Forschung. In: Beitr. 104 (1982), S. 207-230, hier S. 207 ff.

Vergleich für Text	Parzival- Wigalois	Wigalois- Tristan	Tristan- Willehalm	Parzival- Tristan	Wigalois- Willehalm	Parzival- Willehalm
Signifikanzwerte >95% gesamt in %	49.03%	49.81%	60.12%	61.67%	46.89%	34.63%
Signifikanzwerte >95% gesamt in % (Gruppenwerte)	67.65%	73.53%	70.59%	79.41%	72.06%	47.06%

Vergleich für Textsegment:	Typ 1- Typ 2	Typ 2- Typ 3	Typ 1- Typ 3	Gesamt
Signifikanzwerte >95% in %	11.65%	16.81%	16.27%	14.91%

Vergleich für Textsegment:	BG1-BG2	BG2-BG3	BG3-BG4	BG1-BG3	BG2-BG4	BG1-BG4	Gesamt
entspricht Text	Buch1/2 -Buch3/4	Buch3/4 -Buch5/6	Buch5/6 -Buch7/8	Buch1/2 -Buch5/6	Buch3/4 -Buch7/8	Buch1/2 –Buch7/8
Signifikanzwerte >95% in %	7.76%	7.02%	9.98%	11.47%	12.75%	13.68%	10.44%

Vergleich für Textsegment:	entspricht Text	Signifikanzwerte >95% in %
IWEIN 1 - IWEIN 2	Iw.1-1000~ Iw.1001-Ende	7.37%
IWEIN 2 - IWEIN 3	Iw.1001-Ende~ Iw.1001-5000	0%
IWEIN 3 - IWEIN 4	Iw.1001-5000~ Iw.5001-Ende	7.18%
IWEIN 4 - IWEIN 5	Iw.5001-Ende~ Erec	26.93%
IWEIN 1 - IWEIN 3	Iw.1-1000~ Iw.1001-5000	6.82%
IWEIN 1 - IWEIN 4	Iw.1-1000~ Iw.5001	7%
IWEIN 1 - IWEIN 5	Iw.1-1000~ Erec	15.27%
IWEIN 2 - IWEIN 4	Iw.1001-Ende~ Iw.5001	0.36%
IWEIN 2 - IWEIN 5	Iw.1001-Ende~ Erec	32.5%
IWEIN 3 - IWEIN 5	Iw.1001~ Erec	26.76%