Lüdeling / Poschenrieder / Faulstich: DeutschDiachronDigital

This paper describes plans for a diachronic corpus of German, which contains texts from Old High German to Modern German. In order to serve as a resource for research questions from many different fields (linguistics, literature, lexicography et cetera) the corpus must have a flexible architecture as well as a high degree of standardization of content. This flexibility is possible through a multi-layer standoff corpus model where the texts are stored in a central database. Standardization is ensured through common tagsets on each annotation level.

Einführung

Der vorliegende Aufsatz hat die Konzeption eines diachronen Korpus des Deutschen zum Gegenstand. Dieses Korpus soll Texte von den althochdeutschen und altsächsischen Anfängen der Überlieferung bis – in sinnvoller Auswahl – hin zum älteren Neuhochdeutsch (bis um 1900) enthalten. Zu entwickeln ist es im entstehenden Projekt DeutschDiachronDigital (DDD), einer bundesweiten Initiative von Forscherinnen und Forschern aus der (historischen) Philologie, der (historischen) Sprachwissenschaft sowie aus Literaturwissenschaft, Korpuslinguistik und Informatik. [1]

In diesem Beitrag beschreiben wir allgemein die Vision eines standardisierten diachronen Korpus des Deutschen, das für möglichst viele Nutzungsinteressen offen bleibt, und gehen dabei ganz speziell auf die bisher für das DDD-Projekt getroffenen Entscheidungen ein. Ausführlicher wird schließlich dargestellt, nach welchem Ablauf eine Quelle entsprechend den DDD-Maßgaben aufgearbeitet werden soll.

Motivation

Die Erstellung von historischen und diachronen Korpora ist sehr ressourcenintensiv und teuer. Das bedeutet, dass ein solches Korpus für möglichst viele unterschiedliche Interessen nutzbar sein muss.

Wir listen hier exemplarisch ein paar mögliche paläographische/typographische, lexikographische, sprachgeschichtliche, sprachwissenschaftliche, text- oder literaturwissenschaftliche Fragetypen, die an ein historisches und/oder diachrones Korpus herangetragen werden könnten, auf.

Ein Korpus als Textsammlung hat dabei gegenüber einer elektronisch vorliegenden Edition eines Textes den Zweck, dass die Texte miteinander vergleichbar sind. Das gilt sowohl innerhalb einer Sprachstufe als über Sprachstufen hinweg. Mit einem Korpus muss man qualitative genauso wie quantitative (statistische) Fragen beantworten können.

Vorwiegend diachrone oder sprachvergleichende qualitative Fragestellungen könnten sein:

Diese exemplarische Auswahl von Fragestellungen zeigt bereits, welche Eigenschaften ein diachrones Korpus haben muss: Es muss vergleichbare Texte aus verschiedenen Sprachstufen / Genres und so weiter enthalten, man muss einzelne Teilkorpora auswählen können, und die Texte müssen mit Meta-Informationen annotiert sein.

Obwohl bereits viele historische Texte elektronisch vorliegen[2], können bisher kaum systematische Untersuchungen über verschiedene Texte einer Sprachstufe oder über Sprachstufen hinweg durchgeführt werden: die Digital-Texte sind nicht miteinander vergleichbar, da sie sich in Diplomatizität, Feinkörnigkeit der bibliographischen Angaben und anderen Annotationen unterscheiden; außerdem sind die verschiedenen Sprachstufen des Deutschen unterschiedlich gut abgedeckt. Eine Hauptaufgabe von DDD ist es also, aus vielen unterschiedlichen Einzeltexten ein Korpus zu erstellen. Ein solches historisches Korpus muss einerseits eine möglichst flexible Architektur haben, damit jederzeit neue Texte und Annotationsebenen aufgenommen werden können und andererseits inhaltlich vieles standardisieren, damit vergleichende Untersuchungen möglich werden.

Beide Aspekte werden in den nächsten Abschnitten genauer dargestellt. Das Projekt ist stark interdisziplinär: in unserer Korpusarchitektur sind wir vor allem durch zwei Forschungsbereiche beeinflusst: die elektronische philologische Textverarbeitung (Computerphilologie, ›Humanistic Text Processing‹) und die Korpuslinguistik (Computerlinguistik, ‹Natural Language Processing›).[3]

Hintergrund: Computerphilologie[4]

In der Philologie sind in den letzten Jahrzehnten Methoden für die Volltextdigitalisierung (Retrodigitalisierung[5]) entwickelt worden, um Digital-Ausgaben zu erstellen. Gute Digital-Ausgaben sind keine reine Digitalisierung einer Textfassung, sondern verbinden sehr detailliert verschiedene Textfassungen miteinander und mit einem kritischen Apparat und manchmal mit weiteren Ressourcen, zum Beispiel mit Wörterbüchern (wie im Projekt Mittelhochdeutsches Wörterbuch[6]) oder mit einer Stemma-Berechnung[7]; in vielen Fällen sind Digital-Ausgaben seitenweise mit Digital-Faksimiles aligniert. Allgemein enthalten solche Digital-Editionen viel Wissen über einen einzelnen Text, aber wegen der fehlenden Standardisierung gibt es, wie bereits dargestellt, oft keine Vergleichsmöglichkeiten zwischen den Texten; diachrone Studien sind nur schwer möglich.

In einem Korpus kann nicht jeder Text die gleiche sorgfältige philologische Behandlung erfahren, wie es in Einzel-Editionen möglich ist. Trotzdem übernehmen wir aus der Computerphilologie hohe Ansprüche an die Diplomatizität (Urkundentreue), ferner die Möglichkeiten, zu einem Text weitere Informationen hinzuzufügen, etwa Digital-Faksimiles zu alignieren.

Hintergrund: Korpuslinguistik

Während sich die philologische Textverarbeitung zumeist auf die sehr detaillierte Erfassung und Beschreibung einzelner Texte (oder Werke eines bestimmten Autors) bezieht, beschäftigt sich die Korpuslinguistik mit Textsammlungen[8]. Dabei liegt der Schwerpunkt eindeutig auf der (automatischen) Verarbeitung großer Textmengen aus modernen Sprachstufen[9] – auch wenn natürlich historische Korpora und andere sogenannte ›special corpora‹ (im Sinne von Sinclair; siehe unten) bestehen[10]. Es gibt viele Definitionen von ›Korpus‹, wir beziehen uns hier auf eine relativ eng gefasste von John Sinclair:

A corpus is a collection of pieces of language that are selected according to explicit linguistic criteria in order to be used as a sample of the language [...] A computer corpus is a corpus which is encoded in a standardised and homogeneous way for open-ended retrieval tasks. Its constituent pieces of language are documented as to their origin and provenance. [11]

Aus dem Zitat wird deutlich, wie sich Korpora von Digital-Ausgaben unterscheiden: Ein Korpus besteht aus mehreren Texten, die nach vorgegebenen Kriterien ausgewählt, und – im Gegensatz zur Digital-Ausgabe – standardisiert und mit weiteren Angaben versehen (annotiert) sind. Bevor wir im Folgenden die einzelnen Bereiche Korpuszusammensetzung, Annotation und Auswertung in DDD genauer besprechen, möchten wir kurz einige Eigenschaften großer Korpora beschreiben und zeigen, welche wir übernehmen.

Bisher sind die meisten Korpora in einer flachen Datei gespeichert, in der alle Annotationen an einzelnen Wörtern (Tokens) hängen. Jede Annotationsebene (also etwa Lemma oder Wortart; siehe nächsten Abschnitt) ist durchgängig für das ganze Korpus annotiert. Bei großen Korpora moderner Sprachstufen erfolgt die Annotation automatisch, wobei eine gewisse Fehlerrate in Kauf genommen wird. Für DDD wäre eine solche flache Dateistruktur nicht passend: es muss möglich sein, jederzeit Annotationsebenen hinzuzufügen, ohne dabei die bestehenden Ebenen zu stören; und es muss möglich sein, ausgewählte Teile eines Korpus mit zusätzlichen Annotationsebenen zu versehen. In den letzten Jahren sind mit den sogenannten Stand-off-Korpora passendere Korpusmodelle entwickelt worden.[12] In Stand-off-Korpora werden die Daten in einer Referenzdatei (Timeline) gespeichert; die Annotationsebenen sind dann getrennte Dateien, die jeweils auf bestimmte Stellen in der Referenzdatei verweisen.

Korpuszusammensetzung

Die Zusammensetzung eines Korpus bestimmt, wofür das Korpus eingesetzt werden kann. Da das DDD-Korpus für viele unterschiedliche Forschungsfragen genutzt werden soll, muss die Zusammensetzung möglichst ›repräsentativ‹ sein[13]. Außerdem muss die Möglichkeit offen bleiben, jederzeit weitere Texte hinzuzufügen.

Für vergleichende Untersuchungen – seien dies Untersuchungen zum Sprachwandel, Genrevergleiche oder auch lexikographische Untersuchungen – ist eine Vergleichbarkeit über verschiedene Sprachstufen hinweg nötig; im Idealfall sollte sich also nur ein einziger Parameter (zum Beispiel: Zeit) unterscheiden, während alle anderen Parameter (wie Textsorte, Formalisierungsgrad) gleichbleiben. Das ist natürlich bei älteren Sprachstufen schwerer möglich als bei heutigen: Zum einen, weil sich viele Textsorten (wie Roman oder Tageszeitungsberichte) erst später entwickelt haben und andere (wie Evangelienharmonien) verschwunden sind, und zum anderen, weil viel weniger Material erhalten ist. Man erzielt also immer nur in Teilbereichen Kontinuität. Wenn man eine Matrix aller relevanten Parameter aufstellt (beispielsweise Sprachstufe, Textsorte und Dialekt), bleiben besonders bei historischen Korpora zwangsläufig einige Zellen leer[14].

In DDD werden die Texte nach den Parametern Zeit, Dialekt und Textsorte ausgewählt. Die daraus entstehende Matrix ist allerdings nur für die Sprachstufen Mittelhochdeutsch und Frühneuhochdeutsch wirklich anwendbar. Davor gibt es zu wenige Texte, daher werden alle größeren althochdeutschen und altsächsischen Texte aufgenommen. Danach gibt es zu viele Texte, daher beschränken wir uns im älteren Neuhochdeutschen zunächst auf die drei hochsprachlichen Textsorten Roman, Zeitung und Brief.

In Sinclairs Definition oben ist von »pieces of language« die Rede, nicht von ›Texten‹. In manchen Korpora werden bewusst statt ganzer Texte nur Textausschnitte einer gewissen Länge aufgenommen, damit diese direkt miteinander verglichen werden können. DDD hat dagegen die Entscheidung getroffen, wenn möglich, immer ganze Texte aufzunehmen. Bei der Abfrage können dann beliebig lange Textausschnitte ausgewählt werden.

Annotation

Für viele Fragestellungen ist es entscheidend, dass man die Sprachdaten annotiert, also mit Metadaten versieht.

In der Korpuslinguistik werden meist drei Typen von Annotationen unterschieden: Header-Annotationen, positionelle Annotationen und strukturelle Annotationen[15] – in unserem Korpusmodell sind alle Annotationen zur Struktur auch positionell.[16]

Header-Annotationen sind Auszeichnungen zu einem ganzen Text im Korpus. Dazu gehören etwa grundsätzliche Angaben über Textgeschichte, über Urheberschaft und Textsorte, über die Schreiberhände oder das Vorkommen von Sonderzeichen genauso wie Angaben über Vorverarbeitungsstandards und -werkzeuge. Viele dieser Angaben werden sinnvollerweise strukturiert, der Rest als Klartext beigefügt. Es gibt hier bereits sehr detaillierte Standards von der Text Encoding Initiative, auch umgesetzt im Corpus Encoding Standard[17] von EAGLES, an die sich das DDD-Projekt halten wird. Die erlaubten Annotationswerte werden im Projekt unter Rückgriff auf etablierte oder sich entwickelnde Standards, zum Beispiel ISO/TC 37/SC 4[18] standardisiert.

Detaillierte Header-Informationen ermöglichen die Zusammenstellung von Subkorpora (zum Beispiel alle Texte aus dem 16. Jahrhundert oder alle Briefe, die von Frauen geschrieben wurden). Dies ist für viele vergleichende Untersuchungen notwendig.

Positionelle Annotationen sind Angaben zu einer bestimmten Korpusposition. Im Gegensatz zu den meisten bisher üblichen Korpora ist bei uns die Bezugsgröße nicht ein Token (also in etwa ein graphisches Wort), sondern ein Zeichen. Für jeden Typ von Angaben wird eine Annotationsebene definiert. Für jede Annotationsebene gibt es ein Tagset, das die möglichen Werte spezifiziert, und Annotationsrichtlinien. Im Prinzip kann es in unserem Korpusmodell beliebig viele Annotationsebenen geben. Beispiele sind eine paläographische Ebene mit Angaben, die sich auf die Schriftzeichen beziehen, wie etwa Initialbuchstabe, Schriftfarbe und so weiter; eine Ebene zur physischen Struktur, die Zeilen, Seiten et cetera markiert; eine Ebene zur logischen Struktur, die Sätze, Absätze und dergleichen angibt, und eine Ebene zur Lemma-Annotation von Wortformen und so fort.

Eine Sonderform der positionellen Auszeichnung ist die sogenannte Alignierung, bei der die Annotation nicht aus der Zuweisung einer metatextlichen Angabe besteht, sondern aus der In-Bezug-Setzung einer oder mehrerer Textspannen der einen Textebene mit einer oder mehreren entsprechenden Textspannen derselben oder einer anderen Textebene. Beispiele sind die Alignierung von lateinischem Original und althochdeutscher Entsprechung in Interlinear-Übersetzungen oder die Alignierung von Digital-Texten mit Digitalfaksimile-Abschnitten.

Wie erwähnt, können in DDD im Prinzip beliebig viele Annotationsebenen eingeführt werden. Die Architektur kann Texte mit unterschiedlichen Auszeichnungsebenen verarbeiten. Um vergleichende Untersuchungen zu ermöglichen, haben wir uns jedoch auf einige Standards geeinigt: Die meisten Texte (das sogenannte Kernkorpus) werden mit Lemmanamen, Wortart und Flexionsmorphologie annotiert. Dabei werden wir uns für die Wortarten und Flexionsmorphologie möglichst an das Stuttgart-Tübingen-Tagset STTS[19] anlehnen. Die Lemma-Annotationen sind problematischer: Jede Sprachstufe wird eine eigene Normalisierung und Abbildung auf Lemmanamen vornehmen. Zusätzlich ist ein Hyperlemma-System vorgesehen, das die Lemmanamen der verschiedenen Sprachstufen miteinander in Beziehung setzt. Dies ist schwierig, da etymologische und semantische Beziehungen zwischen den Lemmata einander entgegenstehen können.[20]

Im Gegensatz zur automatischen Annotation für Korpora moderner Sprachen werden wir im DDD-Projekt manuell oder semi-automatisch annotieren. Dies liegt zum einen an fehlenden Ressourcen wie elektronischen Lexika und an der großen Unterschiedlichkeit der Texte (dies erschwert sowohl regelbasierte als auch statistische Verfahren) und zum anderen an den hohen Qualitätsansprüchen an ein historisches Korpus: Fehlerraten von zum Beispiel 5% oder mehr sind nicht akzeptabel.

Technische Architektur des Korpus

In diesem Absatz wird die technische Architektur kurz angerissen. Abbildung 1 zeigt die geplante Systemarchitektur. Wir sehen eine web-basierte Client-Server-Architektur vor, um die technischen Zugangsvoraussetzungen für die Benutzer und Benutzerinnen möglichst niedrig zu halten. Für die Abfrage des DDD-Korpus wird zunächst nur ein Web-Browser und eventuell ein PDF-Viewer benötigt. Bearbeiter von Texten des Korpus benötigen prinzipiell nur einen allgemeinen XML-Editor. Es soll jedoch ein für das verwendete XML-Format speziell angepasster Editor im Rahmen des Projekts bereitgestellt werden, welcher eine komfortablere und besser geführte Eingabe dieses Formats erlaubt. Ebenso sollen für die grammatikalische Annotation übliche Annotationswerkzeuge genutzt und – falls erforderlich – geeignet angepasst werden. Die offline bearbeiteten Texte werden mittels Web-Browser zum Server hochgeladen und durch geeignete Import-Module in die Korpus-Datenbank eingepflegt, die auf einem zentralen Server in einem relationalen Datenbanksystem vorgehalten wird.[21]

Auf diese Datenbank kann über einen Web-Server zugegriffen werden, wobei die Such-, Import- und Export-Funktionalität durch zwischengelagerte Module in der Anwendungslogik-Schicht implementiert wird.

Wir sehen unterschiedlich komplexe Suchoberflächen für unterschiedliche Nutzergruppen – von Gelegenheitsnutzern bis hin zu Expertennutzern – vor. Die Anforderungen an diese Suchfunktionalität werden weiter unten noch genauer besprochen.[22] Die Export-Module stellen die Texte des Korpus beziehungsweise Ausschnitte davon inklusive wählbarer Annotationsschichten in unterschiedlichen Dokumentformaten bereit. Als primäre Formate sehen wir XHTML für die Bildschirmrepräsentation, PDF für Druck und Offline-Präsentation sowie ein TEI-konformes[23] XML-Format für die Offline-Analyse und Bearbeitung vor. Zusätzliche Import- und Export-Formate können durch Hinzufügen entsprechender Module unterstützt werden.

Suche und Auswertung

Im Gegensatz zu Digital-Ausgaben, bei denen die Suche nach einzelnen Textstellen über eine Volltextsuche im Vordergrund steht, erfordern die umfangreichen Annotationen eines linguistischen Korpus wie des DDD-Korpus ungleich komplexere Suchmöglichkeiten. Im Allgemeinen sucht man mit einer Anfrage nach Textabschnitten und Annotationen, die in einer bestimmten Beziehung zueinander stehen; sollen zum Beispiel alle Sätze gefunden werden, in denen das Wort mit dem Lemmanamen ›sagen‹ in der 1. Person Plural auftritt, so setzt das Suchergebnis für jeden Treffer jeweils eine Satz-Annotation s, eine Wort-Annotation w, eine Lemma-Annotation l und eine flexionsmorphologische Annotation f miteinander in Beziehung, wobei folgende Bedingungen erfüllt sein müssen:

Damit ergeben sich folgende Anforderungen an eine angemessene Suchfunktionalität für DDD:

Wie in Faulstich und andere[24] näher beschrieben, orientieren wir uns beim Entwurf der Anfragesprache und Suchoberflächen an existierenden Lösungen zur Korpusanfrage wie am Corpus Query Processor[25] und an TigerSearch[26].

Zusätzlich zur Suche sollen auch quantitative Auswertungen (Stichwort: ›deskriptive Statistik‹) unterstützt werden, etwa die relative Häufigkeit bestimmter Lemmata abhängig vom Texttyp oder die Erkennung statistisch auffälliger Muster wie zum Beispiel Kollokationen[27] und von Trends, so etwa im Lauf der Zeit in Mode kommende Konstruktionen.

Bei der Suche nach Textspannen und Annotationen, aber auch bei quantitativen Untersuchungen müssen die Ergebnisse geeignet präsentiert werden. Suchergebnisse müssen im Kontext der zugrundeliegenden Texte (im Sinne von Konkordanzen) ausgegeben werden, wobei der Benutzer die engere Text-Umgebung eines Treffers nicht nur sehen, sondern, von dort ausgehend, auch den gesamten Text erkunden können soll. Es sind verschiedene Darstellungsarten denkbar, die vom Benutzer wähl- und anpassbar sein müssen. Insbesondere müssen die unterschiedlichen Text-, Annotations- und Bildebenen parallel oder alternativ sichtbar gemacht werden können und miteinander geeignet verlinkt sein. Zur Anzeige quantitativer Ergebnisse müssen entsprechende Tabellen oder Graphiken generiert werden.

Arbeitsablauf bei der Aufarbeitung eines Textes in DDD

In diesem Abschnitt schildern wir grob die DDD-Bearbeitungsschritte, welche ein in das Korpus einzugliedernder Text nach jetziger Planung idealerweise erfahren soll; schematisch ist dies in Abbildung 2 zusammengefasst.

Grundsätzlich soll möglichst von den Primärtexten ausgegangen werden, also von Original-Handschriften oder Original-Drucken; beide liegen entweder als Urstück oder in papier- oder filmfaksimilierter Gestalt zur Bearbeitung vor. Zudem gibt es von vielen Original-Texten mehr oder minder handschriftgetreue Druckausgaben, welche zu Rate gezogen werden können (und in einigen Fällen sogar als eigene zu digitalisierende ›Primärquelle‹ gewertet werden).

Als erstes wird der zu bearbeitende Text in möglichst allen greifbaren primären (Original-Handschriften oder -Drucke) und sekundären Quellen (Papier- oder Film-Faksimiles und Druck- oder Digital-Ausgaben) gesichtet und bei Eignung und Verfügbarkeit in die Arbeit einbezogen; dabei wird es nur selten vorkommen, dass man beim Digitalisieren eine Originalquelle vorliegen hat; der Regelfall wird sein, dass entweder die digitale Fassung einer Ausgabe vorliegt, die dann noch mit einem Faksimile abzugleichen und dabei in den DDD-Standard zu überführen ist, oder aber dass unter Zuhilfenahme von Druck-Ausgaben von einem Faksimile weg eine Digitalfassung neu erstellt wird. In jedem Fall werden die Digitalfassungen in Einzelfragen noch am ›Urstück‹ (dem nichtreproduzierten Original) entlanggeführt werden müssen.

Setzen wir uns zur Veranschaulichung folgendes Digital-Faksimile als Ausgangspunkt[25]:

Bei der Herstellung eines DDD-Textes sollen als erstes im Header die nötigen Angaben ausgefüllt werden (weitgehend nach den Vorgaben der Text Encoding Initiative). Hier zum Beispiel:

Danach soll ein möglichst gutes Digital-Faksimile – wenn bereits verfügbar – übernommen oder aber selbst eingescannt werden, das dann mit dem Text aligniert werden kann. Im Projektantrag versprechen wir eine seitenweise Alignierung, wir werden aber versuchen, genauer zu sein und möglichst textwortweise zu alignieren.

Dann erfolgt unter Ausnutzung verfügbarer vorhandener Arbeiten (etwa bereits elektronisch erfasster Texte, aber auch bestehender Druck-Ausgaben, Druck-Konkordanzen und Druck-Textwörterbücher) eine den DDD-Maßgaben genügende eng-diplomatische Transliteration. Die jeweils urkundengetreueste (idealerweise also die eng-diplomatische) Fassung ist die Referenzfassung für alle weiteren Schritte. DDD nimmt alle Texte, die bis hierher bearbeitet sind, in das sogenannte Erweiterungskorpus auf.

Tabelle 1: Eng-diplomatische Transliteration der ersten Zeile
der Sachsenspiegel-Handschrift

Aus der eng-diplomatischen Fassung erstellen wir abstrahierend eine weit-diplomatische Textfassung, welche im Unterschied zu ersterer nicht mehr alle allographischen Feinheiten beibehält, sondern etwa Kürzelstriche oder Schlussbuchstabenformen normalisierend auflöst beziehungsweise vereinheitlicht. Den sprachwissenschaftlichen Annotationen dürfte sinnvollerweise diese Textfassung zugrundegelegt werden, da sie einerseits nicht mit schreiberischen/druckerischen Feinheiten des Originals überfrachtet ist, andererseits aber so urkundennah ist, dass die allermeisten sprachlich wichtigen Merkmale abfragbar sind.

Man hat also gewissermaßen zwei Sichten auf den Text (die natürlich miteinander verbunden sind). An jede Fassung können geeignete positionelle Annotationen andocken. Zweckmäßigerweise an die eng-diplomatische Fassung können Größen wie graphische Struktur, Schreiberhände, Schriftarten, Tintenfarben, Schriftverblassungen oder Pergamentschäden annotiert werden (Tabelle 4), an die weit-diplomatische die logische Struktur, Lemmanamen, flexionsmorphologische Angaben und so weiter (Tabelle 5).

Tabelle 4: Mögliche Annotationsebenen der eng-diplomatischen Fassung
(›i‹ steht für ›Initiale‹, ›Lg‹ für ›Ligatur‹, ›r‹ für ›rot‹)

Alle Textfassungen und Annotationsebenen sind zeichen- oder zeichenkettenweise miteinander aligniert. Zu jedem Text können dann jederzeit weitere Annotationsebenen (zum Beispiel syntaktische Struktur oder literaturwissenschaftliche Angaben) hinzugefügt werden.

Die Ablage aller Digital-Faksimiles, aller Digitaltextfassungen und aller Zusatzannotationen erfolgt zentral auf dem DDD-Server.

Zusammenfassung

In diesem Papier haben wir die Konzeption eines diachronen Korpus des Deutschen dargestellt, das Texte vom 9. bis zum 19. Jahrhundert enthalten und für möglichst viele textbezogene Wissenschaften zugänglich und nutzbar sein soll.

Ein solches multilinguales und multimodales Korpus braucht zum einen eine Architektur, die das Hinzufügen von Texten und Annotationsebenen erlaubt, zum anderen eine weit reichende Standardisierung innerhalb der Annotationsebenen. Wir haben gezeigt, wie das DDD-Projekt (nach heutigem Planungsstand) diese Anforderungen umsetzen wird. Zum Schluss haben wir erläutert, wie ein Text für das Korpus bearbeitet werden soll.

Wir hoffen, mit DDD in naher Zukunft eine wertvolle und langfristig nutzbringende Forschungsressource für die Linguistik, die Philologie und alle an historischen Texten Interessierten erstellen zu können.

Anke Lüdeling, Thorwald Poschenrieder und Lukas Faulstich (Berlin)

Juniorprofessorin Anke Lüdeling,
Thorwald Poschenrieder, Dr. Lukas Faulstich
Korpuslinguistik
Institut für deutsche Sprache und Linguistik
Humboldt-Universität zu Berlin
Unter den Linden 6
D–10099 Berlin
anke.luedeling@rz.hu-berlin.de

<http://www.linguistik.hu-berlin.de/korpuslinguistik>

(7. Februar 2005)

[1] Dieser Beitrag beschreibt einen Planungszustand – kein fertiges Korpus. An der DDD-Initiative sind 12 Universitäten zuzüglich weiterer Forschungseinrichtungen aus Deutschland beteiligt; zusätzlich gibt es eine Reihe ausländischer Kooperationspartner. Der Förderungsantrag ist eingereicht, es gibt aber zum Zeitpunkt der Abgabe dieses Manuskripts (November 2004) noch keine Finanzierungszusage. Genaueres zum Projekt findet sich unter <http://www.deutschdiachrondigital.de>. Die beschriebenen Entscheidungen zu Korpuszusammensetzung, Annotationsebenen und dergleichen sind im Projekt im großen Kreise getroffen worden; das heißt, dass viele Fachleute eingebunden waren und wir hier Ergebnisse berichten, die nicht nur von uns getragen werden. Lediglich in Einzelfragen werden wir hier teilweise etwas genauer als bereits abgestimmt. Das Korpus wird sukzessive aufgebaut; dabei stehen alle vorhandenen Texte jederzeit der Öffentlichkeit über einen Webserver zur Verfügung.

In einem Vorprojekt namens ›Komplexe Datenbasen‹ (finanziert von der Senatsverwaltung für Wissenschaft, Forschung und Kultur, Berlin) sind die Korpusarchitektur und die zugrundeliegende Datenbankstruktur entwickelt worden (Siehe dazu Stefanie Dipper/Lukas Faulstich/Ulf Leser/Anke Lüdeling: Challenges in Modelling a Richly Annotated Diachronic Corpus of German. In: Proceedings of the Workshop on XML-Based Richly Annotated Corpora. Post-Conference Workshop der LREC 2004. Lissabon: 2004. <http://www.deutschdiachrondigital.de/publikationen/dipper_etal_XBRAC04.pdf> (21.11.2004)).

[2] Für einen Überblick siehe Emil Kroymann/Sebastian Thiebes/Anke Lüdeling/Ulf Leser: Eine vergleichende Analyse von historischen und diachronen digitalen Korpora. Technischer Bericht. Institut für Informatik, Humboldt-Universität zu Berlin 2004.

<http://www.informatik.hu-berlin.de/Forschung_Lehre/wbi/publications/2004/tr174_corpora.pdf> (27.01.2005).

[3] Diese Einteilung (In Anlehnung an Antonio Zampolli: Past&On-Going Trends in Computational Linguistics: a View from the Instituto die Linguistica Computizionale. In: The ELRA Newsletter 8/3 (2004), S. 6–16.) kann sicher nicht immer sauber durchgehalten werden.

[4] Dieser Abschnitt ist kurz gehalten, weil wir davon ausgehen, dass die Methoden und Hintergründe der Leserschaft dieser Zeitschrift gut bekannt sind (für einen Überblick siehe Susan Hockey: Electronic Texts in The Humanities: Principles and Practice: New York: Oxford University Press 2001; Thomas Burch/Johannes Fournier/Kurt Gärtner/Andrea Rapp (Hg.): Standards und Methoden der Volltextdigitalisierung. Beiträge des Internationalen Kolloquiums an der Universität Trier, 8./9. Oktober 2001. Mainz: Akademie der Wissenschaften und der Literatur 2003, oder die Beiträge zur Tagung ›The State of the Art in Humanities Computing‹ im Jahresband 2003 dieser Zeitschrift). Wir konzentrieren uns daher mehr auf Methoden und Ziele der Korpuslinguistik.

[5] Wir beschäftigen uns hier nicht mit einer reinen Faksimile-Digitalisierung.

[6] <http://www.mhdwb.uni-trier.de/> (21.11.2004).

[7] Wie im Canterbury Tales Project; Norman Blake/Peter Robinson (Hg.): The Canterbury Tales Project: Occasional Papers (Bände I–II). Office for Humanities Communication, Center for Computing in the Humanities. London: King’s College 1993–1997. <http://www.cta.dmu.ac.uk/projects/ctp/index.html (21.11.2004).

[8]Graeme Kennedy: An Introduction to Corpus Linguistics. London: Longman 1998; Tony McEnery/Andrew Wilson: Corpus Linguistics. Edinburgh: Edinburgh University Press 2003.

[9]Chris Manning/Hinrich Schütze: Foundations of Statistical Natural Language Processing. Cambridge (MA): MIT-Press 1999.

[10] Das erste elektronisch vorliegende Korpus war ein historisches (Roberto Busa: Index Thomisticus. Sancti Thomae Aquinatis operum omnium indices et concordantiae in quibus verborum omnium et singulorum formae et lemmata cum suis frequentiis et contextibus variis modis referuntur, quaeque auspice Paulo VI Summo Pontifice consociata plurium opera atque electronico IBM automato usus digessit Robertus Busa. Stuttgart: Frommann-Holzboog 1974–1980.).

[11] John Sinclair: EAGLES. Preliminary Recommendations on Corpus Typology. Pisa: Consiglio Nazionale delle Ricerche. Istituto di Linguistica Computazionale. 1996. <http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html> (21.11.2004).

[12] Stand-off-Modelle sind vor allem für multimodale Korpora entwickelt worden, in die ein Sprachsignal mit seiner Transkription und eventuell noch weiteren Informationen aus anderen Modi wie zum Beispiel Gestik verknüpft werden muss. Das Sprachsignal bildet den Zeitstrahl (Timeline), auf den sich alle weiteren Ebenen beziehen. Im NITE-Projekt (Natural Interactive Tools Engineering <http://homepages.inf.ed.ac.uk/jeanc/nlpxml2003.final.pdf> (21.11.2004)), an das wir uns anlehnen, wird eine allgemeine Architektur für Stand-off-Korpora entwickelt (Jean Carletta/Jonathan Kilgour/Tim O'Donnell/Stefan Evert/Holger Voormann: The NITE Object Model Library for handling Structured Linguistic Annotation on Multimodal Data Sets. In: Proceedings of the EACL Workshop on Language Technology and the Semantic Web. 2003. <http://homepages.inf.ed.ac.uk/jeanc/nlpxml2003.final.pdf> (21.11.2004).). Viele Stand-off-Korpora sind in XML kodiert, siehe etwa den CES-Standard in Fußnote 17).

[13] Der Begriff ist insofern problematisch, als man die Grundgesamtheit ja nicht bestimmen kann; für verschiedene Fragestellungen kann man unterschiedliche Repräsentativitätsbegriffe entwickeln, siehe zum Beispiel Thomas Klein: Zur Frage der Korpusbildung und zur computergestützten grammatischen Auswertung mittelhochdeutscher Quellen. In: Wegera, Klaus-Peter (Hg.): Mittelhochdeutsche Grammatik als Aufgabe. Zeitschrift für deutsche Philologie 110 (Sonderheft) 1991, S. 3–23; Douglas Biber: Representativeness in Corpus Design. In: Literary and Linguistic Computing 8 (1993), S. 243–257; Hans-Joachim Solms/Klaus-Peter Wegera: Das Bonner Frühneuhochdeutschkorpus. Rückblick und Perspektiven. In: Rolf Bergmann (Hg.): Probleme der Textauswahl für einen elektronischen Thesaurus. Stuttgart: Hirzel 1998, S. 22–39.

[14] Siehe dazu zum Beispiel die Diskussionen in Matti Rissanen/Merja Kytö/Minna Pallander: Early English in the Computer Age: Explorations through the Helsinki Corpus: Berlin: Mouton de Gruyter 1993.

[15] Siehe zum Beispiel Stefan Evert/Arne Fitschen: Textkorpora. In: Ralf Klabunde u. a. (Hg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg: Spektrum Akademischer Verlag 2004, S. 406–413.

[16] Die Unterscheidung von Annotationen in ›strukturell‹ und ›positionell‹ beruht auf einem flachen Korpusmodell, in dem die Tokens als sogenannte Textpositionen geführt wurden. Positionelle Annotationen hängen dann jeweils an einem oder mehreren Token(s), während strukturelle zwischen den Tokens stehen. Diese Terminologie passt technisch nicht zu unserem Stand-off-Modell: Wir behandeln alle Annotationen positionell (Strukturangaben beziehen sich hier also auch immer auf Zeichen oder Zeichenketten).

[17] CES (Corpus Encoding Standard for XML) <http://www.xml-ces.org/> (21.11.2004).

[18] <http://www.tc37sc4.org/> (21.11.2004).

[19] Anne Schiller/Simone Teufel/Christine Thielen/Christine Stöckert: Guidelines für das Taggen deutscher Textkorpora mit STTS. Stuttgart/Tübingen: IMS Stuttgart und SfS Tübingen: 1995. <http://www.sfs.uni-tuebingen.de/Elwis/stts/stts-guide.ps.gz > (19.11.2004).

<http://www.sfs.nphil.uni-tuebingen.de/Elwis/stts/stts.html> (21.11.2004).

[20] Siehe dazu Paul Gévaudan: Klassifikation des lexikalischen Wandels. Semantische, morphologische und stratische Filiation. Dissertation, Universität Tübingen 2002. <http://homepages.uni-tuebingen.de/paul.gevaudan/Filiation.pdf> (19.11.2004).

[21] Das zugrundeliegende Datenmodell und die Konversion in andere Formate werden genauer beschrieben in Stefanie Dipper/Lukas Faulstich/Ulf Leser/Anke Lüdeling: Challenges in Modelling a Richly Annotated Diachronic Corpus of German. In: Proceedings of the Workshop on XML-Based Richly Annotated Corpora. Post-Conference Workshop der LREC 2004. Lissabon 2004. <http://www.deutschdiachrondigital.de/publikationen/dipper_etal_XBRAC04.pdf> (21.11.2004).

[22] Technische Lösungsansätze dafür werden diskutiert in Lukas Faulstich/Ulf Leser/Anke Lüdeling: Storing and Querying Historical Texts in a Relational Database. (Informatik-Berichte 176) Institut für Informatik, Humboldt-Universität zu Berlin 2005. <http://edoc.hu-berlin.de/docviews/abstract.php?lang=ger&id=25231 (26.04.2005).

[23] TEI (Text Encoding Initiative) <http://www.tei-c.org/> (21.11.2004).

[24] Lukas C. Faulstich/Ulf Leser/Anke Lüdeling: Storing and Querying Historical Texts in a Relational Database. (Fußnote 22).

[25] Oliver Christ: A modular and flexible architecture for an integrated corpus query system. In: Proceedings of COMPLEX'94: 3rd Conference on Computational Lexicography and Text Research. Budapest: Research Instiute for Linguistics; Hungarian Academy of sciences 1994 <http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/> (21.11.2004).

[26] Sabine Brants/Stefanie Dipper/Silvia Hansen/Wolfgang Lezius/George Smith: The TIGER Treebank. In: Proceedings of the Workshop on Treebanks and Linguistic Theories, September 20–21. Bulgaria: Sozopol 2002. <http://www.coli.uni-sb.de/~sabine/tigertreebank.pdf> (21.11.2004); Wolfgang Lezius: Ein Suchwerkzeug für syntaktisch annotierte Textkorpora in: Arbeitspapiere des Instituts für Maschinelle Sprachverarbeitung 8/4 (2002). <http://www.ims.uni-stuttgart.de/projekte/corplex/paper/lezius/diss/disslezius.pdf> (21.11.2004).

[27] Stefan Evert: The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation, Universität Stuttgart 2004 <http://collocations.de/> (27.01.05).

[28]Dies sind die ersten Zeilen der Heidelberger Handschrift des Sachsenspiegels. Ein Digital-Faksimile der gesamten Handschrift findet sich unter: <http://digi.ub.uni-heidelberg.de/sammlung2/cpg/cpg164.xml?docname=cpg1648cvageid=PAGE0001>

<DDDCorpus>
	<DDDHeader>
		<title>
		<h.title>Sachsenspiegel</h.title>
		</title>
		<author>
		<h.author>Eike von Repgow</h.author>
		</author>
	</DDDHeader>
</DDDCorpus>

1	2	3	4	5	6	7	8	9	10	11	…
S	w	e	r	l	e	n	r	e	c	h	t		k	ů	n	n	e	n		w	i	l	·			v	o	l	g	e

S	w	e	r	l	e	n	r	e	c	h	t		k	ů	n	n	e	n		w	i	l	·			v	o	l	g	e
S	w	e	r	l	e	n	r	e	c	h	t		k	ů	n	n	e	n		w	i	l	·	der		v	o	l	g	e

S	w	e	r	l	e	n	r	e	c	h	t		k	ů	n	n	e	n		w	i	l	·			v	o	l	g	e
S	w	e	r	l	e	n	r	e	c	h	t		k	ů	n	n	e	n		w	i	l	·	der		v	o	l	g	e

S	w	e	r	l	e	n	r	e	c	h	t		k	ů	n	n	e	n		w	i	l	·			v	o	l	g	e
S	w	e	r	l	e	n	r	e	c	h	t		k	ů	n	n	e	n		w	i	l	·	der		v	o	l	g	e

DEUTSCHDIACHRONDIGITAL –EIN DIACHRONES KORPUS DES DEUTSCHEN