KUWALU – Motivation und Grundzüge einer
computergestützten Umgebung für die literatur- und
kulturwissenschaftliche Recherche- und Analysearbeit

Abstract

Over the last years, the digital archiving, administration, and processing of texts has become more and more important in various fields of academic research. Particularly for literary and cultural studies, the digital storage and handling of great amounts of texts – an endeavor which has already been labelled with the keyword eHumanities (enhanced Humanities) – bears an enormous potential. There is, however, still a lack of applications appropriately supporting specific approaches in these fields of research. In this article, we thus propose basic design principles of a computational environment for literary and cultural investigation, id est a platform providing advanced search facilities which are tailored to the needs of scholars of literature and culture (KUWALU = Kulturwissenschaftliche Arbeits- und Lern-Umgebung). We both sketch the theoretical fundamentals of such a platform and outline specific requirements it has to fulfil. Furthermore, we discuss possible ways of implementing these requirements, in particular focussing on computational linguistic methods from Computational Linguistics supporting »intelligent« search facilities and the need for comprehensibility and traceability of complex search queries and results.

[1]

Im Computerzeitalter gewinnt die digitale Archivierung, Verwaltung und Bearbeitung von Texten zunehmend an Bedeutung. Auch in den Philologien hat die digitale Speicherung und Aufbereitung kulturellen Wissens unter dem Stichwort eHumanities (enhanced Humanities) bereits Einzug gehalten. Obwohl das Potential dieser neuen Form der Textdatensammlung und -systematisierung für die Literatur- und Kulturwissenschaft unverkennbar ist, fehlt es bisher an Anwendungen, welche spezifische literatur- beziehungsweise kulturwissenschaftliche Herangehensweisen gezielt unterstützen. In diesem Beitrag schlagen wir Grundzüge einer computergestützten Umgebung für die kultur- und literaturwissenschaftliche Recherche vor. In Abschnitt 1 skizzieren wir zunächst kurz die literaturtheoretischen Grundlagen eines solchen Projekts und leiten daraus spezifische Anforderungen an die zu entwickelnde Recherche-Umgebung ab. Abschnitt 2 befasst sich mit Aspekten der Umsetzung dieser Anforderungen in einer Kulturwissenschaftlichen Arbeits- und Lern-Umgebung (KUWALU). Insbesondere werden der Einsatz computerlinguistischer Verfahren für eine »intelligente« Suche sowie die Notwendigkeit der Transparenz und der Nachvollziehbarkeit der computerunterstützten Recherchen diskutiert. Abschnitt 3 geht kurz auf kulturwissenschaftliche Anwendungen von KUWALU über die literaturwissenschaftliche Forschung hinaus ein. Abschnitt 4 macht einige abschließende Bemerkungen über Schritte zu einer möglichen Realisierung einer solchen Umgebung.

[2]

1 Kulturwissenschaftliche Einbettung und Motivation

[3]

1.1 Arbeit im Archiv, oder: Vom Suchen und Finden in der Literaturwissenschaft

[4]

Im Zuge einer kulturwissenschaftlichen Neuorientierung der Literaturwissenschaft haben sich mittlerweile selbst die traditionellsten Philologen von der insbesondere durch den New Criticism geprägten Vorstellung verabschiedet, sie könnten die Bedeutung eines literarischen Textes einzig und allein durch die tiefgehende Beschäftigung mit eben diesem ausfindig machen – wenn sie denn nur lange und akribisch genug nach ihr suchten. Dieses Verständnis eines literarischen Textes als ›quasisakrales‹ Artefakt, [1] dessen versteckte Intention der Entschlüsselung durch den Literaturwissenschaftler harrt, ist spätestens seit den 1980er Jahren, in denen Stephen Greenblatts Kulturpoetik in der literaturtheoretischen Debatte für Furore sorgte, [2] einem offeneren Textverständnis gewichen, welches den literarischen Text als eine in verschiedenste kulturelle und gesellschaftliche Wirkungszusammenhänge eingebettete Größe versteht.

[5]

Als Basis einer kulturwissenschaftlich orientierten Literaturwissenschaft hat ein solches Textmodell in die unterschiedlichsten literaturtheoretischen Ansätze und die von diesen geleitete Interpretationspraxis Eingang gefunden, die nicht mehr nach der Entdeckung des »religious principle of the [text’s] hidden meaning« [3] trachtet, sondern die Bedeutung eines literarischen Texts dadurch aufzuspüren versucht, dass sie den Text mit anderen Texten korreliert; mit anderen Worten: sich auf die Suche nach intertextuellen Schnittstellen zwischen einem Text und seinen zeitgenössischen »Kon-Texten« macht. Der Literaturwissenschaftler richtet also – unabhängig davon, ob seine Untersuchungen nun durch ein neohistorisches, ein funktionsgeschichtliches, ein erinnerungskulturwissenschaftliches oder ein rezeptionsästhetisches Erkenntnisinteresse geleitet werden – seine Lesungen stets an der Frage nach der wechselseitigen Relation zwischen dem literarischen Werk und seiner spezifischen kulturellen (und notwendigerweise immer textuellen) Umgebung aus.

[6]

Grundlage für die Analyse und Beschreibung dieser im New Historicism metaphorisch als Verhandlungen (negotiations) zwischen einem Text und seinen jeweils kulturspezifischen Kontexten beschriebenen Dynamik, die durch das Aufspüren synchroner intertextueller Äquivalenzen und Oppositionen augenfällig gemacht werden kann, ist – selbstredend – eine möglichst große und repräsentative Menge an Texten einer kulturellen Epoche. [4] Dass genau hier das Problem einer an dem Verhältnis zwischen Text und Kontext orientierten Literaturwissenschaft liegt, ist in der Vergangenheit bereits oft – und mitunter auch äußerst kritisch – betont worden. Denn eine solche Textmenge, die sich als kulturelles Archiv beschreiben lässt [5] und die – in einem positivistischen Sinne – die real existierende materielle Basis für die literaturwissenschaftliche Interpretationsarbeit darstellt, ist bis heute nicht erfassbar, geschweige denn analysierbar. Zwar ist wohl richtig, dass »dieses Archiv […] die Voraussetzung, die Ausgangsbedingung jeder kulturwissenschaftlichen Arbeit« ist und dass das, »was nicht im Archiv ist, […] kulturwissenschaftlich nicht behandelt werden [kann]«. [6] Woher soll man aber wissen, was alles im Archiv ist? Und wenn man weiß, was darin zu finden ist, was bringt dies einem, wenn man nicht weiß, wo man zu suchen beginnen soll?

[7]

Solche Fragen sollen keineswegs die Unmöglichkeit betonen, dem der neohistorischen Forschung ureigenen, da theorieinhärenten Problem der mangelnden Repräsentativität der Textauswahl zu entrinnen. Vielmehr sollen sie auf eine Chance aufmerksam machen, die ein positivistisch gewendeter und auf diese Weise pragmatisierter Archivbegriff für die Erforschung der Beziehungen literarischer Texte zu ihren kulturellen »Kon-Texten« mit sich bringt: Denn trotz aller Schwierigkeiten, mit denen eine kontextorientierte Literaturwissenschaft zu kämpfen hat, die die verschiedenen semantischen Dimensionen eines Textes durch das Aufspüren seiner (paradigmatischen) Äquivalenzbeziehungen zu anderen Texten aus dem kulturellen Archiv zu rekonstruieren beabsichtigt, ist sie dennoch nicht zum Scheitern verurteilt. Das Gegenteil ist der Fall: Gerade heute erscheint die Arbeit im und mit dem Archiv besonders reizvoll und lohnenswert, wenn man sich vor Augen führt, dass die elektronische Aufbereitung und Systematisierung riesiger Textkorpora durch eine Reihe von Digitalisierungsinitiativen die notwendige technische Grundlage für eine solche Form der Analysearbeit bereitstellen kann. Was zurzeit noch in den Kinderschuhen steckt, bietet also ein enormes Potential für alle diejenigen Philologen, die bereit sind, die grundlegenden Prämissen des New Historicism in Form des von Moritz Baßler (2005) propagierten archivimmanenten Strukturalismus zu Ende zu denken und mit dem lange Zeit als unanwendbar verschrienen poststrukturalistischen Intertextualitätskonzept Ernst zu machen.

[8]

Gehen wir jedoch zunächst einen kleinen Schritt zurück und sehen uns genauer an, wonach und wie der Literaturwissenschaftler im Archiv suchen (und was er finden) könnte. Ausgangspunkt (des Suchens und Findens) ist in der Regel der literarische Text. So kann man sich den folgenden Auszug aus dem an Roman Der Herr Prinzipal des deutschen Schriftstellers Wilhelm Utermann, geschrieben im Jahr 1940, als interessante Erstfundstelle vorstellen:

Ich habe das Gefühl, auch ein Bauer zu sein! Sehen Sie, wir graben tiefe, schwere Furchen in das Land! [...] Unsere Straßen sind auch Narben im ewigen Acker, und die stoßen in die unendliche Zukunft vor. Unsere Bagger sind unsere Pflüge [...] unsere Saat ist ein großer Gedanke, der reiche Frucht tragen wird [...] unser Acker ist das Vaterland und wir graben seinen Kindern Straßen. [7]

[9]

Als interessanter Befund ließe sich in dieser Passage, in der der Erzähler des Romans über den Straßenbau Hitlers während des Zweiten Weltkriegs berichtet, beispielsweise die Verknüpfung, oder besser: die Analogiebildung zwischen der technisch-maschinellen Bearbeitung des deutschen Bodens zum Ausbau des Straßennetzes und der landwirtschaftlichen Nutzung eines »Acker[s]« festhalten, den man für die Saat vorbereitet. Man stelle sich nun weiter vor, dass das Interesse an diesem Befund, an dieser Kombination zweier semantischer Felder (Ackerbau, Technik beziehungsweise technischer Fortschritt) im Ausgangstext also, die Frage nach entsprechenden Äquivalenzbeziehungen in anderen Texten des kulturellen Archivs derselben Zeit aufwerfe. Fündig würde man nach einigen Bemühungen und akribischer Archivarbeit per Hand beispielsweise in einer Vielzahl propagandistischer Texte zu Ehren Adolf Hitlers, eines davon ein Sprechchorspiel mit dem Titel Die Straße in das Reich, verfasst von Thilo Scheller im Jahr 1939. Dort heißt es in einem Dialog verschiedener Einzelsprecher:

[10]

1. Einzelsprecher:	Nun stehen die Räder nie mehr stille, die Bahnen tragen Fracht und Fülle, die Menschen schaffen frohgesichtet, und alle Zwietracht ist geschlichtet.
2. Einzelsprecher:	Rollende Räder
3. Einzelsprecher:	Ratternde Motoren
4. Einzelsprecher:	Stampfende Kolben
5. Einzelsprecher:	Pflügende Traktoren
6. Einzelsprecher:	Hallende Hämmer
7. Einzelsprecher:	Blinkende Spaten
8. Einzelsprecher:	Säende Bauern
9. Einzelsprecher:	Singende Soldaten [8]

[11]

Denn in diesem Auszug findet sich eine ganz ähnliche Kombination der beiden Bildfelder (einerseits »Räder«, »Bahnen«, »Ratternde Motoren« und »Hallende Hämmer«, und andererseits »Pflügende Traktoren«, »Blinkende Spaten« und »Säende Bauern«).

[12]

Wie diese Kurzdemonstration, die nichts interpretiert, sondern lediglich auf das gezeigt hat, was interessant sein könnte, anhand zweier Beispieltexte andeuten kann, wäre es mehr als wünschenswert und vielversprechend, wenn die literaturwissenschaftliche Bearbeitung von Texten von den Möglichkeiten elektronischer Datenaufbereitung Gebrauch machen könnte – nicht nur, um die Suche nach interessanten Textstellen zu vereinfachen und zu beschleunigen, sondern auch, um den neohistorischen Forschungsansatz vom ewigen Problem der kontingenten Textauswahl zu erlösen. Denn der Verdacht, dass die durch manuelle Suche in einigen Dokumenten gefundenen Äquivalenzen auf eine kulturell etablierte, zirkulierende Metapher zur Inszenierung des Autobahnbaus hindeuten, ließe sich mit Hilfe einer halbautomatischen Suchfunktion entweder bestätigen oder widerlegen.

[13]

Dass eine solche halbautomatische Suche nicht darin erschöpft sein kann, nur nach Wortwiederholungen in einer Volltextdatenbank zu suchen, sondern spezifischen, an literaturwissenschaftlichen Analysekategorien ausgerichteten Suchparametern folgen sollte, liegt auf der Hand und lässt sich an einem weiteren Beispiel noch einmal verdeutlichen. So findet sich in einer Anzeige aus dem Völkischen Beobachter des Jahres 1934 als Bildunterschrift zu einer Anzeige, die für den Bau der Autobahnen wirbt, folgende Zeile: »Mit eherner Folgerichtigkeit bricht sich ein mannhafter Zeitgeist Bahn, überwindet Raum und Schwere, spannt seine Flügel von Grenze zu Grenze.« [9]

[14]

Als interessante Fundstelle vermerkt, fällt hier möglicherweise die Metapher der »Flügel« auf, mit der der »Zeitgeist […] Raum und Schwere« zu überwinden imstande ist. Möchte man sich nun auf die Suche nach äquivalenten Textstellen im kulturellen Archiv machen, dann müsste eine computerunterstützte Suche, wenn sie literaturwissenschaftlichen Ansprüchen genügen will, nicht nur nach »Flügel«, »Raum« oder »Schwere« beziehungsweise nach deren gemeinsamen Vorkommen suchen, sondern auch das folgende Propagandaband aus dem Jahre 1937 als Fundstelle ausgeben: »Auf der Autobahn fliegt man.« [10] Mit anderen Worten: Eine halbautomatische Suche in einer Volltextdatenbank müsste, wenn sie der kulturwissenschaftlichen Literaturwissenschaft dienlich sein soll, unscharf sein, das heißt auch solche Textstellen zu Tage bringen, die mit einer ähnlichen Semantik arbeiten, nicht jedoch die Wörter des Ausgangstextes bloß wiederholen. Neben einer solchen unscharfen Suche, die sicherlich eine wesentliche Anforderung an eine Recherche-Umgebung für die Arbeit im Archiv darstellt, lassen sich aus literaturwissenschaftlicher Sicht noch einige weitere Ansprüche formulieren, denen eine solche Suchfunktion gerecht werden müsste.

[15]

1.2 Anforderungen an eine computerunterstützte Suchumgebung aus literaturwissenschaftlicher Sicht [11]

[16]

In der Regel wird eine Suche im kulturellen Archiv durch auffällige Fügungen im Syntagma des manifesten Textes ausgelöst (zum Beispiel eine ungewöhnliche Substantiv-Adjektiv-Kombination, eine Metapher et cetera). Typischerweise würde man also das Archiv nach Kookkurrenzen zweier Wortfelder, Diskurse beziehungsweise Bildfelder durchsuchen, das heißt nach dem gemeinsamen Vorkommen. Es ist erforderlich, dass eine solche Suche historische Schreibvarianten, Synonyme, fremdsprachliche Übersetzungen und Flexionsformen erfassen kann.

[17]

Aufgrund ihrer paradigmatischen Natur sollen die Treffer in Form von Listen dargestellt werden. Eine solche Liste sollte die markierten Fundstellen mit Minimalkontexten sowie den jeweiligen Fundtext enthalten. Die Fundtexte eines Suchbefehls ergeben ein Diskurskorpus. Die markierten Okkurrenzen in den Minimalkontexten sollten mit den Fundstellen im Diskurskorpus verlinkt sein. Zusätzlich soll eine quantifizierende Auswertung mitlaufen (Anzahl der Treffer im Korpus, Anzahl der Treffer pro Text et cetera).

[18]

Wichtig ist, dass Suchbefehle und Trefferlisten gemeinsam abgespeichert werden können. Trefferlisten sollten weiter bearbeitbar sein (zum Beispiel mit Filtern) – letztlich sollte aber jeder Liste, beispielsweise auch einer bereinigten, ein entsprechend komplexer Suchbefehl zugeordnet bleiben, der, auf dasselbe Archiv angewandt, diese Liste identisch reproduziert. Nur so bleibt wissenschaftliche Überprüfbarkeit gewährleistet. Es sollte sowohl die Kombination als auch der Abgleich (Vergleich der Übereinstimmung der Fundtexte, der Quantitäten et cetera) mit anderen Listen ermöglicht werden.

[19]

Auf mittlere Sicht wären automatische Erweiterungsangebote wünschenswert. Es müsste aufgrund quantifizierender Erhebungen möglich sein, Begriffe mit einer gewissen Wahrscheinlichkeit bestimmten Wortfeldern, kulturellen Frames, enzyklopädischen oder Diskurszusammenhängen zuzuordnen. Das ermöglicht eine Erweiterung der Archivsuche um weitere Schlüsselbegriffe, die automatisch angeboten werden könnten. Wenn die Ausgangs-Kookkurrenz beispielsweise die Elemente »Zweiter Weltkrieg« und »Parfüm« enthält, könnte man auch nach »Konzentrationslager« und »Parfüm«, »Bombenkrieg« und »Parfüm« et cetera suchen lassen.

[20]

Die hier skizzierten Anforderungen an eine kulturwissenschaftliche Arbeits- und Lern-Umgebung münden im Wesentlichen in zwei Funktionalitätsbereiche, deren Implementierung in einer Rechercheumgebung zum Aufspüren intertextueller Schnittstellen im kulturellen Archiv nicht nur hilfreich, sondern unbedingt erforderlich sind: 1. die Modellierung eines komplexen, dynamisch erweiterbaren Suchbefehls zur (unscharfen) Suche im digitalen Archiv, und 2. die genaue, protokollierende Verwaltung und intuitive Präsentation der Suchbefehle, der Textkorpora und der Ergebnisse zur Gewährleistung der intersubjektiven Nachvollziehbarkeit. Im Folgenden werden grundlegende Überlegungen zur Umsetzung dieser Anforderungen in einer kulturwissenschaftlichen Arbeits- und Lern-Umgebung (KUWALU) angestellt.

[21]

2 Die kulturwissenschaftliche Arbeits- und Lern-Umgebung

[22]

KUWALU sollte Kulturwissenschaftler bei der Arbeit mit Suchbefehlen zur Erschließung digitaler Archive im Rahmen kontextorientierter Literaturanalyse und Interpretation unterstützen. Elementar für eine solche Arbeitsumgebung sind deshalb Werkzeuge, welche die effiziente und protokollierbare Suche und Navigation durch digitale Archive ermöglichen. Dazu müssten in KUWALU geeignete computerlinguistische Analyse- und Extraktions-Verfahren bereitgestellt und mit den Möglichkeiten internetbasierter, elektronischer Arbeitsumgebungen kombiniert werden.

[23]

2.1 Elaborierte Suchfunktionalitäten

[24]

In diesem Abschnitt werden verschiedene computerlinguistische Ansätze genannt, mit deren Hilfe elaborierte Suchfunktionalitäten realisiert werden können. In der Regel beruhen diese Ansätze auf statistischen Verfahren beziehungsweise maschinellen Lernverfahren. Der entscheidenden Bedeutung von automatischen beziehungsweise halb-automatischen Lernverfahren trägt das »L« in KUWALU Rechnung.

[25]

2.1.1 Erweiterung der Volltextsuche

[26]

Der Einsatz der Suchbefehle, also die Suche nach relevanten Dokumenten und Textpassagen in einem digital erschlossenen Archiv, bedarf neben der einfachen (»klassischen«) Volltextrecherche auch elaborierterer Verfahren, um folgende erweiterte Suchoptionen zu realisieren:

[27]

• Suche nach orthographischen Varianten

[28]

• Suche nach morphologischen Varianten

[29]

• Suche nach Phrasen, beispielsweise mittels Wortklassenmustern

[30]

• semantische Suche

[31]

Zunächst sind unterschiedliche Schreibvarianten von Begriffen, zum Beispiel in Folge der deutschen Rechtschreibreform, bei der Verarbeitung von Suchanfragen zu berücksichtigen. Insbesondere in historischen Texten ist dieses Phänomen stark ausgeprägt, da in unterschiedlichen Epochen und Regionen verschiedene Schreibweisen üblich waren und generell eine normierte Rechtschreibung in der uns heute bekannten Form nicht vorlag. Zur Behandlung dieses Problems sind mehrere Ansätze vorgeschlagen worden: elektronische Wörterbücher, die orthographische Varianten erfassen, Regeln, die komplementäre Varianten einer Schreibweise ermitteln, sowie Verfahren zur Bestimmung orthographischer Ähnlichkeiten. [12] Mit Hilfe (der Kombination) solcher Ansätze ist es möglich, unterschiedliche Schreibvarianten eines Suchbegriffs zu finden, ohne dass diese vom Benutzer explizit angegeben werden.

[32]

Ebenso ist die Suche nach morphologischen Varianten, zum Beispiel Flexionsformen, der spezifizierten Suchbegriffe sinnvoll. Regelbasierte morphologische Analyseprogramme können eine solche Erweiterung leisten. [13]

[33]

Für die Suche nach syntaktischen Mustern (zum Beispiel Adjektive, die »Autobahn« modifizieren; direkte Objekte von »bauen«) ist eine entsprechende morpho-syntaktische beziehungsweise syntaktische Analyse der zu durchsuchenden Texte notwendig. Für eine solche Analyse existieren POS-Tagger (Erkennung von Wortarten) und Parser (Erkennung syntaktischer Konstituenten und Dependenzen), als regelbasierte [14] oder statistische Verfahren. [15] Aus Gründen der Verarbeitungseffizienz ist es adäquater, wenn diese Analyse nicht bei jeder Suche, sondern einmalig in einem Vorverarbeitungsschritt stattfindet. Die Texte im Suchraum werden dann mit syntaktischen Strukturen annotiert, die bei einer entsprechenden Suche abgefragt werden können.

[34]

Bei der semantischen Suche geht es darum, eine Suchanfrage durch synonyme beziehungsweise generell sinnverwandte Begriffe zu erweitern. Damit kann gezielt unter Berücksichtigung inhaltlicher Gesichtspunkte gesucht werden, statt auf die spezifizierten Suchbegriffe eingeschränkt zu bleiben. Die Computerlinguistik kennt grundsätzlich zwei Vorgehensweisen, um die Sinnverwandtschaft von Begriffen zu formalisieren. Die erste Vorgehensweise beinhaltet den Einsatz lexikalisch-semantischer Netze. Solche Netze modellieren Bedeutungsrelationen zwischen Wörtern. Die zurzeit meistverwendeten lexikalisch-semantischen Netze sind WordNet und FrameNet. WordNet [16] ist ein umfangreiches Netz, das Wörter durch grundlegende semantische Relationen wie Synonymie, Antonymie, Hyponymie/Hyperonymie, Meronymie/Holonymie et cetera miteinander verknüpft. FrameNet [17] zielt auf die Modellierung komplexer situativer ›Frames‹ ab, zum Beispiel den Frame INGESTION, der Relationen zwischen Verben wie eat oder smoke und den zugeordneten Rollen-Typen wie Ingestor (Personen, Tiere, et cetera) und Ingestibles (Nahrungsmittel, Zigaretten, et cetera) repräsentiert. WordNet und FrameNet sind für das Englische konzipiert. Es existieren jedoch gleichartige Netze in anderen Sprachen, so auch GermaNet [18] beziehungsweise SALSA [19] für das Deutsche. EuroWordNet [20] fasst Wortnetze in acht europäischen Sprachen zusammen, die über einen interlingualen Index miteinander verknüpft sind. Mit Hilfe derartiger Netze können semantische Ähnlichkeiten zwischen Begriffen quantifiziert werden. Dies wiederum ermöglicht die Auswahl semantisch ähnlicher Begriffe zu den in der Suchanfrage spezifizierten – mit Ressourcen wieEuroWordNet auch multilingual.

[35]

Eine alternative Vorgehensweise zur Bestimmung sinnverwandter Begriffe besteht in der Anwendung statistischer Assoziationsmaße. [21] Hierbei wird für jedes Wort eine vektorähnliche Repräsentation erzeugt, die sich aus seinem Vorkommen in einem großen Textkorpus ergeben (zum Beispiel die Vorkommenshäufigkeit anderer Wörter in seinem Kontext). Auf diese Vektoren werden mathematische Ähnlichkeitsmaße angewandt. Der Vorteil dieses Vorgehens ist, dass außer den Textkorpora selbst keine zusätzlichen Ressourcen wie WordNet benötigt werden, die nicht für jede Sprache vorhanden sind beziehungsweise sich im Hinblick auf eine konkrete Domäne als unvollständig erweisen können. Der Nachteil dieses Ansatzes ist, dass den ermittelten Ähnlichkeiten vielfältige Faktoren zugrunde liegen können und diese nicht notwendigerweise rein semantischer Natur sind, sondern ein undurchsichtiges Gemisch aus semantischen, stilistischen und anderen Faktoren bilden. Dies kann unter Umständen dem Desiderat der Nachvollziehbarkeit der Suche, auf welches wir später noch genauer eingehen werden (siehe 2.2), zuwiderlaufen. Jedoch wurden und werden verfeinerte Methoden entwickelt, die semantische Faktoren immer besser isolieren können. [22]

[36]

Für eine semantische Suche ist es außerdem entscheidend, dass lexikalische Ambiguitäten sowohl bei den Suchbegriffen als auch bei den potentiellen Fundstellen aufgelöst werden. Der Begriff »Bank« beispielsweise hat in seiner Lesart als Finanzinstitut andere sinnverwandte Begriffe als in der Lesart als Sitzmöbel. Als ein viel bearbeitetes Forschungsfeld in der Computerlinguistik [23] kann die Lesartendisambiguierung (›Word Sense Disambiguation‹) für die avisierte computerunterstützte kulturwissenschaftliche Rechercheumgebung somit durchaus Ertrag bringend eingesetzt werden.

[37]

Zusammenfassend ist für Erweiterungen der einfachen Volltextsuche der Einsatz folgender computerlinguistischer Verfahren sinnvoll:

[38]

Erweiterungen der einfachen Volltextsuche	Computerlinguistische Verfahren
Schreibvarianten (aufwendig: aufwändig)	elektronische Wörterbücher
Flexionsformen (kommen: komme, kommt)	morphologische Analysepro-gramme
Wortklassenmuster (welche Adjektive modifizieren »Autobahn«?)	POS-Tagger (Wortarten-Klassifizierer)
Syntaktische Muster (direkte Objekte von »bauen«)	Parser (syntaktische Analyseprogramme)
Synonyme und semantisch verwandte Ausdrücke (Autobahn: Autostraße, Straße, Verkehrsweg, Auto, Fahrzeug, fahren)	lexikalisch-semantische Netze (WordNet, FrameNet); statistische Assoziationsmaße

[39]

2.1.2 Einschränkung des Suchraums

[40]

Neben diesen Techniken, die der Erweiterung des Suchbefehls selbst dienen, sind Verfahren für die notwendige Einschränkung des Suchraums erforderlich. Es gilt, aus einem prinzipiell unbeschränkten Textarchiv diejenigen Dokumente zu selektieren, die zur untersuchten Gruppe von Texten (Primärtexte) beziehungsweise zu relevanten Kontexten gehören, die mit dieser Primärgruppe in Beziehung gesetzt werden sollen. Auswahlkriterien lassen sich aus der zeitlichen, geographischen, personellen, thematischen und gattungsspezifischen Einordnung der zur Verfügung stehenden Texte ableiten. So lässt sich möglicherweise der Diskurs über bestimmte historische Persönlichkeiten in einer bisher nie da gewesenen Vollständigkeit rekonstruieren. Man könnte, um eine anderes Anwendungsbeispiel zu nennen, ebenso nachzeichnen, ob und wenn ja, auf welche Weise die Sonette Shakespeares sowohl inhaltlich als auch strukturell in Bezug zu anderen gängigen Textformen seiner Zeit, wie zum Beispiel Briefen an die damalige Königin Elisabeth I., stehen.

[41]

Für eine zeitliche, geographische und personelle Einordnung eines Textes können Verfahren der Informationsextraktion eingesetzt werden. [24] Solche Verfahren extrahieren Informationen über im Text vorkommende Entitäten wie Personen, Orte, Organisationen oder Zeitangaben sowie deren Beziehungen zueinander. Eine wesentliche Teilaufgabe ist die Eigennamenerkennung oder ›Named Entity Recognition‹, [25] die derartige Entitäten erkennt und klassifiziert, um zum Beispiel ein Wort wie »Singen« je nach Kontext als Stadt, Nachname oder als kein Eigenname zu charakterisieren. Für die Informationsextraktion werden sowohl regelbasierte als auch statistische und maschinelle Lernverfahren vorgeschlagen und erforscht.

[42]

Ein weiteres einschlägiges Forschungsgebiet ist die Textkategorisierung. [26] Hier werden statistische Verfahren entwickelt, die die Ähnlichkeit verschiedener Texte quantifizieren (Clustering) beziehungsweise Texte bestimmten Kategorien zuordnen. Für Letzteres werden verfeinerte Verfahren untersucht, die eine thematische Einordnung (Topic Detection) beziehungsweise eine gattungsspezifische Einordnung (Genre Detection) erlauben. Je nach Fragestellung kann es für den literaturwissenschaftlichen Anwender genügen, ähnliche Texte zu einem Ausgangstext zu suchen; genauso kann es aber auch erforderlich sein, Texte in eine bestimmte Kategorie einzugruppieren.

[43]

Zusammengefasst ist für die Einschränkung des Suchraums der Einsatz folgender computerlinguistischer Verfahren sinnvoll:

[44]

Einschränkung des Suchraums	Computerlinguistische Verfahren
Zeitliche, geographische, personelle Einordnung	Informationsextraktion; ›Named Entity Recognition‹
Thematische Einordnung	Textkategorisierung (Topic Detection)
Gattungsspezifische Einord-nung	Textkategorisierung (Genre Detection)

[45]

2.1.3 Einsatzperspektiven in KUWALU

[46]

Es muss betont werden, dass sich die in diesem Abschnitt genannten Verfahren auf unterschiedlichen Entwicklungsständen befinden. Verfahren zur morphologischen Analyse und zum POS-Tagging können, zumindest für zahlreiche Sprachen, als ausgereift betrachtet werden. Dies gilt eingeschränkt auch für das Parsing, obgleich es hier noch weiteren Forschungsbedarf bezüglich komplexerer Strukturen (zum Beispiel Koordinationsphänomene) gibt. Ansätze im Bereich Semantik, Informationsextraktion und Textkategorisierung sind weiterhin Gegenstand computerlinguistischer Forschung. Jedoch befinden sich auch solche Verfahren bereits im praktischen Einsatz, angepasst auf bestimmte Domänen und Anwendungsszenarien.

[47]

Die für KUWALU intendierte Domäne der Literatur- und Kulturwissenschaft unterscheidet sich hinsichtlich der Anforderungen an eine elaborierte Recherche erheblich von anderen Fachgebieten (beispielsweise in den Naturwissenschaften oder im Bereich Wirtschaft). Während in jenen Domänen das Auffinden von Inhalten wesentlich ist, sind für KUWALU zwei weitere Aspekte von gleichrangiger Bedeutung: die Suche nach stilistischen Eigenschaften sowie vergleichende Untersuchungen unterschiedlicher Texte und Textgattungen. Es ist abzusehen, dass die in diesem Abschnitt beschriebenen Verfahren auf die spezifischen kulturwissenschaftlichen Erfordernisse anzupassen und gegebenenfalls entsprechend weiterzuentwickeln sind. Hierzu bedarf es kollaborativer Forschungsaktivitäten von Computerlinguisten und Kulturwissenschaftlern.

[48]

2.2 Transparenz, Kollaborativität, Komfortabilität

[49]

Sowohl die Suchbefehle als auch die zugehörigen Suchergebnisse sollen, wie oben bereits kurz angesprochen, protokollierbar und archivierbar sein. Dies erlaubt dem einzelnen Wissenschaftler, komplexe Suchanfragen iterativ zu erzeugen und unterschiedliche Varianten zu testen. Zudem ist es damit möglich, über eine gemeinsame Plattform auf bereits erstellte Suchbefehle zuzugreifen und somit bereits Vorhandenes zu nutzen beziehungsweise in Beziehung zum eigenen Suchbefehl zu setzen.

[50]

Durch eine solche Unterstützung, die die intersubjektive Nachvollziehbarkeit einzelner Suchanfragen gewährleistet, indem sie die Arbeit einzelner Wissenschaftler im Archiv transparent macht, könnte sich die Literaturwissenschaft methodisch den experimentell ausgerichteten Wissenschaften annähern. [27] Denn eine gemeinsame Recherche-Plattform würde es den Wissenschaftlern ermöglichen, die von ihnen durchgeführten komplexen Suchprozesse so zu speichern, dass diese von ihren Fachkollegen überprüft, wiederholt und in beliebigen Parametern modifiziert oder erweitert werden können. Dass hinter dieser Idee einer gemeinschaftlich nutzbaren Arbeitsumgebing für Literatur- und Kulturwissenschaftler nicht die Vorstellung steckt, naturwissenschaftliche Methoden für die philologische Analysearbeit fruchtbar zu machen, soll noch einmal betont werden. Was eine solche, in der Informatik üblicherweise als kollaborative Benutzerumgebung bezeichnete Infrastruktur zu leisten imstande ist, ist jedoch nicht von der Hand zu weisen: einer Gruppe von aufgabenzentrierten Nutzern wird eine Plattform geboten, die ihren jeweiligen Ansprüchen gerecht wird und die ihnen als solide Basis für die Überprüfung literaturwissenschaftlicher Hypothesen dienen kann.

[51]

Die Implementierung einer kollaborativen Benutzerumgebung setzt eine internetbasierte, vernetzte Infrastruktur voraus, die sich idealerweise nicht auf die Verwaltung von Suchbefehlen beschränkt, sondern allgemein den Zugriff auf die Veröffentlichung von Textarchiven, Anwendungsdiensten und Forschungsergebnissen erlaubt. Eine solche Infrastruktur für die geisteswissenschaftliche Forschung wird im Rahmen des BMBF-Projekts TextGrid aufgebaut, [28] das sich hervorragend als Anknüpfungspunkt für KUWALU anbietet. Während bei Textgrid zunächst die elektronische Darstellung von Texten im Vordergrund steht, ist KUWALU eine Anwendung zum elaborierten Umgang mit diesen Texten. Gerade vor dem Hintergrund dieser anwendungs – oder anwenderzentrierten Perspektive sollte sich die Umsetzung einer solchen Rechercheumgebung in erster Linie an den spezifischen Umgangsweisen der Fachwissenschaftler mit (literarischen) Texten orientieren, das heißt die in KUWALU integrierten Funktionalitäten müssen dem Nutzer in einer Art und Weise zugänglich gemacht werden, die der literaturwissenschaftlichen Intuition nicht entgegenläuft und den Berührungsängsten vieler Geisteswissenschaftler gegenüber technischen Hilfsmitteln Rechnung trägt. In ersten Vorarbeiten hat sich gezeigt, dass die Möglichkeiten der visuellen Darstellung relevanter Textpassagen – etwa die Präsentation von Suchergebnissen im KWIC-Format (»Key Word In Context«) oder die farbliche Markierung unterschiedlicher Wortfelder –, aber auch die komfortable Navigation durch ein gesamtes Korpus zu den herausragenden Vorteilen einer solchen elektronischen Arbeitsumgebung gegenüber herkömmlicher Textanalyseverfahren zählen. Darüber hinaus sind geeignete Visualisierungen für Suchbefehle zu entwickeln, die deren komplexe Strukturen in übersichtlicher Weise erfassbar machen (zum Beispiel navigier- und modifizierbare Baum-Darstellungen).

[52]

Insbesondere bei riesigen Textkorpora mit Primär- und Sekundärtexten wird die Ergebnismenge für eine Suchanfrage schnell unübersichtlich. Der Fachwissenschaftler benötigt hierfür intuitiv verständliche Präsentationstechniken, die in der Informatik seit mehreren Jahren untersucht und erforscht werden. Obwohl die optimale Ausgestaltung solcher Techniken letztendlich wohl nur empirisch überprüft werden kann, lassen sich bereits jetzt wesentliche Funktionen skizzieren, die in einer computerbasierten Umgebung möglichst anwenderfreundlich modelliert werden können:

[53]

• die Formulierung einer Suchanfrage

[54]

• die Darstellung der Ergebnisse der Suche

[55]

• die Nachverfolgung erfolgreicher (und nicht erfolgreicher) Recherchen

[56]

• die Integration spezifischer Korpora

[57]

• die Ergänzung beziehungsweise Reduktion des gewählten Korpus nach bestimmten Kriterien (zum Beispiel Textsorte, Autoren, Entstehungszeit und –ort und so weiter)

[58]

• die Einbeziehung von methodologischen Kommentaren anderer Wissenschaftler

[59]

3 Die Bedeutung von KUWALU jenseits der Literaturwissenschaft

[60]

Neben der Bedeutung von KUWALU für die literaturwissenschaftliche Analyse- und Interpretationsarbeit, die in den bisherigen Ausführungen im Vordergrund stand, wäre die zu entwickelnde computergestützte Rechercheumgebung auch für andere kulturwissenschaftlichen Disziplinen interessant. Beispielsweise ist eine Anwendung in historisch-begriffsgeschichtlich orientierten Forschungsvorhaben vorstellbar, in deren Rahmen man ebenso auf die systematische Durchsuchung großer Textkorpora angewiesen ist; die Option einer systematischen, computergestützten Suche wäre – unter Berücksichtigung fachspezifischer Suchparameter – auch hier gewinnbringend einsetzbar.

[61]

Abgesehen von den Chancen und Möglichkeiten der Erschließung und kommentierten Verknüpfung relevanter Textstellen für die literatur- und kulturwissenschaftliche Forschung hätte eine Plattform wie KUWALU durch die komfortablen Suchoptionen und die anspruchsvollen visuellen Darstellungsverfahren zudem ein nicht zu unterschätzendes didaktisches Potential, welches im Rahmen des literatur- beziehungsweise kulturwissenschaftlichen Unterrichts an Schule und Hochschule nutzbar gemacht werden könnte. [29]

[62]

4 Zusammenfassung und Ausblick

[63]

In diesem Beitrag haben wir fachspezifische Anforderungen und Realisierungsmöglichkeiten für eine kulturwissenschaftliche Arbeits- und Lern-Umgebung (KUWALU) skizziert. Diese Anforderungen lassen sich in zwei Hauptpunkten zusammenfassen: 1. elaborierte, intelligente Möglichkeiten der Textrecherche und des Textvergleichs; 2. Komfortabilität und Tranzparenz, insbesondere in Bezug auf die Nachvollziehbarkeit, die Wiederholbarkeit und die Modifizierbarkeit komplexer Recherchen. Entsprechende Umsetzungsmöglichkeiten bestehen im Einsatz und der Weiterentwicklung computerlinguistischer Verfahren sowie Techniken aus der Informatik, insbesondere im Bereich intuitiver Benutzeroberflächen und vernetzter Systeme.

[64]

Zur Realisierung einer solchen Umgebung bedarf es einer intensiven Kooperation zwischen Kulturwissenschaftlern einerseits und Computerlinguisten beziehungsweise Informatikern andererseits. Auf der kulturwissenschaftlichen Seite sind exemplarische, forschungsaktuelle Anwendungsszenarien zu entwerfen, um Anforderungen und Desiderate an KUWALU präzise spezifizieren zu können. Auf computerlinguistischer Seite sind die oben angeführten Verfahren im Hinblick auf ihre Performanz, insbesondere in der kulturwissenschaftlichen Domäne, zu evaluieren und, wenn notwendig, eigene Forschungsziele zur Performanzverbesserung zu definieren. Der Erfolg derartiger Anstrengungen hängt nicht zuletzt von der Verfügbarkeit einer quantitativ und qualitativ hinreichenden Menge von Texten in elektronischer Form ab. Eine Fülle von Initiativen zur Digitalisierung und Erschließung textueller Daten, mit denen eine Zusammenarbeit denkbar (und) vielversprechend wäre, leisten hier wichtige Vorarbeiten.

5 Literatur

Baßler, Moritz

2005 Die kulturpoetische Funktion und das Archiv: Eine literaturwissenschaftliche Text-Kontext-Theorie, Tübingen: Francke.

Biemann, Chris u.a.

2004 Automatic acquisition of paradigmatic relations using iterated co-occurrences. In: Proceedings of LREC 2004. Lissabon.

Burchardt, Aljoscha u.a.

2006 The SALSA Corpus: a German Corpus Resource for Lexical Semantics. Proceedings of LREC 2006, Genua.

Cunningham, Hamish

2005 Information Extraction, Automatic, in Encyclopedia of Language and Linguistics. 2nd Edition, Amsterdam: Elsevier.

Fellbaum, Christiane (Hg.)

1998 WordNet: An Electronic Lexical Database, Cambridge, MA: MIT Press.

Fillmore, Charles J. u.a.

2001 Building a large lexical databank which provides deep semantics. In: Proceedings of Pacific Asian Conference on Language, Information and Computation. Hong Kong.

Foucault, Michel

1988 What is an author? In: David Lodge (Hg.): Modern Criticism and Theory. London, New York: Longman 197-210.

Gietz, Peter u.a.

2006 TextGrid and eHumanities, in Proceedings of the Second IEEE International Conference on e-Science, Amsterdam.

Greenblatt, Stephen

1980 Renaissance Self-Fashioning. From More to Shakespeare. Chicago: The University of Chicago Press.

Greenblatt, Stephen

1988 Shakespearean Negotiations. The Circulation of Social Energy in Renaissance England, Berkeley: University of California Press.

Hebel, Udo

1989 Romaninterpretation als Textarchäologie. Untersuchungen zur Intertextualität am Beispiel von F. Scott Fitzgeralds This Side of Paradise, Frankfurt a. M: Lang.

Kunze, Claudia/Andreas Wagner

2001 Anwendungsperspektiven des GermaNet, eines lexikalisch-semantischen Netzes für das Deutsche. In: B. Schröder u.a. (Hg): Probleme und Perspektiven computergestützter Lexikographie. Tübingen: Niemeyer, S. 229-246.

Manning, Christopher D./Hinrich Schütze

1999 Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press.

Schnöbel, Marcus

2000 Literatur – digital – vernetzt. Kontrastive Analyse eigen- und fremdproduzierter Software für den Umgang mit Literatur. Eine explorative Studie. Dissertation, Universität Giessen.

Schütz, Erhard/Eckhard Gruber

1996 Mythos Reichsautobahn. Bau und Inszenierung der »Straßen des Führers« 1933-1941. Augsburg: Weltbild.

Trommer, Jochen

2005 Morphologie, in K.-U. Carstensen u.a. (Hg): Computerlinguistik und Sprachtechnologie. Eine Einführung Heidelberg: Spektrum Akademischer Verlag, S. 175-202.

Vossen, Piek (Hg)

1998 EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Dordrecht: Kluwer Academic Publishers.

Internetseiten

sadfalsjfälsajf

[1] Hauser, Andreas u.a. (2007), Information Access to Historical Documents from the Early New High German Period, in Dagstuhl Seminar Proceedings 06491
http://drops.dagstuhl.de/opus/volltexte/2007/1057(12.10.2007)

[2] Heibach, Christiane (1999), Literatur im Internet: Theorie und Praxis einer kooperativen Ästhetik. Dissertation Universität Heidelberg

http://www.dissertation.de/PDF/ch267.pdf (03.08.07)

[3] Müller, Frank Henrik (2005), A Finite State Approach to Shallow Parsing and Grammatical Functions Annotation of German. Dissertation, Seminar für Sprachwissenschaft, Eberhard Karls Universität Tübingen.

http://tobias-lib.ub.uni-tuebingen.de/volltexte/2007/2758/ (12.10.2007)

[4] Rössler, Marc (2007), Korpus-adaptive Eigennamenerkennung. Dissertation, Universität Duisburg-Essen.

http://duepublico.uni-duisburg-essen.de/servlets/DocumentServlet?id=14746 (12.10.2007)

[5] Schröder, Angela Ella (2004), Englischsprachige Literatur im World Wide Web. Dissertation, Universität Göttingen.

http://webdoc.sub.gwdg.de/diss/2004/schroeder/schroeder.pdf (12.10.2007)

[1]	Vgl. Hebel (1989: 8).
[2]	Vgl. Greenblatt (1980, 1988).
[3]	Foucault (1988: 199).
[4]	Vgl. Schröder [5].
[5]	Vgl. Baßler (2005).
[6]	Baßler (2005: 181).
[7]	Zitiert nach Schütz/Gruber (1996: 112).
[8]	Zitiert nach Schütz/Gruber (1996: 109).
[9]	Zitiert nach Schütz/Gruber (1996: 106).
[10]	Zitiert nach Schütz/Gruber (1996: 117).
[11]	Für die folgende »Wunschliste« sind wir Moritz Baßler zu Dank verpflichtet.
[12]	Vgl. Hauser u.a. [1].
[13]	Vgl. zum Beispiel Trommer (2001).
[14]	Vgl. Müller [3].
[15]	Vgl. Manning/Schütze (1999).
[16]	Vgl. Fellbaum (1998).
[17]	Vgl. Fillmore u.a. (2001).
[18]	Vgl. Kunze/Wagner (2001).
[19]	Vgl. Burchardt u.a. (2006).
[20]	Vgl. Vossen (1998).
[21]	Vgl. Manning/Schütze (1999).
[22]	Vgl. zum Beispiel Biemann u.a. (2004).
[23]	Vgl. Manning/Schütze (1999).
[24]	Vgl. Cunningham (2005).
[25]	Vgl. Rössler [4].
[26]	Vgl. Manning/Schütze (1999).
[27]	Vgl. Heibach [2].
[28]	Vgl. Gietz u.a. (2006).
[29]	Vgl. Schnöbel (2000).

KUWALU – Motivation und Grundzüge einer computergestützten Umgebung für die literatur- und kulturwissenschaftliche Recherche- und Analysearbeit