COMUTERPHILOLOGIE IN HAMBURG. THEMATISCHE MODULE EINER COMPUTERPHILOLOGISCHEN GRUNDVORLESUNG

Abstract

The present paper introduces central paradigms, selection criteria and special topics for a introductory lecture on Computing in Text-oriented Humanities (CP).  The term ›Computing in Text-oriented Humanities‹  (German ›Computerphilologie‹) should be understood as follows: ›Computer-‹ means some basic knowledge of non-technical user-applications while  ›text oriented humanities‹ (germ. ›Philologie‹) is addressing those students and scientists dealing with language research themes or texts in any form. The paper is referring to a severalfold held course at the Language Department of the University of Hamburg.

Das Papier stellt Leitvorstellungen, Auswahlkriterien und konkrete Inhalte für eine wissenschaftliche Grundlagenvorlesung im Gebiet Computerphilologie (CP) zusammen. Dabei wird im Verständnis von Computerphilologie bei ›Computer-‹ eine geläufige nichttechnische Nutzungskenntnis bereits vorausgesetzt, mit ›-philologie‹ werden Studenten und Wissenschaftler solcher Fächer angesprochen, die vorwiegend mit Sprache und Texten umgehen. Das Papier bezieht sich auf eine mehrfach gehaltene Vorlesung im Fachbereich Sprach-, Literatur- und Medienwissenschaft der Universität Hamburg.

Einleitung

Es gibt in der deutschen Universitätslehre ein häufig beobachtbares Dissoziierungsphänomen von Geistes- und Ingenieurswissenschaften: Die Bereitschaft geisteswissenschaftlicher Dozenten und Studierender, sich mit formalen oder gar mathematischen Verfahren zu beschäftigen, sinkt ebenso wie das Interesse von Natur- und besonders Ingenieurswissenschaften (einschließlich der ›klassischen‹ Informatik) sich mit den textuellen hermeneutischen Interpretationen sprach- und sozialwissenschaftlicher Sachverhalte zu beschäftigen. So wie die Vorstellungen und Assoziationen von Menschen(-gruppen) und ihre Kommunikation für den Informatiker die wesentliche Grundlage seiner Arbeit (noch vor der Umsetzung von Algorithmen) sein sollte, so ist es für den Geisteswissenschaftler inzwischen unumgänglich, sich mittels überprüfbarer und wiederholbarer Verfahren an großen Datenmengen seiner Interpretation zu vergewissern, wohl wissend, dass formale Verfahren selbst keine Interpretation erzeugen.

In diesem Dissoziierungsprozess zu vermitteln ist sicher eines der Hintergrundziele der Computerphilologie. Ein technologieblindes Arbeiten in den Geisteswissenschaften kann sich die Gesellschaft ebenso wenig leisten wie die sozialblinde Ingenieurseinstellung vieler Informatiken, besonders an Fachhochschulen, die sich teilweise als Programmierausbildungsinstitute begreifen.

Andererseits ist festzustellen, dass die Benutzung des Computers durch Studenten und Dozenten in den Geisteswissenschaften grundsätzlich zunimmt. Die Hamburger Computerphilologie[1] will aber satzungsgemäß die Nutzung substantieller und wissenschaftlich motivierter höherer Computermethoden fördern:

"Die Computerphilologie (CP) an der Universität Hamburg ist eine gemeinsame interdisziplinäre wissenschaftliche Arbeitsstelle der Fachbereiche Sprach-, Literatur- und Medienwissenschaft (FB07) und des Fachbereichs Informatik (FB18), die primär text- beziehungsweise sprachbezogene philologische Fragestellungen mit methodologisch ausgewiesenen Verfahren einer rechnergestützten Modellierung und Auswertung von Daten anwenden und vermitteln will."

Ganz bewusst schließt die Hamburger CP folgende Bereiche aus: Elementare Computernutzung beim Studium (dazu bietet das Regionale Rechenzentrum Kurse an), Einführung in IT, einschließlich Internet und Datenrecherche (das bieten zum Beispiel Bibliotheken an), Datenbankanwendungen, Sprachlehrsysteme und Multimedia-Praxis. Es sollen natürlich auch keine Veranstaltungen angeboten werden, die lediglich eine halbphilologische Beschäftigung für computerbegeisterte Studenten (oder gar Dozenten) darstellen, sondern der fachliche und wissenschaftliche Fortschritt bei der Erforschung von Sprache, Literatur und Medien soll durch Computernutzung effizienter gestaltet werden.

Sicht auf die Computerphilologie

Die Verfasser gehen bei ihren Aktivitäten in der CP von folgenden konstitutiven Annahmen über die Computerphilologie aus, die deren Einsatz erst sinnvoll machen:

  1. Durch nicht-naive Analysen/Verfahren werden komplexe Eigenschaften von Texten sichtbar, die sonst der Interpretation nicht zugänglich sind.

  2. Computergestützte Verfahren sind nicht-naiv, da sie (über die reine Betrachtung von Texten hinaus) Massenphänomene und verborgene Abhängigkeiten zur Interpretation anbieten.

  3. Computerphilologische Verfahren fördern die Wissenschaftlichkeit durch bessere Datengründung, Transparenz und (soweit je möglich) Verifikation von wissenschaftlichen Aussagen.

  4. Computerphilologie als solche ist keine Wissenschaft, sondern eine Hilfswissenschaft.

Mit anderen Worten heißt dies, dass eine veränderte Repräsentation von Daten deren Interpretation beeinflussen kann, eine Tatsache, die Literatur- und Sprachwissenschaftler schon immer anerkannt haben; auch dass Verfahren für eine möglichst breite Qualitäts- und Plausibilitätsüberprüfung die Qualität der Daten und damit der Interpretation erhöhen, ist akzeptiert. Seit der verbreiteten Nutzung von Computern wissen wir auch, dass es Repräsentationen von Sprache gibt, die ohne Computer nicht in sinnvoller Zeit aufgebaut werden können.

Der in Punkt 4 festgestellte hilfswissenschaftliche Charakter der Computerphilologie für die Philologien ist offensichtlich: Die CP hat keinen Selbstzweck ohne eine textbezogene Hypothese im Hintergrund, andernfalls könnte man das massenhafte Ausmessen von I-Punkten nicht als offensichtlich irrelevante Methode ausschließen. Ganz sicher kann man computerphilologische Verfahren isoliert erforschen und entwickeln (zum Beispiel Aufbau spezieller Markup-Sprachen, stochastische Verfahren, Erstellen von Korpora), Mathematik und Informatik tun dies auch, aber auch komplexe Software-Projekte bleiben immer von den philologischen Fragenstellungen abhängig und wenden Informatikwissen an.

Das gilt in derselben Weise, wie ein Überweisungsprogramm sich immer nach den Regeln des Bankverkehrs bewerten lassen muss. Mit anderen Worten der Wert von CP-Methoden kann nur auf Grund ihrer philologischen Leistung beurteilt werden, nicht auf Grund inhärenter Methoden und Ziele. Daher ist eine vorgängige sorgfältige theoretische Modellierung des betreffenden textbezogenen Phänomens unerlässlich, wie das schon immer in den Wissenschaften nötig war. Genuine deskriptive, normative oder rekonstruktive Methoden hat die CP nicht, sie stellt allenfalls eine Hilfswissenschaft dar. Sie hat gerade nicht, wie man das von Wissenschaften fordert, einen (operationalen) Apparat zur Aufstellung von Hypothesen, zur Beschreibung von Sachverhalten und zur Bildung von Theorien, sondern sie stellt rationale Verfahren und Heuristiken für die oben genannten Aufgaben einer (anderen) Wissenschaft, wie den Sprach-, Literatur- oder Medienwissenschaften zur Verfügung und ist ihrerseits von der Informatik abhängig.

Davon abgesehen halten wir die Diskussion über den Charakter der CP nicht für eine vitale Frage, solange nicht deren Qualitätsmessung davon abhängig ist.

Grundaktivitäten und Praxisraum der CP

Grundsätzlich kann man mit dem Computer in textorientierten Studien die folgenden Aktivitäten unterstützen [in Klammern Randbereiche der CP]:

Forschen

Lehren und Lernen

Verwalten

Publizieren

Komplexes Suchen und Finden

Demonstratoren (für komplexe Prozesse)

Repräsentieren

Höhere Textgestaltung

Sortieren

Simulatoren (zum Beispiel für kognitive Fähigkeiten)

Datenbanken


Analysieren


Archivieren


Evaluieren


Pflegen

[Präsentieren]

[E-Learning]

[Kommunikationsdienste]

Editionstechnik




[Buchsatz]

In Diskussionen entstehen hier oft falsche Erwartungen über den Praxisraum der CP, die auch durch hohe Wissenschaftsansprüche genährt werden. Wie vor über dreißig Jahren bei der Sprachstatistik haben die Geisteswissenschaften auch gegenüber der CP ein tief sitzendes Bedürfnis nach ›objektiven Ergebnissen‹ und zwar am besten durch Verfahren, die auch die Methodenwahl automatisch vornehmen. Dies sind sicher kulturell und wissenschaftstheoretisch fehlgeleitete Vorstellungen, die sich karikieren lassen durch eine Art Forschungsmaschine, die ähnlich einer Autobahnbaukolonne in eine unbearbeitete Datenlandschaft gesetzt wird und hinter sich eine sauber gefegte freigabefertige Theorie-Ergebnis-Piste hinterlässt. Auch hier ist vielleicht die Vorstellung von einer Hilfswissenschaft ein hilfreicher Dämpfer gegenüber falschen Erwartungen.

Die Vorlesung Computerphilologie an der Universität Hamburg

Aus unserer Sicht sollte die CP nicht nur vereinzelte themenbezogene Veranstaltungen anbieten, sondern in Abständen von einigen Semestern in einer Überblicksvorlesung die Methoden und philologischen Anwendungsoptionen zusammengefasst darstellen. Der Platz von CP-Veranstaltungen in einer wissenschaftlichen Ausbildung ist nur durch Methodenkompetenz, nicht durch spezielle Nutzungsfertigkeiten zu begründen. Das bewahrt die CP außerdem auch vor dem Image, nur durch eine Menge von kleinen Projekten und speziellen Tools beschreibbar zu sein.

Die Vorlesung passt als didaktische und methodische Form hierzu sehr gut, weil sie einen Überblick verschaffen kann und den Hörern soviel Hintergrundwissen anbietet, dass sie für ihre eigenen Projekte aus Methoden und Lösungen aussuchen können. Dabei scheint uns der Einsatz von Visualisierungen und Demonstratoren für komplexe Verfahren und Algorithmen in Geisteswissenschaften besonders wichtig. Leider gibt es davon noch zu wenig. Damit ist aber nicht die ausführliche oder vorrangige Behandlung von CP-Tools in einer solchen Vorlesung gemeint, denn deren Nutzung ist durch gute Dokumentationen meist unkritisch. Die Vorlesung wird bewusst nicht in einem Computerraum durchgeführt.

Die didaktische Form von Seminaren über CP im Wahl- oder Wahlpflichtfach ist im normalen Curriculum kritisch, weil in den meisten philologischen Studien ohnehin zu wenig Raum für die Behandlung von zentralen linguistischen oder literaturwissenschaftlichen Inhalten bleibt. Die Hamburger CP hat daher den Weg einer Zusatzqualifikation mit Zertifikat gewählt.

Bei der Breite des Stoffs ist eine zweistündige Vorlesung nach unseren Erfahrungen eine Notwendigkeit.[2]

Die an der Universität Hamburg im Fachbereich Sprach-, Literatur- und Medienwissenschaft inzwischen zum dritten Mal erfolgreich gehaltene Vorlesung verzichtet darauf, klare Trennlinien zur Computerlinguistik zu konstruieren, da die beiden Fächer zwar sicher je ihre eigenen Themen verfolgen, aber besonders im Bereich der Repräsentation natürliche Überschneidungen haben.

Die Vorlesung orientiert sich bei der Auswahl der Stoffe an den folgenden Kriterien:

Inhalte der Hamburger Vorlesung über 26 Stunden

Einführung
40 Folien

Übersicht, allgemeine und theoretische Grundlagen, Annahmen der CP, Arbeitsdefinitionen, Abhängigkeit der CP von der Philologie, Klassische Themen, Methoden, Computerlinguistik, Geschichtliches

Internet
46 Folien

Informationserhebung und -filterung, Qualitätsmessung, Hypertexte, Browser, ASCII, HTML, Multimodalität, Multilingualität, Maschinelle Übersetzung, Fachrelevante Suchmaschinen, Digitale Korpora, Digitale Bücher, Elektronische Zeitschriften , Nl Interfaces, Chatbots und Virtuelle Assistenten, Virtuelle Webseiten

Dokumentmanagement
53 Folien

Dokument-Formate, SGML, TEI, XML, HTML, CSS, DHTML, XHTML, Derivate, Bildformate

Edition und Druck
27 Folien

Formatierungsprogramme, LaTeX, .ps-File, Postscript (PS), EPS, PDF

Lexikalische Bearbeitung
66 Folien

Morphemik, Wortsegmentierung, MORPHY, ManageLex, Kollokationen, Idiome und Tokenizer, WordNet, Lexikalische Graphen, Latent Semantic Analysis (LSA), COOC, Konkordanzen, Thesauri

Syntaktische Bearbeitung
50 Folien

Syntaktische Annotation, Parsing, Parsing-Ergebnisse, Parsingstrategien, Patternmatcher, Netzwerkgrammatiken, BTN, Chart-Parsing, Online Parser für deutsche Sprache, UIS, Das Babel-System

Semantische Bearbeitung
31 Folien

Designentscheidungen, CD Graphs, Scripts, KL-ONE, Conceptual Graphs, semantische Analyse, Auswertung, Referenzauflösung, Semantische Netze, Ontologien, Semantic Web, RDF, RDFS, OWL

Textstruktur- Bearbeitung
27 Folien

Text und Metatext, Schwerpunkt Logik, Aussagenlogik, Prädikatenlogik, Repräsentation von Kohärenz, Handlungspfade, Zeitstruktur, Dialogstruktur, Gliederung, DRT, RST, Summarizing

Korpora
41 Folien

Type, Token und Lexem, Korpustypen, Transliteration und Transkription, Anforderungen bei Gesprochener Sprache, Aufbau eines Files, Historische Texte, Detail, Erstellung von Korpora, Tokenisierung und Satzgrenzenerkennung, Tagging, @nnotate, TnT, Brill-Tagger, NP Chunking, Negr@, PTB, DIDA

Ein-/Ausgabe
10 Folien

Scannen, OCR, Software, Nachbearbeitung, ASCII und Unicode

Sprachbezogene Datenbanken
21 Folien

Datenbanksysteme, Textbezogene und geiseteswissenschaftliche Datenbanken, Flache Datenbanken, Indexierte Datenbank, Datenbanken –Benutzung, Datenbanken – Architektur, Datenbankmodelle

Standards
47 Folien

Standards für Korpora, für Tests, Phonetische Daten, Speech Recording, Lexikon, Text-Repräsentation, AECMA Restricted Language, Diskurs, Systeme und Tools, IAMT Zertifizierung von MT Systemen, Formalismus-Standards, TEI, Software, Lokalisierungsstandards, Institutionen: ELRA, ELAN. NIST, EAGLES

CP-Tools
10 Folien

TUSTEP, CL@RK, TACT, FolioViews

Computergestützte Zusammenarbeit
15 Folien

Concept Mapping Tools, Outliner, Groupware, Projekt-Räume, Open Source Software, General Public Licence, E-Learning und Kollaborative Plattformen: CommSy, Twiki, WebCT.

Erfahrungen

Die Vorlesung wurde von Studenten und Mitarbeitern unterschiedlicher Philologien besucht. Die Teilnehmerzahlen sanken nach den ersten beiden Sitzungen, weil danach relativ technische Abschnitte vorgetragen wurden, und einige Teilnehmen offenbar elementare Computernutzungs-Information erwartet haben, obwohl das kommentierte Vorlesungsverzeichnis dies ausdrücklich ausschloss. Es scheint also nötig zu sein, die Computerphilologie hier noch deutlicher abzusetzen. Die Vorlesung hat wesentlich dazu beigetragen, dass CP in Hamburg als ein Kompetenzbereich anerkannt ist und gehört zu den fachübergreifenden Aktivitäten der Informatik, die sich auch sonst sehr um geisteswissenschaftliche Kooperationen bemüht. Die Arbeitsstelle bemüht sich, auch bei der Neustrukturierung des Studiums in einem BA/MA-Schema die CP als Zusatzqualifikation bereits im BA studierbar zu machen.

Walther v. Hahn, Cristina Vertan (Hamburg)

Prof Dr. Walther v. Hahn, Dr. Cristina Vertan
Arbeitsbereich »Natürlichsprachliche Systeme«
im Fachbereich Informatik
Universität Hamburg
vhahn@informatik.uni-hamburg.de
cri@nats.informatik.uni-hamburg.de

(14. März 2005)