Abstract
The present paper introduces central paradigms, selection criteria and special topics for a introductory lecture on Computing in Text-oriented Humanities (CP). The term ›Computing in Text-oriented Humanities‹ (German ›Computerphilologie‹) should be understood as follows: ›Computer-‹ means some basic knowledge of non-technical user-applications while ›text oriented humanities‹ (germ. ›Philologie‹) is addressing those students and scientists dealing with language research themes or texts in any form. The paper is referring to a severalfold held course at the Language Department of the University of Hamburg.
Das Papier stellt Leitvorstellungen, Auswahlkriterien und konkrete Inhalte für eine wissenschaftliche Grundlagenvorlesung im Gebiet Computerphilologie (CP) zusammen. Dabei wird im Verständnis von Computerphilologie bei ›Computer-‹ eine geläufige nichttechnische Nutzungskenntnis bereits vorausgesetzt, mit ›-philologie‹ werden Studenten und Wissenschaftler solcher Fächer angesprochen, die vorwiegend mit Sprache und Texten umgehen. Das Papier bezieht sich auf eine mehrfach gehaltene Vorlesung im Fachbereich Sprach-, Literatur- und Medienwissenschaft der Universität Hamburg.
Es gibt in der deutschen Universitätslehre ein häufig beobachtbares Dissoziierungsphänomen von Geistes- und Ingenieurswissenschaften: Die Bereitschaft geisteswissenschaftlicher Dozenten und Studierender, sich mit formalen oder gar mathematischen Verfahren zu beschäftigen, sinkt ebenso wie das Interesse von Natur- und besonders Ingenieurswissenschaften (einschließlich der ›klassischen‹ Informatik) sich mit den textuellen hermeneutischen Interpretationen sprach- und sozialwissenschaftlicher Sachverhalte zu beschäftigen. So wie die Vorstellungen und Assoziationen von Menschen(-gruppen) und ihre Kommunikation für den Informatiker die wesentliche Grundlage seiner Arbeit (noch vor der Umsetzung von Algorithmen) sein sollte, so ist es für den Geisteswissenschaftler inzwischen unumgänglich, sich mittels überprüfbarer und wiederholbarer Verfahren an großen Datenmengen seiner Interpretation zu vergewissern, wohl wissend, dass formale Verfahren selbst keine Interpretation erzeugen.
In diesem Dissoziierungsprozess zu vermitteln ist sicher eines der Hintergrundziele der Computerphilologie. Ein technologieblindes Arbeiten in den Geisteswissenschaften kann sich die Gesellschaft ebenso wenig leisten wie die sozialblinde Ingenieurseinstellung vieler Informatiken, besonders an Fachhochschulen, die sich teilweise als Programmierausbildungsinstitute begreifen.
Andererseits ist festzustellen, dass die Benutzung des Computers durch Studenten und Dozenten in den Geisteswissenschaften grundsätzlich zunimmt. Die Hamburger Computerphilologie[1] will aber satzungsgemäß die Nutzung substantieller und wissenschaftlich motivierter höherer Computermethoden fördern:
"Die Computerphilologie (CP) an der Universität Hamburg ist eine gemeinsame interdisziplinäre wissenschaftliche Arbeitsstelle der Fachbereiche Sprach-, Literatur- und Medienwissenschaft (FB07) und des Fachbereichs Informatik (FB18), die primär text- beziehungsweise sprachbezogene philologische Fragestellungen mit methodologisch ausgewiesenen Verfahren einer rechnergestützten Modellierung und Auswertung von Daten anwenden und vermitteln will."
Ganz bewusst schließt die Hamburger CP folgende Bereiche aus: Elementare Computernutzung beim Studium (dazu bietet das Regionale Rechenzentrum Kurse an), Einführung in IT, einschließlich Internet und Datenrecherche (das bieten zum Beispiel Bibliotheken an), Datenbankanwendungen, Sprachlehrsysteme und Multimedia-Praxis. Es sollen natürlich auch keine Veranstaltungen angeboten werden, die lediglich eine halbphilologische Beschäftigung für computerbegeisterte Studenten (oder gar Dozenten) darstellen, sondern der fachliche und wissenschaftliche Fortschritt bei der Erforschung von Sprache, Literatur und Medien soll durch Computernutzung effizienter gestaltet werden.
Die Verfasser gehen bei ihren Aktivitäten in der CP von folgenden konstitutiven Annahmen über die Computerphilologie aus, die deren Einsatz erst sinnvoll machen:
Durch nicht-naive Analysen/Verfahren werden komplexe Eigenschaften von Texten sichtbar, die sonst der Interpretation nicht zugänglich sind.
Computergestützte Verfahren sind nicht-naiv, da sie (über die reine Betrachtung von Texten hinaus) Massenphänomene und verborgene Abhängigkeiten zur Interpretation anbieten.
Computerphilologische Verfahren fördern die Wissenschaftlichkeit durch bessere Datengründung, Transparenz und (soweit je möglich) Verifikation von wissenschaftlichen Aussagen.
Computerphilologie als solche ist keine Wissenschaft, sondern eine Hilfswissenschaft.
Mit anderen Worten heißt dies, dass eine veränderte Repräsentation von Daten deren Interpretation beeinflussen kann, eine Tatsache, die Literatur- und Sprachwissenschaftler schon immer anerkannt haben; auch dass Verfahren für eine möglichst breite Qualitäts- und Plausibilitätsüberprüfung die Qualität der Daten und damit der Interpretation erhöhen, ist akzeptiert. Seit der verbreiteten Nutzung von Computern wissen wir auch, dass es Repräsentationen von Sprache gibt, die ohne Computer nicht in sinnvoller Zeit aufgebaut werden können.
Der in Punkt 4 festgestellte hilfswissenschaftliche Charakter der Computerphilologie für die Philologien ist offensichtlich: Die CP hat keinen Selbstzweck ohne eine textbezogene Hypothese im Hintergrund, andernfalls könnte man das massenhafte Ausmessen von I-Punkten nicht als offensichtlich irrelevante Methode ausschließen. Ganz sicher kann man computerphilologische Verfahren isoliert erforschen und entwickeln (zum Beispiel Aufbau spezieller Markup-Sprachen, stochastische Verfahren, Erstellen von Korpora), Mathematik und Informatik tun dies auch, aber auch komplexe Software-Projekte bleiben immer von den philologischen Fragenstellungen abhängig und wenden Informatikwissen an.
Das gilt in derselben Weise, wie ein Überweisungsprogramm sich immer nach den Regeln des Bankverkehrs bewerten lassen muss. Mit anderen Worten der Wert von CP-Methoden kann nur auf Grund ihrer philologischen Leistung beurteilt werden, nicht auf Grund inhärenter Methoden und Ziele. Daher ist eine vorgängige sorgfältige theoretische Modellierung des betreffenden textbezogenen Phänomens unerlässlich, wie das schon immer in den Wissenschaften nötig war. Genuine deskriptive, normative oder rekonstruktive Methoden hat die CP nicht, sie stellt allenfalls eine Hilfswissenschaft dar. Sie hat gerade nicht, wie man das von Wissenschaften fordert, einen (operationalen) Apparat zur Aufstellung von Hypothesen, zur Beschreibung von Sachverhalten und zur Bildung von Theorien, sondern sie stellt rationale Verfahren und Heuristiken für die oben genannten Aufgaben einer (anderen) Wissenschaft, wie den Sprach-, Literatur- oder Medienwissenschaften zur Verfügung und ist ihrerseits von der Informatik abhängig.
Davon abgesehen halten wir die Diskussion über den Charakter der CP nicht für eine vitale Frage, solange nicht deren Qualitätsmessung davon abhängig ist.
Grundsätzlich kann man mit dem Computer in textorientierten Studien die folgenden Aktivitäten unterstützen [in Klammern Randbereiche der CP]:
Forschen |
Lehren und Lernen |
Verwalten |
Publizieren |
Komplexes Suchen und Finden |
Demonstratoren (für komplexe Prozesse) |
Repräsentieren |
Höhere Textgestaltung |
Sortieren |
Simulatoren (zum Beispiel für kognitive Fähigkeiten) |
Datenbanken |
|
Analysieren |
|
Archivieren |
|
Evaluieren |
|
Pflegen |
|
[Präsentieren] |
[E-Learning] |
[Kommunikationsdienste] |
Editionstechnik |
|
|
|
[Buchsatz] |
In Diskussionen entstehen hier oft falsche Erwartungen über den Praxisraum der CP, die auch durch hohe Wissenschaftsansprüche genährt werden. Wie vor über dreißig Jahren bei der Sprachstatistik haben die Geisteswissenschaften auch gegenüber der CP ein tief sitzendes Bedürfnis nach ›objektiven Ergebnissen‹ und zwar am besten durch Verfahren, die auch die Methodenwahl automatisch vornehmen. Dies sind sicher kulturell und wissenschaftstheoretisch fehlgeleitete Vorstellungen, die sich karikieren lassen durch eine Art Forschungsmaschine, die ähnlich einer Autobahnbaukolonne in eine unbearbeitete Datenlandschaft gesetzt wird und hinter sich eine sauber gefegte freigabefertige Theorie-Ergebnis-Piste hinterlässt. Auch hier ist vielleicht die Vorstellung von einer Hilfswissenschaft ein hilfreicher Dämpfer gegenüber falschen Erwartungen.
Aus unserer Sicht sollte die CP nicht nur vereinzelte themenbezogene Veranstaltungen anbieten, sondern in Abständen von einigen Semestern in einer Überblicksvorlesung die Methoden und philologischen Anwendungsoptionen zusammengefasst darstellen. Der Platz von CP-Veranstaltungen in einer wissenschaftlichen Ausbildung ist nur durch Methodenkompetenz, nicht durch spezielle Nutzungsfertigkeiten zu begründen. Das bewahrt die CP außerdem auch vor dem Image, nur durch eine Menge von kleinen Projekten und speziellen Tools beschreibbar zu sein.
Die Vorlesung passt als didaktische und methodische Form hierzu sehr gut, weil sie einen Überblick verschaffen kann und den Hörern soviel Hintergrundwissen anbietet, dass sie für ihre eigenen Projekte aus Methoden und Lösungen aussuchen können. Dabei scheint uns der Einsatz von Visualisierungen und Demonstratoren für komplexe Verfahren und Algorithmen in Geisteswissenschaften besonders wichtig. Leider gibt es davon noch zu wenig. Damit ist aber nicht die ausführliche oder vorrangige Behandlung von CP-Tools in einer solchen Vorlesung gemeint, denn deren Nutzung ist durch gute Dokumentationen meist unkritisch. Die Vorlesung wird bewusst nicht in einem Computerraum durchgeführt.
Die didaktische Form von Seminaren über CP im Wahl- oder Wahlpflichtfach ist im normalen Curriculum kritisch, weil in den meisten philologischen Studien ohnehin zu wenig Raum für die Behandlung von zentralen linguistischen oder literaturwissenschaftlichen Inhalten bleibt. Die Hamburger CP hat daher den Weg einer Zusatzqualifikation mit Zertifikat gewählt.
Bei der Breite des Stoffs ist eine zweistündige Vorlesung nach unseren Erfahrungen eine Notwendigkeit.[2]
Die an der Universität Hamburg im Fachbereich Sprach-, Literatur- und Medienwissenschaft inzwischen zum dritten Mal erfolgreich gehaltene Vorlesung verzichtet darauf, klare Trennlinien zur Computerlinguistik zu konstruieren, da die beiden Fächer zwar sicher je ihre eigenen Themen verfolgen, aber besonders im Bereich der Repräsentation natürliche Überschneidungen haben.
Die Vorlesung orientiert sich bei der Auswahl der Stoffe an den folgenden Kriterien:
Wissenschaftstheoretische Grundlage
Breite Information wegen der Heterogenität und Breite des Gebiets
Formalismen und Beschreibungssprachen mit Beispielen für Vergleichbarkeit und formale Stringenz
Repräsentation von textuellen Merkmalen auf vielen Ebenen
Bei komplexen Verfahren demonstrator-artige Präsentation
wenige Details zu Anwendungssoftware und zu Tools, da es hierzu meist gute Information gibt.
Einführung 40 Folien
Übersicht, allgemeine und theoretische Grundlagen, Annahmen der CP, Arbeitsdefinitionen, Abhängigkeit der CP von der Philologie, Klassische Themen, Methoden, Computerlinguistik, Geschichtliches |
Internet 46 Folien
Informationserhebung und -filterung, Qualitätsmessung, Hypertexte, Browser, ASCII, HTML, Multimodalität, Multilingualität, Maschinelle Übersetzung, Fachrelevante Suchmaschinen, Digitale Korpora, Digitale Bücher, Elektronische Zeitschriften , Nl Interfaces, Chatbots und Virtuelle Assistenten, Virtuelle Webseiten |
Dokumentmanagement 53 Folien
Dokument-Formate, SGML, TEI, XML, HTML, CSS, DHTML, XHTML, Derivate, Bildformate |
Edition und Druck 27 Folien
Formatierungsprogramme, LaTeX, .ps-File, Postscript (PS), EPS, PDF |
Lexikalische Bearbeitung 66 Folien
Morphemik, Wortsegmentierung, MORPHY, ManageLex, Kollokationen, Idiome und Tokenizer, WordNet, Lexikalische Graphen, Latent Semantic Analysis (LSA), COOC, Konkordanzen, Thesauri |
Syntaktische Bearbeitung 50 Folien
Syntaktische Annotation, Parsing, Parsing-Ergebnisse, Parsingstrategien, Patternmatcher, Netzwerkgrammatiken, BTN, Chart-Parsing, Online Parser für deutsche Sprache, UIS, Das Babel-System |
Semantische Bearbeitung 31 Folien
Designentscheidungen, CD Graphs, Scripts, KL-ONE, Conceptual Graphs, semantische Analyse, Auswertung, Referenzauflösung, Semantische Netze, Ontologien, Semantic Web, RDF, RDFS, OWL |
Textstruktur- Bearbeitung 27 Folien
Text und Metatext, Schwerpunkt Logik, Aussagenlogik, Prädikatenlogik, Repräsentation von Kohärenz, Handlungspfade, Zeitstruktur, Dialogstruktur, Gliederung, DRT, RST, Summarizing |
Korpora 41 Folien
Type, Token und Lexem, Korpustypen, Transliteration und Transkription, Anforderungen bei Gesprochener Sprache, Aufbau eines Files, Historische Texte, Detail, Erstellung von Korpora, Tokenisierung und Satzgrenzenerkennung, Tagging, @nnotate, TnT, Brill-Tagger, NP Chunking, Negr@, PTB, DIDA |
Ein-/Ausgabe 10 Folien
Scannen, OCR, Software, Nachbearbeitung, ASCII und Unicode |
Sprachbezogene Datenbanken 21 Folien
Datenbanksysteme, Textbezogene und geiseteswissenschaftliche Datenbanken, Flache Datenbanken, Indexierte Datenbank, Datenbanken –Benutzung, Datenbanken – Architektur, Datenbankmodelle |
Standards 47 Folien
Standards für Korpora, für Tests, Phonetische Daten, Speech Recording, Lexikon, Text-Repräsentation, AECMA Restricted Language, Diskurs, Systeme und Tools, IAMT Zertifizierung von MT Systemen, Formalismus-Standards, TEI, Software, Lokalisierungsstandards, Institutionen: ELRA, ELAN. NIST, EAGLES |
CP-Tools 10 Folien
TUSTEP, CL@RK, TACT, FolioViews |
Computergestützte Zusammenarbeit 15 Folien
Concept Mapping Tools, Outliner, Groupware, Projekt-Räume, Open Source Software, General Public Licence, E-Learning und Kollaborative Plattformen: CommSy, Twiki, WebCT. |
Die Vorlesung wurde von Studenten und Mitarbeitern unterschiedlicher Philologien besucht. Die Teilnehmerzahlen sanken nach den ersten beiden Sitzungen, weil danach relativ technische Abschnitte vorgetragen wurden, und einige Teilnehmen offenbar elementare Computernutzungs-Information erwartet haben, obwohl das kommentierte Vorlesungsverzeichnis dies ausdrücklich ausschloss. Es scheint also nötig zu sein, die Computerphilologie hier noch deutlicher abzusetzen. Die Vorlesung hat wesentlich dazu beigetragen, dass CP in Hamburg als ein Kompetenzbereich anerkannt ist und gehört zu den fachübergreifenden Aktivitäten der Informatik, die sich auch sonst sehr um geisteswissenschaftliche Kooperationen bemüht. Die Arbeitsstelle bemüht sich, auch bei der Neustrukturierung des Studiums in einem BA/MA-Schema die CP als Zusatzqualifikation bereits im BA studierbar zu machen.
Walther v. Hahn, Cristina Vertan (Hamburg)
Prof Dr. Walther v. Hahn, Dr. Cristina Vertan
Arbeitsbereich »Natürlichsprachliche Systeme«
im Fachbereich Informatik
Universität Hamburg
vhahn@informatik.uni-hamburg.de
cri@nats.informatik.uni-hamburg.de
(14. März 2005)