Wissenschaftliche Infrastruktur in den
Geisteswissenschaften? – Eine Wegbeschreibung

[1] 

Einführung

[2] 

Technologien und Dienstleistungen entwickeln sich rasant und finden ihren festen Platz im wissenschaftlichen Alltag. Digitalisierungs­zentren und Transkriptionsdienste, Bibliothekskataloge oder Publikationsportale – ohne diese Dienste und Ressourcen wird Wissenschaft aus heutiger Sicht langsamer, potenziell lücken­haft. Gleichzeitig erfordern sie Kenntnisse von Wissenschaftlern, die häufig nicht zur fachwissenschaftlichen Kompetenz zählen.

[3] 

In jüngster Zeit ist das Schlagwort »Infrastruktur«, sowohl im technischen als auch im organisatorischen Sinn, in aller Munde. Dies hat unter anderem einen pragmatischen Grund: Förderer erhoffen sich von kollaborativen Basisdiensten eine höhere Kosteneffizienz und gesteigerte Nachhaltigkeit in der Wissenschaft. So sind viele Wissenschaften auf derart große und kostenintensive Werkzeuge angewiesen, dass nur gemeinschaftlich genutzte und entwickelte Infrastrukturen zur Wahl stehen. Forschungsschiffe etwa, Satellitennetzwerke für die Astronomie und Klimaforschung, bis hin zu experimentellen Reaktoren zählen global zur wissenschaftlichen Infrastruktur. Das von den Forschungsministerien europäischer und assoziierter Staaten eingesetzte European Strategy Forum on Research Infrastructures (ESFRI) [1] investiert aktuell mehrere Milliarden Euro in den koordinierten Aufbau solcher langlebiger Infrastrukturen.

[4] 

Neben diesen permanenten und physischen Infrastrukturen wird vor allem in digitale Infrastrukturen investiert. Im FP7 Forschungsprogramm der Europäischen Kommission ist eine eigene Abteilung für »e-Infrastructures« eingerichtet, die Projekte im Bereich digitaler Technologien (ICT) priorisiert. Sie hat mit rund 600 Millionen Euro für die Jahre 2007 bis 2013 die höchste Fördersumme des ICT-Budgets zugeteilt bekommen. [1] Die Deutsche Forschungsgemeinschaft (DFG) beschloss im Mai 2006 wissenschaftliche Literaturversorgungs- und Informationssysteme in Form von globalen Mittelzuweisungen und Programmbudgets zu fördern, und ihnen damit größere Flexibilität und langfristigere Planung zu ermöglichen. [2] Nationale Initiativen zum Aufbau einer digitalen Wissenschaftsinfrastruktur, wie D-Grid in Deutschland [4], versuchen über Institutions- und Wissenschaftsgrenzen hinweg eine permanente digitale Infrastruktur aufzubauen.

[5] 

Obwohl »Petaflop Supercomputing« und ähnlich populäre Überschriften nicht direkt auf die Geisteswissenschaften ausgerichtet sind, können gerade auch die Geisteswissenschaften von solchen Infrastrukturaktivitäten profitieren. Nach einer groben Einschätzung würde die Digitalisierung der historischen Bestände aus dem deutschen Sprachgebiet seit Beginn des Buchdrucks bis 1900 etwa 40 Petabyte an Daten erzeugen. [3] Gerade Wissenschaftsdisziplinen wie die Hochenergiephysik sind es gewohnt, mit vergleichbar großen Datenmengen umzugehen. [4] Umgekehrt, können andere Disziplinen von den Erfahrungen der Geisteswissenschaften – beispielsweise in der Verwaltung von unstrukturierten Informationen und Metadaten oder bei der Langzeitarchivierung – profitieren. [5] So kann eine gemeinsame technologische Infrastruktur ein Gewinn für alle beteiligten Disziplinen und Forscher sein. UK e-Science[8], das Cyberinfrastructure Programm in den USA [6] und D-Grid in Deutschland sind hierbei unter den Vorreitern – noch beteiligen sich die Geisteswissenschaften jedoch eher vorsichtig an den zahlreich entstehenden Initiativen.

[6] 

Ein wesentlicher Treiber für den Aufbau geisteswissenschaftlicher Infrastrukturen sind auch bestehende Dienste; in Deutschland sind dies vor allem Bibliotheken, in anderen Ländern neben den Bibliotheken zum Teil auch Archive (zum Beispiel in Großbritannien oder den Niederlanden), Akademien (in Österreich zum Beispiel das Phonogrammarchiv), oder andere. Ihre wachsenden digitalen Repositorien ermöglichen völlig neue wissenschaftliche Methoden, Forschungs­ansätze und Analyseergebnisse. Mit Hilfe von Scanrobotern sind Bücher einer Bibliothek in absehbarer Zeit digitalisiert. Als jüngstes Beispiel lässt sich die Stanford University nennen, die mangels vorhandener Baufläche die »alte« Bibliothek mit ihrem Bücherbestand auslagern wird und stattdessen an gleicher Stelle ein Vorlesungs- und Seminargebäude errichten möchte. Langfristig sollen dann in Stanford sämtliche digitalisierte Bücher der Bibliothek, einschließlich frei verfügbarer Digitalisate aus aller Welt, primär über Computerbildschirme abgerufen werden können. [7] Dies fördert nicht nur den selbstverständlichen Umgang mit digitalen Ressourcen und erleichtert die Nutzung und damit die Kenntnisse seltener und kostbarer Buchexponate, sondern es wird auch eine digitale Ressourcenbasis geschaffen, die zu neuen Blickwinkeln auf die Daten, neuen Methoden und verändertem Publikationsverhalten einlädt. Die Lust an dem Komfort digitaler Datenpools und Hypertextsystemen, sei es in Bezug auf die Menge und Kontextualisierung von Daten oder sei es in Bezug auf die Suchfunktionalitäten, steht nur am Beginn eines geisteswissenschaftlichen Paradigmenwechsels. Längst arbeiten e-Humanities-Projekte daran, geisteswissenschaftliche Methodik in Tools abzubilden und vorhandene Technologien mit geisteswissenschaftlichen Anforderungen zu harmonisieren. Infrastrukturen in den Geisteswissenschaften als die »Kaiserinnen« aktueller Internetentwicklung gehen daher weit über Bibliotheksdigitalisierungen hinaus.

[7] 

Das Internet hat sich im letzten Jahrzehnt auch in den Geisteswissenschaften zum Medium der Kommunikation und zu einem unverzichtbaren Arbeitsmittel entwickelt. Im Zuge von Integ­rations­strategien ist die Verfügbarkeit von digitalen Diensten und deren Internationalisierung von entscheidender Bedeutung. Europaweite wie auch universitätsbezogene e-Humanities-Initiativen werden über Infrastrukturdienste rund um den Globus nicht nur verfügbar und nutzbar gemacht, sondern kollaborativ vernetzt. Die daraus entstehenden Verbundeffekte werden nachhaltig auf die Entwicklung der Geisteswissenschaften einwirken und alle Strukturen von Forschung über Lehre bis zu den Rahmenprozessen auf den Prüfstand stellen.

[8] 

Internationale Infrastrukturinitiativen

[9] 

In einigen Ländern haben sich bereits aus der Initiative von Wissenschaftlern nationale Zentren für die Geisteswissenschaften gebildet. Oftmals geschah dies aus der puren Notwendigkeit eines Datenarchivdienstes, der schließlich gewachsen ist und nun auch weiterführende Dienste anbietet. Das Arts and Humanities Data Service in Großbritannien war der erste diesbezügliche Dienst. Erst in jüngster Zeit entstehen auch in anderen Ländern vergleichbare Dienste; darunter DANS in den Niederlanden, das Irish Digital Humanities Observatory in Irland [8], der SND – Swedish National Data Service in Schweden [9], und der Schweizerischer Informations- und Datenarchivdienst für die Sozialwissenschaften – SIDOS in der Schweiz [10]. Vor allem verändert sich der Prozess der Forschung selbst, wird offener und entwickelt neue Rollen, Abläufe und Methoden – dies ist wohl das eigentlich Revolutionäre an der Nutzung von Internet-Infrastrukturen.

[10] 

AHDS / CeRch

[11] 

Das Arts and Humanities Data Service (AHDS) [13] ist das erste bekannte nationale Archiv und Dienstleistungszentrum für die Geisteswissenschaften. Das AHDS wurde 1995 als nationales Datenzentrum gegründet, das Empfehlungen für die richtige Datenerstellung und deren langfristige Pflege gab, und auch selbst aktiv Daten sammelte und archivierte. Dabei konzentrierte sich das AHDS auf fünf Schwerpunkte in den Geisteswissenschaften (Archäologie, Geschichte, Literatur und Linguistik) und der Kunst (Visuelle Kunst, Darstellende Kunst), die auch jeweils durch einzelne Institutionen besonders gefördert wurden. Im Bereich der Literatur und Linguistik war dies das Oxford Text Archive (OTA) [14], das 1976 durch Lou Burnard gegründet wurde und zeitweise auch ein wesentlicher Bestandteil des AHDS war beziehungsweise durch das AHDS gefördert wurde. Neben den wissenschaftlichen Texten des OTA hat das AHDS Datenbanken, Bilder, Videos und andere Objekttypen beziehungsweise Formate gesammelt, insgesamt mehrere Terabytes an Daten.

[12] 

Das AHDS wurde anteilig durch das AHRC [11] und JISC [12] gefördert und hatte auch eine gewisse Vermittlerrolle zwischen Forschungsprojekten und Förderern inne. Gerade mit der Rolle als zentrales Datenarchiv für die Geisteswissenschaften war das AHDS von den Nutzern und Datenlieferanten als nachhaltige Institution angesehen. Umso überraschender kam die Kündigung der finanziellen Unterstützung durch das AHRC. JISC zog sich dann in Folge ebenfalls zurück, da es das AHDS nicht langfristig alleine fördern konnte. [13]

[13] 

Um die Arbeit des AHDS fortzuführen und die gesammelten Daten der letzten Jahre weiterhin zu pflegen, übernahmen die jeweiligen Disziplinen und Institute die fünf Schwerpunktbereiche des ehemaligen AHDS. Einer der zentralen Datenbestände von AHDS war das OTA. Es wird auch weiterhin auf eine Zielgruppe außerhalb der Oxford Universität ausgerichtet sein und für seine Service- und Consultingdienste Gebühren verlangen.

[14] 

Am King’s College London wird ein neues Centre for e-Research (CeRch) aufgebaut, das strukturell zwar viel vom ehemaligen AHDS-Zentrum übernimmt, aber primär eine institutionell ausgerichtete Forschungsabteilung ist und am King’s College zum Beispiel Aufgaben in der Lehre übernimmt. CeRch hat auch die Archivierung von 14 Terabyte Primärdaten aus Zeiten des AHDS übernommen und baut diesen Datenbestand ständig aus (speziell geplante Bild- und Videoarchive bringen substanzielle Datenvolumina mit sich). Derzeit arbeiten am CeRch etwa 25 Personen; die derzeit 12 laufenden Forschungsprojekte umfassen ein Forschungsbudget von rund 2 Millionen Britischen Pfund.

[15] 

Zusätzlich wurde ein nationales Netzwerk von geisteswissenschaftlichen Zentren gebildet, das ab Mitte 2008 eine Klammer über gleichberechtigte Partner bilden wird. [14] Insgesamt stehen die Infrastruktur­aktivitäten in den Geisteswissenschaften daher finanziell und strukturell besser denn je da. Die Verteilung ermöglicht es, näher beim eigentlichen Wissenschaftler zu sein, als das dem zentralisierten AHDS möglich war.

[16] 

DANS

[17] 

Der Data Archiving und Networked Service, kurz DANS [19], ist eine vergleichbare Institution der Royal Netherlands Academy of Arts and Sciences (KNAW) und der Netherlands Organisation for Scientific Research (NWO). Seit es 2005 gegründet wurde, baut es den Zugang und die Sammlung von digitalen Forschungsdaten der Geistes- und Sozialwissenschaften stetig aus und entwickelt auch selbst neue Infrastrukturdienste sowie konkrete wissenschaftliche Anwendungen. Neben der Kernaufgabe als Archiv führt DANS auch diverse Forschungsprojekte [20] durch, beziehungsweise begleitet diese.

[18] 

Bei DANS arbeiten gut 40 Mitarbeiter (davon 20 fest, 20 temporär und/oder projektangestellt). Zu einem Grundbudget von 2,5 Millionen Euro kommen noch etwa 1,2 Millionen Euro aus Forschungsprojekten. Das Datenarchiv umfasst – trotz des kurzen Bestehens – bereits gut ein Dutzend Terabyte. DANS erwartet eine Verdopplung des Datenvolumens noch in 2008.

[19] 

Der Dienst von DANS spricht die verschiedensten Fachrichtungen an, von der Archäologie bis hin zur Wissenschaftsgeschichte. Mit den Beständen aus dem Steinmetz-Archiv (STAR), dem Netherlands Historic Data Archive (NHDA), der Scientific Statistical Agency (WSA) und dem e-Depot Dutch Archaeology (eDNA) hat DANS umfassende und sehr bekannte Archive in seine Obhut genommen. Darüber hinaus bietet das von DANS entwickelte Electronic Archiving System (EASY) ein für Wissenschaftler online zugängliches Portal zur Datenabgabe. Die dort eingereichten Daten werden von DANS langzeitarchiviert. Der Wissenschaftler beschreibt die Daten bei der Abgabe mit ausführlichen Metadaten; außerdem kann der Wissenschaftler die Lizenzrechte zur Zugänglichkeit und auch zur Wiederverwendung der Daten definieren und dabei festlegen, ob jeder die Daten einsehen darf oder ob die Daten – mit Referenz auf die Quelle – in anderen Kontexten wiederverwendet werden dürfen. Die Zugänglichkeit der Daten ermöglicht DANS über eine Suchfunktionalität und mitunter auch durch Spezialanwendungen, zum Beispiel in Vernetzung mit geografischen Informationen in Alfa Geo und NLGIS (Netherlands Geographic Information Systems), einer Anwendung für Historiker, die regionale Veränderungen in den Niederlanden kartographiert.

[20] 

Zu den wichtigsten Aktivitäten von DANS im Bereich der Langzeitarchivierung zählen die Entwicklung eines XML-basierten Datenformats zur Archivierung durch das Projekt MIXED. Außerdem vergibt DANS ein Gütesiegel an Projekte, die sich bei der Datenarchivierung an die von DANS publizierten Empfehlungen halten. [15]

[21] 

Nach der Beschreibung der nationalen Infrastrukturorganisationen in Großbritannien und den Niederlanden werden nun internationale Netzwerke beschrieben, angefangen mit DARIAH und CLARIN, an denen auch DANS und CeRch beteiligt sind. DARIAH ist ein thematisch sehr breites Netzwerk aus Infrastrukturorganisationen, während CLARIN ein fachspezifischer Zusammenschluss von Organisationen aus der Linguistik ist. Beide arbeiten vornehmlich mit wissenschaftlichen Rohdaten. DRIVER, ein weiteres europäisches Netzwerk, verknüpft hingegen insbesondere Repositorien mit Publikationen. Abschließend wird auf mögliche Ansätze für eine deutsche e-Humanities-Infrastruktur eingegangen.

[22] 

DARIAH

[23] 

DARIAH [16] ist ein Netzwerk aus europäischen e-Humanities-Zentren (darunter AHDS und DANS) und errichtet eine europäische Forschungsinfrastruktur für die Geisteswissenschaften. Die verteilte Infrastruktur wird für die geisteswissenschaftliche Forschung in ihren Kernpunkten die Langzeitarchivierung von Forschungsdaten ausbauen, sowie ihren Austausch und gemeinsamen Nutzen fördern.

[24] 

Als ESFRI Projekt (siehe oben) ist DARIAH langfristig ausgerichtet: In einem zweijährigen Vorprojekt wird die zukünftige Infrastruktur konzeptioniert (preparation phase), anschließend in einem bis zu zehnjährigen Zeitraum aufgebaut (construction phase) und schließlich permanent gewartet (operational phase). Um den Übergang in permanente Strukturen sicherzustellen, ist das Vorprojekt zu einem guten Teil auf organisatorisch-politische Themen ausgerichtet: Organisationsstruktur, rechtliche Rahmenbedingungen, Finanzierung, Rahmenstrategie und Ausrichtung auf Zielgruppen. Die technische Infrastruktur wird ebenso thematisiert, hat aber einen vergleichsweise geringen Stellenwert.

[25] 

Ursprünglich initiiert wurde DARIAH von den Kernpartnern AHDS, DANS, dem CNRS [17] in Frankreich, und der Max Planck Gesellschaft in Deutschland. Bei der Antragseinreichung vereinte das Projekt auch Partner aus Irland, Dänemark, Griechenland, Zypern, Kroatien und Slowenien. Projektstart wird September 2008 sein.

[26] 

DARIAH wird existierende nationale Infrastrukturen in den Geisteswissenschaften vernetzen und die Länder, die derzeit noch über keine nationale Infrastruktur verfügen, in ihrem Aufbau unterstützen. Die dazu verwendete technische Infrastruktur wird auf den Standbeinen Grid (für die stabile, verteilte Datenhaltung), Repositorien (zur Metadaten- und Datenverwaltung), und Web Services (für die Forschungswerkzeuge) basieren, und neben der konkreten Software beziehungsweise Wissensaustausch auch Standards für Langlebigkeit und Interoperabilität geben.

[27] 

Die Finanzierung von DARIAH wird gemeinsam durch ESFRI und die nationalen Ministerien der jeweiligen Partner übernommen, wobei ESFRI anfangs fast gänzlich finanziert, sich dann aber schrittweise zurückzieht und spätestens in der operationalen Phase nicht mehr beisteuert. In Deutschland wurde dieser Prozess gemeinsam mit dem CLARIN Projekt in konstruktiven Gesprächen mit dem Bundesministerium für Bildung und Forschung (BMBF) gestartet.

[28] 

CLARIN

[29] 

Das internationale Projekt CLARIN (Common Language Resources and Technology Infrastructure) [23] entwickelt eine Infrastruktur für linguistische Ressourcen und verfolgt dazu eine Dreisäulenstrategie: Einmal unterstützt es die Verbindung und Homogenisierung existierender digitaler Datenarchive in Europa, um sprachbasierte Ressourcen sozial- und sprachwissenschaftlichen Communities zugänglich zu machen. Dann bündelt es die Fülle an Tools für linguistische Datenverarbeitung beziehungsweise computerunterstützte Sprachforschung mit dem Ziel, einen Überblick über bereits entwickelte Applikationen zu geben. Schließlich entwickelt CLARIN ein Angebot für Einsteiger in das Themenfeld der linguistischen e-Science-Methodik, um technikunerfahrenen Forschern den Umgang mit webbasierten Services zu erleichtern. CLARIN ist somit ein typischer Vertreter für eine fachspezifische Initiative und wird wie DARIAH von ESFRI finanziert. Das deutsche Teilprojekt von CLARIN heißt DSPIN.

[30] 

Die Absicht der Infrastruktur ist eine Kombination aus Koordinations-, Vernetzungs- und Supportsleistungen aufzubauen. Die Vision von CLARIN ist darüber hinaus nicht nur den Zugang zu den Daten, die Nutzung, den Support, das Erlernen und die Communitybildung zu fördern, sondern auch neue Formen interdisziplinärer und kollaborativer Zusammenarbeit unter den Sozial- und Geisteswissenschaften zu unterstützen. Das Projekt stellt beispielsweise Guidelines bereit, listet Kompetenzzentren auf, schafft per Single Sign-On Zugang zu den Sprachressourcen und entwickelt Tools, die über eine serviceorientierte Internetplattform auf Basis von Gridtechnologien genutzt werden können. Durch seine Bestrebungen, Technologien zu entwickeln, die auch disziplinunabhängig eingebunden werden können sowie durch die Verwendung und Fortentwicklung von Infrastruktur-Schlüsseltechnologien ist CLARIN komplementär zu DARIAH. Beispielsweise forscht CLARIN an semantischer Webtechnologie, um die strukturellen und semantischen Kodierungsprobleme zu überwinden.

[31] 

DRIVER

[32] 

Das Projekt DRIVER (Digital Repository Infrastructure Vision for European Research) [24] ist ein Projekt, das im Juni 2006 startete und in der zweiten Phase noch bis Ende 2009 laufen wird. Es zählt zu jenen Projekten, die im Framework 6 der Europäischen Union, dem IST Programm, gefördert wird. DRIVER positioniert sich sowohl als Infrastruktur wie auch als Suchmaschinen-Service, und verknüpft (»föderiert«) dazu jegliche Form von Publikationen in europäischen Repositorien. Direkte Projektpartner sind 10 europäische Universitäten, und deren Dokumentenserver (»Repositorien«) bilden die ersten Daten in der offenen DRIVER Infrastruktur. Organisatorisch hat eine Universität (Athen) das übergreifende Projekt Management übernommen, während der Universität Göttingen das technische und wissenschaftliche Projektmanagement zukommt.

[33] 

DRIVER bildet jedoch kein spezifisch digitales Repositoriensystem, das nur eingeschränkt für eine bestimmte Zielgruppe konzipiert ist und auf einer singulären Technologie basiert. Vielmehr positioniert sich DRIVER dezidiert als offene und generische Infrastruktur, die durch ihren modularen Aufbau beliebig anpassbar und erweiterbar ist, etwa durch Tools und Plug-Ins. Das heißt die Rolle von DRIVER ist die eines Infrastrukturproviders, der sowohl Basistechnologien als auch die notwendigen Serviceleistungen sowie Supportfunktionen anbietet. Daher arbeitet DRIVER in diesem Kontext auch an Guidelines für Standards, um das Datenmanagement beziehungsweise die Datenarchivierung und -nutzung nachhaltig voranzutreiben. In der Testversion werden 51 digitale Quellen verschiedener europäischer Universitäten, Institutionen, Forschungsorganisationen und nationalen Initiativen miteinander vernetzt.

[34] 

Nach diesem Überblick über internationale Netzwerke folgt nun ein kurzer Einblick in aktuelle Entwicklungen in Deutschland. Forschungsprojekte wie eAQUA in den Altertumswissenschaften [18], eSciDoc[25] zur Errichtung einer Forschungsplattform für multi-disziplinäre Forschungsorganisationen und andere können in der Kürze dieses Artikels nicht präsentiert werden. Stellvertretend wird ein kurzer Einblick in das Projekt TextGrid gegeben, das eine virtuelle Forschungsumgebung für die Geisteswissenschaften und ein Langzeitarchiv für geisteswissenschaftliche Rohdaten errichtet, und anschließend erste Ansätze für eine übergreifende Infrastruktur für die Geisteswissenschaften in Deutschland skizziert.

[35] 

TextGrid

[36] 

Das Projekt TextGrid errichtet eine verteilte Infrastruktur für die Textwissenschaften auf der Grundlage von Grid-Technologien, und ist Teil der deutschen D-Grid Initiative [4]. Kernzielgruppe der ersten Projektphase ist die Philologie, wobei derzeit intensiv auf eine Fortführung und nachhaltige Institutionalisierung von TextGrid, und auch ein Angebot für weitere Disziplinen hingearbeitet wird.

[37] 

Das Ziel von TextGrid ist die Errichtung einer virtuellen Forschungsumgebung, in der man wissenschaftliche Texte erstellen, bearbeiten, durchsuchen und nachhaltig aufbewahren kann. Die dafür notwendigen Werkzeuge werden ebenso wie sprachtechnologische Ressourcen – zum Beispiel Wörterbücher und Lexika – in der Arbeitsumgebung TextGridLab zusammengeführt. Unter den Werkzeugen sind ein grafischer XML-Editor, Segmentierung von Digitalisaten zur Verknüpfung mit den Transkriptionen, xquery-basierte Suche auf allen XML/TEI-Dokumenten in TextGrid, Workflows zum Beispiel zur automatischen Indexerstellung, und viele mehr. Durch den modularen Aufbau des TextGridLab können jederzeit und von jedem neue Werkzeuge und sprachtechnologische Ressourcen integriert werden. Die langfristige Speicherung von wissenschaftlichen Daten ermöglicht das TextGridRep – das TextGrid Repository. Darin werden Daten versioniert, mit Metadaten versehen und an mehreren Standorten in Deutschland repliziert gesichert.

[38] 

TextGrid basiert auf »Grid« Technologien, und ist Teil von D-Grid. Die vom BMBF angestoßene D-Grid Initiative vereint unterschiedlichste Disziplinen – von der Medizin bis zur Astronomie und Energiemeteorologie – im Anspruch eine neue technologische Infrastruktur für die deutsche Forschung und Industrie zu errichten. Grid Technologien ermöglichen dabei die gemeinsame Verwendung von Rechen- und Speicher­ressourcen über das Internet. Im D-Grid-Verbund stehen riesige Datenspeicher zur Verfügung (bei der letzten Zählung mehrere Petabyte), die in Abstimmung mit den anderen D-Grid Partnern auch von den Geisteswissenschaften benutzt werden können. Außerdem ermöglicht das Grid als Basis den Austausch von Rohdaten und die gemeinsame Entwicklung von wissenschaftlichen Werkzeugen, wie es von TextGrid für die Textwissenschaften entwickelt wird.

[39] 

Das dreijährige Projekt hat bereits zwei Jahre absolviert und plant im Frühsommer einen ersten vorsichtigen Blick auf TextGrid zu ermöglichen, und im September eine öffentliche Betaphase einzuleiten. Darüber hinaus ist TextGrid mit möglichen Partnerprojekten im Gespräch, und arbeitet intensiv an einer Weiterführung von TextGrid. Neben der Philologie könnten auch die Linguistik, Musikwissenschaften, Geschichte, Philosophie und andere Disziplinen von TextGrid profitieren. Die Vision einer disziplinübergreifenden, sich ständig weiterentwickelnden und wachsenden Forschungsinfrastruktur für die Textwissenschaften kann letztlich nicht allein durch Technologie erreicht werden, sondern bedarf einer aktiven Nutzergruppe und permanenter Organisationsstrukturen und Finanzierungsmodelle.

[40] 

In Deutschland

[41] 

Die Visionen in Deutschland unterscheiden sich freilich kaum von internationalen Initiativen, nahezu alle Projekte möchten einen Beitrag zu einer pan-europäischen Infrastruktur leisten, nicht zuletzt um den Anschluss an internationale Entwicklungen zu gewinnen. Strategisch soll damit aber auch die geisteswissenschaftliche Forschung sowohl in einem multikulturellen als auch mehrsprachigen Umfeld gestärkt werden. Das Ziel einer globalen Infrastruktur kann sein, dass jedem Beteiligten ein gemeinsames Fundament von Diensten für alle weltweit arbeitenden Forscher zur Verfügung gestellt wird. Es ermöglicht jedem Forscher unabhängig vom Zugangspunkt auf die gleichen Daten zuzugreifen. Solche globalen Infrastrukturen sind nicht als ein einziges Netzwerk zu verstehen, sondern als ein Verbund von Netzwerken. Die Herausforderung an solche Infrastrukturen besteht darin, einen Mittelweg zwischen einfach zu bedienenden generischen Funktionalitäten und hochspezialisierten Einzelbedürfnissen zu finden.

[42] 

Zur Zeit läuft ein Projekt [19] zur Entwicklung einer Roadmap zum Aufbau einer deutschen Infrastruktur. In diesem Projekt werden zum einen sehr kurz gefasste Beschreibungen in normierter Form über die bereits vorhandenen e-Humanities-Initiativen und -Zentren erstellt. Diese sollen als Grundlage für die weitere Arbeit dienen. Mit diesen Informationen etwa können die Fragen diskutiert werden, welches die relevanten Aufgaben einer geisteswissenschaftlichen Infrastruktur sind, welche Anwendungsfelder umgesetzt werden sollten, oder wie sich organisatorisch eine Infrastruktur aufbauen lässt.

[43] 

Zum anderen wird der Aufbau regelmäßiger Kommunikationsprozesse unter europäischen e-Humanities-Zentren besonders wichtig sein, um die Basis erfolgreicher e-Forschungsnetworks zu initiieren und international mit den jeweiligen Experten zu diskutieren. Der regelmäßige Informationsaustausch hilft sicherzustellen, mögliche Chancen, die sich aus einer internationalen Zusammenarbeit in den einzelnen Disziplinen- und Themenfeldern ergeben könnten, wahrzunehmen und gemeinsam umzusetzen. Daher müssen Rahmenbedingungen für eine internationale Zusammenarbeit geschaffen werden, um internationale Prozesse festzulegen oder in der Vielzahl der Forschungs- und Einzelthemen der Geisteswissenschaften die relevanten Felder zu identifizieren, ein international koordiniertes Portfolio zu definieren und deutschland- wie europaweit abzustimmen, oder eine gemeinsame Roadmap für die gemeinsamen internationalen Themen zu verabschieden.

[44] 

Eine wichtige Aufgabe ist darüber hinaus die Definition einer idealen Infrastruktur, in die sich alle vorhandenen und zukünftigen Systeme sinnvoll einfügen. Diese Lösung sollte so konzipiert sein, dass sie auch die Systeme europäischer Partner sowie neue Anforderungen sinnvoll integrieren kann. In der Regel wird das Harmonisierungspotential eines Produktes durch Faktoren wie hohes Infrastrukturpotential, hohe strategische Relevanz sowie das Einhalten von Standards bestimmt. Im Einzelfall werden aber auch die individuellen lokalen beziehungsweise regionalen Planungen und Ressourcen (Budget, Personal) über das Integrationspotential entscheiden. Ein Zielset an nachhaltigen Produkten (Daten, Dienste, Services) zu definieren wird bekannterweise durch die Schnelllebigkeit beziehungsweise Dynamik des Internets erschwert, es ist fast unmöglich inhaltlich kohärente Zukunftsprognosen abzugeben. Dies wird klar, wenn wir zurückblicken und die Erwartungen zu Zeiten des Hypes mit der Ernüchterung vergleichen, die jetzt herrscht. Wer weiß schon, welche Anwendungen die Forscher in einigen Jahren nutzen möchten? Um hier langfristige Aussagen für die inhaltliche, technische und finanzielle Infrastrukturentwicklung und deren strategische Ausrichtung zu geben, wird man die Rahmenbedingungen, in denen sich die Infrastruktur bewegt, stets neu befragen müssen. Es müssen etwa Fragen beantwortet werden, wie zum Beispiel: Wie viele Forscher wird es mittelfristig geben, die intensiv mit digitalen Daten arbeiten? Für welche geisteswissenschaftlichen Disziplinen, einschließlich der sogenannten Orchideenfächer, sollten Infrastrukturlösungen geschaffen werden? Welche Primärdienste möchten Forscher durch Infrastrukturdienste geliefert bekommen? Welche Methoden und Wege wählen sie dabei? Welche Werkzeuge möchten sie für ihre Forschung bereitgestellt bekommen und nutzen? Wie viel Speicherplatz wird durchschnittlich vom Forscher abgefordert? Wie lange wird online gearbeitet? Wie steht dies in Relation zu den Kosten? Welche Auswirkungen hat ein verstärktes Wachstum von e-Humanities-Forschern auf die Budgets im Bereich von Technologien beispielsweise durch zusätzlich notwendige Hard- und Softwareinvestitionen?

[45] 

Abbildung 1: Priorisierung europäischer
Basisinfrastruktur-Komponenten

[46] 

Ein weiterer wichtiger Punkt ist die Vermittlung des Wissens, wie solche Infrastrukturen aus inhaltlicher, technischer und organisatorischer Sicht funktionieren, um e-Humanities-Forscher zu einer aktiven Community zu entwickeln. Diese Informationsflüsse gilt es aufzubauen, schließlich aufrecht zu erhalten und zu steuern. Netzwerke aufzubauen entspricht der Arbeit von Lobbying. Im Kern lässt sie sich in drei Aufgabenschwerpunkte gliedern, der Informations­analyse und Aufbereitung, der internen Kommunikation und der externen Kommunikation: Gewonnene Erkenntnisse anderer Initiativen können strategische Planungsprozesse des eigenen Infrastrukturaufbaus anreichern und ergänzen. Die aus den Informationsflüssen gewonnenen Kenntnisse müssen daher zyklisch analysiert und aufbereitet werden. Dies können Beobachtungen aus politischen Prozessen sein, aber auch legislative, administrative und besonders Entwicklungen anderer e-Humanities-Initiativen oder -Projekte, die die Schwerpunkte und Aktivitäten einer e-Humanities-Infrastruktur beeinflussen können. Kooperation und Informationsaustausch mit Experten sowie die Kenntnis über äußere Faktoren wie neue Entwicklungen, Themen und Projekte sind daher wichtige Teilaufgaben.

[47] 

Eine besondere Schwierigkeit stellen darüber hinaus die unüberblickbaren und verteilten Finanzierungsmöglichkeiten für geisteswissenschaftlichen Infrastrukturen dar. Die DFG als zentrale Selbstverwaltungseinrichtung der Wissenschaft fordert bezeichnenderweise in ihrem Positionspapier zum Förderprogramm wissenschaftlicher Literaturversorgungs- und Informationssysteme die Politik auf, sich auf nationaler Ebene zu koordinieren, um Finanzierungsquellen zu bündeln. Die DFG selbst fördert durch die Vergabe von Analysen und Studien die Implementierung einer geisteswissenschaftlichen Forschungsinfrastruktur und initiiert sowohl neue Förderverfahren als auch kooperative länderübergreifende Projekte, etwa zwischen England und Deutschland. Dabei fokussiert das DFG-Förderhandeln nicht nur die Zuweisung von Mitteln und Budgets, sondern setzt auch beim Thema der Nachnutzung und Weiterentwicklung abgeschlossener Förderprojekte an. [20] Auch das BMBF versucht durch »Vorbereitungsmaßnahmen« Geisteswissenschaftler mit dem Prozess von Antragsstellungen vertraut zu machen und Hilfestellung bei der Einhaltung von Richtlinien und Verwaltungsvorschriften zu leisten. Im FP7 Forschungsprogramm der Europäischen Kommission gewährt das BMBF Zuwendungen beispielsweise als nicht rückzahlbare Zuschüsse, die allerdings nur für Personalausgaben, sächliche Verwaltungsausgaben und Reisekosten abgerechnet werden können. So sind geförderte Projekte mit der Aufgabe konfrontiert, Kosten nach genau vorgegebenen Verwendungsnachweisen zu belegen, um die beantragten Fördermittel zu erhalten. Schließlich sei noch auf die Förderangebote von Stiftungen verwiesen, die als wirtschaftlich autarke Einheiten frei über die Vergabe von Mitteln an wissenschaftliche Bereiche entscheiden können. Die VolkswagenStiftung[27] etwa vergibt explizit auch an geistes- und gesellschaftswissenschaftliche Initiativen Fördergelder und steuert die Vergabe über neutrale Gutachterkommissionen. Bei den Finanzierungsmodellen dürfte zusammenfassend die Kombination verschiedener Instrumente die beste Basis einer nachhaltigen Finanzierung bilden, um die Hürde langfristiger Infrastrukturplanung zu nehmen. In der Privatwirtschaft nutzen Unternehmen zur Finanzierung von Investitionen neben einer Reihe alternativer Finanzierungsformen in der Regel einbehaltene Gewinne, Abschreibungen und Rückstellungen sowie Fremdkapital in Form von Bankkrediten oder öffentlichen Förderdarlehen. Für eine Forschungsinfrastruktur wird ein Mehr-Säulen Modell aus europäischen und öffentlichen Mitteln (gesetzlich festgelegtes Globalbudget), institutionellen Mitteln (Einnahmen aus Studienbeiträgen), finanziellen Mitteln aus Sonderprogrammen, Drittmitteln und Forschungsprojekten die Grundfinanzierung abdecken müssen. Die Vielfalt nationaler Finanzierungsmodelle bei landesübergreifenden Kooperationen zu einer einheitlichen Infrastrukturfinanzierung zu harmonisieren, wird durch die Höhe der zur Verfügung gestellten Mittel sowie der rechtlichen Prinzipien eines Landes im Einzelfall koordiniert werden müssen.

[48] 

Überblick

[49] 

Durch den verstärkten Einsatz digitaler Technologien in den Geisteswissenschaften, setzt eine Nachfrage nach übergreifenden Infrastrukturdiensten und Dienstleistungen ein. Dieser aktuellen Aufbruchstimmung kann sich niemand entziehen und so wirken die vielfältigsten Initiativen in dem Bereich: nationale Initiativen wie in diesem Artikel beschrieben, thematische Projekte wie Interedition[28], unter Einbeziehung von Technikern und Informationswissenschaftlern wie in Bamboo[29], disziplinübergreifende Gesamtlösungen wie in Australien [21], und viele andere. Sie alle wirken hin zum Schnittpunkt zwischen Forschung und Infrastruktur, zwischen Spezialanforderungen (lokal) und Kooperation jenseits von Disziplin- und Sprachgrenzen (global) (siehe Abbildung 2). An genau diesem Schnittpunkt entsteht Infrastruktur für die Geisteswissenschaften. Die Entwicklung dieser Initiativen ist rasant, und obwohl sie teils unabhängig von einander und in den unterschiedlichsten organisatorischen Kontexten entstehen, verfolgen doch alle ähnliche Ziele.

[50] 

Abbildung 2: Schnittstelle Forschung/Infrastruktur

[51] 

Besonders die Möglichkeit zur langfristigen Archivierung von Forschungsdaten und -ergebnissen ist eine zentrale Anforderung von Wissenschaftlern und der Forschungs­förderung. Ob diese Aufgabe von den Institutionen, den Fachdisziplinen oder von (öffentlichen) Dienstleistern übernommen wird, ist noch nicht überall geklärt; klar jedoch ist, dass dies nicht der einzelne Wissenschaftler alleine übernehmen kann. Alle in diesem Artikel betrachteten Infrastrukturinitiativen haben die Archivierung von wissenschaftlichen Daten als eines ihrer Kernziele.

[52] 

Mindestens genauso wichtig ist die Entwicklung und Verknüpfung von Werkzeugen und Ergänzungsmaterialien (Wörterbücher, Nachschlagewerke, et cetera). Forschergruppen investieren oft viel Energie in die Entwicklung von Werkzeugen, die auch in anderen Kontexten nützlich wären. Aber doch werden in der Praxis viele Werkzeuge mehrfach entwickelt, weil oftmals die technischen Schnitt­stellen fehlen, keine Interoperabilität der Datenformate gegeben ist, und die Werkzeuge auf eine spezialisierte Forschungsfrage ausgerichtet sind. Die Interoperabilität von Werkzeugen durch Standards und entsprechende technische Umgebungen zu fördern, ist ein Anliegen vieler der betrachteten Infrastrukturaktivitäten oder wird es in absehbarer Zukunft verstärkt werden.

[53] 

Trotz der insgesamt sehr ähnlichen Visionen der Initiativen, gibt es im Detail sehr unterschiedliche Ansätze. Um die Schnittstelle zwischen Forschung und Infrastruktur herzustellen, scheinen Seminare und Informationsveranstaltungen über die Idee und das Angebot einer Forschungsinfrastruktur zu kurz zu greifen. Wo die Forschung nicht selbst den Aufbau der Infrastruktur vorantreibt, wird sie daher direkt und frühzeitig beteiligt und in ihren Forschungsvorhaben begleitet.

[54] 

Auch der Aufbau der technologischen Infrastruktur kann ganz unterschiedlich betrieben werden. Am einfachsten werden vorhandene Dienste und Werkzeuge zwischen Forschungs­vorhaben vermittelt, ohne selbst in deren Neuentwicklung investieren zu müssen. Derzeit – vor allem durch die Initiative von erfahrenen Forschergruppen – werden meist aktiv neue Werkzeuge entwickelt, und Empfeh­lungen für die Langlebigkeit und Interoperabilität von Daten und Werkzeugen gegeben.

[55] 

Generell kann gesagt werden, dass die Durchsetzung von Standards durch entsprechende Weisungen der Förderinstitutionen zwar möglich ist, sich aber nicht unbedingt als erfolgreich herausgestellt hat. Ein Netzwerk aus gleichberechtigten Partnern beziehungsweise eine Aufgabenteilung zwischen Einrichtungen/Initiativen hat sich als stabiler herausgestellt, bedeutet aber natürlich auch mehr organisatorischen Aufwand. Technologische und prozedurale Unterstützung auf internationaler Ebene und jenseits von Disziplin- und Sprachgrenzen ist für Infrastruktur­initiativen hilfreich und notwendig; im Endeffekt müssen aber lokal spezifische Anforderungen erfüllt und der einzelne Wissenschaftler bedient werden können.

[56] 

Organisation, Finanzierung, gesetzliche Rahmenbedingungen, Angebote und Rollen – viele Punkte müssen noch bis zu einer gemeinschaftlichen Infrastruktur in den Geisteswissenschaften geklärt werden. Am Ende des Wegs wird sie ein Teil unserer Forschungslandschaft werden, der aus ihr nicht mehr wegzudenken ist. Vorbilder wie DANS und CeRch zeigen uns den Weg, in internationalen Initiativen wie DARIAH und CLARIN begleiten sie uns. In Deutschland werden wir schon nächstes Jahr, nach den ersten intensiven Gesprächen und Workshops auf nationaler Ebene, ein gutes Stück weiter auf dem Weg sein.


[1] 
European Commission: FP7 Capacities Programme. Information and Communication Technologies, Research Infrastructures. Vgl. aus der Bekanntmachung des Bundesministeriums für Bildung und Forschung von Richtlinien zur Förderung von »Vorbereitungsmaßnahmen für die EU-Antragsstellung der Geisteswissenschaften im FP7«: »Das 7. EU-Forschungsprogramm ist seit Januar 2007 veröffentlicht und hat eine Laufzeit von nunmehr sieben Jahren. Erstmals in der Geschichte der EU-Forschungsrahmenprogramme sind explizit die Geisteswissenschaften zur Antragstellung aufgefordert. Da die Europäische Kommission die Integration der Geisteswissenschaften voran bringen will, ist davon auszugehen, dass ihre Bedeutung während der Laufzeit zunehmen wird. Einer der zehn Schwerpunkte des spezifischen Programms Cooperation ist der Bereich »Sozial-, Wirtschafts- und Geisteswissenschaften« (Thematik 8). Hier stehen 623 Millionen Euro bis 2013 zur Verfügung.»
[2].
[2] 
Schwerpunkt der Förderung bilden die Themenfelder „Überregionale Literaturversorgung«, »Kulturelle Überlieferung«, »Elektronisches Publizieren«, »Informationsmanagement« sowie »Internationale Zusammenarbeit«. Vgl. [3].
[3] 
Als konservative Abschätzung: etwa 2–2,5 Millionen Bände bis 1900 * 250 Seiten pro Band * 50 Megabyte (pro digitalisierter Seite + Volltext) = 25 Petabyte;
Deutscher Bibliotheksverband: Die Digitalisierung der Literatur des deutschen Sprachgebiets – Vorschläge des Kompetenznetzwerks für Bibliotheken (2005) [5].
[4] 
Allein das »Large Hadron Collider« Experiment am CERN [6] erzeugt etwa 15 Petabyte an Daten pro Jahr.
[5] 
ACLS (American Council of Learned Societies): Our Digital Commonwealth. Cyberinfrastructure for the Humanities and Social Sciences. December 2006 [7].
[6] 
Das Cyberinfrastructure Programm der National Science Foundation (USA) [9].
[7] 
Hans Ulrich Gumbrecht hat u.a. in seinem Artikel »Geisteswissenschaften. Universität ohne Buch« in der FAZ, 19.03.2008, Nr. 67, S. N3 darüber berichtet.
[8] 
[9] 
[10] 
[11] 
Arts and Humanities Research Council (AHRC) [15].
[12] 
Joint Information Systems Committee (JISC) [16].
[13] 
Vgl. AHDS News and Events, 2007 [17].
[14] 
UK national Network of Expert Centres [18].
[15] 
DANS Data Seal of Approaval [21].
[16] 
Digital Research Infrastructure for the Arts and Humanities (DARIAH) [22].
[17] 
Centre National de la Recherche Scientifique (CNRS).
[18] 
eAQUA: Extraktion von strukturiertem Wissen aus Antiken Quellen für die Altertumswissenschaft. BMBF Förderprogramm »Wechselwirkungen zwischen Natur­und Geisteswissenschaften«.
[19] 
Es ist vom DFG-geförderten Projekt »E-Humanities« an der Staats- und Universitätsbibliothek Göttingen die Rede.
[20] 
Vgl. Deutsche Forschungsgemeinschaft: DFG-Positionspapier: Wissenschaftliche Literaturversorgungs- und Informationssysteme. Erarbeitet im Rahmen der Klausurtagung des DFG-Ausschusses für Wissenschaftliche Bibliotheken und Informationssysteme am 11. und 12. Oktober 2005, beschlossen am 29.05.2006, Bonn, Juni 2006 [26].
[21] 
Towards the Australian Data Commons. A proposal for an Australian National Data Service. The ANDS Technical Working Group. October 2007 [30].