ZuMult am HI – ZuMult

Anders als die technisch orientierten Mannheimer und Hamburger Projektteile widmet sich der Leipziger Teil des ZuMult-Projektes den inhaltlich-konzeptionellen Aufgaben. Das Projekt ist am Herder-Institut der Universität Leipzig verortet, einem Institut für Deutsch als Fremd- und Zweitsprache, an dem seit über zwölf Jahren ein Forschungsschwerpunkt zur korpusmethodischen Erforschung und Vermittlung der deutschen Sprache besteht. Ein besonderer Fokus dieser Forschung richtet sich auf die Domäne der Wissenschaftskommunikation.

Herder-Institut

Das Herder-Institut der Universität Leipzig wurde 1951 gegründet und ist heute Teil der Philologischen Fakultät der Universität Leipzig. Es gehört zu den angesehensten und traditionsreichsten Einrichtungen in den deutschsprachigen Ländern im Bereich der Forschung und der Lehre von Deutsch als Fremd- und Zweitsprache (DaF/DaZ).

Das GeWiss-Projekt

Wissenschaft und akademische Ausbildung sind heute zunehmend durch Internationalisierung und Mobilität geprägt. Doch wie handelt man eigentlich sprachlich kompetent in der eigenen und fremden Wissenschaftssprache und wie lässt sich eine entsprechende Ausbildung dieser sprachlichen Kompetenz unterstützen? Mit diesen Fragen beschäftigt sich seit zwölf Jahren ein Forschungsschwerpunkt am Herder-Institut. Im Fokus steht hierbei vor allem der lange vernachlässigte mündliche Sprachgebrauch im akademischen Bereich.

Um die gesprochene Wissenschaftssprache empirisch erforschen zu können, bedarf es einer geeigneten Datengrundlage. Aus diesem Grund wurde in mehreren Projektphasen von 2009 bis 2015 ein Vergleichskorpus der gesprochenen Wissenschaftssprache, das GeWiss-Korpus, aufgebaut und in seinen Nutzungsmöglichkeiten weiterentwickelt.

GeWiss – Gesprochene Wissenschaftssprache kontrastiv

Der ursprüngliche Korpusaufbau erfolgte im Rahmen eines trinationalen von der VolkswagenStiftung geförderten Projekts im Zeitraum von 2009 bis 2013. Gemeinsam mit Partnern aus Polen (Universität Wrocław) und Großbritannien (Aston University, Birmingham) wurden im deutschen, polnischen und britischen akademischen Kontext Daten erhoben. Später schlossen sich Partner aus Bulgarien (Universität Sofia) und Italien (Universität Pisa) an und steuerten Daten aus dem bulgarischen und italienischen Wissenschaftskontext bei.

Das aufgebaute Korpus enthält wissenschaftliche und studentische Vorträge (einschließlich Diskussion) sowie Prüfungsgespräche in den Wissenschaftssprachen Deutsch, Englisch, Polnisch und Italienisch sowie aus verschiedenen Gebrauchskontexten von Deutsch als fremder Wissenschaftssprache (L2). Durch die diese Parameter repräsentierenden Teilkorpora ermöglicht das GeWiss-Korpus eine mehrdimensionale kontrastive Erforschung der gesprochenen Wissenschaftssprache.

Insgesamt umfasst das Korpus ca. 147 h an Aufnahmen, 1,4 Mio. Token an Transkriptionen, 409 verschiedene Kommunikationen (77 Konferenzvorträge, 108 studentische Vorträge, 224 Prüfungsgespräche) mit 573 Hauptsprecher/innen (Vortragende, Prüflinge, Prüfende und Seminarleiter/innen). Es steht nach Registrierung für Forschung und Lehre frei zur Verfügung und kann über das GeWiss-Portal via Volltext-Browsing sowie über Konkordanzsuchen durchsucht werden.

Um die Nutzungsmöglichkeiten gerade für kontrastive Fragestellungen zu erweitern, wurden im GeWiss-Korpus in den deutschsprachigen L2-Daten zudem Sprachwechselphänomene annotiert. Diese sind über das GeWiss-Portal direkt abfragbar.

Die Ergebnisse dieser ersten Projektphase können in Fandrych/ Meißner/ Slavcheva (2014) nachgelesen werden.

Kurationsprojekt GeWiss

Von 2013-2014 war GeWiss Kurationsprojekt der Facharbeitsgruppe 1: Deutsche Philologie innerhalb der CLARIN-D-Initiative. In dieser Projektphase wurden die vorliegenden Ressourcen des GeWiss-Projektes an die CLARIN-Standards angepasst, weitere bereits vorliegende Ressourcen in das GeWiss-Korpus integriert und die Nutzungsmöglichkeiten der Ressource weiterentwickelt und verbessert. Es erfolgte eine Überführung der vorhandenen Metadaten in das Format der Component MetaData Infrastructure (CMDI) sowie die Registrierung von Persistent Identifiers (PIDs) zur eindeutigen Identifikation des Korpus und seiner Teile. Dadurch wurde die Ressource über einheitliche Metadaten auf der zentralen Sprachressourcen-Plattform Virtual Language Observatory (VLO) auffindbar und referenzierbar. Zusätzlich wurden für die Arbeit mit den bestehenden und neu zu integrierenden Daten Webservices erstellt und damit neue Funktionen im GeWiss-Portal realisiert. In dieser Phase erfolgte zudem die Integration einer pragmatischen Annotation für das Teilkorpus der deutschen L1-Konferenzvorträge. Diese ermöglicht eine direkte Abfrage von metakommentierenden Sprachhandlungen (etwa zur Gliederung des Vortrags oder zur Lenkung der Rezeptionserwartungen der Zuhörenden).

Gesprochene Wissenschaftssprache digital

Im Zeitraum von 2013-2015 war GeWiss Teilprojekt der ESF-Nachwuchsgruppe „Wissensrohstoff Text“, einer Forschergruppe im Bereich der Digital Humanities an der Universität Leipzig. In diesem Projektabschnitt wurde das GeWiss-Korpus hinsichtlich seiner Nutzungsmöglichkeiten weiter verbessert und es wurden zusätzliche methodische Möglichkeiten zur Auswertung und Analyse erprobt. Hierzu gehörte (1) die orthographische Normalisierung sowie die exemplarische Annotation von Wortarten (POS-Tagging) in einem Teilkorpus, (2) die Identifikation „guter Kandidaten“ zur automatischen Korpusrecherche von Metakommentierungen in nicht-annotierten Korpora und (3) der Aufbau einer Typologie zu Zitation und Verweis sowie deren exemplarische Annotation. Eine ausführliche Darstellung der Projektergebnisse gibt es bei Fandrych/Meißner/Wallner (2017). Für die Teilkorpora der im deutschen Kontext erhobenen studentischen und Konferenzvorträge wurde in dieser Projektphase auch die Annotation von Verweisen und Zitaten implementiert. Belege, in denen Vortragende auf andere Autor/inn/en Bezug nehmen, sind damit seit 2015 auf dem GeWiss-Portal direkt abrufbar.

GeWiss und GeSIG

Auch die schriftliche Wissenschaftskommunikation steht im Fokus der Forschungsaktivitäten am Herder-Institut: Mit dem Projekt GeSIG (das gemeinsame sprachliche Inventar der Geisteswissenschaften) wurde im Zeitraum von 2015-2017 die Sprache der Geisteswissenschaften korpusmethodisch erforscht. Gefördert wurde dies durch Mittel des Freistaates Sachsen im Rahmen des Programms „Geisteswissenschaftliche Forschung“ bei der Sächsischen Akademie der Wissenschaften zu Leipzig. Im Zentrum des Projekts standen nicht-terminologische, disziplinübergreifend verwendete Ausdrucksmittel, wie sie etwa in den sprachlichen Handlungen des Voraussetzens, des Begründens, des Folgerns, des Einschränkens, des Übertragens und Vergleichens zu finden sind. Diese sprachlichen Formen spielen für die wissenschaftliche Erkenntnisgewinnung eine zentrale Rolle.

Auf der Basis eines 22,8 Mio. Token umfassenden Korpus geisteswissenschaftlicher Dissertationen aus 19 Fachbereichen wurde eine Lemmaliste des fachübergreifend gebrauchten Wortschatzes geisteswissenschaftlicher Disziplinen (GeSIG-Inventar) erarbeitet und lexikologisch analysiert. Die Ergebnisse dieses Projekts sind in Meißner/Wallner (2019) umfassend dokumentiert. Das GeSIG-Inventar ist für die Nachnutzung in Forschung und Lehre frei verfügbar. Anhand der Lemmaliste können Texte gezielt auf diesen wesentlichen Wortschatzbereich hin untersucht werden. So ließe sich etwa der Anteil dieser Lexik in Korpora mit wissenschafts- bzw. bildungssprachlichen Daten ermitteln und in seinen Verwendungsspezifika näher betrachten.

GeWiss in der DGD

Zurück zum GeWiss-Korpus: Seit 2017 sind die deutschsprachigen GeWiss-Daten zusätzlich über die Datenbank für Gesprochenes Deutsch (DGD) abrufbar. Sie wurden dafür automatisch orthographisch normalisiert, lemmatisiert und nach Wortarten annotiert. Über die DGD ist dadurch eine Recherche anhand von aussprachenah transkribierten sowie orthographisch normalisierten Formen möglich. Außerdem kann auf der Ebene des Lemmas und unter Zuhilfenahme von Wortarteninformation gesucht werden.

GeWiss und ZuMult

Mit dem GeWiss-Korpus der gesprochenen Wissenschaftssprache liegt inzwischen ein für das eingangs erwähnte Forschungsinteresse spezialisiertes Ergebnis einer langen Entwicklungsgeschichte vor: Es bildet mit Daten in verschiedenen Sprachen (deutsch, englisch, polnisch, italienisch), Daten von Fremdsprachelernenden und L1-Sprechenden und den speziellen Zugriffsmöglichkeiten über pragmatische Annotationen (Sprachwechsel, Metakommentare, Zitate und Verweise) eine komplexe Ressource. Die hier angelegten Nutzungsmöglichkeiten weiterzuentwickeln, sie bestmöglich mit anderen existierenden Sprachdatenressourcen zu vernetzen und auf dieser Grundlage nachhaltige übertragbare Nutzungsszenarien zu modellieren – dies ist ein wesentliches Ziel des ZuMult-Projektes.

Das Leipziger ZuMult-Team

Als Projektpartner bringt das HI zweierlei in ZuMult ein: zum einen Expertise in der Konzeption, Erstellung und Weiterentwicklung von Sprachdatenressourcen (wie GeWiss-Korpus und GeSIG-Inventar), zum anderen umfassende Erfahrung in dem für diese Ressourcen wichtigen Anwenderbereich der Fremdsprachenforschung und -vermittlung.

Projektleiter des Leipziger ZuMult-Projektes ist Prof. Christian Fandrych, auf den das GeWiss-Projekt ursprünglich zurückgeht und der in allen GeWiss- und GeSIG-Projektphasen als Projektleiter die Federführung innehatte. Mit ihm arbeiten als wissenschaftliche Mitarbeiterinnen am Leipziger Standort Cordula Meißner, die seit den GeWiss-Anfängen dabei ist, sowie Franziska Wallner, die in den Anfängen und dann seit 2014 Teil des GeWiss- und GeSIG-Teams war. Unterstützt werden sie von Eva Bretschneider als wissenschaftlicher Hilfskraft.