Talk by Alexander Mehler at “Soziale Medien – Echo-Kammer oder öffentlicher Raum? Ansätze zur computergestützten Analyse von Internet-Korpora” workshop, October 6

Talk by Alexander Mehler at “Soziale Medien – Echo-Kammer oder öffentlicher Raum? Ansätze zur computergestützten Analyse von Internet-Korpora” workshop

October 6 2016, Karlsruher Institut für Technologie, Germany

Big Data aus computerlinguistischer Sicht am Beispiel der Wikipedia

Abstract
Der Vortrag thematisiert die als Wikipedia Instanz eines texttechnologischen Datentyps und geht der Frage nach, inwieweit die Inhalte dieses Typs mit den Mitteln der Computerlinguistik automatisch analysiert werden können. Ausgehend von den Beispielen des Part-of-Speech-Taggings, der Lemmatisierung, der dependenzgrammatischen Syntaxanalyse und der so genannten Relation Extraction zeigt der Vortrag, welche Analyseergebnisse unter welchen Fehlervorbehalten aufseiten der Geisteswissenschaft erwartet werden können und welche Komplexität (Zeit (bzw. Laufzeit) und Raum (bzw. Speichervolumen)) die entsprechenden Verarbeitungsmethoden besitzen. Ein besonderes Augenmerk gilt der Frage nach der zeitlichen Skalierung dieser Methoden im Kontext der Editionsgeschichten einzelner Wikipedia-Artikel, die zum Teil über viele Jahre hinweg verändert worden sind. Von besonderer Wichtigkeit ist diese Frage im Zusammenhang von soziologischen Studien zur Online-Kooperation. Ergebnisse aus diesem Forschungsbereich werden ebenfalls thematisiert.