Bewerten in Blogkommentaren : Mehrebenenannotation sprachlichen Bewertens

  • Evaluating in blog comments : multi-level annotation of verbal evaluations

Trevisan, Bianka; Jakobs, Eva-Maria (Thesis advisor)

Aachen (2014)
Doktorarbeit

Aachen, Techn. Hochsch., Diss., 2013

Kurzfassung

Wurden linguistische Textanalysen früher manuell durchgeführt, eröffnen heute neue methodische Zugänge Forschern effizientere Arbeitsweisen. Einen neuen methodischen Zugang bieten dabei Methoden und Techniken des Text Mining. Die Methodik des Text Mining stammt aus der Informatik und wurde bisher u.a. für Zwecke der Frequenz- und Kookkurrenzanalyse angewandt. Gegenstand dieser Arbeit ist die Verbindung aus linguistischer Bewertentheorie und Text Mining. Die linguistische Bewertentheorie nach Sandig (1979) beschreibt den Akt des Bewertens als eine sprachliche Handlung, bei der individuelle Bewertungsmaßstäbe durch sprachliche Äußerungen prädiziert werden. Sprachliches Bewerten erfolgt unter Rückgriff auf ein Bewertungsinventar von Bewertungsausdrücken bzw. -mitteln, das textmusterabhängig variieren kann, etwa für Textmuster der internetbasierten Kommunikation, z.B. für das hypertextuelle Text- und Gebrauchsmuster themenspezifischer Blogkommentar. Textmuster neuerer Kommunikationsformen zeichnen sich im Vergleich zu genuin schrift-sprachlich orientierten Textmustern (im Sinne von Schriftsprache des Deutschen; Normeinhaltung, z.B. journalistische Texte) durch spezifische sprachliche Phänomene aus wie Norm-abweichung, interaktive Einheiten im Sinne von Zifonun et al. (1997) oder etwa gehäuftes auftreten onomatopoetischer Ausdrücke. Sie müssen bei der Methodenentwicklung berücksichtigt werden. Vor diesem Hintergrund ergeben sich folgende Forschungsfragen: Was muss eine Maschine (und damit die Automatisierung) leisten, um diesen Herausforderungen gerecht zu werden? Welche bewertungsbezogenen sprachlichen Phänomene müssen bei der Automatisierung berücksichtigt werden? Wie müssen Methoden und Techniken des Text Mining weiterentwickelt werden, um diesen Herausforderungen zu begegnen? Ziel der vorliegenden Arbeit ist die Entwicklung erster theoretisch-methodischer Ansätze für die automatische Analyse sprachlichen Bewertens in Blogkommentaren mittels Text Mining unter Berücksichtigung textmusterspezifischer sprachlicher Phänomene. Die bisher manuelle Analysemethodik für sprachliches Bewerten wird semi-automatisch für die Untersuchung von Blogkommentaren umgesetzt. Zu diesem Zweck werden bestehende manuelle und maschinelle Verfahren der Textanalyse adaptiert und optimiert. Die Methodikentwicklung erfolgt am Fallbeispiel eines Blogkommentarkorpus zum Thema Mobilfunk. Die Methodikentwicklung sieht ein zweistufiges Verfahren vor, bestehend aus einer Vor- und einer Hauptuntersuchung. Gegenstand der Voruntersuchung ist die Evaluation von Text Mining-Methoden und die Identifikation von Empirie-Probleme durch manuelle und automatische Analyse von Blogkommentaren; die Evaluation automatischer Analysewerkzeuge erfolgt exemplarisch anhand der Textanalysesoftware PASW Modeler und der Datenbank MySQL. Um Empirie-Probleme zu ermitteln, werden Frequenz-, Kookkurrenz- und Sentimentanalysen durchgeführt. Die in den Analysen identifizierten, textmusterbezogenen Empirie-Probleme werden klassifiziert und Implikationen für die Hauptuntersuchung abgeleitet. Gegenstand der Hauptuntersuchung ist die Entwicklung eines Ansatzes der zur Identifikation meinungs- und bewertungsindizierender Äußerungsanteile in deutschsprachigen Blogkommentaren beiträgt. Die Datenbasis bilden zwei Subkorpora, die kriteriengeleitet aus dem themenspezifischen Gesamtkorpus HeiseMobilBlog erhoben wurden. Die Subkopora werden mit Methoden und Werkzeugen der Korpus- und Computerlinguistik vorverarbeitet (WebTagger), die Analyse erfolgt mittels linguistischer Mehrebenenannotation (in EXMARaLDA). Erwartetes Ergebnis ist ein feinkörniges, merkmalsbasiertes, linguistisches Mehrebenenannotationsmodell, das per Inter-Annotator Agreement evaluiert wird. Mittels des Mehrebenenannotationsmodells werden die Subkorpora durch fünf Annotatoren final annotiert und per Mehrheitsentscheidung der Goldstandard abgeleitet. Der Goldstandard wird ausgewertet und prototypische sprachliche Merkmale ausgewählter Bewertungshand-lungen ermittelt.

Identifikationsnummern