<

Analysierte Tweets: Etwa 1.073.000 (Stand 09.04.2022)


Das Projekt

Was haben wir gemacht?


Scraping

Zunächst haben wir eine Liste aller Abgeordneten im deutschen Bundestag angelegt und überprüft, welche Abgeordneten einen Twitteraccount haben. Anschließend haben wir einen Bot geschrieben, der die Twitteraccounts der Abgeordneten besucht hat und die Tweets, Follower, Likes, Replies und Retweets der aktuellen Legislaturperiode gesammelt hat. Retweets haben wir dabei zunächst ausgelassen. Zusätzlich zu den Tweets der Bundestagsabgeordneten, haben wir Tweets von verschiedenen deutschen Medien gesammelt, da uns Gemeinsamkeiten und Unterschiede in den Inhalten der Tweets interessiert haben.


Textanalyse

Wir haben uns die Interpunktion in den Tweets angeschaut und dabei insbesondere Punkte, Kommata, Fragezeichen, Ausrufezeichen, Anführungszeichen und Hashtags angeschaut. Außerdem haben wir für jeden Tweet die Tweetlänge und die Anzahl der Wörter bestimmt. Für die spätere Analyse haben wir mit dem Python Modul spaCy alle Adjektive, Substantive, Eigennamen, Verben und Adverbien aus den Tweets extrahiert.


Bestimmen von Entitäten

Sowohl für die Hashtags als auch für die Texte der Tweets, haben wir die 20 meistgenannten Wörter bestimmt, sowie mit Hilfe von spaCy eine Zuordnung zu den Entitäten "Personen", "Organisationen", "Orte", "Sonstiges" vorgenommen. Für die Texte der Tweets haben wir uns dabei auf Adjektive, Substantive und Eigennamen beschränkt. Die Zuordnung zu den Entitäten ist nicht perfekt. Precision, Recall und F-Score betrageb 0.85. Mehr Informationen auf: https://spacy.io/models/de#de_core_news_lg


Polaritätsanalyse

Eine sehr komplexe Aufgabe war die Polaritätsanalyse der Tweets. Wir haben unserem Modell die Pipeline spaCySentiWS hinzugefügt. An dieser Stelle möchten wir das zugrunde liegende Paper R. Remus, U. Quasthoff & G. Heyer: SentiWS - a Publicly Available German-language Resource for Sentiment Analysis. In: Proceedings of the 7th International Language Resources and Evaluation (LREC'10), pp. 1168-1171, 2010 zitieren. Durch diese Pipeline hatten wir Zugriff auf 16567 positv und 18036 negativ klassifizierte Wörter. Für eine Polaritätsanalyse reichen diese Wörter alleine jedoch nicht aus. Beispielsweise müssen Negationen oder Gradpartikel für die Analyse beachtet werden. Dennoch sorgen Tweets, die rhetorische Figuren wie Ironie enthalten, welche zuweilen für Menschen schon eine Herausforderung darstellen, für Probleme bei einer algorithmischen Analyse.


Kategorisierung

Wir haben die Tweets in Kategorien eingeteilt. Dabei haben wir uns für die Abgeordneten an den Bundesministerien und für die Medien an einigen Kategorien ihrer Internetseiten orientiert. Im Anschluss haben wir zu den Kategorien passende Wörterbücher bestimmt und mit spaCy die Ähnlichkeiten der Tweets zu unseren Wörterbüchern gemessen, um eine Klassifikation vornehmen zu können.


Auswertungen

Nachdem unser Grundgerüst stand, haben wir uns angeschaut wie viel pro Tag getwittert wurde, an welchen Wochentagen am meisten getwittert wurde, ob die Polaritäten der Tweets mit den Wochentagen oder den Kategorien zusammenhängen und wer wie viel zu welcher Kategorie mit welcher Polarität twittert. Desweiteren haben wir nach Korrelationen in unseren Variablen gesucht. Zusätzlich zu den Analysen der einzelnen Parteien und Medien, haben wir uns für den Vergleich der Followerzahlen, Likes, Verwendung bestimmter Satzzeichen und dergleichen interessiert.


Wahlprogramme

Da weder wir, noch die meisten anderen Menschen, sich die Wahlprogramme der Parteien Seite für Seite durchlesen, kamen wir auf die Idee, unsere Algorithmen auf die Wahlprogramme zur Bundestagswahl 2021 anzuwenden und die möglichen (natürlich besitzen Wahlprogramme beispielsweise keine Likes oder Replies und auch Personen werden für gewöhnlich nicht explizit genannt) Analysen durchzuführen.


Über Uns

Wer sind wir?


Während und nach unseren Promotionen haben wir uns zum Ziel gesetzt ein bisschen besser programmieren zu lernen. Auf der Suche nach einem interessanten Datensatz für ein paar Auswertungen und da wir beide politisch interessiert sind, kamen wir auf die Idee, uns die Tweets der Abgeordneten im deutschen Bundestag anzuschauen. Schnell wurde das Projekt immer größer und wir hatten ständig neue Ideen, was man noch machen könnte, nur leider manchmal zu wenig Zeit neben unseren Jobs. Wir haben zwar noch einige Ideen in der Hinterhand, aber wenn ihr noch Anregungen habt, teilt es uns gerne über das Kontaktfeld mit.

Schuster

Dr. Christian Schuster

Mathematiker

Oster

Dr. Simon Oster

Data Analyst/Engineer


Kontakt

Wollt ihr uns etwas mitteilen?


Habt ihr Lob, Anregungen oder konstruktive Kritik für uns? Wir haben noch jede Menge Ideen, was weitere Auswertungen unserer Daten angeht, aber freuen uns natürlich auch über euren Input. Habt ihr beispielsweise irgendwelche interessanten Auffälligkeiten festgestellt? Lasst es uns wissen und kontaktiert uns via


kontakt@socialmediawatch-ki.de