Feature Extraction


[ Übersicht | Einleitung | Datenset | Preprocessing | Feature Extraction | Klassifikation | Cross-Validation | Vergleich | Charakternetzwerke | Fazit | Literatur ]


Auswahl

Von den 45 verfügbaren Kategorien haben wir  13 ausgewählt. Die anderen Kategorien geben keine bzw. nur wenige Resultate für die einzelnen Erzählungen.

Insgesamt wurden 5381 verschiedene Features (Lemmata) aus dem Korpus extrahiert. Dies gliedert sich folgenderweise auf:

Kategorie Tier Werk-zeug Attribut Körper-teil Emotion Ereignis Nahrungs-mittel Ort Zahl Person Pflanze Zeit-raum Wetter
Count 148 908 473 110 371 179 133 452 81 2240 104 164 18

Anschließend wird für jedes Dokument die Anzahl der einzelnen Wörter in dem jeweiligen Dokument gezählt und zusammen als 5381-dimensionaler Featurevektor benutzt.

Da durch die automatische Extraktion der Begriffe aus den Kategorien einige falsche Features beinhaltet sind (und einige Features die zu spezifisch sind [z.B. Eigennamen]), haben wir diese manuell korrigiert und eine revidierte Featureliste angefertigt:

Kategorie Tier Werk-
zeug
Attribut Körper-
teil
Emotion Ereignis Nahrungs-
mittel
Ort Zahl Person Pflanze Zeit-
raum
Wetter
Count 117 835 360 98 351 124 103 222 72 847 95 137 9

Im Vergleich mit den weiteren Märchen erzielten wir ähnliche Ergebnisse. Folgende 7958 Features wären verfügbar (nicht tatsächlich eingesetzt, da die Texte als hold out test set dienen):

Kategorie Tier Werk-zeug Attribut Körper-teil Emotion Ereignis Nahrungs-mittel Ort Zahl Person Pflanze Zeit-raum Wetter
Count 215 1511 552 136 412 245 203 684 111 3423 221 220 25

 

weiter zu Klassifizierung →