[ Übersicht | Einleitung | Datenset | Preprocessing | Feature Extraction | Klassifikation | Cross-Validation | Vergleich | Charakternetzwerke | Fazit | Literatur ]
Auswahl
Von den 45 verfügbaren Kategorien haben wir 13 ausgewählt. Die anderen Kategorien geben keine bzw. nur wenige Resultate für die einzelnen Erzählungen.
Insgesamt wurden 5381 verschiedene Features (Lemmata) aus dem Korpus extrahiert. Dies gliedert sich folgenderweise auf:
Kategorie | Tier | Werk-zeug | Attribut | Körper-teil | Emotion | Ereignis | Nahrungs-mittel | Ort | Zahl | Person | Pflanze | Zeit-raum | Wetter |
Count | 148 | 908 | 473 | 110 | 371 | 179 | 133 | 452 | 81 | 2240 | 104 | 164 | 18 |
Anschließend wird für jedes Dokument die Anzahl der einzelnen Wörter in dem jeweiligen Dokument gezählt und zusammen als 5381-dimensionaler Featurevektor benutzt.
Da durch die automatische Extraktion der Begriffe aus den Kategorien einige falsche Features beinhaltet sind (und einige Features die zu spezifisch sind [z.B. Eigennamen]), haben wir diese manuell korrigiert und eine revidierte Featureliste angefertigt:
Kategorie | Tier | Werk- zeug |
Attribut | Körper- teil |
Emotion | Ereignis | Nahrungs- mittel |
Ort | Zahl | Person | Pflanze | Zeit- raum |
Wetter |
Count | 117 | 835 | 360 | 98 | 351 | 124 | 103 | 222 | 72 | 847 | 95 | 137 | 9 |
Im Vergleich mit den weiteren Märchen erzielten wir ähnliche Ergebnisse. Folgende 7958 Features wären verfügbar (nicht tatsächlich eingesetzt, da die Texte als hold out test set dienen):
Kategorie | Tier | Werk-zeug | Attribut | Körper-teil | Emotion | Ereignis | Nahrungs-mittel | Ort | Zahl | Person | Pflanze | Zeit-raum | Wetter |
Count | 215 | 1511 | 552 | 136 | 412 | 245 | 203 | 684 | 111 | 3423 | 221 | 220 | 25 |
weiter zu Klassifizierung →