Feature Extraction

Auswahl

Von den 45 verfügbaren Kategorien haben wir 13 ausgewählt. Die anderen Kategorien geben keine bzw. nur wenige Resultate für die einzelnen Erzählungen.

Insgesamt wurden 5381 verschiedene Features (Lemmata) aus dem Korpus extrahiert. Dies gliedert sich folgenderweise auf:

Kategorie	Tier	Werk-zeug	Attribut	Körper-teil	Emotion	Ereignis	Nahrungs-mittel	Ort	Zahl	Person	Pflanze	Zeit-raum	Wetter
Count	148	908	473	110	371	179	133	452	81	2240	104	164	18

Anschließend wird für jedes Dokument die Anzahl der einzelnen Wörter in dem jeweiligen Dokument gezählt und zusammen als 5381-dimensionaler Featurevektor benutzt.

Da durch die automatische Extraktion der Begriffe aus den Kategorien einige falsche Features beinhaltet sind (und einige Features die zu spezifisch sind [z.B. Eigennamen]), haben wir diese manuell korrigiert und eine revidierte Featureliste angefertigt:

Kategorie	Tier	Werk- zeug	Attribut	Körper- teil	Emotion	Ereignis	Nahrungs- mittel	Ort	Zahl	Person	Pflanze	Zeit- raum	Wetter
Count	117	835	360	98	351	124	103	222	72	847	95	137	9

Im Vergleich mit den weiteren Märchen erzielten wir ähnliche Ergebnisse. Folgende 7958 Features wären verfügbar (nicht tatsächlich eingesetzt, da die Texte als hold out test set dienen):

Kategorie	Tier	Werk-zeug	Attribut	Körper-teil	Emotion	Ereignis	Nahrungs-mittel	Ort	Zahl	Person	Pflanze	Zeit-raum	Wetter
Count	215	1511	552	136	412	245	203	684	111	3423	221	220	25

Auswahl

weiter zu Klassifizierung →

Teilen mit: