Posts Tagged ‘gnd’
Mit offenen lobid-Daten raten!
Für ein kleines Datenanalyseprojekt brauche ich die Gender-Verteilung einer Namensliste. Das manuelle Durcharbeiten und Anlegen einer Strichliste ist relativ öde, daher habe ich nach einer automatisierten Lösung gesucht und einen schönen Anwendungsfall für offene Daten gefunden…
Das hbz bietet ja mit lobid.org eine API für die Abfrage der „Gemeinsamen Normdatei“ an. In der GND-Ontologie ist ein Gender-Eintrag definiert und manchmal auch vergeben.
In weiterer Folge habe ich jetzt ein kleines Perl-Modul geschrieben, das die GND Personendaten durchsucht und für die ersten 100 Treffer die Gender-Einträge analysiert. Daraus wird dann eine statistische Präferenz abgeleitet:
> perl guess.pl Peter
'Peter' is probably 'male'
Here's the statistics data that I've used: $VAR1 = {
'GenderRatio' => {
'Female' => '8.33333333333333',
'Male' => '91.6666666666667'
},
'GenderDistribution' => {
'female' => 2,
'male' => 22,
'notKnown' => 43
},
'GenderCount' => 67,
'TotalCount' => 100
};
> perl guess.pl Sarah
'Sarah' is probably 'female'
Here's the statistics data that I've used: $VAR1 = {
'GenderRatio' => {
'Female' => '95.4545454545455',
'Male' => '4.54545454545455'
},
'GenderDistribution' => {
'female' => 21,
'male' => 1,
'notKnown' => 41
},
'GenderCount' => 63,
'TotalCount' => 100
};
Aus den Statistikdaten wird klar, wie schlecht die Datenlage eigentlich ist, in den meisten Fällen wurde in der GND notKnown vergeben. Trotzdem ist das Ergebnis für „Standardnamen“ relativ eindeutig.
Schwieriger wird es für Vornamen, die sowohl weiblich als auch männlich besetzt sind (Uli, Kim, Andrea, etc..).
Bei „Andrea“ schlägt auch noch die automatische Trunkierung zu und der Name wird zu 92 % als männlich klassifiziert.
Trotz dieser Schwächen ist dieses Verfahren aber immer noch eine pragmatische Lösung und ein schönes Beispiel für die (Nach-)Nutzung bibliothekarischer Arbeit.
Wer das Modul verwenden will, oder Bugreports oder Verbesserungsvorschläge hat: hier geht’s zum GitHub-Repository!