Hatori Kibble

Jo eh…

Posts Tagged ‘lod

Mit offenen lobid-Daten raten!

with 3 comments

Für ein kleines Datenanalyseprojekt brauche ich die Gender-Verteilung einer Namensliste. Das manuelle Durcharbeiten und Anlegen einer Strichliste ist relativ öde, daher habe ich nach einer automatisierten Lösung gesucht und einen schönen Anwendungsfall für offene Daten gefunden…

Das hbz bietet ja mit lobid.org eine API für die Abfrage der „Gemeinsamen Normdatei“ an. In der GND-Ontologie ist ein Gender-Eintrag definiert und manchmal auch vergeben.

Jane Austen in der GND

Jane Austen in der GND

In weiterer Folge habe ich jetzt ein kleines Perl-Modul geschrieben, das die GND Personendaten durchsucht und für die ersten 100 Treffer die Gender-Einträge analysiert.  Daraus wird dann eine statistische Präferenz abgeleitet:

> perl guess.pl Peter
'Peter' is probably 'male'

 

Here's the statistics data that I've used: $VAR1 = {
          'GenderRatio' => {
                             'Female' => '8.33333333333333',
                             'Male' => '91.6666666666667'
                           },
          'GenderDistribution' => {
                                    'female' => 2,
                                    'male' => 22,
                                    'notKnown' => 43
                                  },
          'GenderCount' => 67,
          'TotalCount' => 100
        };
> perl guess.pl Sarah
'Sarah' is probably 'female'

 

Here's the statistics data that I've used: $VAR1 = {
          'GenderRatio' => {
                             'Female' => '95.4545454545455',
                             'Male' => '4.54545454545455'
                           },
          'GenderDistribution' => {
                                    'female' => 21,
                                    'male' => 1,
                                    'notKnown' => 41
                                  },
          'GenderCount' => 63,
          'TotalCount' => 100
        };

Aus den Statistikdaten wird klar, wie schlecht die Datenlage eigentlich ist, in den meisten Fällen wurde in der GND notKnown vergeben. Trotzdem ist das Ergebnis für „Standardnamen“ relativ eindeutig.

Schwieriger wird es für Vornamen, die sowohl weiblich als auch männlich besetzt sind (Uli, Kim, Andrea, etc..).

Bei „Andrea“ schlägt auch noch die automatische Trunkierung zu  und der Name wird zu 92 % als männlich klassifiziert.

Trotz dieser Schwächen ist dieses Verfahren aber immer noch eine pragmatische Lösung und ein schönes Beispiel für die (Nach-)Nutzung bibliothekarischer Arbeit.

Wer das Modul verwenden will, oder Bugreports oder Verbesserungsvorschläge hat: hier geht’s zum GitHub-Repository!

Advertisements

Written by Peter

April 26, 2014 at 5:26 pm

Veröffentlicht in Perl, Programmierung, Scripts, Software

Tagged with , , , , ,

IFLA Tag 5 – Mit Tintin und der Retrieval Rocket zum Mond

leave a comment »

Die zweite Session des Tages für mich war: „National Libraries and open data: new discovery and access services“.

Im ersten Vortrag von Elisabeth Niggemann ging es um die open data Aktivitäten an der DNB: The importance of open data to national libraries. Dort wurden ja Normdateien und ein großer Teil der bibliographischen Daten als open data zur Verfügung gestellt. Positiv überrascht hat mich die Vehemenz mit der Niggemann sich für die Freigabe von Daten einsetzt. Sie wolle auch andere zur Freigabe motivieren und sieht das sogar als Überlebensfrage für Bibliotheken.

Alte sollte die Entscheidung zur Freigabe sorgfältig überlegt werden, da sie eben nicht mehr rückgängig gemacht werden kann. Problematisch ist auch, dass mit der Freigabe die Nutzung und der Erfolg der eigenen Daten nicht mehr so einfach festgestellt werden kann.

Dann ging Niggemann noch kurz auf die Europeana ein. Im dortigen data exchange agreement ist die Freigabe der Daten als CC-0 festgeschrieben. Dies ist für das semantische Netz wichtig, da nur so die Daten in Anwendung, Wikipedia oder Blogs mit kommerzieller Aktivität (das kann ja auch schon Google AdWords sein) integriert werden können.

Allerdings können im Rahmen des Vertrags Europeana Partner Vorschaubilder unter eine andere Lizenz stellen, was den Austausch natürlich wieder einschränkt.

Tintin reist mit der "Retrieval Rocket" der BNF

Tintin reist mit der „Retrieval Rocket“ der BNF

Nach dieser deutschen Perspektive kam ein sehr guter Vortrag (auch visuell schön untermalt mit Hergé Comics) von Gildas Illien von der französischen Nationalbibliothek: Are you ready to drive in? A case of open data in national libraries.

Besonders interessant waren die „lessons learnt“: Immer mit benchmarks arbeiten, also schauen was die anderen machen. In der Diskussion die Freigabe eher von der wirtschaftlichen Seite argumentieren und die Angelegenheit nicht zu einer Ideologiefrage oder eine technischen Notwendigkeit machen. Allerdings hat Illien erzählt, dass sie in der vorherigen Rechts-Regierung eher wirtschaftlich argumentiert haben und in der jetzigen Links-Regierung eher die Werte „Transparenz“ und „Freiheit“ betonen und so eigentlich immer ganz gut fahren ;-).

Und man sollte echte Anwendungsfälle parat haben, im Zweifelsfall würden Geschichten auf der Managerebene noch besser als reine Zahlen wirken.

Written by Peter

August 17, 2012 at 7:57 am

Veröffentlicht in Konferenzen, wlic2012

Tagged with , , , ,