IFLA Tag 3: Auch BibliothekarInnen lesen die Vogue

Dieser Tag begann mit der Session „Research in the big data era: legal, social and technical approaches to large text and data sets“.

Der erste Vortrag beschäftigte sich mit den Digital Humanities: „Mining large datasets for the humanities“. Der Redner hat seine Ausgangsfrage: „How can libraries support humanities scholars in making sense of large digitized collections of cultural material?“ in die einzelnen Bestandteile zerlegt:

humanities scholars
Es gibt kein „Labor“ im traditionellen Sinn (und damit einen zentralen Ort des Austausches) in den Geisteswissenschaften. Für Bibliotheken besteht daher die Möglichkeit hier aktiv zu werden und die Zusammenarbeit zwischen FachreferentInnen („subject librarians“), „data librarians“ und WissenschaftlerInnen zu fördern.
making sense
Bibliotheken konzentrieren sich zu stark auf die Anzeige von Information statt auf die Analyse. Als Beispiel für die Datenanalyse wurde das Vogue-Archiv herangezogen und eine zeitliche Auswertung des Vorkommens der Begriffe „girl“, „woman“, „lady“, bei der man schön sah, wie der Begriff „girl“ in den 70ern durch „woman“ ersetzt wurde. Dazu wurde eine Software namens „Bookworm“ erstellt.
Das ist allerdings nur eine relativ primitive Analyse, bei der man nach Dingen sucht, von denen man weiß, dass sie vorhanden sind. Interessanter ist es, „die Daten sich selber organisieren zu lassen“. Eine Methode dazu ist „Topic Modeling“:

Topic Modeling discovers statistical patterns of words that occur near each other

and — with some help fine-tuning from a human with a basic understanding of the corpus

— it can produce uncannily interesting result

Damit wurde zum Beispiel eine Korrelation zwischen der Berichterstattung über Frauengesundheitsthemen und den einzelnen Chefredakteurinnen der Vogue herausgefunden.

large digitized collections from cultural material
viele Daten lassen sich unter Umständen sogar im eigenen Keller finden (eigene Digitalisierungsprojekte, Datenlieferungen von Anbietern, etc.). Es lohnt sich aber auch Anbieter direkt um Daten zur Analyse zu fragen. Mit der Aufteilung „Analyse durch die Bibliothek“, „Darstellung durch den Anbieter“ lässt sich die Sichtbarkeit der Verlagsdaten steigern und beide Seiten profitieren somit.

Der nächste Vortrag „Do we need to believe Data/Tangible or Emotional/Intuition?“ war leider etwas deplatziert. Es ging um Empfehlungssysteme in E-Commerce Anwendungen. Es gab aber keine Übertragung auf Bibliothekssysteme und die mentalen/emotionalen Modelle von Kauf und Ausleihe halte ich jetzt nur bedingt für vergleichbar. (Zumindest der eine Redner hat immer den Glückszustand einer Shoppingerfahrung betont..)

Written by Peter

August 20, 2014 um 11:33 am

Veröffentlicht in Konferenzen, wlic2014

Tagged with digital humanities, wlic2014

Eine Antwort

Subscribe to comments with RSS.

[…] neue Arbeitsfeld des “data librarian” war ja hier im Blog schon öfter Thema. Aber wie geht man eigentlich mit diesen Daten um? Auf Coursera gibt es eine Reihe von […]

Kursreihe “Data Science” auf Coursera | Hatori Kibble

Juni 16, 2015 at 10:01 am

Antworten

M	D	M	D	F	S	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Hatori Kibble