Hatori Kibble

Jo eh…

Archive for the ‘Scripts’ Category

InetBib-Listenarchiv als RSS-Feed

with 5 comments

Viele LeserInnen die InetBib eher passiv konsumieren haben den RSS-Reed über Gmane genutzt.

Allerdings gab Ende Juli der Entwickler bekannt, diesen Dienst nicht weiter betreiben zu wollen:

So… it’s been 14 years… I’m old now. I almost threw up earlier tonight because I’m so stressed about the situation. I should retire and read comic books and watch films. Oh, and the day job. Work, work, work. Oh, and Gnus.

I’m thinking about ending Gmane, at least as a web site.

Als Alternative habe ich jetzt ein kleines Skript geschrieben, dass aus den Inhalten des Listenarchivs einen RSS-Feed baut.

InetBib als RSS-Feed

InetBib als RSS-Feed

Wer also will, kann ab sofort InetBib über https://200110.vs.webtropia.com/rss/inetbib.xml abonnieren. Das Perl-Skript dazu habe ich auf GitHub gestellt, es kann gerne weiterverwendet werden.

 

Advertisements

Written by Peter

August 16, 2016 at 9:14 pm

Veröffentlicht in Perl, Programmierung, Scripts

Tagged with , , ,

Die TwitterBot-Charts

leave a comment »

In meinem letzten Post hatte ich ja schon einmal darauf hingewiesen, dass man die Twitter-Statistikdaten als CSV-Datei exportieren kann.

Zur Auswertung habe ich dann ein kleines Perl-Skript geschrieben und mir jeweils die Top 10 der Tweets meiner Twitterbots erstellt, gereiht nach „Impressions“ (definiert laut Twitter als „Number of times users saw the Tweet on Twitter“).

Bei ddbKatzen ist der im letzten Post bereits erwähnte Neufundländer Hund an der Spitze:

 

  1. Internet, Katze; #ddb, ‚Neufundländer Hund. Alpenhund. Haus Katze. Wilde Katze‘: http://t.co/o2glN1pVq3 http://t.co/2K2kfVM7FT: 825
  2. Und schon wieder ein Katzenbild aus der #ddb: ‚Kleines Kätzchen vor einem Stoffhund‘: http://t.co/XtkMH7Iakm http://t.co/pVSSUiMMEF: 360
  3. #ddb überrasche mich mal! OK, ‚Hund Bonzo‘: http://t.co/MveSBrHDlT http://t.co/5HU2j6hOLJ: 331
  4. Immer nur Katzen ist langweilig! ‚Eichhörnchen‘: http://t.co/Z5NxiRrKT4 #ddb http://t.co/u7XYhjKyYb: 286
  5. Katze gefällig? Aus der #ddb: ‚Hauskatze‘: http://t.co/iVxPLsCPn5 http://t.co/ILABl74rJQ: 214
  6. #ddb überrasche mich mal! OK, ‚Der Iltis, Eichhörnchen und Wiesel‘: http://t.co/dFcMOoQkW6 http://t.co/sWQ1J7WAmj: 204
  7. Oh! Katzen in der #ddb: ‚Katzen‘ http://t.co/zYkhJ5CLba http://t.co/pV9tA0gO8P: 201
  8. Ganz etwas originelles: ‚Wasserspeier: Katze‘: http://t.co/m7DH84O0u4 #ddb http://t.co/7W5GrfUlT9: 178
  9. Immer nur Katzen ist langweilig! ‚Der Hamster‘: http://t.co/40xMtccVNN #ddb http://t.co/QMWGg4Oni9: 167
  10. Immer nur Katzen ist langweilig! ‚Eichhörnchen‘: http://t.co/9PHJDbF6cr #ddb http://t.co/ItKl8uLFR6: 167

Alle diese Tweets wurden zumindest einmal geteilt und haben so auch ein Publikum jenseits der eigenen Follower erreicht.

 

Beim EuropeanaBot hat sich die allgemeine WM-Euphorie auch auf die Tweetstatistiken ausgewirkt:

  1. The soccer team of #CHI takes part in #WM2014: #europeana has a picture: http://t.co/Hkf3iyiEwk: 664
  2. Look! A #europeana image of Nobel Prize winner „Wislawa Szymborska“: http://t.co/OzkrgKJ1e0 (#wikipedia:http://t.co/dyYTSKLnPj): 632
  3. Wanna learn more about the cooperation between Wikipedia and Europeana? Follow @wikieuropeana! #ff: 572
  4. OK, you got me.. Judging from my last two tweets, now I’m also a fan of #WM2014 (learn more at https://t.co/KG3FmEfp8W ): 469
  5. „Rugby league“: #guardian article: http://t.co/TvPOlrLyj5 #europeana picture: http://t.co/yuSvsEUiHe You are welcome!: 441
  6. Oh! An article about „#Books“ in the #guardian: http://t.co/ralHl4qRnb Here’s the #europeana picture: http://t.co/kXk3QX4trQ: 391
  7. Hi! The #guardian has a news item about „#Space“: http://t.co/EHso7XTkHR #europeana has a picture: http://t.co/btdsVewq7h: 363
  8. „Marino Grimani (doge)“: #wikipedia entry http://t.co/vVUMmMYscB #europeana picture: http://t.co/KroziuRip0 You are welcome!: 312
  9. Oh! An article about „#Syria“ in the #guardian: http://t.co/YrDtazxDaO Here’s the #europeana picture: http://t.co/SFNfYZAjAe: 299
  10. Oh! An article about „#Vodafone“ in the #guardian: http://t.co/AlYuMva1Zd Here’s the #europeana picture: http://t.co/9sDnTZi73W: 286

Interessant fand ich die weite Verbreitung eines Tweets zu einer Nobelpreisträgerin von 1996, allerdings scheint da eine Publikation bisher unveröffentlichter Werke die Autorin wieder stärker in den Fokus der Aufmerksamkeit gebracht haben.

Andere Tweets dürften wegen der generischen bzw. aktuellen Hashtags („Syria“, „Books“, „Space“) öfter gefunden worden sein.

Hier noch der Quellcode für das Auswertungsskript, allerdings dürfte für diese einfache Statistik auch Excel ausreichend sein.

Written by Peter

Oktober 26, 2014 at 6:06 pm

Kleine Bot-Miszellen II: Die Katzen und der arrangierte Zufall

with one comment

Als kleine Vorkonferenz zum „Open Knowledge Festival“ gab es am 15. Juli eine Veranstaltung zu offenen Daten im Kulturbereich, den „OpenGLAM-Workshop“.

In einem Vortrag ging es um die Deutsche Digitale Bibliothek:

1 year in digital cultural heritage – what were the walls I ran into most often & how to tear them down – Stephan Bartholmei, Deutsche Digitale Bibliothek

und anscheinend hatte da auch mein Katzenbot einen Gastauftritt:

Aber auch der EuropeanaBot hatte kürzlich eine Erwähnung. Der Artikel „I’m feeling lucky: Can algorithms better engineer serendipity in research — or in journalism?“ beschäftigt sich mit Serendipitätseffekten in digitalen Sammlungen:

Some historical collections are aiming to enable serendipitous content discovery, peering beyond the current limitations of search to capture happy accidents.

Analog zur „Filter Bubble“ wird hier von der „Research Bubble“ gesprochen. Alternative Zugänge zu Informationen, die auf Serendipität setzen, können hier einen Ausweg bieten.

In dem Artikel wird besonders auf Twitter eingegangen und die verschiedenen „collection bots“:

This might suggest that Twitter might be a more serendipitous platform than Facebook or Google, which emphasize more targeted customization and personalization. It — along with the Twitter API’s ease of use — also might explain why many organizations take advantage of Twitter to create whimsical bots that inject a bit of randomness into your feed.

 

These tools (along with others, such as the EuropeanaBot) are primarily targeting digital humanists and historians who are in a rut, but they each have their own insights about what is serendipitous versus simply random. It is difficult to plan for unplanned discoveries, especially so for a computer. Events are only serendipitous in hindsight, consisting of varying levels of planning versus dumb luck. But it seems quite possible to design for serendipitous discoveries, and to help put a user in the mindset for it.

Written by Peter

Juli 21, 2014 at 9:19 am

#bibtag14 – Tag 3: Mit MC Hammer BibliothekarInnen irritieren?

with one comment

So mein Vortrag ist vorbei, ab jetzt wird’s entspannt …

Begonnen hat der Tag für mich mit der Session „Neue Formen der Erschließung“. Ich hatte etwas befürchtet, dass ich mit dem Twitter-Humor meines Bots  die Leute verschrecke, aber die Resonanz war eigentlich ganz gut:

Hier noch die Folien:

Auch die anderen Vorträge in der Session fand ich spannend. Viele Beispiele, wie man Mehrwert durch die Verknüpfung von freien Datensammlungen schaffen kann. Endlich gibt es Anwendungsfälle, mit denen man das Potential von Linked Open Data schön zeigen kann.

Written by Peter

Juni 5, 2014 at 11:48 am

Schöne Projekte mit viel GLAM!

with 2 comments

Im Moment gibt es wieder spannende Initiativen aus dem GLAM-Bereich:

Coding Da Vinci

Letztes Wochenende begann in Berlin ein „Kultur-Hackathon“:

Nach dem Motto „Let them play with your toys!“ (Jo Pugh, National Archives UK) wollen wir im Rahmen von Coding da Vinci ergründen, was passiert, wenn Kulturinstitutionen mit der Entwickler-, Designer- und Gamescommunity ins Gespräch kommen und in kreativer Art und Weise das digitale Kulturerbe nutzbar machen.

Auf Basis von offenen Kulturdaten entstehen prototypische Anwendungen in einem gemeinsamen Dialog mit Kulturinstitutionen und Teilnehmer/innen aus ganz Deutschland.

Eine großartige Idee, um einmal zu schauen, was man denn mit unseren tollen bibliothekarischen Daten so alles anstellen kann.

Dokumentation

Hübsche Art der Dokumentation mit Sketchnotes

Erste Projektideen (von der Weltkriegsdokumentation bis zum Vogelstimmenwecker) kann man sich bereits ansehen, ich bin gespannt, was in den nächsten 10 Wochen noch so alles entstehen wird.

Eyes on the past

Tim Sherratt hatte ich ja im Zusammenhang mit dem TroveNewsBot schon einmal erwähnt. Nun gibt es ein neues Projekt von ihm:

Faces offer an instant connection to history, reminding us that the past is full of people. People like us, but different. People with their own lives and stories. People we might only know through a picture, a few documentary fragments, or a newspaper article.

On this site I’m exploring whether faces can provide a way to explore more than 120 million newspaper articles available on Trove.

Eyes on the past

„Eyes on the past“

Mir gefällt ja dieser verspielte Ansatz der digitalen Sammlung als „Wunderkammer“ sehr gut. Auf Twitter wurde das als „a poetic way to search library catalogues“ bezeichnet und in der Tat ist „Eyes on the past“ wohl die maximale Distanz zur Boole’schen OPAC-Suchmaske.

(Das Projekt läuft derzeit auf einem Testserver, falls der Link irgendwann nicht mehr funktioniert, findet man vielleicht auf der Homepage des Entwicklers noch mehr Informationen dazu.)

Written by Peter

April 28, 2014 at 9:18 pm

Mit offenen lobid-Daten raten!

with 3 comments

Für ein kleines Datenanalyseprojekt brauche ich die Gender-Verteilung einer Namensliste. Das manuelle Durcharbeiten und Anlegen einer Strichliste ist relativ öde, daher habe ich nach einer automatisierten Lösung gesucht und einen schönen Anwendungsfall für offene Daten gefunden…

Das hbz bietet ja mit lobid.org eine API für die Abfrage der „Gemeinsamen Normdatei“ an. In der GND-Ontologie ist ein Gender-Eintrag definiert und manchmal auch vergeben.

Jane Austen in der GND

Jane Austen in der GND

In weiterer Folge habe ich jetzt ein kleines Perl-Modul geschrieben, das die GND Personendaten durchsucht und für die ersten 100 Treffer die Gender-Einträge analysiert.  Daraus wird dann eine statistische Präferenz abgeleitet:

> perl guess.pl Peter
'Peter' is probably 'male'

 

Here's the statistics data that I've used: $VAR1 = {
          'GenderRatio' => {
                             'Female' => '8.33333333333333',
                             'Male' => '91.6666666666667'
                           },
          'GenderDistribution' => {
                                    'female' => 2,
                                    'male' => 22,
                                    'notKnown' => 43
                                  },
          'GenderCount' => 67,
          'TotalCount' => 100
        };
> perl guess.pl Sarah
'Sarah' is probably 'female'

 

Here's the statistics data that I've used: $VAR1 = {
          'GenderRatio' => {
                             'Female' => '95.4545454545455',
                             'Male' => '4.54545454545455'
                           },
          'GenderDistribution' => {
                                    'female' => 21,
                                    'male' => 1,
                                    'notKnown' => 41
                                  },
          'GenderCount' => 63,
          'TotalCount' => 100
        };

Aus den Statistikdaten wird klar, wie schlecht die Datenlage eigentlich ist, in den meisten Fällen wurde in der GND notKnown vergeben. Trotzdem ist das Ergebnis für „Standardnamen“ relativ eindeutig.

Schwieriger wird es für Vornamen, die sowohl weiblich als auch männlich besetzt sind (Uli, Kim, Andrea, etc..).

Bei „Andrea“ schlägt auch noch die automatische Trunkierung zu  und der Name wird zu 92 % als männlich klassifiziert.

Trotz dieser Schwächen ist dieses Verfahren aber immer noch eine pragmatische Lösung und ein schönes Beispiel für die (Nach-)Nutzung bibliothekarischer Arbeit.

Wer das Modul verwenden will, oder Bugreports oder Verbesserungsvorschläge hat: hier geht’s zum GitHub-Repository!

Written by Peter

April 26, 2014 at 5:26 pm

Veröffentlicht in Perl, Programmierung, Scripts, Software

Tagged with , , , , ,

Der KatzenBot: Mehr Bilder! Mehr Vielfalt! Mehr Hamster!

with 4 comments

Beim KatzenBot hat sich einiges getan:

Die Titel der Katzenbilder sind ja manchmal wenig aussagekräftig:

Damit klar ist, dass sich „Hauskatze“ und „Hauskatze“ durchaus unterscheiden können, werden jetzt die Vorschaubilder gleich in den Tweet eingebettet:

Tweet mit Bild

Tweet mit Bild

Eine andere Sache, die etwas unschön am Bot war, waren „Tweet-Doubletten“. Mangels Masse an Bildmaterial konnte es vorkommen, dass sich Bilder wiederholen:

Alle drei Tweets verlinken auf das selbe Bild

Alle drei Tweets verlinken auf dasselbe Bild

In der neuen Version verwirft die Suche alle Bilder, die in den letzten drei Tagen gepostet wurden. Ich bin schon gespannt, wie sich das in der Praxis bewährt und ob die DDB irgendwann einmal „leergefischt“ ist (die einzelnen Suchterme bringen zwischen 2 und 802 Ergebnisse …).

Die letzte Neuerung ergab sich aus einem Tweet-Wechsel:

Twitter Konversation

Und so kümmert sich der KatzenBot jetzt auch um Hamster:

Hamster Tweet

Die neue Version liegt wie immer auf GitHub und – ähem … – ich würde mich über die erste runde Zahl an Followern freuen 😉

Written by Peter

Februar 27, 2014 at 9:38 pm