Hatori Kibble

Jo eh…

Posts Tagged ‘github

InetBib-Listenarchiv als RSS-Feed

with 5 comments

Viele LeserInnen die InetBib eher passiv konsumieren haben den RSS-Reed über Gmane genutzt.

Allerdings gab Ende Juli der Entwickler bekannt, diesen Dienst nicht weiter betreiben zu wollen:

So… it’s been 14 years… I’m old now. I almost threw up earlier tonight because I’m so stressed about the situation. I should retire and read comic books and watch films. Oh, and the day job. Work, work, work. Oh, and Gnus.

I’m thinking about ending Gmane, at least as a web site.

Als Alternative habe ich jetzt ein kleines Skript geschrieben, dass aus den Inhalten des Listenarchivs einen RSS-Feed baut.

InetBib als RSS-Feed

InetBib als RSS-Feed

Wer also will, kann ab sofort InetBib über https://200110.vs.webtropia.com/rss/inetbib.xml abonnieren. Das Perl-Skript dazu habe ich auf GitHub gestellt, es kann gerne weiterverwendet werden.

 

Written by Peter

August 16, 2016 at 9:14 pm

Veröffentlicht in Perl, Programmierung, Scripts

Tagged with , , ,

Kursreihe „Data Science“ auf Coursera

with one comment

Das neue Arbeitsfeld des „data librarian“ war ja hier im Blog schon öfter Thema. Aber wie geht man eigentlich mit diesen Daten um? Auf Coursera gibt es eine Reihe von verschiedenen MOOCs zum Thema:

Johns Hopkins University – Data Science
In this course you will learn:

Formulate context-relevant questions and hypotheses to drive data scientific research
Identify, obtain, and transform a data set to make it suitable for the production of statistical evidence communicated in written form
Build models based on new data types, experimental design, and statistical inference

Die Reihe besteht aus 9 Modulen plus einem Abschlussprojekt. Den ersten Kurs habe ich bereits hinter mich gebracht:

The Data Scientist’s Toolbox

In this course you will get an introduction to the main tools and ideas in the data scientist’s toolbox. The course gives an overview of the data, questions, and tools that data analysts and data scientists work with. There are two components to this course. The first is a conceptual introduction to the ideas behind turning data into actionable knowledge. The second is a practical introduction to the tools that will be used in the program like version control, markdown, git, GitHub, R, and RStudio.

Dieses Modul ist ein guter Einstieg in die Thematik und viele der angesprochenen Werkzeuge wie git und GitHub lassen sich ja auch in anderen Kontexten nutzen.

R Programming

In this course you will learn how to program in R and how to use R for effective data analysis. You will learn how to install and configure software necessary for a statistical programming environment and describe generic programming language concepts as they are implemented in a high-level statistical language. The course covers practical issues in statistical computing which includes programming in R, reading data into R, accessing R packages, writing R functions, debugging, profiling R code, and organizing and commenting R code. Topics in statistical data analysis will provide working examples.

Auch das Erstellen von Statistiken und das Visualisieren von Daten betrifft einen größeren Kreis von Bibliothekarinnen. Die Programmiersprache R ist mir in letzter Zeit öfter untergekommen und dieser Kurs ist eine gute Gelegenheit da einmal reinzuschnuppern. Allerdings ist dieses Modul wesentlich anspruchsvoller als der vorherige. Ich bin gerade in Woche 3 und grüble über der Programmieraufgabe.

Mal sehen wie’s weitergeht und welche Module ich noch machen werde.

Ein wichtiger Tipp noch: Coursera versucht natürlich kostenpflichtige Zertifikate für diese Kurse zu verkaufen. Wenn man stattdessen mit einem „Statement of Accomplishment“ zufrieden ist, kann man die MOOCs auch gratis absolvieren.

 

Written by Peter

Juni 16, 2015 at 10:00 am

Veröffentlicht in Programmierung

Tagged with , , , , ,

Neulich im Feedreader (Teil XVI): Passkontrolle und Aktivismus in Bibliotheken, Daten und Detektivisches

leave a comment »

Diese Rubrik eignet sich doch hervorragend um sich wieder vorsichtig ans Bloggen ranzutasten…

the term microaggression gained momentum in academic scholarship about racism in the early 2000s to denote the small ways systemic racism plays out“

stellt die Autorin das Konzept des „Mikroaktivismus“ vor, kleine Aktivitäten (z.B. einfach mal feministische Beispiele bei Datenbankschulungen verwenden) mit denen sich BibliothekarInnen in der täglichen Arbeit gegen Diskriminierung und für benachteiligte Gruppen einsetzen können. (via @glaserti)

 

Written by Peter

Juni 15, 2015 at 9:23 pm

Veröffentlicht in Neulich im Feedreader

Tagged with , ,

Neulich im Feedreader (Teil X): #bibtag14 Vorbereitung, Raspberry Pis und die Anderen auf Twitter sind anders

leave a comment »

Yeah, das erste kleine Jubiläum dieser bezaubernden Rubrik.. 😉

Loughborough University’s Library Systems Team investigated two potential uses for Raspberry Pis. The first use to be identified for investigation was using the Raspberry Pi as a replacement for the existing OPAC hardware. While it met a majority of the requirements there were issues with the responsiveness to user input at certain times. The second use for Raspberry Pis investigated was to provide a number of digital signs to display details about resource bookings and the availability of PCs in IT labs around campus. The Raspberry Pi demonstrated that it was ideally suited to this task.

A couple things about this project strike me as imminently brilliant. (Certainly brilliant enough to merit more than 281 followers, the account’s current and inexplicably modest following). First off, it’s a good, accessible demonstration of what the DPLA does best: (1) Collect and surface diverse, otherwise-siloed historical materials from libraries, museums and universities around the country, and (2) Make those records available to programmers, academics and the general public. Second, it’s hilarious. Look at these cheerful cats!

That actually makes Historical Cats a good metaphor for DPLA in general, since the project’s goal is to merge old-school library, museum and archive holdings with digital sensibilities.

  • GrepTweet
    Schönes kleines Tool um Tweets zu durchsuchen und selektiv zu exportieren
  • Random Tweet
    zeigt einfach eine zufällige Twitter-Nachricht an (gibt es auch für Bücher). Mir gefällt ja die Begründung der Entwicklerin:

We often think that people use social networks the same way that we use social networks. This is intended as a live demo that most people on twitter are not like you.

 

 

Written by Peter

Mai 17, 2014 at 10:13 am

Mit offenen lobid-Daten raten!

with 3 comments

Für ein kleines Datenanalyseprojekt brauche ich die Gender-Verteilung einer Namensliste. Das manuelle Durcharbeiten und Anlegen einer Strichliste ist relativ öde, daher habe ich nach einer automatisierten Lösung gesucht und einen schönen Anwendungsfall für offene Daten gefunden…

Das hbz bietet ja mit lobid.org eine API für die Abfrage der „Gemeinsamen Normdatei“ an. In der GND-Ontologie ist ein Gender-Eintrag definiert und manchmal auch vergeben.

Jane Austen in der GND

Jane Austen in der GND

In weiterer Folge habe ich jetzt ein kleines Perl-Modul geschrieben, das die GND Personendaten durchsucht und für die ersten 100 Treffer die Gender-Einträge analysiert.  Daraus wird dann eine statistische Präferenz abgeleitet:

> perl guess.pl Peter
'Peter' is probably 'male'

 

Here's the statistics data that I've used: $VAR1 = {
          'GenderRatio' => {
                             'Female' => '8.33333333333333',
                             'Male' => '91.6666666666667'
                           },
          'GenderDistribution' => {
                                    'female' => 2,
                                    'male' => 22,
                                    'notKnown' => 43
                                  },
          'GenderCount' => 67,
          'TotalCount' => 100
        };
> perl guess.pl Sarah
'Sarah' is probably 'female'

 

Here's the statistics data that I've used: $VAR1 = {
          'GenderRatio' => {
                             'Female' => '95.4545454545455',
                             'Male' => '4.54545454545455'
                           },
          'GenderDistribution' => {
                                    'female' => 21,
                                    'male' => 1,
                                    'notKnown' => 41
                                  },
          'GenderCount' => 63,
          'TotalCount' => 100
        };

Aus den Statistikdaten wird klar, wie schlecht die Datenlage eigentlich ist, in den meisten Fällen wurde in der GND notKnown vergeben. Trotzdem ist das Ergebnis für „Standardnamen“ relativ eindeutig.

Schwieriger wird es für Vornamen, die sowohl weiblich als auch männlich besetzt sind (Uli, Kim, Andrea, etc..).

Bei „Andrea“ schlägt auch noch die automatische Trunkierung zu  und der Name wird zu 92 % als männlich klassifiziert.

Trotz dieser Schwächen ist dieses Verfahren aber immer noch eine pragmatische Lösung und ein schönes Beispiel für die (Nach-)Nutzung bibliothekarischer Arbeit.

Wer das Modul verwenden will, oder Bugreports oder Verbesserungsvorschläge hat: hier geht’s zum GitHub-Repository!

Written by Peter

April 26, 2014 at 5:26 pm

Veröffentlicht in Perl, Programmierung, Scripts, Software

Tagged with , , , , ,

Neulich im Feedreader (Teil IX): Gut abgehangene Ratschläge, GitHub und literarische Rätsel…

leave a comment »

So, diese Rubrik gab es hier schon länger nicht mehr…

I play a bit of football in the park with my friends, and it’s not regulation NFL American Football or anything, but I’m curious if it’s cool when going for a punt to start a game, a friend of mine likes to pull the ball at the last possible second. She says it’s a big joke and my other friends laugh a bit too so maybe I’m just being too sensitive. Are there rules I can point her to showing this isn’t allowed?
posted by RoundHeadedKid to Sports, Hobbies, & Recreation at 17:04 – 13 answers  +
Long story short, I’ve been away a long time, but it’s time to go home. I need to get from Troy to Ithaca ASAP, but don’t trust my old map and my transportation is not always reliable either. Any tips for finding the best, most direct route and avoid annoying traffic snarls and other delays? Difficulty: No GPS. [more inside]
posted by Ody to Travel & Transportation at 21:10 – 28 answers +

 

 

 

Written by Peter

April 7, 2014 at 9:23 pm

Neulich im Feedreader (Teil VIII): Viel Serendipity, etwas GitHub und langfristiger Bestandsaufbau

leave a comment »

Bevor wieder hier so was wie der Fasching beginnt noch einige Links:

Serendipity has always struck me as a gloriously onomatopoeic word – sort of serendipity-doo-dah, zip-a-dee-ay. The New Oxford Dictionary says it means the „occurrence and development of events by chance in a happy or beneficial way“.

In a newspaper it describes those moments when the reader’s eye alights on a story or feature that unexpectedly captures his or her interests, discovered simply by the natural progression through a finite number of pages.

  • Planning for Serendipity
    Auch die DPLA beschäftigt sich mit Serendipity und sieht folgende Voraussetzungen:

    • Generous interfaces that take advantage of proximity
    • Quick access and assessment.
    • Good data and invisible connections.

    Ein weiterer wichtiger Punkt ist auch das Vorhandensein von Programmierschnittstellen:

Of course, we can’t plan completely for serendipity. And that’s where having an application programming interface (API) andopen data is extremely helpful—it encourages others to experiment in ways that create new interfaces, views, and tools. Each of those will, at some point and in their own way, connect someone with what they didn’t know they were looking for.

As we near completion on the construction at the new Long Now space in Fort Mason, we are also building the collection of books that will reside here. We have named this collection The Manual for Civilization, and it will include the roughly 3000 books you would most want to rebuild civilization. … So… If you were stranded on an island (or small hostile planetoid), what books would YOU want to have with you?

Written by Peter

Februar 24, 2014 at 8:36 pm

Neulich im Feedreader (Teil VII): Katzen, Makerspaces, was zum Lesen und MARC stirbt wiedermal…

with one comment

  • Shifting from Shelves to Snowflakes
    BoingBoing weist auf einen Artikel zum Thema Bibliotheken und Makerspaces hin:

    „At the library, we introduce people to new ideas, new concepts through books and programs. [The Maker Lab] is introducing people to new technology through collaborative learning and creating that is hands-on,[…]“

  • Historical Cats
    Ein TwitterBot der Katzenbilder aus der DPLA postet. Der Code dazu ist ebenfalls verfügbar. Entstanden ist das Projekt übrigens bei einem „library hackathon“ Ende Jänner.
  • The MarcRecord
    Bibliothekarische Version des Jabberwocky:

    And has thou slain the MarcRecord?
    Come to my arm, my beamish boy!
    O frabjous day! On METS! On MODS!
    He chortled in his joy.

  • Read the Harvard Classics Every Day This Year
    Die „Harvard Classics“ sind eine Art literarischer Kanon aus dem Anfang des 20. Jahrhunderts.  Teleread weist auf ein interessantes E-Book Projekt hin:

    What a project to put together, and what a project to undertake to read! A complete set of them, long available via MobileReadthanks to a devoted user, has been languishing in my Calibre library for some time, unread because I simply didn’t know where to start with it. It turns out these books used to come with a pamphlet which offered suggestions for reading selections for every day of the year, chosen for their length (15 minutes) and interest. What a great way to dive into this massive collection!

    Teilweise wegen der antiquierten Sprache etwas mühsam zu lesen, aber sehr vielfältig (in den letzten Tagen hatte ich z.B. einen Reisebericht von Charles Darwin, eine Episode der Odyssee und ein Stück Herodot.)

  • Conduct Unbecoming (a Library Conference)
    Die ALA hat „Verhaltensempfehlungen“ (mir fällt gerade keine gute Übersetzung für „code of conduct“ ein…) für Konferenzen beschlossen.

    A passel of librarians just did two very cool things. First they pulled together on their own to synthesize existing American Library Association policies to create a code of conduct “statement” for ALA conferences — an action that makes ALA a safer space for people vulnerable to harassment. Then these librarians worked through the system to get ALA’s Executive Board to approve the statement.

    Karen Schneider schildert in einem Blogpost die Diskussionen dahinter. Der im Text angesprochene Code4lib „code of conduct“ liegt übrigens auch auf GitHub, dadurch lassen sich Textänderungen schön nachvollziehen.

Written by Peter

Februar 2, 2014 at 6:31 pm

Kleiner „Making Of“-Post

with one comment

Im gestrigen Geburtstagspost gab es einige hübsche Wordclouds zu sehen. Diese Grafiken wurden mit Wordle erstellt. Dafür brauchte ich aber die Rohdaten zu meinen Posts aufgeteilt auf die einzelnen Jahre.

Glücklicherweise hat WordPress eine XML-RPC Schnittstelle, darüber lässt sich relativ einfach ein entsprechendes Script basteln:

wordpress_fetch.pl

usage:
 wordpress_fetch.pl [long options...]
 wordpress_fetch.pl --help

description:
 this script connects via the XMLRPC API to your WordPress blog, fetches
 your posts and saves them into the text file '<YEAR>_blog_output.txt'.
If textonly is set, then HTML tags and WordPress codes are stripped.
You can set the options via the command line or create a JSON config file
 and point the parameter --config to it. (See config.json_example)
options:
   --blog_url blog url, e.g. 'http://xyz.wordpress.com' [Required]
   --config Path to command config file
   --help -h --usage -? Prints this usage information. [Flag]
   --max_posts number of posts the script should fetch ideally
       bigger than your post count, to fetch all your
        posts in one go [Default:"250"; Integer]
   --password WordPress password [Required]
   --textonly strip HTML tags and WordPress codes, default is false [Flag]
   --username WordPress username [Required]

Ein Backup seiner eigenen Daten zu haben ist ja immer empfehlenswert. Wer das Skript nachnutzen oder weiterentwickeln will, kann sich den Quelltext aus dem GitHub-Repository holen.

Written by Peter

Januar 21, 2014 at 9:25 pm

Veröffentlicht in Perl, Programmierung, Scripts

Tagged with , , , ,

Neulich im Feedreader (Teil IV): Ein bisschen Roulette, schon wieder GitHub, frühes „open access“ und Lärm nach Belieben

with one comment

Nun denn, was hat sich in letzter Zeit so angesammelt?

The paper items preserved in the Library also shed light on the origins of another information technology: print. The Diamond Sutra, one of the most famous documents recovered from Dunhuang, was commissioned in 868 A.D., “for free distribution,” by a man named Wang Jie, who wanted to commemorate his parents.

  • Noisli
    Manchmal arbeitet es sich ja etwas besser bei etwas Hintergrundgeräuschen. Noisli bietet jede Menge: von Regen, über Lagerfeuer bis hin zur Kaffeehausatmosphäre.
  • Code4Lib Journal
    eine neue Ausgabe des Code4Lib Journals ist auch wieder erschienen:

This issue, born during the long days of summer in the northern hemisphere, focuses on what libraries can bring to the digital table both in terms of special collections and metadata expertise. Articles range from an analysis of a large cross institutional collection of EAD finding aids, to mixing it up with Wikipedia and Authority records, to using Apache Hadoop, Apache Mahout and html5 to further institutional collections storage and discovery.

 

 

Written by Peter

Oktober 20, 2013 at 6:25 pm

Veröffentlicht in Neulich im Feedreader

Tagged with , , ,