Posts Tagged ‘github’
InetBib-Listenarchiv als RSS-Feed
Viele LeserInnen die InetBib eher passiv konsumieren haben den RSS-Reed über Gmane genutzt.
Allerdings gab Ende Juli der Entwickler bekannt, diesen Dienst nicht weiter betreiben zu wollen:
So… it’s been 14 years… I’m old now. I almost threw up earlier tonight because I’m so stressed about the situation. I should retire and read comic books and watch films. Oh, and the day job. Work, work, work. Oh, and Gnus.
I’m thinking about ending Gmane, at least as a web site.
Als Alternative habe ich jetzt ein kleines Skript geschrieben, dass aus den Inhalten des Listenarchivs einen RSS-Feed baut.
Wer also will, kann ab sofort InetBib über https://200110.vs.webtropia.com/rss/inetbib.xml abonnieren. Das Perl-Skript dazu habe ich auf GitHub gestellt, es kann gerne weiterverwendet werden.
Kursreihe „Data Science“ auf Coursera
Das neue Arbeitsfeld des „data librarian“ war ja hier im Blog schon öfter Thema. Aber wie geht man eigentlich mit diesen Daten um? Auf Coursera gibt es eine Reihe von verschiedenen MOOCs zum Thema:
Johns Hopkins University – Data Science
In this course you will learn:Formulate context-relevant questions and hypotheses to drive data scientific research
Identify, obtain, and transform a data set to make it suitable for the production of statistical evidence communicated in written form
Build models based on new data types, experimental design, and statistical inference
Die Reihe besteht aus 9 Modulen plus einem Abschlussprojekt. Den ersten Kurs habe ich bereits hinter mich gebracht:
In this course you will get an introduction to the main tools and ideas in the data scientist’s toolbox. The course gives an overview of the data, questions, and tools that data analysts and data scientists work with. There are two components to this course. The first is a conceptual introduction to the ideas behind turning data into actionable knowledge. The second is a practical introduction to the tools that will be used in the program like version control, markdown, git, GitHub, R, and RStudio.
Dieses Modul ist ein guter Einstieg in die Thematik und viele der angesprochenen Werkzeuge wie git und GitHub lassen sich ja auch in anderen Kontexten nutzen.
In this course you will learn how to program in R and how to use R for effective data analysis. You will learn how to install and configure software necessary for a statistical programming environment and describe generic programming language concepts as they are implemented in a high-level statistical language. The course covers practical issues in statistical computing which includes programming in R, reading data into R, accessing R packages, writing R functions, debugging, profiling R code, and organizing and commenting R code. Topics in statistical data analysis will provide working examples.
Auch das Erstellen von Statistiken und das Visualisieren von Daten betrifft einen größeren Kreis von Bibliothekarinnen. Die Programmiersprache R ist mir in letzter Zeit öfter untergekommen und dieser Kurs ist eine gute Gelegenheit da einmal reinzuschnuppern. Allerdings ist dieses Modul wesentlich anspruchsvoller als der vorherige. Ich bin gerade in Woche 3 und grüble über der Programmieraufgabe.
Mal sehen wie’s weitergeht und welche Module ich noch machen werde.
Ein wichtiger Tipp noch: Coursera versucht natürlich kostenpflichtige Zertifikate für diese Kurse zu verkaufen. Wenn man stattdessen mit einem „Statement of Accomplishment“ zufrieden ist, kann man die MOOCs auch gratis absolvieren.
Neulich im Feedreader (Teil XVI): Passkontrolle und Aktivismus in Bibliotheken, Daten und Detektivisches
Diese Rubrik eignet sich doch hervorragend um sich wieder vorsichtig ans Bloggen ranzutasten…
- „Academic libraries and social justice: A call to microactivism“
Ein Artikel aus den „College & Research Libraries News“. Analog zu dem Begriff der „Mikroagression“
the term microaggression gained momentum in academic scholarship about racism in the early 2000s to denote the small ways systemic racism plays out“
stellt die Autorin das Konzept des „Mikroaktivismus“ vor, kleine Aktivitäten (z.B. einfach mal feministische Beispiele bei Datenbankschulungen verwenden) mit denen sich BibliothekarInnen in der täglichen Arbeit gegen Diskriminierung und für benachteiligte Gruppen einsetzen können. (via @glaserti)
- Evaluating Web-Scale Discovery Services: A Step-by-Step Guide
Das Thema bewegt sicher im Moment so einige Bibliotheken, in „Information Technology and Libraries“ gibt es einen Artikel dazu. - A Forray into Publishing Open Data on GitHub
Eine kleine Anleitung im Blog der „Association of College and Research Libraries“ - FORENSIC BIBLIOGRAPHIC RECONSTRUCTION: tracking down troublesome citations and the problem of lost knowledge
Auch in unserer Fernleihabteilung gibt es oft detektivische Recherchen nach bibliographischen Nachweisen. (via @jessamyn)
- ‚Passports‘ To Vermont Libraries Encourage Literary Exploration
Erinnert mich zwar etwas an die „Goldene Wandernadel“ aus der Piefke-Saga, kann man aber durchaus machen. (via @jessamyn)
Neulich im Feedreader (Teil X): #bibtag14 Vorbereitung, Raspberry Pis und die Anderen auf Twitter sind anders
Yeah, das erste kleine Jubiläum dieser bezaubernden Rubrik.. 😉
- „How Presentation Zen Fixed My Bad Powerpoint“
Der BibliothekarInnentag rückt ja immer näher und viele KollegInnen arbeiten sicher gerade an ihren Präsentationen. Der Titel dieses Youtube-Videos spricht eigentlich für sich: die Vortragende beschreibt, wie sie eine dieser typischen Textwüsten-Folien umarbeitet. Das angesprochene Buch von Garr Reynolds kann ich übrigens auch sehr empfehlen. - Evaluating Possible Uses of a Raspberry Pi in an Academic Library Environment
Ein Artikel aus dem aktuellen D-Lib Magazine:
Loughborough University’s Library Systems Team investigated two potential uses for Raspberry Pis. The first use to be identified for investigation was using the Raspberry Pi as a replacement for the existing OPAC hardware. While it met a majority of the requirements there were issues with the responsiveness to user input at certain times. The second use for Raspberry Pis investigated was to provide a number of digital signs to display details about resource bookings and the availability of PCs in IT labs around campus. The Raspberry Pi demonstrated that it was ideally suited to this task.
- Neues Git-Tutorial
Auf GitHub gibt es jetzt ein neues, ziemlich schickes Tutorial. - An Earnest Appreciation of @HistoricalCats
Ein Artikel über die amerikanische Schwester von ddbKatzen. Daraus wird deutlich, warum solche Projekte eine gute Werbung für digitale Angebote von Bibliotheken und Archiven sind:
A couple things about this project strike me as imminently brilliant. (Certainly brilliant enough to merit more than 281 followers, the account’s current and inexplicably modest following). First off, it’s a good, accessible demonstration of what the DPLA does best: (1) Collect and surface diverse, otherwise-siloed historical materials from libraries, museums and universities around the country, and (2) Make those records available to programmers, academics and the general public. Second, it’s hilarious. Look at these cheerful cats!
That actually makes Historical Cats a good metaphor for DPLA in general, since the project’s goal is to merge old-school library, museum and archive holdings with digital sensibilities.
- GrepTweet
Schönes kleines Tool um Tweets zu durchsuchen und selektiv zu exportieren - Random Tweet
zeigt einfach eine zufällige Twitter-Nachricht an (gibt es auch für Bücher). Mir gefällt ja die Begründung der Entwicklerin:
We often think that people use social networks the same way that we use social networks. This is intended as a live demo that most people on twitter are not like you.
Mit offenen lobid-Daten raten!
Für ein kleines Datenanalyseprojekt brauche ich die Gender-Verteilung einer Namensliste. Das manuelle Durcharbeiten und Anlegen einer Strichliste ist relativ öde, daher habe ich nach einer automatisierten Lösung gesucht und einen schönen Anwendungsfall für offene Daten gefunden…
Das hbz bietet ja mit lobid.org eine API für die Abfrage der „Gemeinsamen Normdatei“ an. In der GND-Ontologie ist ein Gender-Eintrag definiert und manchmal auch vergeben.
In weiterer Folge habe ich jetzt ein kleines Perl-Modul geschrieben, das die GND Personendaten durchsucht und für die ersten 100 Treffer die Gender-Einträge analysiert. Daraus wird dann eine statistische Präferenz abgeleitet:
> perl guess.pl Peter
'Peter' is probably 'male'
Here's the statistics data that I've used: $VAR1 = {
'GenderRatio' => {
'Female' => '8.33333333333333',
'Male' => '91.6666666666667'
},
'GenderDistribution' => {
'female' => 2,
'male' => 22,
'notKnown' => 43
},
'GenderCount' => 67,
'TotalCount' => 100
};
> perl guess.pl Sarah
'Sarah' is probably 'female'
Here's the statistics data that I've used: $VAR1 = {
'GenderRatio' => {
'Female' => '95.4545454545455',
'Male' => '4.54545454545455'
},
'GenderDistribution' => {
'female' => 21,
'male' => 1,
'notKnown' => 41
},
'GenderCount' => 63,
'TotalCount' => 100
};
Aus den Statistikdaten wird klar, wie schlecht die Datenlage eigentlich ist, in den meisten Fällen wurde in der GND notKnown vergeben. Trotzdem ist das Ergebnis für „Standardnamen“ relativ eindeutig.
Schwieriger wird es für Vornamen, die sowohl weiblich als auch männlich besetzt sind (Uli, Kim, Andrea, etc..).
Bei „Andrea“ schlägt auch noch die automatische Trunkierung zu und der Name wird zu 92 % als männlich klassifiziert.
Trotz dieser Schwächen ist dieses Verfahren aber immer noch eine pragmatische Lösung und ein schönes Beispiel für die (Nach-)Nutzung bibliothekarischer Arbeit.
Wer das Modul verwenden will, oder Bugreports oder Verbesserungsvorschläge hat: hier geht’s zum GitHub-Repository!
Neulich im Feedreader (Teil IX): Gut abgehangene Ratschläge, GitHub und literarische Rätsel…
So, diese Rubrik gab es hier schon länger nicht mehr…
- Ask the Past – advice from old books
In diesem Blog hat eine Historikerin Ratschläge aus alten Büchern gesammelt. So kann man lernen, im Stil der 1530er Frauen beim Tanzen beeindrucken, eine erfolgreiche Geschäftsreise zu absolvieren oder einfach übers Wasser zu gehen. - Modern Perl: 2014 Edition is out
Die Programmiersprache Perl hat sich in den letzten Jahren doch sehr verändert. Wer immer noch das Bild von unleserlichen CGI-Skripten im Kopf hat, kann sich mit diesem freien E-Book einen Überblick über aktuelle Entwicklungen verschaffen. - GitBook
Und wer jetzt selber ein E-Book schreiben und dazu GitHub und Markdown verwenden will, kann mit GitBook die Texte einfach in eine statische Website konvertieren. - Ask Metafilter April Scherz
Zum Abschluss noch ein nettes Ratespiel von AskMetafilter (hier die Diskussion dazu). Normalerweise werden auf dieser Seite alle möglichen und unmöglichen Fragen beantwortet. Am ersten April wurde die Seite gegen eine Version ausgetauscht, in der fiktionale Personen um Rat fragen:
I play a bit of football in the park with my friends, and it’s not regulation NFL American Football or anything, but I’m curious if it’s cool when going for a punt to start a game, a friend of mine likes to pull the ball at the last possible second. She says it’s a big joke and my other friends laugh a bit too so maybe I’m just being too sensitive. Are there rules I can point her to showing this isn’t allowed?
posted by RoundHeadedKid to Sports, Hobbies, & Recreation at 17:04 – 13 answers +
Long story short, I’ve been away a long time, but it’s time to go home. I need to get from Troy to Ithaca ASAP, but don’t trust my old map and my transportation is not always reliable either. Any tips for finding the best, most direct route and avoid annoying traffic snarls and other delays? Difficulty: No GPS. [more inside]
posted by Ody to Travel & Transportation at 21:10 – 28 answers +
Neulich im Feedreader (Teil VIII): Viel Serendipity, etwas GitHub und langfristiger Bestandsaufbau
Bevor wieder hier so was wie der Fasching beginnt noch einige Links:
- The readers‘ editor on … trying to forge a deeper relationship with web users
Digitale Serendipity war ja hier schon öfter mal ein Thema. In diesem Artikel wird beschrieben, welchen Einfluss dieses Prinzip auf das Redesign der Guardian Homepage hatte:
Serendipity has always struck me as a gloriously onomatopoeic word – sort of serendipity-doo-dah, zip-a-dee-ay. The New Oxford Dictionary says it means the „occurrence and development of events by chance in a happy or beneficial way“.
In a newspaper it describes those moments when the reader’s eye alights on a story or feature that unexpectedly captures his or her interests, discovered simply by the natural progression through a finite number of pages.
- Planning for Serendipity
Auch die DPLA beschäftigt sich mit Serendipity und sieht folgende Voraussetzungen:- Generous interfaces that take advantage of proximity
- Quick access and assessment.
- Good data and invisible connections.
Ein weiterer wichtiger Punkt ist auch das Vorhandensein von Programmierschnittstellen:
Of course, we can’t plan completely for serendipity. And that’s where having an application programming interface (API) andopen data is extremely helpful—it encourages others to experiment in ways that create new interfaces, views, and tools. Each of those will, at some point and in their own way, connect someone with what they didn’t know they were looking for.
- Best use of Digital Humanities for fun
Und eine Anwendung, die genau diese Schnittstellen nutzt, hat auch gleich bei den „Digital Humanities Awards“ gewonnen: der Serendip-o-matic. - Rendered Prose Diffs
Der Einsatz von GitHub für Texte jenseits von Programmcode ist ja auch so ein Thema hier. Das kollaborative Schreiben wird jetzt durch bessere Vergleichsmöglichkeiten für Prosa unterstützt. - Building a Foundational Library for the Long Now
Interessantes Bestandsaufbauproblem:
As we near completion on the construction at the new Long Now space in Fort Mason, we are also building the collection of books that will reside here. We have named this collection The Manual for Civilization, and it will include the roughly 3000 books you would most want to rebuild civilization. … So… If you were stranded on an island (or small hostile planetoid), what books would YOU want to have with you?
Neulich im Feedreader (Teil VII): Katzen, Makerspaces, was zum Lesen und MARC stirbt wiedermal…
- Shifting from Shelves to Snowflakes
BoingBoing weist auf einen Artikel zum Thema Bibliotheken und Makerspaces hin:„At the library, we introduce people to new ideas, new concepts through books and programs. [The Maker Lab] is introducing people to new technology through collaborative learning and creating that is hands-on,[…]“
- Historical Cats
Ein TwitterBot der Katzenbilder aus der DPLA postet. Der Code dazu ist ebenfalls verfügbar. Entstanden ist das Projekt übrigens bei einem „library hackathon“ Ende Jänner. - The MarcRecord
Bibliothekarische Version des Jabberwocky:And has thou slain the MarcRecord?
Come to my arm, my beamish boy!
O frabjous day! On METS! On MODS!
He chortled in his joy. - Read the Harvard Classics Every Day This Year
Die „Harvard Classics“ sind eine Art literarischer Kanon aus dem Anfang des 20. Jahrhunderts. Teleread weist auf ein interessantes E-Book Projekt hin:What a project to put together, and what a project to undertake to read! A complete set of them, long available via MobileReadthanks to a devoted user, has been languishing in my Calibre library for some time, unread because I simply didn’t know where to start with it. It turns out these books used to come with a pamphlet which offered suggestions for reading selections for every day of the year, chosen for their length (15 minutes) and interest. What a great way to dive into this massive collection!
Teilweise wegen der antiquierten Sprache etwas mühsam zu lesen, aber sehr vielfältig (in den letzten Tagen hatte ich z.B. einen Reisebericht von Charles Darwin, eine Episode der Odyssee und ein Stück Herodot.)
- Conduct Unbecoming (a Library Conference)
Die ALA hat „Verhaltensempfehlungen“ (mir fällt gerade keine gute Übersetzung für „code of conduct“ ein…) für Konferenzen beschlossen.A passel of librarians just did two very cool things. First they pulled together on their own to synthesize existing American Library Association policies to create a code of conduct “statement” for ALA conferences — an action that makes ALA a safer space for people vulnerable to harassment. Then these librarians worked through the system to get ALA’s Executive Board to approve the statement.
Karen Schneider schildert in einem Blogpost die Diskussionen dahinter. Der im Text angesprochene Code4lib „code of conduct“ liegt übrigens auch auf GitHub, dadurch lassen sich Textänderungen schön nachvollziehen.
Kleiner „Making Of“-Post
Im gestrigen Geburtstagspost gab es einige hübsche Wordclouds zu sehen. Diese Grafiken wurden mit Wordle erstellt. Dafür brauchte ich aber die Rohdaten zu meinen Posts aufgeteilt auf die einzelnen Jahre.
Glücklicherweise hat WordPress eine XML-RPC Schnittstelle, darüber lässt sich relativ einfach ein entsprechendes Script basteln:
wordpress_fetch.pl usage: wordpress_fetch.pl [long options...] wordpress_fetch.pl --help description: this script connects via the XMLRPC API to your WordPress blog, fetches your posts and saves them into the text file '<YEAR>_blog_output.txt'. If textonly is set, then HTML tags and WordPress codes are stripped. You can set the options via the command line or create a JSON config file and point the parameter --config to it. (See config.json_example) options: --blog_url blog url, e.g. 'http://xyz.wordpress.com' [Required] --config Path to command config file --help -h --usage -? Prints this usage information. [Flag] --max_posts number of posts the script should fetch ideally bigger than your post count, to fetch all your posts in one go [Default:"250"; Integer] --password WordPress password [Required] --textonly strip HTML tags and WordPress codes, default is false [Flag] --username WordPress username [Required]
Ein Backup seiner eigenen Daten zu haben ist ja immer empfehlenswert. Wer das Skript nachnutzen oder weiterentwickeln will, kann sich den Quelltext aus dem GitHub-Repository holen.
Neulich im Feedreader (Teil IV): Ein bisschen Roulette, schon wieder GitHub, frühes „open access“ und Lärm nach Belieben
Nun denn, was hat sich in letzter Zeit so angesammelt?
- Headline Roulette
ein nette Nutzung der offenen Schnittstellen zum australischen Trove Repository: Man hat 10 Versuche um das Erscheinungsjahr eines zufällig ausgewählten Zeitungsartikels zu erraten. - government.github.com
Diese Seite sammelt Fallstudion zu Open Government und Links zu verschiedenen Github Repositories von öffentlichen Einrichtungen. - A Secret Library, Digitally Excavated
Artikel im New Yorker über die Entdeckung einer alten Bibliothek und deren Digitalisierung. Interessanterweise war das erste gedruckte „Buch“ explizit als open access Publikation gedacht:
The paper items preserved in the Library also shed light on the origins of another information technology: print. The Diamond Sutra, one of the most famous documents recovered from Dunhuang, was commissioned in 868 A.D., “for free distribution,” by a man named Wang Jie, who wanted to commemorate his parents.
- Noisli
Manchmal arbeitet es sich ja etwas besser bei etwas Hintergrundgeräuschen. Noisli bietet jede Menge: von Regen, über Lagerfeuer bis hin zur Kaffeehausatmosphäre. - Code4Lib Journal
eine neue Ausgabe des Code4Lib Journals ist auch wieder erschienen:
This issue, born during the long days of summer in the northern hemisphere, focuses on what libraries can bring to the digital table both in terms of special collections and metadata expertise. Articles range from an analysis of a large cross institutional collection of EAD finding aids, to mixing it up with Wikipedia and Authority records, to using Apache Hadoop, Apache Mahout and html5 to further institutional collections storage and discovery.