Hatori Kibble

Jo eh…

Posts Tagged ‘git

Kursreihe „Data Science“ auf Coursera

with one comment

Das neue Arbeitsfeld des „data librarian“ war ja hier im Blog schon öfter Thema. Aber wie geht man eigentlich mit diesen Daten um? Auf Coursera gibt es eine Reihe von verschiedenen MOOCs zum Thema:

Johns Hopkins University – Data Science
In this course you will learn:

Formulate context-relevant questions and hypotheses to drive data scientific research
Identify, obtain, and transform a data set to make it suitable for the production of statistical evidence communicated in written form
Build models based on new data types, experimental design, and statistical inference

Die Reihe besteht aus 9 Modulen plus einem Abschlussprojekt. Den ersten Kurs habe ich bereits hinter mich gebracht:

The Data Scientist’s Toolbox

In this course you will get an introduction to the main tools and ideas in the data scientist’s toolbox. The course gives an overview of the data, questions, and tools that data analysts and data scientists work with. There are two components to this course. The first is a conceptual introduction to the ideas behind turning data into actionable knowledge. The second is a practical introduction to the tools that will be used in the program like version control, markdown, git, GitHub, R, and RStudio.

Dieses Modul ist ein guter Einstieg in die Thematik und viele der angesprochenen Werkzeuge wie git und GitHub lassen sich ja auch in anderen Kontexten nutzen.

R Programming

In this course you will learn how to program in R and how to use R for effective data analysis. You will learn how to install and configure software necessary for a statistical programming environment and describe generic programming language concepts as they are implemented in a high-level statistical language. The course covers practical issues in statistical computing which includes programming in R, reading data into R, accessing R packages, writing R functions, debugging, profiling R code, and organizing and commenting R code. Topics in statistical data analysis will provide working examples.

Auch das Erstellen von Statistiken und das Visualisieren von Daten betrifft einen größeren Kreis von Bibliothekarinnen. Die Programmiersprache R ist mir in letzter Zeit öfter untergekommen und dieser Kurs ist eine gute Gelegenheit da einmal reinzuschnuppern. Allerdings ist dieses Modul wesentlich anspruchsvoller als der vorherige. Ich bin gerade in Woche 3 und grüble über der Programmieraufgabe.

Mal sehen wie’s weitergeht und welche Module ich noch machen werde.

Ein wichtiger Tipp noch: Coursera versucht natürlich kostenpflichtige Zertifikate für diese Kurse zu verkaufen. Wenn man stattdessen mit einem „Statement of Accomplishment“ zufrieden ist, kann man die MOOCs auch gratis absolvieren.

 

Written by Peter

Juni 16, 2015 at 10:00 am

Veröffentlicht in Programmierung

Tagged with , , , , ,

Neulich im Feedreader (Teil X): #bibtag14 Vorbereitung, Raspberry Pis und die Anderen auf Twitter sind anders

leave a comment »

Yeah, das erste kleine Jubiläum dieser bezaubernden Rubrik.. 😉

Loughborough University’s Library Systems Team investigated two potential uses for Raspberry Pis. The first use to be identified for investigation was using the Raspberry Pi as a replacement for the existing OPAC hardware. While it met a majority of the requirements there were issues with the responsiveness to user input at certain times. The second use for Raspberry Pis investigated was to provide a number of digital signs to display details about resource bookings and the availability of PCs in IT labs around campus. The Raspberry Pi demonstrated that it was ideally suited to this task.

A couple things about this project strike me as imminently brilliant. (Certainly brilliant enough to merit more than 281 followers, the account’s current and inexplicably modest following). First off, it’s a good, accessible demonstration of what the DPLA does best: (1) Collect and surface diverse, otherwise-siloed historical materials from libraries, museums and universities around the country, and (2) Make those records available to programmers, academics and the general public. Second, it’s hilarious. Look at these cheerful cats!

That actually makes Historical Cats a good metaphor for DPLA in general, since the project’s goal is to merge old-school library, museum and archive holdings with digital sensibilities.

  • GrepTweet
    Schönes kleines Tool um Tweets zu durchsuchen und selektiv zu exportieren
  • Random Tweet
    zeigt einfach eine zufällige Twitter-Nachricht an (gibt es auch für Bücher). Mir gefällt ja die Begründung der Entwicklerin:

We often think that people use social networks the same way that we use social networks. This is intended as a live demo that most people on twitter are not like you.

 

 

Written by Peter

Mai 17, 2014 at 10:13 am

Mehr Bücher (inkl. einem Atlas) auf GitHub…

leave a comment »

Vor einiger Zeit hatte ich ja über das kollaborative Erstellen von Texten mit GitHub geschrieben. Unlängst habe ich wieder ein paar schöne Beispiele gefunden: z.B.: Das „Modern Perl Book“. Ursprünglich wurde dieses Projekt 2009 gestartet, um die neuen Features von Perl 5 etwas bekannter zu machen:

Remember, however, the Internet rarely forgets. A Perl tutorial which represented the best version of Perl from 1991 may still be around — and thanks to search engines, it may be the most highly recommended tutorial anywhere. Eighteen years later, Perl’s moved on. We’ve learned a lot since then.

The best way to write Perl programs in 1991 or 2001 or 2004 isn’t necessarily the best way to write Perl programs in 2009. It’s time to discuss and document and disseminate all of the wisdom of the greater Perl community. It’s time to talk about modern Perl.

Der Text des Buches wird auf GitHub gehostet und kann dadurch von jeder GitHub-Nutzerin/jedem GitHub-Nutzer verbessert werden. 46 Leute haben diese Gelegenheit auch genutzt und so listet die Commit-History bereits 961 Beiträge.

Die Kapitel liegen als reine Textdateien (im POD-Format) vor. Dies erleichtert einerseits die Änderungsverwaltung, anderseits ist das verwendete Format ein guter Ausgangspunkt für Konvertierungen. Man kann sich also selbst aus dem Quelltext eine PDF- oder EPub-Version bauen.

Eine Ideensammlung (daher etwas unstrukturiert) zum Thema kollaboratives Bücherschreiben gibt es auch bei den „GitHub Official Teaching Materials“.

Aber dieses Verfahren wird jetzt nicht nur bei kleinen Community-Projekten eingesetzt, mit „Atlas“ (Website, Blog) beteiligt sich mit „O’Reilly“ auch ein großer Verlag daran. Diese neue Plattform klingt erstmal ziemlich interessant:

  • The platform is based on Git (version control), but for text content. In other words, it uses all of the same processes that we developers use (eg. commits, reverts, branches, pull requests, etc.), but now it’s intended to be used for written content instead of for code, to make it easier for writers to collaborate (or just to keep track of different drafts and revert to older versions of specific parts of the book as needed).
  • The platform includes a web-based text editor for editing the actual content of your book. You can either do all your writing in there, or copy-paste from Word, and apply formatting using their GUI or the mark-up language AsciiDoc. The mark-up is designed so that regardless of how you choose to apply your formatting, it can properly be converted to and should look good in all formats (print, e-book, desktop, and mobile).There are some screenshots of what the web editor looks like here.
  • Once you’re ready to publish, the one source file for your book that you’ve been working on can generate a print book format, an e-book format, a desktop browser format, and a mobile-optimized browser format. What I’m not sure about is whether you’re still responsible for the distribution of these various formats yourself (ie. you need to host the websites, secure a publishing deal, etc.) or whether O’Reilly and the platform also provide for that.

Mehr Informationen (inkl. einem kleinem Video) zu Atlas gibt es auf dieser Seite, einige mit „Atlas“ erstellte Bücher kann man bereits online lesen.

Written by Peter

August 19, 2013 at 7:15 am

Veröffentlicht in Allgemein, E-Books, Perl, Scripts, Soziale Netzwerke

Tagged with , , , , , ,

GitHub – die OctoCat kann mehr als nur Quellcode

with 2 comments

OctoCat Logo

OctoCat Logo

GitHub, eine kollaborative Versionsverwaltung gibt es jetzt seit nunmehr über 5 Jahren. In letzter Zeit kommen mir aber immer mehr Anwendungen unter, die über das reine Verwalten von Quellcode hinausgehen.
Bei der InetBib-Tagung etwa wurde über die kollaborative EHEC Analyse berichtet und bei der SIGINT ist ein GitHub-Repository eine Art Wiki-Ersatz.

Aber natürlich lässt sich jede Art von Texten damit verwalten.

Ein relativ aktuelles Beispiel ist das HoTT Buch, ein Mathematik Lehrbuch zur Homotopien Typen Theorie (was immer das dann auch genau ist..)

29 MathematikerInnen haben da innerhalb eines Jahres ein 600 Seiten Buch geschrieben. Einerseits ein schönes Projekt, andererseits ist der kollaborative Ansatz über Git explizit auch als Strategie im Sinn von „Open Science“ gedacht:

However, there is something else we can do. It is more radical, but also more useful. Rather than letting people only evaluate papers, why not give them a chance to participate and improve them as well? Put all your papers on github and let others discuss them, open issues, fork them, improve them, and send you corrections. Does it sound crazy? Of course it does, open source also sounded crazy when Richard Stallman announced his manifesto. Let us be honest, who is going to steal your LaTeX source code? There are much more valuable things to be stolen. If you are tenured professor you can afford to lead the way. Have your grad student teach you git and put your stuff somewhere publicly. Do not be afraid, they tenured you to do such things.

So we are inviting everyone to help us improve the book by participating on github. You can leave comments, point out errors, or even better, make corrections yourself! We are not going to worry who you are, how much you are contributing, and who shall take credit. The only thing that matters is whether your contributions are any good.

Auch an anderer Stelle wird für den Einsatz von GitHub im akademischen Bereich plädiert:

So slap an open license on that syllabus, that assignment, that article draft, that grad school seminar paper, that primer you wrote for your students that you wish was in the textbook, and push it to GitHub! Then fork someone else’s project, make it better, and send them a pull request. Push, pull, fork — the open-source way to create and curate human knowledge.

GitHub ist aber nur eine Art Oberfläche für die Versionsverwaltung Git (entwickelt von Linus Torvalds, dadurch hat das System natürlich einiges an nerd-credibility…). Ein anderer Ansatz, um Git für das gemeinsame Schreiben von Texten zu verwenden ist SciGit (Infobib hat schon mal darüber berichtet).
So viel scheint sich da allerdings nicht zu tun und die Feature Demonstration auf Youtube ist etwas unleserlich, hat irgendwer schon damit gearbeitet?

Auch ein review, den ich auf Google+ gefunden habe, ist nicht sehr enthusiastisch. Mal sehen, wie und wohin sich SciGit noch entwickelt.

GitHub sollte man aber auf jeden Fall in Betracht ziehen, wenn man  kollaborativ Texte erstellen will. Man kann sich dadurch nicht nur die Arbeit in fixen Teams erleichtern, sondern gibt durch die Git-Funktionalitäten auch anderen eine einfache Möglichkeit beizutragen.

 

Written by Peter

Juni 26, 2013 at 10:34 pm

Veröffentlicht in Software, Soziale Netzwerke

Tagged with , ,