Viele Big Data Projekte setzen Spark ein. Spark ist in Java und Scala implementiert, so dass das API von Spark diese Sprachen bestens unterstützt. Python ist andererseits die erste Wahl, um Daten zu analysieren, und wird von Spark ebenfalls unterstützt.
Die wissenschaftliche Community hat in Jahrzehnten eine Vielzahl von hoch-optimierten Bibliotheken für Numerik, Machine Learning u.v.m. entwickelt. IPython/Jupyter Notebooks sind ein beliebtes Werkzeug für die Entwicklung.
Alles in allem hat Python einige Highlights zu bieten, die dem Java-Entwickler schon mal zum Staunen bringen können.
Welche Sprache darf's denn nun sein im nächsten Data Sciene Projekt?
Wir haben eine Anwendung entwicklet, um Daten des des öffentlichen Nahverkehrs in Stuttgart auszuwerten. Mit Machine Learning Algorithmen können wir Verspätungen und andere Störungen vorhersagen. Die Tool-Kette besteht aus Celery, ElasticSearch, Kibana, Jupyter Notebooks und Bokeh. Analysen und Vorhersagen haben wir mit sklearn erstellt.
Die erste reine Python-Implementierung haben wir dann auf PySpark und auf Java übertragen, wobei die MLlib von Spark zum Einsatz kam.
In diesem Vortrag berichten wir darüber, wie sich Java und Python in einem Big Data Projekt mit Spark schlagen.
Es geht nicht nur um Performance, sondern auch um die APIs, die Funktionalität, Bibliotheken und die Werkzeuge von Analyse bis
zu Visualisierung. Wir möchten Ihnen damit zeigen, warum Python im Big Data Bereich so viele Fans hat und warum Sie Python neben Java durchaus in die engere Wahl nehmen sollten.
Dr. Frank Gerhardt
Dr. Frank Gerhardt entwickelt schon seit 1995 mit Java, hauptsächlich mit Eclipse, RCP, OSGi, im Mobile Bereich und seit zwei Jahren in Big Data Projekten. Seine Firma Gerhardt Informatics besteht aus einem 10-Mann-Team. Frank Gerhardt ist Mitgründer der JUGS und findet es ein bisschen komisch, in 2016 darüber zu sprechen, wie gut sich Python für Data Science eignet, im Gegensatz zu Java.