In unserer neuen Podcast Episode ist Philipp Brunenberg zu Gast. Ein renommierter Big Data Experte und Data Science Berater, welcher uns faszinierende Einblicke in die Welt der Datenanalyse und Technologieoffenbarungen gewährt.
Philipp Brunenberg: Vom Freelancer zum Developer Educator
Philipp erzählt von seinem Werdegang: Nach seinem Studium der Informatik begann er als Freelancer im Bereich Big Data Software Engineering und durchlief diverse Projekte, wodurch er umfangreiche Erfahrungen in verschiedenen Technologien und Problemstellungen sammelte. Aktuell hat er sich auf Developer Education spezialisiert, indem er Coachings, Videokurse und Workshops anbietet, um Entwicklern die nötigen Skills für erfolgreiche Big Data-Projekte zu vermitteln.
Die Wahl von Apache Spark
Die Entscheidung für Apache Spark als Haupttool für Big Data-Analysen war eher organisch: Es war bereits weit verbreitet und wurde zu seinem Steckenpferd. Philipp erklärt, wie er mit Spark tief in Projekte eingetaucht ist, angefangen von der automatisierten Nährwertberechnung für eine Rezeptseite bis hin zur Analyse von Millionen von Transaktionen für ein Aktienhandelsunternehmen.
Die Definition von Big Data
Auf die Frage nach einer konkreten Definition für Big Data weist Philipp darauf hin, dass es weniger um spezifische Zahlen geht, sondern vielmehr darum, wenn die Analyse nicht mehr von einer einzelnen Maschine bewältigt werden kann oder wenn die Anfragegeschwindigkeit eine parallele Verarbeitung erfordert.
Empfehlungen für Big Data-Projekte
Philipp unterstreicht die Bedeutung der Technologieauswahl für Big Data-Projekte. Er empfiehlt, verschiedene Technologien auszuprobieren und in größeren Projekten externe Beratungen hinzuzuziehen, um fundierte Entscheidungen zu treffen und so mögliche Kosten oder Verluste zu vermeiden.
Philipp's Engagement auf YouTube und die Zukunftsvision
Er erläutert sein Engagement auf YouTube, wo er sein Wissen über Technologien wie Apache Spark teilt. Sein Ziel ist es, auch in Form von Workshops und Coachings Entwicklern das nötige Handwerkszeug für hochqualitative Arbeit in Big Data-Projekten zu vermitteln.
Die Komplexität der Code-Basis
Philipp vergleicht die Entwicklung von Software mit dem Bau eines Hauses. Er betont, dass viele Projekte oft wie ein Haus mit einem schiefen Fundament sind. Dabei wird versucht, auf einem instabilen Grund weitere Strukturen aufzubauen. Ein konkretes Beispiel aus einem Graph-Datenbank-Projekt verdeutlichte die Problematik: Ein Skript von mehreren tausend Zeilen Code, das zentral für alle Prozesse war, erwies sich als nicht wartbar und kaum veränderbar, ohne Nebenwirkungen zu riskieren.
Mangel an Software Engineering Practices
Ein Hauptthema ist der Mangel an Software Engineering Practices. Er hebt die Notwendigkeit hervor, nicht nur darauf zu achten, dass ein Projekt funktioniert, sondern auch sicherzustellen, dass es strukturiert und wartbar bleibt. Dieses Defizit führt oft dazu, dass Änderungen schwierig sind und die Wartungskosten steigen.
Die Lösungsansätze
Philipp schlägt drei Säulen vor, um diese Probleme anzugehen: Vor-Ort-Kurse, One-on-One-Coachings und On-Demand-Videokurse. Besonders betont er die Effektivität von One-on-One-Coachings, die eine Kombination aus Videokursen und direktem Feedback bieten. Dies ermöglicht den Teilnehmern, ihr Wissen direkt anzuwenden und verbessert ihre Fähigkeiten durch individuelle Betreuung.
Die Zukunft von Big Data und Data Science
In Bezug auf die Entwicklungen im Bereich Big Data und Data Science sieht Philipp eine wachsende Bedeutung von „AI as a Service“. Während AI-basierte Dienste eine zunehmend größere Rolle spielen, bleibt die Qualität der Daten ein entscheidender Faktor. Er betont, dass trotz fortschrittlicher Algorithmen die Datenqualität nach wie vor den Erfolg von Analysen und Modellen bestimmt.