Big Data & Hadoop

Big Data
Big Data ist einer der Trends des Jahres 2013
© Dreaming Andy – Fotolia.com

Spätestens seit 2012 ist Big Data eines der neuen Buzzwords im Internet . Immer mehr Kunden fragen Lösungen für das Hosting von Big Data Cluster an. Grund genug das Thema einmal hier im Blog aufzugreifen.

Big Data entsteht aufgrund immer größerer Datenvolumen, die beispielsweise durch das Internet erzeugt werden. Mit steigender Menge wird es immer schwieriger diese Daten verarbeiten und analysieren zu können. Die Datenvolumen, die sich in Bereichen von Exabyte usw. bewegen, werden als Big Data bezeichnet.

Diese können mit Standard-Datenbanken nicht mehr vollständig verarbeitet werden. Hierfür bedarf es spezieller Frameworks wie z.B. Hadoop.

Big Data

Besonders große Datenmengen, die sich im Bereich von Terabyte, Petabyte und Exabytes bewegen, werden als Big Data betitelt. Diese Datenvolumen können herkömmliche Datenmanagement-Tools und Datenbanken nicht mehr verarbeiten. Probleme gibt es dabei nicht nur in der Speicherung, sondern auch in der Suche, Analyse, Verteilung, Visualisierung und die generelle Erfassung dieser Datenmengen. Big Data wird dabei in jeglicher Branche genutzt: Sei es nun in der Wissenschaft, Gesundheitswesen, Wirtschaft oder Social Media Plattformen usw. Aufgrund der erhöhten Erzeugung von maschinellen Daten wie z.B. Telefonprotokolle, Logdateien, Kameras etc. Verdoppelt sich das weltweite Datenvolumen etwa alle 2 Jahre. Unternehmen wie beispielsweise Google, Facebook und Yahoo nutzen Big Data um mit deren Analyse Einsparungspotential zu erkennen, Wettbewerbsvorteile zu erlangen und neue Geschäftsfelder zu entdecken. Diese Vorteile lassen sich nutzen, indem z.B. durch die zeitnahe Auswertung der Daten Online-Werbemaßnahmen optimiert werden können, Unregelmäßigkeiten bei Finanztransaktionen erkannt werden.

Verarbeitung von Big Data mit Hadoop

Da solche Datenvolumen von Standard-Datenbanken nicht verarbeitet werden können, bedarf es für die Verarbeitung spezieller Software-Frameworks. Apache Hadoop stellt so ein Framework da, welches in der Lage ist Big Data zu anhand von intensiven Rechenprozessen zu verarbeiten. Hadoop basiert dabei auf Java und kann die Daten verteilen, skalieren und analysieren.

Wie funktioniert Hadoop?

Hadoop funktioniert im Grunde mit zwei technischen Grundfunktionen. Zum einen wird das Datenvolumen in verschiedene Cluster-Dateien gesplittet und auf verschiedene Rechnersysteme, die alle in einem Verbund stehen, verteilt. Mit der MapReduce-Funktion werden die Daten parallel verarbeitet, auch wenn sich diese an verschiedenen Speicherorten befinden. Die Zwischen- bzw. Endergebnisse der einzelnen Rechenprozesse werden am Ende des Vorgangs zu einem endgültigen Endergebnis zusammengefasst. Um einem evtl.. Datenverlust vorzubeugen speichert Hadoop jede Datei mindestens dreimal als Replikat ab. In regelmäßigen Zeitabständen sendet jeder Rechenvorgang ein Lebenszeichen an den Master, den Kopf des Programms. Dieser Master kann dann beim Ausbleiben eines Lebenszeichens auf eines der Replikate zugreifen und dadurch die Prozessarbeit weiter fortführen.

Fazit

Mit der Verwendung und Analyse von Big Data und dem entsprechenden Möglichkeiten diese überhaupt verarbeiten zu können, stehen Chancen zur Verfügung maschinelle Vorgehen weiter zu beschleunigen, indem Logdateien, Marktanalysen usw. schnell und einfach vorgenommen werden können. Durch Software-Programme wie Hadoop können die drastisch ansteigenden Datenvolumen bewältigt und verarbeitet werden und ein Ende ist nicht in Sicht.

Schreibe einen Kommentar