Der CIO, die Daten und der kleine gelbe Elefant

Wenn Hadoop nicht passt, wird es passend gemacht

Hadoop, gelber Elefant

Der Hype um Hadoop ist fürs Erste vorbei. Laut mehreren aktuellen Studien sind Unternehmen gar nicht so angetan von der Open Source Lösung.1 Das liegt vor allem an fehlendem Know-how. Darüber hinaus zeigt das Framework je nach Nutzung diverse Schwachstellen. Wie können Anwender trotzdem von den Möglichkeiten des Frameworks profitieren?

Hadoop ist eine Open-Source Lösung, die auf Java basiert und sich anbietet, um große Datenmengen skalierbar und parallel verteilt verarbeiten zu können.2 Das Cluster-Datei-System HDFS verteilt die Daten auf verschiedene Rechner eines Netzwerks. Mit dem implementierten MapReduce-Algorithmus können die Daten an ihrem Ablageort verarbeitet werden. Die Daten werden dafür auf mehrere Map-Prozesse verteilt und zum Schluss im Reduce-Prozess wieder zusammengefügt. Dieser Vorgang kann von jedem Unternehmen unabhängig von seiner Hardware durchgeführt werden. Ein großes Plus im Vergleich zu kostspieligeren Alternativen.

Hadoop birgt viele Herausforderungen

Trotzdem ist die Begeisterung für die Open-Source-Lösung in den vergangenen Jahren etwas gesunken. Das liegt zum Großteil auch an dem generellen Abschwung der Big-Data-Euphorie. Die meisten Firmen wissen nach wie vor nicht, was sie mit den Daten anstellen, geschweige denn, wie sie zu sinnvollen Ergebnissen kommen sollen.3 Auch Hadoop stellt Anwender vor große Herausforderungen. Denn ohne das entsprechende Fachwissen geht hier gar nichts.

1.    Zu kompliziert
Hadoop ist nichts für Anfänger. Das Framework stellt, wie der Begriff schon impliziert, nur den Rahmen, damit der ITler drumherum seine eigene Programmierung aufsetzen kann. Es werden immer neue Tools entwickelt, um Profis ihre Arbeit zu erleichtern. Nach wie vor fehlen aber Werkzeuge um das auch Anwendern mit weniger Know-how zu ermöglichen. Zentrale Fragen sollten also lauten: Wie soll die Software genutzt werden, von wem und welchen Mehrwert bringt es uns?

2.    So günstig ist es gar nicht
Die Open-Source-Lösung ist eine günstige Alternative zu lizenzierten Angeboten.4 Aber: Nur wer Hadoop nutzt, kann Geld sparen. Wer seine gesamte Infrastruktur auf das Framework umstellt und das obwohl keinerlei Erfahrung und Wissen dazu vorhanden ist, wird keinen Mehrwert aus der Implementierung gewinnen können. Die Mitarbeiter müssen erst entsprechend geschult werden. Deshalb gilt hierbei: Hadoop an sich ist günstig – ohne Mitarbeiter, die es nutzenbringend anwenden können, ist das Framework aber teurer als jedes andere.

3.    Mängel beim Faktor Sicherheit
Probleme ergeben sich mit Hadoop hinsichtlich der IT-Sicherheit. Die Software bringt Unternehmensdaten an einem zentralen Ort zusammen. Cyberkriminelle können dadurch den gesamten Bestand auf einmal auslesen und haben deshalb leichtes Spiel, wenn es darum geht, Informationen aufzufinden und für ihre Zwecke zu nutzen. Welche Schutzmechanismen etabliert werden, ist jedem Anwender selbst überlassen. Am besten werden die Hadoop-Daten geprüft und klassifiziert, um hinterher ein Bedrohungsmodell für sensible Informationen zu schaffen. Des Weiteren müssen geschäftskritische Werte in den Daten identifiziert und Schutzmethoden, wie die Verschlüsselung, angewandt werden.

4.    Kleine Info, viel Arbeit
Dateien mit weniger als 64 Megabyte sind für Hadoop klein.5 Zu klein, denn „[u]m die Daten verteilt speichern zu können, werden sie in Blöcke unterteilt […] und auf den Knoten des Hadoop-Clusters verteilt.“6 Werden 10.000 kleine Kilobyte Dateien auf die Knoten verteilt, entstehen viel zu viele Aufgaben, die je von einem Map-Prozess durchgeführt werden. Das frisst Arbeitskapazitäten.

Wie Sie Ihre Hadoop-Plattform trotz aller Herausforderungen effizient nutzen und weiterentwickeln können, lesen Sie in diesem neuen Bericht.

Kommentare

Noch nicht bewertet

Es gibt noch keine Kommentare

Kommentar hinterlassen

Haben Sie Fragen oder Anregungen?

Schreiben Sie uns an
info@businessheute.de