Wie Data Scientists Big-Data-Analysen meistern

4 von 5 Sterne, 3 Bewertungen

Kreativer Goldsucher mit Hackerqualitäten

Data Scientist

Selbst kleine und mittlere Unternehmen kommen heute in den Genuss Daten günstig und mit wenig Aufwand zu analysieren und so für ihre wirtschaftlichen Zwecke zu nutzen. Daten gibt es genug. Die weltweiten Server sind voll davon. Aber Fakten alleine reichen heute nicht mehr, jemand muss auch die richtigen Schlussfolgerungen ziehen. Data Scientists nennt man die eierlegenden Wollmilchsäue, die aus Daten echtes Gold machen. Aber was genau sind eigentlich die Werkzeuge eines Data Scientists und warum sollte dieser Posten in keinem Unternehmen fehlen?

Laut einer Bitkom-Studie1 zum Arbeitsmarkt für IT-Kräfte wünschen sich 44 Prozent aller befragten ITK-Unternehmen Fachpersonal im Bereich Big Data. Viele beschränken sich auf Standardanalysen, auch weil es an Kompetenzen im eigenen Haus fehlt. Einen Mehrwert hat der Data Scientist vor allem, weil er nicht nur Analysen zu gegenwärtigen oder vergangenen, sondern auch zu künftigen Handlungen und Informationen durchführen kann. Um Trends, Kundenreaktionen etc. aufzuspüren und richtig zu interpretieren, ist ein tieferer Einblick in die Datenberge notwendig.

Ein kleines bisschen Hacker

Der Data Scientist ist ein Hybrid aus Mathematiker, Informatiker und Wirtschafter. Im Speziellen braucht es auch ein Verständnis für Statistik, ausgeprägte Wissbegier, ein breites Wissen über Datenbanken im Allgemeinen und Basiswissen in Scriptsprachen, im besten Fall Python oder R. Als i-Tüpfelchen kann der Data Scientist auch mit Pseudo-Codes umgehen und Algorithmen und Abfragen für „normale“ Menschen erklären2. Alles in allem muss er ein kleines bisschen Hacker sein, nur ohne den kriminellen Hintergedanken.

Die richtige Umgebung schaffen

Für Big-Data Analysen bieten sich generell Technologien an, die zu den „Advanced-“ oder „Discovery-Analytics“ gehören. Darunter fallen Data-Mining-Tools, fortgeschrittene Techniken zur Datenvisualisierung und zur Verarbeitung und Analyse von Text, Audio- und Videodateien. Insbesondere durch die vielen Daten aus Webdiensten können mithilfe der Tools Muster im Benutzerverhalten gesucht werden, beispielsweise beim Online-Shopping oder einem Websitebesuch.

„In-Memory-Analytics“ für schnelle Entscheidungen

Den Datenmengen entsprechend werden auch analytische Datenbank- und Infrastruktursysteme benötigt, wie „In-Memory-Analytics“. Hierbei laufen die Abfragen über den Arbeitsspeicher (RAM)3. Letztere werden immer günstiger, weshalb das Konzept Kostenvorteile für Unternehmen hat. Darüber hinaus sind die Reaktionszeiten kürzer, was es Anwendern ermöglicht die Entscheidungen für die entsprechenden Unternehmensbereiche schnell zu treffen. Zum Beispiel unterstützt Linux (Kernel 3.0) auf einer x86-64-Hardware theoretisch bis zu 128 TB. Das heißt, hier können große Datenmengen im RAM des Computers zwischengespeichert werden. Darüber hinaus senkt die In-Memory-Analyse auch die IT Kosten, indem sie verhindert, dass pre-aggregierte Daten (wie OLAP-Würfel) gespeichert werden.

Infografik: Data Scientist

 Sicheres und günstiges Analysekonzept

Für Auswertungen, die mit Bonitätsbeurteilungen, Betrugserkennung oder Risikomanagement zu tun haben, eignen sich „In-Database-Analytics“. Ein Data Warehouse wird dabei auf eine analytische Datenbank-Plattform aufgesetzt4. Funktionalitäten lassen sich parallel verarbeiten, partitionieren und für die Analyse optimieren. Sowohl die Datenerfassung als auch die Analyse werden damit beschleunigt. Unternehmensdaten werden außerdem sicherer verarbeitet weil sie das Warehouse nicht verlassen. Insgesamt hilft das Konzept, künftige unternehmerische Risiken und Chancen vorherzusagen sowie Trends und Unregelmäßigkeiten zu erkennen – die Entscheidungen werden effizienter und kostengünstiger.

Hadoop oder nicht Hadoop?

Die Plattform für Big Data Analysen ist meist Hadoop. Die Infrastruktur des Open-Source Frameworks erlaubt die parallele Verarbeitung auf mehreren Knoten. Allerdings sollte die IT-Abteilung vorher genau festlegen, welche Ansprüche gefordert sind. Grundsätzlich ist Hadoop am besten geeignet, wenn es sich um große Datenmengen handelt, die analysiert werden sollen5. Für Online Umgebungen und Echtzeit-Analysen hingegen eignet sich Hadoop eher weniger.

Individuelle Lösungen aufbauen

Grundsätzlich sollte jedes Unternehmen eine maßgeschneiderte IT-Architektur für Big Data Analysen anwenden. Der Data Scientist muss wissen, auf welche Fragestellungen eine Antwort gefunden werden soll, um die entsprechenden Produkte und Lösungen zusammenzustellen. Hierbei stehen meist Effizienz und Kosten im Mittelpunkt.

Wie Sie Ihre Business-Analysen schnell, einfach und effizient gestalten können, zeigt diese Infografik:

Pflichtfelder sind mit einem Stern (*) markiert.

Anrede

Benutzeranmeldung

Geben Sie Ihre E-Mail-Adresse und Ihr Passwort ein, um sich anzumelden. Pflichtfelder sind mit einem Stern (*) markiert.

Kommentare

4 von 5 Sterne, 3 Bewertungen

Es gibt noch keine Kommentare

Kommentar hinterlassen

Haben Sie Fragen oder Anregungen?

Schreiben Sie uns an
info@businessheute.de

Ähnliche Artikel