Methoden für eine datenschutzfreundliche Analyse

5 von 5 Sterne, 1 Bewertung

Sensibelchen müssen draußen bleiben!

Datenschutz, personenbezogene Daten

Persönliches hat bei Big Data Analysen nichts zu suchen. Das bestimmt das Bundesdatenschutzgesetz (BDSG). Demnach muss schon vor der Analyse sichergestellt sein, dass keine sensiblen Informationen, wie Name und Wohnort in die zu untersuchenden Datenmengen aufgenommen werden. Aber wann ist eine Analyse datenschutzkonform, wo liegen die Tücken versteckt und was müssen Unternehmen beachten?

Es gibt heute unzählige Quellen, um Daten zu ermitteln: Social Media, Online-Transaktionen, das eigene CRM-System oder soziale Statistiken. Grundsätzlich nutzen Unternehmen diese Informationen, um Analysen zum Verhalten der Personen durchzuführen und so eigene Produkte oder Dienstleistungen zu verbessern. Dafür sind aber persönliche Daten nicht notwendig und laut BDSG dürfen die auch nicht untersucht werden.
Personenbezogene Daten sind laut Gesetz „Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person“. Bestimmbar wird eine Person dann, wenn sie direkt oder indirekt identifiziert werden kann, insbesondere wenn ihr eine Kennnummer zugeordnet wird oder ein spezifisches Element (z.B. Haarfarbe, Religion oder Klubmitgliedschaften).

Der gläserne Kunde

Um überhaupt in den Genuss zu kommen, solche Daten untersuchen zu können, müssen sich deutsche Unternehmen an die vorgeschriebenen Regeln halten. Sie brauchen eine konkrete Einwilligung des Betroffenen und sie müssen den Zweck der Auswertung angeben. Damit wird sichergestellt, dass der Mensch nicht zum „gläsernen Kunden“ wird. Um auch einen Missbrauch der Daten zu vermeiden, müssen die Informationen um die persönlichen Nutzerattribute mit verschiedenen Methoden bereinigt werden und zwar bevor sie im Data Warehouse gespeichert werden. Dazu müssen die sensiblen Angaben anonymisiert oder pseudonymisiert werden.

Direktbezug unmöglich machen

Werden die Daten so verändert, dass die Datensätze nicht mehr mit einer Person in Verbindung zu bringen sind, spricht man von Anonymisierung. Dabei werden primäre und sekundäre Identifikationsmerkmale unterschieden. Als primär gelten beispielsweise Name, Adresse, Konto- oder Kundennummer. Diese Informationen haben einen direkten Bezug zu einer Person. Anders verhält es sich mit sekundären Identifikationsmerkmalen. Das sind Attribute mit denen allein sich für gewöhnlich keine Person bestimmen lässt. Liegen jedoch mehrere Attribute vor, ist das in vielen Fällen durchaus möglich. Ein ungewöhnlicher und seltener Beruf, oder eine kleine Gemeinde als Wohnort reichen als Grundlage aus, um einen Betroffenen schnell zu ermitteln.

Bei der Pseudonymisierung wird sichergestellt, dass Dritte nicht dazu in der Lage sind, aus vorliegenden Datensätzen einen Bezug zu einer realen Person herzustellen. Dazu werden Identifikationsmerkmale, wie Name oder Personenkennzahlen durch ein Pseudonym (Kennzahl) ersetzt. Verantwortliche haben somit die Möglichkeit den Betreffenden zu ermitteln. Dritten bleibt diese Information aber verschlossen. Deshalb wird die Pseudonymisierung vor allem im medizinischen Bereich angewandt. Patientendaten sind beispielsweise für die Forschung durch ein Pseudonym geschützt. Behandelnde Ärzte können trotzdem jederzeit auch die Identitäten feststellen, die zu den Daten gehören.

Verallgemeinern mit k-Anonymität

Ermöglichen diese Methoden nicht den geforderten Datenschutz, kann die k-Anonymität von großem Nutzen sein. Diese Vorgehensweise geht allerdings mit einem Informationsverlust einher.1

Es geht darum, einen Bezug der anonymisierten Daten auszuschließen. K steht für eine Zahl. K-Personen haben durch diese Methode die gleiche Kombination von sekundären Identifikationsmerkmalen und sind somit nicht voneinander unterscheidbar. Die Tabelle wird als k-anonym bezeichnet, wenn es zu einem Datensatz mindestens einen Zwilling gibt (hinsichtlich der sekundären Identifikationsmerkmale). Normalerweise liegt K zwischen 2 und 10, um eine ausreichende Datenanonymisierung zu gewährleisten.

Dafür müssen zuerst alle Attribute einer Person identifiziert werden, die einem Dritten potentiell bekannt sein könnten – sogenannte „Quasi-Identifier“2. Das sind in der Regel Geburtsdatum, Alter, Beruf, Wohnort, Geburtsort etc. Diese Attribute müssen verallgemeinert werden. Das stellt sicher, dass es sogenannte Datenzwillinge gibt, die eine genaue Identifikation unmöglich machen. Wird also festgelegt, dass k=5 ist, müssen fünf Datensätze dieselben Informationen in den Quasi-Identifiern aufweisen. Beispielsweise setzt man statt des genauen Wohnortes, den Landkreis ein und statt eines genauen Alters einen Grobwert (> 40). Dadurch entstehen mehrere Datensätze mit denselben Informationen.

Welche die passende Methode ist, kann nicht pauschal festgelegt werden. Fest steht aber: In einem Data Warehouse dürfen grundsätzlich keine personenbezogenen Daten gespeichert, verarbeitet oder auf sonstige Weise genutzt werden.3 Das wird durch verschiedene Anwendungen abgesichert.

Was Unternehmen beim Transfer von persönlichen Informationen in ein Data Warehouse beachten müssen, erfahren Sie hier.

__________________________________________

[1] Maroš Boroviak, „Anonymisierung von personenbezogenen Daten unter Einhaltung gesetzlicher Vorschriften und Nutzung im Testbetrieb“

[2]  http://www.tmf-ev.de/News/articleType/ArticleView/articleId/1270.aspx

[3] https://www.datenschutz-mv.de/datenschutz/publikationen/informat/dwh/dwh.pdf

Kommentare

5 von 5 Sterne, 1 Bewertung

Es gibt noch keine Kommentare

Kommentar hinterlassen

Haben Sie Fragen oder Anregungen?

Schreiben Sie uns an
info@businessheute.de