Die Datenschutzgrundverordnung (DSGVO) wurde bewusst technologieneutral verfasst, es verwundert daher nicht, dass sich die langen Arme der DSGVO auch tief in Prozesse rund um KI erstrecken. Dies drängt sich gewissermaßen auf, denn für die Entwicklung von Large Language Models (LLMs) werden immer größer werdende Datensätze verarbeitet. Die Entwicklung eines KI-Systems kann von der Entwicklungs- bis zur Einsatzphase zweifellos eine Reihe datenschutzrechtlich relevanter Tätigkeiten des Verantwortlichen beinhalten. Herzstück eines jeden KI-Systems ist das zugrundeliegende KI-Modell, das neuronale Netzwerk, das mittels Machine Learning entwickelt wird. Hierzu müssen Trainingsdaten gesammelt und aufbereitet werden und das KI-Modell muss schließlich trainiert werden. Das Sammeln und Aufbereiten der Daten kann eine Verarbeitung im Sinne der DSGVO sein, sofern es sich bei den Trainingsdaten um personenbezogene Daten handelt. Auch eine Anonymisierung personenbezogener Daten vor dem Training ist eine Verarbeitung, weshalb die DSGVO zu beachten ist. Auch in der Einsatzphase, also bei der Verwendung des KI-Systems, ist oft eine Verarbeitung personenbezogener Daten vorgesehen, was ebenfalls datenschutzrechtlich geprüft werden muss. Doch neben diesen offensichtlicheren Verarbeitungen personenbezogener Daten stellt sich die Frage, ob ein KI-Modell, das mit personenbezogenen Daten trainiert worden ist, selbst personenbezogene Daten enthält. Ob das KI-Modell an sich also Gegenstand von Betroffenenrechten nach Art. 12 ff. DSGVO sein kann. Außerdem könnten Aufsichtsbehörden Abhilfemaßnahmen anordnen, um die Rechtswidrigkeit einer Verarbeitung personenbezogener Daten in der Entwicklungsphase eines KI-Modells zu beheben. Dazu gehören Geldbußen, vorübergehende Beschränkungen, die Löschung rechtswidrig verarbeiteter Datensätze (ganz oder teilweise) oder sogar die Löschung des KI-Modells selbst.
Ist ein KI-Modell anonym oder enthält es personenbezogene Daten?
Ob ein KI-Modells selbst anonym ist, hängt davon ab, ob das KI-Modell personenbezogene Daten enthält. Personenbezogene Daten sind nach Art. 4 Nr. 1 DSGVO alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Im Gegensatz dazu ist die DSGVO auf anonyme Daten nicht anwendbar, d.h. für Daten, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person beziehen, oder personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann. Wenn ein KI-Modell (auch) mit personenbezogenen Daten trainiert worden ist, stellt sich die Frage, inwieweit das KI-Modell als Ergebnis dieses Trainings personenbezogene Daten enthält. In diesem Zusammenhang wurde im „Diskussionspapier: Large Language Models und personenbezogene Daten“ vom Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit zur Frage der Anwendbarkeit der Datenschutz-Grundverordnung (DSGVO) auf Large Language Models vertreten, dass die bloße Speicherung eines LLMs keine Verarbeitung im Sinne des Art. 4 Nr. 2 DSGVO darstelle, da in LLMs selbst keine personenbezogenen Daten gespeichert würden. Begründet wird dies damit, dass LLMs auf Basis von Tokens (sprachliche Fragmente) und Embeddings (mathematische Repräsentationen der Beziehungen zwischen Tokens) arbeiten und diese „hochgradig abstrahierte und aggregierte Datenpunkte aus den Trainingsdaten sowie deren Verhältnisse zueinander ohne konkrete Merkmale oder Bezüge über natürliche Personen“ darstellen. In einer neueren Stellungnahme des EDSA „zu gewissen Datenschutzaspekten der Verarbeitung personenbezogener Daten im Zusammenhang mit KI-Modellen“ wurde die These des Hamburgischen Beauftragten für Datenschutz mittlerweile im Ergebnis widerlegt. Der EDSA stellt klar, dass ein mit personenbezogenen Daten trainiertes KI-Modell nicht in allen Fällen als anonym angesehen werden könne. Die behauptete Anonymität muss daher von den zuständigen Aufsichtsbehörden im Einzelfall geprüft werden.
Wie ist die Abgrenzung vorzunehmen?
Ein KI-Modell kann nur dann als anonym betrachtet werden, wenn zwei kumulative Voraussetzungen erfüllt sind: Die Wahrscheinlichkeit der direkten (einschließlich probabilistischer) Extraktion personenbezogener Daten über die Personen, deren Daten für das Training verwendet wurden, und die Wahrscheinlichkeit, dass derartige personenbezogene Daten durch Anfragen vorsätzlich oder nicht vorsätzlich erlangt werden, müssen für jede betroffene Person vernachlässigbar gering sein. Dem ist zuzustimmen, denn Informationen können sich auch auf eine natürliche Person beziehen, wenn sie so kodiert sind, dass die Beziehung nicht unmittelbar ersichtlich ist. KI-Modelle enthalten zwar in der Regel keine direkten Aufzeichnungen personenbezogener Daten, sondern nur Parameter, die probabilistischen Beziehungen zwischen den im KI-Modell enthaltenen Daten darstellen, es besteht jedoch die Möglichkeit, Informationen aus dem KI-Modell abzuleiten. So können unter Umständen statistisch abgeleitete personenbezogene Daten aus dem KI-Modell entnommen werden. Die vorzunehmende Wahrscheinlichkeitsprüfung soll alle Mittel berücksichtigen, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, wobei auch die unbeabsichtigte (Wieder-)Verwendung oder Offenlegung des KI-Modells bedacht werden sollen. Als Kriterien für die Bewertung der Restwahrscheinlichkeit einer Identifizierung sollen, nach Auffassung des EDSA unter anderem, die Merkmale des Trainingsdatensatzes (z. B. Einmaligkeit der Datensätze, Genauigkeit), die für das Training verwendeten Methoden und die Implementierung technischer und organisatorischer Maßnahmen zur Reduzierung der Identifizierbarkeit (z. B. Regularisierungsmethoden, Differential Privacy) berücksichtigt werden. Auch die Ergebnisse von Strukturtests, die die Resistenz gegen Angriffe wie Attribute und Membership Inference, Exfiltration oder Regurgitation von Trainingsdaten prüfen und der Kontext, in dem das KI-Modell freigegeben und/oder verarbeitet wird (z. B. öffentliche Verfügbarkeit versus interner Gebrauch) sowie zusätzliche Informationen, die einer anderen Person zur Identifizierung zur Verfügung stehen könnten, müssen beachtet werden. Verantwortliche müssen die getroffenen Maßnahmen zur Reduzierung der Identifizierungswahrscheinlichkeit sowie die möglichen Restrisiken dokumentieren, nicht zuletzt auch deshalb, weil insbesondere diese Dokumentation von den zuständigen Behörden berücksichtigt werden soll, um die Anonymität eines KI-Modells zu bewerten. Kann die zuständige Behörde nach Prüfung der Dokumentation und der implementierten Maßnahmen die Anonymität nicht bestätigen, kann davon ausgegangen werden, dass der Verantwortliche seinen Rechenschaftspflichten gemäß Artikel 5 Abs. 2 DSGVO nicht nachgekommen ist. Eine sorgfältige Dokumentation ist daher dringend zu empfehlen.
Rechtsanwalt Anton Schröder
Newsletter abonnieren