Welche Daten dürfen in ein KI-Modell fließen?
Drei Kategorien, drei verschiedene Antworten:
Vollständig unbedenklich: Öffentlich zugängliche Informationen, rein technische Daten ohne Personenbezug, vollständig anonymisierte Datensätze. Hier keine DSGVO-Einschränkungen.
Mit Rechtsgrundlage möglich: Kundendaten (mit Vertrag oder berechtigtem Interesse), Mitarbeiterdaten (mit Einwilligung oder für Vertragsdurchführung), pseudonymisierte Datensätze. Rechtsgrundlage muss dokumentiert sein, Zweckbindung muss eingehalten werden.
Besondere Vorsicht: Besondere Kategorien nach Art. 9 DSGVO — Gesundheitsdaten, politische Überzeugungen, biometrische Daten. Hier brauchen Sie explizite Einwilligung oder einen der engen Ausnahmetatbestände. Einfach ins KI-System einspeisen: keine Option.
Die Datenminimiierungs-Frage: Was braucht das Modell wirklich?
Das wichtigste DSGVO-Prinzip bei KI: Geben Sie dem Modell so wenig personenbezogene Daten wie möglich.
Wenn Sie einen Vertrag analysieren möchten, um Fristen zu extrahieren: Müssen die Namen der Vertragsparteien dabei sein? Oft nicht. Schwärzen Sie Namen, Adressen, persönliche Kontaktdaten vor der Übergabe an das Modell. Der Fachbegriff ist Pseudonymisierung — die Originaldaten bleiben in Ihrem System, das Modell bekommt eine gefilterte Version.
Technisch umsetzbar mit einfachen Preprocessing-Schritten in der Daten-Pipeline.
Auftragsverarbeitung — auch bei interner Infrastruktur?
Ja, in einem Fall: Wenn ein externer IT-Dienstleister Ihre KI-Infrastruktur betreibt oder darauf Zugriff hat (Wartung, Administration), liegt technisch eine Auftragsverarbeitung vor. Dann brauchen Sie einen Auftragsverarbeitungsvertrag (AVV) mit diesem Dienstleister.
Betreiben Sie die Infrastruktur selbst mit eigenem Personal: kein AVV nötig. Aber dokumentieren Sie das — klare interne Zuständigkeiten und Zugriffsrechte.
Was KI-Systeme protokollieren müssen
DSGVO-konforme KI-Systeme brauchen Logging. Konkret:
Achtung: Logs enthalten selbst oft personenbezogene Daten und unterliegen ebenfalls der DSGVO.
- Welche Anfragen wurden gestellt? Für Auskunftsanfragen und Auditierbarkeit
- Welche Daten wurden verarbeitet? Für Nachvollziehbarkeit bei Vorfällen
- Wer hat zugegriffen? Zugriffsprotokoll für alle Nutzer des Systems
- Wie lange werden Logs aufbewahrt? Rechtsgrundlage für die Aufbewahrungsdauer dokumentieren
Das Auskunftsrecht bei KI-generierten Inhalten
Eine Frage, die Datenschutzbeauftragte schlaflose Nächte bereitet: Was antworten Sie, wenn ein Kunde oder Mitarbeiter nach Art. 15 DSGVO Auskunft verlangt, welche seiner Daten in Ihrem KI-System verarbeitet wurden?
Technisch sauber gelöst: Ihr System loggt alle Anfragen mit Referenz auf verarbeitete Datensätze. Bei einer Auskunftsanfrage können Sie zeigen, welche Daten wann für welchen Zweck ins Modell geflossen sind.
Wenn das noch nicht umgesetzt ist: Jetzt ist der richtige Zeitpunkt. Nachträgliche Implementierung ist deutlich aufwändiger als von Anfang an mitgedacht.
Der praktische Einstieg: Was Sie jetzt tun sollten
Drei Schritte, die sofort umsetzbar sind:
1. KI-Inventar erstellen: Welche KI-Systeme verarbeiten aktuell personenbezogene Daten? Auch die kleinen Tools — ChatGPT-Plugin im Browser, KI-Textassistent im CRM.
2. Verarbeitungsverzeichnis ergänzen: Für jedes KI-System: Zweck, Rechtsgrundlage, Datenkategorien, Aufbewahrungsdauer, Empfänger. Das ist keine optionale DSGVO-Übung — es ist Pflicht ab 250 Mitarbeitern.
3. Datenminimiierung einbauen: Wo immer möglich, Pseudonymisierung vor der KI-Verarbeitung einführen. Kostet einmal Entwicklungszeit, zahlt sich bei der nächsten Datenschutzprüfung aus.
---
Vollständige Private-AI-Strategie: Von der richtigen Modellauswahl bis zur DSGVO-konformen Architektur: Private AI: KI ohne Cloud-Risiko — Der Leitfaden für deutsche Unternehmen
