KI-Entwicklung

EU AI Act: Compliance-by-Design für KI-Entwickler — Was von Anfang an mitgedacht werden muss

Nachträgliche EUAIA-Compliance in ein bestehendes KI-System einzubauen ist teuer und fehleranfällig. Was von der ersten Zeile Code an mitgedacht werden sollte.

9 Min. LesezeitAutor: Martin TomczakAktualisiert: 08.05.2026

EU AI Act Compliance by Design für KI-Entwickler

Was den EUAIA für Entwickler besonders macht

Anders als die DSGVO regelt der EUAIA nicht primär Datenschutz, sondern System-Eigenschaften. Er schreibt vor, wie ein KI-System gebaut sein muss — nicht nur was damit gemacht werden darf.

Das bedeutet: EUAIA-Compliance ist eine Architektur-Entscheidung, keine Legal-Entscheidung. Legal klärt, ob Ihr System unter Hochrisiko fällt. Aber wie die Compliance implementiert wird — das liegt bei Ihnen als Entwickler.

Logging und Audit-Trail: Die technische Grundlage

Art. 12 EUAIA schreibt vor, dass Hochrisiko-KI-Systeme automatisch Logs generieren müssen, die "insbesondere die Rückverfolgbarkeit der Funktionsweise des KI-Systems" ermöglichen.

Was das technisch bedeutet:

Jede Inference-Anfrage an ein Hochrisiko-System muss protokolliert werden:

```

{

"request_id": "uuid",

"timestamp": "ISO 8601",

"user_id": "anonymized",

"input_hash": "sha256 des Inputs",

"model_version": "v2.3.1",

"output_summary": "Kategorie / Entscheidung",

"confidence_score": 0.87,

"featureweights": {"factora": 0.4, "factor_b": 0.3}

}

```

Sensible Rohdaten sollten nicht im Log stehen — nur Hashes oder aggregierte Informationen. Aber die Entscheidung und die wesentlichen Faktoren müssen nachvollziehbar sein.

Implementierungs-Empfehlung: Logging als Middleware-Layer, nicht als nachgelagerter Batch-Job. Jede Entscheidung muss synchron geloggt werden — asynchrones Logging riskiert Lücken bei Systemfehlern.

Erklärbarkeit: Was "menschlich nachvollziehbar" konkret bedeutet

Art. 13 fordert "ausreichende Transparenz, damit Nutzer die Ergebnisse des Systems angemessen interpretieren und nutzen können." Für Hochrisiko-Systeme bedeutet das: Die Entscheidung muss für einen menschlichen Prüfer erklärbar sein.

Das schließt reine Black-Box-Entscheidungen aus — jedenfalls ohne Erklärungsschicht.

Mögliche Implementierungsansätze:

SHAP / LIME für Feature-Importance: Für klassische ML-Modelle lassen sich die wichtigsten Einflussfaktoren für jede Entscheidung berechnen und loggen. "Dieses Bewerberprofil wurde niedriger bewertet, primär wegen Faktor X (35 %) und Faktor Y (28 %)."

Chain-of-Thought-Protokollierung bei LLMs: Wenn Sie ein LLM für Entscheidungsunterstützung nutzen, speichern Sie den Reasoning-Prozess — nicht nur das finale Output. Das ist Ihre Erklärbarkeits-Dokumentation.

Human-Readable Summary: Neben technischen Logs eine für Nicht-Techniker verständliche Zusammenfassung der Entscheidungsgrundlage erzeugen.

Human Override: Jede Entscheidung muss unterbrechbar sein

Art. 14 fordert "effektive menschliche Aufsicht" — das System muss so gestaltet sein, dass ein Mensch jederzeit eingreifen, korrigieren und das System notfalls deaktivieren kann.

Technisch bedeutet das:

Anti-Pattern: "Das System empfiehlt X, und das CRM wird automatisch aktualisiert." Das ist kein menschlich überwachter Prozess. Besser: "Das System empfiehlt X, ein HR-Mitarbeiter bestätigt oder modifiziert, dann wird das CRM aktualisiert."

Keine irreversen Automatismen: KI-Entscheidungen dürfen nicht direkt und unumkehrbar in nachgelagerte Systeme schreiben (Datenbankschreiber, E-Mail-Versand, Vertragsabschluss), ohne einen menschlichen Review-Schritt.
Override-Interface: Es muss eine klare Benutzeroberfläche geben, über die berechtigte Personen eine KI-Entscheidung überschreiben können.
Kill Switch: Ein benannter Administrator muss das System im Notfall stoppen können — keine Abhängigkeit von laufenden Deployments oder externen Services.

Datenqualität und Bias-Tests als CI/CD-Bestandteil

Art. 10 stellt spezifische Anforderungen an Trainingsdaten: Sie müssen "relevant, ausreichend repräsentativ und nach dem neuesten Stand" sein, und bekannte Verzerrungen müssen identifiziert und adressiert werden.

Das klingt nach einer einmaligen Aufgabe beim Modell-Training. Es ist eine kontinuierliche Pflicht.

Praktische Umsetzung:

Daten-Inventar: Für jede Version des Modells dokumentieren, welche Daten mit welchen Eigenschaften verwendet wurden.
Fairness-Metriken als Test: Standardmäßig in Ihre Test-Suite aufnehmen: Equalized Odds, Demographic Parity, Disparate Impact. Tools: Fairlearn (Microsoft), AIF360 (IBM) — beide Open Source.
Drift-Monitoring: Wenn sich die Datenverteilung im Produktionsbetrieb von den Trainingsdaten entfernt, sinkt nicht nur Performance — auch die Fairness-Garantien gelten nicht mehr.

Versionierung und Dokumentations-Pipeline

Anhang IV fordert detaillierte technische Dokumentation für jede Version des Systems. Das muss in Ihre Entwicklungs-Pipeline integriert sein.

Empfehlung: Behandeln Sie Compliance-Dokumentation wie Code-Dokumentation — versioniert, automatisiert wo möglich, Teil des Release-Prozesses. Tools wie MLflow oder Weights & Biases können Modellversionen, Trainingsparameter und Metriken automatisch erfassen.

Beim nächsten Modell-Update: Nicht nur technische Metriken festhalten, sondern auch Compliance-relevante Änderungen. Hat sich die Trainingsdatenbasis verändert? Wurden Fairness-Metriken neu evaluiert?

Was jetzt zu tun ist

Wenn Sie gerade ein KI-System entwickeln oder betreiben, das unter Hochrisiko fallen könnte:

Das ist keine monatelange Projektarbeit. Es ist Architektur-Hygiene, die in vernünftig geführten Projekten größtenteils schon existiert — sie muss nur formalisiert und dokumentiert werden.

---

Vollständiger EU AI Act Leitfaden: Hochrisiko-Klassifikation, Compliance-Checkliste und DSGVO-Zusammenhang: EU AI Act: Der Praxis-Leitfaden für deutsche Unternehmen

Logging-Infrastruktur nachziehen, falls nicht vorhanden — das ist der schnellste Win.
Erklärbarkeits-Layer einplanen — vor dem nächsten Major Release.
Human-Override-Flows dokumentieren und testen.
Daten-Governance-Dokument anlegen — Herkunft, Preprocessing, bekannte Limitierungen.