Die drei HITL-Patterns
Pattern 1: HITL strict — jede AI-Aktion wird vor Ausführung von einem Menschen bestätigt. Geeignet für hochsensitive Anwendungen: Kreditvergabe, Versicherungs-Schaden-Auszahlung, juristische Beurteilung mit Mandanten-Wirkung. Vorteil: maximale Kontrolle. Nachteil: Mensch wird zum Flaschenhals, AI-Geschwindigkeitsvorteil geht verloren. Pattern 2: HITL with confidence — die AI bewertet die eigene Sicherheit, eskaliert bei Unsicherheit. Konkret: 'Confidence > 0.85 → automatisch ausführen, sonst → menschliche Bestätigung'. Pattern 3: Human-on-the-Loop — AI handelt autonom, Mensch reviewt stichprobenweise oder ex-post. Geeignet für hoch-volumige, low-stakes-Strecken. Im Schweizer regulierten Umfeld ist Pattern 2 der häufigste Kompromiss.
Wann HITL rechtlich Pflicht ist
Bei automatisierten Einzelentscheidungen mit Rechtswirkung oder erheblicher Bedeutung für die betroffene Person greift revDSG Art. 21: Recht auf menschliche Überprüfung, Recht auf Stellungnahme, Information über die Logik der Entscheidung. Konkrete Beispiele aus 2026: KI-basierte Kreditbewertungen, Bonitäts-Scores, Versicherungs-Tarifierungen, Bewerber-Vorauswahl. Auch wenn die AI nur 'Vorschläge' macht und der Mensch 'unterschreibt' — wenn die menschliche Prüfung in der Praxis nur formell ist, gilt das rechtlich als automatisierte Einzelentscheidung. Die ehrliche Implementation: echte menschliche Prüfung mit Möglichkeit zur Anpassung, dokumentiert im Audit-Trail.
Confidence-Scoring in der Praxis
Die meisten LLMs geben keine echten Confidence-Werte zurück (Anthropic und OpenAI haben Limit-Probit-Outputs nur eingeschränkt). Praktische Ansätze für Confidence-Schätzung: (1) Ensemble — zwei Modelle parallel laufen lassen, bei Übereinstimmung hohe Confidence, bei Disagreement eskalieren. (2) Self-Evaluation — das Modell wird gefragt 'wie sicher bist du?', Antwort wird strukturiert ausgewertet. (3) Heuristiken — Output-Länge, Verwendung von 'wahrscheinlich' / 'sicher', Anzahl Tool-Calls. (4) Domain-spezifische Plausibilitäts-Checks — z.B. bei Kontierungs-Vorschlag prüfen, ob Konto historisch zum Lieferanten passt. Eine Kombination dieser Techniken liefert robuste Eskalations-Schwellen.
Eskalations-Routing
Wer wird eskaliert? Eine gut gebaute HITL-Architektur hat klare Eskalations-Pfade. Bei Treuhand-Belegerfassung: einfache Unsicherheit → zuständiger Sachbearbeiter, komplexer Sonderfall → Treuhänder mit Spezialisierung, juristische Frage → externer Anwalt. Bei Versicherungs-Triage: Standard-Schaden mit ungeklärten Punkten → Sachbearbeiter, Personenschaden → Senior-Sachbearbeiter, Verdacht auf Versicherungs-Betrug → Spezialabteilung. Das Routing muss konfigurierbar sein, weil es organisatorisch wandelt. TYTOS-Implementierungen haben ein Routing-Dashboard, in dem Admins die Pfade ohne Code-Änderung anpassen können.
Audit-Trail für HITL-Entscheidungen
Bei HITL ist der Audit-Trail strukturell wichtig: was hat die AI vorgeschlagen, welche Confidence, wer hat ex-post entschieden, ob mit oder ohne Anpassung. Pro Eskalation werden geloggt: Zeitstempel, AI-Vorschlag, Confidence-Score, eskalierender User, finaler Entscheid, Änderung gegenüber Vorschlag (falls relevant), Dauer der menschlichen Prüfung. Bei Audits (FINMA, Steuerprüfung, BGFA-Aufsicht) kann nachgewiesen werden, dass die menschliche Prüfung substantiell war — nicht nur ein Klick. Das ist die Differenz zwischen rechtlich tragfähigem HITL und Rubber-Stamping.
Wenn Menschen zum Flaschenhals werden
Der Albtraum jedes AI-Projekts: die AI ist schnell, aber wartet stundenlang auf menschliche Bestätigung. Das frisst den Geschwindigkeits-Gewinn auf und führt zu Frust auf beiden Seiten. Gegenmassnahmen: (1) Confidence-Schwelle so kalibrieren, dass nur 5–15 % der Fälle eskaliert werden. (2) Eskalations-UI auf maximale Effizienz trimmen — alles Wesentliche auf einer Seite, Ein-Klick-Bestätigung wo verantwortbar. (3) Asynchrones Eskalations-Routing — der menschliche Prüfer bekommt eine Queue, nicht stündliche Unterbrechungen. (4) Klare SLAs für Prüfung. (5) Eskalations-Metriken im Monitoring — wenn der Prüf-Backlog wächst, wird der Schwellwert ggf. nachjustiert.
HITL vs. Human-on-the-Loop
Bei Human-on-the-Loop (HOL) handelt die AI autonom, der Mensch prüft ex-post Stichproben (typisch 5–15 % der Fälle). Geeignet für: hoch-volumige, low-stakes-Strecken — Mail-Klassifikation, Standard-Beantwortung, Routine-Belegerfassung mit hoher Plausibilität. Pflicht-Eskalation auch bei HOL bei Unsicherheit. HITL und HOL sind keine Entweder-Oder, sondern ein Kontinuum: pro Use-Case wird kalibriert, wo der Sweet-Spot zwischen Geschwindigkeit und Kontrolle liegt. Erfahrungswert TYTOS: nach 3–6 Monaten produktivem Betrieb verschieben sich Confidence-Schwellen und Stichproben-Quoten meist Richtung mehr Autonomie, weil das Vertrauen wächst.
Mitarbeitende für HITL fit machen
HITL ändert die Tätigkeit Ihrer Mitarbeitenden: weniger Routinearbeit, mehr Eskalations-Bearbeitung und Qualitätskontrolle. Das verlangt veränderte Fähigkeiten: schnelle Plausibilitäts-Beurteilung, kritisches Hinterfragen von AI-Vorschlägen, klare Dokumentation eigener Entscheidungen. Schulung sollte drei Themen abdecken. (1) AI-Grenzen verstehen — wo macht ein Modell typisch Fehler, woran erkenne ich das? (2) Entscheidungs-Effizienz — wie prüfe ich einen AI-Vorschlag schnell aber substantiell? (3) Dokumentations-Disziplin — was muss ich festhalten, damit ein Audit später nachvollziehbar ist? TYTOS bietet diese Schulung als Teil jedes HITL-Projekts an.
