Die sechs Auswahl-Dimensionen
Bei der Modell-Wahl prüfen wir bei TYTOS sechs Dimensionen. (1) Reasoning-Tiefe — wie komplex ist die Entscheidungslogik? Vertrags-Analyse, Steuerfälle, mehrstufige Belegerfassung verlangen viel. Standardisierte Klassifizierung wenig. (2) Multimodalität — sind Bilder, Audio, Video Teil des Inputs? Schadensmeldungen mit Foto, Voice-Telefonie, Video-Verarbeitung. (3) Sprache — Schweizerdeutsch in geschriebener Form ist für Tonalität wichtig, mündlich (Voice) wird es kniffliger. (4) Latenz — Voice und interaktive UIs brauchen <300ms, batch-Prozesse vertragen Sekunden bis Minuten. (5) Kosten — Pro-Token-Kosten × erwartetes Volumen. (6) Regulatorischer Rahmen — DSG, FINMA, BGFA, EU AI Act, Branchen-Spezifika.
Decision Tree pro Use-Case
Frage 1: Daten besonders schützenswert oder regulatorisch streng? Wenn JA → Apertus 70B oder Apertus-via-Swisscom als Default. Frage 2: Voice-Realtime nötig? Wenn JA → GPT-5 / gpt-realtime-2 (Stand Mai 2026 alternativlos). Frage 3: Multimodal (Bild/Video)? Wenn JA → GPT-5 oder Claude Opus 4.7. Frage 4: Sehr komplexes Reasoning oder lange Kontexte (>200k Tokens)? Wenn JA → Claude Opus 4.7. Frage 5: Hohes Volumen, einfache Klassifikation? Wenn JA → Apertus 8B oder Mistral Mid. Frage 6: Schweizer Tonalität in Text wichtig? Wenn JA → Apertus oder Claude (beide stark in DE-CH).
Typische KMU-Architektur 2026
Eine robuste Produktiv-Architektur für ein 50–200-MA-KMU sieht meist so aus: Apertus 8B als billiger Triage-Klassifikator (was kommt rein?), Claude Opus 4.7 für komplexe Bearbeitungen (Belegerfassung mit MwSt-Nuancen, Vertrags-Auswertung, Korrespondenz), GPT-5 für Voice und Multimodal-Strecken, ein zentrales LiteLLM- oder OpenRouter-Gateway, das Routing und Failover steuert. Kosten-Tracking pro Use-Case ist in der Gateway-Schicht eingebaut. Bei Modell-Ausfall springt automatisch ein Sekundär-Modell ein. Diese Architektur kostet im Initialbau 8'000–25'000 CHF und macht die Organisation Modell-agnostisch — was bei der aktuellen Geschwindigkeit der Modell-Releases extrem wertvoll ist.
Häufiger Fehler 1: Vendor-Lock-in unterschätzen
Viele KMU starten mit ChatGPT-Business und kleben dann fest. Das ist ein Risiko: Preise können sich verändern, Modelle werden ohne Warnung aktualisiert, Verfügbarkeit ist nicht garantiert, regulatorische Anforderungen können hinterherkommen. Die Antwort: von Anfang an eine Abstraktions-Schicht. LiteLLM, OpenRouter, Vercel AI Gateway — alle bieten standardisierte APIs über mehrere Anbieter hinweg. Initialaufwand: marginal. Schutz gegen Lock-in: erheblich. Bei TYTOS ist das Standard, nicht Option.
Häufiger Fehler 2: Auf Benchmarks statt eigene Tests vertrauen
Modell-Benchmarks (MMLU, HumanEval, BIG-Bench) korrelieren begrenzt mit KMU-Praxisleistung. Was wirklich zählt: 50–100 echte Beispiel-Fälle aus Ihrem Prozess durchspielen, beide Kandidaten-Modelle nebeneinander laufen lassen, Fehlerquote und Qualität dokumentieren. Das kostet zwei bis vier Tage Aufwand — und zahlt sich vielfach aus. Ein Modell, das im Benchmark vorne liegt, kann an Ihrer konkreten Aufgabe scheitern, weil die Benchmark-Mustern nicht zu Ihren Daten passen.
Häufiger Fehler 3: Modell-Update-Strategie fehlt
Im Jahr 2026 erscheinen alle 4–8 Wochen relevante Modell-Updates. Wer nicht aktiv tracked, läuft mit veralteten Modellen — und verschenkt Qualität, Kosten und Geschwindigkeit. TYTOS empfiehlt: ein leichter Monitoring-Prozess. Quartalsweise prüfen, welche Modelle neu sind, ob ein Update der eigenen Pipelines sinnvoll ist, ob die Modell-Routing-Regeln angepasst werden müssen. Ein klares Versions-Pinning in Produktion, ein Staging mit aktuellen Modellen, ein A/B-Test bei substantiellen Wechseln.
Häufiger Fehler 4: Kosten-Trapping
Kosten-Fallen sind subtil. (1) Token-Inflation durch zu lange System-Prompts (besonders teuer bei Premium-Modellen). (2) Streaming-Antworten ohne Length-Cap. (3) Embedding-Generierung in Schleife bei Vector-Stores. (4) Tool-Calls ohne Caching. (5) Fehlende Rate-Limits, die ein einzelner Bug-Burst zu sehr teuren Stunden machen kann. Lösung: pro Use-Case ein monatliches Kostenlimit konfigurieren, Token-Usage pro Endpoint loggen, regelmässig (monatlich) Cost-Review machen. Bei TYTOS gehören diese Kontrollen zum Standard-Setup.
Was Tim Gashi konkret empfiehlt für Standard-KMU
Für ein typisches Schweizer KMU (50–150 MA, klassische Branche, keine extremen DSG-Strengen), das im Mai 2026 startet, ist der pragmatische Vorschlag: Claude Opus 4.7 als Haupt-Modell, Sonnet 4.7 für volume-heavy Strecken, GPT-5 nur für Voice-/Multimodal-spezifische Aufgaben, Apertus 70B optional als Strict-Klassifikator vor Bearbeitung sensitiver Daten. Initiales Modell-Budget: 300–800 CHF/Monat. Architektur via Vercel AI Gateway oder LiteLLM. Quartals-Review der Modell-Wahl. Bei FINMA-/BGFA-Mandanten verschiebt sich der Mix Richtung Apertus stark — das gehört dann zum Modell-Audit am Anfang.
