Was bedeutet 'bestes Modell' eigentlich?
Modell-Benchmarks sind selten direkt mit KMU-Realität vergleichbar. Eine 87 % MMLU-Score sagt wenig darüber aus, ob ein Modell bei einer komplexen Versicherungs-Klassifikation hält. Was zählt, ist die Passung zum Use-Case: Reasoning-Tiefe (bei rechtlichen Bewertungen wichtig), Faktentreue (bei Belegerfassung), Sprachqualität (bei Kunden-Kommunikation), Tool-Use (bei Multi-Schritt-Workflows), Kosten pro Anfrage, Latenz (bei Voice und Echtzeit-UIs), Datensouveränität. Wir prüfen pro Projekt diese sieben Dimensionen und entscheiden danach — nicht nach Vendor-Loyalität.
Claude Opus 4.7 (Anthropic, April 2026)
Claude Opus 4.7 wurde am 16. April 2026 veröffentlicht und ist Stand Mai 2026 das Spitzenmodell für komplexes Reasoning und sorgfältige Schreibarbeit. Kontextfenster bis 1M Tokens (Premium-Tier), starke Tool-Use-Fähigkeit, ausgezeichnete Mehrsprachigkeit inkl. Schweizerdeutsch in geschriebener Form, sehr hohe Faktentreue im Vergleich zur Vorgänger-Generation. Ideale Anwendungen: Vertrags-Analyse, mehrstufige Treuhand-Workflows, Code-Generierung für Custom-Software, sorgfältige Kunden-Korrespondenz. Limit: höhere Token-Kosten als GPT-Gegenstücke, kein natives Voice-Realtime (kommt indirekt über Vermittler).
GPT-5 (OpenAI, Frühjahr 2026)
GPT-5 ist OpenAIs aktueller Generations-Schritt mit deutlich besserer Tool-Nutzung, breiterer Multimodalität (Text/Bild/Audio/Video) und nahtloser Voice-Realtime-Integration via gpt-realtime-2. Stärken: breit verfügbare Tooling-Ecosystem, sehr gute Function-Call-Konsistenz, native Voice-Capabilities, Codex/Code-Interpreter eingebaut. Ideale Anwendungen: Voice-Agenten, Multi-Modal-Pipelines (Bild + Text), CRM-/ERP-Integrationen mit vielen Tools, schnelle Iterationen mit Streaming-UIs. Limit: gelegentlich oberflächlichere Reasoning-Tiefe als Claude bei wirklich komplexen Texten, sensitiver auf Prompt-Veränderungen.
Apertus 70B (Swiss AI Initiative, 09/2025, Update 2509)
Apertus ist das gemeinsame Modell von ETH Zürich, EPFL und CSCS, trainiert auf dem ALPS-Supercomputer in Lugano mit über 4'000 NVIDIA-GH200-GPUs und überwiegend CO2-neutralem Strom. 70B- und 8B-Parameter-Varianten, mehr als 1'000 Sprachen, vollständig offene und konforme Trainingsdaten. Verfügbar über Swisscom, Hugging Face, das Public-AI-Netzwerk und AWS SageMaker (Schweizer Region). Stärken: 100 % Schweizer Provenienz, voll konforme Trainingsdaten (kein urheberrechtlich heikles Material), open-weights, läuft auf Schweizer Hardware. Limit: deutlich kleinere Tooling-Ecosystem als OpenAI/Anthropic, Reasoning-Tiefe noch nicht auf Opus-Niveau, höhere Latenz wenn nicht selbst gehostet.
Pro Use-Case: welches Modell?
Treuhand-Belegerfassung mit DSG-Strenge: primär Apertus 70B (Schweizer Hosting), Fallback Claude über Schweizer EU-Proxy. Voice-Concierge (wie Mira): GPT-5 / gpt-realtime-2 (alternativlos Stand heute, Apertus hat noch kein Voice-Realtime). Vertrags-Analyse Legal: Claude Opus 4.7 (Reasoning-Tiefe, lange Kontexte). Schadensmeldung-Triage Versicherung: hybrid — GPT-5 für Multimodal (Foto + Text), Claude für komplexe Bewertung. Standard-Korrespondenz mit Schweizer Tonalität: Claude oder Apertus, je nach Hosting-Strenge. Cost-sensitive Use-Cases mit hohem Volumen: Apertus 8B oder Mistral 22B, mit Eskalation auf grösseres Modell bei Unsicherheit.
Kosten-Realität Mai 2026
Claude Opus 4.7: ca. $15 / 1M Input-Token, $75 / 1M Output-Token (Premium-Tier mit 1M Context). GPT-5: ca. $10 / 1M Input, $40 / 1M Output (Standard-Tier). Apertus 70B selbst gehostet: ca. $0.50–2 pro Million Tokens, je nach Auslastung (Hardware-Amortisation), bei Swisscom ähnlich GPT-Preise. Für ein typisches Schweizer KMU mit 5'000–20'000 Anfragen pro Monat bedeutet das: zwischen 50 und 800 CHF/Monat reine Modellkosten. Der Modell-Anbieter ist selten der teuerste Posten — Wartung und menschliche Aufsicht kosten deutlich mehr.
Wann mehrere Modelle gleichzeitig?
Viele produktive Architekturen kombinieren Modelle: ein Apertus-8B-Klassifikator triagiert eingehende Anfragen, Claude Opus 4.7 bearbeitet die komplexen, GPT-5 mit Voice-Realtime hält den telefonischen Erstkontakt, ein Fallback-Modell springt bei API-Ausfällen ein. Diese Multi-Modell-Architekturen sind Standard 2026 — und brauchen eine zentrale AI-Infrastruktur-Schicht, die Routing, Kosten-Tracking und Fallback transparent macht. Genau hier setzt TYTOS' AI-Infrastruktur-Leistung an.
Was 2026 noch kommt
Stand Mai 2026 kündigen Anthropic ein Sonnet 4.7 (Mid-Tier, 1M Context, $3/$15) und OpenAI eine GPT-5-mini-Variante für niedrig-volumige Aufgaben an. Apertus plant ein 2611-Update mit nochmals verbesserter Mehrsprachigkeit und Tool-Use. Die Modell-Landschaft konsolidiert sich erkennbar in drei Lagern: US-Frontier (OpenAI, Anthropic, Google), Europäisch-Open (Mistral, Apertus, EU-Public-AI), Chinesisch (Qwen, DeepSeek). Für Schweizer KMU bleiben die ersten beiden Lager relevant — chinesische Modelle scheitern an Compliance- und Reputations-Hürden, nicht an Qualität.
