Was ist Voice AI Realtime? Definition und KMU-Einsatz 2026

Warum Voice AI 2026 ein eigenes Thema ist

Bis Ende 2024 waren Voice-Bots ein zweistufiges System: Speech-to-Text (Whisper, Google STT), dann Text-Modell, dann Text-to-Speech (ElevenLabs, AWS Polly). Latenzen lagen bei 1–3 Sekunden, Tonalität klang oft mechanisch. Mit gpt-realtime (Mai 2025) und gpt-realtime-2 (Mai 2026) verarbeiten Modelle Audio direkt — Eingang und Ausgang sind echte Sprachwellen. Latenzen sinken auf 200–500 ms, der Bot kann unterbrochen werden, lacht, atmet, hört zu. Das verändert den Anwendungsraum komplett.

Wie Voice AI technisch funktioniert

Ein Voice-Agent besteht 2026 aus folgenden Schichten. (1) Transport: meist WebRTC für Browser-zu-Modell-Verbindungen, SIP/PSTN-Bridges für klassische Telefonate. (2) Modell-API: bei OpenAI ephemerale Tokens, Data-Channel für Events, Audio-Streams. (3) Tool-Layer: Funktionen, die das Modell aufrufen kann (Termin buchen, CRM-Eintrag, Mail senden). (4) Knowledge-Layer: System-Prompt mit Firmen-Wissen plus optional RAG-Anbindung. (5) Audit-Trail: Transkript, Tool-Calls, Eskalationen werden geloggt. Mira auf ai.tytos.ch ist ein produktives Beispiel dieser Architektur — vollständig WebRTC, direkter Stream, keine Zwischen-STT/TTS.

KMU-Use-Cases, die jetzt funktionieren

Stand Mai 2026 funktionieren in der Schweizer KMU-Praxis robust: (1) Erst-Beratung und Lead-Qualifizierung — ein Voice-Agent nimmt Anrufe ausserhalb der Bürozeiten an, qualifiziert, vereinbart Termin. (2) Termin-Koordination — Verfügbarkeiten abklären, Slots vorschlagen, Bestätigungs-SMS auslösen. (3) Erst-Support-Triage — Anliegen klassifizieren, Standard-Fragen beantworten, an passenden Menschen routen. (4) Outbound-Befragungen für Kundenforschung. (5) Service-Erinnerungen mit interaktiver Rückfrage-Möglichkeit (Lieferanten- und Wartungs-Routinen).

Was Voice AI NICHT übernehmen sollte

Genauso wichtig wie Use-Cases sind die Gegen-Use-Cases. Voice AI sollte 2026 NICHT übernehmen: (1) Sensitive Beratungen mit Haftungs-Folgen (Versicherungs-Tarife, Rechtsberatung, Steuerberatung), (2) Emotional belastete Gespräche (Schadensmeldung mit Personenschaden, Reklamationen mit hoher Eskalations-Wahrscheinlichkeit), (3) Erstkontakt zu wichtigen Geschäftspartnern (Erstkontakt zwischen CEOs ist menschlich), (4) Verkaufsgespräche mit hohem Vertragsvolumen (>20'000 CHF). Die Regel: Voice AI für hoch-volumige, low-Stakes-Gespräche. Menschen für niedrig-volumige, high-Stakes-Gespräche.

DSG- und Transparenz-Pflichten bei Voice AI

Bei Telefon-Voice-AI gilt revDSG voll. Wichtige Punkte: (1) Transparenz — der Anrufer muss zu Beginn erfahren, dass er mit einer KI spricht (ausser bei reinen IVR-Funktionen). (2) Recht auf menschliche Bearbeitung — bei wesentlichen Entscheidungen muss eine Eskalations-Option bestehen. (3) Aufzeichnungs-Hinweis falls Mitschnitt erfolgt. (4) Datenminimierung — nur das aufzeichnen, was für den Zweck nötig ist. (5) Löschfristen — Audio nach Abschluss des Vorgangs typisch nach 30–90 Tagen löschen, falls nicht für Audit aufzubewahren. TYTOS-Voice-Agenten haben diese Punkte by-default eingebaut.

Kosten und Latenz

gpt-realtime-2-Kosten Stand Mai 2026: ca. $20 / 1M Input-Audio-Token, $40 / 1M Output-Audio-Token. Eine 5-minütige Konversation kostet typisch $0.15–0.40, je nach Sprech-Dichte und Tool-Calls. Bei 200 Anrufen/Monat: 30–80 CHF reine Modell-Kosten. Latenz: typisch 250–400 ms First-Token, durchgängig flüssig genug für natürliches Empfinden. Bei Voice-Anrufen via SIP/PSTN (klassische Telefonleitung) kommen Telco-Kosten dazu — typisch 1–3 Cent/Minute via Twilio oder Vonage. Für ein KMU mit 500 Anrufen/Monat ist Voice AI eine 80–250 CHF/Monat-Investition.

Voice AI auf Schweizerdeutsch — Status Mai 2026

gpt-realtime-2 beherrscht Schweizer Standarddeutsch sehr ordentlich und kann Schweizerdeutsch (Mundart) hören und entschlüsseln — aber die Antwort kommt zuverlässig nur in Standarddeutsch zurück. Für KMU-Use-Cases mit Schweizer Kundschaft funktioniert das in der Praxis sehr gut: der Anrufer spricht Dialekt, der Agent versteht und antwortet höflich-hochdeutsch. Voll-Mundart-Output ist Stand Mai 2026 noch kein produktiver Standard — die wenigen Ansätze (Apertus-Voice-Prototypen, einzelne Open-Source-Projekte) sind experimentell. TYTOS empfiehlt: Verstehen Dialekt, Antworten Hochdeutsch — das ist 2026 die ehrliche Empfehlung.

Die Mira-Erfahrung als Live-Beispiel

Mira auf ai.tytos.ch ist eine produktive Voice-Concierge, gebaut mit gpt-realtime-2 (voice 'marin'), WebRTC raw, 8 Function-Tools, Upstash-Rate-Limit. Die Architektur ist auf der Site dokumentiert und kann live ausprobiert werden. Mira führt durch das Angebot, beantwortet Fragen, navigiert auf Wunsch zu Detailseiten, kann ein WhatsApp-Follow-up oder eine Mail an Tim auslösen. Sie ist klar als KI gekennzeichnet, hat eine 5-Minuten-Cutoff-Schranke, ein striktes Rate-Limit (2 Sessions / 24h / IP) und einen vollständigen Audit-Trail. Wer einen Voice-Agent für sein KMU plant, kann mit Mira sprechen, bevor er mit Tim spricht.