Direkt zum Inhalt
/wissen/was-ist-voice-ai-realtime● answer-first · schema.org
Definition

Was ist Voice AI Realtime? Definition und KMU-Einsatz 2026

Was ist Voice AI Realtime und wie können Schweizer KMU diese Technologie 2026 einsetzen?

Kurze Antwort

Voice AI Realtime bezeichnet Sprachmodelle, die natürlich-flüssige Telefonate führen können — mit Latenzen unter 300 ms, Unterbrechungs-Toleranz, mehrsprachiger Verständigung und nativer Audio-Verarbeitung (kein Text-Zwischenschritt). Stand Mai 2026 ist gpt-realtime-2 von OpenAI die führende Technologie, mit Apertus-Voice-Varianten in der Pipeline. Für KMU sinnvoll bei Erst-Beratung, Lead-Qualifizierung, Terminkoordination, einfacher Support-Triage — nicht für sensitive Beratungen mit haftungsrelevanten Aussagen.

Zuletzt aktualisiert: · 1'620 Wörter

01

Warum Voice AI 2026 ein eigenes Thema ist

Bis Ende 2024 waren Voice-Bots ein zweistufiges System: Speech-to-Text (Whisper, Google STT), dann Text-Modell, dann Text-to-Speech (ElevenLabs, AWS Polly). Latenzen lagen bei 1–3 Sekunden, Tonalität klang oft mechanisch. Mit gpt-realtime (Mai 2025) und gpt-realtime-2 (Mai 2026) verarbeiten Modelle Audio direkt — Eingang und Ausgang sind echte Sprachwellen. Latenzen sinken auf 200–500 ms, der Bot kann unterbrochen werden, lacht, atmet, hört zu. Das verändert den Anwendungsraum komplett.

02

Wie Voice AI technisch funktioniert

Ein Voice-Agent besteht 2026 aus folgenden Schichten. (1) Transport: meist WebRTC für Browser-zu-Modell-Verbindungen, SIP/PSTN-Bridges für klassische Telefonate. (2) Modell-API: bei OpenAI ephemerale Tokens, Data-Channel für Events, Audio-Streams. (3) Tool-Layer: Funktionen, die das Modell aufrufen kann (Termin buchen, CRM-Eintrag, Mail senden). (4) Knowledge-Layer: System-Prompt mit Firmen-Wissen plus optional RAG-Anbindung. (5) Audit-Trail: Transkript, Tool-Calls, Eskalationen werden geloggt. Mira auf ai.tytos.ch ist ein produktives Beispiel dieser Architektur — vollständig WebRTC, direkter Stream, keine Zwischen-STT/TTS.

03

KMU-Use-Cases, die jetzt funktionieren

Stand Mai 2026 funktionieren in der Schweizer KMU-Praxis robust: (1) Erst-Beratung und Lead-Qualifizierung — ein Voice-Agent nimmt Anrufe ausserhalb der Bürozeiten an, qualifiziert, vereinbart Termin. (2) Termin-Koordination — Verfügbarkeiten abklären, Slots vorschlagen, Bestätigungs-SMS auslösen. (3) Erst-Support-Triage — Anliegen klassifizieren, Standard-Fragen beantworten, an passenden Menschen routen. (4) Outbound-Befragungen für Kundenforschung. (5) Service-Erinnerungen mit interaktiver Rückfrage-Möglichkeit (Lieferanten- und Wartungs-Routinen).

04

Was Voice AI NICHT übernehmen sollte

Genauso wichtig wie Use-Cases sind die Gegen-Use-Cases. Voice AI sollte 2026 NICHT übernehmen: (1) Sensitive Beratungen mit Haftungs-Folgen (Versicherungs-Tarife, Rechtsberatung, Steuerberatung), (2) Emotional belastete Gespräche (Schadensmeldung mit Personenschaden, Reklamationen mit hoher Eskalations-Wahrscheinlichkeit), (3) Erstkontakt zu wichtigen Geschäftspartnern (Erstkontakt zwischen CEOs ist menschlich), (4) Verkaufsgespräche mit hohem Vertragsvolumen (>20'000 CHF). Die Regel: Voice AI für hoch-volumige, low-Stakes-Gespräche. Menschen für niedrig-volumige, high-Stakes-Gespräche.

05

DSG- und Transparenz-Pflichten bei Voice AI

Bei Telefon-Voice-AI gilt revDSG voll. Wichtige Punkte: (1) Transparenz — der Anrufer muss zu Beginn erfahren, dass er mit einer KI spricht (ausser bei reinen IVR-Funktionen). (2) Recht auf menschliche Bearbeitung — bei wesentlichen Entscheidungen muss eine Eskalations-Option bestehen. (3) Aufzeichnungs-Hinweis falls Mitschnitt erfolgt. (4) Datenminimierung — nur das aufzeichnen, was für den Zweck nötig ist. (5) Löschfristen — Audio nach Abschluss des Vorgangs typisch nach 30–90 Tagen löschen, falls nicht für Audit aufzubewahren. TYTOS-Voice-Agenten haben diese Punkte by-default eingebaut.

06

Kosten und Latenz

gpt-realtime-2-Kosten Stand Mai 2026: ca. $20 / 1M Input-Audio-Token, $40 / 1M Output-Audio-Token. Eine 5-minütige Konversation kostet typisch $0.15–0.40, je nach Sprech-Dichte und Tool-Calls. Bei 200 Anrufen/Monat: 30–80 CHF reine Modell-Kosten. Latenz: typisch 250–400 ms First-Token, durchgängig flüssig genug für natürliches Empfinden. Bei Voice-Anrufen via SIP/PSTN (klassische Telefonleitung) kommen Telco-Kosten dazu — typisch 1–3 Cent/Minute via Twilio oder Vonage. Für ein KMU mit 500 Anrufen/Monat ist Voice AI eine 80–250 CHF/Monat-Investition.

07

Voice AI auf Schweizerdeutsch — Status Mai 2026

gpt-realtime-2 beherrscht Schweizer Standarddeutsch sehr ordentlich und kann Schweizerdeutsch (Mundart) hören und entschlüsseln — aber die Antwort kommt zuverlässig nur in Standarddeutsch zurück. Für KMU-Use-Cases mit Schweizer Kundschaft funktioniert das in der Praxis sehr gut: der Anrufer spricht Dialekt, der Agent versteht und antwortet höflich-hochdeutsch. Voll-Mundart-Output ist Stand Mai 2026 noch kein produktiver Standard — die wenigen Ansätze (Apertus-Voice-Prototypen, einzelne Open-Source-Projekte) sind experimentell. TYTOS empfiehlt: Verstehen Dialekt, Antworten Hochdeutsch — das ist 2026 die ehrliche Empfehlung.

08

Die Mira-Erfahrung als Live-Beispiel

Mira auf ai.tytos.ch ist eine produktive Voice-Concierge, gebaut mit gpt-realtime-2 (voice 'marin'), WebRTC raw, 8 Function-Tools, Upstash-Rate-Limit. Die Architektur ist auf der Site dokumentiert und kann live ausprobiert werden. Mira führt durch das Angebot, beantwortet Fragen, navigiert auf Wunsch zu Detailseiten, kann ein WhatsApp-Follow-up oder eine Mail an Tim auslösen. Sie ist klar als KI gekennzeichnet, hat eine 5-Minuten-Cutoff-Schranke, ein striktes Rate-Limit (2 Sessions / 24h / IP) und einen vollständigen Audit-Trail. Wer einen Voice-Agent für sein KMU plant, kann mit Mira sprechen, bevor er mit Tim spricht.

Über den Autor · E-E-A-T

Tim Gashi

Founder & CEO, TYTOS GmbH

Kriens, Schweiz

LinkedIn →

Tim Gashi gründet und führt TYTOS GmbH (CHE-351.360.864), die Schweizer AI-Boutique mit Sitz in Kriens. Seit 2022 baut er produktive AI-Systeme für Schweizer KMU in Treuhand, Immobilien, Versicherung, Legal und Logistik. TYTOS arbeitet als kleines, schlagkräftiges Team mit dem Anspruch, in 14–28 Tagen Produktion zu liefern statt Strategie-Folien.

  • AI-Strategie
  • KI-Agenten
  • Prozessautomatisierung
  • Voice AI
  • DSG-konforme AI
  • Multi-Modell-Architekturen
  • Schweizer KMU
Bereit, Ihr Betriebssystem zu bauen?

Ein Agentproduktiv in 21 Tagen.

Beschreib uns dein Projekt in ein paar Sätzen. Innerhalb von 24 Stunden hältst du eine funktionierende AI-Demo in den Händen — und siehst, was heute möglich ist. Kostenlos. Unverbindlich.

Demo in 24 Stunden anfordernOder anrufen: +41 76 442 72 77
Antwortzeit
< 24 h werktags
Sprachen
DE · EN
Antworter
Tim persönlich
Call
Google Meet · 30 min
DSG · revDSG
Pipeline offen