Realtime audio OpenAI : fonctionnalités et Frise de temps
Fonctions clés (Realtime audio, côté OpenAI)
- Session WebRTC native (ou WebSocket) avec un modèle unique qui fait ASR ↔ Raisonement ↔ TTS en continu (“speech-in, speech-out”), interruption/barg-in, détection de tours de parole, événements client/serveur, function/tool calling pour appeler vos APIs, et multimodal (audio/texte/vision selon modèle). OpenAI Platform+2OpenAI Platform+2
- Pipeline unifié (au lieu d’enchaîner STT→LLM→TTS séparés), pensé pour latences très faibles et un contrôle fin de session (personas, instructions système, outils). OpenAI
- Accès WebRTC côté navigateur (offer/answer SDP) + guides officiels. OpenAI Platform
Frise (dates clés)
- Mai 2024 – “Spring Update” (GPT-4o) : démos publiques de raisonnement temps réel audio/vision et de l’interruption pendant la parole. Business Insider
- 1er oct. 2024 – Annonce “Realtime API” (bêta publique) : API bas-latence pour expériences vocales/multimodales ; doc + guides. OpenAI+1
- 17 & 30 oct. 2024 – Mises à jour : audio I/O aussi via Chat Completions, nouvelles voix et cached pricing pour réduire les coûts. OpenAI
- Nov.–Déc. 2024 – écosystème : tutos/décorticages détaillant turn-taking, bidirectional streaming, baisse de prix, etc. latent.space+1
- 20 mars 2025 – “Next-gen audio models” : nouvelle vague de modèles audio pour agents vocaux, contexte mondial. OpenAI
- 28 août 2025 – GA : Realtime API annoncée généralement disponible + gpt-realtime (qualité/fiabilité/latence améliorées) pour des agents vocaux en prod. OpenAI+2Communauté OpenAI+2
OpenAI peut-il “écraser” Twilio/Daily… en web-only ?
1) Sur la brique IA temps réel (ASR+LLM+TTS)
2) Mais Twilio/Daily ne jouent pas exactement le même match
3) “OpenAI va-t-il écraser par ses milliards ?”
Recommandation pratique (web-only)