Realtime audio OpenAI : fonctionnalités et Frise de temps

Fonctions clés (Realtime audio, côté OpenAI)

Session WebRTC native (ou WebSocket) avec un modèle unique qui fait ASR ↔ Raisonement ↔ TTS en continu (“speech-in, speech-out”), interruption/barg-in, détection de tours de parole, événements client/serveur, function/tool calling pour appeler vos APIs, et multimodal (audio/texte/vision selon modèle). OpenAI Platform+2OpenAI Platform+2
Pipeline unifié (au lieu d’enchaîner STT→LLM→TTS séparés), pensé pour latences très faibles et un contrôle fin de session (personas, instructions système, outils). OpenAI
Accès WebRTC côté navigateur (offer/answer SDP) + guides officiels. OpenAI Platform

Mai 2024 – “Spring Update” (GPT-4o) : démos publiques de raisonnement temps réel audio/vision et de l’interruption pendant la parole. Business Insider
1er oct. 2024 – Annonce “Realtime API” (bêta publique) : API bas-latence pour expériences vocales/multimodales ; doc + guides. OpenAI+1
17 & 30 oct. 2024 – Mises à jour : audio I/O aussi via Chat Completions, nouvelles voix et cached pricing pour réduire les coûts. OpenAI
Nov.–Déc. 2024 – écosystème : tutos/décorticages détaillant turn-taking, bidirectional streaming, baisse de prix, etc. latent.space+1
20 mars 2025 – “Next-gen audio models” : nouvelle vague de modèles audio pour agents vocaux, contexte mondial. OpenAI
28 août 2025 – GA : Realtime API annoncée généralement disponible + gpt-realtime (qualité/fiabilité/latence améliorées) pour des agents vocaux en prod. OpenAI+2Communauté OpenAI+2

1) Sur la brique IA temps réel (ASR+LLM+TTS)

2) Mais Twilio/Daily ne jouent pas exactement le même match

3) “OpenAI va-t-il écraser par ses milliards ?”

Recommandation pratique (web-only)