OpenAI peut-il “écraser” Twilio/Daily… en web-only ?

1) Sur la brique IA temps réel (ASR+LLM+TTS)

Oui, OpenAI a pris une longueur d’avance :
- pipeline unifié,
- WebRTC direct, barg-in natif,
- tools/function calling
- et une forte cadence produit depuis 2024

- → pour un assistant vocal 1-à-1 dans le navigateur, Realtime remplace avantageusement les chaînes STT/LLM/TTS bricolées et rend inutiles Twilio/Daily du point de vue IA. OpenAI Platform+1

2) Mais Twilio/Daily ne jouent pas exactement le même match

Daily.co et Twilio (côté WebRTC) restent des infrastructures média/SFU :
- multi-participants,
- mixage,
- recording/HLS/RTMP,
- contrôles réseau, QoS,
- screen-share,
- modération, scalabilité “rooms” — des compétences qui ne sont pas l’objectif d’OpenAI Realtime (qui vise l’agent vocal).

Pour réunions, classes, diffusion ou co-présence, un SFU dédié reste supérieur. Instagram

Web-only 1-à-1 : Realtime peut suffire (et souvent mieux), car il supprime les serveurs audio intermédiaires et réduit la latence.

Dès que vous avez plusieurs flux/pistes et des besoins média avancés, Daily (ou équivalent) reprend l’avantage sur la couche transport — et vous reliez ensuite Daily ↔ Realtime pour l’IA. (C’est un montage courant.) Mi

3) “OpenAI va-t-il écraser par ses milliards ?”

Sur la brique “agent vocal” : il est crédible qu’OpenAI domine (qualité/latence/outillage, intégration très simple). Les mises à jour rapides 2024-2025 vont dans ce sens. OpenAI+2OpenAI+2

Sur la brique “infrastructure WebRTC/SFU” : moins probable qu’OpenAI remplace tout.
- Les SFU sont un métiers réseau (TURN/STUN, congestion control, simulcast/SVC, enregistrements, interop multi-pistes, scalabilité régionale).
- Daily (et d’autres) resteront pertinents pour rooms complexes et diffusion. Autrement dit : OpenAI ≈ moteur d’agent, Daily/Twilio ≈ autoroute média.
Twilio (web-only) : si vous n’avez pas de PSTN, son avantage distinctif est moindre face à Daily/solutions SFU spécialisées. Twilio garde toutefois des atouts d’écosystème (programmation d’appels, IVR, compliance, analytics), mais c’est hors de votre périmètre web-only.

Recommandation pratique (web-only)

Assistant vocal 1-à-1 (conseiller personnel sur Internet, sans co-présence) : partez direct OpenAI Realtime (WebRTC). Vous y gagnez en simplicité et latence, avec tools pour appeler vos APIs (Odoo, etc.). OpenAI Platform

Multi-participants / enregistrements / diffusion : Daily SFU pour la couche média + un bot qui relie la room à OpenAI Realtime pour l’IA. (Meilleur des deux mondes.)

Piste de code à évaluer @Antonio

code starter “WebRTC Realtime pur” avec React (front)

Un starter “WebRTC Realtime pur” avec React (front) + Node/Express (bridge token + tools + webhooks).

Le front parle en direct au Realtime API d’OpenAI en WebRTC (speech-in/speech-out). Le bridge ne touche jamais l’audio : il signe la session (token éphémère) et expose vos tools (function calling) + webhooks.

Découvrir plus