OpenAI ha lanzado GPT-Realtime, un modelo de voz avanzado que ofrece conversaciones por voz en tiempo real con una latencia mínima y una capacidad de respuesta natural y fluida. Este modelo integra todo en un solo flujo de procesamiento, permitiendo escuchar, comprender y responder en voz con una fluidez que imita las conversaciones humanas. GPT-Realtime está orientado al entorno empresarial y se presenta como una solución ideal para servicios de atención al cliente y asistencia remota. El modelo ha demostrado una mejora notable en la comprensión de secuencias alfanuméricas en idiomas no ingleses y puede cambiar de idioma en medio de una frase. La API Realtime se distribuye a través de la Realtime API y tiene un precio de 32 dólares por millón de tokens de entrada y 64 dólares por millón de tokens de salida. OpenAI ha colaborado con empresas de distintos sectores para entrenar al modelo con una amplia variedad de datos reales y ha fortalecido sus alianzas para trabajar en la detección de fallos y el refuerzo de la seguridad de sus modelos. GPT-Realtime obtuvo una puntuación de 82,8% en el benchmark Big Bench Audio, superando ampliamente a su versión anterior.