SAN FRANCISCO: OpenAI añadió el jueves tres modelos de voz a su interfaz de programación de aplicaciones (API), ampliando así sus herramientas para desarrolladores que crean software capaz de gestionar interacciones de voz en tiempo real. La actualización incluye GPT-Realtime-2 para conversaciones de voz en directo, GPT-Realtime-Translate para traducción de voz y GPT-Realtime-Whisper para transcripción en tiempo real. La compañía afirmó que los modelos están diseñados para que las aplicaciones puedan escuchar, responder y completar tareas durante una conversación, yendo más allá del reconocimiento de voz básico o la generación de texto.

GPT-Realtime-2 es la principal novedad de esta actualización y se posiciona como el primer modelo de voz de OpenAI con razonamiento de clase GPT-5. Según la compañía, puede gestionar solicitudes más complejas, mantener el contexto durante sesiones más largas, recuperarse de interrupciones y utilizar múltiples herramientas mientras la conversación continúa. OpenAI también anunció que la ventana de contexto del modelo se ha ampliado de 32.000 a 128.000 tokens, lo que ofrece a los desarrolladores más margen para admitir interacciones extendidas y flujos de tareas más detallados en productos basados en voz.
Los otros dos modelos se centran en la traducción y la transcripción. GPT-Realtime-Translate está diseñado para traducir voz de más de 70 idiomas de entrada a 13 idiomas de salida, manteniendo el ritmo del hablante. Esta función está pensada para la atención al cliente, la formación, los eventos y otros entornos multilingües. GPT-Realtime-Whisper es un modelo de conversión de voz a texto de baja latencia que transcribe el audio hablado en tiempo real, lo que permite a los desarrolladores crear subtítulos en directo, notas de reuniones y otras herramientas de flujo de trabajo que dependen de la transcripción continua.
OpenAI amplía sus herramientas de voz para desarrolladores.
OpenAI indicó que entre las empresas que ya están probando los modelos se encuentran Zillow , Priceline y Deutsche Telekom. En los ejemplos presentados durante el lanzamiento, Zillow utiliza la tecnología en un asistente de vivienda que puede responder a solicitudes de voz detalladas, mientras que Deutsche Telekom está probando experiencias de atención al cliente multilingües. Priceline fue mencionada como una empresa que trabaja en herramientas de planificación de viajes basadas en voz que permiten a los usuarios buscar, modificar reservas y recibir actualizaciones de viaje mediante interacción verbal en lugar de mensajes escritos.
Los modelos están disponibles a través de la API Realtime de OpenAI, y la compañía indicó que los desarrolladores pueden probarlos en su entorno de pruebas. El precio inicial es de $32 por millón de tokens de entrada de audio para GPT-Realtime-2, mientras que el audio de salida tiene un precio aparte de $64 por millón de tokens. GPT-Realtime-Translate tiene un precio de $0.034 por minuto, y GPT-Realtime-Whisper, de $0.017 por minuto. Este anuncio integra los productos directamente en la plataforma de desarrollo existente de OpenAI, en lugar de ofrecerlos como funciones independientes para el consumidor.
Medidas de seguridad descritas
Junto con el lanzamiento, la compañía detalló las medidas de seguridad vinculadas a la API en tiempo real. OpenAI indicó que utiliza clasificadores activos en las sesiones en tiempo real y puede interrumpir ciertas conversaciones si se detecta que infringen las normas sobre contenido dañino. Los desarrolladores también pueden añadir sus propios controles mediante las herramientas de software de la compañía. OpenAI afirmó que sus políticas de uso prohíben utilizar los resultados para enviar spam, engañar o con otros fines perjudiciales, y exige a los desarrolladores que indiquen claramente cuándo los usuarios finales interactúan con inteligencia artificial, a menos que esto ya sea evidente por el contexto.
Este lanzamiento se basa en la expansión de las herramientas de audio y en tiempo real de OpenAI durante el último año, incluyendo actualizaciones previas de su API en tiempo real y modelos de voz. Esta versión reúne estas capacidades en un paquete enfocado en la interacción de voz en vivo, combinando razonamiento, traducción y transcripción en un solo anuncio para desarrolladores. Con esta última actualización, OpenAI amplía el conjunto de funciones de voz disponibles a través de su API para atención al cliente, viajes , flujos de trabajo empresariales y comunicaciones multilingües. – Por Content Syndication Services .
La publicación OpenAI lanza modelos de IA de voz en tiempo real para desarrolladores apareció primero en Oklahoma City Mail .
