Inteligencia artificial
Chatbots
IA generativa

OpenAI lanza un nuevo GPT de escritorio multimodal y nuevas capacidades de voz

Varios analistas aseguran que la compañía está tratando de ponerse al día con sus competidores.

GPT Store
OpenAI inaugura su GPT Store.

OpenAI ha anunciado una nueva versión de escritorio de ChatGPT y una actualización de la interfaz de usuario llamada GPT-4o que permite interactuar mediante mensajes de texto, voz y visuales. Puede reconocer y responder a capturas de pantalla, fotografías, documentos o gráficos cargados en él. También puede reconocer expresiones faciales e información escrita a mano en papel. La compañía ha señalado que el chatbot que lo acompaña puede responder a entradas de audio en tan solo 232 milisegundos, con un tiempo de respuesta similar al humano en una conversación.

Las versiones anteriores de GPT también contaban con modo de voz conversacional, pero tenían latencias de 2,8 segundos (en GPT-3.5) y 5,4 segundos en (GPT-4) de media. “GPT-4o es especialmente mejor en visión y comprensión de audio en comparación con los modelos existentes”, ha señalado la firma en el lanzamiento. Asimismo, Mira Murati, directora de tecnología de OpenAI, ha indicado que el modelo también tendrá nuevas capacidades de memoria, lo que le permitirá aprender de conversaciones anteriores con usuarios y sumarlas a sus respuestas.

Chirag Dekate, analista vicepresidente de Gartner, ha dicho que aunque está impresionado por este LLM, OpenAI está tratando de ponerse al día con sus competidores, en contraste con su estatus anterior como líder de la industria en tecnología de inteligencia artificial (IA) generativa. “Ahora estamos empezando a ver a GPT en la era multimodal. Pero se está poniendo al día, por ejemplo con Google, cuando hace tres meses anunció Gemini 1.5”.

Aún así, las capacidades demostradas por GPT-4o y el chatbot ChatGPT que lo acompaña son impresionantes para un motor de procesamiento de lenguaje natural. Mostró una mejor capacidad de conversación, donde los usuarios pueden interrumpirla y comenzar consultas nuevas o modificadas, y también domina 50 idiomas. En una demostración en vivo en el escenario, el modo de voz pudo traducir entre Murati, que hablaba italiano, y Barret Zoph, jefe de post-capacitación de OpenAI, que hablaba inglés.

Durante una demostración en vivo, Zoph también escribió una ecuación algebraica en papel mientras ChatGPT observaba a través de la lente de la cámara de su teléfono. Luego, Zoph le pidió al chatbot que le explicara la solución.

Si bien el reconocimiento de voz y las interacciones conversacionales eran extremadamente humanos, también hubo fallas notables en el robot interactivo donde se cortaba durante las conversaciones y retomaba las cosas momentos después.

Luego se le pidió al chatbot que contara un cuento antes de dormir. Los presentadores pudieron interrumpirle y hacer que agregara más emoción a la entonación de su voz e incluso cambiara a una interpretación de la historia similar a una computadora.

En otra demostración, Zoph abrió el código de software en la pantalla de su ordenador portátil y usó la aplicación de comando de voz de ChatGPT 4o para evaluar el código, una aplicación de mapas meteorológicos, y determinar qué era. Luego, GPT-4o pudo leer el gráfico de la aplicación y determinar puntos de datos relacionados con temperaturas altas y bajas.

Murati dijo que las capacidades de texto e imágenes de GPT-4o se implementarán de forma iterativa con acceso ampliado del "equipo rojo" a partir de hoy. Los usuarios que paguen ChatGPT Plus tendrán límites de mensajes hasta cinco veces más altos. Murati dijo que una nueva versión del modo de voz con GPT-4o llegará en versión alfa en las próximas semanas.

Los desarrolladores de modelos ahora también pueden acceder a GPT-4o en la API como modelo de texto y visión. El nuevo modelo es dos veces más rápido, la mitad de precio y tiene límites de velocidad cinco veces más altos en comparación con el GPT-4 Turbo, dijo Murati.

"Planeamos lanzar soporte para las nuevas capacidades de audio y video de GPT-4o a un pequeño grupo de socios confiables en la API en las próximas semanas", dijo.

Lo que no quedó claro en el anuncio de GPT-4o de OpenAI, dice Dekate, fue el tamaño del contexto de la ventana de entrada, que para GPT-4 es de 128.000 tokens. “El tamaño del contexto ayuda a definir la precisión del modelo. Cuanto mayor sea el tamaño del contexto, más datos podrá ingresar y mejores resultados obtendrá”, dijo.

Gemini 1.5 de Google, por ejemplo, ofrece una ventana de contexto de un millón de tokens, lo que lo convierte en el modelo de base a gran escala más largo hasta la fecha. El siguiente en la fila es Claude 2.1 de Anthropic, que ofrece una ventana de contexto con hasta 200.000 tokens. La ventana de contexto más grande de Google se traduce en la capacidad de adaptar toda la base de código de una aplicación para actualizaciones o mejoras mediante el modelo genAI; GPT-4 tenía la capacidad de aceptar sólo unas 1200 líneas de código, dijo Dekate.

Un portavoz de OpenAI ha asegurado que el tamaño de la ventana de contexto de GPT-4o sigue siendo de 128k. Mistral también anunció su modelo multimodal LLaVA-NeXT la semana pasada a principios de este mes. Y se espera que Google haga más anuncios sobre Gemini 1.5 en su evento Google I/O mañana .

"Yo diría que, en cierto sentido, OpenAI ahora está alcanzando a Meta, Google y Mistral", dijo Dekate. Murati dijo que OpenAI reconoce que GPT-4o también presentará nuevas oportunidades para el mal uso del reconocimiento visual y de audio en tiempo real. Dijo que la compañía continuará trabajando con varias entidades, incluido el gobierno, los medios de comunicación y la industria del entretenimiento para tratar de abordar los problemas de seguridad.

La versión anterior de ChatGPT (4.0) también tenía un modo de voz que usaba tres modelos separados: un modelo transcribe audio a texto, otro toma texto y genera texto, y un tercer modelo que convierte ese texto nuevamente en audio. Ese modelo, explicó Murati, puede observar el tono, múltiples hablantes o ruidos de fondo, pero no puede producir risas, cantos ni expresar emociones. GPT-4o, sin embargo, utiliza un único modelo de extremo a extremo para texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal para una experiencia más en tiempo real.

"Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones", dijo Murati. "Durante las próximas semanas, continuaremos con implementaciones iterativas para ofrecérselas".



Webinar ondemand

Contenido Patrocinado

Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital