Actualidad
Inteligencia artificial
IA
Tecnología
Chatbots
IA generativa
ChatGPT

ChatGPT amplía sus capacidades: ‘verá, oirá y hablará’

El chatbot más popular de OpenAI despliega nuevas funciones de voz e imagen, brindando un nuevo tipo de interfaz más intuitiva al permitirte mantener una conversación de voz e interactuar usando fotografías.

ChatGPT
Créditos: Jonathan Kemper (Unsplash).

OpenAI, la compañía que capitanea Sam Altman, ha actualizado su gran desarrollo insignia: ChatGPT. El popular chatbot ha visto ampliadas sus capacidades; y es que de ahora en adelante ‘verá, oirá y hablará’. En concreto, tal y como han avanzado fuentes corporativas, “estamos empezando a desplegar nuevas funciones de voz e imagen en ChatGPT”. Una modernización que brinda un tipo de interfaz más intuitiva al permitirte mantener una conversación de voz o mostrar a ChatGPT de qué estás hablando. “La voz y la imagen te ofrecen más formas de utilizar ChatGPT en tu vida. Haz una foto de un punto de interés mientras viajas y mantén una conversación en directo sobre lo que te parece interesante. Cuando estés en casa, haz fotos de la nevera y la despensa para saber qué hay para cenar”, ejemplificaban.

Así, en las próximas dos semanas, los usuarios Plus y Enterprise podrán disfrutar de las funciones de voz e imágenes de ChatGPT. En este sentido cabe destacar que mientras la voz estará disponible en iOS y Android, las imágenes estarán habilitadas en todas las plataformas.

 

Despliegue gradual

El objetivo de OpenAI pasa por construir una inteligencia artificial “segura” y “beneficiosa”. Precisamente por este motivo consideran que sus herramientas deben estar disponibles de forma gradual, ya que esto “nos permite introducir mejoras y perfeccionar la mitigación de riesgos a lo largo del tiempo, mientras preparamos a todo el mundo para sistemas más potentes en el futuro”. Esta estrategia, han incidido, es aún más importante con los modelos avanzados de voz y visión.

La nueva tecnología de voz -capaz de crear voces sintéticas realistas a partir de unos pocos segundos de habla real- “abre las puertas a muchas aplicaciones creativas y centradas en la accesibilidad”. Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores malintencionados se hagan pasar por figuras públicas o cometan fraudes.

Por eso han optado por utilizar esta tecnología para un caso de uso específico: el chat de voz. “El chat de voz se ha creado con actores de doblaje con los que hemos trabajado directamente”, aunque también están colaborando de forma similar con otros. Por ejemplo, Spotify está utilizando la potencia de esta tecnología para el proyecto piloto de su función de traducción de voz, que ayuda a los creadores de podcast a ampliar el alcance de sus narraciones traduciendo los podcast a otros idiomas con su propia voz.

Pero los modelos de visión también plantean sobre la mesa nuevos desafíos, que van desde las elucubraciones sobre las personas hasta la confianza en la interpretación de las imágenes por parte del modelo en ámbitos de alto riesgo. “Antes de generalizar el despliegue, probamos el modelo con equipos rojos de riesgo en ámbitos como el extremismo y la competencia científica, y con un conjunto diverso de probadores alfa”. En este sentido, dicen, la investigación les permitió centrarse en algunos detalles clave para un uso responsable.

 

Una visión útil y segura

Al igual que otras funciones de ChatGPT, la visión pretende ayudar a los usuarios en su vida diaria. Y lo hace mejor cuando puede ver lo que tú ves.  Este enfoque se ha basado directamente en su trabajo con Be My Eyes, una aplicación móvil gratuita para invidentes y personas con baja visión, para comprender sus usos y limitaciones. “Los usuarios nos han dicho que les resulta valioso mantener conversaciones generales sobre imágenes en las que aparecen personas de fondo, por ejemplo, si aparece alguien en la tele mientras intentas averiguar cómo se ajusta el mando a distancia”.

También han tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT de analizar y hacer afirmaciones directas sobre las personas, ya que ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de las personas. “El uso en el mundo real y los comentarios nos ayudarán a mejorar aún más estas salvaguardas sin que la herramienta deje de ser útil”, han defendido.

 

Transparencia sobre las limitaciones del modelo

Los usuarios pueden depender de ChatGPT para temas especializados; por ejemplo, en campos como la investigación. “Somos transparentes sobre las limitaciones del modelo y desaconsejamos los casos de uso de mayor riesgo sin una verificación adecuada”. Además, han destacado, el modelo es competente en la transcripción de textos en inglés, pero no funciona bien con otros idiomas, especialmente los que no tienen escritura romana. “Aconsejamos a nuestros usuarios que no hablan inglés que no utilicen ChatGPT para este fin”.



Webinar ondemand

Revistas Digitales

DealerWorld Digital

 



Registro:

Eventos: