Inteligencia artificial
Google
IA generativa

Gemini, de Google, avanza hasta una IA generativa multimodelo

Es capaz de ingerir y proporcionar contenido basado en texto, audio, imágenes y vídeo.

gemini google
El nuevo LLM de Google, Gemini. Foto de: Google.

Google ha anunciado la reconstrucción y cambio de nombre de su chatbot Bard, ahora Gemini, para dotar a las empresas y usuarios de plataformas de inteligencia artificial (IA) generativa multimodelo. Este lanzamiento representa un desafío directo a Copilot de Microsoft, basado en ChatGPT de OpenAI, y a todos los demás servicios basados en modelos grandes de lenguaje (LLM, de sus siglas inglesas).

“Gemini es actualmente el único modelo nativo de IA generativa multimodelo disponible”, según, Chirag Dekate, analista vicepresidente de Gartner. “Google ya no está tratando de ponerse al día. Ahora es al revés”. Dekate ha calificado a Gemini como “un gran problema” porque con un modelo multimodal, un solo motor de IA generativa realiza tareas individuales con mayor precisión porque está aprendiendo de un cuerpo de conocimiento mucho más grande. Básicamente, catapulta a Google a la cabeza del paquete de IA generativa.

La compañía presentó por primera vez su modelo Gemini AI en diciembre, anunciando capacidades que le permiten combinar diferentes tipos de información, entradas y salidas, incluidos texto, código, audio, imágenes y vídeo.

A diferencia de los motores exclusivos de LLM, como GPT, Llama 2 de Meta o incluso el propio PaLM2 de Google, Gemini no se basa en la misma tecnología. En su lugar, se puede entrenar utilizando todo tipo de medios y contenidos. Esto es importante porque una empresa ahora puede crear un chatbot que ya no se limita a cargar respuestas a consultas a partir del texto en el que se ha entrenado su LLM.

“Cuando veo una película, estoy viendo el vídeo, leyendo el texto (subtítulos), escuchando el audio, y todo está sucediendo simultáneamente creando una experiencia hiperinmersiva”, asegura Dekate. “Esto, en pocas palabras, es multimodalidad. Compárese con experimentar una película leyendo solo su guion (LLM); esta es la diferencia entre LLM y multimodalidad”.

El año pasado, afirma Dekate, fue de ideación, ya que las empresas y los consumidores aprendieron sobre la IA generativa y los chatbots a raíz del lanzamiento de ChatGPT. Ahora, las empresas comprenden mejor las posibilidades de la IA generativa y están abriendo sus inversiones para implementar sistemas de back-end y front-end con ella.

Si usted pertenece a una empresa de atención médica, por ejemplo, que intenta diseñar un chatbot más inmersivo para médicos, un motor de inteligencia artificial multimodal puede ingerir fragmentos de audio, imágenes radiológicas y escaneos de vídeo de resonancia magnética de un médico para crear pronósticos y resultados de tratamiento mucho más precisos.

"Esto crea una experiencia personal e hiperinmersiva. Nada de esto es posible con una simple experiencia de LLM", dijo Dekate. "Si Google puede permitir que las empresas y los consumidores experimenten esta experiencia multimodal, entonces Google tiene la oportunidad de cambiar la cuota de mercado".

En 2024, se espera que el gasto en soluciones en IA generativa alcance los 40.000 millones de dólares, frente a los 19.400 millones de dólares de 2023. Para 2027, se espera que el gasto en genAI alcance los 143.000 millones de dólares, con una tasa de crecimiento anual compuesta de cinco años del 73,3%, según la firma de investigación IDC.

"Lo que vimos el año pasado fue la aparición de modelos específicos para cada tarea: texto a texto, texto a imagen, texto a vídeo, imagen a ext, etc.", dijo Dekate. "Cada tarea tenía su propio modelo. Por lo tanto, si tienes una tarea limitada de texto a texto, entonces los LLM funcionan bien".

 



TE PUEDE INTERESAR...

Contenido Patrocinado

Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

Webinars

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital