El MIT desarrolla un sistema de aprendizaje automático que aborda el reconocimiento de voz y de objetos

Los investigadores han demostrado su modelo con la imagen de una niña con cabello rubio y vestido azul que se encuentra frente a un faro blanco con un techo rojo en el fondo.

También te puede interesar:

Redacción
19 SEP 2018

Cuando menos nos lo esperemos, estaremos totalmente enganchados a una máquina que nos conozca y que nos ayude a realizar tareas complicadas a través del reconocimiento de voz. Sin embargo, todo apunta a que el reconocimiento de imágenes también está por llegar.

Los informáticos del MIT han desarrollado un sistema que aprende a identificar objetos dentro de una imagen basándose en una descripción oral de la misma. Con solo una imagen y un título de audio, el modelo resaltará en tiempo real las regiones relevantes de la imagen que se describe.

Según el instituto tecnológico, el modelo no requiere transcripciones manuales y anotaciones (como las tecnologías actuales de reconocimiento de voz) sino que aprende palabras directamente de clips de voz grabados y objetos en imágenes sin procesar, y los asocia entre sí. Por ejemplo, los sistemas como Siri (Apple) requieren de transcripciones de miles de horas de grabaciones de voz, un mecanismo problemático cuando ingresan a nuestro léxico nuevos términos ya que las tecnologías deben ser entrenadas nuevamente.

De momento, el modelo puede reconocer solo varios cientos de palabras y tipos de objetos diferentes; pero los investigadores esperan que algún día su técnica pueda ahorrar innumerables horas de trabajo manual.

"Queríamos hacer reconocimiento de voz de una manera más natural, aprovechando las señales adicionales y la información que los seres humanos tienen el beneficio de usar, pero que los algoritmos de aprendizaje automático no suelen tener acceso. Tenemos la idea de entrenar un modelo de manera similar a pasear a un niño por el mundo y narrar lo que está viendo ", ha explicado David Harwath, investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y del Grupo de Sistemas de Lenguaje Hablado.

Tal y como aparece en el documento, los investigadores han demostrado su modelo con la imagen de la captura superior, donde una niña con cabello rubio y vestido azul se encuentra frente a un faro blanco con un techo rojo en el fondo. El modelo aprendió a asociar qué píxeles en la imagen correspondían con las palabras “niña”, “cabello rubio”, “vestido azul”, “faro blanco” y “techo rojo”. Cuando se escuchaba un subtítulo de audio narrado, el modelo resaltó cada uno de esos objetos en la imagen tal y como se describieron.

Imprimir Subir

TE PUEDE INTERESAR...

Juan Fernando Muñoz (Ministerio de Sanidad)

ENTREVISTAS

“El futuro de la asistencia sanitaria pasa por el uso de los datos y de la IA”

EMPRESAS

IBM pone sus ojos en HashiCorp para reforzar su apuesta por la nube híbrida y la IA

ENTREVISTAS

“Las leyes deberían considerar el valor de la información que hace poderosa la IA”

EMPRESAS

Snowflake lanza Arctic, su LLM de código abierto

TECNOLOGÍA

Digitalización de la gestión de los viajes corporativos: retos y oportunidades

EMPRESAS

SAS Viya sube de escalafón al incorporar IA generativa y grandes modelos de lenguaje

EMPRESAS

Qualcomm avanza en su particular revolución del entorno del PC con Snapdragon X Plus

TENDENCIAS

La economía digital ya pesa un 24,2% en el PIB

TENDENCIAS

La transformación de la salud digital impulsada por la inteligencia artificial

TENDENCIAS

El futuro de la salud: avances tecnológicos y oportunidades en el sector sanitario

OPINIÓN

España debe acelerar la Administración digital a pesar de la complejidad de los desafíos

TENDENCIAS

'ComputerWorld' y SEIS analizan la inversión TIC en sanidad en 2023

Mayte Ledo, secretaria de Estado de Digitalización e IA; José Luis Escrivá, ministro para la Transformación Digital; Mercedes Oblanca, presidenta de Accenture España y Portugal; y Alberto García Arrieta, managing director y responsable de AI & Data.

Accenture cimenta su apuesta por la IA y lanza sus nuevos GenAI Studios en Madrid y Barcelona

EMPRESAS

Miguel Sánchez Galindo, nuevo director general de DigitalES

EMPRESAS

José Andrés García Bueno dirigirá el negocio de Qlik en Iberia

TENDENCIAS

Especial Administraciones Públicas

Contenido Patrocinado

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

18 ABR 2024

En la edición de este año, que se celebrará el próximo 7 de mayo en Berlín, la tecnológica reunirá a diversas industrias y ecosistemas para debatir en torno al proceso de adopción de infraestructuras de datos capaces de acelerar la IA.

Forma parte de nuestra comunidad

¿Te interesan nuestras conferencias?

Especial Administraciones Públicas

No te pierdas...

El MIT desarrolla un sistema de aprendizaje automático que aborda el reconocimiento de voz y de objetos

TE PUEDE INTERESAR...

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

La transformación digital en España como motor hacia una economía próspera y sostenible

Geografía y copilotos, aliados para los CIO de la Administración

Asegurando la integridad de los datos en la Administración pública: el papel crucial de la tecnología

La IA y los datos se alzan como protagonistas del 'Digital Government Forum' 2024

España debe acelerar la Administración digital a pesar de la complejidad de los desafíos

32 años de Linux y su comunidad

MareNostrum 5 conquista los 314.000 billones de cálculos por segundo

El gasto global en nube soberana llegará a 258.000 millones de dólares en 2027

Los 'CIO 100 Awards Spain 2023' distinguen los proyectos de innovación tecnológica del año

Gemini, de Google, a la conquista de las últimas capacidades de IA generativa

Por qué la mitad de los desarrolladores adoptarán software mejorado con inteligencia artificial

ChatGPT: 365 días después, el mundo parece otro

'Superapps': ¿La próxima gran novedad de las TI empresariales?

Las mujeres se hacen su camino en el ecosistema 'startupero' español

Grandes modelos lingüísticos: los cimientos de la IA generativa

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

Líderes de futuro: ingeniería de telecomunicación

Guía esencial de Microsoft 365