Tecnología | Noticias | 19 SEP 2018

El MIT desarrolla un sistema de aprendizaje automático que aborda el reconocimiento de voz y de objetos

Los investigadores han demostrado su modelo con la imagen de una niña con cabello rubio y vestido azul que se encuentra frente a un faro blanco con un techo rojo en el fondo.
MIT reconocimiento de imagenes y voz
Redacción

Cuando menos nos lo esperemos, estaremos totalmente enganchados a una máquina que nos conozca y que nos ayude a realizar tareas complicadas a través del reconocimiento de voz. Sin embargo, todo apunta a que el reconocimiento de imágenes también está por llegar.

Los informáticos del MIT han desarrollado un sistema que aprende a identificar objetos dentro de una imagen basándose en una descripción oral de la misma. Con solo una imagen y un título de audio, el modelo resaltará en tiempo real las regiones relevantes de la imagen que se describe.

Según el instituto tecnológico, el modelo no requiere transcripciones manuales y anotaciones (como las tecnologías actuales de reconocimiento de voz) sino que aprende palabras directamente de clips de voz grabados y objetos en imágenes sin procesar, y los asocia entre sí. Por ejemplo, los sistemas como Siri (Apple) requieren de transcripciones de miles de horas de grabaciones de voz, un mecanismo problemático cuando ingresan a nuestro léxico nuevos términos ya que las tecnologías deben ser entrenadas nuevamente.

De momento, el modelo puede reconocer solo varios cientos de palabras y tipos de objetos diferentes; pero los investigadores esperan que algún día su técnica pueda ahorrar innumerables horas de trabajo manual.

"Queríamos hacer reconocimiento de voz de una manera más natural, aprovechando las señales adicionales y la información que los seres humanos tienen el beneficio de usar, pero que los algoritmos de aprendizaje automático no suelen tener acceso. Tenemos la idea de entrenar un modelo de manera similar a pasear a un niño por el mundo y narrar lo que está viendo ", ha explicado David Harwath, investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y  del Grupo de Sistemas de Lenguaje Hablado.

Tal y como aparece en el documento, los investigadores han demostrado su modelo con la imagen de la captura superior, donde una niña con cabello rubio y vestido azul se encuentra frente a un faro blanco con un techo rojo en el fondo. El modelo aprendió a asociar qué píxeles en la imagen correspondían con las palabras “niña”, “cabello rubio”, “vestido azul”, “faro blanco” y “techo rojo”. Cuando se escuchaba un subtítulo de audio narrado, el modelo resaltó cada uno de esos objetos en la imagen tal y como se describieron.

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios