Estudios
Machine learning
Tecnología

Tecnología y emociones, un enlace singular consagrado por el ‘deep learning’

Investigadores de la UPM están trabajando en un modelo basado en redes neuronales profundas para reconocer emociones en el lenguaje hablado a través de tecnologías de aprendizaje profundo. Desciframos las claves de este nuevo avance.

deepl learning

Entrelazar tecnología y emociones puede parecer, a priori, algo artificial; sin embargo, dando un giro de tuerca a una concepción llana y obsoleta, los investigadores de la Universidad Politécnica de Madrid (UPM) han apostado por una unión, cuanto menos, singular. Y es que, tal y como ha avanzado la Universidad, un conjunto de expertos ha ahondado en la posibilidad de crear un modelo basado en redes neuronales profundas para reconocer emociones en el lenguaje hablado a través de tecnologías de aprendizaje profundo o deep learning.

En la actualidad, confiesa Javier de Lope Asiaín, profesor titular de la universidad dentro del departamento de Inteligencia Artificial que depende de la Escuela Técnica Superior de Ingenieros Informáticos, “la tecnología de reconocimiento de voz está lo suficientemente desarrollada y madura para permitir nuevos tipos de aplicaciones e interfaces”. De hecho, continúa, “lejos quedan ya los primeros programas de ordenador que permitían conjuntos reducidos de comandos que se asociaban con programas para que se ejecutasen al pronunciar la palabra, o esas otras utilidades empleadas en el dictado de textos”. Por aso aboga por dar un paso al frente: “La siguiente fase trata de reconocer no solo el contenido del mensaje, sino también las emociones expresadas en el propio mensaje”.

Este nuevo escenario plantea incontables situaciones en las que puede tener cabida esta nueva aproximación, pero una en la que se ve más clara su aplicación quizá se refiera a los sistemas de atención al cliente, defiende De Lope. No obstante, incide, en otras ocasiones “puede ser más interesante detectar otro tipo de emociones producidas por condiciones de depresión o baja autoestima. La detección de estos casos haría posible su tratamiento por parte de profesionales”.  Un ejemplo más en el que los sistemas de reconocimiento de emociones mediante voz también pueden resultar igual de útiles es en el campo de la robótica, “tanto en asistentes robóticos como a nivel industrial aumentando el interfaz de robots colaborativos”.

 

Un pilar fundamental

El nuevo protocolo en el que están trabajando De Lope y sus colegas de campo se asienta sobre la tecnología deep learning, sirviendo esta como pilar fundamental para la investigación. Esto se debe a su capacidad para permitir “la relectura de muchas de las soluciones planteadas en casi todos los campos en los que el aprendizaje automático tiene aplicación”. En concreto, asegura teniendo en consideración la aplicación que nos ocupa, “ya existían sistemas basados en métodos de aprendizaje clásico que se habían utilizado con éxito en problemas de reconocimiento automático del habla como, por ejemplo, sistemas basados en modelos ocultos de Markov”. No obstante, este tipo de métodos clásicos requieren la extracción de una serie de características de las alocuciones de ejemplo para crear un vector de características que nos permita representar idealmente de manera unívoca cada tipo de emoción asociada. En este contexto, el deep learning hace una gran aportación a través de las redes con capas convolucionales que “posibilitan el procesamiento de información gráfica y la extracción de características directamente de las imágenes”.

Y esto es precisamente de lo que se sirven los investigadores de la UPM para procesar y extraer información de un tipo especial de espectrogramas que se construyen a partir del audio y que sirven para representar los cambios en las frecuencias de los sonidos en el tiempo. “La red, mediante la definición de una estructura y una topología apropiadas, extrae, digamos, de forma automática esos conjuntos de características que luego emplea para clasificar los ejemplos. La contrapartida de este tipo de aproximaciones, en general, es la gran cantidad de ejemplos que son necesarios para que el sistema llegue a aprender correctamente con la precisión requerida”.

 

Líneas maestras de la investigación

El contexto de esta investigación se enmarca en una línea de colaboración que se establece desde hace varios años a través de diversos proyectos tanto nacionales como europeos. “Junto con el profesor Manuel Graña no nos centramos solamente en el reconocimiento de emociones mediante voz, también empleamos otro tipo de señales como las provenientes del cerebro con el análisis de electroencefalogramas, por ejemplo, para determinar situaciones de activación o estrés; y también otras más convencionales como las generadas mediante sistemas de captura de movimiento y cámaras de profundidad y RGB”. A través de ellas detectan acciones físicas de los sujetos en su entorno o actividades cognitivas que realizan delante de un ordenador gracias al análisis de su mirada.

Sin embargo, en lo concerniente al reconocimiento de emociones mediante voz, “buscamos mejorar el estado del arte actual, poniendo especial énfasis en la reducción de la potencia computacional requerida para que los sistemas puedan emplearse en cualquier tipo de dispositivo, y en la propuesta de nuevos métodos para la generación de nuevos audios a partir de los ya existentes, lo que en este campo se conoce como data augmentation”.

 

Desafíos y estado actual

Entre los principales desafíos que han desencadenado la propia idiosincrasia y el desarrollo de la investigación, De Lope fija el foco en la barrera idiomática. “Los datos de los que partimos están disponibles en otros idiomas distintos al español, principalmente en inglés y en chino, ya que no existen bases de datos abiertas en nuestro idioma que sean fácilmente accesibles”. Esto, dice, implica que se tengan que adaptar algunos resultados. “No todas las culturas son iguales y no todas las entonaciones en las frases se establecen igual. La propia creación de estas bases de datos es costosa en todos los términos, y generalmente implica la contratación de actores profesionales que declamen o representen las frases o diálogos con el matiz requerido”, explica. “No es un campo en el que puedan utilizarse libremente audios de redes sociales o medios de comunicación por motivos de privacidad y protección de la información”.

Haciendo balance de los resultados obtenidos hasta la fecha, De Lope confirma que “disponemos de prototipos que concuerdan con el rendimiento de otros modelos basados en deep learning, llegando a mejorarlos con alguno de ellos”. “Esta línea optimiza los resultados a los que se llega con aprendizaje automático clásico, tal y como está ocurriendo también en muchas otras áreas”, subraya. Sin embargo, todavía queda camino por recorrer. “Debemos continuar con la mejora de los modelos, probando y proponiendo nuevas técnicas que permitan incrementar el rendimiento, y aplicar los sistemas en casos de prueba real para analizar los resultados, determinar los límites y seguir investigando en esa línea”.

 

Con la mirada en el horizonte

Para De Lope, “es difícil determinar hacia dónde se va a ir en el futuro”. “Al igual que el deep learning ha revolucionado los planteamientos del machine learning clásico, puede surgir una nueva técnica o una nueva adaptación de alguna ya conocida que trastoque todo el campo tal y como lo conocemos ahora”. Sin embargo, infiere, “hace relativamente poco que se trabaja en deep learning, por lo que esta etapa exploratoria debería mantenerse aún algún tiempo. Todavía se están obteniendo mejoras considerables gracias a su potencia”. Un punto y final que da alas a los continuos avances de su investigación.



Partnerzones

Acelera tu Transformación Digital

Move to S4/HANA

Servicios que marcan la diferencia

Acronis Backup 12 cloud Whitepapers


Revistas Digitales

DealerWorld Digital

IDG Research

Registro:

Eventos: