Economía digital | Artículos | 01 DIC 2003

Data mining de audio

Aspectos fundamentales del mining de audio
Angeles y Martín Grado-Caffaro.
El desarrollo progresivo de nuevos algoritmos y bases de datos para organizar y catalogar la creciente cantidad de datos, es decir el llamado mining o refinamiento de datos, se puede considerar como un hecho ciertamente relevante. El mining de datos o data mining de la literatura anglosajona conlleva un software de características peculiares; las estrategias de data mining se emplean para identificar las relaciones existentes dentro de una información masiva o, lo que es lo mismo, dentro de una gran cantidad de información. Demodo un tanto análogo, podemos hablar de mining de audio en el contexto de las técnicas de reconocimiento de voz. Aunque desde un punto de vista estrictamente tecnológico está claro que hay que distinguir entre voz y datos. Hay que tener en cuenta que existen elementos de confluencia entre voz y datos en lo concerniente a las técnicas de refinamiento o mining. El mining de audio es todavía una tecnología relativamente incipiente; de hecho, las primeras investigaciones en materia de mining de audio comenzaron al final de la década de los 70. Por otra parte, hay que tener en cuenta que las bases de datos, la Web y otras modalidades de almacenamiento de información digitalizada poseen un volumen creciente de contenido de audio. A este respecto, podemos incluir boletines de noticias en radio y televisión, acontecimientos deportivos, conversaciones telefónicas, archivos documentales, información de Internet así como grabaciones de encuentros entre personas. Realmente, este incremento creciente de información de audio en forma digital constituye un hecho de la mayor importancia y, además, constituye un claro exponente de la gran relevancia que tienen en la actualidad las técnicas digitales en el campo del audio . El desarrollo de las técnicas digitales en el ámbito del audio y del vídeo se puede considerar como un hecho de gran notoriedad lo cual ha influido mucho en la evolución de la radiodifusión. Consideraciones generales El rápido desarrollo de los microprocesadores de elevada velocidad de acción, de la capacidad de almacenamiento de información digital y de los algoritmos de reconocimiento de voz ha dado lugar a que las técnicas de mining de audio se desarrollen de modo más fácil. En concreto, la elaboración de algoritmos de reconocimiento de voz constituye un elemento clave en el tema que nos ocupa. También cabe destacar el importante papel jugado por la tecnología de microprocesadores, los cuales se pueden inscribir en un marco rápidamente cambiante en el cual la consecución de altas velocidades de procesamiento es el hecho fundamental. En este contexto, la relativamente rápida evolución de las tecnologías de fabricación de circuitos integrados ha favorecido el crecimiento del nivel de prestaciones de los microprocesadores actuales. Concretamente, se han ido superando un buen número de barreras y limitaciones de cara a la fabricación de dispositivos microelectrónicos. Paralelamente, la evolución de las técnicas digitales y del software asociado ha sido realmente satisfactoria. Esta evolución sigue adoptando un carácter claramente positivo y lo que se llamó revolución digital se puede contemplar como un hecho fuertemente consolidado. Esta revolución digital alcanzó, en su día, al campo de las tecnologías de radiodifusión y, concretamente, las técnicas de audio y vídeo. En la actualidad, el nivel de prestaciones de estas técnicas es muy atractivo lo cual ha influido en el hecho de que el mining de audio sea más asequible. Aunque los analistas de la industria pronostican que el número de productos de software de mining de audio experimentará un crecimiento en los próximos años, hay que señalar que, en la actualidad, los niveles de precisión del mining de audio son todavía realmente bajos siendo caros algunos productos; a título de ejemplo, podemos mencionar que existen paquetes de software cuyo coste es superior a los cien mil dólares para despliegue a gran escala. Hay una notable problemática en torno a las técnicas de mining de audio (relativas, por ejemplo, a la indexación fonética) que constituye un claro obstáculo al aumento del grado de prestaciones del mining de audio. A medida que los aspectos más importantes de esta problemática se vayan superando, el coste de los paquetes de software tenderá a reducirse. Los trabajos de investigación relativos al mining de audio se iniciaron a fines de la década de los 70 en varias universidades de Estados Unidos como la Universidad de Columbia, el Instituto Tecnológico de Georgia, la Universidad de Texas y la Universidad Carnegie Mellon. Posteriormente, empezaron a desarrollar esta tecnología compañías como IBM, BBN Technologies, Scan-Soft y Fast-Talk Communications. Según directivos de estas firmas, el mining de audio es una tecnología sumamente atractiva que podría dar lugar a un gran valor añadido en la compartición de conocimiento, inteligencia y aplicaciones relativas a productividad. No obstante, el mining de audio no está todavía maduro para una implantación masiva de la tecnología la cual acaba justamente de emerger como una herramienta que se puede considerar como relativamente robusta. El aspecto esencial subyacente al mining de audio estriba en la búsqueda e indexación de contenido de audio digitalizado. En el pasado, las empresas han tenido que crear y analizar manualmente transcripciones escritas de contenidos de audio porque la utilización de ordenadores para el reconocimiento, interpretación y análisis de voz digitalizada era difícil. Con el avance espectacular experimentado por los rápidos microprocesadores de hoy día, las tareas anteriormente mencionadas resultan considerablemente más fáciles para llevar a cabo; también, las nuevas investigaciones referentes a algoritmos de reconocimiento de voz son instrumentos cruciales para la optimización de la calidad del mining de audio. Actualmente, la tecnología en cuestión se puede convertir en un poderoso instrumento que podría servir de ayuda a numerosa

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios