Data mining

Penetrando en las profundidades de las bases de datos

Actualmente, la cantidad de información recogida por las empresas se está duplicando cada cinco años. Sin embargo, para muchas de ellas está resultando difícil encontrar formas de utilizar todos esos datos con el fin de mejorar su cuenta de resultados. Cuando el volumen de los datos almacenados aumenta demasiado, pocas compañías disponen de la capacidad o los medios necesarios para obtener beneficios de todo ello. La tecnología de data mining cobrará mayor importancia en los próximos años.

Aunque hay muchas herramientas de acceso a datos y de generación de informes -sistemas SGBD relacionales, herramientas de análisis multidimensional, software de consultas ad hoc y generación de informes, y paquetes de análisis estadístico- que permiten a las empresas sondear toda esa información corporativa, esas herramientas no permiten a los usuarios encontrar los indicios o tendencias ocultas en grandes bases de datos ni localizar los factores que intentan encontrar para utilizarlos como ayuda en la toma de decisiones comerciales más rápidas y precisas.
Sólo el software de minería de datos -que es la más compleja de las herramientas de consulta de datos- puede ayudar a las compañías a extraer el "oro" que representan las porciones de información valiosa escondidas en las profundidades de sus bases de datos corporativas. El software de minería de datos descubre en esa información indicios y tendencias previamente no detectadas, en respuesta a preguntas o planteamientos poco precisos (a diferencia de las consultas de datos tradicionales, que son específicas y dirigidas a un tema concreto).
A causa de su complejidad, la tecnología de minería de datos ha sido utilizada tradicionalmente en contextos científicos y de ingeniería, al haberse originado en laboratorios universitarios. En los primeros procedimientos se utilizaban sistemas inductivos basados en reglas, redes neuronales y estadísticas de regresión avanzadas, y los primeros usuarios eran generalmente personas con capacidad para analizar esos datos. Sin embargo, la minería de datos se está convirtiendo ya en algo corriente en los sectores comerciales, y en particular en compañías con las características siguientes: grandes volúmenes de datos; comunidades de usuarios que no son especialistas en análisis de datos; y datos corporativos detallados, con unas relaciones entre esos datos que son de tipo ad-hoc y cambiantes, y no pre-determinadas ni siquiera lógicas.

Se descubre el secreto
Casi todas las empresas importantes están implementando sistemas de soporte de decisiones que permiten a los usuarios finales y a los directores acceder a cantidades enormes de datos corporativos. No obstante, esos sistemas están originando problemas, debido a que los volúmenes de datos son demasiado grandes y complejos para que los usuarios puedan comprenderlos. Los usuarios limitan sus análisis de datos a sus propios supuestos o planteamientos iniciales y, aunque las herramientas actuales podrían ser adecuadas para acceder a los datos y generar informes sobre ellos, no lo son para realizar predicciones de tipo comercial.
El software que sí puede resolver estos problemas -el software de minería de datos- se está convirtiendo ya en algo corriente en muchos sectores comerciales. Incluso así, muchas empresas están manteniendo una actitud de secreto y reserva respecto a la forma en que utilizan este software. En 1995, la consultora Meta Group inició un estudio de tres años para consultar a 2.000 empresas y determinar en qué medida realizaban actividades de minería de datos. Los analistas no habían previsto lo difícil que sería llevarla a cabo, al negarse las empresas consultadas a explicar su actividad de minería de datos.
¿Por qué se muestran tan reservadas las compañías? Porque las empresas que asumieron el riesgo e invirtieron mucho tiempo y dinero en minería de datos cuando era una tecnología no comprobada no desean que se erosione su ventaja competitiva respecto al tiempo de llegada de sus productos al mercado. La minería de datos ha continuado siendo un secreto durante tanto tiempo porque es un proceso complejo. Según los analistas, un 70% del proceso de minería de datos consiste en preproceso; es decir, simplemente limpiar los datos de forma que estén dispuestos para realizar minería en ellos. Durante el preproceso, la atención se concentra en un subconjunto o subset de datos, que está determinado por un proceso de detección de minería de datos realizado antes del análisis en profundidad. Durante ese proceso, un motor de minería de datos explora enormes volúmenes de datos y detecta "puntos calientes" merecedores de investigación adicional.

Minería más rápida
Con el fin de promover una comercialización más amplia de esta tecnología, los vendedores están intentando acelerar el proceso de minería de datos. Una de las teorías aplicadas consiste en acortar el tiempo necesario para la limpieza de los datos. Una forma de acelerar el proceso de minería es ceder en la precisión a favor de una mayor rapidez. Muchos analistas en empresas preferirían obtener unos resultados que fueran exactos en un 70% en un día a tener que esperar una semana para una conseguir una precisión del 90%.
Sin embargo, sucede sencillamente que muchos de los algoritmos de minería de datos actuales no son capaces de manejar grandes conjuntos de datos. El problema es que los algoritmos utilizados en estas situaciones han sido desarrollados para un conjunto de condiciones diferentes. Los algoritmos cuya acción está determinada por la detección de datos se encuentran con frecuencia ante obstáculos insuperables, especialmente al trabajar con grandes contingentes de datos. No siempre son capaces de escalar en tamaño, y sus funciones matemáticas no son muy extensas. Es necesaria una nueva clase de algoritmos capaces de escalar mejor y de hacer un uso mejor del proceso en paralelo.
Los algoritmos actuales han sido diseñados para ser utilizados en estaciones de trabajo de un solo usuario, en un formato de fichero-a-fichero. Hoy, hay más empresas con grandes bases de datos en paralelo que contienen terabytes de datos.
El sector continúa necesitando un método estándar para la encapsulación de minería de datos en sistemas SGBDR. Mientras los vendedores de alto nivel intentan conseguir que los procesos de minería de datos funcionen en paralelo en muchos procesadores para grandes bases de datos, a los vendedores de herramientas de nivel inferior les preocupa más la facilidad de uso que sondear en busca de información en grandes volúmenes de datos. Otra forma de facilitar la utilización de la minería de datos es utilizar Internet.

Data mining en data warehouses
La minería de datos y los almacenes de datos o "data warehouses" están estrechamente relacionados. La minería de datos, considerada en un tiempo como un subgrupo de las actividades asociadas a un data warehouse, afecta hoy directamente al diseño y a la implementación de los grandes almacenes de datos.
Con frecuencia, la minería de datos se lleva a cabo al lado del almacén de datos, realizándose la detección de información y los análisis predictivos en la mina de datos propiamente dicha. Los datos son trasladados del almacén a la mina, donde son reestructurados, transformados y analizados. Si el almacén es un orde

Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital