Bases de Datos
Big Data
Analítica de datos
Protección de datos

11 secretos oscuros de la gestión de datos

Una estrategia sólida de gestión de datos puede ser beneficiosa para cualquier empresa que quiera aprovechar el valor de los datos. Sin embargo, el camino hacia la toma de decisiones basada en datos sigue estando plagado de desafíos y enigmas.

Big data

Algunos llaman a los datos el nuevo petróleo. Otros los llaman el nuevo oro. Los filósofos y los economistas pueden discutir sobre la calidad de la metáfora, pero no hay duda de que la organización y el análisis de los datos es una tarea vital para cualquier empresa que quiera cumplir la promesa de la toma de decisiones basada en datos.

Y para ello, es fundamental una sólida estrategia de gestión de datos. La gestión de datos, que abarca la gobernanza de datos, las operaciones de datos, el almacenamiento de datos, la ingeniería de datos, el análisis de datos, la ciencia de datos, etc., cuando se hace bien, puede proporcionar a las empresas de todos los sectores una ventaja competitiva.

La buena noticia es que muchas facetas de la gestión de datos se entienden bien y se basan en principios sólidos que han evolucionado durante décadas. Por ejemplo, puede que no sean fáciles de aplicar o sencillos de comprender, pero gracias a los científicos de los bancos y a los matemáticos, las empresas disponen ahora de una serie de marcos logísticos para analizar los datos y llegar a conclusiones. Y lo que es más importante, también disponemos de modelos estadísticos que dibujan barras de error que delimitan los límites de nuestro análisis.

Pero a pesar de todo lo bueno que ha surgido del estudio de la ciencia de los datos y de las diversas disciplinas que la alimentan, a veces seguimos rascándonos la cabeza. Las empresas se topan a menudo con los límites del campo. Algunas de las paradojas tienen que ver con los retos prácticos de recopilar y organizar tantos datos. Otras son filosóficas y ponen a prueba nuestra capacidad de razonar sobre cualidades abstractas. Y luego está el aumento de la preocupación por la privacidad en torno a la recopilación de tantos datos en primer lugar.

A continuación se exponen algunos de los oscuros secretos que hacen que la gestión de datos sea un reto para muchas empresas.

 

Los datos no estructurados son difíciles de analizar

Muchos de los datos almacenados en los archivos corporativos no están muy estructurados. Uno de mis amigos anhela utilizar una IA para buscar entre las notas de texto tomadas por el personal del centro de llamadas de su banco. Estas frases pueden contener ideas que podrían ayudar a mejorar los préstamos y servicios del banco. Tal vez. Pero las notas fueron tomadas por cientos de personas diferentes con distintas ideas sobre lo que debían escribir sobre una determinada llamada. Además, los miembros del personal tienen diferentes estilos y habilidades de escritura. Algunos no escribieron mucho. Otros escriben demasiada información sobre las llamadas. El texto en sí mismo no tiene mucha estructura para empezar, pero cuando tienes un montón de texto escrito por cientos o miles de empleados durante docenas de años, entonces cualquier estructura que haya puede ser aún más débil.

 

Incluso los datos estructurados suelen estar desestructurados

Los buenos científicos y administradores de bases de datos guían las bases de datos especificando el tipo y la estructura de cada campo. A veces, en nombre de una mayor estructura, limitan los valores de un campo determinado a números enteros en determinados rangos o a opciones predefinidas. Incluso entonces, las personas que rellenan los formularios que almacena la base de datos encuentran formas de añadir arrugas y fallos. A veces, los campos se dejan vacíos. Otras personas ponen un guión o las iniciales "n.a." cuando creen que una pregunta no es aplicable. La gente incluso escribe su nombre de forma diferente de un año a otro, de un día a otro o incluso de una línea a otra en el mismo formulario. Los buenos desarrolladores pueden detectar algunos de estos problemas mediante la validación. Los buenos científicos de datos también pueden reducir parte de esta incertidumbre mediante la limpieza. Pero sigue siendo una locura que incluso las tablas más estructuradas tengan entradas dudosas, y que esas entradas dudosas puedan introducir incógnitas e incluso errores en el análisis.

 

Los esquemas de datos son demasiado estrictos o demasiado laxos

Por mucho que los equipos de datos se esfuercen en detallar las restricciones del esquema, los esquemas resultantes para definir los valores de los distintos campos de datos son demasiado estrictos o demasiado laxos. Si el equipo de datos añade restricciones estrictas, los usuarios se quejan de que sus respuestas no se encuentran en la reducida lista de valores aceptables. Si el esquema es demasiado complaciente, los usuarios pueden añadir valores extraños con poca coherencia. Es casi imposible ajustar el esquema a la perfección.

 

Las leyes de datos son muy estrictas

Las leyes sobre la privacidad y la protección de datos son fuertes y no hacen más que reforzarse. Entre regulaciones como el GDPR, HIPPA, y una docena más, puede ser muy difícil reunir los datos, y aún más peligroso mantenerlos por ahí esperando que un hacker se cuele. En muchos casos, es más fácil gastar más dinero en abogados que en programadores o científicos de datos. Estos quebraderos de cabeza son la razón por la que algunas empresas simplemente se deshacen de sus datos en cuanto pueden deshacerse de ellos.

 

Los costes de la limpieza de datos son enormes

Muchos científicos de datos confirmarán que el 90% del trabajo consiste simplemente en recopilar los datos, ponerlos de forma coherente y lidiar con los interminables agujeros o errores. La persona que tiene los datos siempre dirá: "Está todo en un CSV y listo para funcionar". Pero no mencionan los campos vacíos o los errores de caracterización. Es fácil dedicar 10 veces más tiempo a limpiar los datos para utilizarlos en un proyecto de ciencia de datos que a poner en marcha la rutina en R o Python para realizar realmente el análisis estadístico.

 

Los usuarios desconfían cada vez más de sus prácticas en materia de datos

Los usuarios finales y los clientes desconfían cada vez más de las prácticas de gestión de datos de las empresas, y algunos algoritmos de IA y su uso no hacen más que amplificar el miedo, dejando a muchas personas muy inquietas sobre lo que ocurre con los datos que capturan todos sus movimientos. Esos temores están alimentando la regulación y, a menudo, hacen que las empresas, e incluso los científicos de datos bien intencionados, se vean envueltos en una reacción de relaciones públicas. No sólo eso, sino que la gente está atascando deliberadamente la recogida de datos con valores falsos o respuestas erróneas. A veces, la mitad del trabajo consiste en tratar con socios y clientes malintencionados.

 

La integración de datos externos puede cosechar recompensas y traer desastres

Una cosa es que una empresa se apropie de los datos que recoge. El departamento de TI y los científicos de datos tienen el control sobre eso. Pero las empresas, cada vez más agresivas, están pensando en cómo integrar su información interna con los datos de terceros y con los vastos mares de información personalizada que flotan en Internet. Algunas herramientas prometen abiertamente aspirar datos sobre todos y cada uno de los clientes para construir expedientes personalizados sobre cada compra. Sí, utilizan las mismas palabras que las agencias de espionaje que persiguen a los terroristas para rastrear sus compras de comida rápida y sus puntuaciones de crédito. ¿No es de extrañar que la gente se inquiete y entre en pánico?

 

Los reguladores están tomando medidas contra el uso de datos

Nadie sabe cuándo el análisis inteligente de datos cruza algún límite, pero una vez que lo hace aparecen los reguladores. En un ejemplo reciente de Canadá, el gobierno exploró cómo algunas tiendas de rosquillas estaban rastreando a los clientes que también compraban en la competencia. Un reciente comunicado de prensa anunciaba: "La investigación descubrió que el contrato de Tim Hortons con un proveedor estadounidense de servicios de localización de terceros contenía un lenguaje tan vago y permisivo que habría permitido a la empresa vender datos de localización "desidentificados" para sus propios fines". ¿Y para qué? ¿Para vender más rosquillas? Los reguladores se fijan cada vez más en todo lo que implique información personal.

 

Su esquema de datos puede no valer la pena

Imaginamos que un algoritmo brillante puede hacer que todo sea más eficiente y rentable. Y a veces tal algoritmo es realmente posible, pero el precio también puede ser demasiado alto. Por ejemplo, los consumidores —e incluso las empresas— cuestionan cada vez más el valor del marketing dirigido que se deriva de los elaborados esquemas de gestión de datos. Algunos señalan que a menudo vemos anuncios de algo que ya hemos comprado, porque los rastreadores de anuncios no se han dado cuenta de que ya no estamos en el mercado. El mismo destino suele aguardar a otros esquemas ingeniosos. A veces, un riguroso análisis de datos identifica la fábrica con peor rendimiento, pero no importa porque la empresa firmó un contrato de arrendamiento de 30 años en el edificio. Las empresas tienen que estar preparadas para la probabilidad de que todo ese genio de la ciencia de los datos pueda producir una respuesta que no sea aceptable.

 

Al final, las decisiones sobre los datos suelen ser meras decisiones de juicio

Los números pueden ofrecer mucha precisión, pero lo que importa a menudo es cómo los humanos los interpretan. Después de todo el análisis de datos y la magia de la IA, la mayoría de los algoritmos requieren que se tome una decisión sobre si algún valor está por encima o por debajo de un umbral. A veces los científicos quieren un valor p inferior a 0,05. A veces, un policía quiere multar a los coches que van un 20% por encima del límite de velocidad. Estos umbrales suelen ser valores arbitrarios. A pesar de toda la ciencia y las matemáticas que pueden aplicarse a los datos, muchos procesos "basados en datos" tienen más áreas grises de lo que nos gustaría creer, dejando las decisiones en manos de lo que equivale a un instinto visceral a pesar de todos los recursos que una empresa puede haber puesto en sus prácticas de gestión de datos.

 

Los costes de almacenamiento de datos se disparan

Sí, las unidades de disco siguen engordando y el precio por terabyte sigue bajando, pero los programadores están acumulando bits más rápido de lo que pueden bajar los precios. Los dispositivos del internet de las cosas (IoT) siguen cargando datos y los usuarios esperan navegar por una rica colección de estos bytes para siempre. Mientras tanto, los responsables de cumplimiento y los reguladores siguen pidiendo más y más datos en caso de futuras auditorías. Una cosa sería que alguien mirara realmente algunos de los bits, pero sólo tenemos un tiempo al día. El porcentaje de datos a los que se accede de nuevo es cada vez menor. Sin embargo, el precio del almacenamiento del paquete en expansión sigue subiendo.



Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital