11 secretos oscuros de la gestión de datos

Una estrategia sólida de gestión de datos puede ser beneficiosa para cualquier empresa que quiera aprovechar el valor de los datos. Sin embargo, el camino hacia la toma de decisiones basada en datos sigue estando plagado de desafíos y enigmas.

Los datos no estructurados son difíciles de analizar

Muchos de los datos almacenados en los archivos corporativos no están muy estructurados. Uno de mis amigos anhela utilizar una IA para buscar entre las notas de texto tomadas por el personal del centro de llamadas de su banco. Estas frases pueden contener ideas que podrían ayudar a mejorar los préstamos y servicios del banco. Tal vez. Pero las notas fueron tomadas por cientos de personas diferentes con distintas ideas sobre lo que debían escribir sobre una determinada llamada. Además, los miembros del personal tienen diferentes estilos y habilidades de escritura. Algunos no escribieron mucho. Otros escriben demasiada información sobre las llamadas. El texto en sí mismo no tiene mucha estructura para empezar, pero cuando tienes un montón de texto escrito por cientos o miles de empleados durante docenas de años, entonces cualquier estructura que haya puede ser aún más débil.

Incluso los datos estructurados suelen estar desestructurados

Los buenos científicos y administradores de bases de datos guían las bases de datos especificando el tipo y la estructura de cada campo. A veces, en nombre de una mayor estructura, limitan los valores de un campo determinado a números enteros en determinados rangos o a opciones predefinidas. Incluso entonces, las personas que rellenan los formularios que almacena la base de datos encuentran formas de añadir arrugas y fallos. A veces, los campos se dejan vacíos. Otras personas ponen un guión o las iniciales "n.a." cuando creen que una pregunta no es aplicable. La gente incluso escribe su nombre de forma diferente de un año a otro, de un día a otro o incluso de una línea a otra en el mismo formulario. Los buenos desarrolladores pueden detectar algunos de estos problemas mediante la validación. Los buenos científicos de datos también pueden reducir parte de esta incertidumbre mediante la limpieza. Pero sigue siendo una locura que incluso las tablas más estructuradas tengan entradas dudosas, y que esas entradas dudosas puedan introducir incógnitas e incluso errores en el análisis.

Los esquemas de datos son demasiado estrictos o demasiado laxos

Por mucho que los equipos de datos se esfuercen en detallar las restricciones del esquema, los esquemas resultantes para definir los valores de los distintos campos de datos son demasiado estrictos o demasiado laxos. Si el equipo de datos añade restricciones estrictas, los usuarios se quejan de que sus respuestas no se encuentran en la reducida lista de valores aceptables. Si el esquema es demasiado complaciente, los usuarios pueden añadir valores extraños con poca coherencia. Es casi imposible ajustar el esquema a la perfección.

Las leyes de datos son muy estrictas

Las leyes sobre la privacidad y la protección de datos son fuertes y no hacen más que reforzarse. Entre regulaciones como el GDPR, HIPPA, y una docena más, puede ser muy difícil reunir los datos, y aún más peligroso mantenerlos por ahí esperando que un hacker se cuele. En muchos casos, es más fácil gastar más dinero en abogados que en programadores o científicos de datos. Estos quebraderos de cabeza son la razón por la que algunas empresas simplemente se deshacen de sus datos en cuanto pueden deshacerse de ellos.

Los costes de la limpieza de datos son enormes

Muchos científicos de datos confirmarán que el 90% del trabajo consiste simplemente en recopilar los datos, ponerlos de forma coherente y lidiar con los interminables agujeros o errores. La persona que tiene los datos siempre dirá: "Está todo en un CSV y listo para funcionar". Pero no mencionan los campos vacíos o los errores de caracterización. Es fácil dedicar 10 veces más tiempo a limpiar los datos para utilizarlos en un proyecto de ciencia de datos que a poner en marcha la rutina en R o Python para realizar realmente el análisis estadístico.

Los usuarios desconfían cada vez más de sus prácticas en materia de datos

Los usuarios finales y los clientes desconfían cada vez más de las prácticas de gestión de datos de las empresas, y algunos algoritmos de IA y su uso no hacen más que amplificar el miedo, dejando a muchas personas muy inquietas sobre lo que ocurre con los datos que capturan todos sus movimientos. Esos temores están alimentando la regulación y, a menudo, hacen que las empresas, e incluso los científicos de datos bien intencionados, se vean envueltos en una reacción de relaciones públicas. No sólo eso, sino que la gente está atascando deliberadamente la recogida de datos con valores falsos o respuestas erróneas. A veces, la mitad del trabajo consiste en tratar con socios y clientes malintencionados.

La integración de datos externos puede cosechar recompensas y traer desastres

Una cosa es que una empresa se apropie de los datos que recoge. El departamento de TI y los científicos de datos tienen el control sobre eso. Pero las empresas, cada vez más agresivas, están pensando en cómo integrar su información interna con los datos de terceros y con los vastos mares de información personalizada que flotan en Internet. Algunas herramientas prometen abiertamente aspirar datos sobre todos y cada uno de los clientes para construir expedientes personalizados sobre cada compra. Sí, utilizan las mismas palabras que las agencias de espionaje que persiguen a los terroristas para rastrear sus compras de comida rápida y sus puntuaciones de crédito. ¿No es de extrañar que la gente se inquiete y entre en pánico?

Los reguladores están tomando medidas contra el uso de datos

Nadie sabe cuándo el análisis inteligente de datos cruza algún límite, pero una vez que lo hace aparecen los reguladores. En un ejemplo reciente de Canadá, el gobierno exploró cómo algunas tiendas de rosquillas estaban rastreando a los clientes que también compraban en la competencia. Un reciente comunicado de prensa anunciaba: "La investigación descubrió que el contrato de Tim Hortons con un proveedor estadounidense de servicios de localización de terceros contenía un lenguaje tan vago y permisivo que habría permitido a la empresa vender datos de localización "desidentificados" para sus propios fines". ¿Y para qué? ¿Para vender más rosquillas? Los reguladores se fijan cada vez más en todo lo que implique información personal.

Su esquema de datos puede no valer la pena

Imaginamos que un algoritmo brillante puede hacer que todo sea más eficiente y rentable. Y a veces tal algoritmo es realmente posible, pero el precio también puede ser demasiado alto. Por ejemplo, los consumidores —e incluso las empresas— cuestionan cada vez más el valor del marketing dirigido que se deriva de los elaborados esquemas de gestión de datos. Algunos señalan que a menudo vemos anuncios de algo que ya hemos comprado, porque los rastreadores de anuncios no se han dado cuenta de que ya no estamos en el mercado. El mismo destino suele aguardar a otros esquemas ingeniosos. A veces, un riguroso análisis de datos identifica la fábrica con peor rendimiento, pero no importa porque la empresa firmó un contrato de arrendamiento de 30 años en el edificio. Las empresas tienen que estar preparadas para la probabilidad de que todo ese genio de la ciencia de los datos pueda producir una respuesta que no sea aceptable.

Al final, las decisiones sobre los datos suelen ser meras decisiones de juicio

Los números pueden ofrecer mucha precisión, pero lo que importa a menudo es cómo los humanos los interpretan. Después de todo el análisis de datos y la magia de la IA, la mayoría de los algoritmos requieren que se tome una decisión sobre si algún valor está por encima o por debajo de un umbral. A veces los científicos quieren un valor p inferior a 0,05. A veces, un policía quiere multar a los coches que van un 20% por encima del límite de velocidad. Estos umbrales suelen ser valores arbitrarios. A pesar de toda la ciencia y las matemáticas que pueden aplicarse a los datos, muchos procesos "basados en datos" tienen más áreas grises de lo que nos gustaría creer, dejando las decisiones en manos de lo que equivale a un instinto visceral a pesar de todos los recursos que una empresa puede haber puesto en sus prácticas de gestión de datos.

Los costes de almacenamiento de datos se disparan

Sí, las unidades de disco siguen engordando y el precio por terabyte sigue bajando, pero los programadores están acumulando bits más rápido de lo que pueden bajar los precios. Los dispositivos del internet de las cosas (IoT) siguen cargando datos y los usuarios esperan navegar por una rica colección de estos bytes para siempre. Mientras tanto, los responsables de cumplimiento y los reguladores siguen pidiendo más y más datos en caso de futuras auditorías. Una cosa sería que alguien mirara realmente algunos de los bits, pero sólo tenemos un tiempo al día. El porcentaje de datos a los que se accede de nuevo es cada vez menor. Sin embargo, el precio del almacenamiento del paquete en expansión sigue subiendo.

Imprimir Subir

TE PUEDE INTERESAR...

EMPRESAS

Snowflake lanza Arctic, su LLM de código abierto

EMPRESAS

SAS Viya sube de escalafón al incorporar IA generativa y grandes modelos de lenguaje

EMPRESAS

Qualcomm avanza en su particular revolución del entorno del PC con Snapdragon X Plus

TENDENCIAS

La economía digital ya pesa un 24,2% en el PIB

TENDENCIAS

La transformación de la salud digital impulsada por la inteligencia artificial

TENDENCIAS

El futuro de la salud: avances tecnológicos y oportunidades en el sector sanitario

OPINIÓN

España debe acelerar la Administración digital a pesar de la complejidad de los desafíos

TENDENCIAS

'ComputerWorld' y SEIS analizan la inversión TIC en sanidad en 2023

Mayte Ledo, secretaria de Estado de Digitalización e IA; José Luis Escrivá, ministro para la Transformación Digital; Mercedes Oblanca, presidenta de Accenture España y Portugal; y Alberto García Arrieta, managing director y responsable de AI & Data.

Accenture cimenta su apuesta por la IA y lanza sus nuevos GenAI Studios en Madrid y Barcelona

EMPRESAS

Miguel Sánchez Galindo, nuevo director general de DigitalES

EMPRESAS

José Andrés García Bueno dirigirá el negocio de Qlik en Iberia

TENDENCIAS

Especial Administraciones Públicas

OPINIÓN

La transformación digital en España como motor hacia una economía próspera y sostenible

OPINIÓN

Asegurando la integridad de los datos en la Administración pública: el papel crucial de la tecnología

EMPRESAS

Salesforce se retira de la compra de Informatica

TECNOLOGÍA

El Cloud & Infrastructure Forum analizará el rol de la nube para aprovechar las ventajas de la IA

Contenido Patrocinado

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

18 ABR 2024

En la edición de este año, que se celebrará el próximo 7 de mayo en Berlín, la tecnológica reunirá a diversas industrias y ecosistemas para debatir en torno al proceso de adopción de infraestructuras de datos capaces de acelerar la IA.

Forma parte de nuestra comunidad

¿Te interesan nuestras conferencias?

Especial Administraciones Públicas

No te pierdas...

11 secretos oscuros de la gestión de datos

Los datos no estructurados son difíciles de analizar

Incluso los datos estructurados suelen estar desestructurados

Los esquemas de datos son demasiado estrictos o demasiado laxos

Las leyes de datos son muy estrictas

Los costes de la limpieza de datos son enormes

Los usuarios desconfían cada vez más de sus prácticas en materia de datos

La integración de datos externos puede cosechar recompensas y traer desastres

Los reguladores están tomando medidas contra el uso de datos

Su esquema de datos puede no valer la pena

Al final, las decisiones sobre los datos suelen ser meras decisiones de juicio

Los costes de almacenamiento de datos se disparan

TE PUEDE INTERESAR...

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

La transformación digital en España como motor hacia una economía próspera y sostenible

Geografía y copilotos, aliados para los CIO de la Administración

Asegurando la integridad de los datos en la Administración pública: el papel crucial de la tecnología

La IA y los datos se alzan como protagonistas del 'Digital Government Forum' 2024

España debe acelerar la Administración digital a pesar de la complejidad de los desafíos

32 años de Linux y su comunidad

MareNostrum 5 conquista los 314.000 billones de cálculos por segundo

El gasto global en nube soberana llegará a 258.000 millones de dólares en 2027

Los 'CIO 100 Awards Spain 2023' distinguen los proyectos de innovación tecnológica del año

Gemini, de Google, a la conquista de las últimas capacidades de IA generativa

Por qué la mitad de los desarrolladores adoptarán software mejorado con inteligencia artificial

ChatGPT: 365 días después, el mundo parece otro

'Superapps': ¿La próxima gran novedad de las TI empresariales?

Las mujeres se hacen su camino en el ecosistema 'startupero' español

Grandes modelos lingüísticos: los cimientos de la IA generativa

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

Líderes de futuro: ingeniería de telecomunicación

Guía esencial de Microsoft 365