No tenga prisa con el aprendizaje automático

Un enfoque más sencillo —buenos datos, consultas SQL, sentencias if/then...— suele dar buenos resultados.

Exagerar la complejidad

Los científicos de datos cobran mucho. Así que quizás sea tentador tratar de justificar ese sueldo recubriendo con una jerga complicada y pesados modelos labores como el análisis predictivo. No lo haga. La visión de Lorang sobre la ciencia de los datos es tan cierta hoy como cuando la pronunció hace unos años: "Hay un subconjunto muy pequeño de problemas empresariales que se resuelven mejor con el aprendizaje automático; la mayoría de ellos solo necesitan buenos datos y una comprensión de lo que significan". Lorang recomienda métodos más sencillos, como "consultas SQL para obtener datos... aritmética básica sobre esos datos (calcular diferencias, percentiles, etc.), graficar los resultados y [escribir] párrafos de explicación o recomendación".

No estoy sugiriendo que sea fácil. Lo que digo es que el aprendizaje automático no es el punto de partida cuando se trata de obtener información de los datos. Tampoco es que se necesiten necesariamente grandes cantidades de datos. De hecho, como afirma Katelyn Gleason, directora general de Eligible, es importante "empezar con los datos pequeños porque la observación de las anomalías es lo que me ha llevado a algunos de mis mejores hallazgos". A veces puede bastar con trazar las distribuciones para comprobar si hay patrones evidentes.

Sí, así es: los datos pueden ser "lo suficientemente pequeños" como para que un humano pueda detectar patrones y descubrir ideas. No es de extrañar entonces que el científico de datos de iRobot, Brandon Rohrer, sugiera con descaro: "Cuando tenga un problema, construya dos soluciones: un transformador bayesiano profundo que se ejecute en Kubernetes multicloud y una consulta SQL construida sobre una pila de suposiciones atrozmente simplificadoras. Ponga una en su currículum, la otra en producción. Todo el mundo se va a casa feliz".

De nuevo, esto no quiere decir que nunca deba usar machine learning, y definitivamente no es un argumento para afirmar que esta tecnología no ofrece un valor real. Ni mucho menos. Es solo un argumento en contra de empezar con machine learning. Para profundizar en el porqué, vale la pena revisar el artículo de Yan sobre el tema.

Los humanos conocen los datos

En primer lugar, señala Yan, es importante reconocer lo difícil que es extraer significado de los datos, dados los ingredientes críticos: "Se necesitan datos. Se necesita una cadena robusta para apoyar los flujos de datos. Y, sobre todo, se necesitan etiquetas de alta calidad".

En otras palabras, las entradas son lo suficientemente complicadas como para que no resulte especialmente útil empezar por lanzar modelos de machine learning al problema. En ese punto, solo está conociendo sus datos. Intente resolver el problema manualmente o con heurística (métodos prácticos o atajos). Yan destaca este razonamiento de Hamel Hussain, ingeniero de aprendizaje automático en GitHub: "Le obligará a familiarizarse íntimamente con el problema y los datos, que es el primer paso más importante".

Asumiendo que se trata de datos tabulares, Yan dice que vale la pena empezar con una muestra de los datos para ejecutar estadísticas, empezando por correlaciones simples, y visualizar los datos, quizás usando gráficos de dispersión. Por ejemplo, en lugar de construir un complicado modelo de aprendizaje automático para las recomendaciones, se podría simplemente "recomendar los artículos de mayor rendimiento del período anterior", argumenta Yan, y luego buscar patrones en los resultados. Esto ayuda al profesional del machine learning a familiarizarse con sus datos, lo que a su vez le ayudará a construir mejores modelos, si resultan necesarios.

¿Cuándo es necesario, o al menos recomendable, el aprendizaje automático?

Según Yan, el aprendizaje automático empieza a tener sentido cuando el mantenimiento de su sistema heurístico sin machine learning se vuelve demasiado engorroso. En otras palabras, "cuando se tiene una línea de base sin machine learning que funciona razonablemente bien, y el esfuerzo de mantener y mejorar esa línea de base supera el esfuerzo de construir e implementar un sistema basado en aprendizaje automático".

No hay una ciencia sólida sobre cuándo sucede esto, por supuesto, pero si su sistema heurístico ya no es un atajo práctico y sigue fallando, es el momento de considerar el aprendizaje automático, sobre todo si tiene tuberías de datos sólidos y etiquetas de datos de alta calidad, lo que indica buenos datos.

Sí, es tentador empezar con complejos modelos de machine learning, pero podría decirse que una de las habilidades más importantes que puede tener un científico de datos es el sentido común, saber cuándo confiar en el análisis de regresión o en unas pocas declaraciones if/then, en lugar de aprendizaje automático.

Imprimir Subir