Artículo

5 consejos para iniciar un proyecto piloto de machine learning en tu empresa

Por Nae — 24 de octubre de 2018

Los proyectos de aprendizaje automático son colaborativos, no esfuerzos aislados

Estás convencido de que el machine learning ofrecerá grandes beneficios a tu organización, pero ahora te toca convencer a otros de que funciona. ¿Por dónde empezar?

Estos son algunos consejos sobre cómo seleccionar el proyecto piloto adecuado de machine learning para obtener grandes resultados:

Consejo #1 – Resultados que se puedan poner en práctica

Los proyectos piloto efectivos deben ofrecer nuevos conocimientos que ayuden a obtener resultados rápidos y procesables, siendo el concepto ‘procesable’ la clave del éxito.

Céntrate en resolver los problemas correctos conociendo tu audiencia:

¿A quién necesitas convencer del valor del modelo?
¿Qué consideran exitoso y cómo lo miden?
¿Qué funciones o procesos les preocupa mejorar?
¿Cómo, cuándo y dónde utilizará tu empresa un modelo para la toma de decisiones?
¿Qué acciones tomará tu empresa en función del modelo?

Detecta los problemas con la idea final en mente y planifica cómo responder a la inevitable pregunta: ¿y ahora qué?

Consejo #2 – Limitar el alcance del proyecto

En vez de intentar resolver grandes problemas de golpe, utiliza los proyectos piloto para experimentar y desarrollar prototipos, y después ampliar el alcance del proyecto a medida que se vaya ganando experiencia. Es crucial reducir el alcance de las predicciones antes que el conjunto de datos. Es necesario pensar en los pasos de un proceso de negocio y elegir uno a optimizar. Si has trabajado en almacenamiento de datos o analítica, este enfoque debería sonarte familiar. Empieza con algo pequeño y ve creciendo con el tiempo.

Por ejemplo, puede que tus socios quieran medir el ‘churn rate’ o tasa de cancelación de clientes, una métrica que mide el número de clientes y suscriptores que han dejado de seguir a una compañía (o han comenzado a seguirla) en un largo período de tiempo. Algunos tipos de churn son prevenibles, mientras que otros son incontrolables. Un proyecto piloto debe centrarse en áreas o pasos de un proceso empresarial que las partes interesadas puedan controlar de forma viable. Por ejemplo, mejorar la predicción del churn para un segmento y una región específicos en lugar de intentar captar a toda la base de clientes.

Consejo #3 – Seleccionar una métrica para una mejor comprensión

Es importante elegir una métrica de rendimiento a nivel analítico que todo el mundo entienda, como el número de clientes retenidos anualmente. No intentes probar que tu proyecto piloto de machine learning funciona con métricas de ciencias de datos como la curva ROC, ya que es difícil de interpretar para la mayoría de las personas. Es necesario traducir el lenguaje de la ciencia de datos al lenguaje de negocio.

Para un proyecto piloto exitoso, recomendamos elegir una métrica que ofrezca granularidad en la toma de decisiones. La granularidad se refiere a una unidad de análisis, que puede ser una oportunidad, un cliente o una transacción. Para proyectos piloto exitosos, o cualquier proyecto de machine learning, la granularidad es vital para crear un modelo. ¿Se basan las decisiones actuales en el comportamiento de un solo cliente o visita, o en el comportamiento agregado de varias transacciones o visitas a lo largo del tiempo?

Consejo #4 – Asegurar un mínimo de datos disponibles

No se necesitan datos perfectos o petabytes de datos para un proyecto piloto. Se puede empezar a modelar fácilmente con una pequeña cantidad de datos. Principalmente necesitas asegurarte de tener fuertes variables de la métrica que hayas elegido para predecir, que contenga valores diferentes en diferentes filas. Si el valor de una variable no cambia, no contendrá información para que los algoritmos hagan predicciones.

El aprendizaje automático identifica patrones entre las variables de entrada y un resultado a través de cambios en los valores de las variables. Por ejemplo, si tenemos una variable “descuento” que contiene exactamente el mismo valor “0” en todas las filas de datos, no debería incluirse en el set de datos de entrada. Si “descuento” contiene valores fluctuantes en filas como “0”, “10”, “15”, “25”, “30”, se debería incluir.

Verifica qué datos ya están disponibles y qué datos podrían faltar. Por ejemplo, el sistema de caja registradora puede contener información de los productos vendidos y datos demográficos de los clientes, pero es posible que le falten los recuentos de tráfico relevantes de los puntos de venta y la información meteorológica que influye significativamente en las métricas generales de rendimiento de las tiendas. Se puede construir un modelo de machine learning con los datos existentes y añadir más datos en futuras repeticiones.

Para determinar los tamaños mínimos de los conjuntos de datos, hay que tener en cuenta la dimensionalidad y la complejidad de los patrones de los datos. Aquí hay tres pautas simples:

Para modelos pequeños con pocas características de entrada, pueden ser suficientes de 10 a 20 registros por valor de variable.
Para modelos medianos con más de 20 características de entrada, considera la posibilidad de recopilar 100 registros por valor de variable.
Para modelos grandes con más de 100 funciones de entrada, necesitarás un mínimo de 10.000 registros en los datos.

Consejo #5 – Incluir expertos en la materia

No subestimes el éxito de tu proyecto piloto de machine learning. En el primer proyecto de aprendizaje automático, es recomendable recurrir a la ayuda de un profesional experimentado en ciencias de la información y así evitar cometer errores comunes a la vez que se asegura el éxito de próximos proyectos.

Los proyectos de aprendizaje automático son colaborativos, no esfuerzos aislados.

Este consejo es válido para un proyecto piloto y para todos los proyectos futuros. Estos expertos son los más capacitados para ayudar a enmarcar correctamente los problemas a resolver, desglosar cuestiones complejas, cuestionar los descubrimientos y validar los resultados en el contexto adecuado.

Artículo editado y publicado originalmente en DataRobot

Nae es partner certificado de DataRobot para soluciones de machine learning automatizado e inteligencia artificial orientadas a la empresa, y especialista en automatizar el flujo de trabajo de la ciencia de datos, tanto para la recomendación de algoritmos como para la construcción de modelos predictivos.

Casos de estudio

Internet de las cosas en plantas industriales Leer caso de estudio

Implementación de una red privada 5G para el Port de Barcelona Leer caso de estudio

Prueba de concepto: machine learning para reducir el fraude bancario Leer caso de estudio