Article
5 consells per iniciar un projecte pilot de machine learning a la teva empresa
Els projectes d’aprenentatge automàtic són col·laboratius, no esforços aïllats
Estàs convençut que el machine learning oferirà grans beneficis a la teva organització, però ara et toca convèncer a altres que funciona. Per on començar?
Aquests són alguns consells sobre com seleccionar el projecte pilot adequat de machine learning per obtenir grans resultats:
Consell #1 – Resultats que es puguin posar en pràctica
Els projectes pilot efectius han d’oferir nous coneixements que ajudin a obtenir resultats ràpids i processables, sent el concepte ‘processable’ la clau de l’èxit.
Centra’t en resoldre els problemes correctes coneixent la teva audiència:
A qui necessites convèncer del valor del model?
Què consideren exitós i com ho mesuren?
Quines funcions o processos els preocupa millorar?
Com, quan i on utilitzarà la teva empresa un model per a la presa de decisions?
Quines accions prendrà la teva empresa en funció del model?
Detecta els problemes amb la idea final en ment i planifica com respondre a la inevitable pregunta: i ara què?
Consell #2 – Limitar l’abast del projecte
En comptes d’intentar resoldre grans problemes de cop, utilitza els projectes pilot per experimentar i desenvolupar prototips, i després ampliar l’abast del projecte a mesura que es vagi guanyant experiència. És crucial reduir l’abast de les prediccions abans del conjunt de dades. És necessari pensar els passos d’un procés de negoci i escollir un a optimitzar. Si has treballat en emmagatzematge de dades o analítica, aquest enfocament t’hauria de resultar familiar. Comença amb alguna cosa petita i ves creixent amb el temps.
Per exemple, pot ser que els teus socis vulguin mesurar el ‘churn rate’ o taxa de cancel·lació de clients, una mètrica que mesura el nombre de clients i subscriptors que han deixat de seguir a una companyia (o han començat a seguir-la) en un llarg període de temps. Alguns tipus de churn són prevenibles, mentre que uns altres són incontrolables. Un projecte pilot ha de centrar-se en àrees o passos d’un procés empresarial que les parts interessades puguin controlar de forma viable. Per exemple, millorar la predicció del churn per a un segment i una regió específics en lloc d’intentar captar a tota la base de clients.
Consell #3 – Seleccionar una mètrica per una millor comprensió
És important triar una mètrica de rendiment a escala analítica que tothom entengui, com el nombre de clients retinguts anualment. No intentis demostrar que el teu projecte pilot de machine learning funciona amb mètriques de ciències de dades com la corba ROC, ja que és difícil d’interpretar per a la majoria de les persones. És necessari traduir el llenguatge de la ciència de dades al llenguatge de negoci.
Per a un projecte pilot exitós, recomanem triar una mètrica que ofereixi granularitat en la presa de decisions. La granularitat fa referència a una unitat d’anàlisi, que pot ser una oportunitat, un client o una transacció. Per a projectes pilot exitosos, o qualsevol projecte de machine learning, la granularitat és vital per crear un model. Es basen les decisions actuals en el comportament d’un sol client o visita, o en el comportament agregat de diverses transaccions o visites al llarg del temps?
Consell #4 – Assegurar un mínim de dades disponibles
No es necessiten dades perfectes o petabytes de dades per a un projecte pilot. Es pot començar a modelar fàcilment amb una petita quantitat de dades. Necessites assegurar-te de tenir fortes variables de la mètrica que hagis triat per predir, que contingui valors diferents en diferents files. Si el valor d’una variable no canvia, no contindrà informació perquè els algoritmes facin prediccions.
L’aprenentatge automàtic identifica patrons entre les variables d’entrada i un resultat a través de canvis en els valors de les variables. Per exemple, si tenim una variable “descompte” que conté exactament el mateix valor “0” en totes les files de dades, no hauria d’incloure’s en el set de dades d’entrada. Si “descompte” conté valors fluctuants en files com “0”, “10”, “15”, “25”, “30”, s’hauria d’incloure.
Verifica quines dades ja estan disponibles i quines dades podrien faltar. Per exemple, el sistema de caixa registradora pot contenir informació dels productes venuts i dades demogràfiques dels clients, però és possible que li faltin els recomptes de tràfic dels punts de venda i la informació meteorològica que influeix significativament en les mètriques generals de rendiment de les botigues. Es pot construir un model de machine learning amb les dades existents i afegir més dades en futures repeticions.
Per determinar les grandàries mínimes dels conjunts de dades, cal tenir en compte la dimensionalitat i la complexitat dels patrons de les dades. Aquí hi ha tres pautes simples:
Per a models petits amb poques característiques d’entrada, poden ser suficients de 10 a 20 registres per valor de variable.
Per a models mitjans amb més de 20 característiques d’entrada, considera la possibilitat de recopilar 100 registres per valor de variable.
Per a models grans amb més de 100 funcions d’entrada, necessitaràs un mínim de 10.000 registres.
Consell #5 – Incloure experts en la matèria
No subestimis l’èxit del teu projecte pilot de machine learning. En el primer projecte d’aprenentatge automàtic, és recomanable recórrer a l’ajuda d’un professional experimentat en ciències de la informació i així evitar cometre errors comuns alhora que s’assegura l’èxit de propers projectes.
Els projectes d’aprenentatge automàtic són col·laboratius, no esforços aïllats.
Aquest consell és vàlid per a un projecte pilot i per a tots els projectes futurs. Aquests experts són els més capacitats per ajudar a emmarcar correctament els problemes a resoldre, desglossar qüestions complexes, qüestionar els descobriments i validar els resultats en el context adequat.
Article editat i publicat originalment a DataRobot
Nae és partner certificat de DataRobot per a solucions de machine learning automatitzat i intel·ligència artificial orientades a l’empresa, i especialista en automatitzar el flux de treball de la ciència de dades, tant per a la recomanació d’algoritmes com per a la construcció de models predictius.