5 conselhos para iniciar um projeto piloto de machine learning em sua empresa

Os projetos de aprendizado automático são colaborativos no esforços isolados

Você está convencido de que o machine learning oferecerá grandes benefícios à sua organização, mas agora deve convencer os outros de que funciona. Por onde começar?

Estes são alguns conselhos sobre como selecionar o projeto-piloto adequado de machine learning para obter grandes resultados:

Conselho 1 – Resultados que se possam ser postos em prática

Os projetos-piloto efetivos devem oferecer novos conhecimentos que ajudem a obter resultados rápidos e processáveis, sendo o conceito ‘processável’ a chave para o sucesso.

Concentre-se em resolver os problemas corretos conhecendo sua audiência:

  • Quem você precisa convencer do valor do modelo?
  • O que consideram de sucesso e como medem isso?
  • Que funções ou processos pretendem melhorar?
  • Como, quando e onde sua empresa utilizará um modelo para a tomada de decisões?
  • Que ações sua empresa tomará em função do modelo?

Detecte os problemas com a ideia final em mente e planeje como responder à inevitável pergunta: e agora?

Conselho 2 – Limitar o alcance do projeto

Em vez de tentar resolver grandes problemas de uma vez, utilize os projetos-piloto para experimentar e desenvolver protótipos e depois ampliar o alcance do projeto à medida que for ganhando experiência. É crucial reduzir o alcance das predições em vez do conjunto de dados. É necessário pensar nos passos de um processo de negócio e escolher um para otimizar. Se já trabalhou em armazenamento de dados ou analítica, este enfoque deve soar-lhe familiar. Comece com algo pequeno e vá crescendo com o tempo.

Por exemplo, pode ser que seus sócios queiram medir o ‘churn rate’, ou taxa de cancelamento de clientes, uma métrica que mede o número de clientes e assinantes que deixaram de seguir uma companhia (ou começaram a segui-la) em um longo período de tempo. Alguns tipos de churn podem ser prevenidos, enquanto outros são incontroláveis. Um projeto-piloto deve concentrar-se em áreas ou passos de um processo empresarial que as partes interessadas possam controlar de forma viável. Por exemplo, melhorar a predição do churn para um segmento e uma região específicos em vez de tentar captar toda a carteira de clientes.

Conselho 3 – Selecionar uma métrica para uma melhor compreensão

É importante escolher uma métrica de rendimento em nível analítico que todo o mundo entenda como o número de clientes retidos anualmente. Não tente provar que seu projeto-piloto de machine learning funciona com métricas de ciências de dados como a curva ROC, já que é difícil de interpretar para a maioria das pessoas. É necessário traduzir a linguagem da ciência de dados para a linguagem de negócio.

Para um projeto-piloto de sucesso recomendamos escolher uma métrica que ofereça granularidade na tomada de decisões. A granularidade refere-se a uma unidade de análise que pode ser uma oportunidade, um cliente ou uma transação. Para projetos-piloto de sucesso ou qualquer projeto de machine learning, a granularidade é vital para criar um modelo. As decisões atuais baseiam-se no comportamento de um único cliente ou visita ou no comportamento agregado de várias transações ou visitas ao longo do tempo?

Conselho 4 – Assegurar um mínimo de dados disponíveis

Não são necessários dados perfeitos ou petabytes de dados para um projeto-piloto. Pode-se começar a modelar facilmente com uma pequena quantidade de dados. Você precisa principalmente se assegurar de que tem fortes variáveis da métrica que tiver escolhido para predizer que contenha valores diferentes em diferentes filas. Se o valor de uma variável não mudar, não conterá informação para os algoritmos fazerem previsões.

O aprendizado automático identifica padrões entre as variáveis de entrada e um resultado através de mudanças nos valores das variáveis. Por exemplo, se temos uma variável “desconto” que contém exatamente o mesmo valor “0” em todas as filas de dados, não deve incluir-se no conjunto de dados de entrada. Se “desconto” contém valores flutuantes em filas como “0” “10” “15” “25” “30”, deve-se incluir.

Verifique que dados já estão disponíveis e que dados poderiam faltar. Por exemplo, o sistema de caixa registradora pode conter informação dos produtos vendidos e dados demográficos dos clientes, mas é possível que lhe faltem as contagens de tráfego relevantes dos pontos de venda e a informação meteorológica que influem significativamente nas métricas gerais de rendimento das lojas. Pode-se construir um modelo de machine learning com os dados existentes e acrescentar mais dados em futuras repetições.

Para determinar os tamanhos mínimos dos conjuntos de dados, deve-se levar em conta a dimensionalidade e a complexidade dos padrões dos dados. Aqui apresentamos três pautas simples:

  • Para modelos pequenos com poucas características de entrada, podem ser suficientes de 10 a 20 registros por valor de variável.
  • Para modelos medianos com mais de 20 características de entrada, considere a possibilidade de coletar 100 registros por valor de variável.
  • Para modelos grandes com mais de 100 funções de entrada, você precisará de um mínimo de 10.000 registros nos dados.

Conselho 5 – Incluir especialistas na matéria

Não subestime o sucesso de seu projeto-piloto de machine learning. No primeiro projeto de aprendizado automático, é recomendável recorrer à ajuda de um profissional experiente em ciências da informação e assim evitar cometer erros comuns ao mesmo tempo em que se assegura o sucesso dos próximos projetos.

Os projetos de aprendizado automático são colaborativos, não esforços isolados.

Este conselho é válido para um projeto-piloto e para todos os projetos futuros. Estes especialistas são os mais capacitados para ajudar a enquadrar corretamente os problemas a resolver, desmembrar questões complexas, questionar as descobertas e validar os resultados no contexto adequado.

 

Artigo editado e publicado originalmente na DataRobot

A Nae é parceiro certificado da DataRobot para soluções de machine learning automatizado e inteligência artificial voltadas à empresa e especialista em automatizar o fluxo de trabalho da ciência de dados tanto para a recomendação de algoritmos como para a construção de modelos preditivos.

Learn more:

A Nae trabalha com operadoras de telecomunicações, grandes empresas e administrações públicas para antecipar os desafios de crescimento e transformação do mercado, melhorando sua estratégia de negócio e eficiência operacional. A Nae conta com filiais na Espanha, Colômbia, México, Brasil e Costa Rica, formando uma equipe de mais de 600 profissionais.