Caso prático: o processo de transformar os dados em informação útil

O modelo ETL de extração, transformação e carregamento de dados se complementa com uma auditoria que assegure o sucesso

“O cociente de inteligência de uma empresa está determinado pela medida em que sua infraestrutura informática conecta a informação, a compartilha e lhe dá estrutura” Steve Haeckel, ex-diretor de Estudos Estratégicos no IBM´s Advanced Business Institute.

Sempre ouvimos que a informação é poder. Mas não é exatamente assim.Os dados por si sós não são nada ou são muito pouco. É necessário um processo de transformação para transformar o dado em informação, que uma vez analisada será valiosa.

Nos últimos anos ouvimos diferentes nomenclaturas que fazem referência à análise de dados. À tradicional inteligência de negócio (business intelligence) se incorporam conceitos, como descobrir informação oculta (data discovery), visualização (visual analysis), agilidade e simplicidade para o usuário(agile BI) e análise de dados de negócio (business analytics).

Processo da captação de dados

Para explorar a informação, é necessária uma série de processos iniciais que transforme os dados para adaptá-los ao nosso modelo de análise.

Este processo, chamado ETL (Extraction Transformation Load), compõe-se de três fases principais:

  • Na extração obtêm-se os dados das fontes de origem mediante descarga de arquivos planos de texto ou fornecidos pelo cliente e em seguida se carregam no repositório (ODS) em tabelas intermediárias que contêm os dados sem a estrutura final do modelo.
  • Na transformação se adapta a informação. Neste processo é de norma duplicar tabelas que contêm a informação correta e a criação de novos campos ou novas tabelas com dados agregados e/ou calculados. Por exemplo, para agrupar informação por critérios geográficos, temporais ou de estrutura hierárquica ou comercial que serão úteis para a análise.
  • Finalmente, no terceiro e último passo da ETL, executam-se programas de carregamento de dados, onde uma vez reorganizada a informação a carregamos nas tabelas definitivas de nosso/s repositório/s de dados: datawarehouse (corporativo) e/ou datamart (departamental). Novamente se duplicam as tabelas que contêm a informação correta e posteriormente se criam os novos campos necessários para conter toda a informação.

A auditoria de dados

Um passo muito recomendável, em ocasiões imprescindível, é a realização de uma auditoria de dados antes de proceder ao carregamento definitivo, pois não podemos incorporar informação errônea no nosso modelo de análise que distorça resultados como valores nulos duplicados, valores extremos, texto por números…

Uma boa auditoria deve ser composta pelos seguintes passos:

  • Detecção de dados incorretos
  • Limpeza
  • Normalização
  • Deduplicação
  • Integração

No primeiro passo devemos determinar as possíveis casuísticas de dados errôneos. Dado que a maioria da informação provém normalmente de uma base de dados já operacional, estas casuísticas costumam estar identificadas. Embora execute simples processos, como contagens de dados nulos ou acumulados, pode evitar surpresas de última hora.

Com limpeza nos referimos a todos os processos que eliminam registros que não se incorporarão ao nosso armazém de dados. É aconselhável guardar estes registros em tabelas, que não se explorarão como cópia de segurança caso seja necessário voltar atrás. Referimo-nos, por exemplo, a registros sem informação válida, campos nulos ou incorretos, dados isolados, etc.

Depois se realiza a normalização para que todos os valores que fizerem referência a um mesmo dado tenham a informação unificada em um só valor, sejam nomes de pessoas, direções, idiomas das direções…

O processo de deduplicação consiste em identificar possíveis dados duplicados deixando-os em quarentena até serem desestimados e eliminados segundo critérios determinados. Em ocasiões será necessário realizar processos de cálculo paralelos (somas, contagens, média, porcentagens…) para agrupar os diferentes valores contidos em cada um dos diferentes códigos que o cliente tem.

Se todos os passos anteriores da auditoria foram realizados com sucesso, a integridade (coerência) dos dados está assegurada e podemos proceder ao carregamento definitivo

Para todos estes passos existem ferramentas no mercado que facilitam os processos automatizando-os e permitem desenhar um fluxo que faz com que as mudanças na ETL tenham um mínimo impacto no custo de desenvolvimento.

Uma vez realizados todos estes processos se finaliza a parte de ETL e obtenção de dados. Então estaremos em disposição de analisar a nossa informação. Desta primeira fase a chave é assegurar que os dados se depuram e importam de forma correta para sua posterior exploração e aplicação no âmbito da inteligência de negócio e que exporemos em um próximo artigo.

Sergio Repiso

Learn more:

A Nae trabalha com operadoras de telecomunicações, grandes empresas e administrações públicas para antecipar os desafios de crescimento e transformação do mercado, melhorando sua estratégia de negócio e eficiência operacional. A Nae conta com filiais na Espanha, Colômbia, México, Brasil e Costa Rica, formando uma equipe de mais de 600 profissionais.