Article
Cas pràctic: el procés de transformar les dades en informació útil
El model ETL d’extracció, transformació i càrrega de dades es complementa amb una auditoria que garanteixi l’èxit
“El quocient d’intel·ligència d’una empresa està determinat per la mesura en què la seva infraestructura informàtica connecta la informació, la comparteix i li dóna estructura”, Steve Haeckel, exdirector d’Estudis Estratègics a IBM’s Advance Business Institute.
Sempre hem sentit a dir que la informació és poder. Però no és exactament així. Les dades per si mateixes no són res o són molt poc. És necessari un procés de transformació per a convertir la dada en informació que, un cop analitzada, sigui valuosa.
Durant els últims anys hem escoltat diferents nomenclatures que fan referència a l’anàlisi de dades. A la tradicional intel·ligència de negoci (business intelligence) s’incorporen conceptes com descobrir informació oculta (data discovery), visualització (visual analysis), agilitat i senzillesa per l’usuari (agile BI) i anàlisi de dades de negoci (business analytics).
Procés de captació de dades
Per a explotar la informació és necessària una sèrie de processos inicials que transformin les dades per a adaptar-les al nostre model d’anàlisi.
Aquest procés, anomenat ETL (Extraction, Transformation, Load) es compon de tres fases principals:
En l’extracció s’obtenen les dades de les fonts d’origen mitjançant la descàrrega de fitxers plans de text, o facilitats pel client, i després es carreguen en el repositori (ODS) en taules intermèdies, que contenen les dades sense l’estructura final del model.
En la transformació s’adequa la informació. En aquest procés és típic duplicar taules que contenen la informació correcta i la creació de nous camps o noves taules amb dades agregades i/o calculades. Per exemple per agrupar informació per criteris geogràfics, temporals, o d’estructura jeràrquica o comercial que seran d’utilitat per a l’anàlisi.
Finalment, en el tercer i últim pas de la ETL, s’executen programes de càrrega de dades, on un cop reorganitzada la informació, la carreguem en les taules definitives de/ls nostre/s repositori/s de dades: datawarehouse (corporatiu) i/o datamart (departamental). Novament es dupliquen les taules que contenen la informació correcta i posteriorment es creen els nous camps necessaris per a contenir tota la informació.
L’auditoria de dades
Un pas molt recomanable, a vegades imprescindible, és la realització d’una auditoria de dades abans de procedir a la càrrega definitiva, doncs no podem incorporar informació errònia en el nostre model d’anàlisi que distorsioni resultats, com valors nuls, duplicats, valors extrems, text per números…
Una bona auditoria ha d’estar composta pels següents passos:
Detecció de dades incorrectes
Neteja
Normalització
Deduplicació
Integració
En el primer pas haurem de determinar les possibles casuístiques de dades errònies. Donat que la major part de la informació prové normalment d’una base de dades ja operativa, aquestes casuístiques acostumen a estar identificades. No obstant això, executar simples processos com recomptes de dades nul·les o acumulades pot evitar sorpreses d’última hora.
Amb neteja ens referim a tots aquells processos que eliminen registres que no s’incorporaran al nostre magatzem de dades. És aconsellable que aquests registres es guardin en taules que no s’explotaran, com la còpia de seguretat, per si és necessària una marxa enrere. Ens referim, per exemple, a registres sense informació vàlida, camps nuls o incorrectes, dades aïllades, etc.
Després es realitza la normalització, per a què tots els valors que facin referència a una mateixa dada tinguin la informació unificada, en un sol valor, ja siguin noms de persones, direccions, idiomes de les direccions…
El procés de deduplicació consisteix en identificar possibles dades duplicades, deixant-los en quarantena fins a ser desestimats i eliminats segons criteris determinats. A vegades serà necessari realitzar processos de càlcul paral·lels (sumes, recompte, mitges, percentatges…) per a agrupar els diferents valors continguts a cadascún dels diferents codis que té el client.
Si totes les passes anteriors de l’auditoria s’han realitzat amb èxit, la integritat (coherència) de les dades està garantida i podem procedir a la càrrega definitiva.
Per a totes aquestes passes existeixen eines en el mercat que faciliten els processos automatitzant-los i permeten dissenyar un flux que fa que els canvis en la ETL tinguin un mínim impacte en el cost del desenvolupament.
Un cop realitzats tots aquests processos, es finalitza la part de ETL i obtenció de dades. Aleshores estarem en disposició d’analitzar la nostra informació. D’aquesta primera fase la clau és garantir que les dades es depuren i s’importen correctament per a la seva posterior explotació i aplicació en l’àmbit de la intel·ligència de negoci, i que exposarem en el proper article.