Artículo
Caso práctico: el proceso de transformar los datos en información útil
El modelo ETL de extracción, transformación y carga de datos se complementa con una auditoría que asegure el éxito
“El cociente de inteligencia de una empresa está determinado por la medida en que su infraestructura informática conecta la información, la comparte y le da estructura”, Steve Haeckel, ex Director de Estudios Estratégicos en el IBM´s Advance Business Institute.
Siempre hemos escuchado que la información es poder. Pero no es exactamente así. Los datos por sí mismos no son nada o son muy poco. Es necesario un proceso de transformación para convertir el dato en información que, una vez analizada, sea valiosa.
Durante los últimos años hemos oído distintas nomenclaturas que hacen referencia al análisis de datos. A la tradicional inteligencia de negocio (business intelligence) se incorporan conceptos como descubrir información oculta (data discovery), visualización (visual analysis), agilidad y sencillez para el usuario (agile BI) y análisis de datos de negocio (business analytics).
Proceso de la captación de datos
Para explotar la información es necesaria una serie de procesos iniciales que transformen los datos para adaptarlos a nuestro modelo de análisis.
Este proceso, llamado ETL (Extraction, Transformation, Load) se compone de tres fases principales:
En la extracción se obtienen los datos de las fuentes de origen mediante descarga de ficheros planos de texto, o facilitados por el cliente, y luego se cargan en el repositorio (ODS) en tablas intermedias, que contienen los datos sin la estructura final del modelo.
En la transformación se adecúa la información. En este proceso es típico duplicar tablas que contienen la información correcta y la creación de nuevos campos o nuevas tablas con datos agregados y/o calculados. Por ejemplo para agrupar información por criterios geográficos, temporales, o de estructura jerárquica o comercial que serán útiles para el análisis.
Finalmente, en el tercer y último paso de la ETL, se ejecutan programas de carga de datos, donde una vez reorganizada la información, la cargamos en las tablas definitivas de nuestro/s repositorio/s de datos: datawarehouse (corporativo) y/o datamart (departamental). Nuevamente se duplican las tablas que contienen la información correcta y posteriormente se crean los nuevos campos necesarios para contener toda la información.
La auditoría de datos
Un paso muy recomendable, en ocasiones imprescindible, es la realización de una auditoría de datos antes de proceder a la carga definitiva, pues no podemos incorporar información errónea en nuestro modelo de análisis que distorsione resultados, como valores nulos, duplicados, valores extremos, texto por números…
Una buena auditoría debe estar compuesta por los siguientes pasos:
Detección de datos incorrectos
Limpieza
Normalización
Deduplicación
Integración
En el primer paso debemos determinar las posibles casuísticas de datos erróneos. Dado que la mayoría de la información proviene normalmente de una base de datos ya operativa, estas casuísticas acostumbran a estar identificadas. No obstante, ejecutar simples procesos como conteos de datos nulos o acumulados puede evitar sorpresas de última hora.
Con limpieza nos referimos a todos aquellos procesos que eliminan registros que no se incorporarán a nuestro almacén de datos. Es aconsejable que estos registros se guarden en tablas que no se explotarán, como copia de seguridad, por si es necesaria una marcha atrás. Nos referimos, por ejemplo, a registros sin información válida, campos nulos o incorrectos, datos aislados, etc.
Después se realiza la normalización, para que todos los valores que hagan referencia a un mismo dato tengan la información unificada, en un solo valor, ya sean nombres de personas, direcciones, idiomas de las direcciones…
El proceso de deduplicación consiste en identificar posibles datos duplicados, dejándolos en cuarentena hasta ser desestimados y eliminados según criterios determinados. En ocasiones será necesario realizar procesos de cálculo paralelos (sumas, conteo, medias, porcentajes…) para agrupar los diferentes valores contenidos en cada uno de los distintos códigos que tiene el cliente.
Si todos los pasos anteriores de la auditoría se han realizado con éxito, la integridad (coherencia) de los datos está asegurada y podemos proceder a la carga definitiva
Para todos estos pasos existen herramientas en el mercado que facilitan los procesos automatizándolos y permiten diseñar un flujo que hace que los cambios en la ETL tengan un mínimo impacto en el coste de desarrollo.
Una vez realizados todos estos procesos, se finaliza la parte de ETL y obtención de datos. Entonces estaremos en disposición de analizar nuestra información. De esta primera fase la clave es asegurar que los datos se depuran e importan de forma correcta para su posterior explotación y aplicación en el ámbito de la inteligencia de negocio, y que expondremos en un próximo artículo.