Decenas de términos comprenden el vocabulario relacionado con el uso estratégico de datos.
Con el propósito de facilitar su comprensión, desde el Centro para la Cuarta Revolución Industrial de Colombia – C4IR.CO, hemos preparado este glosario básico en el que encontrarás un ejemplo de clasificación de los datos y las dimensiones de calidad que son tenidas en cuenta para su gestión y uso.
Los datos, del latín datum que significa lo que se da o sucede, son cifras o hechos sencillos, discretos y objetivos que representan eventos que ocurren y que se estructuran, capturan, cuantifican y transfieren con facilidad (Davenport y Prusak, 2000).
Según Guillén, López Ayuso, Paniagua & Cadenas (2015) y ODLIS (2020), estos hechos, de acuerdo con el contexto, son presentados de tal forma que pueden ser comprendidos, interpretados y comunicados por un ser humano o procesados por una máquina para servir de antecedente en la obtención de una conclusión.
Aunque los datos describen sólo una parte de lo que sucede sin ningún juicio o interpretación, son un recurso de gran relevancia que al combinarse con tecnologías digitales generan oportunidades para promover cambios sociales, políticos y económicos (Nugroho, Zuiderwijk, Janssen, & de Jong, 2015).
Es por esto que se dice que el dato por el dato no constituye información, sino que hace falta su procesamiento para ser relevante y aportar valor.
Clasificación de los datos
A continuación se presenta un ejemplo de clasificación de los datos del sector público considerando tres aspectos:
- Sus atributos para la gestión y uso: grandes, abiertos y personales;
- Su formato de acceso: estructurados, no estructurados y semiestructurados;
- Actores involucrados: Government to Citizen – G2C; Government to Business – G2B; Government to Government – G2G; Citizen to Citizen – C2C; Business to Business – B2B; y Business to Consumer – B2C.
Dimensiones de calidad de los datos
Para facilitar la generación de valor a partir del procesamiento de los datos y determinar la confiabilidad en la toma de decisiones, se hace necesario que los datos cuenten con características que satisfagan las expectativas y necesidades de información de sus usuarios, las cuales se centran básicamente en la calidad de los datos.
A continuación se señalan las dimensiones de calidad de datos usadas con mayor frecuencia para la gestión de datos (DAMA International, 2017; Myers, 2019):
- Accesibilidad: grado en el que es posible acceder a los datos y metadatos cuando se necesitan, así como cuánto tiempo se retienen y cómo se controla su acceso. Los metadatos incluyen información sobre cómo se creó el dato, su composición, sus usos previstos y cómo se ha mantenido a lo largo del tiempo.
- Completitud: se refiere a si todos los datos están presentes o si hay suficientes datos.
- Consistencia: grado en que los datos son equivalentes, o no, entre los sistemas o su ubicación de almacenamiento.
- Encontrables: datos y metadatos que pueden ser encontrados por la comunidad después de su publicación mediante herramientas de búsqueda.
- Exactitud: grado en el que los datos representan correctamente entidades de la vida real.
- Integridad: grado en que los conjuntos de datos están lógicamente relacionados.
- Interoperabilidad: datos y metadatos que utilizan estándares abiertos para permitir su intercambio y su reutilización.
- Oportunidad: vigencia de los datos y frecuencia con que cambian.
- Validez: los valores de los datos son correctos y se ajustan a un estándar en cuanto a formato, tipo de dato, valores posibles o rangos.
- Reusabilidad: datos y metadatos que pueden ser utilizados al quedar clara su procedencia y las condiciones de reutilización.
Considerando que los datos son el insumo para el uso de aplicaciones de IA, se presentan a continuación las etapas de la cadena de valor del Big Data (Curry et al., 2014):
- Adquisición de datos: Comprende la recopilación, filtrado y limpieza de los datos antes de disponibilizarlos en un almacén de datos o en cualquier otra solución de almacenamiento en la que se pueda realizar el análisis de datos.
- Análisis de datos: se enfoca en hacer que los datos brutos adquiridos sean susceptibles de ser utilizados en la toma de decisiones, así como en el uso específico del dominio. El análisis de datos implica explorar, transformar y modelar datos con el objetivo de resaltar datos relevantes, sintetizar y extraer información oculta útil con alto potencial para atender las necesidades de la organización.
- Almacenamiento de datos: es la persistencia y gestión de datos de una manera escalable que satisface las necesidades de las aplicaciones que requieren un acceso rápido a los datos.
- Uso de datos: Proceso que cubre las actividades de la organización que se basan en los datos y que necesitan acceso, análisis y herramientas para integrar los resultados en la organización.
Reconocer el valor de los datos dependerá del modo en que cada entidad evidencie las oportunidades generadas a partir de ellos.
Si bien no todas la entidades realizan los procesos de la cadena de valor, comprender su alcance permitirá a los gestores públicos definir dónde concentrar esfuerzos para mejorar el uso, procesamiento y explotación de los datos masivos con el fin de comprender los problemas y necesidades de los ciudadanos, mejorar los servicios, definir y desarrollar políticas y realizar gestión y seguimiento al desempeño e integridad de los gobiernos.
Para seguir profundizando acerca de los datos y su potencial, te invitamos a participar en la comunidad virtual “Economía de Datos Latinoamérica | C4IR.CO”, disponible en LinkedIn. Haz clic aquí para acceder.