Dataset
Dataset
PRODUCCIÓN DE DATOS
ABIERTOS GUBERNAMENTALES
UTILIZANDO PLANILLA DE
CÁLCULO
DATASETS
Nombre de Unidad
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
1. Introducción
Ya trabajamos nuestros datos en Excel, ahora veamos qué hacer con ellos para publicarlos como
datos abiertos.
2. Concepto de Dataset
En general y en su versión más simple, un conjunto de datos corresponde a los contenidos de una
única tabla de base de datos o una única matriz de datos estadística, donde cada columna de la
tabla representa una variable en particular, y cada fila representa a un miembro determinado del
conjunto de datos en cuestión.
Un conjunto de datos contiene los valores para cada una de las variables, como por ejemplo, la
altura y el peso de un objeto, que corresponden a cada miembro del conjunto de datos. Cada uno
de estos valores se conoce con el nombre de dato. El conjunto de datos puede incluir datos para
uno o más miembros en función de su número de filas.
Tim Berners-Lee, el inventor de la Web e iniciador de los Datos Enlazados (Linked Data), sugirió
un esquema de desarrollo de 5 estrellas para Datos Abiertos2, que podemos detallar de la siguiente
manera:
1
Fuente: Wikipedia. En línea: https://es.wikipedia.org/wiki/Conjunto_de_datos
Fecha de consulta: 30 de agosto de 2016.
2
Fuente: 5 Star Data. En línea: http://5stardata.info/es/
Fecha de consulta: 30 de agosto de 2016.
UNIDAD 6 2
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
Una estrella: ofrecer los datos en cualquier formato, aunque sean difíciles
de manipular, como un pdf o una imagen escaneada.
Cuatro estrellas: usar las URL (que es una dirección web de un dato que
sirve para enlazarlo con otros datos) para identificar cosas y
propiedades, de manera que se pueda apuntar a los datos. Requiere usar
un estándar RDF.
Cinco estrellas: vincular sus datos con los de otras personas, dotándolos
de contexto. En la práctica, que la información entregada también apunte
a otras fuentes de datos. Por ejemplo, si publico información sobre un
libro dentro de mis datos, enlazar descripciones del libro que
pertenezcan a otros publicadores (como DBPedia o Amazon) 3.
En este curso, estudiamos cómo limpiar nuestros datos en Excel para mejorar su calidad.
Podríamos publicar nuestro Excel, pero teniendo en cuenta las 5 estrellas de datos abiertos,
podemos subir un escalón más convirtiendo nuestra planilla a un archivo en formato .csv, lo cual
es relativamente simple y además permite al consumidor del dataset manipular los datos de
cualquier forma que quiera, sin limitación de características o de uso de algún tipo de software en
particular.
4. Formato CSV
3
Fuente: Biblioteca del Congreso Nacional de Chile. En línea: http://datos.bcn.cl/es/informacion/las-5-estrellas
Fecha de consulta: 30 de agosto de 2016.
UNIDAD 6 3
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
Veamos cómo pasamos los datos de nuestro archivo Excel al formato .csv.
Esto es muy sencillo. Simplemente, desde el Excel, debemos seleccionar la opción Archivo >
Guardar como. Se desplegará un cuadro de diálogo en el que definimos la ubicación [1] donde
queremos guardar nuestro archivo, su nombre [2] y en Tipo [3] elegimos el formato .csv:
[1]
[2]
[3]
Cap6_IMG_01
Cliqueamos en “Guardar”.
Para verificar el archivo generado, buscamos nuestro archivo y haciendo clic en el botón derecho
sobre su nombre, elegimos la opción “Abrir con” y seleccionamos algún procesador de texto. En
este caso se eligió “Bloc de notas”, pero puede utilizar Wordpad, Word o algún otro procesador
disponible:
UNIDAD 6 4
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
Cap6_IMG_02
Cap6_IMG_03
Nota: Puede suceder que al verificar el contenido nuestro archivo .csv, notemos que este utiliza
el separador “punto y coma” en lugar de “coma”, como se muestra en la siguiente imagen:
UNIDAD 6 5
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
Cap6_IMG_04
Entonces, para poder cambiar los puntos y comas por comas, debemos ir a Panel de control >
Configuración regional y de idioma.
UNIDAD 6 6
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
Cap6_IMG_05
Desde allí, configurar un formato que no utilice la coma como separador decimal. En este ejemplo,
seleccionamos “Inglés (Estados Unidos)”:
UNIDAD 6 7
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
Cap6_IMG_06
UNIDAD 6 8
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
Cliqueamos en aceptar y volvemos a guardar nuestro archivo Excel en formato .csv, que ahora
debería generarse utilizando “comas” como separador.
UNIDAD 6 9
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
5. Metadatos
Ya hemos generado nuestro dataset en formato .csv. El último paso previo a la publicación de los
datos consistirá en preparar los metadatos que los acompañarán proporcionando información
adicional para facilitar su localización, clasificación y reutilización. Es muy importante no solo
proporcionar el mayor número de metadatos posible, sino hacerlo de forma correcta.
La documentación de los datos consiste en definir los metadatos de cada uno de los conjuntos de
los datos o datasets a publicar. Los metadatos son datos que describen los aspectos básicos de
un conjunto de datos y son una herramienta fundamental para organizar, clasificar, relacionar y
encontrar los datos necesarios. La cantidad y calidad de metadatos asociados a un conjunto de
datos permite una mejor clasificación y una mejor búsqueda y recuperación de los datos. La
cantidad y las características de los metadatos dependerán de la plataforma donde serán
publicados los conjuntos de datos4.
Metadatos (del griego μετα, meta, ‘después de, más allá de’ y del latín datum, ‘lo que se da’,
‘dato’), literalmente «sobre datos», son datos que describen otros datos. En general, un grupo de
metadatos se refiere a un grupo de datos que describen el contenido informativo de un objeto al
que se denomina recurso. El concepto de metadatos es análogo al uso de índices para localizar
objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores,
títulos, casas editoriales y lugares para buscar libros. Así, los metadatos ayudan a ubicar datos 5.
4
Fuentes: En línea: http://estrategia.gobiernoenlinea.gov.co/623/articles-8248_Guia_Apertura_Datos.pdf
http://datos.gob.es/sites/default/files/guia-publicar-opendata-24h_v05.pdf
5
Fuente: En línea: https://es.wikipedia.org/wiki/Metadato
UNIDAD 6 10
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
Los metadatos son los datos sobre los datos. Es decir, son elementos descriptivos que dan
contexto a un conjunto de datos y acercan al usuario la información necesaria para entenderlos y
usarlos eficazmente.
Un título y una breve descripción son los metadatos básicos que cualquier conjunto de datos a
publicar debería tener. Después, existen muchos otros elementos que ayudan al lector a hacer un
buen uso de los datos. Por ejemplo:
Nombre, tipo de datos y descripción de los campos: ¿qué significa cada campo?, ¿qué
datos puedo encontrar en esa columna?, ¿qué dicen y qué no dicen esos datos?, ¿cómo
debo leerlos?
Fecha de última modificación: ¿cuándo se actualizó por última vez este dataset?
URL de descarga: ¿cómo dispongo de los datos?, ¿desde dónde puedo descargarlos?
A continuación, describimos los metadatos que se deben completar para describir un dataset a la
hora de su carga o actualización en el catálogo:
UNIDAD 6 11
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
UNIDAD 6 12
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
UNIDAD 6 13
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO
UNIDAD 6 14