0% encontró este documento útil (0 votos)
171 vistas

Dataset

Un conjunto de datos (conocido también por el anglicismo dataset, comúnmente utilizado en algunos países hispanohablantes)1 es una colección de datos habitualmente tabulada.

Cargado por

mateomatias
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
171 vistas

Dataset

Un conjunto de datos (conocido también por el anglicismo dataset, comúnmente utilizado en algunos países hispanohablantes)1 es una colección de datos habitualmente tabulada.

Cargado por

mateomatias
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 14

UNIDAD 6

PRODUCCIÓN DE DATOS
ABIERTOS GUBERNAMENTALES
UTILIZANDO PLANILLA DE
CÁLCULO
DATASETS
Nombre de Unidad
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

1. Introducción
Ya trabajamos nuestros datos en Excel, ahora veamos qué hacer con ellos para publicarlos como
datos abiertos.

2. Concepto de Dataset

Un conjunto de datos (conocido también por el anglicismo dataset, comúnmente utilizado en


algunos países hispanohablantes)1 es una colección de datos habitualmente tabulada.

En general y en su versión más simple, un conjunto de datos corresponde a los contenidos de una
única tabla de base de datos o una única matriz de datos estadística, donde cada columna de la
tabla representa una variable en particular, y cada fila representa a un miembro determinado del
conjunto de datos en cuestión.

Un conjunto de datos contiene los valores para cada una de las variables, como por ejemplo, la
altura y el peso de un objeto, que corresponden a cada miembro del conjunto de datos. Cada uno
de estos valores se conoce con el nombre de dato. El conjunto de datos puede incluir datos para
uno o más miembros en función de su número de filas.

3. Las 5 estrellas de datos abiertos

Tim Berners-Lee, el inventor de la Web e iniciador de los Datos Enlazados (Linked Data), sugirió
un esquema de desarrollo de 5 estrellas para Datos Abiertos2, que podemos detallar de la siguiente
manera:

1
Fuente: Wikipedia. En línea: https://es.wikipedia.org/wiki/Conjunto_de_datos
Fecha de consulta: 30 de agosto de 2016.
2
Fuente: 5 Star Data. En línea: http://5stardata.info/es/
Fecha de consulta: 30 de agosto de 2016.

UNIDAD 6 2
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

Una estrella: ofrecer los datos en cualquier formato, aunque sean difíciles
de manipular, como un pdf o una imagen escaneada.

Dos estrellas: entregar los datos de manera estructurada, como en un


archivo Excel con extensión xls.

Tres estrellas: entregar los datos en un formato que no sea propietario,


como .csv en vez de Excel.

Cuatro estrellas: usar las URL (que es una dirección web de un dato que
sirve para enlazarlo con otros datos) para identificar cosas y
propiedades, de manera que se pueda apuntar a los datos. Requiere usar
un estándar RDF.

Cinco estrellas: vincular sus datos con los de otras personas, dotándolos
de contexto. En la práctica, que la información entregada también apunte
a otras fuentes de datos. Por ejemplo, si publico información sobre un
libro dentro de mis datos, enlazar descripciones del libro que
pertenezcan a otros publicadores (como DBPedia o Amazon) 3.

En este curso, estudiamos cómo limpiar nuestros datos en Excel para mejorar su calidad.
Podríamos publicar nuestro Excel, pero teniendo en cuenta las 5 estrellas de datos abiertos,
podemos subir un escalón más convirtiendo nuestra planilla a un archivo en formato .csv, lo cual
es relativamente simple y además permite al consumidor del dataset manipular los datos de
cualquier forma que quiera, sin limitación de características o de uso de algún tipo de software en
particular.

4. Formato CSV

3
Fuente: Biblioteca del Congreso Nacional de Chile. En línea: http://datos.bcn.cl/es/informacion/las-5-estrellas
Fecha de consulta: 30 de agosto de 2016.

UNIDAD 6 3
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

Veamos cómo pasamos los datos de nuestro archivo Excel al formato .csv.

Esto es muy sencillo. Simplemente, desde el Excel, debemos seleccionar la opción Archivo >
Guardar como. Se desplegará un cuadro de diálogo en el que definimos la ubicación [1] donde
queremos guardar nuestro archivo, su nombre [2] y en Tipo [3] elegimos el formato .csv:

[1]

[2]
[3]

Cap6_IMG_01

Cliqueamos en “Guardar”.

Para verificar el archivo generado, buscamos nuestro archivo y haciendo clic en el botón derecho
sobre su nombre, elegimos la opción “Abrir con” y seleccionamos algún procesador de texto. En
este caso se eligió “Bloc de notas”, pero puede utilizar Wordpad, Word o algún otro procesador
disponible:

UNIDAD 6 4
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

Cap6_IMG_02

Corroboramos entonces el contenido de nuestro archivo separado por comas:

Cap6_IMG_03

Nota: Puede suceder que al verificar el contenido nuestro archivo .csv, notemos que este utiliza
el separador “punto y coma” en lugar de “coma”, como se muestra en la siguiente imagen:

UNIDAD 6 5
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

Cap6_IMG_04

Si quisiéramos modificarlo, tendríamos que proceder como se indica a continuación. Recordemos


que, según mencionamos en la Unidad 3, punto 3.2.2., nota al pie 3, “las columnas se separan por
comas (o punto y coma, donde la coma es el separador decimal: Argentina, Brasil...)”.

Entonces, para poder cambiar los puntos y comas por comas, debemos ir a Panel de control >
Configuración regional y de idioma.

UNIDAD 6 6
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

Cap6_IMG_05

Desde allí, configurar un formato que no utilice la coma como separador decimal. En este ejemplo,
seleccionamos “Inglés (Estados Unidos)”:

UNIDAD 6 7
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

Cap6_IMG_06

Y verificamos en “Configuración adicional” que el separador de listas sea la “coma” y el símbolo


decimal el “punto”:

UNIDAD 6 8
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

Cliqueamos en aceptar y volvemos a guardar nuestro archivo Excel en formato .csv, que ahora
debería generarse utilizando “comas” como separador.

UNIDAD 6 9
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

5. Metadatos

Ya hemos generado nuestro dataset en formato .csv. El último paso previo a la publicación de los
datos consistirá en preparar los metadatos que los acompañarán proporcionando información
adicional para facilitar su localización, clasificación y reutilización. Es muy importante no solo
proporcionar el mayor número de metadatos posible, sino hacerlo de forma correcta.

La documentación de los datos consiste en definir los metadatos de cada uno de los conjuntos de
los datos o datasets a publicar. Los metadatos son datos que describen los aspectos básicos de
un conjunto de datos y son una herramienta fundamental para organizar, clasificar, relacionar y
encontrar los datos necesarios. La cantidad y calidad de metadatos asociados a un conjunto de
datos permite una mejor clasificación y una mejor búsqueda y recuperación de los datos. La
cantidad y las características de los metadatos dependerán de la plataforma donde serán
publicados los conjuntos de datos4.

Metadatos (del griego μετα, meta, ‘después de, más allá de’ y del latín datum, ‘lo que se da’,
‘dato’), literalmente «sobre datos», son datos que describen otros datos. En general, un grupo de
metadatos se refiere a un grupo de datos que describen el contenido informativo de un objeto al
que se denomina recurso. El concepto de metadatos es análogo al uso de índices para localizar
objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores,
títulos, casas editoriales y lugares para buscar libros. Así, los metadatos ayudan a ubicar datos 5.

Tomando lo desarrollado en la Guía para el uso y la publicación de metadatos elaborada por la


Subsecretaría de Innovación Pública y Gobierno Abierto del Ministerio de Modernización,
podemos especificar lo siguiente:

¿Qué son los metadatos?

4
Fuentes: En línea: http://estrategia.gobiernoenlinea.gov.co/623/articles-8248_Guia_Apertura_Datos.pdf

http://datos.gob.es/sites/default/files/guia-publicar-opendata-24h_v05.pdf

Fecha de consulta: 30 de agosto de 2016.

5
Fuente: En línea: https://es.wikipedia.org/wiki/Metadato

Fecha de consulta: 30 de agosto de 2016.

UNIDAD 6 10
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

Los metadatos son los datos sobre los datos. Es decir, son elementos descriptivos que dan
contexto a un conjunto de datos y acercan al usuario la información necesaria para entenderlos y
usarlos eficazmente.

Un título y una breve descripción son los metadatos básicos que cualquier conjunto de datos a
publicar debería tener. Después, existen muchos otros elementos que ayudan al lector a hacer un
buen uso de los datos. Por ejemplo:

 Nombre, tipo de datos y descripción de los campos: ¿qué significa cada campo?, ¿qué
datos puedo encontrar en esa columna?, ¿qué dicen y qué no dicen esos datos?, ¿cómo
debo leerlos?

 Palabras clave : clasifican a un dataset como perteneciente a un conjunto de tópicos.

 Tema: clasifican a un dataset como perteneciente a un determinado tema, dentro de una


jerarquía temática.

 Fecha de publicación: ¿cuándo se publicó por primera vez este dataset?

 Fecha de última modificación: ¿cuándo se actualizó por última vez este dataset?

 Frecuencia de actualización: ¿cada cuánto se actualiza este dataset?

 URL de descarga: ¿cómo dispongo de los datos?, ¿desde dónde puedo descargarlos?

A continuación, describimos los metadatos que se deben completar para describir un dataset a la
hora de su carga o actualización en el catálogo:

UNIDAD 6 11
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

UNIDAD 6 12
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

UNIDAD 6 13
PRODUCCIÓN DE DATOS ABIERTOS GUBERNAMENTALES UTILIZANDO PLANILLA DE CÁLCULO

UNIDAD 6 14

También podría gustarte