0% encontró este documento útil (0 votos)
41 vistas64 páginas

azure_dp900

El documento proporciona una guía sobre los conceptos fundamentales de los datos en Microsoft Azure, incluyendo datos estructurados, semiestructurados y no estructurados, así como su almacenamiento y procesamiento. También se exploran los roles de trabajo relacionados con los datos, como administradores de bases de datos, ingenieros de datos y analistas de datos, junto con los servicios de datos disponibles en Azure. La información está diseñada para preparar a los profesionales para la certificación Azure Data Fundamentals.

Cargado por

Sebastian Mora
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
41 vistas64 páginas

azure_dp900

El documento proporciona una guía sobre los conceptos fundamentales de los datos en Microsoft Azure, incluyendo datos estructurados, semiestructurados y no estructurados, así como su almacenamiento y procesamiento. También se exploran los roles de trabajo relacionados con los datos, como administradores de bases de datos, ingenieros de datos y analistas de datos, junto con los servicios de datos disponibles en Azure. La información está diseñada para preparar a los profesionales para la certificación Azure Data Fundamentals.

Cargado por

Sebastian Mora
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 64

azure_dp900.

md 2025-03-16

Aspectos básicos de los datos en Microsoft Azure


Ruta de Aprendizaje
1. Aspectos básicos de los datos en Microsoft Azure: recorrido por los principales conceptos de los datos
2. Aspectos básicos de los datos en Azure: datos relacionales en Azure
3. Aspectos básicos de los datos en Azure: datos no relacionales en Azure
4. Aspectos básicos de los datos en Azure: Exploración del análisis de datos en Azure

Aspectos básicos de los datos en Microsoft Azure: recorrido por los


principales conceptos de los datos
Los datos son la base sobre la que se crea todo el software. Al aprender sobre formatos de datos comunes,
cargas de trabajo, roles y servicios, puede prepararse para una carrera como profesional de datos. Esta ruta de
aprendizaje lo ayuda a prepararse para la certificación Azure Data Fundamentals.

1. Exploración de los conceptos de los datos principales


2. Exploración de los roles y servicios de datos

Exploración de los conceptos de los datos principales


Introducción

Ahora los datos pueden recopilarse de manera más fácil y almacenarse de forma más barata, lo que permite
que casi todas las empresas puedan tener acceso a ellos. Las soluciones de datos incluyen tecnologías de
software y plataformas que pueden facilitar la recopilación, el análisis y el almacenamiento de información
valiosa. Todas las empresas buscan aumentar sus ingresos y obtener mayores ganancias. En este mercado
competitivo, los datos son un recurso valioso. Cuando se analizan correctamente, los datos se pueden
convertir en una gran cantidad de información útil que ayuda a tomar decisiones empresariales críticas.

Aspectos básicos de los datos en Microsoft Azure

1. Identificación de los formatos de datos


2. Exploración del almacenamiento de archivos
3. Exploración de bases de datos
4. Exploración del procesamiento de datos transaccionales
5. Exploración del procesamiento de datos análiticos

Identificación de los formatos de datos

Los datos son colecciones de elementos, como números, descripciones y observaciones, que se usan para
registrar informacion. Las estructuras de datos en que se organizan suelen representar entidades como
(Usuarios, Pases, Departamentos, Empleados), las cuales cuentan con atributos que son las características de la
entidad como (Nombre, Apellido, Dirección,ID, Edad)

Datos Estructurados

Esquema tabular (tabla) y fijo. Los datos son los mismos y mantienen una misma estructura.

1 / 64
azure_dp900.md 2025-03-16

Ejemplo

ID Nombre Apellido Edad

1 Juan Mora 25

2 Cristiano Aveiro 40

3 Luis Rodriguez 27

Datos Semiestructurados

Información con cierta estructura, pero permite cierta variación entre las instancias de entidad. Ejemplo,
cuando ciertos atributos pueden ser muy variados, un empleado con multiples correos y otros con solo uno.

El formato común para datos semiestructurados es JSON, sin embargo, tambien puede ser XML.

Ejemplo

// Customer 1
{
"firstName": "Joe",
"lastName": "Jones",
"address":
{
"streetAddress": "1 Main St.",
"city": "New York",
"state": "NY",
"postalCode": "10099"
},
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "[email protected]"
}
]
}

// Customer 2
{
"firstName": "Samir",
"lastName": "Nadoy",
"address":
{
"streetAddress": "123 Elm Pl.",
"unit": "500",
"city": "Seattle",
"state": "WA",
2 / 64
azure_dp900.md 2025-03-16

"postalCode": "98999"
},
"contact":
[
{
"type": "email",
"address": "[email protected]"
}
]
}

Datos No Estructurados

Datos que no tienen una estructura definida o patrón en común. Documentos, Imágenes, Audios, Videos y
Archivos Binarios.

Almacenes de datos (Data Stores)

Donde se guarda la información ya sea estructurada, semiestructurada y/o no estructurada para


posteriormente recuperarse para su análisis y generación de informes. Se pueden tener dos categorías:

Almacenes de archivos (File Stores)


Bases de datos (Databases)

Exploración de los conceptos de los datos principales

Exploración del almacenamiento de archivos

Capacidad de almacenar datos en archivos, ya sea en disco duro, medios extraibles o en alguna plataforma en
internet. En las organizaciones se usan sistemas compartidos, donde cada vez este sistema se hospeda en la
nube, permitiendo un almacenamiento rentable, seguro y de confianza para grandes volúmenes de datos.

Los formatos dependeran del tipo de dato, aplicación, servicio, legibilidad o eficiencia. A continuación se
describen algunos formatos de archivo comunes

Archivos de texto delimitado

Archivos de texto sin formato con delimitadores y terminadores de fila; usualmente la primera fila incluye los
nombres del campo. El formato mas común es CSV que significa comma separated value, sin embargo,
puede estar separado por otros valores diferentes a la coma.

Es una buena opción para datos estructurados con un acceso a una amplia gama de aplicaciones y un
formato legible.

Ejemplo

FirstName,LastName,Email
Joe,Jones,[email protected]
Samir,Nadoy,[email protected]

3 / 64
azure_dp900.md 2025-03-16

Notación de objetos Javascript (JSON)

JavaScript Object Notation es un esquema jerárquico para definir entidades de datos. Los atributos
pueden ser objetos (o una colección de datos), aumentando la flexibilidad del formato. Lo que permite su
viabilidad con datos estructurados y semiestructurados.

Objetos se incluyen entre llaves {}


Colecciones se incluyen entre corchetes []

Ejemplo

{
"customers":
[
{
"firstName": "Joe",
"lastName": "Jones",
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "[email protected]"
}
]
},
{
"firstName": "Samir",
"lastName": "Nadoy",
"contact":
[
{
"type": "email",
"address": "[email protected]"
}
]
}
]
}

Lenguaje de marcado extensible (XML)

Reemplazado en gran medida por el JSON, menos detallado. Usa etiquetas entre corchetes angulares <.../>
para definir elementos y atributos, como se muestra en este ejemplo:

4 / 64
azure_dp900.md 2025-03-16

<Customers>
<Customer name="Joe" lastName="Jones">
<ContactDetails>
<Contact type="home" number="555 123-1234"/>
<Contact type="email" address="[email protected]"/>
</ContactDetails>
</Customer>
<Customer name="Samir" lastName="Nadoy">
<ContactDetails>
<Contact type="email" address="[email protected]"/>
</ContactDetails>
</Customer>
</Customers>

Objeto Binario Grande (BLOB)

En ultima instancia todos los archivos se almacenan como datos binarios, pero en los formatos legibles
descritos anteriormente. Los bytes de datos se asignan a caracteres imprimibles (ASCII o UNICODE)

BLOB (Binary Large Object)

Formatos de archivo optimizados

Formatos que permiten la compresión, indexación y un almacenamiento y procesamiento eficientes. Entre los
cuales, podemos encontrar Avro, ORC y Parquet

Avro: formato basado en filas creado por Apache. Cada registro contiene un encabezado que describe
la estructura de los datos en ese registro. Este encabezado se almacena como JSON. Los datos por su
parte se almacenan como información binaria. Entonces una aplicación usa el encabezado para analizar
los datos binarios y extraer los que campos que contienen. Formato adecuado para comprimir datos y
reducir requisitos de almacenamiento y ancho de banda de red

ORC (Formato de columnas de filas optimizadas): Organiza los datos en columnas en lugar de filas. Lo
desarrollo HortonWorks para optimizar las operaciones de lectura y escritura en Apache Hive. Un archivo
ORC contiene franjas de datos. Cada franja contiene los datos de una columna o de un conjunto de
columnas. Una franja contiene un índice de filas de dicha franja, los datos de cada fila y un pie de página
que contiene información estadística (count, sum, max, min, etc) de cada columna.

Parquet: Creado por Cloudera y X. Contiene grupos de filas. Los datos de cada columna se almacenan
juntos en el mismo grupo de filas. Cada grupo de filas contiene uno o varios fragmentos de datos.
Incluye metadatos que describen el conjunto de filas que hay en cada fragmento. Una app puede usar
estos metadatos para localizar rápidamente el fragmento correcto para un conjunto determinado de
filas. Parquet destaca por almacenar y procesar tipos de datos anidados de forma eficaz. Admite
esquemas de compresión y codificación muy eficaces.

Hive es un sistema de almacenamiento de datos que admite resúmenes de datos rápidos y consultas
en grandes conjuntos de datos

Exploración de los conceptos de los datos principales

5 / 64
azure_dp900.md 2025-03-16

Exploración de bases de datos

Las bases de datos se usan para definir un sistema central en el que los datos se pueden almacenar y
consultar.

Bases de datos relacionales

Suelen usarse en almacenamiento y consulta datos estructurados. Los datos se almacenan en tablas que
representan entidades, por ejemplo, clientes, productos o pedidos de ventas. Las instancias tienen claves
principales para la identificación única de los datos; estas claves suelen usarse para hacer referencias a la
instancia de entidad en otras tablas.

Bases de datos no relacionales

Bases de datos de clave-valor: Cada registro consta de una clave única y un valor asociado, que
puede estar en cualquier formato.

Bases de datos de documentos: Datos clave-valor, pero con la particularidad que los valores son un
documento JSON (El sistema esta optimizado para consultar y analizar).

Bases de datos de familia de columnas: Datos tabulares con filas y columnas, pero con la posibilidad
de dividir esas columnas en grupos, conocidos como familias de columnas. Cada familia de columnas
contiene un conjunto de columnas que tienen una relación lógica entre sí.

Bases de datos de grafos: Almacenan entidades como nodos con vínculos para definir relaciones
entre ellas.

Exploración del procesamiento de datos transaccionales

Un sistema transaccional registra las transacciones que encapsulan eventos especificos de los que la
organización quiere hacer seguimiento.

6 / 64
azure_dp900.md 2025-03-16

Suelen ser de gran volumen; a veces, controlan muchos millones de transacciones en un solo día. El trabajo
que realizan estos sistemas se conoce como procesamiento de transacciones en linea OLTP.

Son soluciones basadas en la optimización de lectura y escritura, con el fin de admitir cargas de trabajo
transaccionales en las que se crean, recuperan, actualizan y eliminan registros de datos CRUD. Los sistemas
OLTP aplican transacciones que admiten la denominada semántica ACID:

Atomicidad: Cada transacción se trata como unidad única, la cual se completa correctamente o
produce un error general.
Coherencia: Las transacciones solo pueden pasar los datos de la base de datos de un estado válido a
otro.
Aislamiento: Las transacciones simultáneas no pueden interferir entre sí y deben dar lugar a un estado
coherente de la base de datos.
Durabilidad: Cuando se ha confirmado una transacción, permanece confirmada.

Suelen usarse para admitir aplicaciones activas que procesan datos empresariales, a menudo
denominadas aplicaciones de línea de negocio LOB.

Exploración del procesamiento de datos análiticos

Sistemas enfocados principalmente (o únicamente) de solo lectura que almacenan grandes volúmenes de
datos históricos o métricas empresariales. Los análisis pueden basarse en una instantánea de los datos en un
momento concreto o en una serie de instantáneas.

{style="display:block;margin:0 auto"}

1. Los datos se extraen, transforman y cargan ETL en un lago de datos data lake para su análisis.
2. Datos se cargan en un esquema de tablas normalmente almacén de lago de datos basado en
Spark o un almacenamiento de datos con un motor SQL totalmente relacional.
3. Los datos se pueden cargar en el OLAP o cubo. Los valores númericos se calculan para intersecciones
de dimensiones a partir de tablas de dimensiones.
4. Los lagos de datos, el almacenamiento de datos y el modelo análitico se pueden consultar para generar
informes, visualizaciones y paneles.

Los lagos de datos son comunes en escenarios de procesamiento analítico de datos modernos, en los que se
debe recopilar y analizar un gran volumen de datos basados en archivos.

Los almacenes de lago de datos son una innovación más reciente que combina el almacenamiento flexible y
escalable de un lago de datos con la semántica de consulta relacional de un almacenamiento de datos. El
esquema de tabla puede requerir cierta desnormalización de datos en un origen de datos OLTP.

Un modelo OLAP es un tipo agregado de almacenamiento de datos optimizado para cargas de trabajo
analíticas. Las agregaciones de datos se encuentran en diferentes dimensiones y distintos niveles, lo que
7 / 64
azure_dp900.md 2025-03-16

permite rastrear agrupando datos y explorar en profundidad las agregaciones en varios niveles jerárquicos; por
ejemplo, para buscar el total de ventas por región, por ciudad o por una dirección individual.

Los científicos de datos pueden trabajar directamente con archivos de datos en un lago de datos para
explorar los datos y crear modelos a partir de estos.
Los analistas de datos pueden consultar tablas directamente en el almacenamiento de datos para
generar informes y visualizaciones complejos.
Los usuarios profesionales pueden consumir datos agregados previamente en un modelo analítico
como informes o paneles.

Exploración de los roles y servicios de datos


Introducción

Roles para profesionales en datos:

1. Explicación de los roles de trabajo del mundo de los datos


2. Identificación de los servicios de datos

Exploración de los roles de trabajo del mundo de los datos

Estos son los tres roles de trabajo principales que se ocupan de los datos de la mayoría de las organizaciones:

Los administradores de bases de datos administran bases de datos, asignan permisos a los usuarios,
almacenan copias de seguridad de datos y restauran datos en caso de que se produzca un error.
Los ingenieros de datos administran la infraestructura y los procesos para la integración de datos en
una organización, aplican rutinas de limpieza de datos, identifican reglas de gobernanza de datos e
implementan canalizaciones para transferir y transformar datos entre sistemas.
Los analistas de datos exploran y analizan los datos con el fin de crear visualizaciones y gráficos que
permiten que las organizaciones tomen decisiones fundamentadas.

Administrador de base de datos

Un administrador de base de datos de Azure es responsable del diseño, la implementación, el mantenimiento


y los aspectos operativos de los sistemas de bases de datos locales y los basados en la nube

Ingenieros de datos

Los ingenieros de datos colaboran con las partes interesadas para diseñar e implementar cargas de trabajo
relacionadas con datos, incluidas canalizaciones de ingesta de datos, actividades de limpieza y
transformación, y almacenes de datos para cargas de trabajo analíticas.

Analista de datos

Los analistas de datos ayudan a las empresas a maximizar el valor de sus recursos de datos. Son los
responsables de explorar datos para identificar tendencias y relaciones, diseñar e implementar modelos
analíticos, y habilitar funcionalidades de análisis avanzado mediante informes y visualizaciones.

Identificación de los servicios de datos

8 / 64
azure_dp900.md 2025-03-16

A continuación se describen algunos de los servicios en la nube que se usan más a menudo para los datos.

Azure SQL

Nombre colectivo de una familia de soluciones de base de datos relacionales basadas en el motor de base de
datos de Microsoft SQL Server. Los servicios específicos de Azure SQL incluyen:

Azure SQL Database: Una base de datos de plataforma como servicio PaaS totalmente administrada y
hospedada en Azure.
Azure SQL Managed Instance: Instancia de SQL Server con mantenimiento automatizado, permite la
configuración más flexible de Azure SQL Database, pero con más responsabilidades administrativas
para el propietario.
Máquina virtual de Azure SQL: VM con la instalación de SQL Server, ofrece una capacidad de
configuración máxima con una responsabilidad de administración completa.

Lo usan los administradores de bases de datos, ingenieros de datos y analistas de datos.

Bases de datos de código abierto de Azure

Azure incluye servicios administrados para sistemas populares de bases de datos relacionales de código
abierto, entre los que se incluyen:

Azure Database for MySQL: consiste en un sistema de administración de bases de datos de código
abierto fácil de usar que suele emplearse en aplicaciones de pila de Linux, Apache, MySQL y PHP
(LAMP).

Azure Database for MariaDB: es un sistema de administración de bases de datos más reciente que
han creado los desarrolladores originales de MySQL. El motor de base de datos se ha reescrito y se ha
optimizado para mejorar el rendimiento. MariaDB ofrece compatibilidad con Oracle Database (otro
sistema de administración de bases de datos comerciales conocido).

Azure Database for PostgreSQL: se trata de una base de datos híbrida de objetos relacionales. Una
base de datos de PostgreSQL permite almacenar datos en tablas relacionales, pero también tipos de
datos personalizados con sus propias propiedades no relacionales.

Lo usan los administradores de bases de datos, ingenieros de datos y analistas de datos.

Azure Cosmos DB

9 / 64
azure_dp900.md 2025-03-16

Sistema de base de datos NO RELACIONAL a escala global que admite varias interfaces de programación de
aplicaciones (API), lo que permite almacenar y administrar datos como documentos JSON, pares clave-valor,
familias de columnas y gráficos.

Lo usan los administradores de bases de datos, ingenieros de datos, desarrolladores de software y


analistas de datos.

Azure Storage

Servicio básico que permite almacenar datos en:

1. Contenedores de blobs: Almacenamiento escalable y rentable para archivos binarios.


2. Recursos compartidos de archivos: Recursos compartidos de archivos de red, como es habitual en
redes corporativas.
3. Tablas: Almacenamieno clave-valor para aplicaciones que necesiten leer y escribir valores de datos
rápidamente.

Los ingenieros de datos usan Azure Storage para hospedar lagos de datos, es decir, almacenamiento
de blobs con un espacio de nombres jerárquico que permite organizar los archivos en carpetas en un
sistema de archivos distribuido.

Azure Data Factory

Azure Data Factory es un servicio de Azure que permite definir y programar canalizaciones de datos para
transferir y transformar datos.

Los ingenieros de datos usan Azure Data Factory para compilar soluciones de extracción,
transformación y carga (ETL) que rellenan almacenes de datos analíticos con datos de sistemas
transaccionales de toda la organización.

Microsoft Fabric

10 / 64
azure_dp900.md 2025-03-16

Microsoft Fabric es una plataforma unificada de análisis de software como servicio SaaS basada en almacén
de lago de datos abierto y regulado que incluye funcionalidad para admitir:

Ingesta de datos y ETL


Análisis de almacén de lago de datos
Análisis de almacenamiento de datos
Ciencia de datos y aprendizaje automático
Análisis en tiempo real
Visualización de datos
Gobernanza y administración de datos
Información basada en inteligencia artificial

Los ingenieros de datos pueden usar Microsoft Fabric para crear una solución unificada de análisis de
datos que combina canalizaciones de ingesta de datos, almacenes de datos, análisis en tiempo real,
inteligencia empresarial e información basada en inteligencia artificial a través de un único servicio que
se almacena de forma centralizada con Microsoft OneLake.

Azure Databricks

Azure Databricks es una versión integrada de Azure de la popular plataforma Databricks, que combina la
plataforma de procesamiento de datos de Apache Spark con la semántica de base de datos SQL y una
interfaz de administración integrada para habilitar el análisis de datos a gran escala.

Los ingenieros de datos pueden usar las capacidades de Databricks y Spark para crear almacenes de
datos analíticos en Azure Databricks. Los analistas de datos pueden usar la compatibilidad nativa con
cuadernos en Azure Databricks para consultar y visualizar datos en una interfaz basada en web fácil de
usar.

Azure Stream Analytics

Azure Stream Analytics es un motor de procesamiento de flujos en tiempo real que captura un flujo de datos
de una entrada, aplica una consulta para extraer y manipular los datos del flujo de entrada y escribe los
resultados en una salida para su análisis o procesamiento posterior.

Los ingenieros de datos pueden incorporar Azure Stream Analytics en arquitecturas de análisis de
datos que capturan datos de streaming para su ingesta en un almacén de datos analíticos o para su
visualización en tiempo real.

Azure Data Explorer

11 / 64
azure_dp900.md 2025-03-16

Azure Data Explorer es una plataforma de análisis de macrodatos totalmente administrada e independiente
que ofrece consultas de alto rendimiento de datos de registro y telemetría. "Principalmente para consultas de
largas distancias (telemetría) como sensores donde se registren de manera temporal."

Los analistas de datos pueden usar Azure Data Explorer para consultar y analizar datos que incluyan un
atributo de marca de tiempo, como es habitual en los archivos de registro y los datos de telemetría de
IoT (Internet de las cosas).

Microsoft Purview

Microsoft Purview proporciona una solución para la gobernanza y la detectabilidad de datos de toda la
empresa. Puede usar Microsoft Purview para crear un mapa de los datos y realizar un seguimiento del
linaje de datos en varios orígenes de datos y sistemas, lo que le permite encontrar datos de confianza para
el análisis y la elaboración de informes.

Los ingenieros de datos pueden usar Microsoft Purview para aplicar la gobernanza de datos en toda la
empresa y garantizar la integridad de los datos que se usan para admitir cargas de trabajo analíticas.

Aspectos básicos de los datos en Azure: datos


relacionales en Azure
Exploración de conceptos fundamentales de datos relacionales
Los sistemas de bases de datos relacionales son una manera común de almacenar y administrar datos
transaccionales y analíticos en organizaciones de cualquier tamaño de todo el mundo.

Introducción

El modelo relacional proporciona una forma estándar de representar y consultar datos que cualquier
aplicación puede usar. Una de las principales ventajas del modelo de base de datos relacional es el uso de
tablas, que son una manera intuitiva, eficaz y flexible de almacenar información estructurada y acceder a ella.

Aspectos básicos de los datos en Microsoft Azure

1. Información sobre los datos relacionales


2. Comprensión de la normalización
3. Exploración de SQL
4. Descripción de objetos de base de datos

Información sobre los datos relacionales

12 / 64
azure_dp900.md 2025-03-16

En una base de datos relacional, las colecciones de entidades del mundo real se modelan en forma de tablas.
Una entidad puede ser cualquier elemento para el que quiera registrar información; por lo general, se trata de
objetos y eventos importantes.

Las tablas relacionales son un formato para datos estructurados y cada fila de una tabla tiene las mismas
columnas, aunque en algunos casos no todas las columnas necesitan tener un valor.

Cada columna almacena los datos de un tipo de datos específico.

Exploración de conceptos fundamentales de datos relacionales

Comprensión de la normalización

La normalización es un término que usan los profesionales de bases de datos para referirse a un proceso de
diseño de esquemas que reduce al mínimo la duplicación de los datos e impone la integridad de los datos.

1. Separar la entidad en su propia tabla


2. Separar cada atributo discreto en su propia columna
3. Identificar de forma única cada instancia de entidad fila mediante su clave principal
4. Usar columnas de clave externa para vincular entidades relacionadas.

Exploración de conceptos fundamentales de datos relacionales

Exploración de SQL

SQL significa Lenguaje de consulta estructurado (por sus siglas en inglés) y se usa para comunicarse con una
base de datos relacional. Se trata del lenguaje estándar para los sistemas de administración de bases de datos
relacionales. Las instrucciones SQL se usan para realizar tareas como actualizar o recuperar datos de una base
de datos. Algunos sistemas de administración de bases de datos relacionales habituales que utilizan SQL
incluyen Microsoft SQL Server, MySQL, PostgreSQL, MariaDB y Oracle.

Puede usar instrucciones SQL como SELECT, INSERT, UPDATE, DELETE, CREATE y DROP para realizar
prácticamente cualquier tarea que deba llevarse a cabo con una base de datos. Si bien estas instrucciones SQL
forman parte del estándar SQL, muchos sistemas de administración de bases de datos también cuentan con
extensiones propias adicionales para controlar los detalles de ese sistema de administración de bases de
datos

Dialectos propios de algunos motores de bases de datos:

1. Transact-SQL T-SQL: Esta versión de SQL la usan los servicios Microsoft SQL Server y Azure SQL
2. pgSQL: Se trata del dialecto, con extensiones, que se implementa en PostgreSQL
3. PL/SQL: Se trata del dialecto que utiliza Oracle. PL/SQL significa "Lenguaje de procedimientos/SQL"

Tipos de instrucción SQL

Las instrucciones SQL se agrupan en tres grupos lógicos principales:

Lenguaje de definición de datos DDL


Lenguaje de control de datos DCL
Lenguaje de manipulación de datos DML

13 / 64
azure_dp900.md 2025-03-16

Instrucciones DDL (Data Definition Language)

Las instrucciones DDL se usan para crear, modificar y quitar tablas y otros objetos de una base de datos (tabla,
procedimientos almacenados, vistas, etc.).

Las instrucciones de DDL más habituales son las siguientes:

COMANDO DESCRIPCIÓN

CREATE Permite crear un nuevo objeto en la base de datos, comouna tabla o una vista.

Permite modificar la estructura de un objeto. Por ejemplo, una tabLa para agregar una
ALTER
nueva columna.

DROP Permite quitar un objeto de la base de datos.

RENAME Permite cambiar el nombre de un objeto existente.

DROP elimina la tabla y no podra recuperarse si no se tiene un Backup o copia de seguridad.

Crear Tabla

CREATE TABLE Productos(


ID INT PRIMARY KEY,
Name VARCHAR(20) NOT NULL,
Price DECIMAL NULL
)

Instrucciones DCL (Data Control Language)

Los administradores de bases de datos suelen usar instrucciones DCL para administrar el acceso a objetos de
una base de datos mediante la concesión, denegación o revocación de permisos a usuarios o grupos específicos.

Las tres instrucciones DCL principales son las siguientes:

COMANDO DESCRIPCIÓN

GRANT Concesión de permiso para llevar a cabo acciones específicas

DENEGAR Denegación de permiso para llevar a cabo acciones específicas

REVOKE Retirada de un permiso concedido

Por ejemplo, la siguiente instrucción GRANT permite a un usuario denominado user1 leer, insertar y modificar
datos en la tabla Product.

GRANT SELECT, INSERT, UPDATE


ON Product
TO user1

14 / 64
azure_dp900.md 2025-03-16

Instrucciones DML (Data Modification Language)

Las instrucciones DML se usan para manipular las filas de las tablas. Estas instrucciones permiten recuperar
(consultar) datos, insertar nuevas filas o modificar filas existentes. También puede eliminar filas si ya no las
necesita.

Las cuatro instrucciones DML principales son las siguientes:

COMANDO DESCRIPCIÓN

SELECT Lectura de filas de una tabla

INSERT Permite insertar nuevas filas en una tabla.

UPDATE Modificación de datos en filas existentes

DELETE Eliminación de filas existentes

SQL no ofrece solicitudes de confirmación, por lo que debe tener cuidado al usar DELETE o UPDATE sin
una cláusula WHERE, ya que podría perder o modificar una gran cantidad de datos.

Ejemplos

-- Todos los datos de Customer con City = Seatle


SELECT *
FROM Customer
WHERE City = 'Seattle';
-- PrimerNombre,PrimerApellido,Dirección,Ciudad con City = Seatle
SELECT FirstName, LastName, Address, City
FROM Customer
WHERE City = 'Seattle';
-- JOIN
SELECT o.OrderNo, o.OrderDate, c.Address, c.City
FROM Order AS o
JOIN Customer AS c
ON o.Customer = c.ID
-- UPDATE
UPDATE Customer
SET Address = '123 High St.'
WHERE ID = 1;--Sin el WHERE se aplicaría a todas las FILAS!
-- DELETE
DELETE FROM Product
WHERE ID = 162;--Si es omite se eliminarán todas las FILAS!
-- INSERT
INSERT INTO Product(ID, Name, Price)
VALUES (99, 'Drill', 4.99);
/*
El lenguaje SQL estándar solo admite la inserción de una fila
cada vez, tal como se muestra en el ejemplo siguiente. Algunos
dialectos le permiten especificar varias cláusulas VALUES
para agregar varias filas a la vez
*/

15 / 64
azure_dp900.md 2025-03-16

Introducción a las consultas con Transact-SQL


Exploración de conceptos fundamentales de datos relacionales

Descripción de objetos de base de datos

Además de las tablas, una base de datos relacional puede contener otras estructuras que ayudan a optimizar
la organización de los datos, encapsular acciones mediante programación y mejorar la velocidad de acceso.
En esta unidad, obtendrá información acerca de tres de estas estructuras con más detalle: vistas,
procedimientos almacenados e índices.

¿Qué es una vista?

Una vista es una tabla virtual basada en los resultados de una consulta SELECT. Podría decirse que una vista es
como una ventana que muestra unas filas concretas de una o varias tablas subyacentes.

CREATE VIEW Deliveries


AS
SELECT o.OrderNo, o.OrderDate,
c.FirstName, c.LastName, c.Address, c.City
FROM Order AS o JOIN Customer AS c
ON o.Customer = c.ID;
/*
Puede consultar la vista y filtrar los datos de la misma forma que
una tabla. La consulta siguiente busca detalles de los pedidos
de los clientes que viven en Seattle:
*/
SELECT OrderNo, OrderDate, LastName, Address
FROM Deliveries
WHERE City = 'Seattle';

¿Qué es un procedimiento almacenado?

Un procedimiento almacenado define instrucciones SQL que se pueden ejecutar a petición. Los procedimientos
almacenados se usan para encapsular la lógica de programación en una base de datos para las acciones que
las aplicaciones deben realizar al trabajar con datos.

Ejemplo: Se podría definir el siguiente procedimiento almacenado para cambiar el nombre de un producto
en función del identificador de producto especificado.

CREATE PROCEDURE RenameProduct


@ProductID INT,
@NewName VARCHAR(20)
AS
UPDATE Product
SET Name = @NewName
WHERE ID = @ProductID;
/*
Cuando haya que cambiar el nombre de un producto, puede ejecutar

16 / 64
azure_dp900.md 2025-03-16

el procedimiento almacenado y pasar el identificador del producto


y el nuevo nombre que se va a asignar:
*/
EXEC RenameProduct 201, 'Spanner';

¿Qué es un índice?

Un índice le ayuda a buscar datos en una tabla. Piense en el índice de una tabla como en el índice de la parte
final de un libro. El índice de un libro contiene un conjunto ordenado de contenido, junto a las páginas en las
que aparece. El índice le servirá para buscar la referencia a un elemento del libro.

Cuando se crea un índice en una base de datos, se especifica una columna de la tabla; el índice
contiene una copia de estos datos con un criterio de ordenación y punteros a las filas correspondientes
de la tabla. Cuando el usuario ejecuta una consulta que especifica esa columna en la cláusula WHERE,
el sistema de administración de bases de datos puede utilizar el índice para capturar los datos más
rápidamente que si tuviera que examinar toda la tabla fila por fila.

Ejemplo:

CREATE INDEX idx_ProductName


ON Product(Name);

El índice crea una estructura basada en árbol que el optimizador de consultas del sistema de base de datos
puede usar para buscar rápidamente filas en la tabla Product en función de un nombre específico (Name).

Cuando una tabla tiene muchas filas, los índices pueden mejorar drásticamente el rendimiento de las
consultas.

Nota: Los índices no son gratuitos. Un índice consume espacio de almacenamiento y, cada vez que inserte
datos en una tabla, los actualice o los elimine, tendrá que hacer el mantenimiento de sus índices. Este trabajo
adicional puede ralentizar las operaciones de inserción, actualización y eliminación. Debe conseguir un
equilibrio entre tener índices que aceleren las consultas y el coste de realizar otras operaciones.

Exploración de conceptos fundamentales de datos relacionales

17 / 64
azure_dp900.md 2025-03-16

Exploración de los servicios de base de datos relacionales en Azure


Introducción

Azure admite varios servicios de base de datos, lo que permite ejecutar en la nube diversos sistemas de
administración de bases de datos relacionales conocidos, por ejemplo, SQL Server, PostgreSQL y MySQL.

La mayoría de los servicios de base de datos de Azure están totalmente administrados, con lo cual dispondrá de
un tiempo muy valioso que, de otro modo, desperdiciaría administrando la base de datos. El rendimiento de
nivel empresarial con alta disponibilidad integrada significa que es posible realizar un escalado rápidamente y
conseguir una distribución global sin preocuparse de los costosos tiempos de inactividad. Los desarrolladores
pueden sacar partido de innovaciones punteras en el sector, como la seguridad integrada con supervisión
automática y detección de amenazas, y el ajuste automático para mejorar el rendimiento. Además, aparte de
todas estas características, la disponibilidad está garantizada.

Descripción de los servicios y las capacidades de Azure SQL


Descripción de los servicios de Azure para bases de datos de código abierto
Ejercicio: exploración de servicios de base de datos relacionales de Azure

Aspectos básicos de los datos en Azure: datos relacionales en Azure

Descripción de los servicios y las capacidades de Azure SQL

Azure SQL es un término colectivo para referirse a una familia de servicios de base de datos basados en
Microsoft SQL Server en Azure. Los servicios específicos de Azure SQL incluyen los siguientes:

SQL Server en máquina virtual de Azure (VM): Una máquina virtual que se ejecuta en Azure con una
instalación de SQL Server. El uso de una máquina virtual convierte esta opción en una solución de
infraestructura como servicio (IaaS) que permite virtualizar la infraestructura de hardware para
proceso, almacenamiento y redes en Azure. Por este motivo, se trata de una opción excelente para la
migración lift-and-shift de instalaciones locales de SQL Server a la nube.
Azure SQL Managed Instance: Una opción de plataforma como servicio (PaaS) que proporciona una
compatibilidad casi completa con instancias de SQL Server locales y permite abstraer el hardware y el
sistema operativo subyacentes. Este servicio incluye administración automatizada de actualizaciones de
software, copias de seguridad y otras tareas de mantenimiento, lo que reduce la carga administrativa
que supone admitir una instancia de servidor de bases de datos.
Azure SQL Database: Un servicio de base de datos PaaS totalmente administrado y altamente escalable
que se ha diseñado para la nube. Este servicio incluye las principales capacidades de base de datos de
SQL Server local y es una buena opción cuando hay que crear una aplicación en la nube.
Azure SQL Edge: un motor SQL optimizado para escenarios de Internet de las cosas (IoT) en los
que es necesario trabajar con datos de serie temporal de streaming.

Comparación de los servicios de Azure SQL

SQL Server en
Instancia administrada
-- máquinas virtuales de Azure SQL Database
de Azure SQL
Azure

18 / 64
azure_dp900.md 2025-03-16

SQL Server en
Instancia administrada
-- máquinas virtuales de Azure SQL Database
de Azure SQL
Azure

--

Tipo de
servicio en la IaaS PaaS PaaS
nube

Es totalmente Es casi completamente


compatible con compatible con SQL Admite la mayoría de las
instalaciones físicas y Server. La mayoría de las funcionalidades básicas de
virtualizadas locales. Las bases de datos locales se base de datos de SQL Server.
Compatibilidad
aplicaciones y bases de pueden migrar con Es posible que algunas
con SQL Server
datos se pueden migrar cambios mínimos en el características de las que
fácilmente usando el código mediante el dependa una aplicación local
método lift-and-shift y servicio Azure Database no estén disponibles.
sin cambios. Migration.

Cada instancia Puede aprovisionar una base


administrada puede de datos única en un servidor
Las instancias de SQL admitir varias bases de dedicado y administrado
Server se instalan en una datos. Además, los (lógico); también puede usar
Arquitectura máquina virtual. Cada grupos de instancias se un grupo elástico para
instancia puede admitir pueden usar para compartir recursos entre
varias bases de datos. compartir recursos de varias bases de datos y
forma eficaz entre aprovechar la escalabilidad a
instancias más pequeñas. petición.

Disponibilidad 99,99% 99,99% 99,995 %

Debe administrar todos


los aspectos del
servidor, incluidos el Actualizaciones, copias de
Actualizaciones, copias de
sistema operativo y SQL seguridad y recuperación
Administración seguridad y recuperación
Server, la configuración, totalmente
totalmente automatizados
las copias de seguridad automatizados
y otras tareas de
mantenimiento.

19 / 64
azure_dp900.md 2025-03-16

SQL Server en
Instancia administrada
-- máquinas virtuales de Azure SQL Database
de Azure SQL
Azure

Use esta opción cuando


necesite migrar o Use esta opción para la
ampliar una solución de mayoría de los escenarios Use esta opción para nuevas
SQL Server local y de migración a la nube, soluciones en la nube o para
Casos de uso conservar el control total especialmente cuando migrar aplicaciones que
sobre todos los aspectos necesite cambios tengan dependencias mínimas
de la configuración del mínimos en las de instancia.
servidor y la base de aplicaciones existentes.
datos.

SQL Server en máquinas virtuales de Azure

SQL Server en Virtual Machines le permite usar versiones completas de SQL Server en la nube sin tener
que administrar ningún hardware local. Este es un ejemplo del enfoque de IaaS.

Este enfoque es adecuado para las migraciones y aplicaciones que requieren acceso a características
del sistema operativo que podrían no admitirse en el nivel de PaaS
También puede usar SQL Server en máquinas virtuales de Azure para ampliar las aplicaciones locales
existentes a la nube en implementaciones híbridas.
Puede usar SQL Server en una máquina virtual para desarrollar y probar aplicaciones de SQL Server
tradicionales.
Con una máquina virtual, tiene todos los derechos administrativos sobre el sistema operativo y el
DBMS. Es una opción perfecta cuando una organización ya tiene recursos de TI disponibles para
mantener las máquinas virtuales.

Nota: Una implementación híbrida es un sistema en el que una parte de la operación se ejecuta de
forma local, y otra parte, en la nube.

Ventajas Empresariales

Combinación de implementaciones locales y hospedadas en la nube, a la vez que usa el mismo conjunto
de productos de servidor, herramientas de desarrollo y conocimientos en estos entornos.
"No siempre es fácil para las empresas cambiar su DBMS a un servicio totalmente administrado." esta
razón, el uso de máquinas virtuales puede ofrecer una solución, pero no elimina la necesidad de
administrar el DBMS tan cuidadosamente como lo haría en el entorno local.

Instancia administrada de Azure SQL

Azure SQL Managed Instance permite ejecutar eficazmente una instancia totalmente controlable de
SQL Server en la nube. Puede instalar varias bases de datos en la misma instancia y tiene un control total
sobre esta instancia.

Se automatizan las copias de seguridad, la aplicación de revisiones de software, la supervisión de bases de


datos y otras tareas generales, pero sigue teniendo control total sobre la seguridad y la asignación de recursos

20 / 64
azure_dp900.md 2025-03-16

para las bases de datos. Puede encontrar información detallada en el artículo ¿Qué es Azure SQL Managed
Instance?.

Las instancias administradas dependen de otros servicios de Azure:

Azure Storage: Para las copias de seguridad


Azure Event Hubs: Para la telemetría
Microsoft Entra ID: Para la autenticación
Azure Key Vault: Para el cifrado de datos transparente TDE
Entre otros que se encargan de la seguridad y compatibilidad

Casos de Uso

Considere la posibilidad de usar Azure SQL Managed Instance si quiere migrar mediante lift-and-shift una
instancia local de SQL Server y todas sus bases de datos a la nube, todo ello sin tener que lidiar con la
sobrecarga de administración que supone ejecutar SQL Server en una máquina virtual.

Incluye algunas características que no estan en Azure SQL Database:

Service Blocker: Un sistema de procesamiento de mensajes que se puede usar para distribuir el
trabajo entre servidores
Correo electrónico de Base de datos: Permite el envío de mensajes de correo electrónico a los
usuarios

Si desea comprobar la compatibilidad con un sistema local existente, puede instalar Data Migration Assistant
(DMA)

Ventajas Empresariales

Permite a un administrador del sistema dedicar menos tiempo a tareas administrativas, ya que el servicio
las realiza automáticamente o las simplifica en gran medida. Entre las tareas automatizadas se incluyen:

Instalación y Revisión del software del sistema operativo y del sistema de administración de bases de
datos
Cambio de tamaño y configuración de instancias dinámicas
Copias de Seguridad
Replicación de bases de datos (Incluidas las del sistema)
Configuración de alta disponibilidad
Configuración de flujos de datos de supervisión del estado y del rendimiento

Algunas otras características:

Cuenta con compatibilidad casi completa con SQL Server Enterprise Edition, que se ejecuta de
forma local.
Admite inicios de sesión del motor de base de datos de SQL Server e inicios de sesión integrados en
Microsoft Entra ID

Los inicios de sesión mediante el motor incluyen usuario y contraseña. Los de Microsoft Entra ID usan
las credenciales asociadas con el inicio de sesion del equipo actual, por lo cual no es necesario
proporcionarlas cada vez que se conecta con el servidor.

21 / 64
azure_dp900.md 2025-03-16

Azure SQL Database

Azure SQL Database es una oferta de PaaS de Microsoft. Después de crear un servidor de bases de datos
administrado en la nube, debe implementar las bases de datos en este otro servidor.

Nota: Un servidor de SQL Database es una construcción lógica que actúa como punto administrativo
central para varias bases de datos individuales o agrupadas, inicios de sesión, reglas de firewall, reglas
de auditoría, directivas de detección de amenazas y grupos de conmutación por error.

Azure SQL Database está disponible como una base de datos única o un grupo elástico.

Base de datos única

Esta opción le permite configurar y ejecutar rápidamente una sola base de datos de SQL Server. Puede crear y
ejecutar un servidor de bases de datos en la nube y acceder a la base de datos a través de este servidor.

Microsoft administra el servidor, por lo que solo tiene que configurar la base de datos, crear las tablas y
rellenarlas con sus datos. Puede escalar la base de datos si necesita más espacio de almacenamiento,
memoria o potencia de procesamiento. De forma predeterminada, los recursos están asignados previamente
y se le cobra por hora por los recursos que ha solicitado.

También puede especificar una configuración sin servidor. En esta configuración, Microsoft crea su propio
servidor, que se puede compartir entre las bases de datos que pertenecen a otros suscriptores de Azure. En
este caso, Microsoft garantiza la privacidad de su base de datos. Su base de datos se escala automáticamente y
los recursos se asignan o desasignan según sea necesario.

Grupo elástico

Esta opción es similar a la opción Base de datos única excepto en que, de forma predeterminada, varias bases
de datos pueden compartir los mismos recursos, como la memoria, el espacio de almacenamiento de
datos y la capacidad de procesamiento mediante la arquitectura multiinquilino. Se hace referencia a los
recursos como un grupo. Al crear un grupo, solo sus bases de datos pueden usarlo.

Este modelo es útil si tiene bases de datos con requisitos de recursos que varían con el tiempo, además,
puede ayudarle a reducir los costos.

Por ejemplo, su base de datos de nóminas puede requerir una gran cantidad de potencia de CPU al final de
cada mes a medida que se encarga del procesamiento de nóminas, pero en otras ocasiones la base de datos
podría estar mucho menos activa. Es posible que tenga otra base de datos para ejecutar informes. Esta base
de datos podría activarse durante varios días a mediados del mes mientras se generan informes de
administración, pero podría tener una carga más ligera en otras ocasiones.

La opción Grupo elástico le permite usar los recursos disponibles en el grupo y liberarlos una vez que se haya
completado el procesamiento.

Casos de Uso

Azure SQL Database ofrece la mejor opción por un costo bajo con administración mínima. *No es
totalmente compatible con las instalaciones de SQL Server locales. *A menudo se usa en nuevos proyectos en
la nube, donde el diseño de la aplicación puede acomodar los cambios necesarios en las aplicaciones.

22 / 64
azure_dp900.md 2025-03-16

Azure SQL Database se suele usar para:

Aplicaciones modernas en la nube que necesitan usar las características estables más recientes de SQL
Server.
Aplicaciones que requieren alta disponibilidad.
Sistemas con una carga variable que necesitan escalar y reducir verticalmente el servidor de bases
de datos de forma rápida.

Ventajas Empresariales

Azure SQL Database actualiza automáticamente el software de SQL Server y le aplica revisiones para
asegurarse de que siempre se ejecuta la versión más reciente y más segura del servicio.
Las características de escalabilidad de Azure SQL Database garantizan que pueda aumentar los
recursos disponibles para almacenar y procesar los datos sin tener que llevar a cabo una actualización
manual costosa.
Azure SQL Database admite la restauración a un momento dado, lo que le permite recuperar una
base de datos al estado en que se encontraba en cualquier momento del pasado.
Advanced Threat Protection proporciona funcionalidades de seguridad avanzadas, como las
evaluaciones de vulnerabilidad, para ayudar a detectar y corregir posibles problemas de seguridad con
las bases de datos.
La auditoría hace un seguimiento de los eventos de una base de datos y los escribe en un registro de
auditoría de su cuenta de almacenamiento de Azure.
SQL Database ayuda a proteger los datos proporcionando cifrado que protege los datos
almacenados en la base de datos (en reposo) y mientras se transfieren a través de la red (en
movimiento).

Exploración de los servicios de base de datos relacionales en Azure

Descripción de los servicios de Azure para bases de datos de código abierto

Además de para servicios de Azure SQL, los servicios de datos de Azure están disponibles para otros sistemas
conocidos de bases de datos relacionales, como MySQL, MariaDB y PostgreSQL. La razón principal de incluir
estos servicios es permitir que las organizaciones que los usan en aplicaciones locales migren a Azure
rápidamente, sin necesidad de realizar cambios significativos en sus aplicaciones.

¿Qué son MySQL, MariaDB y PostgreSQL?

MySQL, MariaDB y PostgreSQL son sistemas de administración de bases de datos relacionales que se adaptan
a diferentes especializaciones.

MySQL comenzó siendo un sistema de administración de bases de datos de código abierto fácil de
usar. Es la base de datos relacional de código abierto líder para aplicaciones de pila de Linux, Apache,
MySQL y PHP (LAMP). Está disponible en varias ediciones; Community, Estándar y Enterprise. La edición
Community está disponible de forma gratuita y se ha usado históricamente como sistema de
administración de bases de datos para aplicaciones web que se ejecutan en Linux. También hay
versiones disponibles para Windows. La edición Estándar ofrece mayor rendimiento y usa una
tecnología diferente para almacenar los datos. La edición Enterprise proporciona un completo conjunto
de herramientas y características, entre las que se incluyen seguridad mejorada, disponibilidad y

23 / 64
azure_dp900.md 2025-03-16

escalabilidad. Las ediciones Estándar y Enterprise son las más usadas por las organizaciones comerciales,
aunque estas versiones del software no son gratuitas.
MariaDB es un sistema de administración de bases de datos más reciente creado por los
desarrolladores originales de MySQL. El motor de base de datos se ha reescrito y se ha optimizado para
mejorar el rendimiento. Una característica notable de MariaDB es su compatibilidad integrada con los
datos temporales. Una tabla puede contener varias versiones de datos, lo que permite que una
aplicación consulte los datos tal y como aparecían en algún momento del pasado.
PostgreSQL es una base de datos híbrida de objetos relacionales. Una base de datos de PostgreSQL
permite almacenar datos en tablas relacionales, pero también tipos de datos personalizados con sus
propias propiedades no relacionales. El sistema de administración de bases de datos es extensible, es
decir, se pueden agregar módulos de código a la base de datos, los cuales pueden ejecutarse mediante
consultas. Otra característica clave es su capacidad de almacenar y manipular datos geométricos,
como líneas, círculos y polígonos. dispone de su propio lenguaje de consulta llamado pgsql. Este
lenguaje es una variante del lenguaje de consulta relacional estándar, SQL, y cuenta con características
que permiten escribir procedimientos almacenados que se ejecutan en la base de datos.

Azure Database for MySQL

Azure Database for MySQL es una implementación PaaS de MySQL en la nube de Azure que se basa en la
edición Community de MySQL.

El servicio Azure Database for MySQL incluye alta disponibilidad sin costos adicionales y escalabilidad según
sea necesario. Solo paga por lo que usa. Se proporcionan copias de seguridad automáticas con restauración a
un momento dado.

El servidor ofrece seguridad de conexión para aplicar las reglas de firewall y, opcionalmente, requerir
conexiones SSL. Muchos parámetros de servidor permiten configurar opciones del servidor, como los
modos de bloqueo, el número máximo de conexiones y los tiempos de espera.

Azure Database for MySQL proporciona un sistema de base de datos global que se puede escalar
verticalmente a bases de datos grandes sin necesidad de administrar el hardware, los componentes de red,
los servidores virtuales, las revisiones de software y otros componentes subyacentes.

Hay algunas operaciones que no están disponibles con Azure Database for MySQL. Estas funciones están
relacionadas principalmente con la seguridad y la administración. Azure administra estos aspectos del
propio servidor de bases de datos.

Ventajas de Azure Database for MySQL

Características de alta disponibilidad integradas


Rendimiento predecible
Escalado sencillo que responde rápidamente a la demanda.
Protección de los datos, tanto en reposo como en movimiento.
Copias de seguridad automáticas y restauración a un momento dado de los últimos 35 días.

24 / 64
azure_dp900.md 2025-03-16

Seguridad de categoría empresarial y cumplimiento normativo.

El sistema usa el modelo de precios de pago por uso, por lo que solo paga por lo que usa.

Azure Database for MariaDB

Es una implementación del sistema de administración de bases de datos MariaDB adaptada para ejecutarse
en Azure. Se basa en la edición Community de MariaDB.

Azure administra y controla totalmente la base de datos. Una vez aprovisionado el servicio y transferidos los
datos, el sistema no requiere prácticamente ninguna administración más.

Ventajas de Azure Database for MariaDB

Alta disponibilidad integrada sin coste adicional.


Rendimiento predecible, con precios de pago por uso inclusivos.
Escalado según sea necesario en cuestión de segundos.
Protección segura de los datos confidenciales en reposo y en movimiento.
Copias de seguridad automáticas y restauración a un momento dado durante un máximo de 35 días.
Seguridad y cumplimiento de nivel empresarial.

Azure Database for PostgreSQL

Este servicio proporciona las mismas ventajas de disponibilidad, rendimiento, escalado, seguridad y
administración que MySQL.

Algunas características de las bases de datos locales de PostgreSQL no están disponibles en Azure Database for
PostgreSQL. Estas características están relacionadas principalmente con las extensiones que los usuarios
pueden agregar a una base de datos para realizar tareas especializadas, como escribir procedimientos
almacenados en varios lenguajes de programación (distintos de pgsql, el cual está disponible) e interactuar
directamente con el sistema operativo. Se admite un conjunto básico de las extensiones que se usan con
más frecuencia, y la lista de extensiones disponibles se revisa continuamente.

Servidor flexible de Azure Database for PostgreSQL

La opción de implementación de servidor flexible para PostgreSQL es un servicio de base de datos totalmente
administrado. Proporciona un elevado nivel de control y personalizaciones de configuración de servidor, así
como controles de optimización de costos.

25 / 64
azure_dp900.md 2025-03-16

Ventajas de Azure Database for PostgreSQL

Azure Database for PostgreSQL es un servicio de alta disponibilidad. Integra mecanismos de


conmutación por error y de detección de errores.
Los usuarios de PostgreSQL están familiarizados con la herramienta pgAdmin, que puede usar para
administrar y supervisar una base de datos de PostgreSQL. Puede seguir usando esta herramienta para
conectarse a Azure Database for PostgreSQL, Aun así, algunas funcionalidades centradas en el servidor,
como la realización de copias de seguridad y la restauración del servidor, no están disponibles porque
Microsoft se encarga de administrar y mantener el servidor.
Azure Database for PostgreSQL registra información de las consultas que se ejecutan en las bases de
datos del servidor y las guarda en una base de datos llamada azure_sys. Puede consultar la vista
query_store.qs_view para ver esta información y usarla para supervisar las consultas que ejecutan
los usuarios. "Esta información puede resultar muy valiosa si necesita ajustar las consultas que realizan
las aplicaciones".

Exploración de los servicios de base de datos relacionales en Azure

Ejercicio: exploración de servicios de base de datos relacionales de Azure

Provision an Azure SQL Database resource


Provision an Azure Database for PostgreSQL resource
Provision an Azure Database for MySQL resource

Tener una suscripción de Azure

Resumen con Azure SQL Database

1. Crear un recurso en el portal de Azure, buscar por Azure SQL

2. Seleccionar SQL Databases en modo Single database

3. En Create SQL Database poner lo siguiente:

1. Subscription: Select your Azure Subscription


2. Resource group: Create a new resource group with a name of your choice.
3. Database name: AdventureWorks
4. Server: Select Create new and create a new server with a unique name in any available location.
Use SQL authentication and specify your name as the server admin login and a suitably complex
password (remember the password - you’ll need it later!)
5. Want to use SQL elastic pool?: No
6. Workload environment: Development
7. Compute + storage: Leave unchanged
8. Backup storage redundancy: Locally-redundant backup storage

4. Luego Siguiente, seleccionar Next: Networking >,y en la página de Red, en la conexión de red,
seleccionar una entrada publica Public Endpoint. Luego Yes en las dos reglas del Firewall, para dar
acceso al servidor de la base de datos desde servicios de Azure y a tu IP.

5. Next: Security > y poner Enable Microsoft Defender for SQL en Not now

26 / 64
azure_dp900.md 2025-03-16

6. Next: Additional Settings >, poner Use existing data en Sample (Esto creara una base de datos de
ejemplo)

7. Review + Create, seleccionar Create para crear el servicio de Azure SQL Database

8. Esperar a que el despliegue se complete

9. En el panel de la izquierda seleccionar Query Editor (preview), e iniciar sesion con las credenciales de
administrador que tu especificaste para tu servidor.

10. Expandir el directorio Tables para ver las tablas de la base de datos

11. En Query 1, poner el siguiente código

SELECT * FROM SalesLT.Product;

12. Selecciónar Run sobre el query y ve los resultados

27 / 64
azure_dp900.md 2025-03-16

13. Reemplazar la sentencia por la siguiente y ejecutalá:

SELECT ProductID, Name, ListPrice, ProductCatgoryID


FROM SalesLT.Product;

14. Ahora lo mismo para la siguiente consulta:

SELECT
p.ProductID, p.Name AS ProductName, c.Name AS Category, p.ListPrice
FROM SalesLT.Product AS p
JOIN [SalesLT].[ProductCategory] AS c
ON p.ProductCategoryID = c.ProductCategoryID;

15. Cerrar el editor de consultas, descartar tus ediciones.

Si terminaste de usar Azure SQL Database borra el grupo de recursos que creaste en este ejercicio.

Exploración de los servicios de base de datos relacionales en Azure

Aspectos básicos de los datos en Azure: datos no


relacionales en Azure
28 / 64
azure_dp900.md 2025-03-16

Los datos no relacionales son una manera común de que las aplicaciones almacenen y consulten datos sin
sufrir la sobrecarga de un esquema relacional. En Microsoft Azure, puede usar Azure Storage y Azure Cosmos
DB para crear almacenes de datos seguros y altamente escalables para datos no relacionales.

Aspectos básicos de los datos en Microsoft Azure

Aspectos básicos de los datos en Azure: datos no relacionales en Azure


Exploración de Azure Storage para datos no relacionales
Exploración de Azure Blob Storage
Exploración de Azure Data Lake Storage Gen2
Exploración de Microsoft OneLake en Fabric
Explorar Azure Files
Exploración de tables de Azure
Ejercicio: Exploración de Azure Storage
Exploración de los aspectos básicos de Azure Cosmos DB
Descripción de Azure Cosmos DB
Cuándo usar Cosmos DB
Identificación de las API de Azure Cosmos DB
Azure Cosmos DB para NoSQL
Azure Cosmos DB for MongoDB
Azure Cosmos DB para PostgreSQL
Azure Cosmos DB for Table
Azure Cosmos DB for Apache Cassandra
Azure Cosmos DB for Apache Gremlin
Ejercicio: exploración de Azure Cosmos DB

Exploración de Azure Storage para datos no relacionales


Introducción

Muchas aplicaciones no necesitan la estructura rígida de una base de datos relacional y se basan en el
almacenamiento no relacional (conocido a menudo como NoSQL).

Azure Storage y Microsoft OneLake ofrecen una variedad de opciones para almacenar datos en la nube. En
este módulo, explorará las funcionalidades principales de Microsoft OneLake y Azure Storage, y aprenderá
cómo se usa para admitir aplicaciones que necesitan almacenes de datos no relacionales.

Aspectos básicos de los datos en Azure: datos no relacionales en Azure


Exploración de Azure Storage para datos no relacionales
Exploración de Azure Blob Storage
Exploración de Azure Data Lake Storage Gen2
Exploración de Microsoft OneLake en Fabric
Explorar Azure Files
Exploración de tables de Azure
Ejercicio: Exploración de Azure Storage
Exploración de los aspectos básicos de Azure Cosmos DB
Descripción de Azure Cosmos DB
Cuándo usar Cosmos DB
Identificación de las API de Azure Cosmos DB
29 / 64
azure_dp900.md 2025-03-16

Azure Cosmos DB para NoSQL


Azure Cosmos DB for MongoDB
Azure Cosmos DB para PostgreSQL
Azure Cosmos DB for Table
Azure Cosmos DB for Apache Cassandra
Azure Cosmos DB for Apache Gremlin
Ejercicio: exploración de Azure Cosmos DB

Exploración de Azure Blob Storage

Azure Blob Storage es un servicio que le permite almacenar grandes cantidades de datos no
estructurados como objetos binarios grandes, o blobs, en la nube. Los blobs son una manera eficaz de
almacenar archivos de datos en un formato optimizado para el almacenamiento basado en la nube, y las
aplicaciones pueden leerlos y escribirlos mediante la API de Azure Blob Storage.

En una cuenta de Azure Storage, los blobs se almacenan en contenedores. Un contenedor proporciona una
manera cómoda de agrupar blobs relacionados. Puede controlar quién puede leer y escribir blobs dentro de un
contenedor en el nivel de contenedor.

Dentro de un contenedor, puede organizar los blobs en una jerarquía de carpetas virtuales, similares a los
archivos de un sistema de archivos en un disco. Sin embargo, de manera predeterminada, estas carpetas no
son más que una forma de utilizar un carácter "/" en el nombre de un blob para organizar los blobs en
espacios de nombres. Las carpetas son puramente virtuales y no es posible hacer operaciones de nivel de
carpeta para controlar el acceso ni hacer operaciones masivas.

Azure Blob Storage admite 3 tipos de blobs diferentes:

Blobs en bloques: Conjunto de bloques, cada bloque puede tener un tamaño de hasta 4000 MiB. Con
un tamaño maximo total de hasta 190.7 TiB (4000 MiB x 50000 bloques). Recomendados para
almacenar objetos binarios grandes discretos que cambian con poca frecuencia
Blobs en páginas: Colección de páginas de tamaño fijo de 512 bytes. Puede contener hasta 8 TB.
Usados por Azure para almacenamiento de discos virtuales de las VM
Blobs en anexos: Es un Blob en bloques optimizado para admitir operaciones de anexión. Solo puede
agregar bloques al final de un blob de anexos; no se admite actualización o eliminación de
bloques existentes. Cada bloque puede ser de hasta 4 MB. El tamaño máximo del blob en anexos es
de 195 GB

El almacenamiento de blobs proporciona tres niveles de acceso, que ayudan a equilibrar la latencia de acceso
y el costo de almacenamiento:

30 / 64
azure_dp900.md 2025-03-16

El nivel de acceso frecuente es el predeterminado. blobs de acceso con frecuencia, para medios de alto
rendimiento.
El nivel Esporádico, cuenta con un rendimiento menor. Para datos de poca frecuencia.
El nivel Archivo proporciona el menor costo de almacenamiento, pero una mayor latencia. Pensado para
datos históricos que no deben perderse, pero que raramente se necesiten. Se almacenan de forma
eficaz en un estado sin conexión. La lectura para espóradico y frecuente es de milisegundos, en este
caso pueden tardar horas en estar disponibles para lectura. Normalmente para leer los datos,
primero debe pasar los datos a otro nivel de acceso, este proceso se llama rehidratación. Apenas
se complete podra leer del blob.

Puede crear directivas de administración del ciclo de vida para los blobs de una cuenta de
almacenamiento. Una directiva de administración del ciclo de vida puede trasladar automáticamente
un blob de acceso frecuente a acceso esporádico y, a continuación, al nivel de acceso de archivo, a
medida que pasa el tiempo y se usa con menos frecuencia (la directiva se basa en el número de días
transcurridos desde la última modificación). Una directiva de administración del ciclo de vida también
puede organizarse para eliminar blobs obsoletos.

Exploración de Azure Storage para datos no relacionales

Exploración de Azure Data Lake Storage Gen2

Azure Data Lake Store (Gen1) es un servicio independiente para el almacenamiento jerárquico de los
datos de lagos de datos analíticos que, con frecuencia, usan las denominadas soluciones de análisis
de macrodatos que funcionan con datos estructurados, semiestructurados y no estructurados,
almacenados en archivos.

Azure Data Lake Storage Gen2 es una versión más reciente de este servicio que se integra en Azure Storage;
permite aprovechar la escalabilidad del almacenamiento en blobs y el control de costos de los niveles de
almacenamiento, combinado con las capacidades del sistema de archivos jerárquico y la compatibilidad con
los principales sistemas de análisis de Azure Data Lake Store.

Los sistemas como Azure Databricks pueden montar un sistema de archivos distribuido hospedado en Azure
Data Lake Store Gen2 y usarlo para procesar grandes volúmenes de datos. Los inquilinos de Microsoft Fabric
aprovisionan automáticamente OneLake, basados en Azure Data Lake Storage Gen2.

31 / 64
azure_dp900.md 2025-03-16

Para crear un sistema de archivos de Azure Data Lake Store Gen2, debe habilitar la opción Espacio de
nombres jerárquico de una cuenta de Azure Storage. Se puede hacer al crearlo o actualizar uno ya existente
(Al actualizar no puede revertir los cambios)

Exploración de Azure Storage para datos no relacionales

Exploración de Microsoft OneLake en Fabric

Microsoft Fabric aprovisiona automáticamente OneLake, basado en Azure Data Lake Gen 2.

OneLake es un lago de datos único, unificado y lógico diseñado para toda su organización. OneLake
viene automáticamente con todos los inquilinos de Microsoft Fabric y sirve como repositorio central para
todos los datos de análisis. Ya sea estructurado o no estructurado, OneLake admite cualquier tipo de
archivo y permite usar los mismos datos en varios motores analíticos sin movimiento de datos ni duplicación.

Ventajas clave de OneLake

OneLake proporciona una solución colaborativa, lo que garantiza que toda la organización comparte
un único lago de datos.
Dentro de un inquilino, puede crear áreas de trabajo, lo que permite que diferentes partes de la
organización administren sus elementos de datos. Esta propiedad distribuida promueve la
colaboración al tiempo que mantiene los límites de gobernanza.
Creada sobre Azure Data Lake Storage (ADLS) Gen2, OneLake almacena los datos en formato Delta
Parquet. Admite las API y los SDK de ADLS Gen2 existentes, lo que hace que sea compatible con las
aplicaciones actuales.
Fácil de navegar mediante el explorador de archivos de OneLake.

Mas detalles

32 / 64
azure_dp900.md 2025-03-16

Exploración de Azure Storage para datos no relacionales

Explorar Azure Files

Muchos sistemas locales que comprenden una red de equipos internos usan recursos compartidos de
archivos. Un recurso compartido de archivos permite almacenar un archivo en un equipo y conceder
acceso a ese archivo a los usuarios y las aplicaciones que se ejecutan en otros equipos. Esta estrategia
puede funcionar bien para los equipos de la misma red de área local, pero no se escala correctamente
a medida que aumenta el número de usuarios, o si los usuarios se encuentran en sitios diferentes.

Azure Files es una manera de crear recursos compartidos de red basados en la nube, como suelen
encontrarse en organizaciones locales para que los documentos y otros archivos estén a disposición de varios
usuarios. Beneficiarse de la alta disponibilidad y el almacenamiento escalable en la nube para los
archivos.

Azure File Storage se crea en una cuenta de almacenamiento. Azure Files le permite compartir hasta 100 TB
de datos en una sola cuenta de almacenamiento. Estos datos se pueden distribuir en cualquier número de
recursos compartidos de archivos de la cuenta. El tamaño máximo de un solo archivo es de 1 TB, pero
puede establecer cuotas para limitar el tamaño de cada recurso compartido por debajo de esta cifra.
Actualmente, Azure File Storage admite hasta 2000 conexiones simultáneas por cada archivo
compartido.

Puede cargar archivos en Azure File Storage mediante Azure Portal, o bien mediante herramientas como la
utilidad AzCopy. Asimismo, puede usar el servicio Azure File Sync para sincronizar las copias
almacenadas localmente en caché de archivos compartidos con los datos de Azure File Storage.

Ofrece dos niveles de rendimiento:

1. Nivel Estándar: Disco duro de un centro de datos.


2. Nivel Preimum: Discos de estado sólido.

Protocolos admitidos de uso compartido:

Bloque de mensajes de servidor (SMB) usado en sistemas operativos

33 / 64
azure_dp900.md 2025-03-16

Network File System (NFS) usado por algunas versiones de linux y macOS. Para este recurso
compartido necesita un nivel Preimum y crear y configurar un red virtual en la cual se podra controlar el
acceso al recurso compartido.

Exploración de Azure Storage para datos no relacionales

Exploración de tables de Azure

Azure Table Storage es una solución de almacenamiento NoSQL que usa tablas que contienen elementos de
datos de clave-valor. Cada elemento se representa mediante una fila que contiene columnas para los campos
de datos que deben almacenarse.

Una tabla de Azure le permite almacenar datos semiestructurados. Todas las filas de una tabla deben tener
una clave única (compuesta de una clave de partición y una clave de fila). En caso de modificación, una
columna de marca de tiempo registra la fecha y la hora en las que se realizó la modificación.

Las tablas de Azure Table Storage no tienen los conceptos de claves externas, relaciones, procedimientos
almacenados, vistas u otros objetos que puede encontrar en una base de datos relacional.

Por ejemplo, una tabla que contiene información de clientes podría almacenar el nombre, el apellido,
uno o varios números de teléfono, y una o varias direcciones de cada cliente. El número de campos de
cada fila puede ser diferente, en función de la cantidad de números de teléfono y direcciones de cada
cliente, y de los detalles registrados para cada dirección. En una base de datos relacional, esta
información se dividiría en varias filas de varias tablas.

Para el acceso rapido, esta divido en particiones:

Las particiones son independientes entre si y pueden agrandarse o reducirse a medida que se agregan
o se quitan filas.
Al buscar datos con la clave de partición, reducirá el volumen de busqueda mejorando el rendimiento.

La clave de una tabla de Azure Table Storage consta de dos elementos:

Clave de partición, que identifica la partición que contiene la fila.


Clave de fila, que es única para cada fila de la misma partición.

34 / 64
azure_dp900.md 2025-03-16

Si una aplicación agrega una nueva fila a una tabla, Azure garantiza que la fila se coloca en la posición
correcta de la tabla. Este esquema permite que una aplicación realice rápidamente consultas de punto, que
identifican una sola fila, y consultas por rango, que capturan un bloque contiguo de filas en una partición.

Exploración de Azure Storage para datos no relacionales

Ejercicio: Exploración de Azure Storage

Ejercicio Explore Azure Storage

Resumen

Se necesita una subscripción de Azure

Cuenta de Almacenamiento de Azure

1. Si aún no lo has hecho, inicia sesión en el portal de Azure.


2. En la página de inicio del portal de Azure, selecciona + Crear un recurso en la esquina superior
izquierda y busca Cuenta de almacenamiento. Luego, en la página de Cuenta de almacenamiento
resultante, selecciona Crear.
3. Ingresa los siguientes valores en la página Crear una cuenta de almacenamiento:
Suscripción: Selecciona tu suscripción de Azure.
Grupo de recursos: Crea un nuevo grupo de recursos con un nombre de tu elección.
Nombre de la cuenta de almacenamiento: Ingresa un nombre único usando solo letras
minúsculas y números.
Región: Selecciona cualquier ubicación disponible.
Rendimiento: Estándar.
Redundancia: Almacenamiento con redundancia local (LRS).
4. Selecciona Siguiente: Avanzado > para ver las opciones de configuración avanzada. En particular, ten
en cuenta que aquí puedes habilitar el espacio de nombres jerárquico para admitir Azure Data Lake
Storage Gen2. Deja esta opción sin seleccionar (la habilitarás más adelante) y luego selecciona
Siguiente: Redes > para ver las opciones de red de tu cuenta de almacenamiento.
5. Selecciona Siguiente: Protección de datos > y, en la sección Recuperación, desmarca todas las
opciones de Habilitar eliminación temporal…. Estas opciones retienen archivos eliminados para su
recuperación posterior, pero pueden causar problemas más adelante cuando habilites el espacio de
nombres jerárquico.
6. Continúa con las siguientes páginas Siguiente > sin cambiar ninguna configuración predeterminada y,
en la página Revisar, espera a que se validen tus selecciones y selecciona Crear para crear tu cuenta de
almacenamiento en Azure.
7. Espera a que la implementación se complete. Luego, ve al recurso que se ha desplegado.

Explorar blob storage

Ahora que tienes una cuenta de almacenamiento en Azure, puedes crear un contenedor para datos en blob.

1. Descarga el archivo JSON product1.json desde este enlace y guárdalo en tu computadora (puedes
guardarlo en cualquier carpeta, ya que lo subirás más adelante al almacenamiento en blob).
2. Si el archivo JSON se muestra en tu navegador, guarda la página como product1.json.

35 / 64
azure_dp900.md 2025-03-16

Crear un contenedor en Azure Storage

3. En la página del portal de Azure de tu cuenta de almacenamiento, en el menú izquierdo, dentro de la


sección Almacenamiento de datos, selecciona Contenedores.
4. En la página de Contenedores, selecciona + Contenedor y crea un nuevo contenedor llamado data
con un nivel de acceso anónimo Privado (sin acceso anónimo).
5. Una vez creado el contenedor data, verifica que aparezca en la lista de la página Contenedores.

Usar Storage Browser

6. En el panel izquierdo, en la parte superior, selecciona Explorador de almacenamiento. Esta página


proporciona una interfaz basada en navegador para trabajar con los datos de tu cuenta de
almacenamiento.
7. En la página del explorador de almacenamiento, selecciona Contenedores de blob y verifica que tu
contenedor data esté listado.
8. Selecciona el contenedor data y observa que está vacío.
9. Selecciona + Agregar directorio y lee la información sobre las carpetas antes de crear un nuevo
directorio llamado products.
10. En el explorador de almacenamiento, verifica que la vista actual muestre el contenido de la carpeta
products que acabas de crear. Observa que en la parte superior de la página aparece la ruta
Contenedores de blob > data > products.
11. En las migas de pan (breadcrumbs), selecciona data para volver al contenedor data y observa que no
contiene una carpeta llamada products.

⚠ Importante:
Las carpetas en el almacenamiento en blob son virtuales y solo existen como parte de la ruta de un blob.
Como la carpeta products no contenía ningún blob, en realidad no existe.

Subir un archivo al almacenamiento en blob

12. Usa el botón ⤒ Cargar para abrir el panel Cargar blob.


13. En el panel Cargar blob, selecciona el archivo product1.json que guardaste en tu computadora.
Luego, en la sección Avanzado, en el campo Cargar en la carpeta, ingresa product_data y selecciona
Cargar.
14. Cierra el panel Cargar blob si aún está abierto y verifica que se ha creado una carpeta virtual
product_data dentro del contenedor data.
15. Selecciona la carpeta product_data y verifica que contiene el blob product1.json que subiste.

Verificar la estructura del almacenamiento

16. En el menú izquierdo, en la sección Almacenamiento de datos, selecciona Contenedores.


17. Abre el contenedor data y verifica que la carpeta product_data que creaste esté listada.
18. Selecciona el ícono ‧‧‧ en el extremo derecho de la carpeta y observa que no muestra ninguna opción.
Esto se debe a que las carpetas en un contenedor de blob con espacio de nombres plano son virtuales
y no pueden ser administradas directamente.
19. Usa el ícono X en la parte superior derecha de la página data para cerrarla y regresar a la página
Contenedores.

Explore Azure Data Lake Storage Gen 2


36 / 64
azure_dp900.md 2025-03-16

La compatibilidad con Azure Data Lake Store Gen2 permite usar carpetas jerárquicas para organizar y
administrar el acceso a los blobs. También permite utilizar Azure Blob Storage para alojar sistemas de
archivos distribuidos en plataformas comunes de análisis de big data.

Descargar y preparar el archivo JSON

1. Descarga el archivo JSON product2.json desde este enlace y guárdalo en tu computadora en la misma
carpeta donde descargaste product1.json anteriormente. Más adelante, lo subirás al almacenamiento
en blob.

Habilitar el espacio de nombres jerárquico (Data Lake Gen2)

2. En la página del portal de Azure de tu cuenta de almacenamiento, en el panel izquierdo, desplázate


hacia abajo hasta la sección Configuración y selecciona Actualización de Data Lake Gen2.
3. En la página Actualización de Data Lake Gen2, expande y completa cada paso para actualizar tu
cuenta de almacenamiento y habilitar el espacio de nombres jerárquico, lo que permitirá la
compatibilidad con Azure Data Lake Storage Gen2. Este proceso puede tardar un poco.

Verificar la estructura después de la actualización

4. Una vez completada la actualización, en el panel izquierdo, en la parte superior, selecciona Explorador
de almacenamiento y navega hasta la raíz de tu contenedor de blobs data, que todavía debe contener
la carpeta product_data.
5. Selecciona la carpeta product_data y verifica que aún contiene el archivo product1.json que subiste
anteriormente.

Subir el nuevo archivo JSON

6. Usa el botón ⤒ Cargar para abrir el panel Cargar blob.


7. En el panel Cargar blob, selecciona el archivo product2.json que guardaste en tu computadora.
Luego, selecciona el botón Cargar.
8. Cierra el panel Cargar blob si aún está abierto y verifica que la carpeta product_data ahora contiene el
archivo product2.json.

Verificar la administración de carpetas con Data Lake Gen2

9. En el panel izquierdo, en la sección Almacenamiento de datos, selecciona Contenedores.


10. Abre el contenedor data y verifica que la carpeta product_data esté listada.
11. Selecciona el ícono ‧‧‧ en el extremo derecho de la carpeta y observa que, con el espacio de nombres
jerárquico habilitado, ahora puedes realizar tareas de configuración a nivel de carpeta, como cambiar
el nombre de carpetas y establecer permisos.
12. Usa el ícono X en la parte superior derecha de la página data para cerrarla y regresar a la página
Contenedores.

Exploración de Azure Storage para datos no relacionales

Exploración de los aspectos básicos de Azure Cosmos DB


Introducción

37 / 64
azure_dp900.md 2025-03-16

Existen otros modelos, denominados colectivamente bases de datos NoSQL. Estos modelos almacenan datos
en otras estructuras, como documentos, gráficos, almacenes de clave-valor y almacenes de familias de
columnas.

Azure Cosmos DB es un servicio de base de datos en la nube altamente escalable para datos NoSQL.

1. Descripción de Azure Cosmos DB


2. Identificación de las API de Azure Cosmos DB
3. Ejercicio: exploración de Azure Cosmos DB

Aspectos básicos de los datos en Azure: datos no relacionales en Azure

Descripción de Azure Cosmos DB

Azure Cosmos DB admite varias interfaces de programación de aplicaciones (API) que permiten a los
desarrolladores usar la semántica de programación de muchos tipos comunes de almacén de datos para
trabajar con datos en una base de datos Cosmos DB. Cosmos DB usa índices y particiones para
proporcionar un rendimiento rápido de lectura y escritura y se puede escalar a volúmenes masivos de datos.

Cuándo usar Cosmos DB

Cosmos DB asigna automáticamente espacio para las particiones en un contenedor y cada partición puede
crecer hasta un tamaño de 10 GB. Los índices se crean y se mantienen de forma automática.

Muchos de los productos de Microsoft usan Cosmos DB para aplicaciones críticas a escala global, como
Skype, Xbox, Microsoft 365 y Azure, entre muchos otros. Cosmos DB es muy recomendable para los escenarios
siguientes:
38 / 64
azure_dp900.md 2025-03-16

IoT y Telemática: Estos sistemas suelen ingerir grandes cantidades de datos en ráfagas de actividad
frecuentes. Cosmos DB puede aceptar y almacenar esta información con rapidez. Después, los datos se
pueden usar en servicios analíticos como Azure Machine Learning, Microsoft Fabric y Power BI. Además,
los datos se pueden procesar en tiempo real a través de funciones de Azure Functions que se activan
a medida que los datos van llegando a la base de datos.
Comercio y Marketing: Microsoft usa Cosmos DB en sus plataformas de comercio electrónico propias
que se ejecutan como parte de la Tienda Windows y Xbox Live. También se usa en el sector comercial
para almacenar los datos de catálogo y para el suministro de eventos en las canalizaciones de
procesamiento de pedidos.
Juegos: Los juegos modernos realizan el procesamiento de los elementos grafos en los clientes de
consola o dispositivos móviles, pero utilizan la nube para ofrecer contenido personalizado y a medida,
como estadísticas dentro del juego, integración con las redes sociales y los marcadores de
puntuaciones. Una base de datos de un juego debe ser rápida y capaz de manejar los picos masivos
en la velocidad de las solicitudes cuando se inicia un nuevo juego y se actualizan las características.
Aplicaciones web y para Dispoisitivos móviles: Azure Cosmos DB se usa normalmente en
aplicaciones web y móviles y sirve para modelar interacciones sociales, para la integración con
servicios de terceros y para la creación de experiencias personalizadas enriquecidas. Se pueden usar
SDK de Cosmos DB con el fin de compilar aplicaciones para iOS y Android completas con el marco
Xamarin Framework, muy popular.

Mas detalle - Casos de uso comunes de Azure Cosmos DB Exploración de los aspectos básicos de Azure
Cosmos DB

Identificación de las API de Azure Cosmos DB

Azure Cosmos DB es la base de datos distribuida totalmente administrada y sin servidor de Microsoft para
aplicaciones de cualquier tamaño o escala, con compatibilidad con cargas de trabajo relacionales y no
relacionales. Al aprovisionar una nueva instancia de Cosmos DB, seleccione el motor de base de datos que
quiere usar. La elección del motor depende de muchos factores, como el tipo de datos que se van a
almacenar, la necesidad de admitir aplicaciones existentes y las aptitudes de los desarrolladores que
trabajarán con el almacén de datos.

Azure Cosmos DB para NoSQL

Azure Cosmos DB for NoSQL es el servicio no relacional nativo de Microsoft para trabajar con el modelo de
datos del documento. Administra los datos en formato de documento JSON y, a pesar de ser una solución
de almacenamiento de datos NoSQL, usa sintaxis SQL para trabajar con los datos. Una consulta SQL para una
base de datos de Cosmos DB que contiene datos del cliente podría ser similar a esta:

SELECT *
FROM customers c
WHERE c.id = "[email protected]"

El resultado de esta consulta consta de uno o varios documentos JSON, como se muestra aquí:

39 / 64
azure_dp900.md 2025-03-16

{
"id": "[email protected]",
"name": "Joe Jones",
"address": {
"street": "1 Main St.",
"city": "Seattle"
}
}

Azure Cosmos DB for MongoDB

MongoDB es una base de datos de código abierto popular en la que los datos se almacenan en formato
JSON binario (BSON). Azure Cosmos DB for MongoDB permite a los desarrolladores usar bibliotecas de
cliente y código de MongoDB para trabajar con datos en Azure Cosmos DB.

El lenguaje de consulta de MongoDB (MongoDB Query Language, MQL) usa una sintaxis compacta orientada
a objetos en la que los desarrolladores usan objetos para llamar a métodos. Por ejemplo, la consulta
siguiente usa el método find para consultar la colección products en el objeto db:

db.products.find({id: 123})

Los resultados de esta consulta constan de documentos JSON, similares a los siguientes:

{
"id": 123,
"name": "Hammer",
"price": 2.99
}

Azure Cosmos DB para PostgreSQL

Puede empezar a crear aplicaciones en un grupo de servidores de un solo nodo, de la misma manera que
lo haría con PostgreSQL en cualquier otra ubicación. A medida que aumentan los requisitos de escalabilidad y
rendimiento de la aplicación, puede escalar sin problemas a varios nodos mediante la distribución
transparente de las tablas. PostgreSQL es un sistema de administración de bases de datos relacionales
(RDBMS) en el que se definen tablas relacionales de datos, por ejemplo, podría definir una tabla de productos
como esta:

ProductID ProductName Precio

123 Martillo 2,99

162 Screwdriver 3.49

40 / 64
azure_dp900.md 2025-03-16

Después, podría consultar esta tabla para recuperar el nombre y el precio de un producto específico mediante
SQL de esta manera:

SELECT ProductName, Price


FROM Products
WHERE ProductID = 123;

Los resultados de esta consulta contendrán una fila para el producto 123, de la siguiente manera:

ProductName Precio

Martillo 2,99

Diferencia entre Azure Database y Cosmos DB para PostgreSQL

Característica Azure Database for PostgreSQL Azure Cosmos DB for PostgreSQ

Tipo de base
Relacional (SQL) Relacional distribuida (SQL + NoSQL)
de datos

Arquitectura Basado en PostgreSQL estándar Basado en Citus (PostgreSQL distribuido)

Vertical (escalado en una sola Horizontal (sharding automático en múltiples


Escalabilidad
máquina) nodos)

Aplicaciones tradicionales con datos Aplicaciones con grandes volúmenes de


Uso
estructurados y consultas SQL datos y necesidad de procesamiento
recomendado
estándar distribuido

Soporte para
datos No Sí (sharding automático)
distribuidos

Compatibilidad
100% compatible con PostgreSQL Compatible con PostgreSQL + Citus (requiere
con
estándar adaptación en algunos casos)
PostgreSQL

Big Data, analítica en tiempo real,


Ideal para Aplicaciones web, OLTP, BI, reportes
aplicaciones multi-tenant

Basado en el tamaño del servidor y Basado en número de nodos y datos


Costo
almacenamiento distribuidos

NoSQL (Sharding y Escalabilidad Horizontal): En una base de datos relacional clásica, todos los datos
están en un solo servidor. Cosmos DB for PostgreSQL aplica sharding, dividiendo los datos en múltiples
nodos según una clave de partición. Esto permite manejar grandes volúmenes de datos y aumentar el
rendimiento distribuyendo la carga. Similar a algunas bases de datos NoSQL, los datos se dividen y
replican automáticamente en diferentes servidores, pero conservando el modelo relacional de
PostgreSQL. Este enfoque mezcla lo mejor de SQL (estructura relacional) con algunos beneficios de
NoSQL (escalabilidad y distribución automática de datos).

41 / 64
azure_dp900.md 2025-03-16

Azure Cosmos DB for Table

Se usa para trabajar con datos en tablas de clave-valor, de forma similar a Azure Table Storage. Ofrece
mayor escalabilidad y rendimiento que Azure Table Storage. Por ejemplo, puede definir una tabla
denominada Clientes de la siguiente forma:

PartitionKey RowKey Nombre Email

1 123 Joe Jones [email protected]

1 124 Samir Nadoy [email protected]

Posteriormente, puede usar Table API a través de uno de los SDK específicos del lenguaje para realizar
llamadas al punto de conexión de servicio para recuperar datos de la tabla. Por ejemplo, la siguiente solicitud
devuelve la fila que contiene el registro de Samir Nadoy en la tabla anterior:

https://endpoint/Customers(PartitionKey='1',RowKey='124')

Azure Cosmos DB for Apache Cassandra

Es una base de datos de código abierto popular que usa una estructura de almacenamiento de familia de
columnas. Las familias de columnas son tablas, similares a las de una base de datos relacional, con la excepción
de que no es obligatorio que cada fila tenga las mismas columnas. Por ejemplo, puede crear una tabla de
Empleados como esta:

id Nombre Manager

1 Sue Smith

2 Ben Chan Sue Smith

Cassandra admite una sintaxis basada en SQL, por lo que una aplicación cliente podría recuperar el registro
de Ben Chan como se muestra a continuación:

SELECT * FROM Employees WHERE ID = 2

Azure Cosmos DB for Apache Gremlin

Azure Cosmos DB for Apache Gremlin se usa con datos en una estructura de grafos, en la que las
entidades se definen como vértices que forman nodos en el gráfico conectado. Los nodos se conectan
mediante bordes que representan relaciones, como esta:

42 / 64
azure_dp900.md 2025-03-16

En el ejemplo de la imagen se muestran dos tipos de vértices (empleado y departamento) y bordes


que los conectan (el empleado "Ben" depende de la empleada "Sue" y ambos empleados trabajan en
el departamento "Hardware").

La sintaxis de Gremlin incluye funciones para operar en vértices y bordes, y esto permite insertar,
actualizar, eliminar y consultar datos en el gráfico. Por ejemplo, puede usar el código siguiente para agregar un
nuevo empleado llamado Alice que dependa de la empleada con el identificador 1 (Sue)

g.addV('employee').property('id', '3').property('firstName', 'Alice')


g.V('3').addE('reports to').to(g.V('1'))

La consulta siguiente devuelve todos los vértices de empleado, por orden de identificador.

g.V().hasLabel('employee').order().by('id')

Exploración de los aspectos básicos de Azure Cosmos DB

Ejercicio: exploración de Azure Cosmos DB

Ejercicio - Explore Azure Cosmos DB

Resumen

Se necesita una subscripción de Azure

Crear cuenta de Cosmos DB

1. En el portal de Azure, selecciona + Crear un recurso en la parte superior izquierda y busca Azure
Cosmos DB. En los resultados, selecciona Azure Cosmos DB y luego haz clic en Crear.
2. En la sección de Azure Cosmos DB para NoSQL, selecciona Crear.
3. Ingresa los siguientes detalles y luego selecciona Revisar + Crear:
Suscripción: Si estás usando un entorno de prueba (sandbox), selecciona "Concierge
Subscription". De lo contrario, elige tu suscripción de Azure.
Grupo de recursos: Si estás usando un entorno de prueba, selecciona el grupo de recursos
existente (que tendrá un nombre como learn-xxxx…). De lo contrario, crea un nuevo grupo de

43 / 64
azure_dp900.md 2025-03-16

recursos con el nombre de tu elección.


Nombre de la cuenta: Ingresa un nombre único.
Ubicación: Elige cualquier ubicación recomendada.
Modo de capacidad: Rendimiento aprovisionado (Provisioned throughput).
Aplicar descuento de nivel gratuito: Selecciona Aplicar si está disponible.
Limitar el rendimiento total de la cuenta: Dejar sin seleccionar.
4. Una vez validada la configuración, selecciona Crear.
5. Espera a que se complete la implementación y luego ve al recurso desplegado.

Crear una base de datos de ejemplo

1. En la página para tu nueva cuenta de Cosmos DB, en el panel de la izquierda, selecciona Data Explorer
o explorador de datos
2. En la página de Data Explorer, selecciona Launch quick start o lanzar inicio rapido
3. En la pestaña de nuevo contenedor, revisa las configuraciones para pre-llenado de la base de datos de
ejemplo, y luego selecciona OK
4. Observar el estatus al final del panel hasta que la Base de datos de ejemplo y el contenedor de ejemplo
hayan sido creados

Ver y crear items

1. En la página Explorador de datos (Data Explorer), expande la base de datos SampleDB y el


contenedor SampleContainer, luego selecciona Elementos (Items) para ver una lista de los elementos
en el contenedor. Estos elementos representan datos de productos, cada uno con un id único y otras
propiedades.
2. Selecciona cualquiera de los elementos en la lista para ver su representación en JSON.
3. En la parte superior de la página, selecciona Nuevo elemento (New Item) para crear un nuevo
elemento en blanco.
4. Modifica el JSON para el nuevo elemento de la siguiente manera y luego selecciona Guardar (Save).

{
"name": "Road Helmet,45",
"id": "123456789",
"categoryID": "123456789",
"SKU": "AB-1234-56",
"description": "The product called \"Road Helmet,45\" ",
"price": 48.74
}

5. Despues de guardar, revisar que nuevas propiedades de metadatos han sido añadidas
automáticamente

Consulta la base de datos

1. En la página Explorador de datos (Data Explorer), selecciona el icono Nueva consulta SQL (New
SQL Query).
2. En el editor de consultas SQL, revisa la consulta predeterminada (SELECT * FROM c) y usa el botón
Ejecutar consulta (Execute Query) para ejecutarla.

44 / 64
azure_dp900.md 2025-03-16

3. Revisa los resultados, que incluyen la representación completa en JSON de todos los elementos.
4. Modifica la consulta de la siguiente manera:

SELECT *
FROM c
WHERE CONTAINS(c.name,"Helmet")

5. Ejecuta con Ejecutar consulta (Execute Query) y revisa los resultados, lo que incluye una entidad
JSON para cualquier item con el nombre que contenga el texto Helment
6. Cierra el editor SQL Query, descarta tus cambios.

Exploración de los aspectos básicos de Azure Cosmos DB

Aspectos básicos de los datos en Microsoft Azure:


Exploración del análisis de datos en Azure
Microsoft Azure proporciona varios servicios que puede combinar para crear soluciones de análisis a gran
escala que aprovechen las tecnologías y técnicas más recientes para la ingesta, el almacenamiento, el
modelado y la visualización de datos.

Aspectos básicos de los datos en Microsoft Azure

1. Exploración de los aspectos básicos del análisis a gran escala


2. Exploración de los aspectos básicos del análisis en tiempo real
3. Exploración de los aspectos básicos de la visualización de datos

Exploración de los aspectos básicos del análisis a gran escala


Las soluciones de procesamiento de macrodatos se usan con grandes volúmenes de datos en varios formatos,
que se cargan o capturan por lotes en flujos en tiempo real y se almacenan en un lago de datos desde el que
se usan motores de procesamiento distribuido como Apache Spark para procesarlos. La combinación de
almacenamiento de lago de datos flexible y análisis de SQL de almacenamiento de datos ha llevado a la
aparición de un diseño de análisis a gran escala a menudo denominado almacenamiento de datos.

Aspectos básicos de los datos en Microsoft Azure: Exploración del análisis de datos en Azure
Exploración de los aspectos básicos del análisis a gran escala
Describir la arquitectura de un almacenamiento de datos
Exploración de canalizaciones de ingesta de datos
Exploración de almacenes de datos analíticos
Almacenamiento de datos
Lagos de datos
Enfoques híbridos
Servicios de Azure para almacenes analíticos
Ejercicio: Exploración de análisis de datos con Microsoft Fabric

Describir la arquitectura de un almacenamiento de datos

45 / 64
azure_dp900.md 2025-03-16

Arquitectura general

1. Ingesta y procesamiento de datos: los datos de uno o varios almacenes de datos transaccionales,
archivos, flujos en tiempo real u otros orígenes se cargan en un lago de datos o en un
almacenamiento de datos relacional. Normalmente, la operación de carga implica un proceso de
extracción, transformación y carga (ETL) o de extracción, carga y transformación (ELT) en el que los
datos se limpian, filtran y reestructuran para su análisis. En los procesos de ETL, los datos se
transforman antes de cargarse en un almacén analítico, mientras que en un proceso de ELT los datos se
copian en el almacén y, posteriormente, se transforman. En cualquier caso, la estructura de datos
resultante está optimizada para las consultas analíticas. El procesamiento de datos suele realizarse
mediante sistemas distribuidos que pueden procesar grandes volúmenes de datos en paralelo
mediante clústeres de varios nodos. La ingesta de datos incluye el procesamiento por lotes de datos
estáticos y el procesamiento en tiempo real de los datos de streaming.
2. Almacén de datos analíticos: los almacenes de datos para análisis a gran escala incluyen
almacenamientos de datos relacionales, lagos de datos basados en sistema de archivos y
arquitecturas híbridas que combinan características de almacenes de datos y lagos de datos (a
veces bajo la denominación de lagos de almacenamiento de datos o bases de datos de lago). Los
trataremos con más detalle más adelante.
3. Modelo de datos analíticos: aunque los analistas de datos y los científicos de datos pueden trabajar
con los datos directamente en el almacén de datos analíticos, es habitual crear uno o varios modelos de
datos que agreguen previamente los datos para facilitar la generación de informes, paneles y
visualizaciones interactivas. A menudo, estos modelos de datos se describen como cubos, en los que
los valores de datos numéricos se agregan en una o varias dimensiones (por ejemplo, para determinar
las ventas totales por producto y región). El modelo encapsula las relaciones entre los valores de datos y
las entidades dimensionales para admitir el análisis de tipo "rastrear agrupando datos/explorar en
profundidad".
4. Visualización de datos: los analistas de datos consumen datos de modelos analíticos y directamente de
almacenes analíticos para crear informes, paneles y otras visualizaciones. Además, los usuarios de una
organización, que pueden no ser profesionales de la tecnología, pueden realizar informes y análisis de
datos de autoservicio. Las visualizaciones de los datos muestran tendencias, comparaciones e
indicadores clave de rendimiento (KPI) para una empresa u otra organización, y pueden tomar la
forma de informes impresos, diagramas y gráficos en documentos o presentaciones de PowerPoint,
paneles basados en web y entornos interactivos en los que los usuarios pueden explorar los datos
visualmente.

Exploración de los aspectos básicos del análisis a gran escala

46 / 64
azure_dp900.md 2025-03-16

Exploración de canalizaciones de ingesta de datos

Como se ingieren los datos en un almacén de datos analíticos de uno o varios orígenes:

En Azure, la ingesta de datos a gran escala se implementa mejor mediante la creación de canalizaciones que
organicen procesos de ETL. Puede crear y ejecutar canalizaciones mediante Azure Data Factory, o puede usar
el mismo motor de canalización en Azure Data Factory si quiere administrar todos los componentes de la
solución de almacenamiento de datos en un área de trabajo unificada.

En cualquier caso, las canalizaciones constan de una o varias actividades que operan en los datos. Un
conjunto de datos de entrada proporciona los datos de origen y las actividades se pueden definir como un
flujo de datos que manipula incrementalmente los datos hasta que se genera un conjunto de datos de salida.
Las canalizaciones utilizan servicios vinculados para cargar y procesar datos, y esto le permite usar la
tecnología adecuada para cada paso del flujo de trabajo.

Por ejemplo, puede usar un servicio vinculado de Azure Blob Store para ingerir el conjunto de datos de
entrada y después usar servicios como Azure SQL Database para ejecutar un procedimiento
almacenado que busque valores de datos relacionados, antes de ejecutar una tarea de procesamiento
de datos en Azure Databricks o aplicar lógica personalizada mediante una función de Azure. Por
último, puede guardar el conjunto de datos de salida en un servicio vinculado, como Microsoft Fabric.
Las canalizaciones también pueden incluir algunas actividades integradas, que no requieren un servicio
vinculado.

Exploración de los aspectos básicos del análisis a gran escala

Exploración de almacenes de datos analíticos

Hay dos tipos comunes de almacén de datos analíticos

Almacenamiento de datos

47 / 64
azure_dp900.md 2025-03-16

Un almacenamiento de datos es una base de datos relacional en la que los datos se almacenan en un
esquema optimizado para el análisis de datos en lugar de en cargas de trabajo transaccionales.
Normalmente, los datos de un almacén transaccional se transforman en un esquema en el que los valores
numéricos se almacenan en tablas de hechos centrales, que están relacionadas con una o varias tablas de
dimensiones que representan entidades por las que se pueden agregar los datos.

Por ejemplo, una tabla de hechos podría contener datos de pedidos de ventas, que se pueden agregar
por las dimensiones de cliente, producto, tienda y tiempo (lo que le permite, por ejemplo, encontrar
fácilmente los ingresos totales mensuales de ventas por producto para cada tienda).

Este tipo de esquema de tabla de hechos y dimensiones se denomina esquema de estrella; aunque a menudo
se extiende a un esquema de copo de nieve mediante la adición de tablas adicionales relacionadas con las
tablas de dimensiones para representar jerarquías dimensionales (por ejemplo, el producto puede estar
relacionado con categorías de productos). Un almacenamiento de datos es una excelente opción si tiene datos
transaccionales que se pueden organizar en un esquema estructurado de tablas y quiere usar SQL para
consultarlos.

Lagos de datos

Un lago de datos es un almacén de archivos, normalmente en un sistema de archivos distribuido para el


acceso a datos de alto rendimiento. A menudo se usan tecnologías como Spark o Hadoop para procesar
consultas en los archivos almacenados y devolver datos para informes y análisis. Estos sistemas suelen aplicar
un enfoque de esquema en lectura para definir esquemas tabulares en archivos de datos semiestructurados
en el punto donde se leen los datos para su análisis, sin aplicar restricciones cuando se almacenan. Los lagos
de datos son excelentes para admitir una combinación de datos estructurados, semiestructurados e

48 / 64
azure_dp900.md 2025-03-16

incluso no estructurados que quiere analizar sin necesidad de aplicar el esquema cuando los datos se
escriben en el almacén.

Enfoques híbridos

Puede usar un enfoque híbrido que combine características de lagos de datos y almacenamientos de datos en
un lago de almacenamiento de datos. Los datos sin procesar se almacenan como archivos en un lago
de datos y los puntos de conexión de análisis SQL de Microsoft Fabric los exponen como tablas, que se
pueden consultar mediante SQL. Al crear una instancia de Lakehouse con Microsoft Fabric, se crea
automáticamente un punto de conexión de análisis SQL. Los lagos de almacenamiento de datos son un
enfoque relativamente nuevo en los sistemas basados en Spark y se habilitan mediante tecnologías como Delta
Lake, que agrega funcionalidades de almacenamiento relacional a Spark, por lo que se pueden definir tablas
que exijan esquemas y coherencia transaccional, admitan orígenes de datos de streaming y cargados por
lotes y proporcionen una API de SQL para realizar consultas.

Servicios de Azure para almacenes analíticos

Microsoft Fabric

Es una solución integral unificada para el análisis de datos a gran escala. Reúne varias tecnologías y
funcionalidades, y esto permite combinar la integridad y la confiabilidad de los datos de un almacenamiento
de datos relacional basado en SQL Server escalable y de alto rendimiento con la flexibilidad de una solución
Apache Spark de código abierto y lago de datos. También incluye compatibilidad nativa para el análisis
de registros y telemetría con Inteligencia en tiempo real de Microsoft Fabric, así como
canalizaciones de datos integradas para la ingesta y la transformación de datos. Cada experiencia de
producto de Microsoft Fabric tiene su propio hogar, por ejemplo, la página principal de Data Factory. Cada
página principal de Fabric muestra los elementos que crea y tiene permiso para usarlos desde todo el área de
trabajo a la que accede. Microsoft Fabric es una excelente opción cuando se quiere crear una única
solución de análisis unificada.

Azure Databricks

Es una implementación de Azure de la popular plataforma Databricks. Databricks es una completa solución
de análisis de datos integrada en Apache Spark y ofrece funcionalidades nativas de SQL, así como
clústeres de Spark optimizados para cargas de trabajo para el análisis de datos y la ciencia de datos.
Databricks proporciona una interfaz de usuario interactiva a través de la cual se puede administrar el sistema
y se pueden explorar los datos en cuadernos interactivos. Debido a su uso común en varias plataformas en la
nube, puede usar de Azure Databricks como almacén analítico si quiere usar la experiencia existente con la
plataforma o si necesita operar en un entorno de varias nubes o admitir una solución portátil en la nube.

49 / 64
azure_dp900.md 2025-03-16

Cada uno de estos servicios puede considerarse como un almacén de datos analíticos, en el sentido de
que proporcionan un esquema y una interfaz a través de los cuales se pueden consultar los datos. Sin
embargo, en muchos casos, los datos se almacenan realmente en un lago de datos y el servicio se usa
para procesar los datos y ejecutar consultas. Algunas soluciones pueden incluso combinar el uso de
estos servicios. Un proceso de ingesta de extracción, carga y transformación (ELT) puede copiar datos
en el lago de datos y, posteriormente, usar uno de estos servicios para transformar los datos y otro
para consultarlos. Por ejemplo, una canalización podría usar un cuaderno que se ejecuta en Azure
Databricks para procesar un gran volumen de datos en el lago de datos y, a continuación, cargarlo en
tablas en una base de almacenamiento de Microsoft Fabric.

Exploración de los aspectos básicos del análisis a gran escala

Ejercicio: Exploración de análisis de datos con Microsoft Fabric

Se necesita una cuenta de Azure Fabric

Ejercicio

Exploración de los aspectos básicos del análisis en tiempo real


Aspectos básicos de los datos en Microsoft Azure: Exploración del análisis de datos en Azure

1. Comprensión del procesamiento de flujos y por lotes


2. Exploración de elementos comunes de la arquitectura de procesamiento de flujos
3. Explorar la inteligencia en tiempo real de Microsoft Fabric
4. Explorar el streaming estructurado de Apache Spark
5. Ejercicio: Explorar la inteligencia en tiempo real de Microsoft Fabric

Comprensión del procesamiento de flujos y por lotes

El procesamiento de datos es simplemente la conversión de datos sin procesar en información significativa a


través de un proceso. Existen dos métodos generales para procesar los datos:

Procesamiento por lotes, en el que se recopilan y almacenan varios registros de datos antes de
procesarse juntos en una sola operación.
Procesamiento de flujos, en el que un origen de datos se supervisa y procesa constantemente en
tiempo real a medida que se producen nuevos eventos de datos.

Procesamiento por lotes

En el procesamiento por lotes, los elementos de datos recién llegados se recopilan y se almacenan y todo el
grupo se procesa de forma conjunta, como un lote. El momento en que se procesan los datos se puede
determinar segun intervalos de tiempo o cantidad de datos o como resultado de algun evento

Ventajas:

Se pueden procesar grandes volúmenes de datos en un momento especificado.


Se puede programar para ejecutarse mientras los equipos o sistemas esten inactivos, como por la
noche o en horas de poca actividad.

Desventajas:
50 / 64
azure_dp900.md 2025-03-16

Tiempo de demora entre ingesta de datos y obtención de resultados.


Todos los datos de entrada de un trabajo deben estar listos para poder procesar un lote, es decir, los
datos deben comprobarse antes de procesarse.

Información sobre el procesamiento de flujos

En el procesamiento en streaming, cada nuevo fragmento de datos se procesa cuando llega. A diferencia del
procesamiento por lotes, no hay ningún tiempo de espera hasta el siguiente intervalo de procesamiento por
lotes y los datos se procesan como unidades individuales en tiempo real en lugar de procesarse de lote en
lote. El procesamiento de datos de flujos es beneficioso en los escenarios donde se generan datos
dinámicos nuevos de forma continua.

Entre los ejemplos reales de datos de flujos se incluyen:

Una institución financiera realiza un seguimiento de los cambios en el mercado de valores en tiempo
real, calcula el valor en riesgo y reequilibra automáticamente las carteras en función de los movimientos
de precio de las acciones.
Una empresa de juegos en línea recopila datos en tiempo real sobre las interacciones de los jugadores
con los juegos y los incorpora en su plataforma de juegos. Después, analiza los datos en tiempo real y
ofrece incentivos y experiencias dinámicas para atraer a los jugadores.
Un sitio web inmobiliario hace un seguimiento de un subconjunto de datos de dispositivos móviles y
ofrece recomendaciones en tiempo real de las propiedades que pueden visitar los clientes en función
de su ubicación geográfica.

Diferencias entre los datos de streeaming y por lotes

Ámbito de los datos: El procesamiento por lotes puede procesar todos los datos del conjunto de
datos. En el procesamiento por streaming solo se tiene acceso a unos pocos datos dentro de un
intervalo corto (30 segundos).
Tamaño de los datos: El procesamiento por lotes es adecuado para administrar grande conjuntos de
datos de forma eficaz. En streaming esta diseñado para registros individuales o microlotes que constan
de pocos registros.
Rendimiento: Latencia (tiempo que se tarda en recibir y procesar los datos). La latencia en lotes puede
ser de horas, en streaming suele ser inmediato, en el orden de segundos y milisegundos.
Análisis: Normalmente es usado el procesamiento por lotes para realizar análisis complejos. El
procesamiento en streaming es para funciones en respuesta simples, agregaciones o cálculos, como el
cálculo de la media acumulada.

Combinación del procesamiento por lotes y por flujos

Muchas soluciones de análisis a gran escala incluyen una combinación de procesamiento por lotes y de flujos,
lo que permite el análisis de datos históricos y en tiempo real.

Es habitual que las soluciones de procesamiento de flujos capturen datos en tiempo real, los filtren o
agreguen para procesarlos y los presenten a través de paneles y visualizaciones en tiempo real (por
ejemplo, muestran el total de automóviles que han pasado por una carretera durante la hora actual), al
tiempo que también se conservan los resultados procesados en un almacén de datos para el análisis

51 / 64
azure_dp900.md 2025-03-16

histórico junto con los datos procesados por lotes (por ejemplo, para habilitar el análisis de los
volúmenes de tráfico durante el último año).

Incluso cuando no se requiere el análisis o la visualización en tiempo real de los datos, las tecnologías de
flujos a menudo se usan para capturar datos en tiempo real y almacenarlos en un almacén de datos
para su posterior procesamiento por lotes (esto equivale a redirigir todos los automóviles que viajan por
una carretera a un aparcamiento antes de contarlos).

1. Los eventos de datos de un origen de datos de flujos se capturan en tiempo real.


2. Los datos de otros orígenes se ingieren en un almacén de datos (a menudo, un lago de datos) para el
procesamiento por lotes.
3. Si no es necesario llevar a cabo análisis en tiempo real, los datos de flujos capturados se escriben en el
almacén de datos para su posterior procesamiento por lotes.
4. Cuando se requiere un análisis en tiempo real, se usa una tecnología de procesamiento de flujos para
preparar los datos de flujos para el análisis o visualización en tiempo real. A menudo, se filtran o suman
los datos por periodos de tiempo.
5. Los datos que no son de flujos se procesan por lotes periódicamente para prepararlos para el análisis y
los resultados se conservan en un almacén de datos analíticos (a menudo denominado almacén de
datos) para el análisis histórico.
6. Los resultados del procesamiento de flujos también se pueden conservar en el almacén de datos
analíticos para admitir el análisis histórico.
7. Las herramientas analíticas y de visualización se usan para presentar y explorar los datos históricos y en
tiempo real.

Exploración de los aspectos básicos del análisis en tiempo real

Exploración de elementos comunes de la arquitectura de procesamiento de flujos

Existen muchas tecnologías que puede usar para implementar una solución de procesamiento de flujos, pero,
aunque los detalles de implementación específicos pueden variar, existen elementos comunes para la mayoría
de las arquitecturas de flujos.

Una arquitectura general para el procesamiento de flujos

52 / 64
azure_dp900.md 2025-03-16

1. Un evento genera algunos datos. Podría ser una señal que emite un sensor, un mensaje de redes
sociales que se publica, una entrada de archivo de registro que se escribe o cualquier otro evento que
da como resultado algunos datos digitales.
2. Los datos generados se capturan en un origen de streaming para su procesamiento. En casos
simples, el origen puede ser una carpeta de un almacén de datos en la nube o una tabla de una base
de datos. En soluciones de flujos más sólidas, el origen puede ser una "cola" que encapsula la lógica
para asegurarse de que los datos del evento se procesan en orden y que cada evento se procesa una
sola vez.
3. Los datos del evento se procesan, a menudo mediante una consulta perpetua que opera en los datos
del evento para seleccionar datos para tipos específicos de eventos, valores de datos de proyectos o
valores de datos sumados durante periodos de tiempo (basados en tiempo real, o plazos de tiempo),
por ejemplo, mediante el recuento del número de emisiones de sensores por minuto.
4. Los resultados de la operación de procesamiento de flujos se escriben en una salida (o receptor),
que puede ser un archivo, una tabla de base de datos, un panel visual en tiempo real u otra cola para
su posterior procesamiento mediante una consulta de bajada posterior.

Servicio de análisis en tiempo real

Microsoft admite numerosas tecnologías que puede usar para implementar el análisis en tiempo real de los
datos de streaming, entre las que se incluyen:

Azure Stream Analytics: solución de plataforma como servicio (PaaS) que puede usar para definir
trabajos de streaming que ingieren datos de un origen de streaming, aplican una consulta perpetua y
escriben los resultados en una salida.
Spark Structured Streaming: una biblioteca de código abierto que permite desarrollar
soluciones de streaming complejas en servicios basados en Apache Spark, incluyendo Microsoft Fabric
y Azure Databricks.
Microsoft Fabric: una plataforma de bases de datos y análisis de alto rendimiento que
incluye ingeniería de datos, factoría de datos, ciencia de datos, análisis en tiempo real, almacenamiento
de datos y bases de datos.

Orígenes para el procesamiento de flujos

Los siguientes servicios se usan normalmente para ingerir datos para el procesamiento de flujos en Azure:

Azure Event Hubs: servicio de ingesta de datos que puede usar para administrar colas de datos
de eventos, lo que garantiza que cada evento se procese en orden, solo una vez.
Azure IoT Hub: servicio de ingesta de datos similar a Azure Event Hubs, pero optimizado para
administrar datos de eventos de dispositivos de Internet de las cosas (IoT).

53 / 64
azure_dp900.md 2025-03-16

Azure Data Lake Store Gen 2: servicio de almacenamiento altamente escalable que se usa a
menudo en escenarios de procesamiento por lotes, pero que también se puede usar como origen de
datos de streaming.
Apache Kafka: solución de ingesta de datos de código abierto que se usa a menudo junto
con Apache Spark.

Receptores para el procesamiento de flujos

La salida del procesamiento de flujos a menudo se envía a los siguientes servicios:

Azure Event Hubs: se usa para poner en cola los datos procesados para su posterior procesamiento de
bajada.
Azure Data Lake Store Gen 2, Microsoft OneLake o Azure blob Storage: se usan para conservar los
resultados procesados como un archivo.
Azure SQL Database, Azure Databricks o Microsoft Fabric: se usan para conservar los resultados
procesados en una tabla en la que se puede realizar consultas y análisis.
Microsoft Power BI: se usa para generar visualizaciones de datos en tiempo real en informes y paneles.

Exploración de los aspectos básicos del análisis en tiempo real

Explorar la inteligencia en tiempo real de Microsoft Fabric

La inteligencia en tiempo real de Microsoft Fabric permite a las organizaciones extraer información y
visualizar los datos en movimiento. La inteligencia en tiempo real ofrece una solución integral para
escenarios basados en eventos, datos de streaming y registros de datos. Tanto si se trata de gigabytes
como de petabytes, todos los datos de la organización convergen en el centro en tiempo real. Los
conectores sin código vinculan a la perfección datos basados en tiempo de diversos orígenes, lo que permite
una información visual inmediata, análisis geoespaciales y reacciones basadas en desencadenadores. La
inteligencia en tiempo real transforma los datos en un recurso dinámico y accionable que impulsa el valor en
toda la organización y se alinea sin problemas con todas las ofertas de Fabric.

54 / 64
azure_dp900.md 2025-03-16

Centro en tiempo real

El centro en tiempo real de Microsoft Fabric actúa como un catálogo centralizado para su organización.
Simplifica el acceso, la adición, la exploración y el uso compartido de datos. Al ampliar los orígenes de datos,
mejora la información y la claridad visual entre dominios. Fundamentalmente, este centro garantiza la
disponibilidad y accesibilidad de los datos, lo que permite tomar decisiones rápidas y acciones informadas. El
uso compartido de datos de streaming de diversos orígenes desbloquea una inteligencia empresarial
completa en toda la organización.

Exploración de datos con inteligencia en tiempo real

Para explorar datos con inteligencia en tiempo real, elija inicialmente un flujo de datos de su organización
o de orígenes externos o internos conectados y, a continuación, podrá usar herramientas de inteligencia en
tiempo real para la exploración de datos y para visualizar patrones de datos, anomalías y previsión de
cantidades.

Los paneles en tiempo real simplifican la comprensión de los datos, accesibles para todos a través de
herramientas visuales, lenguaje natural y Copilot. A continuación, puede convertir la información en acciones
mediante la configuración de alertas Reflex para reaccionar en tiempo real.

Exploración de los aspectos básicos del análisis en tiempo real

Explorar el streaming estructurado de Apache Spark

Apache Spark es un marco de procesamiento distribuido para el análisis de datos a gran escala. Puede
usar Spark en Microsoft Azure en los siguientes servicios:

Microsoft Fabric
Azure Databricks

Spark se puede usar para ejecutar código (normalmente escrito en Python, Scala o Java) en paralelo en varios
nodos de clúster, lo que permite procesar volúmenes de datos muy grandes de forma eficaz. Spark se puede
usar tanto para el procesamiento por lotes como para el procesamiento de flujos.

Spark Structured Streaming

Para procesar los datos de flujos en Spark, puede usar la biblioteca de Spark Structured Streaming, que
proporciona una interfaz de programación de aplicaciones (API) para ingerir, procesar y generar
resultados de flujos de datos perpetuos.

Spark Structured Streaming se compila en una estructura ubicua en Spark denominada dataframe, que
encapsula una tabla de datos. Puede usar la API de Spark Structured Streaming para leer datos de un origen
de datos en tiempo real, como un centro de Kafka, un almacén de archivos o un puerto de red, a un objeto
dataframe "sin límite" que se rellena continuamente con nuevos datos del flujo. A continuación, defina una
consulta en el objeto dataframe que selecciona, proyecta o suma los datos, a menudo en ventanas
temporales. Los resultados de la consulta generan otro objeto dataframe, que se puede conservar para su
análisis o procesamiento posterior.

55 / 64
azure_dp900.md 2025-03-16

Delta Lake

Delta Lake es una capa de almacenamiento de código abierto que agrega compatibilidad con la
coherencia transaccional, el cumplimiento del esquema y otras características comunes de
almacenamiento de datos a Data Lake Storage. También unifica el almacenamiento para datos por lotes y
de flujos, y se puede usar en Spark para definir tablas relacionales para el procesamiento por lotes y de flujos.
Cuando se usa para el procesamiento de flujos, una tabla de Delta Lake se puede usar como un origen de
flujos para las consultas en datos en tiempo real o como un receptor en el que se escribe un flujo de datos.

Los tiempos de ejecución de Spark en Microsoft Fabric y Azure Databricks incluyen compatibilidad con Delta
Lake.

El uso de Delta Lake combinado con Structured Streaming de Spark es una solución óptima cuando es
necesario abstraer los datos procesados por lotes y flujos en un lago de datos detrás de un esquema
relacional para realizar consultas y análisis basados en SQL.

Exploración de los aspectos básicos del análisis en tiempo real

Ejercicio: Explorar la inteligencia en tiempo real de Microsoft Fabric

Nota: Se necesita una cuenta de Microsoft Fabric

Ejercicio

Exploración de los aspectos básicos del análisis en tiempo real

Exploración de los aspectos básicos de la visualización de datos


Introducción

El modelado y la visualización de datos son el núcleo de las cargas de trabajo de inteligencia empresarial (BI)
compatibles con las soluciones de análisis de datos a gran escala. Básicamente, la visualización de datos
potencia la creación de informes y la toma de decisiones que ayudan a las organizaciones a tener éxito.

Aspectos básicos de los datos en Microsoft Azure: Exploración del análisis de datos en Azure

1. Descripción de las herramientas y el flujo de trabajo de Power BI


2. Descripción de los conceptos básicos del modelado de datos
3. Descripción de consideraciones para la visualización de datos
4. Ejercicio: Exploración de los aspectos básicos de la visualización de datos con Power BI

Descripción de las herramientas y el flujo de trabajo de Power BI

Hay muchas herramientas de visualización de datos que los analistas de datos pueden usar para explorar
datos y resumir información de manera visual, incluida la compatibilidad con gráficos en herramientas de
56 / 64
azure_dp900.md 2025-03-16

productividad como Microsoft Excel y widgets integrados de visualización de datos en cuadernos que se usan
para explorar datos en servicios como Azure Synapse Analytics y Azure Databricks. Sin embargo, para el
análisis de negocio a escala empresarial, a menudo se requiere una solución integrada que pueda
admitir el modelado de datos complejo, los informes interactivos y el uso compartido seguro.

Microsoft Power BI

Microsoft Power BI es un conjunto de herramientas y servicios dentro de Microsoft Fabric que los
analistas de datos pueden usar para compilar visualizaciones de datos interactivas para que los usuarios
empresariales los consuman.

Un flujo de trabajo típico para crear una solución de visualización de datos comienza con Power BI
Desktop, una aplicación de Microsoft Windows en la que puede importar datos de una amplia gama de
orígenes de datos, combinar y organizar los datos de estos orígenes en un modelo de datos de análisis y
crear informes que contengan visualizaciones interactivas de los datos.

Después de crear modelos de datos e informes, puede publicarlos en el servicio Power BI, un servicio en
la nube en el que los usuarios profesionales pueden publicar informes e interactuar con ellos. También puede
realizar algunas operaciones básicas de modelado de datos y edición de informes directamente en el
servicio mediante un explorador web, pero su funcionalidad es limitada en comparación con la herramienta
Power BI Desktop. Puede usar el servicio para programar actualizaciones de los orígenes de datos en los que
se basan los informes y para compartir informes con otros usuarios. También puede definir paneles y
aplicaciones que combinen informes relacionados en una ubicación única y fácil de consumir.

Los usuarios pueden consumir informes, paneles y aplicaciones en el servicio Power BI mediante un
explorador web o en dispositivos móviles mediante la aplicación de teléfono de Power BI.

Exploración de los aspectos básicos de la visualización de datos

Descripción de los conceptos básicos del modelado de datos


57 / 64
azure_dp900.md 2025-03-16

Los modelos analíticos permiten estructurar los datos para admitir el análisis. Los modelos se basan en
tablas de datos relacionadas y definen los valores numéricos que se quieren analizar o notificar
(conocidos como medidas) y las entidades por las que se quieren agregar (conocidas como
dimensiones). Por ejemplo, un modelo podría incluir una tabla con medidas numéricas para las ventas (como
ingresos o cantidad) y dimensiones para productos, clientes y tiempo. Esto le permitiría agregar medidas de
venta en una o varias dimensiones (por ejemplo, para identificar los ingresos totales por cliente o el total de
artículos vendidos por producto al mes). Conceptualmente, el modelo forma una estructura
multidimensional, que normalmente se conoce como cubo, en la que cualquier punto en el que las
dimensiones forman una intersección representa una medida agregada para esas dimensiones.

Tablas y esquema

Las tablas de dimensiones representan las entidades por las que se quieren agregar las medidas
numéricas, por ejemplo, producto o cliente. Cada entidad se representa mediante una fila con un valor de
clave único. Las columnas restantes representan los atributos de una entidad; por ejemplo, los productos
tienen nombres y categorías, y los clientes tienen direcciones y ciudades. En la mayoría de los modelos
analíticos es habitual incluir una dimensión Tiempo para poder agregar medidas numéricas asociadas a
eventos en el tiempo.

Las medidas numéricas que agregarán las distintas dimensiones del modelo se almacenan en tablas de
hechos. Cada fila de una tabla de hechos representa un evento registrado que tiene medidas numéricas
asociadas. Por ejemplo, la tabla Sales (Ventas) del esquema siguiente representa las transacciones de ventas
para elementos individuales e incluye valores numéricos para la cantidad vendida y los ingresos.

58 / 64
azure_dp900.md 2025-03-16

Este tipo de esquema, donde una tabla de hechos está relacionada con una o varias tablas de
dimensiones, se conoce como esquema de estrella (imagine que hay cinco dimensiones relacionadas con
una sola tabla de hechos: el esquema formaría una estrella de cinco puntas). También puede definir un
esquema más complejo en el que las tablas de dimensiones están relacionadas con tablas adicionales
que contienen más detalles (por ejemplo, podría representar atributos de categorías de productos en una
tabla Category independiente relacionada con la tabla Product, en cuyo caso el diseño se conoce como un
esquema de copo de nieve. El esquema de las tablas de hechos y dimensiones se utiliza para crear un
modelo analítico, en el que se calculan previamente las agregaciones de medida para todas las dimensiones.
Esto hace que el rendimiento de las actividades de análisis e informes sea mucho más rápido que si se
calculan las agregaciones cada vez).

Jerarquías de atributos

Un último aspecto que merece la pena tener en cuenta sobre los modelos analíticos es la creación de
jerarquías de atributos que le permiten rastrear agrupando datos o explorar en profundidad
rápidamente para buscar valores agregados en distintos niveles en una dimensión jerárquica. Por
ejemplo, considere los atributos de las tablas de dimensiones que se han analizado hasta ahora. En la tabla
Product, puede formar una jerarquía en la que cada categoría incluya varios productos con nombre. De forma
similar, en la tabla Customer, se podría formar una jerarquía para representar varios clientes con nombre en
cada ciudad. Por último, en la tabla Time, puede formar una jerarquía de año, mes y día. El modelo se puede
crear con valores agregados previamente para cada nivel de una jerarquía, lo que permite cambiar
rápidamente el ámbito del análisis; por ejemplo, mediante la visualización del total de ventas por año y,
después, la exploración en profundidad para ver un desglose más detallado del total de ventas por mes.

59 / 64
azure_dp900.md 2025-03-16

Modelado analítico en Microsoft Power BI

Puede usar Power BI para definir un modelo analítico a partir de tablas de datos, que se pueden importar
desde uno o varios orígenes de datos. Después, puede usar la interfaz de modelado de datos de la
pestaña Modelo de Power BI Desktop para definir el modelo analítico mediante la creación de relaciones
entre tablas de hechos y dimensiones, la definición de jerarquías, el establecimiento de tipos de datos y
formatos de presentación para los campos de las tablas, y la administración de otras propiedades de los datos
que ayudan a definir un modelo enriquecido para el análisis.

Exploración de los aspectos básicos de la visualización de datos

Descripción de consideraciones para la visualización de datos

Después de crear un modelo, puede usarlo para generar visualizaciones de datos que se pueden incluir en un
informe.

60 / 64
azure_dp900.md 2025-03-16

Hay muchos tipos de visualización de datos, algunos más usados y otros más especializados. Power BI incluye
un amplio conjunto de visualizaciones integradas, que se pueden ampliar con visualizaciones personalizadas y
de terceros. En el resto de esta unidad se analizan algunas visualizaciones de datos comunes, pero no es una
lista completa.

Tablas y texto

Las tablas y el texto suelen ser la manera más sencilla de comunicar datos. Las tablas son útiles cuando se
deben mostrar numerosos valores relacionados y los valores de texto individuales de las tarjetas pueden
ser una manera útil de mostrar cifras o métricas importantes.

Gráfico de barras y de columnas

Los gráficos de barras y columnas son una buena manera de comparar visualmente valores numéricos para
categorías discretas.

Gráficos de líneas

61 / 64
azure_dp900.md 2025-03-16

Los gráficos de líneas también se pueden usar para comparar valores clasificados y son útiles cuando es
necesario examinar tendencias, a menudo a lo largo del tiempo.

Gráficos circulares

Los gráficos circulares se suelen usar en los informes empresariales para comparar visualmente los valores
clasificados como proporciones de un total.

Gráficos de dispersión

62 / 64
azure_dp900.md 2025-03-16

Los gráficos de dispersión son útiles cuando se quieren comparar dos medidas numéricas e identificar una
relación o correlación entre ellas.

Mapas

Maps son una excelente manera de comparar visualmente los valores de diferentes áreas geográficas o
ubicaciones.

Informes Interactivos en Power BI

63 / 64
azure_dp900.md 2025-03-16

En Power BI, los elementos visuales de los datos relacionados de un informe se vinculan
automáticamente entre sí y proporcionan interactividad.

Por ejemplo, al seleccionar una categoría individual en una visualización, se filtrará y resaltará
automáticamente esa categoría en otras visualizaciones relacionadas del informe.

En la imagen anterior, la ciudad Seattle se ha seleccionado en el gráfico de columnas Ventas por ciudad y
Categoría, y las demás visualizaciones se filtran para reflejar valores solo de Seattle.

Exploración de los aspectos básicos de la visualización de datos

Ejercicio: Exploración de los aspectos básicos de la visualización de datos con Power BI

Ejercicio

Exploración de los aspectos básicos de la visualización de datos

64 / 64

También podría gustarte