azure_dp900
azure_dp900
md 2025-03-16
Ahora los datos pueden recopilarse de manera más fácil y almacenarse de forma más barata, lo que permite
que casi todas las empresas puedan tener acceso a ellos. Las soluciones de datos incluyen tecnologías de
software y plataformas que pueden facilitar la recopilación, el análisis y el almacenamiento de información
valiosa. Todas las empresas buscan aumentar sus ingresos y obtener mayores ganancias. En este mercado
competitivo, los datos son un recurso valioso. Cuando se analizan correctamente, los datos se pueden
convertir en una gran cantidad de información útil que ayuda a tomar decisiones empresariales críticas.
Los datos son colecciones de elementos, como números, descripciones y observaciones, que se usan para
registrar informacion. Las estructuras de datos en que se organizan suelen representar entidades como
(Usuarios, Pases, Departamentos, Empleados), las cuales cuentan con atributos que son las características de la
entidad como (Nombre, Apellido, Dirección,ID, Edad)
Datos Estructurados
Esquema tabular (tabla) y fijo. Los datos son los mismos y mantienen una misma estructura.
1 / 64
azure_dp900.md 2025-03-16
Ejemplo
1 Juan Mora 25
2 Cristiano Aveiro 40
3 Luis Rodriguez 27
Datos Semiestructurados
Información con cierta estructura, pero permite cierta variación entre las instancias de entidad. Ejemplo,
cuando ciertos atributos pueden ser muy variados, un empleado con multiples correos y otros con solo uno.
El formato común para datos semiestructurados es JSON, sin embargo, tambien puede ser XML.
Ejemplo
// Customer 1
{
"firstName": "Joe",
"lastName": "Jones",
"address":
{
"streetAddress": "1 Main St.",
"city": "New York",
"state": "NY",
"postalCode": "10099"
},
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "[email protected]"
}
]
}
// Customer 2
{
"firstName": "Samir",
"lastName": "Nadoy",
"address":
{
"streetAddress": "123 Elm Pl.",
"unit": "500",
"city": "Seattle",
"state": "WA",
2 / 64
azure_dp900.md 2025-03-16
"postalCode": "98999"
},
"contact":
[
{
"type": "email",
"address": "[email protected]"
}
]
}
Datos No Estructurados
Datos que no tienen una estructura definida o patrón en común. Documentos, Imágenes, Audios, Videos y
Archivos Binarios.
Capacidad de almacenar datos en archivos, ya sea en disco duro, medios extraibles o en alguna plataforma en
internet. En las organizaciones se usan sistemas compartidos, donde cada vez este sistema se hospeda en la
nube, permitiendo un almacenamiento rentable, seguro y de confianza para grandes volúmenes de datos.
Los formatos dependeran del tipo de dato, aplicación, servicio, legibilidad o eficiencia. A continuación se
describen algunos formatos de archivo comunes
Archivos de texto sin formato con delimitadores y terminadores de fila; usualmente la primera fila incluye los
nombres del campo. El formato mas común es CSV que significa comma separated value, sin embargo,
puede estar separado por otros valores diferentes a la coma.
Es una buena opción para datos estructurados con un acceso a una amplia gama de aplicaciones y un
formato legible.
Ejemplo
FirstName,LastName,Email
Joe,Jones,[email protected]
Samir,Nadoy,[email protected]
3 / 64
azure_dp900.md 2025-03-16
JavaScript Object Notation es un esquema jerárquico para definir entidades de datos. Los atributos
pueden ser objetos (o una colección de datos), aumentando la flexibilidad del formato. Lo que permite su
viabilidad con datos estructurados y semiestructurados.
Ejemplo
{
"customers":
[
{
"firstName": "Joe",
"lastName": "Jones",
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "[email protected]"
}
]
},
{
"firstName": "Samir",
"lastName": "Nadoy",
"contact":
[
{
"type": "email",
"address": "[email protected]"
}
]
}
]
}
Reemplazado en gran medida por el JSON, menos detallado. Usa etiquetas entre corchetes angulares <.../>
para definir elementos y atributos, como se muestra en este ejemplo:
4 / 64
azure_dp900.md 2025-03-16
<Customers>
<Customer name="Joe" lastName="Jones">
<ContactDetails>
<Contact type="home" number="555 123-1234"/>
<Contact type="email" address="[email protected]"/>
</ContactDetails>
</Customer>
<Customer name="Samir" lastName="Nadoy">
<ContactDetails>
<Contact type="email" address="[email protected]"/>
</ContactDetails>
</Customer>
</Customers>
En ultima instancia todos los archivos se almacenan como datos binarios, pero en los formatos legibles
descritos anteriormente. Los bytes de datos se asignan a caracteres imprimibles (ASCII o UNICODE)
Formatos que permiten la compresión, indexación y un almacenamiento y procesamiento eficientes. Entre los
cuales, podemos encontrar Avro, ORC y Parquet
Avro: formato basado en filas creado por Apache. Cada registro contiene un encabezado que describe
la estructura de los datos en ese registro. Este encabezado se almacena como JSON. Los datos por su
parte se almacenan como información binaria. Entonces una aplicación usa el encabezado para analizar
los datos binarios y extraer los que campos que contienen. Formato adecuado para comprimir datos y
reducir requisitos de almacenamiento y ancho de banda de red
ORC (Formato de columnas de filas optimizadas): Organiza los datos en columnas en lugar de filas. Lo
desarrollo HortonWorks para optimizar las operaciones de lectura y escritura en Apache Hive. Un archivo
ORC contiene franjas de datos. Cada franja contiene los datos de una columna o de un conjunto de
columnas. Una franja contiene un índice de filas de dicha franja, los datos de cada fila y un pie de página
que contiene información estadística (count, sum, max, min, etc) de cada columna.
Parquet: Creado por Cloudera y X. Contiene grupos de filas. Los datos de cada columna se almacenan
juntos en el mismo grupo de filas. Cada grupo de filas contiene uno o varios fragmentos de datos.
Incluye metadatos que describen el conjunto de filas que hay en cada fragmento. Una app puede usar
estos metadatos para localizar rápidamente el fragmento correcto para un conjunto determinado de
filas. Parquet destaca por almacenar y procesar tipos de datos anidados de forma eficaz. Admite
esquemas de compresión y codificación muy eficaces.
Hive es un sistema de almacenamiento de datos que admite resúmenes de datos rápidos y consultas
en grandes conjuntos de datos
5 / 64
azure_dp900.md 2025-03-16
Las bases de datos se usan para definir un sistema central en el que los datos se pueden almacenar y
consultar.
Suelen usarse en almacenamiento y consulta datos estructurados. Los datos se almacenan en tablas que
representan entidades, por ejemplo, clientes, productos o pedidos de ventas. Las instancias tienen claves
principales para la identificación única de los datos; estas claves suelen usarse para hacer referencias a la
instancia de entidad en otras tablas.
Bases de datos de clave-valor: Cada registro consta de una clave única y un valor asociado, que
puede estar en cualquier formato.
Bases de datos de documentos: Datos clave-valor, pero con la particularidad que los valores son un
documento JSON (El sistema esta optimizado para consultar y analizar).
Bases de datos de familia de columnas: Datos tabulares con filas y columnas, pero con la posibilidad
de dividir esas columnas en grupos, conocidos como familias de columnas. Cada familia de columnas
contiene un conjunto de columnas que tienen una relación lógica entre sí.
Bases de datos de grafos: Almacenan entidades como nodos con vínculos para definir relaciones
entre ellas.
Un sistema transaccional registra las transacciones que encapsulan eventos especificos de los que la
organización quiere hacer seguimiento.
6 / 64
azure_dp900.md 2025-03-16
Suelen ser de gran volumen; a veces, controlan muchos millones de transacciones en un solo día. El trabajo
que realizan estos sistemas se conoce como procesamiento de transacciones en linea OLTP.
Son soluciones basadas en la optimización de lectura y escritura, con el fin de admitir cargas de trabajo
transaccionales en las que se crean, recuperan, actualizan y eliminan registros de datos CRUD. Los sistemas
OLTP aplican transacciones que admiten la denominada semántica ACID:
Atomicidad: Cada transacción se trata como unidad única, la cual se completa correctamente o
produce un error general.
Coherencia: Las transacciones solo pueden pasar los datos de la base de datos de un estado válido a
otro.
Aislamiento: Las transacciones simultáneas no pueden interferir entre sí y deben dar lugar a un estado
coherente de la base de datos.
Durabilidad: Cuando se ha confirmado una transacción, permanece confirmada.
Suelen usarse para admitir aplicaciones activas que procesan datos empresariales, a menudo
denominadas aplicaciones de línea de negocio LOB.
Sistemas enfocados principalmente (o únicamente) de solo lectura que almacenan grandes volúmenes de
datos históricos o métricas empresariales. Los análisis pueden basarse en una instantánea de los datos en un
momento concreto o en una serie de instantáneas.
{style="display:block;margin:0 auto"}
1. Los datos se extraen, transforman y cargan ETL en un lago de datos data lake para su análisis.
2. Datos se cargan en un esquema de tablas normalmente almacén de lago de datos basado en
Spark o un almacenamiento de datos con un motor SQL totalmente relacional.
3. Los datos se pueden cargar en el OLAP o cubo. Los valores númericos se calculan para intersecciones
de dimensiones a partir de tablas de dimensiones.
4. Los lagos de datos, el almacenamiento de datos y el modelo análitico se pueden consultar para generar
informes, visualizaciones y paneles.
Los lagos de datos son comunes en escenarios de procesamiento analítico de datos modernos, en los que se
debe recopilar y analizar un gran volumen de datos basados en archivos.
Los almacenes de lago de datos son una innovación más reciente que combina el almacenamiento flexible y
escalable de un lago de datos con la semántica de consulta relacional de un almacenamiento de datos. El
esquema de tabla puede requerir cierta desnormalización de datos en un origen de datos OLTP.
Un modelo OLAP es un tipo agregado de almacenamiento de datos optimizado para cargas de trabajo
analíticas. Las agregaciones de datos se encuentran en diferentes dimensiones y distintos niveles, lo que
7 / 64
azure_dp900.md 2025-03-16
permite rastrear agrupando datos y explorar en profundidad las agregaciones en varios niveles jerárquicos; por
ejemplo, para buscar el total de ventas por región, por ciudad o por una dirección individual.
Los científicos de datos pueden trabajar directamente con archivos de datos en un lago de datos para
explorar los datos y crear modelos a partir de estos.
Los analistas de datos pueden consultar tablas directamente en el almacenamiento de datos para
generar informes y visualizaciones complejos.
Los usuarios profesionales pueden consumir datos agregados previamente en un modelo analítico
como informes o paneles.
Estos son los tres roles de trabajo principales que se ocupan de los datos de la mayoría de las organizaciones:
Los administradores de bases de datos administran bases de datos, asignan permisos a los usuarios,
almacenan copias de seguridad de datos y restauran datos en caso de que se produzca un error.
Los ingenieros de datos administran la infraestructura y los procesos para la integración de datos en
una organización, aplican rutinas de limpieza de datos, identifican reglas de gobernanza de datos e
implementan canalizaciones para transferir y transformar datos entre sistemas.
Los analistas de datos exploran y analizan los datos con el fin de crear visualizaciones y gráficos que
permiten que las organizaciones tomen decisiones fundamentadas.
Ingenieros de datos
Los ingenieros de datos colaboran con las partes interesadas para diseñar e implementar cargas de trabajo
relacionadas con datos, incluidas canalizaciones de ingesta de datos, actividades de limpieza y
transformación, y almacenes de datos para cargas de trabajo analíticas.
Analista de datos
Los analistas de datos ayudan a las empresas a maximizar el valor de sus recursos de datos. Son los
responsables de explorar datos para identificar tendencias y relaciones, diseñar e implementar modelos
analíticos, y habilitar funcionalidades de análisis avanzado mediante informes y visualizaciones.
8 / 64
azure_dp900.md 2025-03-16
A continuación se describen algunos de los servicios en la nube que se usan más a menudo para los datos.
Azure SQL
Nombre colectivo de una familia de soluciones de base de datos relacionales basadas en el motor de base de
datos de Microsoft SQL Server. Los servicios específicos de Azure SQL incluyen:
Azure SQL Database: Una base de datos de plataforma como servicio PaaS totalmente administrada y
hospedada en Azure.
Azure SQL Managed Instance: Instancia de SQL Server con mantenimiento automatizado, permite la
configuración más flexible de Azure SQL Database, pero con más responsabilidades administrativas
para el propietario.
Máquina virtual de Azure SQL: VM con la instalación de SQL Server, ofrece una capacidad de
configuración máxima con una responsabilidad de administración completa.
Azure incluye servicios administrados para sistemas populares de bases de datos relacionales de código
abierto, entre los que se incluyen:
Azure Database for MySQL: consiste en un sistema de administración de bases de datos de código
abierto fácil de usar que suele emplearse en aplicaciones de pila de Linux, Apache, MySQL y PHP
(LAMP).
Azure Database for MariaDB: es un sistema de administración de bases de datos más reciente que
han creado los desarrolladores originales de MySQL. El motor de base de datos se ha reescrito y se ha
optimizado para mejorar el rendimiento. MariaDB ofrece compatibilidad con Oracle Database (otro
sistema de administración de bases de datos comerciales conocido).
Azure Database for PostgreSQL: se trata de una base de datos híbrida de objetos relacionales. Una
base de datos de PostgreSQL permite almacenar datos en tablas relacionales, pero también tipos de
datos personalizados con sus propias propiedades no relacionales.
Azure Cosmos DB
9 / 64
azure_dp900.md 2025-03-16
Sistema de base de datos NO RELACIONAL a escala global que admite varias interfaces de programación de
aplicaciones (API), lo que permite almacenar y administrar datos como documentos JSON, pares clave-valor,
familias de columnas y gráficos.
Azure Storage
Los ingenieros de datos usan Azure Storage para hospedar lagos de datos, es decir, almacenamiento
de blobs con un espacio de nombres jerárquico que permite organizar los archivos en carpetas en un
sistema de archivos distribuido.
Azure Data Factory es un servicio de Azure que permite definir y programar canalizaciones de datos para
transferir y transformar datos.
Los ingenieros de datos usan Azure Data Factory para compilar soluciones de extracción,
transformación y carga (ETL) que rellenan almacenes de datos analíticos con datos de sistemas
transaccionales de toda la organización.
Microsoft Fabric
10 / 64
azure_dp900.md 2025-03-16
Microsoft Fabric es una plataforma unificada de análisis de software como servicio SaaS basada en almacén
de lago de datos abierto y regulado que incluye funcionalidad para admitir:
Los ingenieros de datos pueden usar Microsoft Fabric para crear una solución unificada de análisis de
datos que combina canalizaciones de ingesta de datos, almacenes de datos, análisis en tiempo real,
inteligencia empresarial e información basada en inteligencia artificial a través de un único servicio que
se almacena de forma centralizada con Microsoft OneLake.
Azure Databricks
Azure Databricks es una versión integrada de Azure de la popular plataforma Databricks, que combina la
plataforma de procesamiento de datos de Apache Spark con la semántica de base de datos SQL y una
interfaz de administración integrada para habilitar el análisis de datos a gran escala.
Los ingenieros de datos pueden usar las capacidades de Databricks y Spark para crear almacenes de
datos analíticos en Azure Databricks. Los analistas de datos pueden usar la compatibilidad nativa con
cuadernos en Azure Databricks para consultar y visualizar datos en una interfaz basada en web fácil de
usar.
Azure Stream Analytics es un motor de procesamiento de flujos en tiempo real que captura un flujo de datos
de una entrada, aplica una consulta para extraer y manipular los datos del flujo de entrada y escribe los
resultados en una salida para su análisis o procesamiento posterior.
Los ingenieros de datos pueden incorporar Azure Stream Analytics en arquitecturas de análisis de
datos que capturan datos de streaming para su ingesta en un almacén de datos analíticos o para su
visualización en tiempo real.
11 / 64
azure_dp900.md 2025-03-16
Azure Data Explorer es una plataforma de análisis de macrodatos totalmente administrada e independiente
que ofrece consultas de alto rendimiento de datos de registro y telemetría. "Principalmente para consultas de
largas distancias (telemetría) como sensores donde se registren de manera temporal."
Los analistas de datos pueden usar Azure Data Explorer para consultar y analizar datos que incluyan un
atributo de marca de tiempo, como es habitual en los archivos de registro y los datos de telemetría de
IoT (Internet de las cosas).
Microsoft Purview
Microsoft Purview proporciona una solución para la gobernanza y la detectabilidad de datos de toda la
empresa. Puede usar Microsoft Purview para crear un mapa de los datos y realizar un seguimiento del
linaje de datos en varios orígenes de datos y sistemas, lo que le permite encontrar datos de confianza para
el análisis y la elaboración de informes.
Los ingenieros de datos pueden usar Microsoft Purview para aplicar la gobernanza de datos en toda la
empresa y garantizar la integridad de los datos que se usan para admitir cargas de trabajo analíticas.
Introducción
El modelo relacional proporciona una forma estándar de representar y consultar datos que cualquier
aplicación puede usar. Una de las principales ventajas del modelo de base de datos relacional es el uso de
tablas, que son una manera intuitiva, eficaz y flexible de almacenar información estructurada y acceder a ella.
12 / 64
azure_dp900.md 2025-03-16
En una base de datos relacional, las colecciones de entidades del mundo real se modelan en forma de tablas.
Una entidad puede ser cualquier elemento para el que quiera registrar información; por lo general, se trata de
objetos y eventos importantes.
Las tablas relacionales son un formato para datos estructurados y cada fila de una tabla tiene las mismas
columnas, aunque en algunos casos no todas las columnas necesitan tener un valor.
Comprensión de la normalización
La normalización es un término que usan los profesionales de bases de datos para referirse a un proceso de
diseño de esquemas que reduce al mínimo la duplicación de los datos e impone la integridad de los datos.
Exploración de SQL
SQL significa Lenguaje de consulta estructurado (por sus siglas en inglés) y se usa para comunicarse con una
base de datos relacional. Se trata del lenguaje estándar para los sistemas de administración de bases de datos
relacionales. Las instrucciones SQL se usan para realizar tareas como actualizar o recuperar datos de una base
de datos. Algunos sistemas de administración de bases de datos relacionales habituales que utilizan SQL
incluyen Microsoft SQL Server, MySQL, PostgreSQL, MariaDB y Oracle.
Puede usar instrucciones SQL como SELECT, INSERT, UPDATE, DELETE, CREATE y DROP para realizar
prácticamente cualquier tarea que deba llevarse a cabo con una base de datos. Si bien estas instrucciones SQL
forman parte del estándar SQL, muchos sistemas de administración de bases de datos también cuentan con
extensiones propias adicionales para controlar los detalles de ese sistema de administración de bases de
datos
1. Transact-SQL T-SQL: Esta versión de SQL la usan los servicios Microsoft SQL Server y Azure SQL
2. pgSQL: Se trata del dialecto, con extensiones, que se implementa en PostgreSQL
3. PL/SQL: Se trata del dialecto que utiliza Oracle. PL/SQL significa "Lenguaje de procedimientos/SQL"
13 / 64
azure_dp900.md 2025-03-16
Las instrucciones DDL se usan para crear, modificar y quitar tablas y otros objetos de una base de datos (tabla,
procedimientos almacenados, vistas, etc.).
COMANDO DESCRIPCIÓN
CREATE Permite crear un nuevo objeto en la base de datos, comouna tabla o una vista.
Permite modificar la estructura de un objeto. Por ejemplo, una tabLa para agregar una
ALTER
nueva columna.
Crear Tabla
Los administradores de bases de datos suelen usar instrucciones DCL para administrar el acceso a objetos de
una base de datos mediante la concesión, denegación o revocación de permisos a usuarios o grupos específicos.
COMANDO DESCRIPCIÓN
Por ejemplo, la siguiente instrucción GRANT permite a un usuario denominado user1 leer, insertar y modificar
datos en la tabla Product.
14 / 64
azure_dp900.md 2025-03-16
Las instrucciones DML se usan para manipular las filas de las tablas. Estas instrucciones permiten recuperar
(consultar) datos, insertar nuevas filas o modificar filas existentes. También puede eliminar filas si ya no las
necesita.
COMANDO DESCRIPCIÓN
SQL no ofrece solicitudes de confirmación, por lo que debe tener cuidado al usar DELETE o UPDATE sin
una cláusula WHERE, ya que podría perder o modificar una gran cantidad de datos.
Ejemplos
15 / 64
azure_dp900.md 2025-03-16
Además de las tablas, una base de datos relacional puede contener otras estructuras que ayudan a optimizar
la organización de los datos, encapsular acciones mediante programación y mejorar la velocidad de acceso.
En esta unidad, obtendrá información acerca de tres de estas estructuras con más detalle: vistas,
procedimientos almacenados e índices.
Una vista es una tabla virtual basada en los resultados de una consulta SELECT. Podría decirse que una vista es
como una ventana que muestra unas filas concretas de una o varias tablas subyacentes.
Un procedimiento almacenado define instrucciones SQL que se pueden ejecutar a petición. Los procedimientos
almacenados se usan para encapsular la lógica de programación en una base de datos para las acciones que
las aplicaciones deben realizar al trabajar con datos.
Ejemplo: Se podría definir el siguiente procedimiento almacenado para cambiar el nombre de un producto
en función del identificador de producto especificado.
16 / 64
azure_dp900.md 2025-03-16
¿Qué es un índice?
Un índice le ayuda a buscar datos en una tabla. Piense en el índice de una tabla como en el índice de la parte
final de un libro. El índice de un libro contiene un conjunto ordenado de contenido, junto a las páginas en las
que aparece. El índice le servirá para buscar la referencia a un elemento del libro.
Cuando se crea un índice en una base de datos, se especifica una columna de la tabla; el índice
contiene una copia de estos datos con un criterio de ordenación y punteros a las filas correspondientes
de la tabla. Cuando el usuario ejecuta una consulta que especifica esa columna en la cláusula WHERE,
el sistema de administración de bases de datos puede utilizar el índice para capturar los datos más
rápidamente que si tuviera que examinar toda la tabla fila por fila.
Ejemplo:
El índice crea una estructura basada en árbol que el optimizador de consultas del sistema de base de datos
puede usar para buscar rápidamente filas en la tabla Product en función de un nombre específico (Name).
Cuando una tabla tiene muchas filas, los índices pueden mejorar drásticamente el rendimiento de las
consultas.
Nota: Los índices no son gratuitos. Un índice consume espacio de almacenamiento y, cada vez que inserte
datos en una tabla, los actualice o los elimine, tendrá que hacer el mantenimiento de sus índices. Este trabajo
adicional puede ralentizar las operaciones de inserción, actualización y eliminación. Debe conseguir un
equilibrio entre tener índices que aceleren las consultas y el coste de realizar otras operaciones.
17 / 64
azure_dp900.md 2025-03-16
Azure admite varios servicios de base de datos, lo que permite ejecutar en la nube diversos sistemas de
administración de bases de datos relacionales conocidos, por ejemplo, SQL Server, PostgreSQL y MySQL.
La mayoría de los servicios de base de datos de Azure están totalmente administrados, con lo cual dispondrá de
un tiempo muy valioso que, de otro modo, desperdiciaría administrando la base de datos. El rendimiento de
nivel empresarial con alta disponibilidad integrada significa que es posible realizar un escalado rápidamente y
conseguir una distribución global sin preocuparse de los costosos tiempos de inactividad. Los desarrolladores
pueden sacar partido de innovaciones punteras en el sector, como la seguridad integrada con supervisión
automática y detección de amenazas, y el ajuste automático para mejorar el rendimiento. Además, aparte de
todas estas características, la disponibilidad está garantizada.
Azure SQL es un término colectivo para referirse a una familia de servicios de base de datos basados en
Microsoft SQL Server en Azure. Los servicios específicos de Azure SQL incluyen los siguientes:
SQL Server en máquina virtual de Azure (VM): Una máquina virtual que se ejecuta en Azure con una
instalación de SQL Server. El uso de una máquina virtual convierte esta opción en una solución de
infraestructura como servicio (IaaS) que permite virtualizar la infraestructura de hardware para
proceso, almacenamiento y redes en Azure. Por este motivo, se trata de una opción excelente para la
migración lift-and-shift de instalaciones locales de SQL Server a la nube.
Azure SQL Managed Instance: Una opción de plataforma como servicio (PaaS) que proporciona una
compatibilidad casi completa con instancias de SQL Server locales y permite abstraer el hardware y el
sistema operativo subyacentes. Este servicio incluye administración automatizada de actualizaciones de
software, copias de seguridad y otras tareas de mantenimiento, lo que reduce la carga administrativa
que supone admitir una instancia de servidor de bases de datos.
Azure SQL Database: Un servicio de base de datos PaaS totalmente administrado y altamente escalable
que se ha diseñado para la nube. Este servicio incluye las principales capacidades de base de datos de
SQL Server local y es una buena opción cuando hay que crear una aplicación en la nube.
Azure SQL Edge: un motor SQL optimizado para escenarios de Internet de las cosas (IoT) en los
que es necesario trabajar con datos de serie temporal de streaming.
SQL Server en
Instancia administrada
-- máquinas virtuales de Azure SQL Database
de Azure SQL
Azure
18 / 64
azure_dp900.md 2025-03-16
SQL Server en
Instancia administrada
-- máquinas virtuales de Azure SQL Database
de Azure SQL
Azure
--
Tipo de
servicio en la IaaS PaaS PaaS
nube
19 / 64
azure_dp900.md 2025-03-16
SQL Server en
Instancia administrada
-- máquinas virtuales de Azure SQL Database
de Azure SQL
Azure
SQL Server en Virtual Machines le permite usar versiones completas de SQL Server en la nube sin tener
que administrar ningún hardware local. Este es un ejemplo del enfoque de IaaS.
Este enfoque es adecuado para las migraciones y aplicaciones que requieren acceso a características
del sistema operativo que podrían no admitirse en el nivel de PaaS
También puede usar SQL Server en máquinas virtuales de Azure para ampliar las aplicaciones locales
existentes a la nube en implementaciones híbridas.
Puede usar SQL Server en una máquina virtual para desarrollar y probar aplicaciones de SQL Server
tradicionales.
Con una máquina virtual, tiene todos los derechos administrativos sobre el sistema operativo y el
DBMS. Es una opción perfecta cuando una organización ya tiene recursos de TI disponibles para
mantener las máquinas virtuales.
Nota: Una implementación híbrida es un sistema en el que una parte de la operación se ejecuta de
forma local, y otra parte, en la nube.
Ventajas Empresariales
Combinación de implementaciones locales y hospedadas en la nube, a la vez que usa el mismo conjunto
de productos de servidor, herramientas de desarrollo y conocimientos en estos entornos.
"No siempre es fácil para las empresas cambiar su DBMS a un servicio totalmente administrado." esta
razón, el uso de máquinas virtuales puede ofrecer una solución, pero no elimina la necesidad de
administrar el DBMS tan cuidadosamente como lo haría en el entorno local.
Azure SQL Managed Instance permite ejecutar eficazmente una instancia totalmente controlable de
SQL Server en la nube. Puede instalar varias bases de datos en la misma instancia y tiene un control total
sobre esta instancia.
20 / 64
azure_dp900.md 2025-03-16
para las bases de datos. Puede encontrar información detallada en el artículo ¿Qué es Azure SQL Managed
Instance?.
Casos de Uso
Considere la posibilidad de usar Azure SQL Managed Instance si quiere migrar mediante lift-and-shift una
instancia local de SQL Server y todas sus bases de datos a la nube, todo ello sin tener que lidiar con la
sobrecarga de administración que supone ejecutar SQL Server en una máquina virtual.
Service Blocker: Un sistema de procesamiento de mensajes que se puede usar para distribuir el
trabajo entre servidores
Correo electrónico de Base de datos: Permite el envío de mensajes de correo electrónico a los
usuarios
Si desea comprobar la compatibilidad con un sistema local existente, puede instalar Data Migration Assistant
(DMA)
Ventajas Empresariales
Permite a un administrador del sistema dedicar menos tiempo a tareas administrativas, ya que el servicio
las realiza automáticamente o las simplifica en gran medida. Entre las tareas automatizadas se incluyen:
Instalación y Revisión del software del sistema operativo y del sistema de administración de bases de
datos
Cambio de tamaño y configuración de instancias dinámicas
Copias de Seguridad
Replicación de bases de datos (Incluidas las del sistema)
Configuración de alta disponibilidad
Configuración de flujos de datos de supervisión del estado y del rendimiento
Cuenta con compatibilidad casi completa con SQL Server Enterprise Edition, que se ejecuta de
forma local.
Admite inicios de sesión del motor de base de datos de SQL Server e inicios de sesión integrados en
Microsoft Entra ID
Los inicios de sesión mediante el motor incluyen usuario y contraseña. Los de Microsoft Entra ID usan
las credenciales asociadas con el inicio de sesion del equipo actual, por lo cual no es necesario
proporcionarlas cada vez que se conecta con el servidor.
21 / 64
azure_dp900.md 2025-03-16
Azure SQL Database es una oferta de PaaS de Microsoft. Después de crear un servidor de bases de datos
administrado en la nube, debe implementar las bases de datos en este otro servidor.
Nota: Un servidor de SQL Database es una construcción lógica que actúa como punto administrativo
central para varias bases de datos individuales o agrupadas, inicios de sesión, reglas de firewall, reglas
de auditoría, directivas de detección de amenazas y grupos de conmutación por error.
Azure SQL Database está disponible como una base de datos única o un grupo elástico.
Esta opción le permite configurar y ejecutar rápidamente una sola base de datos de SQL Server. Puede crear y
ejecutar un servidor de bases de datos en la nube y acceder a la base de datos a través de este servidor.
Microsoft administra el servidor, por lo que solo tiene que configurar la base de datos, crear las tablas y
rellenarlas con sus datos. Puede escalar la base de datos si necesita más espacio de almacenamiento,
memoria o potencia de procesamiento. De forma predeterminada, los recursos están asignados previamente
y se le cobra por hora por los recursos que ha solicitado.
También puede especificar una configuración sin servidor. En esta configuración, Microsoft crea su propio
servidor, que se puede compartir entre las bases de datos que pertenecen a otros suscriptores de Azure. En
este caso, Microsoft garantiza la privacidad de su base de datos. Su base de datos se escala automáticamente y
los recursos se asignan o desasignan según sea necesario.
Grupo elástico
Esta opción es similar a la opción Base de datos única excepto en que, de forma predeterminada, varias bases
de datos pueden compartir los mismos recursos, como la memoria, el espacio de almacenamiento de
datos y la capacidad de procesamiento mediante la arquitectura multiinquilino. Se hace referencia a los
recursos como un grupo. Al crear un grupo, solo sus bases de datos pueden usarlo.
Este modelo es útil si tiene bases de datos con requisitos de recursos que varían con el tiempo, además,
puede ayudarle a reducir los costos.
Por ejemplo, su base de datos de nóminas puede requerir una gran cantidad de potencia de CPU al final de
cada mes a medida que se encarga del procesamiento de nóminas, pero en otras ocasiones la base de datos
podría estar mucho menos activa. Es posible que tenga otra base de datos para ejecutar informes. Esta base
de datos podría activarse durante varios días a mediados del mes mientras se generan informes de
administración, pero podría tener una carga más ligera en otras ocasiones.
La opción Grupo elástico le permite usar los recursos disponibles en el grupo y liberarlos una vez que se haya
completado el procesamiento.
Casos de Uso
Azure SQL Database ofrece la mejor opción por un costo bajo con administración mínima. *No es
totalmente compatible con las instalaciones de SQL Server locales. *A menudo se usa en nuevos proyectos en
la nube, donde el diseño de la aplicación puede acomodar los cambios necesarios en las aplicaciones.
22 / 64
azure_dp900.md 2025-03-16
Aplicaciones modernas en la nube que necesitan usar las características estables más recientes de SQL
Server.
Aplicaciones que requieren alta disponibilidad.
Sistemas con una carga variable que necesitan escalar y reducir verticalmente el servidor de bases
de datos de forma rápida.
Ventajas Empresariales
Azure SQL Database actualiza automáticamente el software de SQL Server y le aplica revisiones para
asegurarse de que siempre se ejecuta la versión más reciente y más segura del servicio.
Las características de escalabilidad de Azure SQL Database garantizan que pueda aumentar los
recursos disponibles para almacenar y procesar los datos sin tener que llevar a cabo una actualización
manual costosa.
Azure SQL Database admite la restauración a un momento dado, lo que le permite recuperar una
base de datos al estado en que se encontraba en cualquier momento del pasado.
Advanced Threat Protection proporciona funcionalidades de seguridad avanzadas, como las
evaluaciones de vulnerabilidad, para ayudar a detectar y corregir posibles problemas de seguridad con
las bases de datos.
La auditoría hace un seguimiento de los eventos de una base de datos y los escribe en un registro de
auditoría de su cuenta de almacenamiento de Azure.
SQL Database ayuda a proteger los datos proporcionando cifrado que protege los datos
almacenados en la base de datos (en reposo) y mientras se transfieren a través de la red (en
movimiento).
Además de para servicios de Azure SQL, los servicios de datos de Azure están disponibles para otros sistemas
conocidos de bases de datos relacionales, como MySQL, MariaDB y PostgreSQL. La razón principal de incluir
estos servicios es permitir que las organizaciones que los usan en aplicaciones locales migren a Azure
rápidamente, sin necesidad de realizar cambios significativos en sus aplicaciones.
MySQL, MariaDB y PostgreSQL son sistemas de administración de bases de datos relacionales que se adaptan
a diferentes especializaciones.
MySQL comenzó siendo un sistema de administración de bases de datos de código abierto fácil de
usar. Es la base de datos relacional de código abierto líder para aplicaciones de pila de Linux, Apache,
MySQL y PHP (LAMP). Está disponible en varias ediciones; Community, Estándar y Enterprise. La edición
Community está disponible de forma gratuita y se ha usado históricamente como sistema de
administración de bases de datos para aplicaciones web que se ejecutan en Linux. También hay
versiones disponibles para Windows. La edición Estándar ofrece mayor rendimiento y usa una
tecnología diferente para almacenar los datos. La edición Enterprise proporciona un completo conjunto
de herramientas y características, entre las que se incluyen seguridad mejorada, disponibilidad y
23 / 64
azure_dp900.md 2025-03-16
escalabilidad. Las ediciones Estándar y Enterprise son las más usadas por las organizaciones comerciales,
aunque estas versiones del software no son gratuitas.
MariaDB es un sistema de administración de bases de datos más reciente creado por los
desarrolladores originales de MySQL. El motor de base de datos se ha reescrito y se ha optimizado para
mejorar el rendimiento. Una característica notable de MariaDB es su compatibilidad integrada con los
datos temporales. Una tabla puede contener varias versiones de datos, lo que permite que una
aplicación consulte los datos tal y como aparecían en algún momento del pasado.
PostgreSQL es una base de datos híbrida de objetos relacionales. Una base de datos de PostgreSQL
permite almacenar datos en tablas relacionales, pero también tipos de datos personalizados con sus
propias propiedades no relacionales. El sistema de administración de bases de datos es extensible, es
decir, se pueden agregar módulos de código a la base de datos, los cuales pueden ejecutarse mediante
consultas. Otra característica clave es su capacidad de almacenar y manipular datos geométricos,
como líneas, círculos y polígonos. dispone de su propio lenguaje de consulta llamado pgsql. Este
lenguaje es una variante del lenguaje de consulta relacional estándar, SQL, y cuenta con características
que permiten escribir procedimientos almacenados que se ejecutan en la base de datos.
Azure Database for MySQL es una implementación PaaS de MySQL en la nube de Azure que se basa en la
edición Community de MySQL.
El servicio Azure Database for MySQL incluye alta disponibilidad sin costos adicionales y escalabilidad según
sea necesario. Solo paga por lo que usa. Se proporcionan copias de seguridad automáticas con restauración a
un momento dado.
El servidor ofrece seguridad de conexión para aplicar las reglas de firewall y, opcionalmente, requerir
conexiones SSL. Muchos parámetros de servidor permiten configurar opciones del servidor, como los
modos de bloqueo, el número máximo de conexiones y los tiempos de espera.
Azure Database for MySQL proporciona un sistema de base de datos global que se puede escalar
verticalmente a bases de datos grandes sin necesidad de administrar el hardware, los componentes de red,
los servidores virtuales, las revisiones de software y otros componentes subyacentes.
Hay algunas operaciones que no están disponibles con Azure Database for MySQL. Estas funciones están
relacionadas principalmente con la seguridad y la administración. Azure administra estos aspectos del
propio servidor de bases de datos.
24 / 64
azure_dp900.md 2025-03-16
El sistema usa el modelo de precios de pago por uso, por lo que solo paga por lo que usa.
Es una implementación del sistema de administración de bases de datos MariaDB adaptada para ejecutarse
en Azure. Se basa en la edición Community de MariaDB.
Azure administra y controla totalmente la base de datos. Una vez aprovisionado el servicio y transferidos los
datos, el sistema no requiere prácticamente ninguna administración más.
Este servicio proporciona las mismas ventajas de disponibilidad, rendimiento, escalado, seguridad y
administración que MySQL.
Algunas características de las bases de datos locales de PostgreSQL no están disponibles en Azure Database for
PostgreSQL. Estas características están relacionadas principalmente con las extensiones que los usuarios
pueden agregar a una base de datos para realizar tareas especializadas, como escribir procedimientos
almacenados en varios lenguajes de programación (distintos de pgsql, el cual está disponible) e interactuar
directamente con el sistema operativo. Se admite un conjunto básico de las extensiones que se usan con
más frecuencia, y la lista de extensiones disponibles se revisa continuamente.
La opción de implementación de servidor flexible para PostgreSQL es un servicio de base de datos totalmente
administrado. Proporciona un elevado nivel de control y personalizaciones de configuración de servidor, así
como controles de optimización de costos.
25 / 64
azure_dp900.md 2025-03-16
4. Luego Siguiente, seleccionar Next: Networking >,y en la página de Red, en la conexión de red,
seleccionar una entrada publica Public Endpoint. Luego Yes en las dos reglas del Firewall, para dar
acceso al servidor de la base de datos desde servicios de Azure y a tu IP.
5. Next: Security > y poner Enable Microsoft Defender for SQL en Not now
26 / 64
azure_dp900.md 2025-03-16
6. Next: Additional Settings >, poner Use existing data en Sample (Esto creara una base de datos de
ejemplo)
7. Review + Create, seleccionar Create para crear el servicio de Azure SQL Database
9. En el panel de la izquierda seleccionar Query Editor (preview), e iniciar sesion con las credenciales de
administrador que tu especificaste para tu servidor.
10. Expandir el directorio Tables para ver las tablas de la base de datos
27 / 64
azure_dp900.md 2025-03-16
SELECT
p.ProductID, p.Name AS ProductName, c.Name AS Category, p.ListPrice
FROM SalesLT.Product AS p
JOIN [SalesLT].[ProductCategory] AS c
ON p.ProductCategoryID = c.ProductCategoryID;
Si terminaste de usar Azure SQL Database borra el grupo de recursos que creaste en este ejercicio.
Los datos no relacionales son una manera común de que las aplicaciones almacenen y consulten datos sin
sufrir la sobrecarga de un esquema relacional. En Microsoft Azure, puede usar Azure Storage y Azure Cosmos
DB para crear almacenes de datos seguros y altamente escalables para datos no relacionales.
Muchas aplicaciones no necesitan la estructura rígida de una base de datos relacional y se basan en el
almacenamiento no relacional (conocido a menudo como NoSQL).
Azure Storage y Microsoft OneLake ofrecen una variedad de opciones para almacenar datos en la nube. En
este módulo, explorará las funcionalidades principales de Microsoft OneLake y Azure Storage, y aprenderá
cómo se usa para admitir aplicaciones que necesitan almacenes de datos no relacionales.
Azure Blob Storage es un servicio que le permite almacenar grandes cantidades de datos no
estructurados como objetos binarios grandes, o blobs, en la nube. Los blobs son una manera eficaz de
almacenar archivos de datos en un formato optimizado para el almacenamiento basado en la nube, y las
aplicaciones pueden leerlos y escribirlos mediante la API de Azure Blob Storage.
En una cuenta de Azure Storage, los blobs se almacenan en contenedores. Un contenedor proporciona una
manera cómoda de agrupar blobs relacionados. Puede controlar quién puede leer y escribir blobs dentro de un
contenedor en el nivel de contenedor.
Dentro de un contenedor, puede organizar los blobs en una jerarquía de carpetas virtuales, similares a los
archivos de un sistema de archivos en un disco. Sin embargo, de manera predeterminada, estas carpetas no
son más que una forma de utilizar un carácter "/" en el nombre de un blob para organizar los blobs en
espacios de nombres. Las carpetas son puramente virtuales y no es posible hacer operaciones de nivel de
carpeta para controlar el acceso ni hacer operaciones masivas.
Blobs en bloques: Conjunto de bloques, cada bloque puede tener un tamaño de hasta 4000 MiB. Con
un tamaño maximo total de hasta 190.7 TiB (4000 MiB x 50000 bloques). Recomendados para
almacenar objetos binarios grandes discretos que cambian con poca frecuencia
Blobs en páginas: Colección de páginas de tamaño fijo de 512 bytes. Puede contener hasta 8 TB.
Usados por Azure para almacenamiento de discos virtuales de las VM
Blobs en anexos: Es un Blob en bloques optimizado para admitir operaciones de anexión. Solo puede
agregar bloques al final de un blob de anexos; no se admite actualización o eliminación de
bloques existentes. Cada bloque puede ser de hasta 4 MB. El tamaño máximo del blob en anexos es
de 195 GB
El almacenamiento de blobs proporciona tres niveles de acceso, que ayudan a equilibrar la latencia de acceso
y el costo de almacenamiento:
30 / 64
azure_dp900.md 2025-03-16
El nivel de acceso frecuente es el predeterminado. blobs de acceso con frecuencia, para medios de alto
rendimiento.
El nivel Esporádico, cuenta con un rendimiento menor. Para datos de poca frecuencia.
El nivel Archivo proporciona el menor costo de almacenamiento, pero una mayor latencia. Pensado para
datos históricos que no deben perderse, pero que raramente se necesiten. Se almacenan de forma
eficaz en un estado sin conexión. La lectura para espóradico y frecuente es de milisegundos, en este
caso pueden tardar horas en estar disponibles para lectura. Normalmente para leer los datos,
primero debe pasar los datos a otro nivel de acceso, este proceso se llama rehidratación. Apenas
se complete podra leer del blob.
Puede crear directivas de administración del ciclo de vida para los blobs de una cuenta de
almacenamiento. Una directiva de administración del ciclo de vida puede trasladar automáticamente
un blob de acceso frecuente a acceso esporádico y, a continuación, al nivel de acceso de archivo, a
medida que pasa el tiempo y se usa con menos frecuencia (la directiva se basa en el número de días
transcurridos desde la última modificación). Una directiva de administración del ciclo de vida también
puede organizarse para eliminar blobs obsoletos.
Azure Data Lake Store (Gen1) es un servicio independiente para el almacenamiento jerárquico de los
datos de lagos de datos analíticos que, con frecuencia, usan las denominadas soluciones de análisis
de macrodatos que funcionan con datos estructurados, semiestructurados y no estructurados,
almacenados en archivos.
Azure Data Lake Storage Gen2 es una versión más reciente de este servicio que se integra en Azure Storage;
permite aprovechar la escalabilidad del almacenamiento en blobs y el control de costos de los niveles de
almacenamiento, combinado con las capacidades del sistema de archivos jerárquico y la compatibilidad con
los principales sistemas de análisis de Azure Data Lake Store.
Los sistemas como Azure Databricks pueden montar un sistema de archivos distribuido hospedado en Azure
Data Lake Store Gen2 y usarlo para procesar grandes volúmenes de datos. Los inquilinos de Microsoft Fabric
aprovisionan automáticamente OneLake, basados en Azure Data Lake Storage Gen2.
31 / 64
azure_dp900.md 2025-03-16
Para crear un sistema de archivos de Azure Data Lake Store Gen2, debe habilitar la opción Espacio de
nombres jerárquico de una cuenta de Azure Storage. Se puede hacer al crearlo o actualizar uno ya existente
(Al actualizar no puede revertir los cambios)
Microsoft Fabric aprovisiona automáticamente OneLake, basado en Azure Data Lake Gen 2.
OneLake es un lago de datos único, unificado y lógico diseñado para toda su organización. OneLake
viene automáticamente con todos los inquilinos de Microsoft Fabric y sirve como repositorio central para
todos los datos de análisis. Ya sea estructurado o no estructurado, OneLake admite cualquier tipo de
archivo y permite usar los mismos datos en varios motores analíticos sin movimiento de datos ni duplicación.
OneLake proporciona una solución colaborativa, lo que garantiza que toda la organización comparte
un único lago de datos.
Dentro de un inquilino, puede crear áreas de trabajo, lo que permite que diferentes partes de la
organización administren sus elementos de datos. Esta propiedad distribuida promueve la
colaboración al tiempo que mantiene los límites de gobernanza.
Creada sobre Azure Data Lake Storage (ADLS) Gen2, OneLake almacena los datos en formato Delta
Parquet. Admite las API y los SDK de ADLS Gen2 existentes, lo que hace que sea compatible con las
aplicaciones actuales.
Fácil de navegar mediante el explorador de archivos de OneLake.
Mas detalles
32 / 64
azure_dp900.md 2025-03-16
Muchos sistemas locales que comprenden una red de equipos internos usan recursos compartidos de
archivos. Un recurso compartido de archivos permite almacenar un archivo en un equipo y conceder
acceso a ese archivo a los usuarios y las aplicaciones que se ejecutan en otros equipos. Esta estrategia
puede funcionar bien para los equipos de la misma red de área local, pero no se escala correctamente
a medida que aumenta el número de usuarios, o si los usuarios se encuentran en sitios diferentes.
Azure Files es una manera de crear recursos compartidos de red basados en la nube, como suelen
encontrarse en organizaciones locales para que los documentos y otros archivos estén a disposición de varios
usuarios. Beneficiarse de la alta disponibilidad y el almacenamiento escalable en la nube para los
archivos.
Azure File Storage se crea en una cuenta de almacenamiento. Azure Files le permite compartir hasta 100 TB
de datos en una sola cuenta de almacenamiento. Estos datos se pueden distribuir en cualquier número de
recursos compartidos de archivos de la cuenta. El tamaño máximo de un solo archivo es de 1 TB, pero
puede establecer cuotas para limitar el tamaño de cada recurso compartido por debajo de esta cifra.
Actualmente, Azure File Storage admite hasta 2000 conexiones simultáneas por cada archivo
compartido.
Puede cargar archivos en Azure File Storage mediante Azure Portal, o bien mediante herramientas como la
utilidad AzCopy. Asimismo, puede usar el servicio Azure File Sync para sincronizar las copias
almacenadas localmente en caché de archivos compartidos con los datos de Azure File Storage.
33 / 64
azure_dp900.md 2025-03-16
Network File System (NFS) usado por algunas versiones de linux y macOS. Para este recurso
compartido necesita un nivel Preimum y crear y configurar un red virtual en la cual se podra controlar el
acceso al recurso compartido.
Azure Table Storage es una solución de almacenamiento NoSQL que usa tablas que contienen elementos de
datos de clave-valor. Cada elemento se representa mediante una fila que contiene columnas para los campos
de datos que deben almacenarse.
Una tabla de Azure le permite almacenar datos semiestructurados. Todas las filas de una tabla deben tener
una clave única (compuesta de una clave de partición y una clave de fila). En caso de modificación, una
columna de marca de tiempo registra la fecha y la hora en las que se realizó la modificación.
Las tablas de Azure Table Storage no tienen los conceptos de claves externas, relaciones, procedimientos
almacenados, vistas u otros objetos que puede encontrar en una base de datos relacional.
Por ejemplo, una tabla que contiene información de clientes podría almacenar el nombre, el apellido,
uno o varios números de teléfono, y una o varias direcciones de cada cliente. El número de campos de
cada fila puede ser diferente, en función de la cantidad de números de teléfono y direcciones de cada
cliente, y de los detalles registrados para cada dirección. En una base de datos relacional, esta
información se dividiría en varias filas de varias tablas.
Las particiones son independientes entre si y pueden agrandarse o reducirse a medida que se agregan
o se quitan filas.
Al buscar datos con la clave de partición, reducirá el volumen de busqueda mejorando el rendimiento.
34 / 64
azure_dp900.md 2025-03-16
Si una aplicación agrega una nueva fila a una tabla, Azure garantiza que la fila se coloca en la posición
correcta de la tabla. Este esquema permite que una aplicación realice rápidamente consultas de punto, que
identifican una sola fila, y consultas por rango, que capturan un bloque contiguo de filas en una partición.
Resumen
Ahora que tienes una cuenta de almacenamiento en Azure, puedes crear un contenedor para datos en blob.
1. Descarga el archivo JSON product1.json desde este enlace y guárdalo en tu computadora (puedes
guardarlo en cualquier carpeta, ya que lo subirás más adelante al almacenamiento en blob).
2. Si el archivo JSON se muestra en tu navegador, guarda la página como product1.json.
35 / 64
azure_dp900.md 2025-03-16
⚠ Importante:
Las carpetas en el almacenamiento en blob son virtuales y solo existen como parte de la ruta de un blob.
Como la carpeta products no contenía ningún blob, en realidad no existe.
La compatibilidad con Azure Data Lake Store Gen2 permite usar carpetas jerárquicas para organizar y
administrar el acceso a los blobs. También permite utilizar Azure Blob Storage para alojar sistemas de
archivos distribuidos en plataformas comunes de análisis de big data.
1. Descarga el archivo JSON product2.json desde este enlace y guárdalo en tu computadora en la misma
carpeta donde descargaste product1.json anteriormente. Más adelante, lo subirás al almacenamiento
en blob.
4. Una vez completada la actualización, en el panel izquierdo, en la parte superior, selecciona Explorador
de almacenamiento y navega hasta la raíz de tu contenedor de blobs data, que todavía debe contener
la carpeta product_data.
5. Selecciona la carpeta product_data y verifica que aún contiene el archivo product1.json que subiste
anteriormente.
37 / 64
azure_dp900.md 2025-03-16
Existen otros modelos, denominados colectivamente bases de datos NoSQL. Estos modelos almacenan datos
en otras estructuras, como documentos, gráficos, almacenes de clave-valor y almacenes de familias de
columnas.
Azure Cosmos DB es un servicio de base de datos en la nube altamente escalable para datos NoSQL.
Azure Cosmos DB admite varias interfaces de programación de aplicaciones (API) que permiten a los
desarrolladores usar la semántica de programación de muchos tipos comunes de almacén de datos para
trabajar con datos en una base de datos Cosmos DB. Cosmos DB usa índices y particiones para
proporcionar un rendimiento rápido de lectura y escritura y se puede escalar a volúmenes masivos de datos.
Cosmos DB asigna automáticamente espacio para las particiones en un contenedor y cada partición puede
crecer hasta un tamaño de 10 GB. Los índices se crean y se mantienen de forma automática.
Muchos de los productos de Microsoft usan Cosmos DB para aplicaciones críticas a escala global, como
Skype, Xbox, Microsoft 365 y Azure, entre muchos otros. Cosmos DB es muy recomendable para los escenarios
siguientes:
38 / 64
azure_dp900.md 2025-03-16
IoT y Telemática: Estos sistemas suelen ingerir grandes cantidades de datos en ráfagas de actividad
frecuentes. Cosmos DB puede aceptar y almacenar esta información con rapidez. Después, los datos se
pueden usar en servicios analíticos como Azure Machine Learning, Microsoft Fabric y Power BI. Además,
los datos se pueden procesar en tiempo real a través de funciones de Azure Functions que se activan
a medida que los datos van llegando a la base de datos.
Comercio y Marketing: Microsoft usa Cosmos DB en sus plataformas de comercio electrónico propias
que se ejecutan como parte de la Tienda Windows y Xbox Live. También se usa en el sector comercial
para almacenar los datos de catálogo y para el suministro de eventos en las canalizaciones de
procesamiento de pedidos.
Juegos: Los juegos modernos realizan el procesamiento de los elementos grafos en los clientes de
consola o dispositivos móviles, pero utilizan la nube para ofrecer contenido personalizado y a medida,
como estadísticas dentro del juego, integración con las redes sociales y los marcadores de
puntuaciones. Una base de datos de un juego debe ser rápida y capaz de manejar los picos masivos
en la velocidad de las solicitudes cuando se inicia un nuevo juego y se actualizan las características.
Aplicaciones web y para Dispoisitivos móviles: Azure Cosmos DB se usa normalmente en
aplicaciones web y móviles y sirve para modelar interacciones sociales, para la integración con
servicios de terceros y para la creación de experiencias personalizadas enriquecidas. Se pueden usar
SDK de Cosmos DB con el fin de compilar aplicaciones para iOS y Android completas con el marco
Xamarin Framework, muy popular.
Mas detalle - Casos de uso comunes de Azure Cosmos DB Exploración de los aspectos básicos de Azure
Cosmos DB
Azure Cosmos DB es la base de datos distribuida totalmente administrada y sin servidor de Microsoft para
aplicaciones de cualquier tamaño o escala, con compatibilidad con cargas de trabajo relacionales y no
relacionales. Al aprovisionar una nueva instancia de Cosmos DB, seleccione el motor de base de datos que
quiere usar. La elección del motor depende de muchos factores, como el tipo de datos que se van a
almacenar, la necesidad de admitir aplicaciones existentes y las aptitudes de los desarrolladores que
trabajarán con el almacén de datos.
Azure Cosmos DB for NoSQL es el servicio no relacional nativo de Microsoft para trabajar con el modelo de
datos del documento. Administra los datos en formato de documento JSON y, a pesar de ser una solución
de almacenamiento de datos NoSQL, usa sintaxis SQL para trabajar con los datos. Una consulta SQL para una
base de datos de Cosmos DB que contiene datos del cliente podría ser similar a esta:
SELECT *
FROM customers c
WHERE c.id = "[email protected]"
El resultado de esta consulta consta de uno o varios documentos JSON, como se muestra aquí:
39 / 64
azure_dp900.md 2025-03-16
{
"id": "[email protected]",
"name": "Joe Jones",
"address": {
"street": "1 Main St.",
"city": "Seattle"
}
}
MongoDB es una base de datos de código abierto popular en la que los datos se almacenan en formato
JSON binario (BSON). Azure Cosmos DB for MongoDB permite a los desarrolladores usar bibliotecas de
cliente y código de MongoDB para trabajar con datos en Azure Cosmos DB.
El lenguaje de consulta de MongoDB (MongoDB Query Language, MQL) usa una sintaxis compacta orientada
a objetos en la que los desarrolladores usan objetos para llamar a métodos. Por ejemplo, la consulta
siguiente usa el método find para consultar la colección products en el objeto db:
db.products.find({id: 123})
Los resultados de esta consulta constan de documentos JSON, similares a los siguientes:
{
"id": 123,
"name": "Hammer",
"price": 2.99
}
Puede empezar a crear aplicaciones en un grupo de servidores de un solo nodo, de la misma manera que
lo haría con PostgreSQL en cualquier otra ubicación. A medida que aumentan los requisitos de escalabilidad y
rendimiento de la aplicación, puede escalar sin problemas a varios nodos mediante la distribución
transparente de las tablas. PostgreSQL es un sistema de administración de bases de datos relacionales
(RDBMS) en el que se definen tablas relacionales de datos, por ejemplo, podría definir una tabla de productos
como esta:
40 / 64
azure_dp900.md 2025-03-16
Después, podría consultar esta tabla para recuperar el nombre y el precio de un producto específico mediante
SQL de esta manera:
Los resultados de esta consulta contendrán una fila para el producto 123, de la siguiente manera:
ProductName Precio
Martillo 2,99
Tipo de base
Relacional (SQL) Relacional distribuida (SQL + NoSQL)
de datos
Soporte para
datos No Sí (sharding automático)
distribuidos
Compatibilidad
100% compatible con PostgreSQL Compatible con PostgreSQL + Citus (requiere
con
estándar adaptación en algunos casos)
PostgreSQL
NoSQL (Sharding y Escalabilidad Horizontal): En una base de datos relacional clásica, todos los datos
están en un solo servidor. Cosmos DB for PostgreSQL aplica sharding, dividiendo los datos en múltiples
nodos según una clave de partición. Esto permite manejar grandes volúmenes de datos y aumentar el
rendimiento distribuyendo la carga. Similar a algunas bases de datos NoSQL, los datos se dividen y
replican automáticamente en diferentes servidores, pero conservando el modelo relacional de
PostgreSQL. Este enfoque mezcla lo mejor de SQL (estructura relacional) con algunos beneficios de
NoSQL (escalabilidad y distribución automática de datos).
41 / 64
azure_dp900.md 2025-03-16
Se usa para trabajar con datos en tablas de clave-valor, de forma similar a Azure Table Storage. Ofrece
mayor escalabilidad y rendimiento que Azure Table Storage. Por ejemplo, puede definir una tabla
denominada Clientes de la siguiente forma:
Posteriormente, puede usar Table API a través de uno de los SDK específicos del lenguaje para realizar
llamadas al punto de conexión de servicio para recuperar datos de la tabla. Por ejemplo, la siguiente solicitud
devuelve la fila que contiene el registro de Samir Nadoy en la tabla anterior:
https://endpoint/Customers(PartitionKey='1',RowKey='124')
Es una base de datos de código abierto popular que usa una estructura de almacenamiento de familia de
columnas. Las familias de columnas son tablas, similares a las de una base de datos relacional, con la excepción
de que no es obligatorio que cada fila tenga las mismas columnas. Por ejemplo, puede crear una tabla de
Empleados como esta:
id Nombre Manager
1 Sue Smith
Cassandra admite una sintaxis basada en SQL, por lo que una aplicación cliente podría recuperar el registro
de Ben Chan como se muestra a continuación:
Azure Cosmos DB for Apache Gremlin se usa con datos en una estructura de grafos, en la que las
entidades se definen como vértices que forman nodos en el gráfico conectado. Los nodos se conectan
mediante bordes que representan relaciones, como esta:
42 / 64
azure_dp900.md 2025-03-16
La sintaxis de Gremlin incluye funciones para operar en vértices y bordes, y esto permite insertar,
actualizar, eliminar y consultar datos en el gráfico. Por ejemplo, puede usar el código siguiente para agregar un
nuevo empleado llamado Alice que dependa de la empleada con el identificador 1 (Sue)
La consulta siguiente devuelve todos los vértices de empleado, por orden de identificador.
g.V().hasLabel('employee').order().by('id')
Resumen
1. En el portal de Azure, selecciona + Crear un recurso en la parte superior izquierda y busca Azure
Cosmos DB. En los resultados, selecciona Azure Cosmos DB y luego haz clic en Crear.
2. En la sección de Azure Cosmos DB para NoSQL, selecciona Crear.
3. Ingresa los siguientes detalles y luego selecciona Revisar + Crear:
Suscripción: Si estás usando un entorno de prueba (sandbox), selecciona "Concierge
Subscription". De lo contrario, elige tu suscripción de Azure.
Grupo de recursos: Si estás usando un entorno de prueba, selecciona el grupo de recursos
existente (que tendrá un nombre como learn-xxxx…). De lo contrario, crea un nuevo grupo de
43 / 64
azure_dp900.md 2025-03-16
1. En la página para tu nueva cuenta de Cosmos DB, en el panel de la izquierda, selecciona Data Explorer
o explorador de datos
2. En la página de Data Explorer, selecciona Launch quick start o lanzar inicio rapido
3. En la pestaña de nuevo contenedor, revisa las configuraciones para pre-llenado de la base de datos de
ejemplo, y luego selecciona OK
4. Observar el estatus al final del panel hasta que la Base de datos de ejemplo y el contenedor de ejemplo
hayan sido creados
{
"name": "Road Helmet,45",
"id": "123456789",
"categoryID": "123456789",
"SKU": "AB-1234-56",
"description": "The product called \"Road Helmet,45\" ",
"price": 48.74
}
5. Despues de guardar, revisar que nuevas propiedades de metadatos han sido añadidas
automáticamente
1. En la página Explorador de datos (Data Explorer), selecciona el icono Nueva consulta SQL (New
SQL Query).
2. En el editor de consultas SQL, revisa la consulta predeterminada (SELECT * FROM c) y usa el botón
Ejecutar consulta (Execute Query) para ejecutarla.
44 / 64
azure_dp900.md 2025-03-16
3. Revisa los resultados, que incluyen la representación completa en JSON de todos los elementos.
4. Modifica la consulta de la siguiente manera:
SELECT *
FROM c
WHERE CONTAINS(c.name,"Helmet")
5. Ejecuta con Ejecutar consulta (Execute Query) y revisa los resultados, lo que incluye una entidad
JSON para cualquier item con el nombre que contenga el texto Helment
6. Cierra el editor SQL Query, descarta tus cambios.
Aspectos básicos de los datos en Microsoft Azure: Exploración del análisis de datos en Azure
Exploración de los aspectos básicos del análisis a gran escala
Describir la arquitectura de un almacenamiento de datos
Exploración de canalizaciones de ingesta de datos
Exploración de almacenes de datos analíticos
Almacenamiento de datos
Lagos de datos
Enfoques híbridos
Servicios de Azure para almacenes analíticos
Ejercicio: Exploración de análisis de datos con Microsoft Fabric
45 / 64
azure_dp900.md 2025-03-16
Arquitectura general
1. Ingesta y procesamiento de datos: los datos de uno o varios almacenes de datos transaccionales,
archivos, flujos en tiempo real u otros orígenes se cargan en un lago de datos o en un
almacenamiento de datos relacional. Normalmente, la operación de carga implica un proceso de
extracción, transformación y carga (ETL) o de extracción, carga y transformación (ELT) en el que los
datos se limpian, filtran y reestructuran para su análisis. En los procesos de ETL, los datos se
transforman antes de cargarse en un almacén analítico, mientras que en un proceso de ELT los datos se
copian en el almacén y, posteriormente, se transforman. En cualquier caso, la estructura de datos
resultante está optimizada para las consultas analíticas. El procesamiento de datos suele realizarse
mediante sistemas distribuidos que pueden procesar grandes volúmenes de datos en paralelo
mediante clústeres de varios nodos. La ingesta de datos incluye el procesamiento por lotes de datos
estáticos y el procesamiento en tiempo real de los datos de streaming.
2. Almacén de datos analíticos: los almacenes de datos para análisis a gran escala incluyen
almacenamientos de datos relacionales, lagos de datos basados en sistema de archivos y
arquitecturas híbridas que combinan características de almacenes de datos y lagos de datos (a
veces bajo la denominación de lagos de almacenamiento de datos o bases de datos de lago). Los
trataremos con más detalle más adelante.
3. Modelo de datos analíticos: aunque los analistas de datos y los científicos de datos pueden trabajar
con los datos directamente en el almacén de datos analíticos, es habitual crear uno o varios modelos de
datos que agreguen previamente los datos para facilitar la generación de informes, paneles y
visualizaciones interactivas. A menudo, estos modelos de datos se describen como cubos, en los que
los valores de datos numéricos se agregan en una o varias dimensiones (por ejemplo, para determinar
las ventas totales por producto y región). El modelo encapsula las relaciones entre los valores de datos y
las entidades dimensionales para admitir el análisis de tipo "rastrear agrupando datos/explorar en
profundidad".
4. Visualización de datos: los analistas de datos consumen datos de modelos analíticos y directamente de
almacenes analíticos para crear informes, paneles y otras visualizaciones. Además, los usuarios de una
organización, que pueden no ser profesionales de la tecnología, pueden realizar informes y análisis de
datos de autoservicio. Las visualizaciones de los datos muestran tendencias, comparaciones e
indicadores clave de rendimiento (KPI) para una empresa u otra organización, y pueden tomar la
forma de informes impresos, diagramas y gráficos en documentos o presentaciones de PowerPoint,
paneles basados en web y entornos interactivos en los que los usuarios pueden explorar los datos
visualmente.
46 / 64
azure_dp900.md 2025-03-16
Como se ingieren los datos en un almacén de datos analíticos de uno o varios orígenes:
En Azure, la ingesta de datos a gran escala se implementa mejor mediante la creación de canalizaciones que
organicen procesos de ETL. Puede crear y ejecutar canalizaciones mediante Azure Data Factory, o puede usar
el mismo motor de canalización en Azure Data Factory si quiere administrar todos los componentes de la
solución de almacenamiento de datos en un área de trabajo unificada.
En cualquier caso, las canalizaciones constan de una o varias actividades que operan en los datos. Un
conjunto de datos de entrada proporciona los datos de origen y las actividades se pueden definir como un
flujo de datos que manipula incrementalmente los datos hasta que se genera un conjunto de datos de salida.
Las canalizaciones utilizan servicios vinculados para cargar y procesar datos, y esto le permite usar la
tecnología adecuada para cada paso del flujo de trabajo.
Por ejemplo, puede usar un servicio vinculado de Azure Blob Store para ingerir el conjunto de datos de
entrada y después usar servicios como Azure SQL Database para ejecutar un procedimiento
almacenado que busque valores de datos relacionados, antes de ejecutar una tarea de procesamiento
de datos en Azure Databricks o aplicar lógica personalizada mediante una función de Azure. Por
último, puede guardar el conjunto de datos de salida en un servicio vinculado, como Microsoft Fabric.
Las canalizaciones también pueden incluir algunas actividades integradas, que no requieren un servicio
vinculado.
Almacenamiento de datos
47 / 64
azure_dp900.md 2025-03-16
Un almacenamiento de datos es una base de datos relacional en la que los datos se almacenan en un
esquema optimizado para el análisis de datos en lugar de en cargas de trabajo transaccionales.
Normalmente, los datos de un almacén transaccional se transforman en un esquema en el que los valores
numéricos se almacenan en tablas de hechos centrales, que están relacionadas con una o varias tablas de
dimensiones que representan entidades por las que se pueden agregar los datos.
Por ejemplo, una tabla de hechos podría contener datos de pedidos de ventas, que se pueden agregar
por las dimensiones de cliente, producto, tienda y tiempo (lo que le permite, por ejemplo, encontrar
fácilmente los ingresos totales mensuales de ventas por producto para cada tienda).
Este tipo de esquema de tabla de hechos y dimensiones se denomina esquema de estrella; aunque a menudo
se extiende a un esquema de copo de nieve mediante la adición de tablas adicionales relacionadas con las
tablas de dimensiones para representar jerarquías dimensionales (por ejemplo, el producto puede estar
relacionado con categorías de productos). Un almacenamiento de datos es una excelente opción si tiene datos
transaccionales que se pueden organizar en un esquema estructurado de tablas y quiere usar SQL para
consultarlos.
Lagos de datos
48 / 64
azure_dp900.md 2025-03-16
incluso no estructurados que quiere analizar sin necesidad de aplicar el esquema cuando los datos se
escriben en el almacén.
Enfoques híbridos
Puede usar un enfoque híbrido que combine características de lagos de datos y almacenamientos de datos en
un lago de almacenamiento de datos. Los datos sin procesar se almacenan como archivos en un lago
de datos y los puntos de conexión de análisis SQL de Microsoft Fabric los exponen como tablas, que se
pueden consultar mediante SQL. Al crear una instancia de Lakehouse con Microsoft Fabric, se crea
automáticamente un punto de conexión de análisis SQL. Los lagos de almacenamiento de datos son un
enfoque relativamente nuevo en los sistemas basados en Spark y se habilitan mediante tecnologías como Delta
Lake, que agrega funcionalidades de almacenamiento relacional a Spark, por lo que se pueden definir tablas
que exijan esquemas y coherencia transaccional, admitan orígenes de datos de streaming y cargados por
lotes y proporcionen una API de SQL para realizar consultas.
Microsoft Fabric
Es una solución integral unificada para el análisis de datos a gran escala. Reúne varias tecnologías y
funcionalidades, y esto permite combinar la integridad y la confiabilidad de los datos de un almacenamiento
de datos relacional basado en SQL Server escalable y de alto rendimiento con la flexibilidad de una solución
Apache Spark de código abierto y lago de datos. También incluye compatibilidad nativa para el análisis
de registros y telemetría con Inteligencia en tiempo real de Microsoft Fabric, así como
canalizaciones de datos integradas para la ingesta y la transformación de datos. Cada experiencia de
producto de Microsoft Fabric tiene su propio hogar, por ejemplo, la página principal de Data Factory. Cada
página principal de Fabric muestra los elementos que crea y tiene permiso para usarlos desde todo el área de
trabajo a la que accede. Microsoft Fabric es una excelente opción cuando se quiere crear una única
solución de análisis unificada.
Azure Databricks
Es una implementación de Azure de la popular plataforma Databricks. Databricks es una completa solución
de análisis de datos integrada en Apache Spark y ofrece funcionalidades nativas de SQL, así como
clústeres de Spark optimizados para cargas de trabajo para el análisis de datos y la ciencia de datos.
Databricks proporciona una interfaz de usuario interactiva a través de la cual se puede administrar el sistema
y se pueden explorar los datos en cuadernos interactivos. Debido a su uso común en varias plataformas en la
nube, puede usar de Azure Databricks como almacén analítico si quiere usar la experiencia existente con la
plataforma o si necesita operar en un entorno de varias nubes o admitir una solución portátil en la nube.
49 / 64
azure_dp900.md 2025-03-16
Cada uno de estos servicios puede considerarse como un almacén de datos analíticos, en el sentido de
que proporcionan un esquema y una interfaz a través de los cuales se pueden consultar los datos. Sin
embargo, en muchos casos, los datos se almacenan realmente en un lago de datos y el servicio se usa
para procesar los datos y ejecutar consultas. Algunas soluciones pueden incluso combinar el uso de
estos servicios. Un proceso de ingesta de extracción, carga y transformación (ELT) puede copiar datos
en el lago de datos y, posteriormente, usar uno de estos servicios para transformar los datos y otro
para consultarlos. Por ejemplo, una canalización podría usar un cuaderno que se ejecuta en Azure
Databricks para procesar un gran volumen de datos en el lago de datos y, a continuación, cargarlo en
tablas en una base de almacenamiento de Microsoft Fabric.
Ejercicio
Procesamiento por lotes, en el que se recopilan y almacenan varios registros de datos antes de
procesarse juntos en una sola operación.
Procesamiento de flujos, en el que un origen de datos se supervisa y procesa constantemente en
tiempo real a medida que se producen nuevos eventos de datos.
En el procesamiento por lotes, los elementos de datos recién llegados se recopilan y se almacenan y todo el
grupo se procesa de forma conjunta, como un lote. El momento en que se procesan los datos se puede
determinar segun intervalos de tiempo o cantidad de datos o como resultado de algun evento
Ventajas:
Desventajas:
50 / 64
azure_dp900.md 2025-03-16
En el procesamiento en streaming, cada nuevo fragmento de datos se procesa cuando llega. A diferencia del
procesamiento por lotes, no hay ningún tiempo de espera hasta el siguiente intervalo de procesamiento por
lotes y los datos se procesan como unidades individuales en tiempo real en lugar de procesarse de lote en
lote. El procesamiento de datos de flujos es beneficioso en los escenarios donde se generan datos
dinámicos nuevos de forma continua.
Una institución financiera realiza un seguimiento de los cambios en el mercado de valores en tiempo
real, calcula el valor en riesgo y reequilibra automáticamente las carteras en función de los movimientos
de precio de las acciones.
Una empresa de juegos en línea recopila datos en tiempo real sobre las interacciones de los jugadores
con los juegos y los incorpora en su plataforma de juegos. Después, analiza los datos en tiempo real y
ofrece incentivos y experiencias dinámicas para atraer a los jugadores.
Un sitio web inmobiliario hace un seguimiento de un subconjunto de datos de dispositivos móviles y
ofrece recomendaciones en tiempo real de las propiedades que pueden visitar los clientes en función
de su ubicación geográfica.
Ámbito de los datos: El procesamiento por lotes puede procesar todos los datos del conjunto de
datos. En el procesamiento por streaming solo se tiene acceso a unos pocos datos dentro de un
intervalo corto (30 segundos).
Tamaño de los datos: El procesamiento por lotes es adecuado para administrar grande conjuntos de
datos de forma eficaz. En streaming esta diseñado para registros individuales o microlotes que constan
de pocos registros.
Rendimiento: Latencia (tiempo que se tarda en recibir y procesar los datos). La latencia en lotes puede
ser de horas, en streaming suele ser inmediato, en el orden de segundos y milisegundos.
Análisis: Normalmente es usado el procesamiento por lotes para realizar análisis complejos. El
procesamiento en streaming es para funciones en respuesta simples, agregaciones o cálculos, como el
cálculo de la media acumulada.
Muchas soluciones de análisis a gran escala incluyen una combinación de procesamiento por lotes y de flujos,
lo que permite el análisis de datos históricos y en tiempo real.
Es habitual que las soluciones de procesamiento de flujos capturen datos en tiempo real, los filtren o
agreguen para procesarlos y los presenten a través de paneles y visualizaciones en tiempo real (por
ejemplo, muestran el total de automóviles que han pasado por una carretera durante la hora actual), al
tiempo que también se conservan los resultados procesados en un almacén de datos para el análisis
51 / 64
azure_dp900.md 2025-03-16
histórico junto con los datos procesados por lotes (por ejemplo, para habilitar el análisis de los
volúmenes de tráfico durante el último año).
Incluso cuando no se requiere el análisis o la visualización en tiempo real de los datos, las tecnologías de
flujos a menudo se usan para capturar datos en tiempo real y almacenarlos en un almacén de datos
para su posterior procesamiento por lotes (esto equivale a redirigir todos los automóviles que viajan por
una carretera a un aparcamiento antes de contarlos).
Existen muchas tecnologías que puede usar para implementar una solución de procesamiento de flujos, pero,
aunque los detalles de implementación específicos pueden variar, existen elementos comunes para la mayoría
de las arquitecturas de flujos.
52 / 64
azure_dp900.md 2025-03-16
1. Un evento genera algunos datos. Podría ser una señal que emite un sensor, un mensaje de redes
sociales que se publica, una entrada de archivo de registro que se escribe o cualquier otro evento que
da como resultado algunos datos digitales.
2. Los datos generados se capturan en un origen de streaming para su procesamiento. En casos
simples, el origen puede ser una carpeta de un almacén de datos en la nube o una tabla de una base
de datos. En soluciones de flujos más sólidas, el origen puede ser una "cola" que encapsula la lógica
para asegurarse de que los datos del evento se procesan en orden y que cada evento se procesa una
sola vez.
3. Los datos del evento se procesan, a menudo mediante una consulta perpetua que opera en los datos
del evento para seleccionar datos para tipos específicos de eventos, valores de datos de proyectos o
valores de datos sumados durante periodos de tiempo (basados en tiempo real, o plazos de tiempo),
por ejemplo, mediante el recuento del número de emisiones de sensores por minuto.
4. Los resultados de la operación de procesamiento de flujos se escriben en una salida (o receptor),
que puede ser un archivo, una tabla de base de datos, un panel visual en tiempo real u otra cola para
su posterior procesamiento mediante una consulta de bajada posterior.
Microsoft admite numerosas tecnologías que puede usar para implementar el análisis en tiempo real de los
datos de streaming, entre las que se incluyen:
Azure Stream Analytics: solución de plataforma como servicio (PaaS) que puede usar para definir
trabajos de streaming que ingieren datos de un origen de streaming, aplican una consulta perpetua y
escriben los resultados en una salida.
Spark Structured Streaming: una biblioteca de código abierto que permite desarrollar
soluciones de streaming complejas en servicios basados en Apache Spark, incluyendo Microsoft Fabric
y Azure Databricks.
Microsoft Fabric: una plataforma de bases de datos y análisis de alto rendimiento que
incluye ingeniería de datos, factoría de datos, ciencia de datos, análisis en tiempo real, almacenamiento
de datos y bases de datos.
Los siguientes servicios se usan normalmente para ingerir datos para el procesamiento de flujos en Azure:
Azure Event Hubs: servicio de ingesta de datos que puede usar para administrar colas de datos
de eventos, lo que garantiza que cada evento se procese en orden, solo una vez.
Azure IoT Hub: servicio de ingesta de datos similar a Azure Event Hubs, pero optimizado para
administrar datos de eventos de dispositivos de Internet de las cosas (IoT).
53 / 64
azure_dp900.md 2025-03-16
Azure Data Lake Store Gen 2: servicio de almacenamiento altamente escalable que se usa a
menudo en escenarios de procesamiento por lotes, pero que también se puede usar como origen de
datos de streaming.
Apache Kafka: solución de ingesta de datos de código abierto que se usa a menudo junto
con Apache Spark.
Azure Event Hubs: se usa para poner en cola los datos procesados para su posterior procesamiento de
bajada.
Azure Data Lake Store Gen 2, Microsoft OneLake o Azure blob Storage: se usan para conservar los
resultados procesados como un archivo.
Azure SQL Database, Azure Databricks o Microsoft Fabric: se usan para conservar los resultados
procesados en una tabla en la que se puede realizar consultas y análisis.
Microsoft Power BI: se usa para generar visualizaciones de datos en tiempo real en informes y paneles.
La inteligencia en tiempo real de Microsoft Fabric permite a las organizaciones extraer información y
visualizar los datos en movimiento. La inteligencia en tiempo real ofrece una solución integral para
escenarios basados en eventos, datos de streaming y registros de datos. Tanto si se trata de gigabytes
como de petabytes, todos los datos de la organización convergen en el centro en tiempo real. Los
conectores sin código vinculan a la perfección datos basados en tiempo de diversos orígenes, lo que permite
una información visual inmediata, análisis geoespaciales y reacciones basadas en desencadenadores. La
inteligencia en tiempo real transforma los datos en un recurso dinámico y accionable que impulsa el valor en
toda la organización y se alinea sin problemas con todas las ofertas de Fabric.
54 / 64
azure_dp900.md 2025-03-16
El centro en tiempo real de Microsoft Fabric actúa como un catálogo centralizado para su organización.
Simplifica el acceso, la adición, la exploración y el uso compartido de datos. Al ampliar los orígenes de datos,
mejora la información y la claridad visual entre dominios. Fundamentalmente, este centro garantiza la
disponibilidad y accesibilidad de los datos, lo que permite tomar decisiones rápidas y acciones informadas. El
uso compartido de datos de streaming de diversos orígenes desbloquea una inteligencia empresarial
completa en toda la organización.
Para explorar datos con inteligencia en tiempo real, elija inicialmente un flujo de datos de su organización
o de orígenes externos o internos conectados y, a continuación, podrá usar herramientas de inteligencia en
tiempo real para la exploración de datos y para visualizar patrones de datos, anomalías y previsión de
cantidades.
Los paneles en tiempo real simplifican la comprensión de los datos, accesibles para todos a través de
herramientas visuales, lenguaje natural y Copilot. A continuación, puede convertir la información en acciones
mediante la configuración de alertas Reflex para reaccionar en tiempo real.
Apache Spark es un marco de procesamiento distribuido para el análisis de datos a gran escala. Puede
usar Spark en Microsoft Azure en los siguientes servicios:
Microsoft Fabric
Azure Databricks
Spark se puede usar para ejecutar código (normalmente escrito en Python, Scala o Java) en paralelo en varios
nodos de clúster, lo que permite procesar volúmenes de datos muy grandes de forma eficaz. Spark se puede
usar tanto para el procesamiento por lotes como para el procesamiento de flujos.
Para procesar los datos de flujos en Spark, puede usar la biblioteca de Spark Structured Streaming, que
proporciona una interfaz de programación de aplicaciones (API) para ingerir, procesar y generar
resultados de flujos de datos perpetuos.
Spark Structured Streaming se compila en una estructura ubicua en Spark denominada dataframe, que
encapsula una tabla de datos. Puede usar la API de Spark Structured Streaming para leer datos de un origen
de datos en tiempo real, como un centro de Kafka, un almacén de archivos o un puerto de red, a un objeto
dataframe "sin límite" que se rellena continuamente con nuevos datos del flujo. A continuación, defina una
consulta en el objeto dataframe que selecciona, proyecta o suma los datos, a menudo en ventanas
temporales. Los resultados de la consulta generan otro objeto dataframe, que se puede conservar para su
análisis o procesamiento posterior.
55 / 64
azure_dp900.md 2025-03-16
Delta Lake
Delta Lake es una capa de almacenamiento de código abierto que agrega compatibilidad con la
coherencia transaccional, el cumplimiento del esquema y otras características comunes de
almacenamiento de datos a Data Lake Storage. También unifica el almacenamiento para datos por lotes y
de flujos, y se puede usar en Spark para definir tablas relacionales para el procesamiento por lotes y de flujos.
Cuando se usa para el procesamiento de flujos, una tabla de Delta Lake se puede usar como un origen de
flujos para las consultas en datos en tiempo real o como un receptor en el que se escribe un flujo de datos.
Los tiempos de ejecución de Spark en Microsoft Fabric y Azure Databricks incluyen compatibilidad con Delta
Lake.
El uso de Delta Lake combinado con Structured Streaming de Spark es una solución óptima cuando es
necesario abstraer los datos procesados por lotes y flujos en un lago de datos detrás de un esquema
relacional para realizar consultas y análisis basados en SQL.
Ejercicio
El modelado y la visualización de datos son el núcleo de las cargas de trabajo de inteligencia empresarial (BI)
compatibles con las soluciones de análisis de datos a gran escala. Básicamente, la visualización de datos
potencia la creación de informes y la toma de decisiones que ayudan a las organizaciones a tener éxito.
Aspectos básicos de los datos en Microsoft Azure: Exploración del análisis de datos en Azure
Hay muchas herramientas de visualización de datos que los analistas de datos pueden usar para explorar
datos y resumir información de manera visual, incluida la compatibilidad con gráficos en herramientas de
56 / 64
azure_dp900.md 2025-03-16
productividad como Microsoft Excel y widgets integrados de visualización de datos en cuadernos que se usan
para explorar datos en servicios como Azure Synapse Analytics y Azure Databricks. Sin embargo, para el
análisis de negocio a escala empresarial, a menudo se requiere una solución integrada que pueda
admitir el modelado de datos complejo, los informes interactivos y el uso compartido seguro.
Microsoft Power BI
Microsoft Power BI es un conjunto de herramientas y servicios dentro de Microsoft Fabric que los
analistas de datos pueden usar para compilar visualizaciones de datos interactivas para que los usuarios
empresariales los consuman.
Un flujo de trabajo típico para crear una solución de visualización de datos comienza con Power BI
Desktop, una aplicación de Microsoft Windows en la que puede importar datos de una amplia gama de
orígenes de datos, combinar y organizar los datos de estos orígenes en un modelo de datos de análisis y
crear informes que contengan visualizaciones interactivas de los datos.
Después de crear modelos de datos e informes, puede publicarlos en el servicio Power BI, un servicio en
la nube en el que los usuarios profesionales pueden publicar informes e interactuar con ellos. También puede
realizar algunas operaciones básicas de modelado de datos y edición de informes directamente en el
servicio mediante un explorador web, pero su funcionalidad es limitada en comparación con la herramienta
Power BI Desktop. Puede usar el servicio para programar actualizaciones de los orígenes de datos en los que
se basan los informes y para compartir informes con otros usuarios. También puede definir paneles y
aplicaciones que combinen informes relacionados en una ubicación única y fácil de consumir.
Los usuarios pueden consumir informes, paneles y aplicaciones en el servicio Power BI mediante un
explorador web o en dispositivos móviles mediante la aplicación de teléfono de Power BI.
Los modelos analíticos permiten estructurar los datos para admitir el análisis. Los modelos se basan en
tablas de datos relacionadas y definen los valores numéricos que se quieren analizar o notificar
(conocidos como medidas) y las entidades por las que se quieren agregar (conocidas como
dimensiones). Por ejemplo, un modelo podría incluir una tabla con medidas numéricas para las ventas (como
ingresos o cantidad) y dimensiones para productos, clientes y tiempo. Esto le permitiría agregar medidas de
venta en una o varias dimensiones (por ejemplo, para identificar los ingresos totales por cliente o el total de
artículos vendidos por producto al mes). Conceptualmente, el modelo forma una estructura
multidimensional, que normalmente se conoce como cubo, en la que cualquier punto en el que las
dimensiones forman una intersección representa una medida agregada para esas dimensiones.
Tablas y esquema
Las tablas de dimensiones representan las entidades por las que se quieren agregar las medidas
numéricas, por ejemplo, producto o cliente. Cada entidad se representa mediante una fila con un valor de
clave único. Las columnas restantes representan los atributos de una entidad; por ejemplo, los productos
tienen nombres y categorías, y los clientes tienen direcciones y ciudades. En la mayoría de los modelos
analíticos es habitual incluir una dimensión Tiempo para poder agregar medidas numéricas asociadas a
eventos en el tiempo.
Las medidas numéricas que agregarán las distintas dimensiones del modelo se almacenan en tablas de
hechos. Cada fila de una tabla de hechos representa un evento registrado que tiene medidas numéricas
asociadas. Por ejemplo, la tabla Sales (Ventas) del esquema siguiente representa las transacciones de ventas
para elementos individuales e incluye valores numéricos para la cantidad vendida y los ingresos.
58 / 64
azure_dp900.md 2025-03-16
Este tipo de esquema, donde una tabla de hechos está relacionada con una o varias tablas de
dimensiones, se conoce como esquema de estrella (imagine que hay cinco dimensiones relacionadas con
una sola tabla de hechos: el esquema formaría una estrella de cinco puntas). También puede definir un
esquema más complejo en el que las tablas de dimensiones están relacionadas con tablas adicionales
que contienen más detalles (por ejemplo, podría representar atributos de categorías de productos en una
tabla Category independiente relacionada con la tabla Product, en cuyo caso el diseño se conoce como un
esquema de copo de nieve. El esquema de las tablas de hechos y dimensiones se utiliza para crear un
modelo analítico, en el que se calculan previamente las agregaciones de medida para todas las dimensiones.
Esto hace que el rendimiento de las actividades de análisis e informes sea mucho más rápido que si se
calculan las agregaciones cada vez).
Jerarquías de atributos
Un último aspecto que merece la pena tener en cuenta sobre los modelos analíticos es la creación de
jerarquías de atributos que le permiten rastrear agrupando datos o explorar en profundidad
rápidamente para buscar valores agregados en distintos niveles en una dimensión jerárquica. Por
ejemplo, considere los atributos de las tablas de dimensiones que se han analizado hasta ahora. En la tabla
Product, puede formar una jerarquía en la que cada categoría incluya varios productos con nombre. De forma
similar, en la tabla Customer, se podría formar una jerarquía para representar varios clientes con nombre en
cada ciudad. Por último, en la tabla Time, puede formar una jerarquía de año, mes y día. El modelo se puede
crear con valores agregados previamente para cada nivel de una jerarquía, lo que permite cambiar
rápidamente el ámbito del análisis; por ejemplo, mediante la visualización del total de ventas por año y,
después, la exploración en profundidad para ver un desglose más detallado del total de ventas por mes.
59 / 64
azure_dp900.md 2025-03-16
Puede usar Power BI para definir un modelo analítico a partir de tablas de datos, que se pueden importar
desde uno o varios orígenes de datos. Después, puede usar la interfaz de modelado de datos de la
pestaña Modelo de Power BI Desktop para definir el modelo analítico mediante la creación de relaciones
entre tablas de hechos y dimensiones, la definición de jerarquías, el establecimiento de tipos de datos y
formatos de presentación para los campos de las tablas, y la administración de otras propiedades de los datos
que ayudan a definir un modelo enriquecido para el análisis.
Después de crear un modelo, puede usarlo para generar visualizaciones de datos que se pueden incluir en un
informe.
60 / 64
azure_dp900.md 2025-03-16
Hay muchos tipos de visualización de datos, algunos más usados y otros más especializados. Power BI incluye
un amplio conjunto de visualizaciones integradas, que se pueden ampliar con visualizaciones personalizadas y
de terceros. En el resto de esta unidad se analizan algunas visualizaciones de datos comunes, pero no es una
lista completa.
Tablas y texto
Las tablas y el texto suelen ser la manera más sencilla de comunicar datos. Las tablas son útiles cuando se
deben mostrar numerosos valores relacionados y los valores de texto individuales de las tarjetas pueden
ser una manera útil de mostrar cifras o métricas importantes.
Los gráficos de barras y columnas son una buena manera de comparar visualmente valores numéricos para
categorías discretas.
Gráficos de líneas
61 / 64
azure_dp900.md 2025-03-16
Los gráficos de líneas también se pueden usar para comparar valores clasificados y son útiles cuando es
necesario examinar tendencias, a menudo a lo largo del tiempo.
Gráficos circulares
Los gráficos circulares se suelen usar en los informes empresariales para comparar visualmente los valores
clasificados como proporciones de un total.
Gráficos de dispersión
62 / 64
azure_dp900.md 2025-03-16
Los gráficos de dispersión son útiles cuando se quieren comparar dos medidas numéricas e identificar una
relación o correlación entre ellas.
Mapas
Maps son una excelente manera de comparar visualmente los valores de diferentes áreas geográficas o
ubicaciones.
63 / 64
azure_dp900.md 2025-03-16
En Power BI, los elementos visuales de los datos relacionados de un informe se vinculan
automáticamente entre sí y proporcionan interactividad.
Por ejemplo, al seleccionar una categoría individual en una visualización, se filtrará y resaltará
automáticamente esa categoría en otras visualizaciones relacionadas del informe.
En la imagen anterior, la ciudad Seattle se ha seleccionado en el gráfico de columnas Ventas por ciudad y
Categoría, y las demás visualizaciones se filtran para reflejar valores solo de Seattle.
Ejercicio
64 / 64