0% found this document useful (0 votes)

4 views

Data Warehouse

A Data Warehouse (DW) is a centralized repository for storing integrated data from various sources, optimized for analytical processing. It consists of multiple layers including data source, ETL, storage, metadata management, query analysis, and presentation, facilitating data integration and transformation for business intelligence. Key processes include data cleaning, OLAP operations, and the use of multidimensional data models to support complex analytical queries.

Uploaded by

saumyalal15

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

Data Warehouse

Uploaded by

saumyalal15

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 10

Data Warehouse

A Data Warehouse (DW) is a centralized repository that stores integrated, historical, and
current data from multiple sources for business intelligence (BI), reporting, and analysis.
Unlike traditional databases, data warehouses are optimized for analytical processing (OLAP)
rather than transactional operations (OLTP).

Architecture of Data Warehouse

1. Data Source Layer
 Collects raw data from multiple sources such as:
o Operational databases (OLTP systems like MySQL, PostgreSQL)

o External sources (APIs, IoT devices, social media, logs)

o Cloud storage and flat files (CSV, JSON, XML)

2. ETL (Extract, Transform, Load) Layer

 Extract: Data is retrieved from different sources.
 Transform: Data is cleaned, filtered, formatted, and structured.
 Load: The transformed data is stored in the warehouse.
 Ensures data consistency, accuracy, and integrity.
 Uses tools like Apache Nifi, Talend, Informatica, and SQL scripts.
3. Data Storage Layer
 Stores processed data in a structured format for analysis.
 Can be implemented using:
o Relational databases (e.g., Oracle, SQL Server, PostgreSQL)

o Cloud data warehouses (e.g., Amazon Redshift, Snowflake, Google BigQuery)

 Supports star schema, snowflake schema, or hybrid models for efficient querying.
4. Metadata & Management Layer
 Stores metadata about:
o Data sources, relationships, and transformations.

o Indexing, partitioning, and query optimization.

 Ensures security, access control, and versioning of data.

5. Query & Analysis Layer
 Uses OLAP (Online Analytical Processing) tools to analyze data.
 Supports complex queries, aggregations, and data mining.
 Examples of tools used:
o SQL queries

o Business Intelligence (BI) tools like Tableau, Power BI, Looker

o AI & ML integration for predictive analytics

6. Presentation Layer (User Interface)

 Allows business users and analysts to access insights.
 Provides dashboards, reports, and data visualization.
 Interfaces:
o Web-based dashboards

o Mobile applications

o Custom reporting tools

Data Integration and Transformation
1. Data Integration
Definition:
Data integration is the process of combining data from multiple sources into a unified view
for analysis and decision-making. It ensures that data from various databases, files, and
applications are consolidated, cleaned, and structured in a way that allows seamless access
and usage.
Key Steps in Data Integration:
1. Data Extraction:
o Collecting data from different sources (databases, APIs, spreadsheets, cloud
storage).
2. Data Cleaning:
o Removing duplicates, handling missing values, and correcting errors.

3. Data Transformation:
o Converting data formats, standardizing units, and applying business rules.

4. Data Loading:
o Storing the processed data in a data warehouse, data lake, or database.

Example:
A retail company integrates sales data from online and offline stores into a single data
warehouse to analyze total revenue.
Tools for Data Integration:
✔ Apache Nifi
✔ Talend
✔ Informatica
✔ Microsoft SSIS
✔ AWS Glue

2. Data Transformation
Definition:
Data transformation is the process of converting raw data into a meaningful and usable
format. It includes data cleansing, standardization, filtering, aggregation, and
enrichment before storing it in a target system.
Key Types of Data Transformation:
1. Format Conversion:
o Changing data types (e.g., String → Integer, JSON → CSV).

2. Data Normalization:
o Standardizing values (e.g., converting all dates to YYYY-MM-DD format).

3. Data Aggregation:
o Summarizing data (e.g., calculating total sales per month).

4. Data Deduplication:
o Removing redundant records to avoid inconsistencies.

5. Data Filtering:
o Removing irrelevant or incomplete data.

6. Data Enrichment:
o Adding missing information by merging external data sources.

Example:
A banking system transforms customer transaction data by converting all currency values
into USD, filtering invalid transactions, and aggregating total spending per customer.
Tools for Data Transformation:
✔ Apache Spark
✔ Pandas (Python)
✔ SQL-based transformations
✔ DBT (Data Build Tool)

Relationship Between Data Integration and Transformation

 Data Integration collects and merges data from multiple sources.
 Data Transformation refines and converts this data into a structured format.
 Together, they ensure clean, accurate, and usable data for analysis and reporting.
🚀 Use Case:
A healthcare company integrates patient data from different hospitals and transforms it into a
common format for medical analysis.
This process is critical for data warehousing, analytics, AI, and business intelligence. ✅

Data Cleaning
Definition:
Data cleaning (also known as data cleansing or data scrubbing) is the process of detecting,
correcting, and removing errors, inconsistencies, and inaccuracies in a dataset. The goal
is to ensure that the data is accurate, complete, reliable, and ready for analysis.

Techniques of Data Cleaning

1. Removing Duplicates
 Issue: Duplicate records can occur due to multiple data sources or repeated data entry.
 Solution: Identify and remove duplicate rows using unique identifiers (e.g., customer
ID, order number).
 Tools: SQL (DISTINCT, GROUP BY), Pandas (drop_duplicates()), Excel (Remove
Duplicates).

2. Handling Missing Data

 Issue: Some fields may have empty or null values, leading to incomplete data.
 Solutions:
o Remove missing values (if they are not significant).

o Fill with mean/median/mode (for numerical data).

o Use forward or backward filling (for time-series data).

o Predict missing values using machine learning models.

 Tools: Pandas (fillna(), dropna()), SQL (COALESCE()), Excel functions.

3. Correcting Inconsistent Data

 Issue: Different formats or spellings can cause inconsistencies (e.g., "NY", "New
York", "N.Y.").
 Solution: Standardize data formats using predefined rules.
 Example: Convert all dates to YYYY-MM-DD format.
 Tools: Python (datetime module), SQL (CAST(), CONVERT()), data cleaning
software.

4. Removing Outliers
 Issue: Extreme values can distort analysis (e.g., salary dataset with a value of
$1,000,000,000).
 Solutions:
o Use statistical methods (e.g., Z-score, IQR method) to detect outliers.

o Replace outliers with mean/median or remove them if they are incorrect.

 Tools: Pandas (describe(), zscore() from SciPy), Box plots in Excel/Tableau.

5. Data Type Conversion

 Issue: Incorrect data types can cause errors in calculations and queries.
 Solution: Convert data to the correct type (e.g., converting "1000" from text to
integer).
 Tools: Pandas (astype()), SQL (CAST(), CONVERT()).

6. Resolving Syntax Errors & Typos

 Issue: Misspelled words or incorrect capitalization can cause inconsistencies (e.g.,
"john doe" vs. "John Doe").
 Solution: Apply text standardization using string functions or spell-checking tools.
 Tools: Python (lower(), strip()), NLP libraries (FuzzyWuzzy for spell checking).

7. Data Validation
 Issue: Invalid or incorrect data entries (e.g., negative age values).
 Solution: Apply validation rules and constraints (e.g., age should be between 0-120).
 Tools: SQL (CHECK constraints), Pandas validation functions.

Why is Data Cleaning Important?

✔ Improves Data Accuracy – Ensures reliable insights.
✔ Enhances Efficiency – Reduces errors in decision-making.
✔ Prepares Data for Machine Learning – Improves model performance.
✔ Prevents Costly Mistakes – Avoids incorrect business conclusions.

Multidimensional Data Model in Data Mining

Definition
The Multidimensional Data Model is used in data warehousing and data mining to represent
data in multiple dimensions for efficient analysis. It is the foundation of Online Analytical
Processing (OLAP), allowing users to perform complex queries like slicing, dicing, drilling
down, and pivoting on large datasets.

Key Concepts of the Multidimensional Data Model

1. Facts
 Facts are quantifiable data stored in the fact table.
 Example: Sales amount, profit, total revenue.
2. Dimensions
 Dimensions define the perspectives from which data can be analyzed.
 Example: Time, Product, Location, Customer.
3. Measures
 Numerical values associated with facts.
 Example: Sales (sum), Quantity (count).
4. Hierarchies
 Levels within a dimension (e.g., Time → Year → Quarter → Month → Day).
5. Schema Types
 Star Schema – Single fact table linked to multiple dimension tables.
 Snowflake Schema – Dimension tables are normalized, reducing redundancy.
 Galaxy Schema – Multiple fact tables sharing dimension tables.

What is OLAP?
Online Analytical Processing (OLAP) is a technology that allows users to perform complex
analytical queries on large datasets efficiently. It is used for business intelligence,
reporting, and decision-making by organizing data into a multidimensional format for
faster analysis.
Key Features of OLAP:
✔ Stores historical data for trend analysis.
✔ Supports multi-dimensional data models.
✔ Enables fast query performance using pre-aggregated data.
✔ Used in data warehousing and business intelligence.

OLAP vs OLTP (5 Key Differences)

Feature OLAP (Analytical) OLTP (Transactional)

Purpose Data analysis & decision-making Real-time transaction processing

Data Type Historical & aggregated data Current operational data

Query Type Complex queries (JOINs, GROUP BY) Simple read/write queries

Performance Optimized for read-heavy workloads Optimized for fast inserts/updates

Use Case Business Intelligence, Reporting Banking, E-commerce transactions

OLAP Operations with Examples

1. Slice
 Extracts a single dimension from a cube.
 Example: "Show sales data for the year 2023."
2. Dice
 Extracts a subcube by selecting multiple dimensions.
 Example: "Show sales data for ‘Laptops’ in ‘USA’ during 2023."
3. Drill Down
 Moves from higher-level summary to detailed data.
 Example: "Show sales per month instead of per year."
4. Roll Up
 Aggregates data to a higher level.
 Example: "Summarize sales per region instead of per city."
5. Pivot (Rotate)
 Changes the viewing perspective of data.
 Example: "Switch from 'Product-wise Sales' to 'Region-wise Sales'."

How to Write an OLAP Query?

SQL Example (Using GROUP BY & Aggregation)
SELECT Region, Product, SUM(Sales) AS Total_Sales
FROM Sales_Data
WHERE Year = 2023
GROUP BY Region, Product
ORDER BY Total_Sales DESC;
Explanation:
 Filters data for the year 2023.
 Groups sales by region and product.
 Aggregates total sales for each group.
 Sorts results in descending order.

Key Differences: OLAP vs OLTP

Feature OLAP (Analytical Processing) OLTP (Transactional Processing)

Used for daily transaction

Used for data analysis, decision
Purpose processing
support, and reporting
Real-time, operational, and
Historical, aggregated, and current data
Data Type
summarized data
Feature OLAP (Analytical Processing) OLTP (Transactional Processing)

Complex queries (JOINs, GROUP Simple, fast queries (INSERT,

Query Type
BY, aggregations) UPDATE, DELETE, SELECT)
Optimized for read-heavy
Optimized for write-heavy
Performance workloads (high query
workloads (fast transactions)
performance)
Denormalized data (reduces Highly normalized data (avoids
Normalization
complexity, increases performance) redundancy, maintains consistency)
High transactions per second
Transactions per Low transactions per second
(TPS) for real-time processing
Second (TPS) as it handles complex queries
Stores current transactional data
Stores large volumes of historical
Data Storage in databases
data in data warehouses
Uses many indexes (ensures quick
Uses few indexes (optimized for
Indexes data retrieval for transactions)
fast queries on large data sets)
Frequent backups are required for
Backup and Regular backups are performed but
ensuring data consistency
Recovery are not as frequent as OLTP
High concurrency (many users
Low concurrency (fewer users run perform transactions
Concurrency
analytical queries) simultaneously)

Banking Systems, E-commerce

Business Intelligence, Data
Example Use Orders, ATM Transactions,
Warehousing, Financial
Cases Inventory Management
Forecasting, Customer Analytics
Amazon Redshift, Google
MySQL, PostgreSQL, Oracle
Examples BigQuery, SAP BW, Microsoft
Database, SQL Server
Analysis Services

Comptia Data+ Da0-001
No ratings yet
Comptia Data+ Da0-001
10 pages
The Digital Marketing Blueprint 2023
100% (1)
The Digital Marketing Blueprint 2023
23 pages
Learn Data Warehousing in 24 Hours
From Everand
Learn Data Warehousing in 24 Hours
Alex Nordeen
No ratings yet
MySQL Performance Tuning - MySQL 8 Query Performance Tuning - A Systematic Method For Improving Execution Speeds
No ratings yet
MySQL Performance Tuning - MySQL 8 Query Performance Tuning - A Systematic Method For Improving Execution Speeds
3 pages
Unit 2 Data Gathering
No ratings yet
Unit 2 Data Gathering
14 pages
DMDW_ Preprocessing L-6,7
No ratings yet
DMDW_ Preprocessing L-6,7
16 pages
Data Extraction
No ratings yet
Data Extraction
14 pages
dm unit 3
No ratings yet
dm unit 3
15 pages
Data Warehousing Mining
No ratings yet
Data Warehousing Mining
26 pages
Data Mining
No ratings yet
Data Mining
4 pages
BECE352E Module 2
No ratings yet
BECE352E Module 2
58 pages
DWM
No ratings yet
DWM
29 pages
dwm q bank
No ratings yet
dwm q bank
16 pages
CS822-DataMining-Week3
No ratings yet
CS822-DataMining-Week3
91 pages
DSS ch2
No ratings yet
DSS ch2
112 pages
Unit 2 LT
No ratings yet
Unit 2 LT
13 pages
Unit-2
No ratings yet
Unit-2
144 pages
Data Warehouse Administration
No ratings yet
Data Warehouse Administration
14 pages
Data Warehousing and Mining
No ratings yet
Data Warehousing and Mining
56 pages
business_analytics[1]
No ratings yet
business_analytics[1]
3 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
31 pages
Lecture 2.1.1 2.1.2 (1)
No ratings yet
Lecture 2.1.1 2.1.2 (1)
19 pages
Cat Data Mining
No ratings yet
Cat Data Mining
4 pages
shortnjn
No ratings yet
shortnjn
12 pages
22UCS303 DS-Unit II-N
No ratings yet
22UCS303 DS-Unit II-N
71 pages
Data Analysis From Theoretical To Implementation Using Excel, Python, Flourish
No ratings yet
Data Analysis From Theoretical To Implementation Using Excel, Python, Flourish
30 pages
Module 2_data preprocessing
No ratings yet
Module 2_data preprocessing
16 pages
Screenshot 2025-04-09 at 10.35.12 AM
No ratings yet
Screenshot 2025-04-09 at 10.35.12 AM
31 pages
Unit-1 DMDW
No ratings yet
Unit-1 DMDW
22 pages
Big Data Day II
No ratings yet
Big Data Day II
38 pages
Data Warehouse and Data Mining- Definition and Concepts
No ratings yet
Data Warehouse and Data Mining- Definition and Concepts
20 pages
CTIT
No ratings yet
CTIT
72 pages
5 DATA WAREHOUSE (1)
No ratings yet
5 DATA WAREHOUSE (1)
17 pages
dwm 2
No ratings yet
dwm 2
31 pages
Datawarehouse and Data Mining Final Notes
No ratings yet
Datawarehouse and Data Mining Final Notes
9 pages
dwh
No ratings yet
dwh
34 pages
DW Concepts
100% (1)
DW Concepts
40 pages
Unit 1
No ratings yet
Unit 1
36 pages
Data Warehouse For Bignners
No ratings yet
Data Warehouse For Bignners
14 pages
Data Transformation
No ratings yet
Data Transformation
26 pages
Data Cleaning and Data Transformation
No ratings yet
Data Cleaning and Data Transformation
13 pages
Module 3
No ratings yet
Module 3
76 pages
List Data Warehouse Models With Example
No ratings yet
List Data Warehouse Models With Example
19 pages
DWM Assigment-Questions Ans
No ratings yet
DWM Assigment-Questions Ans
67 pages
Advance Database System
No ratings yet
Advance Database System
8 pages
Data Transformation Slide
No ratings yet
Data Transformation Slide
8 pages
DATA WAREHOUSING UNIT 1[1]
No ratings yet
DATA WAREHOUSING UNIT 1[1]
26 pages
Group Work
No ratings yet
Group Work
9 pages
Ais Elect - Reviewer
No ratings yet
Ais Elect - Reviewer
5 pages
Ch-03-1 Unlocked 2
No ratings yet
Ch-03-1 Unlocked 2
45 pages
DW-OLAP1
No ratings yet
DW-OLAP1
88 pages
Business Intelligence & Business Performance Mgt.: อภิชาต ชมภูนุช Sunday, June 27, 2010
No ratings yet
Business Intelligence & Business Performance Mgt.: อภิชาต ชมภูนุช Sunday, June 27, 2010
50 pages
Data Warehousing: Modern Database Management
No ratings yet
Data Warehousing: Modern Database Management
32 pages
Data Quality and Preprocessing Concepts ETL
No ratings yet
Data Quality and Preprocessing Concepts ETL
64 pages
??? ????????? ???
No ratings yet
??? ????????? ???
21 pages
Module 1 & 2 DAEH QB
No ratings yet
Module 1 & 2 DAEH QB
69 pages
How should data preparation be done for an analytics project_
No ratings yet
How should data preparation be done for an analytics project_
30 pages
Unit 2 Data Mining
No ratings yet
Unit 2 Data Mining
69 pages
Data Warehousing unit 1,2
No ratings yet
Data Warehousing unit 1,2
9 pages
DM & W SQ
No ratings yet
DM & W SQ
15 pages
Data Cleaning, Integration, and Data Transformation Techniques
No ratings yet
Data Cleaning, Integration, and Data Transformation Techniques
7 pages
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
From Everand
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
WINTON CLEM
No ratings yet
Multiple Choice Questions - E-Commerce (BCA-603) S.No. Question A B C D Answer D D B D A B D A A A D D
No ratings yet
Multiple Choice Questions - E-Commerce (BCA-603) S.No. Question A B C D Answer D D B D A B D A A A D D
3 pages
2020-0015-Policy-Annexure I
No ratings yet
2020-0015-Policy-Annexure I
5 pages
Itdumpsfree: Get Free Valid Exam Dumps and Pass Your Exam Test With Confidence
No ratings yet
Itdumpsfree: Get Free Valid Exam Dumps and Pass Your Exam Test With Confidence
5 pages
Credohire Ai
No ratings yet
Credohire Ai
3 pages
CB20133 First Report
No ratings yet
CB20133 First Report
5 pages
CERTIFICATES (PDF - Io)
No ratings yet
CERTIFICATES (PDF - Io)
33 pages
fortinetwork
No ratings yet
fortinetwork
4 pages
Guide To Computer Forensics and Investigations, Second Edition
No ratings yet
Guide To Computer Forensics and Investigations, Second Edition
15 pages
Databricks Guide
No ratings yet
Databricks Guide
27 pages
ICMP CheatSheet Part2 - (Networkwalks - Com) v1
No ratings yet
ICMP CheatSheet Part2 - (Networkwalks - Com) v1
1 page
Online Exam Project Report
No ratings yet
Online Exam Project Report
62 pages
Oracle Iexpenses Process Flow
No ratings yet
Oracle Iexpenses Process Flow
15 pages
Pranay Chavan Resume
No ratings yet
Pranay Chavan Resume
2 pages
Alex Pappas
No ratings yet
Alex Pappas
4 pages
2.2 - Computer Software - Show
No ratings yet
2.2 - Computer Software - Show
11 pages
The History of The Internet
No ratings yet
The History of The Internet
9 pages
Installation Media For An SAP HANA SPS
No ratings yet
Installation Media For An SAP HANA SPS
18 pages
Attendance Nsed Template
No ratings yet
Attendance Nsed Template
5 pages
Object Oriented Programming Topper Series
No ratings yet
Object Oriented Programming Topper Series
60 pages
Santanu-Padhy-Frontend (2)
No ratings yet
Santanu-Padhy-Frontend (2)
1 page
Soal Quiz Section 4 Oracle
No ratings yet
Soal Quiz Section 4 Oracle
4 pages
Components and Objectives
No ratings yet
Components and Objectives
13 pages
Bhargav's Resume
No ratings yet
Bhargav's Resume
1 page
TDI Offline Setup Guide
No ratings yet
TDI Offline Setup Guide
17 pages
Tekla User Assistance - Model Folder Files and File Name Extensions - 2019-03-19
No ratings yet
Tekla User Assistance - Model Folder Files and File Name Extensions - 2019-03-19
8 pages
Be - Information Technology - Semester 3 - 2023 - May - Paradigms Computer Programming Faoundationrev 2019c Scheme
No ratings yet
Be - Information Technology - Semester 3 - 2023 - May - Paradigms Computer Programming Faoundationrev 2019c Scheme
1 page
Assignment 3
No ratings yet
Assignment 3
2 pages
Mongo DB Cheat Sheet KKJHG
No ratings yet
Mongo DB Cheat Sheet KKJHG
9 pages

Data Warehouse

Uploaded by

Data Warehouse

Uploaded by

Data Warehouse

Architecture of Data Warehouse

o External sources (APIs, IoT devices, social media, logs)

o Cloud storage and flat files (CSV, JSON, XML)

2. ETL (Extract, Transform, Load) Layer

o Cloud data warehouses (e.g., Amazon Redshift, Snowflake, Google BigQuery)

o Indexing, partitioning, and query optimization.

 Ensures security, access control, and versioning of data.

o Business Intelligence (BI) tools like Tableau, Power BI, Looker

o AI & ML integration for predictive analytics

6. Presentation Layer (User Interface)

o Custom reporting tools

Relationship Between Data Integration and Transformation

Techniques of Data Cleaning

2. Handling Missing Data

o Fill with mean/median/mode (for numerical data).

o Use forward or backward filling (for time-series data).

o Predict missing values using machine learning models.

 Tools: Pandas (fillna(), dropna()), SQL (COALESCE()), Excel functions.

3. Correcting Inconsistent Data

o Replace outliers with mean/median or remove them if they are incorrect.

 Tools: Pandas (describe(), zscore() from SciPy), Box plots in Excel/Tableau.

5. Data Type Conversion

6. Resolving Syntax Errors & Typos

Why is Data Cleaning Important?

Multidimensional Data Model in Data Mining

Key Concepts of the Multidimensional Data Model

OLAP vs OLTP (5 Key Differences)

Feature OLAP (Analytical) OLTP (Transactional)

Purpose Data analysis & decision-making Real-time transaction processing

Data Type Historical & aggregated data Current operational data

Performance Optimized for read-heavy workloads Optimized for fast inserts/updates

Use Case Business Intelligence, Reporting Banking, E-commerce transactions

OLAP Operations with Examples

How to Write an OLAP Query?

Key Differences: OLAP vs OLTP

Feature OLAP (Analytical Processing) OLTP (Transactional Processing)

Used for daily transaction

Complex queries (JOINs, GROUP Simple, fast queries (INSERT,

Banking Systems, E-commerce

You might also like