BigData2

The document discusses Big Data and focuses on Pig, a high-level platform for parallel computation on large datasets, particularly in Hadoop's distributed file system. It explains the differences between traditional databases and Pig, introduces Pig Latin as a declarative language for data transformations, and provides examples of its usage, including user-defined functions (UDFs). The conclusion emphasizes Pig's effectiveness in analyzing large datasets and the ease of expressing complex transformations using Pig Latin.

Uploaded by

Saumya Singh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

BigData2

Uploaded by

Saumya Singh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

09-12-2024

Content
BIG DATA
• Introduction
GROUP ASSIGNMENT 2 • Difference Between Traditional B/t Pig
• Pig Latin: A High-Level Language for Data Flow
• Example Pig Latin Script
• User-Defined Functions (UDFs)
SUBMITTED TO: SUBMITTED BY: • Conclusion
Mr. Shivam Bharadwaj Devi Prasanna Pati
(Assistant professor)
Diksha Singh
Divyanshu Singh

Introduction
Difference Between Traditional B/t Pig
• Pig is a high-level platform for parallel computation on large datasets. Feature Traditional Databases Pig
It is designed to make it easier to analyze large datasets that reside in
HDFS. Pig's programming language, Pig Latin, is similar to SQL, making Data Storage Primarily in-memory or on disk Distributed file system (HDFS)
it easier to learn for programmers who are already familiar with
relational databases. Data Processing Primarily single-node processing Distributed processing across a cluster

• In the era of big data, efficiently processing and analyzing massive

datasets is crucial. Traditional databases often struggle to handle the Data Scale Limited by available memory and disk space Can handle massive datasets

scale and complexity of modern data. Enter Pig, a high-level platform

designed specifically for parallel computation on large datasets Query Language SQL Pig Latin

residing in distributed file systems like Hadoop. Performance High for small to medium datasets High for large datasets
09-12-2024

Pig Latin: A High-Level Language for Data Flow

Pig Latin: A High-Level Language for Data Flow
• Pig Latin is a high-level language for expressing data transformations on
large datasets. It provides a declarative way to express data flow, allowing • FILTER: Selects tuples from a relation that satisfy a given condition.
users to focus on the logic of their analysis rather than the low-level details • FOREACH: Applies a function to each tuple in a relation.
of distributed computation. • JOIN: Joins two relations based on a common key.
Key Concepts in Pig Latin:- • GROUP: Groups tuples in a relation based on a key.
• Relations: A relation is a named collection of tuples, where each tuple is an • DUMP: Displays the contents of a relation
ordered list of values.
Scripts: A Pig script is a sequence of Pig Latin statements
• Operators: Operators are functions that transform relations into new
relations. Common operators include: that define a data flow graph.
1. LOAD: Loads data from a file into a relation.
2. STORE: Stores a relation to a file.

Example Pig Latin Script User-Defined Functions (UDFs)

• UDFs allow users to extend Pig's functionality by defining custom functions
A = LOAD 'data.txt' AS (name:chararray, age:int); that can be used in Pig Latin scripts. UDFs can be written in Java or Python
B = FILTER A BY age > 18; • Example UDF (Java)
C = FOREACH B GENERATE name, age * 2; public class MyUDF extends EvalFunc<String> {
public String exec(Tuple input) throws IOException {
STORE C INTO 'output.txt'; if (input == null || input.size() == 0) {
return null;
}
String str = (String) input.get(0);
return str.toUpperCase();
}
}
09-12-2024

Conclusion
Example UDF Usage
REGISTER 'myudf.jar'; • Pig is a powerful tool for analyzing large datasets. Its high-level
A = LOAD 'data.txt' AS (name:chararray); language, Pig Latin, and support for UDFs make it easy to express
complex data transformations. By understanding the key concepts of
B = FOREACH A GENERATE MyUDF(name); Pig Latin and how to use UDFs, you can leverage Pig's power to gain
insights from your data.

Big Data and Analytics by Seema Acharya and Subhashini Chellappan Copyright 2015, WILEY INDIA PVT. LTD. Introduction To Pig
67% (3)
Big Data and Analytics by Seema Acharya and Subhashini Chellappan Copyright 2015, WILEY INDIA PVT. LTD. Introduction To Pig
34 pages
Ultimate SnowPro Core Certification Course Slides by Tom Bailey
No ratings yet
Ultimate SnowPro Core Certification Course Slides by Tom Bailey
333 pages
MVC - Entity Framework - SQL Server PDF
No ratings yet
MVC - Entity Framework - SQL Server PDF
59 pages
BDA Module 4 - Part 1 (Pig) 2023
No ratings yet
BDA Module 4 - Part 1 (Pig) 2023
34 pages
Hadoop Pig
No ratings yet
Hadoop Pig
111 pages
Hadoop Week 5
No ratings yet
Hadoop Week 5
78 pages
IMTC634 - Data Science - Chapter 16
No ratings yet
IMTC634 - Data Science - Chapter 16
20 pages
bda-unit-4-060115-big-data-analytics-unit-4
No ratings yet
bda-unit-4-060115-big-data-analytics-unit-4
19 pages
Notes Unit 5 Bigdata
No ratings yet
Notes Unit 5 Bigdata
19 pages
Bda Unit 4 060115 Big Data Analytics Unit 4
No ratings yet
Bda Unit 4 060115 Big Data Analytics Unit 4
19 pages
Notes Unit 5 Bigdata
No ratings yet
Notes Unit 5 Bigdata
21 pages
Notes
No ratings yet
Notes
19 pages
Unit V-Apache Pig
No ratings yet
Unit V-Apache Pig
10 pages
BDA - Unit-4 Part 1
No ratings yet
BDA - Unit-4 Part 1
47 pages
pig
No ratings yet
pig
50 pages
Apache PIG.pptx
No ratings yet
Apache PIG.pptx
41 pages
Unit IV EBDP 22
No ratings yet
Unit IV EBDP 22
97 pages
Pig Viva Ques
No ratings yet
Pig Viva Ques
6 pages
Unit-4_PIG_
No ratings yet
Unit-4_PIG_
9 pages
Introduction To Pig: SESSION 2016-2017
No ratings yet
Introduction To Pig: SESSION 2016-2017
44 pages
Pig and Pig Latin
No ratings yet
Pig and Pig Latin
16 pages
Unit 4 Bba
No ratings yet
Unit 4 Bba
10 pages
BDA Unit - IV
No ratings yet
BDA Unit - IV
81 pages
Pig Full Lecture
No ratings yet
Pig Full Lecture
38 pages
5 PIG and HIVE
No ratings yet
5 PIG and HIVE
81 pages
Notes - 5 Unit Big Data
No ratings yet
Notes - 5 Unit Big Data
22 pages
Emailing Pig PDF
No ratings yet
Emailing Pig PDF
23 pages
Chapter 10
No ratings yet
Chapter 10
50 pages
Nosql 24 011 Pig
No ratings yet
Nosql 24 011 Pig
41 pages
Apache Pig
No ratings yet
Apache Pig
21 pages
Big Data Analytics
No ratings yet
Big Data Analytics
6 pages
Big Data Processing, 2014/15: Lecture 8: Pig Latin!
No ratings yet
Big Data Processing, 2014/15: Lecture 8: Pig Latin!
58 pages
Big Data Notes Pig
No ratings yet
Big Data Notes Pig
38 pages
Apache Pig Handy Notes Lab
No ratings yet
Apache Pig Handy Notes Lab
11 pages
BDA-V
No ratings yet
BDA-V
10 pages
Pig
No ratings yet
Pig
27 pages
Scet Unit 5
No ratings yet
Scet Unit 5
9 pages
Pig Hive
No ratings yet
Pig Hive
59 pages
CH 6 BDA
No ratings yet
CH 6 BDA
10 pages
Apache Pig
No ratings yet
Apache Pig
61 pages
Pig Hive
No ratings yet
Pig Hive
58 pages
Unit IV - Big Data Programming
No ratings yet
Unit IV - Big Data Programming
17 pages
Pig
No ratings yet
Pig
6 pages
Bigdata: What Is Pig?
No ratings yet
Bigdata: What Is Pig?
16 pages
Big_Data_Unit-5
No ratings yet
Big_Data_Unit-5
81 pages
KCS 061 - Big Data - Unit V
No ratings yet
KCS 061 - Big Data - Unit V
17 pages
bda unit 4
No ratings yet
bda unit 4
16 pages
PIG Commands
No ratings yet
PIG Commands
53 pages
BDA-Unit 5-notes
No ratings yet
BDA-Unit 5-notes
36 pages
pig
No ratings yet
pig
23 pages
4 1-Pig
No ratings yet
4 1-Pig
46 pages
Pig Latin Users Guide
No ratings yet
Pig Latin Users Guide
13 pages
Unit 4
No ratings yet
Unit 4
29 pages
Apache Pig in noSql Databases
No ratings yet
Apache Pig in noSql Databases
5 pages
BDA-NOTES-JNTUK-R20-UNIT-4
No ratings yet
BDA-NOTES-JNTUK-R20-UNIT-4
14 pages
UNIT 5 Complete Notes
No ratings yet
UNIT 5 Complete Notes
21 pages
Unit 4 Pig and Hive
No ratings yet
Unit 4 Pig and Hive
86 pages
BDA Unit-4-PPT
No ratings yet
BDA Unit-4-PPT
98 pages
L Apachepigdataquery PDF
No ratings yet
L Apachepigdataquery PDF
10 pages
Pig: Building High-Level Dataflows Over Map-Reduce
No ratings yet
Pig: Building High-Level Dataflows Over Map-Reduce
61 pages
Python The Complete Reference: Comprehensive Guide to Mastering Python Programming from Fundamentals to Advanced Techniques
From Everand
Python The Complete Reference: Comprehensive Guide to Mastering Python Programming from Fundamentals to Advanced Techniques
Aarav Joshi
No ratings yet
Mastering Python Programming: A Comprehensive Guide: The IT Collection
From Everand
Mastering Python Programming: A Comprehensive Guide: The IT Collection
Christopher Ford
5/5 (1)
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
SnowProCore Exam Study Guide 011425 COF C02
No ratings yet
SnowProCore Exam Study Guide 011425 COF C02
14 pages
SQL Dba Interview Questions
No ratings yet
SQL Dba Interview Questions
67 pages
Chapter 2
No ratings yet
Chapter 2
25 pages
SQL Function
No ratings yet
SQL Function
14 pages
SQL SEVER Faq
No ratings yet
SQL SEVER Faq
38 pages
Microsoft SQL Server 2016 a beginner's guide Sixth Edition Petkovic pdf download
100% (9)
Microsoft SQL Server 2016 a beginner's guide Sixth Edition Petkovic pdf download
36 pages
Migration From Oracle To TD
No ratings yet
Migration From Oracle To TD
40 pages
Sertifikasi PLSQL Abis Final 1
No ratings yet
Sertifikasi PLSQL Abis Final 1
69 pages
Mapping Enhancements: Sap Netweaver Process Integration 7.1
No ratings yet
Mapping Enhancements: Sap Netweaver Process Integration 7.1
23 pages
SQL Server General Questions
No ratings yet
SQL Server General Questions
9 pages
Graphframes: An Integrated Api For Mixing Graph and Relational Queries
No ratings yet
Graphframes: An Integrated Api For Mixing Graph and Relational Queries
8 pages
Pyspark Code
No ratings yet
Pyspark Code
3 pages
TOPIC 1 - Intro N Trends To DW
No ratings yet
TOPIC 1 - Intro N Trends To DW
77 pages
LogicEditor enUS
No ratings yet
LogicEditor enUS
316 pages
Microsoft SQL Server 2016 a beginner's guide Sixth Edition Petkovic download pdf
100% (4)
Microsoft SQL Server 2016 a beginner's guide Sixth Edition Petkovic download pdf
76 pages
practice_ques_301_400
No ratings yet
practice_ques_301_400
10 pages
Grade 12 Computer Science Practicals_CBSE_2025
No ratings yet
Grade 12 Computer Science Practicals_CBSE_2025
16 pages
Inventory System
100% (1)
Inventory System
135 pages
Laboratory Manual Advanced Database
No ratings yet
Laboratory Manual Advanced Database
80 pages
Tutorial 10. Simulation of Wave Generation in A Tank: C Fluent Inc. January 5, 2007
No ratings yet
Tutorial 10. Simulation of Wave Generation in A Tank: C Fluent Inc. January 5, 2007
24 pages
Unit - 4
No ratings yet
Unit - 4
26 pages
Working With Functions
No ratings yet
Working With Functions
10 pages
Teradata Studio Features
No ratings yet
Teradata Studio Features
46 pages
Section 9
0% (2)
Section 9
14 pages
Chapter 8 PDF
No ratings yet
Chapter 8 PDF
7 pages
Dsnapk11 PDF
No ratings yet
Dsnapk11 PDF
1,139 pages
SQL Server Functions The Basicsss
No ratings yet
SQL Server Functions The Basicsss
31 pages

BigData2

Uploaded by

BigData2

Uploaded by

09-12-2024

• In the era of big data, efficiently processing and analyzing massive

scale and complexity of modern data. Enter Pig, a high-level platform

Pig Latin: A High-Level Language for Data Flow

Example Pig Latin Script User-Defined Functions (UDFs)

You might also like