0% found this document useful (0 votes)

4 views

2023MCS320004 HEMANTH TARRA - Assignment -9

The document outlines a series of tasks for an assignment involving data processing using the Hadoop framework and PIG Latin. Task 1 focuses on counting word frequencies from a text file, Task 2 involves data analytics to find the most populated cities by country, and Task 3 demonstrates performing a JOIN operation on employee data using multiple keys. Each task includes specific commands and steps to execute within the PIG interactive shell.

Uploaded by

hemanth.tarra.18

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

2023MCS320004 HEMANTH TARRA - Assignment -9

Uploaded by

hemanth.tarra.18

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

2023MCS320004 HEMANTH TARRA - Assignment -9

Task 1: Word Count Problem Write a PIG Latin program to

count the frequency of the words in the document
(iiitkottayam.txt) using Hadoop framework.
a. Txt file- iiitkottayam.txt moved to Hadoop system (used for Assignment
2).

• Enter PIG's interactive shell by typing:

bash

pig -x mapreduce

• Load the Data:

text = LOAD '/user/hadoop/iiitkottayam.txt' AS (line:chararray);

• Split each line by whitespace to get individual words.

words = FOREACH text GENERATE FLATTEN(TOKENIZE(line)) AS word;

• Filter Out Any Null or Blank Words:

clean_words = FILTER words BY word IS NOT NULL AND word != '';

• Group by each word and count the occurrences.

word_group = GROUP clean_words BY word;

word_count = FOREACH word_group GENERATE group AS word,
COUNT(clean_words) AS frequency;
• Use DUMP to check intermediate results if required.

DUMP word_count;

• Save the results to an HDFS directory.

STORE word_count INTO '/user/hadoop/iiitkottayam_wordcount_output' USING
PigStorage(',');
Task2:
Data Analytics using PIG
Create cities.txt using nano and placing that file in Hadoop

1. Load the data

cities = LOAD '/user/hadoop/cities.txt' USING PigStorage(',') AS
(name:chararray, country:chararray, population:int);

2. Group Data by Country:

grouped_cities = GROUP cities BY country;

3. Find the Most Populated City in Each Country

max_population_cities = FOREACH grouped_cities { sorted = ORDER cities
BY population DESC; top_city = LIMIT sorted 1; GENERATE
FLATTEN(top_city); };

4. View results;
DUMP max_population_cities;
Task 3: Perform JOIN operation using multiple keys
1. Save employee.txt and employee_contact.txt in the local filesystem and
move them to Hadoop filesystem

2. Create the data sets from the files

employee = LOAD '/user/hadoop/employee.txt' USING PigStorage(',') AS

(id:chararray, firstname:chararray, lastname:chararray, age:int,
post:chararray, jobid:int); employee_contact = LOAD
'/user/hadoop/employee_contact.txt' USING PigStorage(',') AS
(id:chararray, mobileno:chararray, mail:chararray, age:int,
city:chararray, jobid:int);

3. Perform JOIN on multiple keys (id and jobid)

joined_data = JOIN employee BY id, employee_contact BY id;

4. -- Select and rename the fields needed

result = FOREACH joined_data GENERATE

employee::id AS id,
employee::firstname AS firstname,
employee::lastname AS lastname,
employee::age AS age,
employee::post AS post,
employee::jobid AS jobid,
employee_contact::mobileno AS mobileno,
employee_contact::mail AS mail,
employee_contact::city AS city;

5. View Result -- DUMP result

Morris-Raine Real Estate Co.
No ratings yet
Morris-Raine Real Estate Co.
22 pages
7 Ibiz Pig Workouts
No ratings yet
7 Ibiz Pig Workouts
7 pages
Pig Practicals
No ratings yet
Pig Practicals
4 pages
Sai PIG Practicals PDF
No ratings yet
Sai PIG Practicals PDF
6 pages
BDA Practicalfile
No ratings yet
BDA Practicalfile
19 pages
BDH_practical_08_29
No ratings yet
BDH_practical_08_29
3 pages
Pig
No ratings yet
Pig
6 pages
BDC Final Record
No ratings yet
BDC Final Record
36 pages
RTAP
No ratings yet
RTAP
38 pages
Big Data with Hadoop & Spark- VII
No ratings yet
Big Data with Hadoop & Spark- VII
3 pages
bda lab
No ratings yet
bda lab
2 pages
Unit 3 BDA
No ratings yet
Unit 3 BDA
4 pages
Module 4 - Pig
No ratings yet
Module 4 - Pig
65 pages
Bda Lab
No ratings yet
Bda Lab
94 pages
Pig Interview Questions
No ratings yet
Pig Interview Questions
3 pages
Lab_Exam 2021BCS0021
No ratings yet
Lab_Exam 2021BCS0021
6 pages
Project 1
No ratings yet
Project 1
4 pages
Project 2
No ratings yet
Project 2
4 pages
CCA-175 Docs and Projects
No ratings yet
CCA-175 Docs and Projects
5 pages
data_analytics_chapter_5
No ratings yet
data_analytics_chapter_5
14 pages
Notes
No ratings yet
Notes
53 pages
BDA Lab Manual -BAD601-Final one - 7-11
No ratings yet
BDA Lab Manual -BAD601-Final one - 7-11
25 pages
BDA QB
No ratings yet
BDA QB
8 pages
Apache Pig
No ratings yet
Apache Pig
61 pages
Big Data Analytics- sem 7 CVMU
No ratings yet
Big Data Analytics- sem 7 CVMU
4 pages
BDA QB3
No ratings yet
BDA QB3
22 pages
PE CS801A SampleQB2
No ratings yet
PE CS801A SampleQB2
6 pages
CS702 Big Data Programs
No ratings yet
CS702 Big Data Programs
59 pages
BDAA
No ratings yet
BDAA
4 pages
CA01
No ratings yet
CA01
14 pages
Big Data Hadoop - Course Curriculum - V1
No ratings yet
Big Data Hadoop - Course Curriculum - V1
7 pages
CCS334 BDA Syllabus
No ratings yet
CCS334 BDA Syllabus
5 pages
BDA Lab 8 Manual
No ratings yet
BDA Lab 8 Manual
7 pages
Big Data
No ratings yet
Big Data
4 pages
Big Data
No ratings yet
Big Data
18 pages
bda lab
No ratings yet
bda lab
4 pages
Big Data Testing
100% (1)
Big Data Testing
34 pages
Presenters: Abhishek Verma, Nicolas Zea
No ratings yet
Presenters: Abhishek Verma, Nicolas Zea
49 pages
Name: Sadikshya Khanal Section: C3G2: Workshop - 9 - Hadoop Part 2
No ratings yet
Name: Sadikshya Khanal Section: C3G2: Workshop - 9 - Hadoop Part 2
51 pages
Lecture 18
No ratings yet
Lecture 18
20 pages
PIG Interview Qusetions
No ratings yet
PIG Interview Qusetions
15 pages
big-data-journal-final (1)
No ratings yet
big-data-journal-final (1)
18 pages
ABP W9-W10 Big Data Analytics Lab-PIG
No ratings yet
ABP W9-W10 Big Data Analytics Lab-PIG
11 pages
Lab 7
No ratings yet
Lab 7
2 pages
Write Some Basic Hadoop Commands To Store The and Display The File From Your Directory
No ratings yet
Write Some Basic Hadoop Commands To Store The and Display The File From Your Directory
6 pages
Big Data & Hadoop - Course Curriculum
No ratings yet
Big Data & Hadoop - Course Curriculum
6 pages
bc ca1,2
No ratings yet
bc ca1,2
31 pages
BDA LAB RECORD
No ratings yet
BDA LAB RECORD
32 pages
EMP1.txt (Id:int, Name:chararray, Dept:chararray, Salary:int)
No ratings yet
EMP1.txt (Id:int, Name:chararray, Dept:chararray, Salary:int)
2 pages
BigData Module 2
No ratings yet
BigData Module 2
41 pages
BDA_Imp Questions_All Units
No ratings yet
BDA_Imp Questions_All Units
2 pages
Cloud Computing Era Practice
No ratings yet
Cloud Computing Era Practice
75 pages
Chapter 5 - Introducing Pig Pig Architecture
No ratings yet
Chapter 5 - Introducing Pig Pig Architecture
81 pages
BDA - Week04 - 10
No ratings yet
BDA - Week04 - 10
41 pages
4.Lesson Plan Lab
No ratings yet
4.Lesson Plan Lab
7 pages
Big Data Lab
No ratings yet
Big Data Lab
12 pages
Data Science Programming In Python
From Everand
Data Science Programming In Python
Anita Raichand
No ratings yet
Mastering Go A Practical Guide to Developers: A Practical Guide to Developers
From Everand
Mastering Go A Practical Guide to Developers: A Practical Guide to Developers
Miguel Miranda de Mattos
No ratings yet
Inspiring Powershell Articles
From Everand
Inspiring Powershell Articles
Murat Yildirimoglu
No ratings yet
Footprinting, Reconnaissance, Scanning and Enumeration Techniques of Computer Networks
From Everand
Footprinting, Reconnaissance, Scanning and Enumeration Techniques of Computer Networks
Dr. Hidaia Mahmood Alassouli
No ratings yet
Rust Package 100 Knocks: One-Hour Mastery Series 2024 Edition
From Everand
Rust Package 100 Knocks: One-Hour Mastery Series 2024 Edition
Kanto
No ratings yet
Internet of Things LTP
No ratings yet
Internet of Things LTP
3 pages
Module 4 Separation of Variables
No ratings yet
Module 4 Separation of Variables
6 pages
Wireless 00 Designing Scalable Wireless Networks in The Campus LAN
No ratings yet
Wireless 00 Designing Scalable Wireless Networks in The Campus LAN
25 pages
Bureau Brandeis - GDPR Compliance Roadmap
No ratings yet
Bureau Brandeis - GDPR Compliance Roadmap
33 pages
Soc Physical Design A Comprehensive Guide Veena S Chakravarthi download
100% (2)
Soc Physical Design A Comprehensive Guide Veena S Chakravarthi download
51 pages
International VT365 Fuel Pump PDF
No ratings yet
International VT365 Fuel Pump PDF
1 page
Clickbait Detection Using Word Embeddings
No ratings yet
Clickbait Detection Using Word Embeddings
3 pages
M Bharath
No ratings yet
M Bharath
3 pages
C4.2 Malware Analysis and CTI
No ratings yet
C4.2 Malware Analysis and CTI
3 pages
Module 2: Divide and Conquer: Design and Analysis of Algorithms 18CS42
No ratings yet
Module 2: Divide and Conquer: Design and Analysis of Algorithms 18CS42
82 pages
Business Model For ISP - 2019
No ratings yet
Business Model For ISP - 2019
45 pages
RxResume PDFExport Umangbhalla1 Pro 1673447409
No ratings yet
RxResume PDFExport Umangbhalla1 Pro 1673447409
1 page
Smart Forms in SAP ABAP
No ratings yet
Smart Forms in SAP ABAP
21 pages
WaterBase SWAT in An Open Source GIS
No ratings yet
WaterBase SWAT in An Open Source GIS
6 pages
Automated Screening Manager Web Service 3.7 Programmers Guide
No ratings yet
Automated Screening Manager Web Service 3.7 Programmers Guide
15 pages
SOP For Shimadzu LabSolutions
No ratings yet
SOP For Shimadzu LabSolutions
8 pages
G David Garson GLM UNIVARIATE, ANOVA, AND ANCOVA 2013, Statistical
No ratings yet
G David Garson GLM UNIVARIATE, ANOVA, AND ANCOVA 2013, Statistical
159 pages
Netsure 8200 Data Sheet DC 00102
No ratings yet
Netsure 8200 Data Sheet DC 00102
2 pages
Wang 2020 J. Phys. Conf. Ser. 1437 012007
No ratings yet
Wang 2020 J. Phys. Conf. Ser. 1437 012007
8 pages
Notes On Sorting (BCA-III Sem)
No ratings yet
Notes On Sorting (BCA-III Sem)
23 pages
Embedded System: Shibu K V
No ratings yet
Embedded System: Shibu K V
29 pages
Adnare Medical Billing Services
No ratings yet
Adnare Medical Billing Services
22 pages
218a Syllabus 24-25
No ratings yet
218a Syllabus 24-25
4 pages
Data Types in C
100% (1)
Data Types in C
10 pages
(Ebook) The Semantic Web Explained: The Technology and Mathematics behind Web 3.0 by Szeredi, Péter, Lukácsy, Gergely, Benkő, Tamás ISBN 9780521700368, 9781139194129, 0521700361, 1139194127 pdf download
No ratings yet
(Ebook) The Semantic Web Explained: The Technology and Mathematics behind Web 3.0 by Szeredi, Péter, Lukácsy, Gergely, Benkő, Tamás ISBN 9780521700368, 9781139194129, 0521700361, 1139194127 pdf download
58 pages
8th Sem Final Report Format
No ratings yet
8th Sem Final Report Format
12 pages
UoL - EMFSS Online Taught Programme Orientation
No ratings yet
UoL - EMFSS Online Taught Programme Orientation
19 pages
Midterm Exam 2022.2 Course: Ee2130E - Digital System Design Date: 17 / 05 / 2023 Duration: 60 Min
100% (1)
Midterm Exam 2022.2 Course: Ee2130E - Digital System Design Date: 17 / 05 / 2023 Duration: 60 Min
2 pages
21st CENT-Lesson 5
No ratings yet
21st CENT-Lesson 5
18 pages

2023MCS320004 HEMANTH TARRA - Assignment -9

Uploaded by

2023MCS320004 HEMANTH TARRA - Assignment -9

Uploaded by

2023MCS320004 HEMANTH TARRA - Assignment -9

Task 1: Word Count Problem Write a PIG Latin program to

• Enter PIG's interactive shell by typing:

• Load the Data:

• Split each line by whitespace to get individual words.

• Filter Out Any Null or Blank Words:

• Group by each word and count the occurrences.

word_group = GROUP clean_words BY word;

• Save the results to an HDFS directory.

1. Load the data

2. Group Data by Country:

3. Find the Most Populated City in Each Country

2. Create the data sets from the files

employee = LOAD '/user/hadoop/employee.txt' USING PigStorage(',') AS

3. Perform JOIN on multiple keys (id and jobid)

4. -- Select and rename the fields needed

result = FOREACH joined_data GENERATE

5. View Result -- DUMP result

You might also like