0% found this document useful (0 votes)

15 views

Scnfinal

The document describes Spark code to read CSV data, process it, and write it to Snowflake. It performs the following key steps: 1. Reads CSV data from local files and Snowflake, adds indexes, and joins dataframes. 2. Divides the data into batches, increments IDs, and writes to Snowflake in append mode. 3. Reads another CSV, calculates modulo of IDs to assign to batches, increments IDs against max values from Snowflake, and writes in append mode.

Uploaded by

aryas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views

Scnfinal

Uploaded by

aryas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 5

def main(args:Array[String]):Unit={

System.setProperty("hadoop.home.dir", "C:\\hadoop")

println("================Started1============")

val conf = new

SparkConf().setAppName("revision").setMaster("local[*]")
val sc = new SparkContext(conf)
sc.setLogLevel("ERROR")
val spark = SparkSession.builder().getOrCreate()
import spark.implicits._

val day1 = spark.read.option("header","true")

.csv("file:///C:/data/scenaridata/data1.csv")

day1.show()

val finaldf =
addColumnIndex(spark,day1).withColumn("batchid",lit(1))
.select("id","tdate","custnno","amt","state","batch
id")

finaldf.show()

finaldf.write.format("snowflake")
.option("sfURL","https://eogjppo-
wl54107.snowflakecomputing.com")
.option("sfAccount","eogjppo")
.option("sfUser","zeyobronanalytics66")
.option("sfPassword","Zeyo@908")
.option("sfDatabase","zeyodb")
.option("sfSchema","PUBLIC")
.option("sfRole","ACCOUNTADMIN")
.option("sfWarehouse","COMPUTE_WH")
.option("dbtable","dtab")
.save()
=============
Day 2
=============
val max_id_batc = spark.read.format("snowflake")
.option("sfURL","https://eogjppo-wl54107.snowflakecomputing.com")
.option("sfAccount","eogjppo")
.option("sfUser","zeyobronanalytics66")
.option("sfPassword","Zeyo@908")
.option("sfDatabase","zeyodb")
.option("sfSchema","PUBLIC")
.option("sfRole","ACCOUNTADMIN")
.option("sfWarehouse","COMPUTE_WH")
.option("query","select max(id) as maxid,max(batchid) as maxbatch from
zeyodb.public.dtab")
.load()

val day1 = spark.read.option("header","true")

.csv("file:///C:/data/scenaridata/data2.csv")

day1.show()
max_id_batc.show()

val batchid = day1.withColumn("batchid", lit(1))

batchid.show()

val crossjoin = batchid.crossJoin(max_id_batc)

.withColumn("batchid",col("batchid")+col("MAXBATCH"))
.drop("MAXBATCH")
.sort("batchid")

crossjoin.show()

val indexcolumn = addColumnIndex(spark, crossjoin)

.withColumn("id",expr("id+MAXID"))
.drop("MAXID")
.select("id","tdate","custnno","amt","state","batchid")

indexcolumn.show()

===========
Day 5
===========
package pack

import org.apache.spark._
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.Row
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions.col
import org.apache.spark.sql.functions._
import org.apache.spark.sql.functions.udf
import scala.io.Source
import pack.urlobj
import org.apache.spark.sql._

object obj {

def addColumnIndex(spark: SparkSession,df: DataFrame) = {

spark.sqlContext.createDataFrame(
df.rdd.zipWithIndex.map {
case (row, index) => Row.fromSeq(row.toSeq :+
index+1)
},

StructType(df.schema.fields :+ StructField("id",
LongType, false)))
}

def main(args:Array[String]):Unit={

System.setProperty("hadoop.home.dir", "C:\\hadoop")

println("================Started1============")

val conf = new

SparkConf().setAppName("revision").setMaster("local[*]")
val sc = new SparkContext(conf)
sc.setLogLevel("ERROR")
val spark = SparkSession.builder().getOrCreate()
import spark.implicits._

val df = spark.read.format("csv")
.option("header","true")
.load("file:///C:/data/scenaridata/data55.csv")

df.show(100)

val inbatch = addColumnIndex(spark, df)

.withColumnRenamed("id","batchid")

inbatch.show(100)

val total = inbatch.count

val limit = 10

val mod = total/limit

val moddf = inbatch.withColumn("batchid",col("batchid")%mod +1)

.sort("batchid")
.withColumn("batchid", expr("cast(batchid as int)"))

moddf.show(100)

val increid = addColumnIndex(spark, moddf)

.select("id","tdate","custnno","amt","state","batch
id")

increid.show(100)

val snowdf = spark.read.format("snowflake")

.option("sfURL","https://eogjppo-
wl54107.snowflakecomputing.com")
.option("sfAccount","eogjppo")
.option("sfUser","zeyobronanalytics66")
.option("sfPassword","Zeyo@908")
.option("sfDatabase","zeyodb")
.option("sfSchema","PUBLIC")
.option("sfRole","ACCOUNTADMIN")
.option("sfWarehouse","COMPUTE_WH")
.option("query","select max(id) as maxid,max(batchid)
as maxbatch from zeyodb.public.dtab")
.load()

snowdf.show()

val finaldf1= increid.crossJoin(snowdf)

.withColumn("id",expr("id+maxid"))
.withColumn("batchid",expr("batchid+maxbatch"))
.drop("MAXID","MAXBATCH")

finaldf1.show(100)

finaldf1.write.format("snowflake")
.option("sfURL","https://eogjppo-wl54107.snowflakecomputing.com")
.option("sfAccount","eogjppo")
.option("sfUser","zeyobronanalytics66")
.option("sfPassword","Zeyo@908")
.option("sfDatabase","zeyodb")
.option("sfSchema","PUBLIC")
.option("sfRole","ACCOUNTADMIN")
.option("sfWarehouse","COMPUTE_WH")
.option("dbtable","dtab")
.mode("append")
.save()

/*df.show()

val batchdf = df.withColumn("batchid", lit(1))

batchdf.show()

val increid = addColumnIndex(spark, batchdf)

increid.show()

val finaldf =
increid.select("id","tdate","custnno","amt","state","batchid")

finaldf.show()

val snowdf = spark.read.format("snowflake")

snowdf.show()

val finaldf1= finaldf.crossJoin(snowdf)

.withColumn("id",expr("id+maxid"))
.withColumn("batchid",expr("batchid+maxbatch"))
.drop("MAXID","MAXBATCH")

finaldf1.show(100)

*/
}
}

ETL Processes Using PySpark
67% (3)
ETL Processes Using PySpark
7 pages
All GRE Test & Materials 2
100% (1)
All GRE Test & Materials 2
4 pages
Etl Commands For Pyspark
No ratings yet
Etl Commands For Pyspark
8 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Pyspark Commands
No ratings yet
Pyspark Commands
12 pages
BDA_All_37_Practical_Answers_
No ratings yet
BDA_All_37_Practical_Answers_
3 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Page 02
No ratings yet
Page 02
2 pages
EDA Python for Data Analsis
No ratings yet
EDA Python for Data Analsis
10 pages
Apache Spark
No ratings yet
Apache Spark
5 pages
Data Pipeline
No ratings yet
Data Pipeline
6 pages
Pair RDD Operations: Flat Map
No ratings yet
Pair RDD Operations: Flat Map
4 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
First Pyspark
No ratings yet
First Pyspark
18 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
SCD Typ2 in Databricks Azure
0% (1)
SCD Typ2 in Databricks Azure
8 pages
Saprk
No ratings yet
Saprk
1 page
IBM_PySpark_CheatSheet
No ratings yet
IBM_PySpark_CheatSheet
2 pages
Spark Cheat Sheet 1717838924
No ratings yet
Spark Cheat Sheet 1717838924
10 pages
22083
No ratings yet
22083
9 pages
Py Spark 3 Quick Reference Guide
No ratings yet
Py Spark 3 Quick Reference Guide
2 pages
01 Spark
No ratings yet
01 Spark
7 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
journal
No ratings yet
journal
47 pages
Bigdata
No ratings yet
Bigdata
3 pages
spark_optimization_1741826797
No ratings yet
spark_optimization_1741826797
7 pages
Apache Spark with Scala - cheatsheet (1) (1)
No ratings yet
Apache Spark with Scala - cheatsheet (1) (1)
7 pages
Dataframe
No ratings yet
Dataframe
4 pages
HOL Hive
No ratings yet
HOL Hive
85 pages
Interview Prep
No ratings yet
Interview Prep
24 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
# Calculate Average Latency
No ratings yet
# Calculate Average Latency
2 pages
solution banking challenge
No ratings yet
solution banking challenge
2 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
Spark 3.0 New Features: Spark With GPU Support
No ratings yet
Spark 3.0 New Features: Spark With GPU Support
8 pages
BDA_All_37_Answers_Complete
No ratings yet
BDA_All_37_Answers_Complete
5 pages
Spark Commands
No ratings yet
Spark Commands
3 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
unit 6 Pyspark_MLlib
No ratings yet
unit 6 Pyspark_MLlib
6 pages
Optimizing 1TB Data Handling using PySpark 3p
No ratings yet
Optimizing 1TB Data Handling using PySpark 3p
3 pages
Spark optimisation
No ratings yet
Spark optimisation
7 pages
Azure Databricks Notes
No ratings yet
Azure Databricks Notes
20 pages
Spark
No ratings yet
Spark
6 pages
Spark and Scala 2
No ratings yet
Spark and Scala 2
11 pages
Swapnik DE
No ratings yet
Swapnik DE
6 pages
Suppose You Have A Large Dataset Stored in A Distributed File System Like HDFS
No ratings yet
Suppose You Have A Large Dataset Stored in A Distributed File System Like HDFS
11 pages
Introducing Letters
No ratings yet
Introducing Letters
33 pages
RDD - Mini - Project - 1 - 1707570179 2024-02-10 13 - 03 - 29
No ratings yet
RDD - Mini - Project - 1 - 1707570179 2024-02-10 13 - 03 - 29
10 pages
Word Count
No ratings yet
Word Count
3 pages
Pyspark_Coding_Interview_Questions
No ratings yet
Pyspark_Coding_Interview_Questions
19 pages
4553 FDFDDDDDSF
No ratings yet
4553 FDFDDDDDSF
1 page
Data and AI - Spark Python
No ratings yet
Data and AI - Spark Python
11 pages
Short Programs
No ratings yet
Short Programs
41 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
CodeLogic
No ratings yet
CodeLogic
6 pages
Int 421
No ratings yet
Int 421
2 pages
Aaaaaaaaadsasdas
No ratings yet
Aaaaaaaaadsasdas
1 page
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
How to a Developers Guide to 4k: Developer edition, #3
From Everand
How to a Developers Guide to 4k: Developer edition, #3
Xinc Cyberwizard
No ratings yet
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
Ict 12 Prelim Handout
No ratings yet
Ict 12 Prelim Handout
20 pages
Course Content Intro To PHP Programming
No ratings yet
Course Content Intro To PHP Programming
3 pages
Rolex Sir
No ratings yet
Rolex Sir
14 pages
Backup Config. Rainmeter
No ratings yet
Backup Config. Rainmeter
6 pages
Vishal Tyagi
No ratings yet
Vishal Tyagi
9 pages
Data Binding
No ratings yet
Data Binding
7 pages
ArcGIS Enterprise Hardening Guide 1
No ratings yet
ArcGIS Enterprise Hardening Guide 1
119 pages
Com - Wd.clan Logcat
No ratings yet
Com - Wd.clan Logcat
3 pages
Digital Solutions EN
No ratings yet
Digital Solutions EN
20 pages
Lun Tan
No ratings yet
Lun Tan
1,030 pages
SIPp - Reference
No ratings yet
SIPp - Reference
80 pages
Linear
No ratings yet
Linear
107 pages
Mind Maps and Math Problem Solving
100% (30)
Mind Maps and Math Problem Solving
11 pages
Using The Smart IRT Diamond ATR.: To Make Sure That The
No ratings yet
Using The Smart IRT Diamond ATR.: To Make Sure That The
5 pages
Latest Software Collection TERABYTE Package Links
No ratings yet
Latest Software Collection TERABYTE Package Links
32 pages
AP Calc 2.1 Rates of Change and Limits
No ratings yet
AP Calc 2.1 Rates of Change and Limits
10 pages
gcp pca
No ratings yet
gcp pca
22 pages
Notes For Django Beginners by Samir Phuyal PDF
No ratings yet
Notes For Django Beginners by Samir Phuyal PDF
6 pages
MGT657
No ratings yet
MGT657
12 pages
Welding Symbols Jk65
No ratings yet
Welding Symbols Jk65
5 pages
Online Oracle Training For Beginners
No ratings yet
Online Oracle Training For Beginners
31 pages
0 - Introduction PDF
No ratings yet
0 - Introduction PDF
15 pages
Computer-Integrated Manufacturing (CIM)
No ratings yet
Computer-Integrated Manufacturing (CIM)
3 pages
An Easy Guide To Advanced SQL Window Functions - by Julia Kho - Towards Data Science
No ratings yet
An Easy Guide To Advanced SQL Window Functions - by Julia Kho - Towards Data Science
30 pages
Tribades Tommies and Transgressives History of Sexualities Volume I 1st Edition Mary Mcauliffe - The complete ebook is available for download with one click
100% (1)
Tribades Tommies and Transgressives History of Sexualities Volume I 1st Edition Mary Mcauliffe - The complete ebook is available for download with one click
49 pages
Cis 310 Excel Assignment
No ratings yet
Cis 310 Excel Assignment
16 pages
CCNA Dis2 - Chapter 5 - Configuring Network Devices - PPT (Compatibility Mode)
No ratings yet
CCNA Dis2 - Chapter 5 - Configuring Network Devices - PPT (Compatibility Mode)
150 pages
VHDL in Deld
100% (1)
VHDL in Deld
110 pages
Reskilling and Upskilling The Future Ready Workforce For Industry 4.0 and Beyond
No ratings yet
Reskilling and Upskilling The Future Ready Workforce For Industry 4.0 and Beyond
16 pages

Scnfinal

Uploaded by

Scnfinal

Uploaded by

def main(args:Array[String]):Unit={

val conf = new

val day1 = spark.read.option("header","true")

val day1 = spark.read.option("header","true")

val batchid = day1.withColumn("batchid", lit(1))

val crossjoin = batchid.crossJoin(max_id_batc)

val indexcolumn = addColumnIndex(spark, crossjoin)

def addColumnIndex(spark: SparkSession,df: DataFrame) = {

val conf = new

val inbatch = addColumnIndex(spark, df)

val total = inbatch.count

val mod = total/limit

val moddf = inbatch.withColumn("batchid",col("batchid")%mod +1)

val increid = addColumnIndex(spark, moddf)

val snowdf = spark.read.format("snowflake")

val finaldf1= increid.crossJoin(snowdf)

val batchdf = df.withColumn("batchid", lit(1))

val increid = addColumnIndex(spark, batchdf)

val snowdf = spark.read.format("snowflake")

val finaldf1= finaldf.crossJoin(snowdf)

You might also like