Pyspark Scenarios 10:Why we should not use crc32 for Surrogate Keys Generation? #Pyspark #databricks

Pyspark Scenarios 13 : how to handle complex json data file in pyspark #pyspark #databricks

Pyspark Scenarios 18 : How to Handle Bad Data in pyspark dataframe using pyspark schema #pyspark

Boston FBI announce arrest of two Iranians in connection with fatal drone strike

Every Form of Animation

Hey.. long time no see

Pyspark Scenarios 11 : how to handle double delimiter or multi delimiters in pyspark

TechLake

Просмотров 12 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 20 янв 2025

Комментарии • 30

@sravankumar1767 2 года назад ⁺²
Nice explanation 👌 👍 👏
@rajeshk1276 2 года назад ⁺²
Very Well explained.. Loved it
@pokemongatcha122 2 года назад ⁺²
Hi Ravi, I'm trying to do split by delimiter of a column with each cell having different no. of commas. Can you write a code to split columns with each occurance of comma? E.g. if row 1 has 4 commas it generates 4 columns but row 2 has 10 commas so it further generates another 6 columns.
@gobinathmuralitharan1997 2 года назад ⁺¹
Clear explanation 👍👏thank you 🙂
@TRRaveendra 2 года назад ⁺¹
Thank You Gobinath
@prabhakaranvelusamy 2 года назад ⁺¹
Excellent explanation!
@TRRaveendra 2 года назад
Thank you 👍
@tanushreenagar3116 2 года назад ⁺¹
Nice
@udaynayak4788 Год назад
Hi Ravi, i do have .txt file which multiple space delimiter, e.g accountID Acctnbm acctadd branch and likewise can you please suggest the approach here almost i have 76 columns with multiple consecutive delimiter.
@V-Barah Год назад
this is looks simple in example but in real time we can't do each with column if there are 200-300 columns.
is there any other way?
@DanishAnsari-hw7so Год назад ⁺¹
# Case 1. when no of columns is known
col = 4
i = 0
while i < col:
df_multi = df_multi.withColumn("sub" + str(i), df_multi["marks_split"][i])
i += 1
df_1 = df_multi.drop("marks").drop("marks_split")
display(df_1)
@DanishAnsari-hw7so Год назад ⁺¹
# Case 2. when no of columns is not known known
from pyspark.sql.functions import max
df_multi = df_multi.withColumn('marks_size', size('marks_split'))
max_size = df_multi.select(max('marks_size')).collect()[0][0]
j = 0
while j < max_size:
df_multi = df_multi.withColumn("subject" + str(j), df_multi["marks_split"][j])
j += 1
df_2 = df_multi.drop("marks").drop("marks_split").drop('marks_size')
display(df_2)
@gobinathmuralitharan1997 2 года назад ⁺¹
Subscribed 🔔
@TRRaveendra 2 года назад ⁺¹
Thank You 😍
@fratkalkan7850 2 года назад
perfection
@penchalaiahnarakatla9396 2 года назад ⁺¹
Hi, good video, one clarification, while writing dataframe output to csv leading zeros are missing.. How to handle this secanioro. If possible make a video on this.
@TRRaveendra 2 года назад
Thank you 👍
@penchalaiahnarakatla9396 2 года назад ⁺¹
Hope next video will be this.
@fakrullahimran 2 года назад
@@penchalaiahnarakatla9396 Try to include option(“quoteAll”,True) and check once
@penchalaiahnarakatla9396 2 года назад ⁺¹
@@fakrullahimran Thanks. I will try and will update you..
@snagendra5415 2 года назад ⁺¹
Could you explain spark small files problem using pyspark?
Thank you in advance
@TRRaveendra 2 года назад ⁺²
sure i will do video on small files problem.
@snagendra5415 2 года назад
@@TRRaveendra thank you for your reply, and waiting for the video 🤩
@JustForFun-oy8fu 2 года назад
Hi Ravi, thanks I have one doubt: how
can we generalize the above logic.....like if we have large number of columns after splitting the data like then it's obvious we can't do it manually.
What could be our approach in that case?
Thanks,
Anonymous
@DanishAnsari-hw7so Год назад
# Case 1. when no of columns is known
col = 4
i = 0
while i < col:
df_multi = df_multi.withColumn("sub" + str(i), df_multi["marks_split"][i])
i += 1
df_1 = df_multi.drop("marks").drop("marks_split")
display(df_1)
@DanishAnsari-hw7so Год назад
# Case 2. when no of columns is not known known
from pyspark.sql.functions import max
df_multi = df_multi.withColumn('marks_size', size('marks_split'))
max_size = df_multi.select(max('marks_size')).collect()[0][0]
j = 0
while j < max_size:
df_multi = df_multi.withColumn("subject" + str(j), df_multi["marks_split"][j])
j += 1
df_2 = df_multi.drop("marks").drop("marks_split").drop('marks_size')
display(df_2)
@vikrammore-y4t Год назад
spark 3.X supports multi delimiter like .option("delimiter","[||]")
@NaveenKumar-kb2fm 2 года назад
very well explained , i have a scenario with schema (id,name,age,technology) and data in single row like (1001|Ram|28|Java|1002|Raj|24|Database|1004|Jam|28|DotNet|1005|Kesh|25|Java) coming in a single csv file.
now can we make it into multiple rows as per schema as a single table like below
id,name,age,technology
1001|Ram|28|Java
1002|Raj|24|Database
1004|Jam|28|DotNet
1005|Kesh|25|Java
@mohitmotwani9256 Год назад
This data needs to be deived in multiple lines.
@dinsan4044 Год назад
Hi ,
Could you please create a video to combine below 3 csv data files into one data frame dynamically
File name: Class_01.csv
StudentID Student Name Gender Subject B Subject C Subject D
1 Balbinder Male 91 56 65
2 Sushma Female 90 60 70
3 Simon Male 75 67 89
4 Banita Female 52 65 73
5 Anita Female 78 92 57
File name: Class_02.csv
StudentID Student Name Gender Subject A Subject B Subject C Subject E
1 Richard Male 50 55 64 66
2 Sam Male 44 67 84 72
3 Rohan Male 67 54 75 96
4 Reshma Female 64 83 46 78
5 Kamal Male 78 89 91 90
File name: Class_03.csv
StudentID Student Name Gender Subject A Subject D Subject E
1 Mohan Male 70 39 45
2 Sohan Male 56 73 80
3 shyam Male 60 50 55
4 Radha Female 75 80 72
5 Kirthi Female 60 50 55

Следующие

Автовоспроизведение

Pyspark Scenarios 10:Why we should not use crc32 for Surrogate Keys Generation? #Pyspark #databricks

Pyspark Scenarios 10:Why we should not use crc32 for Surrogate Keys Generation? #Pyspark #databricks

Pyspark Scenarios 13 : how to handle complex json data file in pyspark #pyspark #databricks

Pyspark Scenarios 13 : how to handle complex json data file in pyspark #pyspark #databricks

Pyspark Scenarios 18 : How to Handle Bad Data in pyspark dataframe using pyspark schema #pyspark

Pyspark Scenarios 18 : How to Handle Bad Data in pyspark dataframe using pyspark schema #pyspark

Boston FBI announce arrest of two Iranians in connection with fatal drone strike

Boston FBI announce arrest of two Iranians in connection with fatal drone strike

Every Form of Animation

Every Form of Animation

Hey.. long time no see

Hey.. long time no see

Avengers wake up, Marvel Rivals is fire

Avengers wake up, Marvel Rivals is fire

6. How to handle multi delimiters| Top 10 PySpark Scenario Based Interview Question|

6. How to handle multi delimiters| Top 10 PySpark Scenario Based Interview Question|

Pyspark Scenarios 16: Convert pyspark string to date format issue dd-mm-yy old format #pyspark

Pyspark Scenarios 16: Convert pyspark string to date format issue dd-mm-yy old format #pyspark

Pyspark Scenarios 20 : difference between coalesce and repartition in pyspark #coalesce #repartition

Pyspark Scenarios 20 : difference between coalesce and repartition in pyspark #coalesce #repartition

9. delimiter in pyspark | linesep in pyspark | inferSchema in pyspark | pyspark interview q & a

9. delimiter in pyspark | linesep in pyspark | inferSchema in pyspark | pyspark interview q & a

Pyspark Scenarios 4 : how to remove duplicate rows in pyspark dataframe #pyspark #Databricks #Azure

Pyspark Scenarios 4 : how to remove duplicate rows in pyspark dataframe #pyspark #Databricks #Azure

113. Databricks | PySpark| Spark Reader: Skip Specific Range of Records While Reading CSV File

113. Databricks | PySpark| Spark Reader: Skip Specific Range of Records While Reading CSV File

Freshworks Data Analyst SQL Interview Problem | SQL For Data Analytics

Freshworks Data Analyst SQL Interview Problem | SQL For Data Analytics

9. read json file in pyspark | read nested json file in pyspark | read multiline json file

9. read json file in pyspark | read nested json file in pyspark | read multiline json file

Q11. Realtime Scenarios Interview Question | PySpark | Header in PySpark

Q11. Realtime Scenarios Interview Question | PySpark | Header in PySpark

TikTok Got BANNED 😭

TikTok Got BANNED 😭

Собрал не убиваемый аккумулятор на АВТО который не чувствует нагрузку стартера!

Собрал не убиваемый аккумулятор на АВТО который не чувствует нагрузку стартера!

Инаугурация Дональда Трампа | Спецэфир Русской службы Би-би-си

Инаугурация Дональда Трампа | Спецэфир Русской службы Би-би-си

Usman Nurmagomedov a.k.a. Sir-Kicks-A-Lot! #MMA #Bellator #Shorts

Usman Nurmagomedov a.k.a. Sir-Kicks-A-Lot! #MMA #Bellator #Shorts

Я Убил ГРЕКА❗️❗️❗️ Картель ПОТЕРЯЛ 9 МЛРД РУБЛЕЙ! Лёха ЛОМ ищет меня, чтобы... ( 22 СЕРИЯ, Картель)

Я Убил ГРЕКА❗️❗️❗️ Картель ПОТЕРЯЛ 9 МЛРД РУБЛЕЙ! Лёха ЛОМ ищет меня, чтобы... ( 22 СЕРИЯ, Картель)

Страна с бесконечными деньгами. Секрет могущества США

Страна с бесконечными деньгами. Секрет могущества США

МУСИМ СДЕЛАЛ ПРЕДЛОЖЕНИЕ КИРЕ!? #янгер #shorts

МУСИМ СДЕЛАЛ ПРЕДЛОЖЕНИЕ КИРЕ!? #янгер #shorts

UFC 311: Главные моменты пресс-конференции

UFC 311: Главные моменты пресс-конференции