Anasayfa / Büyük Veri / Apache Spark ile Parquet Formatında Veri Okuma (Python)

Apache Spark ile Parquet Formatında Veri Okuma (Python)

Merhaba bu yazımızda parquet uzantılı bir dosyanın pyspark ile nasıl okunacağını göreceğiz. Bu yazıyı yazmamızın sebebi pyspark ile parquet dosyası okumanın, standart dataframe API’si ile csv gibi yaygın formatları okumaktan farklılık göstermesidir.

Bu çalışma esnasında kullandığım ortamlar:

İşletim sistemi: Windows 10 64 bit Pro

IDE: Jupyter Notebook (Anaconda ile kuruldu)

Spark 2.3.1

Dil: Python 3

Kodlara buradan erişebilirsiniz.

Findspark ile Spark’ı bulalım:

SparkSession ve SqlContext’i içeri aktaralım:

SparkSession oluşturma:

SparkContext ve SqlContext oluşturma:

Parquet uzantılı dosyayı okuyalım:

Yukarıda sadece dizin verdik, .parquet uzantılı dosya dizin içindedir.

Okuduğumuzu görelim:

Çıktı:

Evet işte bu kadar. Pyspark ile parquet dosyası okuduk ve gördük. Başka bir yazıda görüşmek dileğiyle hoşçakalın…

Hakkında Erkan ŞİRİN

Gazi Üniversitesi Yönetim Bilişim Sistemleri doktora öğrencisi. Son beş yıldır hem akademik hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütür. Çalışma alanları: büyük veri sistemleri üzerinde makine öğrenmesi, olağan dışılık tespiti, sahtecilik tespiti, veri hazırlama süreci, derin öğrenme kütüphanelerinin dağıtık olarak çalıştırılması, dağıtık graf işleme çatıları ve graf veri tabanları.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir