Anasayfa / Büyük Veri / Apache Spark Eğitimi

Apache Spark Eğitimi

Verinin baş döndürücü hızla çoğaldığı günümüzde onu en iyi şekilde kullanmak ve yeni çağın sunduğu bu fırsattan maksimum derecede faydalanmak için kullanılabilecek en iyi araçlardan birisi şüphesiz Apache Spark’tır. Büyük veri dünyasının öncü topluluğu Apache tarafından geliştirilen ve en güçlü açık kaynak yazılımı topluluğuna  sahip Apache Spark büyük veride harikalar yaratıyor.

Bu kurs, özellikle büyük veri ile uğraşan veya kariyerine bu yönde ilerlemek isteyen “datascientist, big data engineer, machine learning engineer, big data administrator” ler için oldukça idealdir. Bu kursta her seviyeden katılımcının alacağı çok şey var. Üstelik kurstaki tüm uygulamalar hem Scala hem Python ile işleniyor. Hem Türkçe olması, hem bu kadar kapsamlı olması ve Spark’ın en popüler 2 diline sahip olması kursu emsalleri arasında benzersiz kılmaktadır. Scala bilmeyenler için Scala başlangıç bölümü bile var.

Kursun hedef kitlesi başlangıç ve orta seviyeli kursiyerlerdir. Yeni başlayanların öğreneceği şeyler daha çok olamasına rağmen muhakkak orta ve ileri seviye kursiyerlerin de içinden öğreneceği bir çok şey çıkacaktır.

Not: Yüzyüze eğitimler kurumlar ve şirketler içindir. Perakende kursiyerler için 10’ar kişilik gruplar oluştuğunda kurs açılmaktadır.

Kurs programımız aşağıdadır.

Kursun indirimli Udemy kupon linki

Daha fazla bilgi için: veribilimiokulu@gmail.com

Tel: 05065432731

1. KISIM: GİRİŞ

1. Tanışma ve Kurulumlar

2. KISIM: SCALA TEMEL

2. Scala Başlangıç Eğitimi
2.1. Scala giriş ve kod geliştirme ortamılarının ayarlanması
2.2. Scala DataTypes
2.3. Scala Maths
2.4. Scala PrintFormat, çıktıları şekillendirme
2.5. Scala conditionals if-else
2.6. Scala döngüler (Loops)
2.7. Scala strings
2.8. Scala Arrays
2.9. Scala Functions
2.10. Scala RandomNumbers
2.11. Scala Maps
2.12. Scala Tuples
2.13. Scala Lists
2.14. Scala Sets
2.15. Scala Classes
2.16. Spark Vectors
2.17. Spark Matrices
2.18. Değerlendirme Testi

3. KISIM: SPARK TEMEL

3.1. Spark Low Level (RDD) API Basic Transformations ve Actions
3.1.1. Bölümhakkında açıklamalar
3.1.2. Low Level (RDD) API giriş
3.1.3. RDD Wordcount örneği
3.1.4. SparkContext, SparkConf ve RDD oluşturma
3.1.5. RDD Basic Transformations ve Actions Teori
3.1.6. RDD basic transformations: flatMap, filter, distinct vb.
3.1.7. İkili RDD Transformations union, intersect, subtract
3.1.8. RDD Basic Actions: take, collect, aggregate,reduce vb.
3.1.9. RDD Intellij IDEA ile map ve flatMap Örneği
3.1.10. RDD Jupyter ile map ve flatMap Örneği
3.1.11. Spark RDD Basic Transformation ve Action Değerlendirme Testi

3.2. Spark Low Level (RDD) API PairRDD Transformations
3.2.1. PairRDD Transformations Teorik
3.2.2. PairRDD Transformations
3.2.3. Filter ile Kahve İçeren Ürünleri Bulma
3.2.4. İptal Edilen Toplam Satış Miktarı
3.2.5. mapValues ve ReduceByKey ile Mesleğe Göre Ortalama Maaş
3.2.6. Hadoop Ekosistemini oluşturan bileşenlerin özet tanıtımı

3.3. Spark Low Level API: Broadcast Variables ve Accumulators
3.3.1. Broadcast Variables
3.3.2. Accumulators
3.3.3. Cache ve Persistence

3.4. Spark High Level (Dataframe-SQL-Dataset) API
3.4.1. Dataframe, Dataset, SQL, Şema ve Partitions Kavramları
3.4.2. Spark Çalışma Planı, Transformation & Action, Lazy Evaluation
3.4.3. Spark Kütüphaneleri İnceleme
3.4.4. Dataframe Giriş: SparkSession, csv okuma, explain
3.4.5. Dataframe ile Wordcount Örneği
3.4.6. CSV Dosyası Üzerinde SQL Sorgusu Çalıştırmak
3.4.7. Dataframe String Fonksiyonları
3.4.8. Temizlenen Veriyi Diske Yazmak
3.4.9. Elle Şema Oluşturmak
3.4.10. Tarih-Saat Operasyonları

4. KISIM: VERİYİ ANLAMAK, KEŞFETMEK VE VERİ ÖN HAZIRLIĞI

Veriyi Anlamak, Veri Keşfi ve Ön İşleme

4.1. Veriyi Anlamak ve Keşfetmek (Data Understanding)
4.1.1. Veri Setini Tanımak ve Keşfetmek

4.2. Veri Temizliği ve Ön Hazırlığı (Data Preparation)
4.2.1. Veri Temizliği ve Ön Hazırlığı

4.3. Pipeline
4.3.1. Pipeline Teori
4.3.2. Pipeline Uygulama

5. KISIM: APACHE SPARK İLE MAKİNE ÖĞRENMESİ

Makine Öğrenmesi Giriş Teori

5.1. Regresyon
5.1.1. Regresyon Giriş Teori
5.1.2. Basit Lineer Regresyon İş Problemi ve Veryi Tanımak
5.1.3. Basit Lineer Regresyon Uygulama

5.2. Sınıflandırma
5.2.1. Hata Matrisi ve Accuracy
5.2.2. Lojistik Regresyon Teori
5.2.3. Lojistik Regresyon: İş Problemi ve Veriyi Anlamak
5.2.4. Lojistik Regresyon Uygulama
5.2.5. Karar Ağacı Teori
5.2.6. Karar Ağacı Uygulama
5.2.7. Random Forest Teori
5.2.8. Random Forest Uygulama
5.2.9. Gradient-Boosted Tree Teori
5.2.10. Gradient-Boosted Tree Uygulama

5.3. Kümeleme
5.3.1. Kümeleme Teori
5.3.2. Kümeleme Uygulama

5.4. Model Doğrulama ve Model Başarı Değerlendirme Yöntemleri
5.4.1. Sınama Seti Yaklaşımı (Train Validation Split)
5.4.2. K-Katlı Çapraz Doğrulama (Cross Validation)
5.4.3. Leave-one-out ve Bootstrap Yöntemi
5.4.4. Model Doğrulama ve Model Başarı Değerlendirme Yöntemleri

6. KISIM: APACHE SPARK İLE AKAN VERİ İŞLEME

6.1. Eski API: Spark Streaming
6.1.1. StreamingContext
6.1.2. Discretized Streams (DStreams)
6.1.3. Input DStreams ve Receivers
6.1.4. Transformations on DStreams
6.1.5. DataFrame and SQL Operations

6.2. Apache Spark Streaming Uygulamaları
6.2.1. Netcat ile Gönderilen Veriyi Dinlemek
6.2.2. Netcat ile okunup gönderilen Dosyaları Dinlemek
6.2.3. Streaming olarak Dosya Okuma
6.2.4. Streaming Wordcount
6.2.5. Apache Kafka Entegrasyonu ve Kafka’dan Veri Okumak

6.3. Yeni API: Spark Structured Streaming
6.3.1. Temel Kavramlar
6.3.2. Creating streaming DataFrames and streaming Datasets
6.3.3. Input Sources
6.3.4. Operations on streaming DataFrames/Datasets
6.3.5. DataFrame and SQL Operations
6.3.6. Continuous Processing

6.4. Spark Structured Streamig Uygulamaları
6.4.1. Netcat ile Gönderilen Veriyi Dinlemek
6.4.2. Netcat ile okunup gönderilen Dosyaları Dinlemek
6.4.3. Streaming olarak Dosya Okuma
6.4.4. Streaming Wordcount
6.4.5. Apache Kafka Entegrasyonu ve Kafka’dan Veri Okumak

Hakkında admin

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir