Apache Spark Eğitimi

Apache Spark eğitimi, katılımcıların yüksek performanslı dağıtık uygulamalar geliştirebilmeleri için temel kavramları anlamalarını ve uygulama seviyesinde yetenek kazanmalarını sağlar. Katılımcılar, Apache Spark’ın temel kavramlarını ve çalışma mantığını öğrenir, Spark ile farklı kaynaklardan veri alışverişi yapabilir, yapılandırılmış verileri sorgulamak için Spark SQL’i ve akan veri üzerinde gerçek zamanlı veri işleme için Spark Streaming’i nasıl kullanacaklarını öğrenirler. Kurs, dağıtılmış bir dosya sisteminde depolanan büyük veri setleriyle nasıl çalışılacağını ve Spark kümesinde (cluster) uygulamaların nasıl yürütüleceğini kapsar. Bu kursu aldıktan sonra, katılımcılar çok çeşitli kullanım durumlarına, mimarilere ve endüstrilere göre; daha hızlı ve daha iyi kararlar alınmasını sağlayacak büyük veri üzerinde etkileşimli analizler uygulamak için gerçek dünyadaki zorluklarla yüzleşmeye ve uygulamalar geliştirmeye hazır olurlar.

Açık sınıfımız yoktur. Eğitim, kurum ve şirketlere yöneliktir. Ortalama grup büyüklüğü 10-12 civarındadır.

Daha fazla bilgi ve eğitim talepleri için; satis@veribilimiokulu.com e-posta adresinden veya +90 212 231 30 01 numaralı telefondan bize ulaşabilirsiniz.

Ön Gereksinimler

Temel linux komutlarına hakimiyet
İnternet bağlantısı

Eğitim İçeriği

1. GÜN: Spark İç Mimarisi ve Temel Operasyonlar

Giriş: Büyük Veri dünyasında Spark’ın yeri ve evrimi.
Derin Mimari: Driver, Executor, Slot, Task kavramları. Catalyst Optimizer ve Tungsten motoru.
Lazy Evaluation ve DAG: İşlerin arka planda nasıl planlandığını anlama.
DataFrame API: Temel transformasyonlar ve aksiyonlar.
Uygulama: Lokal ve Docker üzerinde ilk Spark uygulamasını ayağa kaldırma.

2. GÜN: Gelişmiş Veri İşleme ve Lakehouse Mimarisi

Spark SQL & Built-in Functions: Window functions, complex types (Array, Map, Struct).
Veri Kaynakları: Parquet, Avro ve JSON ile derinlemesine çalışma (Predicate Pushdown kavramı).
Modern Depolama: Delta Lake veya Apache Iceberg giriş. ACID transactions ve Time Travel.
Harici Entegrasyonlar: JDBC ile PostgreSQL/MySQL bağlantısı, S3/HDFS okuma-yazma stratejileri.
LAB: Kirli bir veri setinin temizlenmesi, normalize edilmesi ve Delta formatında kaydedilmesi.

3. GÜN: Performans Tuning ve Cluster Yönetimi

Spark UI Okuryazarlığı: Darboğazları (bottlenecks) tespit etme, Stage ve Shuffle takibi.
Shuffle ve Partitioning: repartition vs coalesce, Shuffle neden pahalıdır?
Optimizasyon Teknikleri:
- AQE (Adaptive Query Execution): Spark 3+ özelliklerinin kullanımı.
- Data Skew: Salting teknikleri ile dengesiz veri dağılımını çözme.
- Broadcasting: Broadcast Join ve kuralları.
Deployment: Spark-submit parametreleri, YARN ve Kubernetes (K8s) üzerinde kaynak yönetimi.
Memory Management: Heap, Storage ve Execution memory ayarları.

4. GÜN: Structured Streaming ve Uçtan Uca Proje

Streaming Temelleri: Micro-batch mantığı ve DStream vs Structured Streaming.
Kafka Entegrasyonu: Kafka’dan okuma, veri şeması uygulama ve Kafka’ya yazma.
State Management: Checkpointing ve Watermarking (Geç gelen veriyi yönetme).
Hata Yönetimi: Exactly-once semantiği ve Failure Recovery.
Bitirme Projesi (Capstone Project):
- Kafka’dan akan canlı veriyi yakalama.
- Delta Lake üzerindeki referans verilerle Join yapma.
- Aggregate (dakikalık özetler) hesaplama.
- Sonucu bir BI aracının okuyabileceği bir tabloya veya Kafka sink’e yazma.

Eğitimlerle ilgili bilgi almak ve diğer tüm sorularınız için bize ulaşın!