Başvuru Durumu
Data Engineering, verinin istenilen yer, zaman, format, doğruluk ve tutarlılıkta hazır edilmesini sağlayan sitemin tasarım, inşa ve idamesini sağlayan bir disiplindir. Bu veriye işletme çalışanlarının (iç müşteri) ihtiyacı olabileceği gibi, işletme dışı müşterilerin (dış müşteriler) de ihtiyacı olabilir.
Yukarıda belirtilen özellikteki verinin hazırlanmasını sağlayan rol ise data engineer rolüdür. Verinin baş döndürücü artışıyla beraber veri bazlı yeni, özgün ürünler geliştirme, hizmet farklılaştırması, operasyonel iyileştirme gibi bir çok fırsatlar doğmuş ve veriye dayalı devasa ekonomiler oluşmuştur. Ancak bu fırsatları yakalamanın en önemli adımı veriden değer elde etmektir. Bu değerde en büyük emek data engineer’e aittir.
Şirketi insan vücuduna, birimleri de vücudun organlarına benzetirsek data engineer ekipleri ilgili organa ihtiyaç duyduğu kanı/besini ulaştıran ekiptir. Vücuttaki organlar gibi ihtiyaç duydukları veriye zamanında ulaşamayan birimler işlevini tam olarak yerine getiremeyecektir. Buradaki birimlere örnek olarak veri bilimi, veri analizi, insan kaynakları, iş zekası vb. verebiliriz.


Eğitim Özeti
Data engineer adayı olarak sizler de bir şeyler inşa etmek, ortaya koymak, tasarlayıp kurduğunuz veri akış hatlarından (pipelines) çıkan verinin iç veya dış müşteriler tarafından tüketildiğini görmek ve bunun keyfini yudumlamak istiyorsanız çok doğru bir adrestesiniz. Çünkü Data engineering bootcamp, Türkiye, Avrupa ve Amerika‘da geniş sektör deneyimine sahip bir eğitmen tarafından hazırlanan güncel içerikleriyle sizlerin en çok talep edilen yetenekleri elde etmeniz için tasarlanmıştır.
Bu eğitim ile Apache Spark’ın en önemli sertifikası Databricks Certified Associate Developer for Apache Spark‘ı alma şansınızı arttırabilirsiniz.
Data engineering eğitimi 3 safhadan oluşmaktadır;
1. Ön Hazırlık: Kesin kayıtla başlar, 2-4 hafta
Bu aşamada canlı derslerin anlaşılmasını kolaylaştıracak eğitimler videolar üzerinden mentör ve eğitmen desteği ve rehberliğinde alınır. Örneğin canlı derste docker-compose veya SQL join kullanılacak ise ayrıca bunların ne demek olduğu için zaman kaybetmemek amaçlanmıştır.
2. Canlı Dersler: 16 Eylül – 5 Kasım 2023 (DataOps-8), 8 hafta.
Eğitimin ana bölümüdür ve aşağıda “Program içeriği – müfredat” başlığındaki müfredat ile haftada 2 gün 3’er saat canlı ders + 1,5 saat ödev kontrolü / ilave ders olacak şekilde online platformlar (Zoom) üzerinden devam eder.
3. Bitirme Projesi: 18-19 Kasım 2023 2 hafta.
Canlı dersler bittikten sonra kursiyerlerin bitirme projelerini tamamladıkları ve Zoom üzerinden sundukları safhadır. Bu safhada bireysel/grup çalışması yapılır. Mentör ve eğitmen desteği devam eder.
Bu eğitimde aşağıdaki soruların cevaplarını bulacağız.
- Data engineering dünyasında neler var? Nasıl iyi bir data engineer oluruz?
- PostgreSQL ile Hadoop/Hive’a arasında karşılıklı nasıl veri aktarımı yaparız?
- Dosya formatları ve sıkıştırma algoritmaları nelerdir? Hangisini nerede ve nasıl kullanırız?
- Birçok farklı veri kaynağından dağıtık olarak nasıl sorgulama yaparız?
- Spark ile PostgreSQL, Hive, HDFS, Cassandra, MongoDB, Kafka, Elasticsearch, AWS S3 ve MinIO’dan nasıl veri okuruz?
- Spark ile işlenen veriyi PostgreSQL, Hive, HDFS, Cassandra, MongoDB, Kafka, Elasticsearch, AWS S3 ve MinIO’ya nasıl yazarız?
- Spark’ı Hadoop YARN, Kubernetes, Standalone Cluster Manager ile nasıl kullanırız?
- Spark’ı Databricks üzerinde nasıl kullanırız?
- Spark uygulamasını nasıl optimize ederiz?
- Spark’ı geri planda bir iş zekası sorgulama motoru olarak nasıl kullanabiliriz?
- Büyük veri üzerinde update ve delete mümkün mü? Nasıl yaparız?
- Büyük veri üzerinde datawarehouse kullanmak mümkün mü? Slowly changing dimensions yapılabilir mi?
- Lakehouse nedir? Datawarehouse ve Datalake’den üstün yönleri nelerdir?
- Apache Airflow ile nasıl data-pipeline oluştururuz?
- Akan veri (streaming) nasıl işlenir? Akan veri üzerinde realtime prediction nasıl yapılır?
- Change Data Capture(CDC) ile veri tabanlarındaki değişiklikleri anlık olarak yakalama ve işleme hangi araçlarla ve nasıl olur?
- Uygulamamızı nasıl konteynır haline getirebiliriz?
- Docker-compose ile canlı ortamlara yakın, gerçekçi bir geliştirme ortamını nasıl hazırlarız?
- Python ile Kafka’ya nasıl mesaj gönderebiliriz? Kafka’dan mesajları nasıl okuyabiliriz?
- Elasticsearch ve Kibana ile nasıl veri görselleştirmesi yaparız?
- Docker ile 3 node Cassandra cluster nasıl kurulur? Veri modellemesi nasıl yapılır?
- Python ile MongoDB, Cassandra, Elasticsearch entegrasyonları nasıl olur?
- Cassandra ve MongoDB’de kullanıcı yaratma ve yetkilerini ayarlama nasıl olur?
- AWS temel servisleri nelerdir? Güvenli bir şekilde nasıl hesap açar ve kullanıcı yaratırız?
- Kendi kişisel bilgisayarımızı AWS üzerinde çalışacak şekilde nasıl hazırlarız?
- AWS EC2 sanal makinesini nasıl yaratırız? Güvenlik ayarlarını nasıl yaparız?
- Python ile AWS S3’e nasıl veri yazarız? Nasıl okuruz?
- AWS üzerinde data engineer olarak neler yapabiliriz? Örnek kullanımlar nelerdir?
- Athena ile S3 üzerindeki veri setlerini nasıl sorgularız?
- Amazon EMR Cluster nasıl kurulur? Spark uygulaması EMR üzerinde nasıl çalıştırılır?
- AWS Lambda ile nasıl veri temizlik ve dönüştürmesi yaparız?
Sıkça Sorulan Sorular
Neden bu program?
- Bootcamp, online/uzaktan olarak deneyimli bir eğitmen ve ekip tarafından verilmektedir.
- Bootcamp esnasında iş hayatında rahatlıkla kullanabileceğiniz seviyede profesyonel data engineering öğreneceksiniz.
- Türkçe olarak hiçbir online ya da sınıf eğitimlerinde bulunmayan ve sadece bootcamp katılımcılarına özgü içeriklerle gerçek hayata uygun bir süreç deneyimleyeceksiniz.
- Birlikte öğrenme ve topluluk gücünden faydalanma imkanı bulacaksınız.
Ön Gereksinimler
- Python bilgisi (ön hazırlıkta mevcuttur)
- Temel Docker bilgisi (ön hazırlıkta mevcuttur)
- Temel SQL ve veri tabanı bilgisine sahip olmak (ön hazırlıkta mevcuttur)
Program süresi, tarihler ve ders saatleri
Eğitim süresi:
- Ön hazırlık aşaması videolar üzerinden 2-4 hafta
- Canlı eğitimler 8 hafta
- Bitirme projesi 2 hafta
Ön hazırlık aşaması kesin kayıt gerçekleşir gerçekleşmez başlar.
Canlı eğitim: 9 Eylül – 5 Kasım 2023 (DataOps-8)
Proje sunumları: 18-19 Kasım 2023
Canlı eğitimler Cumartesi-Pazar 10:00-13:00 saatlerinde olacaktır.
Ayrıca hafta içi Perşembe saat 20:00’de verilen ödevlerin sunumları/çözümleri olacaktır. (1-2 saat arası)
Program Ücreti
- Öğrenci: 15.200₺ KDV Dahildir.
- Tam zamanlı: 19.000₺ KDV Dahildir.
Not 1: VBO Bootcamp eski mezunlarına %20 indirim uygulanır.
Not 2: Rakamlar şu anki liste fiyatı olup kesin kayıt gerçekleşene kadar fiyat güncellemesi olabilir.
Not 3: Fiyata ön hazırlık programı dahildir.
Not 4: Öğrenci indirimi için tam zamanlı çalışmıyor olmak gerekir. Aynı zamanda tek bir indirimden faydalanılır.
Programın işleyişi
- Aktif öğrenme süreci: Alıştırmalar-ödevler ve projeler
- Kendi programını kendin belirle: Tüm derslerin video versiyonları ile müsaitlik durumuna göre tekrar çalışma imkanı.
Program içeriği - müfredat
- Linux Basic, Bash Script (Ön hazırlık)
- Git Basic (Ön hazırlık)
- Crontab (Ön hazırlık)
- Postgresql & SQL Basics (Ön hazırlık)
- Docker & Kubernetes (Ön hazırlık)
- Python Programming (Ön hazırlık)
- Data Engineering Concept
- Big Data Basics
- Apache Hadoop HDFS, YARN, Hive, Sqoop
- Trino: Distributed Query on Multiple Data Sources
- Apache Kafka and Ecosystem
- Apache Spark Dataframe API
- Spark Optimization Techniques
- Data Warehouse, Data Lake, and Lakehouse (Delta Lake)
- Apache Spark Streaming
- Spark on Databricks, Hadoop YARN, Kubernetes, and Standalone Cluster
- DBT
- Databricks and Snowflake Basics and Differences
- Apache Airflow
- Introduction to NoSQL and CAP Theorem
- Introduction to Elastic Stack (Elasticsearch, Kibana)
- Introduction to Apache Cassandra
- Introduction to MongoDB
- AWS Core and Analytic Services
- Data Engineering on AWS (Athena, Glue, Lambda, EMR, and more)
Program süresince proje gerçekleştirilecek konular
- PySpark
- Data Pipeline
- ETL
- Streaming
Bu program kimlere uygun?
Öncelik sırasına göre Data Engineer, ML Engineer ve Data Scientist rollerinde bulunanlar ile bu rollere aday olanlara yöneliktir. Ekibinde bu rollere sahip ekip liderleri de takip edebilir.
Ayrıca sektörde yönünüzü bulmak, nereye doğru gitmek istediğinize daha sağlıklı karar vermek istiyorsanız bu eğitim sonrasında bu hususların netleşeceğini düşünüyoruz.
Peki ben bu programı takip edebilir miyim?
Temel Python programlama ve SQL biliyorsanız, temel bilgisayar bilimleri kavramlarına aşinaysanız bu eğitimi takip edebilirsiniz.
Program süresince dersler nerede işlenecektir?
Ön hazırlık aşaması Miuul üzerinden takip edilecektir.
Canlı eğitimler online olarak Microsoft Teams, Zoom vb. platformlar üzerinde gerçekleştirilecektir.
Çalışmalarımı nasıl bir bilgisayar üzerinde gerçekleştirebilirim?
Eğitim için en az 8 GB RAM, 4 çekirdek işlemci ve 60 GB boş disk alanına sahip docker yüklü bir bilgisayar ve fiber/adsl internet erişimi gereklidir.
Önemli Not:
Sertifika: Aynı anda şu üç kriteri sağlayan katılımcılar için sertifika düzenlenecektir. 1. Derslerin en az %70’ine katılma, 2. ödevlerin en az %70’ini yapma, 3.bitirme projesinden 100 üzerinden en az 70 puan alma.
Öğrenciler ile paylaşılacak kaynaklar: Eğitim video kayıtları, sanal makine, sunumlar ve derste kullanılan örnek kodlar Google Drive üzerinden paylaşılacaktır.
Bulut: Bulut kullanılan derslerde bulut maliyeti katılımcıya aittir. Çok yüksek bir bulut maliyeti beklenmemektedir. En fazla 5 USD.
Her türlü sorunuz ve detaylı bilgi için: Bengisu Bostancı – mldataops@veribilimiokulu.com