Anasayfa / Veri Bilimi / Veri Bilimci Olmak İçin Yol Haritası

Veri Bilimci Olmak İçin Yol Haritası

Merhaba Veri Bilimci Adayı!

Hemen LinkedIn profilini güncelleyerek ilk adımı at: Data Scientist Candidate, Data Science Enthusiast ya da Data Science Researcher. Kendini hazır hissetmesen de yaz, kimse anasının karnından veri bilimci doğmuyor. Bu profil, motivasyonunu herkesin sürekli görmesini sağlarken seni de hedefine ulaşmak için çalışmayı kesmekten alıkoyar ve kendi motivasyonunu korumak için itici bir güç olur.

Aşağıdaki öğütlere kulak verenler  üç vakte kadar muradlarına erer 🙂

Profilini güncelledikten sonra;

1. Veri Bilimi ile İlgili Tüm Etkinliklere Katıl


Türkiye’de ücretsiz düzenlenen etkinlikler var, hatta ücretli olanlara da git ki kıymeti olsun. Bunları zaman kaybetmeden takip etmeye ve etkinliklere katılmaya başla. Bu sana veri bilimi dilini öğretecek, kavramları daha hızlı tanımana sebep olacak, işin uzmanlarından bilgi edinmeni sağlayacak ve en önemlisi daha sonra lazım olacak olan bağlantılarını oluşturmana yardımcı olacaktır. Takip etmende fayda olacak bazı topluluklar;

Statistical Thinking for Data Science  (İstatistiksel Düşünce Topluluğu)
Istanbul Machine Learning Meetup
Deep Learning Türkiye
Data Istanbul
Veri Bilimi İstanbul

Alteryx Istanbul Self Service Analytics
Istanbul Spark Meetup
R Ladies
Türkiye Yapay Zeka İnsiyatifi

 

Dikkat!
Bu etkinliklerin tozunu bir miktar yuttuktan sonra diyeceksin ki  “meetup’lar fos, konuların detayına inilmiyor hiç bir şeyin…” .
Haklısın ama amaç zaten genel çerçeve hakkında bilgi vermek. Ki bu çerçeveler şu an senin ihtiyaç duyduğun şeyler. Hepsine katıl bu etkinliklerin.

Buradan Osman Atam isimli İstanbul meetup’larının kadrolu üyesi abimize sevgi ve saygılarımızı iletiyoruz.

2. Veri Bilimi Bloglarını ve Veri Bilimcileri Takip Et


Burada bir takım bilgi kirlilikleri ve kafa karışıklıkları yaşanabilme ihtimali var. Bunun için blog seçerken öncelikle güncel olan, yazılarını kaynaklı yazan ve sürekli içerik üreten blogları tercih etmenizi öneririz.

Veri Bilimi Blogları:

analyticsvidhya.com
datasciencecentral.com
kdnuggets.com
veribilimi.co 🙂

Bazı Veri Bilimci / Yapay Zeka Uzmanı Profilleri:

Trevor Hastie

Hadley Wickham

Andrew Ng

Yann LeCun

Carla Gentry

Jeremy Achin

Geoff Hinton

Vincent Granville

 

Ya Türkiye’den?

Yukarıdaki isimleri henüz tanımıyor olabilirsiniz ama zaman geçtikçe Hastie ile Andrew’in hangi akımları temsil ettiği, Hinton’un ne gibi yeniliklere imza attığı, Wickham’ın R dünyasının yaşayan efsanesi olduğunu, Vincent’in pozitif anlamda bu alanda trol olduğunu  görmüş olacaksınız. Benzer şekilde Nilden Hoca’nın neden bu kadar kızgın olduğunu, Salih Sertbaş’ın neden nedensellik üzerinde bu kadar durduğunu, Mustafa Kıraç’ın ölçeklenebilir ML projelerinde ne kadar deneyimli olduğunu, Şükrü Bezen’i ağınıza eklemeden Veri Bilimci olamayacağınızı görmüş olacaksınız 🙂 Daha bir çok çok yetenekli veri bilimci elbette var fakat ilk bakışta aklımıza gelenleri eklemiş olduk.

 

3. Bir Programlama Dili Seç


 

SQL’i yalayıp yuttuktan sonra R veya Python’dan birisini seç ve hemen öğrenmeye başla. Bu ikisinden birisinde çok çok iyi olman lazım.
Tavsiyemiz ikisininde öğrenilmesidir. R bu iş için en iyi araçtır fakat bazı noktalarda kısıtları vardır. Daha büyük çaplı projeler ve ölçeklenebilirlik ihtiyacına en iyi cevabı Python ve Scala vermektedir. Fakat söz konusu bir ürün ya da büyük veri odaklı bir iş değilde veri bilimi olduğu için Python ve R ikilisini vazgeçilmez olarak niteleyebiliriz.

SQL için bu adreste ihtiyacınız olan düzeyin çok büyük bir kısmı ücretsiz olarak sunulmuş. Ücretliler için R ve Python için verilen kaynaklara bakabilirsiniz.

R ve Python öğrenebileceğin kaynaklar:

udemy.com
coursera.com
udacity.com

Ve tabi ki bunların her birisi veribilimi.co üzerinden de anlatılacak.

4. İstatistiksel Öğrenme’yi Hallet


Yeter artık ertelediğin, artık zamanı geldi. Görüyorsun işte kaçısı yok bu işin. ÖĞ-RE-NE-CEN. Öğretmezlerse de ÖĞRENECEN. En iyisi öğrenmek ya 🙂

İstatistiksel Öğrenme Başlığı Altında Edinilmesi Gereken Yetenekler İçin Aşağıdaki Maddeleri İfade Etmiştik:

  • Tidy Data Süreci ve Veri Ön İşleme (eksik veri, aykırı gözlem, tutarsızlık incelemeleri vb)
  • Keşifçi Veri Analizi (Betimsel İstatistik, Veri Görselleştirme)
  • Çıkarımsal İstatistik (örnek teorisi, olasılık dağılımları, rastgele değişkenler, hipotez testleri, bayesçi çıkarım, robust yöntemler)
  • Çok Değişkenli İstatistiksel Yöntemler (korelasyon, boyut indirgeme (PCA, LDA, Kernel PCA), varyans analizi, kümeleme analizi, faktör analizi, uyum analizi, path analizi, ayırma analizi vb)
  • Regresyon Modelleri: Doğrusal regresyon, logit-probit, m.logit-m.probit, kantil regresyon vb
  • Resampling Methods (yeniden örnekleme yöntemleri: cross-validation, bootstrap)
  • Doğrusal Model Seçimi ve Regularization
  • Doğrusallık ve Nedensellik

 

Bu yetenekler için udemy, udacity ya da coursera üzerinden aşağıdaki başlıklardaki kurslar bitirilebilir:

Udacity: Intro to Statistics
Udacity: Intro to Descriptive Statistics
Udacity: Intro to Inferential Statistics
Udacity: Exploratory Data Analysis
Udemy: Random Variables & Probability Distributions
Udemy: Statistics for Data Science and Business Analysis
Coursera: Bayesian Statistics: Techniques and Models

 

Ya da hepsini kenara bırakıp ufak tefek farklılaşmaları göze alıp toplu eğitimler olan sadece şu iki eğitimi edinebilirsiniz:

edx: Learn how statistics plays a central role in the data science approach: Statistical Thinking for Data Science and Analytics

Coursera: Statistics with R Specialization

En kötü ihtimalle yukarıdaki son iki kursu mutlaka dikkate almanızı öneririz.

 

Ben bunlarla uğraşamam bana Türkçe kitap lazım diyorsanız: 

Prof. Dr. Fikri AKDENİZ: Olasılık ve İstatistik
Prof. Dr. Necmi Gürsakal: Betimsel İstatistik
Prof. Dr. Necmi Gürsakal: Çıkarımsal İstatistik
Prof Dr. Mustafa Baloğlu: Çok Değişkenli İstatistiklerin Kullanımı (Linda S. Fidell, Barbara Tabachnick)
Prof. Dr. Reha Alpar: Çok Değişkenli İstatistiksel Yöntemler 

 

 

5. Makine Öğrenmesin Sen Öğren


Makine Öğrenmesi Başlığı Altında Edinilmesi Gereken Yetenekler İçin Aşağıdaki Maddeleri İfade Etmiştik:

  • Regresyon Modelleri: Multiple Regresyon, Polynominal Regresyon, SVR, Regresyon Ağaçları, Random Forest Regresyon…
  • Classification(Sınıflandırma):Lojistik Regresyon, K-NN, SVM, Naive Bayes, Karar Ağaçları, Topluluk Öğrenme Yöntemleri(bagging, boosting, RF,…,)
  • Clustering(Kümeleme): Hiyerarşik ve Hiyerarşik Olmayan Kümeleme Yöntemleri(Hiyerarşik kümeleme, K-Means)
  • Association Rules (Birliktelik Kuralları: Apriori, Eclat)
  • Text Mining, NLP
  • Reinforcement Learning
  • Deep Learning
  • Model Seçme (validasyon, test hatası yöntemleri,  model performans değerlendirme, parametre tuning) ve Öğrenme Bozukluklarının Bilinmesi (underfitting, overfitting, good fitting)
  • Basitin her zaman daha iyi olacağının ve “Tüm Modeller Kötüdür, Bazıları Kullanışlı” sözünün farkında olunması (George E.P. Box)
  • Tahmin yakınlığı mı? Nedensellik mi? Durumlarının çok iyi kavranması.

 

Bu başlık için şiddetle aşağıdaki eğitimlerin hepsini verildiği sırada bitirmenizi tavsiye ederiz:

1. Statistical Learning 

Rob Tibshirani: Professor of Health Research and Policy, and Statistics, Stanford

Trevor Hastie: Professor of Statistics, Stanford

Makine öğrenmesi alanında çalışanların yakından bileceği h2o şirketinin akademik danışmanları olan yukardaki değerli vatandaşlar ML başlığı altında olan hemen hemen her başlığı SL başlığı altında anlatıyorlar. Gerekçesini ve ne kadar mantıklı olduğunu ve ML – DS içerisinde hemen her noktada kullanılan istatistiğin öneminin kavranması konusunda büyük farkındalık yaratacaktır. Bu sebeple İstatistiksel Öğrenme başlığının çalışması bittikten sonra öncelikle bu kaynaklar önerilir.

Ayrıca aşağıdaki kitapları da ücretsiz, hepsinin çıktısını alıp üzerinde karalamalar yapmış birisi olarak şiddetle tavsiye ederim:

An Introduction to Statistical Learning with Applications in R

The Elements of  Statistical Learning: Data Mining, Inference, and Prediction

Computer Age Statistical Inference: Algorithms, Evidence and Data Science

Statistical Learning with Sparsity: The Lasso and Generalizations

 

 

2. Machine Learning

Coursera’daki bu efsane eğitimi yine makine öğrenmesi ve derin öğrenme dünyasının yaşayan efsanelerinden olan aynı zamanda Coursera’nında kurucusu olan Andrew Ng’den mutlaka almalısınız.

Andrew Ng, Co-founder, Coursera; Adjunct Professor, Stanford University; formerly head of Baidu AI Group/Google Brain

Yine Andrew Ng’nin https://www.deeplearning.ai/ adresindeki derin öğrenme derslerini de şiddetle tavsiye ederiz.

 

 

3. Machine Learning A-Z™: Hands-On Python & R In Data Science

Son olarak udemy’deki best seller’dan olan bu eğitimi de R, Python ve DS anlamında birleştirici özelliğinden dolayı edinmenizi tavsiye ederiz.

 

6. Big Data Yeteneklerini Edin


Büyük veri ile ilgili yine toplulaştırılmış eğitimleri tavsiye ediyoruz:

Big Data Specialization 

Spark and Python for Big Data with PySpark

7. Proje Yap


İyi ya da kötü projeler yapmaya bu hayat döngüsüne alışmaya çalışmalısınız. Veri Bilimci adaylarının en büyük eksikliği genelde bir proje çıkarma deneyimi olmamaları. Bu eksikliği gidermek için aşağıdakileri yapabilirsiniz:

 

Önceki Bölümlerde Verilen Eğitimlerdeki Tüm Projeleri Bitirmek

Kaggle Projelerini İncelemek

 

Kaggle: Veri Bilimi, Makine Öğrenmesi, Derin Öğrenme konularında yarışmalar düzenleyen bir platform. Burada yapılan projeleri inceleyerek yukarıdaki araçların hepsinin kullanarak nasıl DS projeleri çıkarılıyor olduğuna yönelik fikir edinebilirsiniz. Veri Bilimi Okulu olarak kaggle yarışmalarını analiz eden bir çalışma üzerinde çalışıyoruz.

 

8. Veri Bilimi Projesi Nasıl Yapılır?


Elimizde tüm yeteneklerimiz ve araçlarımız olduğuna göre artık sıra proje yapmakta. Ama nasıl? Bir Veri Bilimi Projesi nasıl yapılır? Veri bilimi projesi yaparken dikkat edilmesi gerekenler nelerdir? Bu konuda nasıl bir yol izlemeliyiz? Sorularına cevap bulmak ve bir Ver Bilimi Projesini götürmek için baş ucu rehberi arıyorsanız şu yazımıza göz atabilirsiniz: Veri Bilimi Proje Döngüsü

 

 

9. İş Başvuruları


Sürece başladığından itibaren katıldığın meetup’lar ve etkinlikler ile edindiğin çevrenin burada bir miktar katkısı olabilir. Bu çevreyi kullanarak ve güzel bir CV hazırlayarak bu sürece başlayabilirsin. Güzel CV’den daha değerlisi güzel bir linkedin, github, medium hesabıdır. Linkedin üzerine eğitim aldığın bu başlıkların hepsini yeteneklerine eklemeyi ihmal etme, hatta eğitim aldığın kişilerden yeteneklerini onaylamalarını isteyebilirsin.

 

Hakkında Mustafa Vahit KESKİN

GÖZ ATMAK İSTEYEBİLİRSİNİZ

R ile Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

R’da Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir