Anasayfa / Genel bir bakış / Diskriminant Analizi Nedir? Nasıl Uygulanır?

Diskriminant Analizi Nedir? Nasıl Uygulanır?

Diskriminant Analizi Nedir? Nasıl Uygulanır?

Veri üretimi giderek ucuzlaşmakta ve dünyada ki herkes farkında olmadan dahi internet ortamına bir iz bırakmaktadır. Bu bir video, fotoğraf, yazı, bir beğeni butonuna basmak .. bunların hepsi kalıcı bir şekilde biriktirdiğimiz verilerimizdir. Şimdiye kadar birikmiş veri birinkintisinin %90’ı son iki yılda oluşturulmuştur. Bunun bir devrim niteliğinde olduğunu düşünüyorum.

Hızla gelişen teknoloji ile devrim niteliğinde büyüyen verinin, bize birşeyler anlatmaya çalıştığının farkında mısınız ? Verinin ne anlatmaya çalıştığını anlamamız için; teknolojiler yenilemeli, düzenlenmeli, verilerimizi ayıklamalı yani az önem taşıyan verilerden kurtarılmalıyız.

Şu an birçok sektörde ve bilim dalında istatistiki problemler boyut açısından artmıştır. Bir veriye ulaşmak denendiğinde, istenen istenmeyen bir çok veri ele geçirilmektedir.  İşletmeler ve bilim dalları ellerine geçen veri boyutunu beklemedikleri için bu boyutlu verilerin ayıklanması,sınıflandırılması, mümkün ise boyut indirgemesi gerekmektedir. Yukarıda da söylediğimiz gibi bu verilerin anlatmaya çalıştığı noktalar yakalanıp sorunlara ulaşılmalı daha sonra çözüme kavuşturulmalıdır.

Veriyi ilgi odağına koymak, kişinin kendisine özgü beceriler ve araçlar gerektirir. Bu araçlardan bir tanesi olan DİSKRİMİNANT ANALİZİ’nden bahsetmek istiyorum.

 

Diskriminant analizi, ayırıcı fonksiyon analizi olarak da adlandırılabilir. Veri setinde bulunan verilerin değişken gruplarına atanırken taşıdığı özelliklere göre ayrımını yapar. Diskriminant analizi bir kategorik bağımlı değişken ile sayısal değerler alan bağımsız değişkenler arasında yapılır. Diskriminant analizi bağımsız değişkenlerin bağımlı değişkenleri etkilemelerine göre ya aynı ya da farklı gruplara göre sınıflandırılmasını sağlar.

  Diskriminant analizinin amacı;

  • Sınıflanıp, sınıflanılmayacağını test etmek
  • Değişkenleri Sınıflamak
  • Gruplar arasındaki farklılıkların incelenmesi
  • Bağımlı değişkende, bağımsız değişkenlerce açıklanan varyansı göstermek
  • Bağımlı değişkene göre yapılan sınıflandırmada, bağımsız değişkenlerin öncelik sırasını irdelemek
  • Grupları ayırırken önemi düşük olan (önemsiz olan) değişkenleri elemek

 

 

DİSKRİMİNANT ANALİZİ NASIL UYGULANIR ?

Bir spor okulu sınavına giren 60 kişiden (30-30) başarılı olanlar ve başarılı olmayanlar olarak iki grup oluşturulmuştur. Ve bu 60 kişiden spor okuluna hazırlanırken hangi spor dalı ile hazırlandıkları sorulup, 3 farklı değişken elde edilmiştir. ( Koşmak – Yüzmek – Bisiklete Binmek). Amacımız başarılı olmayı etkileyen değişkenleri bulmak.

Veri setine buradan erişebilir ve birlikte uygulayarak ilerleyebilirsiniz.

 

Adım 1:  Variable View – Grup Values kısmı çift tıklanır – Value kısmına 1 : “Başarılı” – 2: “Başarısız” – Add – OK

 

Adım 2: Analyze – Classify – Discriminant Analysis

 

Adım 3: Grouping Variable’a Grup değişkenimizi, Independents kısmına da bağımsız değişkenlerimizi ( KOŞMAK-YÜZMEK-BİSİKLET) atıyoruz – Use stepwise method (adım adım ilerlemek için) işaretlenir

 

Adım 4:  Define Range – Minimum : 1 , Maximum : 2 (Grup sayı tanımlamaları yapılır) – Continue

 

Adım 5: Statistics  – Means – Univariate ANOVAs – Box’s M – Unstandardized – Within groups correlation – Continue

 

Adım 6: Method – Wilk’s lambda – Use F value(sabit) – Summary of steps – Continue

 

Adım  7: Classification – All groups equal – Casewise results – Summary table – Within groups – Continue

 

Adım 8: Save – Predicted group membership – Discriminant scores – Probabilities of group membership – Continue – OK

 

ÇIKTILARIMIZI YORUMLAYALIM

 

1 )

 

  • Yüksek korelasyon olması için 0.7 den büyük korelasyon sonuçları olmalıdır.
  • Değişkenler arasında yüksek korelasyon yoktur.
  • Çoklu doğrusal bağlantı yoktur.

2)

Ho: Kovaryans matrisleri eşittir.

H1: Kovaryans matrisleri eşit değildir.

  • P_value = .651 > 0.05 olduğundan dolayı Ho Hipotezi Kabul edilir.
  • Kovaryans Matrisleri Eşittir

3)

  • Function : 1 tane diskriminant fonksiyonu vardır
  • % of Variance : Açıklanan değişkenin varyansıdır
  • Canonical Correlation : Karesini aldığımız da (0.966)^2= 0.933 olur yani başarılı ve başarısız öğrencileri ayırma da %93 ünün açıklanabileceğini göstermektedir

4)

  • P_value = .000 < 0.05 olduğundan dolayı Grup ortalamaları arasında fark vardır.

5)

  • Bağımlı değişkeni tahmin ederken, bağımsız değişkenlerin önemini gösterir.
  • Burada KOŞMAK değişkeninin diğer değişkenlere göre önemi olmadığı için listede yoktur.

6)

  • KOŞMAK Structure Matrisinde olmasına rağmen Standardized Matrisinde olmadığı için önemli olmadığını anlıyoruz ve analize alınmadığını göreceğiz.

7)

  • Modelimiz de KOŞMAK yoktur. Constant sabit terimimizdir.
  • Z = –23.993 + 0.142YÜZMEK + 0.210BİSİKLET

8)

  • Her gruptaki diskriminant skorlarının ortalamasını göstermektedir.

9)

  • Yaptığımız sınıflamanın %100’ü doğrudur.

Hakkında Elif YILMAZ

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Ağaca Dayalı Yöntemlerde Bagging ve Boosting Arasında ne Fark var?

Random Forests, GBM, XGBoost’un bu yaklaşımlar ile ne ilgisi var? Merhabalar, Soru: Ağaca dayalı yöntemlerde …

2 yorumlar

  1. elif hanım merhaba;
    Açıklamalar ve anlatımlarınız oldukça net.Keşke bunların videolarını da çekseniz.
    Benim sormak istediğim bir kaç soru var.
    1.Bağımlı değişken sadece 2 kategorili mi olmak zorunda ( 4 lü 5 li olamaz mı)?
    2.Bağımlı değişken likert ölçeğinde olması halinde nasıl uygulanır(1 çok iyimserim, 2 iyimserim, …,5 Çok kötümserim)
    3.Bağımsız değişkenlerin kategorik,sürekli,sıralı,likert olması halinde kullanılabilir mi ?

    Bağımlı ve bağımsız değişkenlerin koşulları nedir ve örneklerle anlatabilirseniz sevinirim

    • Ahmet bey merhaba,
      İlk olarak bağımlı değişkene bir örnek vermek istiyorum; bir çocuğun boyu uzadıkça ağırlığının artması bekleriz öyle değil mi ? Bu durumda ağırlık boyun uzamasına bağlıdır yani ağırlık bağımlı değişkendir, boy ise bu örneğe göre bağımsız değişkendir. Bağımlı değişkenin yalnızca iki kategorili olması zorunlu bir durum değildir. Örneğin; diskriminant analizinde oldukça yaygın olan Iris veri setini incelemenizi tavsiye edebilirim. Veri seti, süsen çiçeğinin Iris Setosa,Iris Versicolor ve Iris Virginia isimli üç türü için toplanan 50’şer örnekten meydana gelmektedir. Her bir çiçek için taç yaprağı(petal) ve çanak yaprağının(sepal) boy ve eni olmak üzere dört değişken değerleri gözlemlenmiştir. Fisher bu dört değişkenlerden hareketle, örnek çiçeğin hangi türe ait olduğunu belirlemiştir. Bu veri seti türler arasında güçlü bir ilişkinin olması sebebiyle yeni başlayanlar için anlaşılması kolaydır.
      Bağımlı değişkeninizi tekrar ele alalım, bazen bağımlı değişken tam nitelik veri (nominal) şeklinde iken, bazen de sıralı nitelik veri (ordinal) konumuna getirilmiş niceliksel veri şeklinde olabilmektedir ( günlük gazlı içeceklerin günlük tüketiminin (ml) hiç,az,orta,çok olarak dört grupta nitelendirilmesi gibi). Ek Not : Araştırmanızda bazen de sınıflandırmanın alt ve üst uçlarındaki iki grup (hiç ve çok) ile ilgilenip ayırıcı fonksiyonları sadece bu iki grup için oluşturabilirsiniz.(kutupsal uçlar yaklaşımı/polar extremes approach).
      Bağımsız değişkenlerin de kategorik olması söz konusu olduğunda uyum analizi (correspondence analysis) isimli bir başka yöntem kullanılır. Genel olarak uyum analizi değişkenler arasındaki ilişkilerin iki ya da daha fazla boyutlu çapraz tablolarla incelendiği durumlarda kullanılan ve tanımlayıcı tipte olan çok değişkenli bir yöntemdir. Örneğin, gelir düzeyinin(ordinal), cinsiyet(nominal) ve bölgeler(nominal) arasındaki ilişkinin incelenmesi örnek olarak verilebilir.
      Yorumunuz için çok teşekkür ederim Ahmet bey. Video talepleri gittikçe artıyor bu sebeble çalışmalar çoktan başladı mesajını ilk buraya bırakıyorum 🙂
      sevgiler.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir