Anasayfa / Genel bir bakış / R ile Logit Model Analizi

R ile Logit Model Analizi

Bu yazımda literatürde en çok kullanılan modellerden biri olan Logit modelle R’ da bir uygulama yapacağım.Peki Logit Model nedir? Ne farkı vardır? Nerede bu modeli kullanmalıyız?

Öncelikle Logit modelde bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına bölünmesi ile odds oranı:

    \begin{align*} \frac{ P }{ 1-P } ={ e }^{ y } \end{align*}

hesaplanır

Bu oran yardımıyla doğal logaritma alınarak logistik fonksiyon regresyon analizinde kullanılır.Bu modelin farkını doğrusal olasılık modeli yardımıyla açıklayabiliriz.Doğrusal olasılık modelinde bağımsız değişkendeki marjinal ve küçük bir artış baştan sona sabit kabul edilir.Tabi ki bu durum her zaman böyle olmayabileceği için gerçek ilişkiyi açıklamada yetersiz kalabilecektir.Bu durumda doğrusal olmayan kalıpların kullanılması daha uygundur olacaktır.Bu kalıpların kullanılmasındaki amaç bağımlı değişkenin beklenen değerlerinin olasılıklarının 0-1 aralığı içinde yer almasını sağlamaktır.

Öncelikle verileri tanıyalım;

Açıklama: 2006 Hane halkı bütçe anketi verilerinden elde edilen 600 bireyin aylık eğlence kültür harcamalarını (Eğlence ve sportif hizmet harcaması, Sinemalar, tiyatrolar, konserler harcaması, Müzeler, zoolojik bahçeler vb. harcaması, Televizyon ve radyo vergileri ve ekipmanların kiralanması harcaması) etkileyen faktörleri belirlemek amacıyla aşağıdaki değişkenler verilmiştir

Bağımlı Değişken
eglence_harc: Birey, eğlence kültür harcaması yapıyorsa 1, yapmıyorsa 0 değerini almaktadır.

Bağımsız Değişkenler
aylik_gelir: bireyin aylık geliri
harcama: Bireyin aylık toplam harcaması
hhb: Hanehalkı büyüklüğü, hanede yaşayan birey sayısı
kent: birey kentte yaşıyorsa 1, kırda yaşıyorsa 0
okur_yazar_dgl: Okur yazar olmayanlar 1; diğer durumlarda 0
diplomasz_okur_yzr: Bir eğitim kurumunu bitirmemiş ama okuma yazması olanlar 1; diğer durumlarda 0
ilkokul: ilkokul diplomasına sahip olanlar 1; diğer durumlarda 0
ortaokul: ortaokul diplomasına sahip olanlar 1; diğer durumlarda 0
lise: Birey lise eğitimine sahip ise 1; diğer durumlarda 0

Verileri alttaki bağlantıdan indirebilirsiniz

https://drive.google.com/open?id=19_T3rK2ZL4jdmFKQku5PGhCWxH3lTs11

Verilerimizi çekerek başlayabiliriz

library(readr)
logitveri <- read_delim("C:/Users/compaq/Desktop/logitverii.csv",";")
head(logitveri,n=10)#ilk 10 gözlem ile veriye göz atabiliriz

Modelimizdeki kuklaları factore çevirerek kategorik hale getirelim.

#dönüştürme işlemini sutun numaralarını kullanarak yaptık.Fakat $ işareti de kullanılabilirdi.
logitveri=as.data.frame(logitveri)#öncelikle verimizi dataframe formatına getirelim.
logitveri[,1] = as.factor(logitveri[,1])#verimizin eglence_harc sütunu olan ilk sütunu factore çevirdik
logitveri[,4] = as.factor(logitveri[,4])
logitveri[,5] = as.factor(logitveri[,5])
logitveri[,6] = as.factor(logitveri[,6])
logitveri[,7] = as.factor(logitveri[,7])
logitveri[,8] = as.factor(logitveri[,8])
logitveri[,9] = as.factor(logitveri[,9])
str(logitveri)#değişkenlerimizin tiplerine str ile ulaşabiliriz

Modelimizi tahmin edelim.Bunun için glm() fonksiyonunu kullanacağız.eglence_harc değişkenimizi bağımlı değişken,diğer değişkenlerimizi ise bağımsız değişkenlerimiz olarak tanımladık.family argumanı ile iki terimli yani binomial ve logit olduğunu tanımladık.

logitmodel=glm(eglence_harc ~ aylik_gelir + hhb + kent + okur_yazar_dgl + diplomasiz_okur_yzr + ilkokul + ortaokul + lise ,data = logitveri, family = binomial(link = "logit"))
summary(logitmodel)#modelimizin özeti

 

Çıktı

Değişkenlerin  prob değerlerine baktığımızda lise kategorik değişkeninin prob değerinin 0.05’in epey üzerinde 0.135891 olduğu görünmektedir.Bu da değişkeni istatistiksel olarak anlamsızlaştırır. Diğer değişkenlerin prob değerlerinde herhangi bir anlamsızlık görünmemektedir.

Aylık geliri 4000 lira ve hane halkı büyüklüğü 3 olan kentli bir diplomasız okur yazarın eğlence harcaması yapma olasılığını bulalım. Parametrelere ilgili değerleri göndererek elde ettiğimiz sonuç başta bahsettiğimiz odds oranını verecektir.Ekonometri derslerinden hatırlanacağı gibi elde ettiğimiz sonuca anti-log uygulamamız ve daha sonra P değerini çekmemiz gerekmekteydi.

Parametrelere ilgili değerleri gönderelim;

logsuz=-0.1861591 + 0.0008133*(4000) + 0.1812649*(3) + 0.6742812*(1)-1.5797371*(1)
logsuz

Çıktı;

[1] 2.70538

Anti log yapalım;

loglu=exp(logsuz)
loglu

Çıktı;

[1] 14.96

P değerini çekmek için basit bir fonksiyon oluşturacağız.Aşağıdaki görselde bölme işleminin karşılığı olan 

    \begin{align*}e^y\end{align*}

ifadesi anti-log sonucumuz olan 14.96′ yı ifade ediyor.

    \begin{align*} \frac{ P }{ 1-P } =14.96 \end{align*}

Yazdığımız bu fonksiyon içler dışlar çarpımı yaparak P değerini yani yüzde sonucu bize döndürecek.

p = vector(mode="numeric", length=0)#fonksiyona parametre olarak göndereceğimiz boş bir p vektörünü oluşturduk
yuzde=function(loglu,p){
  p=(loglu*1000)/(loglu*1000+1000)
  return(p)
}
yuzde(loglu,p)

Çıktı;

[1] 0.9373433

Aylık geliri 4000 lira ve hane halkı büyüklüğü 3 olan kentli bir diplomasız okur yazarın eğlence harcaması yapma olasılığı %93 bulunmuştur.

MARJİNAL ETKİ

Marjinal etki belirlenmiş bir açıklayıcı değişken değerinde meydana gelecek küçük bir değişikliğin farklı sonuçların üzerindeki etkisini açıklamak için kullanılır.Katsayı yorumlarının yapılabilmek için marjinal etkileri hesaplamamız gerekmekte.

    \begin{align*} b_{k}((1-P)*P) \end{align*}

gelirin_marjinal_etkisi=0.0008133*(0.0626567*0.9373433)
gelirin_marjinal_etkisi

Çıktı;

[1] 4.776579e-05

Bu parametre değerleri için;
Diğer değişkenler sabitken gelirdeki % 1′ lik artış eğlence harcaması yapma olasılığını % 0.0000477 arttırmaktadır.Parametrelere ilgilenilen gelir seviyeleri hane halkı büyüklükleri ve eğitim düzeyi bilgileri gönderilerek yüzdesel değerler ve marjinal etki bu şekilde öğrenilebilir.

Platformdaki ilk yazımda logit model üzerine bir regresyon uygulaması yapmış olduk.Her an veri ürettiğimiz gerçeği veriyi kullanılır hale getirmenin ne denli önemli olduğunu göstermekte.Veri biliminin ilişkili olduğu disiplinleri(istatistik,ekonometri,programlama vb) göz önünde bulundurursak pek çok kişinin bu alana katkı sağlayabileceğini söyleyebiliriz.

Saygılarımla

 

Hakkında Buğra POLAT

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Minitab Destekli İstatistiksel Analiz Eğitimleri – Ders 1/9 [Minitab Hakkında Genel Bilgi Giriş, Menüler ve Araç Çubukları]

Minitab Hakkında Kalite iyileştirme ve istatistik eğitimi konularında dünyanın lider yazılım ve hizmet sağlayıcısıdır. Merkezi …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir