Anasayfa / Büyük Veri / Kategorik Veri Analizi ve Shiny Web Uygulamaları – 3

Kategorik Veri Analizi ve Shiny Web Uygulamaları – 3

İnsanlık, Büyük Biraderini Arıyor…

George Orwell, 1984 romanında totaliter bir yönetim yapısından bahseder. Bu yapı ile insanların tüm aktiviteleri devlet tarafından yönetilir, denetlenir ve hiçbir şekilde özgürlük tanımına yer verilmez. Düşünce Polisi insanların yaşamlarını, özel hayatlarını hatta düşüncelerine kadar takip eder. Kitapta belirtilen takip mekanizması, 70 yıl önce yazılmış bir kitaba göre, günümüz teknolojileri ile birçok benzerlikler göstermektedir.

Şuan kullandığımız Facebook, Instagram gibi birçok uygulamayı ücretsiz bir şekilde kullandığımızı düşünüyoruz… Ancak bu kullanımın karşılığı olarak büyük bir veri kaynağı sağlıyoruz ve günümüzde en değerli şey olan kişisel verilerimizi gözümüz kapalı bir şekilde birilerine teslim ediyoruz. 21. Yüzyılın en büyük deneyi yapılıyorken biz, her şeyden habersiz bir şekilde profillerimizi daha iyi sınıflandırmaları için her gün düzenli bir şekilde veri sağlıyoruz…

Bu teknolojiler yardımıyla kurulan modeller veya sistemler kısa vadede değil, uzun vadede yönetim mekanizmaları için vazgeçilmez birer araç olabilir. İnsanlar daha ne olduğunu anlamadan sistemler kurulmuş olabilir. Yönetim sistemleri, denetim sistemleri, adalet sistemleri tek bir merkez tarafından, Büyük Birader denilen karakter veya bir Yapay Zeka tarafından, yönetilebilir. Büyük Birader siyah dekorlu odasında ellerini ovuşturarak o günü beklerken büyük şirketler hangi savda yer alacaklar? Sizce, insanlık tarihinde elde edilebilecek en büyük güç hangi amaçlar için kullanılacak? Aylık distopya dozumuzu aldıysak, Kategorik Veri Analizi için yeni bir uygulamaya başlayabiliriz 🙂

 

İkili Lojistik Regresyon

Bundan önceki yazılarımda model tahmini, modelin ve katsayıların anlamlılık testleri ve güven aralıkları konularını teorik ve uygulamalı olarak işlemiştik.  Şimdi yeni bir veri seti kullanarak tüm bu özellikleri tekrar gözden geçireceğiz.

Düşük doğum ağırlığına ait veri setimizi bir değişkene kaydettik.

 

glm() fonksiyonu yardımıyla modelimizi kurduk ve summary() fonksiyonu ile model hakkında bir özet bilgi elde ettik.

 

“Yaptığınız, söylediğiniz ya da düşündüğünüz her şeyi en ince ayrıntısına dek ortaya çıkarabilirler ama gönlünüzün derinliğine, işleyişine, sizin bile bilmediğiniz o yere el uzatamazlar.”(Orwel, 1984)

 

Model

Yukarıda elde edilen model Doğrusal Regresyon Modeli olarak tahmin edilseydi “yaş değişkeni bir birim arttırıldığında, düşük doğum ağırlığında … kadar artış veya azalış olur” gibi bir yorum yapabilirdik, ama Lojistik Regresyon Modeli ile tahmin ettiğimizden bu yorumu yapamıyoruz malesef :). Modelin anlamlı olup olmadığına karar verdikten sonra Logit Fonksiyonundan yararlanarak bir güven aralığı elde etmeli ve bu değerler üzerinden yorumlama yapmalıyız.

 

Model Anlamlılığı

Model anlamlılığını test ederken, bağımlı değişken üzerinde etkisini olduğunu düşündüğümüz tüm değişkenlerin 0 değerine eşit olup olmadığını test ediyoruz. Burada dikkat edilmesi gereken,  değişkeninin anlamlılığını test etmiyor olmamız. Bunun sebebi, zaten değişkeni modelde hiçbir değişken yokken, yada tüm bağımsız değişkenler 0 değerini aldığı zaman, bağımlı değişkenin ortalama değeridir. Yani annenin yaşı veya sigara içip içmemesi durumu dikkate alınmadan ortalama düşük doğum sayısını verir.

G test istatistiği ile k=2 serbestlik dereceli Chi-Square tablo değeri ile karşılaştırdık ve %95 güvenle modelin anlamlı olduğuna karar verdik. Bir önceki yazıdan, model anlamlılığı için kullanılan G istatistiği ve değişken anlamlılığı için kullanılan Wald test istatistiğinin aynı sonuca ulaşabildiğimizi biliyoruz. Burada birden fazla bağımsız değişken olduğu için ayrı ayrı Wald testi uygulayıp değişkenleri ayrı ayrı incelememiz gerekiyor. Bu bölümde modelin anlamlı olduğuna karar verdik, ancak hangi değişkenin anlamlı olduğunu henüz bilmiyoruz. O yüzden yapılabilecek en mantıklı yorum; annelerin düşük doğum ağırlığına sahip olup olmaması, annenin sigara içip içmemesi ve yaşı değişkenlerinden en az bir tanesi ile açıklanabilmektedir, şeklinde olacaktır.

 

Katsayıların Anlamlılığı

Şeklinde kurulan hipotezde wald test istatistiği;

fonksiyonu ile hesaplanır. Bu değişkenleri summary() fonksiyonu ile model için çıkardığımız özet bilgiden kolaylıkla elde edebiliriz.

Yas değişkeni için hesapladığımız Wald değeri ile tablodan hesapladığımız Z değerini karşılaştırıyoruz. Burada hesaplanan Wald değeri, Z tablo değerinin sağ tarafındaki 1.96 değer ile karşılaştırılıyor.  Sonuç olarak, Yaş değişkeninin, annenin düşük doğum ağırlığına sahip olup olmaması üzerinde %95 güvenle anlamlı bir etkisi yoktur.

 

Sigara değişkeni için yaptığımız anlamlılık testinde, katsayının anlamlı olduğuna karar verdik. %95 güvenle, bir annenin düşük doğum ağırlığına sahip olup olmaması üzerinde, sigara içip içmemesi durumu anlamlıdır. Yani annenin hamilelik sırasında sigara içip içmemesi, bebeğin doğum ağırlığını etkileyebilir.

 

Güven Aralıkları

parametreleri için güven aralıkları aşağıdaki formülle hesaplanır.

R’da güven aralıklarını tek tek hesaplamak yerine, confint() fonksiyonu modeldeki tüm değişkenlerin güven aralıklarını hesaplayabiliriz.

Bu bölümde de yaş değişkeninin bu model için anlamlı olmadığını güven aralığına bakar da anlayabildik. Eğer bir bağımsız değişken için oluşturulan güven aralığı 0 değerini içeriyorsa, model için anlamlı değildir. 

 

“Gerçekler, ne yaparsanız yapın, gizlenemezdi. Araştırıp kovuşturarak ortaya çıkarılabilir, işkence yapılarak sizden sökülüp alınabilirdi. Ama amacınız hayatta kalmak değil de insan kalmaksa, sonuç ne fark ederdi ki?”(Orwel, 1984)

 

Bir Soru :

35 yaşında, sigara içen annelerde düşük doğum ağırlıklı bebek dünyaya getirenlerin oranını, %95’lik güven ile tahmin ediniz.

  • G İstatistiği Değeri Hesaplanır

  •  G İstatistiği’nin Güven Aralığı Hesaplanır

  •  Z tablo değeri hesaplanır

  •  G İstatistiği için hata değeri hesaplanır

Bir önceki yazıda kullandığımız G istatistiğine ait varyans formülü sadece bir bağımsız değişken ile kurulan modeller için kullanılıyordu. Formül;

Burada kullanacağımız veri setinde annenin yaşı ve sigara içip içmemesi durumu olarak iki bağımsız değişken olduğundan formül biraz daha karmaşık hale gelecek.

Elde edilen model için k adet bağımsız değişkene ait kapalı formül yukarıdaki gibidir. Bizim 2 bağımsız değişkenimiz olduğu için k=2’ye göre formülü açıyoruz;

vcov() fonksiyonu ile elde ettiğimiz varyans kovaryans matrisinden değerleri dikkatli bir şekilde seçiyoruz.( değeri her zaman 1 değerini alır.)

Şekilde modeldeki değişkenlere ait varyans kovaryans matrisini görüyoruz. Burada sadece 2 bağımsız değişken varken matris 3×3 oluyor ve varyans hesaplama işlemi uzun sürmüyor. Ancak 10 tane bağımsız değişken içeren modellerde biraz karışıklık olabiliyor o yüzden değerleri doğru tespit etmeli ve çarpanları doğru bir şekilde belirlemeliyiz.

  • Elde edilen sonuçlar ile G istatistiğine ait güven aralığı hesaplanır

  • Elde edilen alt ve üst limit değerleri ile P istatistiğinin güven aralığı hesaplanır.

35 yaşında ve sigara içen annelerde, düşük doğum ağırlığında bebek dünyaya getirenlerin oranı %95 güvenle 0.5216744 ile 0.8690208 değerleri arasındadır.

Aynı modeli kullanarak 25 yaşında sigara içmeyen anneler için tahmin yapıldığında, oran değeri 0.6626278 ile 0.8277285 değerleri arasında çıkıyor. Oran değeri biraz düştü ama bu konuda doğru sonuçlara ulaşabilmek ve bir çözüm bulabilmek için elimizde başka kanıtların da olması gerekiyor. Dolayısıyla her ne kadar anlamlı bir model elde etsek de, bu bağımlı değişken üzerinde daha başka değişkenlerin de etkisinin olduğunu gösteriyor. Gerçekleşen düşük doğum ağırlığı problemini çözmek için çalışmayı daha da genişletmek, yeni değişkenler belirleyerek bu konular hakkında veri toplamak ve etkili bir model kurmak gerekiyor.

Not : Uygulamada yazılan tüm fonksiyonlar ve çıktılar görsel olarak verilmiştir. Aşağıda, uygulamada kullanılan fonksiyonlara ulaşabilirsiniz. Ek olarak aynı veri seti üzerinde farklı işlemler yapmak isteyen arkadaşlar bana mail yoluyla ulaşabilirler.

 

Shiny

Geçen yazımda, Shiny uygulamasında bilgisayarda bulunan .csv uzantılı bir dosyayı ekrana yansıtma işlemleri hakkında bir uygulama yapmıştık. Şimdi ekrana yansıttığımız veri üzerinde Basit Lojistik Regresyon işlemleri yapacağız. Uygulamaya her yeni bir özellik eklendiğinde server ve ui dosyalarındaki tüm fonksiyonları paylaşacağım, böylece kullanılan fonksiyonları kullanabilir ve sorunsuz bir şekilde çalıştırabilirsiniz.

Uygulamada kullanacağımız veri setinde, kişinin kalp hastası olup olmaması üzerinde yaş değişkeninin etkisini araştırmıştık. Uygulamayı çalıştırdığımızda ilk olarak aşağıdaki görüntü bizi karşılayacak. Bu bölümde bilgisayarda bulunan .csv uzantılı dosyayı ekleyerek, yapmak istediğimiz istatistiksel analizi yukarıda bulunan sekmelerden seçiyoruz ve analize başlıyoruz. Şuan sadece İkili Lojistik Regresyon yapabiliriz ancak zamanla birçok istatistiksel analiz yapabilen bir Shiny uygulaması geliştirmeyi düşünüyorum.

İlk sekmede kullanmak istediğimiz veriyi seçiyoruz, uygun bir gösterim şekli belirliyoruz ve Basit Lojistik Regresyon sekmesine tıklıyoruz.

Sol taraftaki panelde bağımlı ve bağımsız değişkenleri seçtikten sonra otomatik olarak ekrana, modele ait bir özet bilgi yansıtıyoruz. Bundan sonraki yazımda birden çok bağımsız değişken içeren model kurma işlemleri, kategorik olan bağımsız değişkenlerde faktör ekleme işlemleri, değişken ekleme ve çıkarma işlemleri yapabilen bir Shiny uygulaması geliştireceğiz.

Not: Aşağıda, uygulamada kullandığım fonksiyonlar buluyor. Tüm fonksiyonları kopyalayıp, açtığınız Shiny uygulamasına yapıştırarak uygulamayı çalıştırabilirsiniz. Shiny üzerinde herhangi bir geliştirme yaparsanız benimle paylaşabilirsiniz, bir sonraki yazımda sizden gelenleri de uygulamaya ekleyebilirim.

Sonuç olarak, model anlamlılığı, katsayıların anlamlılıkları, güven aralıkları konularını tamamladık. Bu yazıdan sonra bu konular hakkında teorik bilgilerin dışında, yaptığımız analizlerin yorumlanması üzerinde duracağım. Bir sonraki yazımda değişken ekleme çıkarma işlemleri konusunda bilgiler verdikten sonra bu özellikleri Shiny üzerinden pratik bir şekilde nasıl yapabileceğimiz hakkında bilgiler vereceğim.

Not: Bundan sonraki yazımda alıntılar yapacağım kitabın adı “Aldous Huxley – Cesur Yeni Dünya” olacaktır. Okumak isteyenlere şiddetle tavsiye ederim 🙂

 

“Şu anda somut bir başkaldırı, hatta bir başkaldırı hazırlığı bile olanaksızdır. Proleterlerin korkulacak bir yanı yoktur. Kaderlerine terk edilmiş Proleterler, yalnızca başkaldırı dürtüsünden yoksun olarak değil, aynı zamanda dünyanın daha farklı olabileceğini kavrama gücünden de yoksun bir biçimde kuşaklar ve yüzyıllar boyunca çalışacak, üreyecek ve öleceklerdir.”(Orwel, 1984)

 

Değerli zamanınızı ayırdığınız için teşekkürler.

Hakkında Mustafa Nayansak

Mustafa Nayansak, Dokuz Eylül Üniversitesi - İstatistik bölümü mezunu. İstatistiğin teorik ve uygulamalı altyapısına sahip ve bu altyapının üzerine Veri Bilimi, Büyük Veri kavramlarını inşa etmek için R programlama dilini kullanan istekli bir öğrencidir. R programlama dilini sadece istatistiksel analizler yapmak için değil Shiny, RMarkdown gibi özelliklerin de kullanılmasının önemine inanır. Bu düşüncenin temel sebebi ise çalışmaları daha etkileyici bir şekilde sunmak, daha ilgi çekici detaylarla zenginleştirmek ve bir programlama dilini daha etkin kullanabilmek.

GÖZ ATMAK İSTEYEBİLİRSİNİZ

R ile Zaman Serileri Çözümlemesi Bölüm 3 (Ayrıştırma Yöntemleri)

Merhaba Veri Bilimi Okulu sevenler bu yazımızda zaman serisi modellerinden olan Ayrıştırma Yöntemlerinden bahsedeceğiz. Bir …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir