Anasayfa / Ekonometri / R ile Panel Veri

R ile Panel Veri

R ile Panel Veri

İlk yazımda yatay kesit veri(logit) üzerine bir uygulama yapmıştık.Bu yazımda ise panel verinin ne olduğunu anlamaya çalışacak ve R üzerinde tahminleme denemeleri yapacağız.

Bireyler,ülkeler,firmalar gibi birimlere ait yatay kesit gözlemlerin belli bir dönemde bir araya getirilmesi panel veri olarak tanımlanmaktadır. N sayıda birim ve her bir birime karşılık gelen T ( zaman) gözlemlerinden  oluşmaktadır. Yani işin içine zaman boyutu da dahil olarak farklı birimlerin zaman dilimlerindeki değerleri gözlemlenmektedir.

Genel panel veri modeli;

    \begin{align*} Y_{ it }=a_{ it }+\beta _{ it }X_{ kit }+u_{ it } \qquad i=1,...,N ; t=1,...,T \end{align*}

şeklinde yazılabilir. Burada Y bağımlı değişken , X bağımsız değişkenler, a sabit parametre ,beta eğim parametreleri ve u hata terimini gösteriyor. i indisi birimleri,t indisi ise zamanı belirtiyor. Değişkenlerin,parametrelerin ve hata teriminin i ve t alt indislerinin bulunması bizlere panel veri seti olduğunu gösterir.Bu modelde sabit ve eğim parametreleri hem birimlere hem de zamana göre değer alabilir.

Öncelikle birim ve zaman etkilerinde bahsedelim. Panel veri pek çok birimin bir araya gelmesi ile oluşmakta. Doğal olarak her bir birimin kendine has özellikleri var. Birimlerin özelliklerini yansıtan değişkenlere “birim etki” denilmektedir.Birimlerin yanında zaman boyutu da yer almakta ve yine her bir zaman diliminin de kendine has özellikleri olabilmektedir.Zaman özelliklerini yansıtan bu değişkene ise “zaman etkisi” denmektedir.Uygulamalarda daha çok zaman etkileri ile karşılaşıldığı ve kafa karışıklığı yaratmaması amacıyla yazımda birim etki modelleri üzerinde duracağım.

Tek Yönlü Birim Etkiler

Birim etki modelde hata terimi gibi tesadüfi değişken olarak yer alıyorsa “tesadüfi etkiler” , her bir yatay kesit gözlem için tahmin edilen bir parametre olarak yer alıyorsa “sabit etkiler” söz konusu diyebiliriz.Sabit etkiler modelinde sabit terim her bir yatay kesit birim için farklı değer almaktadır.Yani birimler arasındaki farklılıklar sabit terimdeki farklılıklarla ifade edilebiliyor.Tesadüfi etkiler ise örneklem alma sürecinin bir sonucu diyebiliriz.Çünkü tesadüfi etkilerde birimler arasındaki farkların tesadüfi farklılıklar olduğu söylenmektedir.Panel veri analizinin teorisini tüm detayları ile açıklamak mevcut kaynaklarda olan bilgilerin tekrarlanmasından ibaret olacak.Bu yüzden açıklamaları kısa tutalım, veri setimize göz atıp uygulamaya geçelim.

Bağımlı değişken; turizm gelirlerinin logaritması (TG)

Bağımsız değişkenler; gelen turist sayısının logaritması (GT), turizm harcamalarının logaritması (TH),  internet kullanıcı sayısının logaritması (IN), yatak sayısının logaritması (YS).

Veriler 25 birim(Ülke) ve 1993-2005 yıllarını kapsamakta.Veri setine aşağıdaki bağlantıdan erişebilirsiniz.Bu yazıyı hazırlarken teorik kısımları Ferda hocanın kitabından ve STATA çıktılarından kontrol ederek ilerledim.Fakat STATA ne kadar güçlü bir paket program olsa da lisanslı bir ürün olması erişilebilirliği kısıtlıyor.Bu yüzden R kütüphaneleri kullanarak tahminlemeleri yapmaya çalışacağım.

http://ferdayerdelentatoglu.com/ileri-panel-veri-analizi-2/

Veri setimizi R’a aktararak başlayalım.Bağlantıdan ister excel formatını ister .dta uzantısını içeren zip dosyasını indirebilirsiniz.STATA uzantılı veriyi R’a aktarmak için ‘haven’ paketini yükleyip kütüphanemize eklememiz gerekiyor. Daha sonra read_dta fonksiyonu ile verimizi aktardık.Veri setinde id ve D1 kukla değişkenini uygulamada kullanmayacağımız için 7. sütuna kadar olan sütunlarla verimizi tanımladık.Daha sonra pdata.frame fonksiyonu ile verimizin formatını, index parametresine sırasıyla id leri belirten Ulkeler sütun ismini ve zamanı belirten t sütun ismini tanımlıyoruz.Daha sonra verimize göz atabiliriz.

  • Çıktı;

Ülkelerin turizm gelirlerini yıllara göre göstermek için ggplot2 paketini yükleyerek kütüphanemize çağıralım. X eksenine yılları y eksenine TG’yi tanımladık. Ülkelere göre gruplayarak yine ülkelere göre renklendireceğimizi belirttik. Daha sonra facet_grid() fonksiyonu ile grafiği ülkeler bazında böldük.Grafikten görüldüğü üzere ülkelerin TG düzeyi birbirinden farklı davranışlar sergilemekte.

Çıktı;

Modellerimizi kuracağımız, panel veri için oluşturulmuş plm paketini R’a yükleyelim ve kütüphanemize çağıralım.Sabit etkiler ve Tesadüfi etkiler olmak üzere iki model kuracağız.

Sabit Etkiler Modeli

TG bağımlı değişken ve kalan değişkenlerimizi bağımsız değişken olarak, index parametresi ile de birimleri belirten Ülkeleri ve zaman periyodunu belirten t’yi tanımlayalım.Model parametresi ile sabit etki modelini temsilen within olarak belirtelim.Daha sonra summary fonksiyonu ile modelimizin özetine ulaşalım.

Ülkeye gelen turist sayısı %1 artınca turizm gelirleri %0.64 ve turizm harcamaları %1 artınca turizm gelirleri %0.34 artmaktadır. IN bağımsız değişkeninin prob değeri 0.06’dir. 0.05’in üzerinde olduğu için IN bağımsız değişkeni istatistiksel olarak anlamsız diyebiliriz. Diğer değişkenlerin prob değerlerinde anlamsızlık görünmemektedir. Modelin genel anlamlılığını sınayan F istatistiğinin prob değeri<0.05 olduğu için anlamlı. Yani açıklayıcı değişkenler beraberce turizm gelirlerini açıklamakta anlamlıdır.Belirginlik katsayısı 0.68 olarak hesaplanmıştır. Yani bağımsız değişkenler turizm gelirlerindeki değişkenliğin %68’ini açıklamaktadır.

Çıktıda görüldüğü üzere sabit terim hesaplanmamıştır. Sabit etkiler modelinde tüm birimler için ayrı sabit terim hesaplanmaktadır. Bu sabit terimleri elde etmek için fixef fonksiyonunu kullanacağız. Fakat grup içi tahminci bu sabit terimlerin ortalamasını alarak modele ortalama bir sabit terim ekler. Bunun için de sabit terimlerin ortalamasını alabiliriz

Birim etkinin varlığını sınamak için plmtest fonksiyonunu kullanacağız ve effect parametresi ile birim etkiyi temsil eden individual’i tanımlayacağız. Yine aynı şekilde zaman etkisini de effect parametresine time sözcüğünü yazarak görebiliriz.

Prob değeri 0.05’ten küçük olduuğu için birim etkinin standart hatalarının 0’a eşit olduğunu söyleyen temel hipotezi redderiz. Alternatif hipotez olan birim etkinin var olduğu hipotez kabul edilir. Yani birimlerimiz heterojendir.

Tesadüfi Etkiler Modeli

Sabit etkiler modelinden farklı olarak burada modele parametre olarak tesadüfiliği belirten random anahtar kelimesini gönderiyoruz. Sabit etkiler modelinde birimler arasındaki farlılıklar sabit terimdeki farklılıklar ile ifade edilmekteydi. Tesadüfi etkilerde ise birim etki hata teriminde özetlenmektedir ve birim etki ile bağımsız değişkenler arasında korelasyona izin verilmez. Sabit etkiler modelinde ise birim etki ile bağımsız değişkenler arasında korelasyona izin verilir.

Model katsayılarını daha önce yorumladığımız için tekrar yorumlamayacağım. Sabit terim haricindeki tüm bağımsız değişkenler istatistiksel olarak anlamlıdır.

Model Seçimi

Yatay kesit boyutun ülkeler,şehirler olduğu durumlarda sabit etkiler modelinin, tesadüfi olarak çekildiği düşünülüyorsa tesadüfi etkiler modelinin tercih edileceği düşünülebilir.Bu ayrımı yapmak için Hausman testi yapacağız.Hausman testi tesadüfi etkiler tahmicisinin etkin olduğu temel hipotezini sınar.Prob değeri 0.004<0.05 olduğundan tesadüfi etkiler tahmicisinin etkin temel hipotez reddedilir.Yani sabit etkiler tahmincisi etkindir.

Sabit Etkiler Modelinde Temel Varsayımların Testi

Otokorelasyon

Pbgtest fonksiyonu ile otokorelasyon olmadığı temel hipotezini test edeceğiz.Çıktıya göre prob < 0.05 olduğu için temel hipotez reddedilir.Yani otokorelasyon vardır.

Birimler Arası Korelasyon

Panel veri modellerinde genel varsayımlardan bir diğeri hata terimlerinin birimlere göre bağımsız olduğudur. Birimler arasında korelasyon olması korelasyon matrisinin birim matris olmasını engeller. Temel hipotez olan birimler arası korelasyon olmadığı hipotezi test etmek için pcdtest fonksiyonunu kullanabiliriz. Test parametresindeki “lm” anahtar sözcüğü Breusch-Pagan’ın Lm istatistiğini belirtir.Prob<0.05 olduğu için temel hipotez reddedilir.Yani birimler arası korelasyon vardır.

Değişen Varyans

Bu test için de bptest fonksiyonunu kullanacağız fakat öncelikle klasik regresyon yapıcaz ve daha sonra bu vektörü bptest fonksiyonuna parametre olarak göndereceğiz.Temel hipotez olan değişen varyans olmadığı hipotezi prob<0.05 olduğu için reddedilir.Yani değişen varyans vardır.

Güçlü Tahminciler

Değişen varyans,otokorelasyon ve birimler arası korelasyon olması durumunda hata teriminn varyans kovaryans matrisi birim matris olamayacaktır. Bu durum etkinliğe ve tutarlılığa gölge düşürebilir. Etkinlik küçük varyanslılık demekti. Bu durumlardan birinin dahi var olması t istatistiklerini,güven aralıklarını,belirlilik katsayısını etkileyecek dolayısıyla güvenirliğini kaybedecektir. Bu durumda parametre katsayılarına dokunmadan standart hatalar düzeltilmeli ya da varlıkları halinde uygun yöntemlerler tahmin edilmelidir.Biz modelimizi Driscoll ve Kraay tahmincisi tahmin edeceğiz.Bu tahminci temel varsayımların sağlanmaması durumunda verilerimizde de mevcut olduğu gibi (N>T) Yani birim sayısının zaman boyutundan büyük olması durumunda kullanılabiliyor. Mevcut varsayımların ihmal edilmesi durumunda pek çok tahmin yöntemi var.Fakat verimizin yapısı itibariyle bu tahmincinin uygun olduğunu düşündüm. Tahminciyi kullanabilmek için sandwich paketini yükleyelim ve çağıralım. Daha sonra summary fonksiyonu içerisine ilk parametreye sabit etkiler modelini göndererek vcov parametresine Driscoll Kraay tahmincisini belirten vcovSCC anahtar kelimesini ekliyoruz. Hangi tahmincilerin kullanılabileceği kaynakçada belirtilen paketlerin açıklamalarında alıyor. Teorik kısmını da panel veri odaklı kitaplarda ve internet üzerinde bulabiliriz.

Değişen varyans,otokorelasyon ve birimler arası korelasyon olduğu varsayımı ile dirençli standart hatalar ile hesaplanan t istatistiklerine göre internet kullanıcı sayısı ve yatak sayısının turizm gelirleri üzerindeki etkisi anlamsızdır. Çünkü prob değerleri 0.05’in üzerinde çıkmıştır.

Bu yazımda panel veri analizi üzerine denemeler yapmaya çalıştım. Umarım yararlı olmuştur.

Kaynakça;

https://www.princeton.edu/~otorres/Panel101R.pdf

https://cran.r-project.org/web/packages/sandwich/sandwich.pdf

https://cran.r-project.org/web/packages/plm/vignettes/plm.pdf

https://cran.r-project.org/web/packages/lmtest/lmtest.pdf

https://cran.r-project.org/web/packages/panelAR/panelAR.pdf

Hakkında Buğra POLAT

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Minitab Destekli İstatistiksel Analiz Eğitimleri – Ders 1/9 [Minitab Hakkında Genel Bilgi Giriş, Menüler ve Araç Çubukları]

Minitab Hakkında Kalite iyileştirme ve istatistik eğitimi konularında dünyanın lider yazılım ve hizmet sağlayıcısıdır. Merkezi …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir