Anasayfa / Uygulamalar / R / R ile Veri Manipülasyonu | Bölüm 2/3

R ile Veri Manipülasyonu | Bölüm 2/3

Veri Bilimi maceramızda bir önceki bölümde veri manipülasyonun öneminden ve prensiplerden bahsetmiştik. Bu bölümde ise dağınık veri setlerinden ve değişken dönüşümlerinden ve tarih formatından bahsedeceğiz.

3. Dağınık Verilerin Ortak Belirtileri

Şuana kadar yaptıklarımızı kısaca örnekler üzerinde görelim.

  1. Sütun başlıkları birer değerdir, değişken ismi değildir!
Burada kişilerin göz renkleri birer değişken olarak tanımlanmıştı. Olması gereken ise aşağıdaki gibidir.
Buradaki problemi tidyr’dan gather fonksiyonu ve dplyr’dan filter fonksiyonu ile çözebiliriz. Eğer filter fonksiyonunu kullanmasaydık bir çoklama problemi ile karşı karşıya kalacaktık. Bu yüzden filter fonksiyonundan destek alma ihtiyacı duyduk.
  1. Değişkenlerin satıra ve sütuna sıkıştırılması!

– İsmail Abi!

+ Hooop!

Leyla ile Mecnun’un evcil hayvanları olsun. Bu örnek yukarıdaki örneğin tam tersidir. Elimizde tek bir kişi için farklı hayvan türleri ve bunların frekansı bulunmakta. Hayvan türünden kaynaklı bir çoklama problemi ile karşı karşıyayız.

– O veri düzenli formata gelecek Mecnun!

spread fonksiyonu ile veri setimizi düzenli hale getirmiş bulunuyoruz.

  1. Farklı değişkenlerin tek bir sütuna sıkıştırılması!

kisi veri setinde cinsiyet ve yaş değişkenlerinin tek bir değişken içerisinde olduğunu düşünelim.

İki farklı değişkenin tek bir sütun içerisinde olması maalesef işimize yaramıyor. Bu yüzden bu tip durumlarda separate fonksiyonu ile sıkıştırılan değişkeni iki ayrı değişken haline getirelim.

  1. Diğer yaygın problemler!
  • Tek bir gözlem birimi birden fazla tabloya sıkıştırılabilir.
  • Çoklu gözlem birimleri aynı tabloya sıkıştırılabilir.

İkinci maddeye odaklanalım ve Leyla-Mecnun’a geri dönelim.

Leyla ve Mecnun’un her ikisinin de yaşı ve cinsiyetini belirten ve çoklu halde bulunan iki değişkenimiz var. Ayrıca ikisinin evcil hayvanlarını belirten hayvanın türü, hayvanın ismi ve hayvanın cinsiyetini belirten üç değişkenimiz var. Burada bizi mutlu etmeyen bir şey var gibi. O da her bir gözlemdeki hayvan çoklu kişilere denk geliyor. Yani yine bir çoklama problemi ile karşı karşıyayız.

Burada dikkat etmemiz gereken şey ise aslında bu tablo içerisinde iki tane tablo olduğudur. Bu da ilişkili veri seti kavramını karşımıza çıkaracaktır.

4. Değişken Tipleri ve Dönüşümleri

R içerisindeki değişken türlerimiz character, integer, numeric, double, logical, date, factor vs.

Analizlere geçmeden önce değişken tipleri mutlaka kontrol edilmelidir. Örneğin karakter formatında elinizde sayılardan oluşan bir vektör olsun. Bu vektör içerisindeki sayılar üzerinde herhangi bir sayısal işlem yapamazsınız. Vektörü mutlaka sayısal değişken tiplerine dönüştürmeniz gerekmektedir.

Veri manipülasyonu kısmında ise örneğin müşteri numaralarının olduğu iki farklı özellikte veri seti olduğunu düşünelim. Bu veri setlerini birleştirmek istediğimizde müşteri numaralarından biri karakter formatında bir diğeri nümerik formatında ise eşleştirme yapılamayacaktır. İkisinden birinin diğerine dönüştürülmesi gerekmektedir.

Bir başka örnek vermek gerekirse, sürekli yapmanız gereken bir işlem var ve bunun için bir kod parçası oluşturup, sadece veriyi aktardıktan sonra kodu çalıştırmak isteyebilirsiniz. Veriyi aktardığınız gibi kod çalışmayabilir, çünkü verinizdeki bir değişkenin tipi farklılaşmış olabilir. Bu yüzden değişken tipleri mutlaka kontrol edilmelidir.

Değişken dönüşümleri de as.“değişken türü”() şeklinde yapılmaktadır. Tek bir örnek yeterli olacaktır bu kısım için, geri kalanları sizler deneyebilirsiniz.

  • Tarih formatı için lubridate paketi

Veri setindeki tarih değişkenlerini R’a tanıtabilmek için lubridate kütüphanesi çok yararlıdır. Örneğin karakter formatında bir tarih belirtelim ve bunu lubridate fonksiyonları ile Date fofrmatına çevirelim.

Saatler için,

Tarih ve saat için,

## [1] "2018-02-08 09:30:13 UTC"

Bölüm Sonu

Bu bölümde de hızlıca karşılabileceğimiz dağınık veri setlerine, değişken dönüşümlerinin önemine ve tarih formatlarına baktık. Bir sonraki bölümde biraz metin manipülasyonundan bahsedip, daha sonrasında eksik ve aykırı gözlemlere bakacağız.

Hakkında Ekrem Bayar

GÖZ ATMAK İSTEYEBİLİRSİNİZ

R ile Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

R’da Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir