Anasayfa / Uygulamalar / R / R ile Veri Manipülasyonu | Bölüm 3/3

R ile Veri Manipülasyonu | Bölüm 3/3

En önemli bölümümüz birinci bölümdü. Temel prensipleri anladığımız taktirde işlemleri bir şekilde yapabiliriz, geri kalan kısım ise bu prensipleri uygulayacağımız kısımlardır. Burada çok detaya girmeden metin manipülasyonu için bazı fonksiyonları anlatacağız. Ardından ise eksik gözlem, aykırı gözlem ve bazı bariz hatalardan bahsedeceğiz.

5. Metin Manipülasyonu

Verilerde metinler başlı başına bir problem bu yüzden yeri geldiğinde metinleri de manipüle edebilmemiz gerekiyor. Bu yüzden bazı base R komutlarını ve stringr kütüphanesini kullanıyor olacağız.

5.1. Metin Manipülasyonunda Önemli Fonksiyonlar

  • stringr
  • str_trim() fonksiyonu metin içerisindeki baştaki ve sondaki fazlalık olan boşlukları siler.
  • str_pad() fonksiyonu metinin sağına,soluna veya hem sağına hem de soluna bir değer/karakter girmek için kullanılır.
  • str_detect() fonksiyonu veri içerisinde belirttiğimiz elemanın varlığını sorgulamak için yaptığımız mantıksal bir işlemdir.
  • str_replace() fonksiyonu ile metin içerisindeki bir elemanı değiştirmek istenirse kullanılır. Elimizde uzun bir metin varsa str_replace_all() fonksiyonu ile metin içerisindeki tüm Alileri Mahmut yapma fırsatımız vardır.
  • str_remove() fonksiyonu ile metin içerisinde istemediğimiz bir kelime / karakter / noktalama işaretini kaldırmaya yarar. Uzun bir metin verisinde hepsini kaldırmak istersek str_remove_all() fonknsiyonu kullanılır.
  • Base R

paste() fonksiyonu iki karakteri birleştirmeye yarar.

noquote() fonksiyonu ile bazı işlemler sonucunda çıktısının tırnaksız veya nümerik değerler olarak almamız gerekiyor. Bu yüzden bu fonksiyon işinize yarayacaktır.

cat() fonksiyonu metine yukarıdaki işlemler gibi bir vektör muamelesi yapmadan direk çıktısını verir.

nchar() metnin karakter uzunluğunu verir.

tolower() ve toupper() harfleri küçültmeye veya büyütmemeye yarar.

chartr() fonksiyonu metin içerisindeki karakter değişimi yapmak istersek.

Metin manipülasyonu konusunu çok fazla uzatmaya gerek yok. Bu gösterdiklerimiz haricindeki Base R komutlarını ve stringr cheat sheet’indeki komutları kolaylıkla öğrenebilirsiniz.

6. Eksik Gözlemler ve Özel Değerler

Eksik gözlemler,

  • rastgele olabilir ama varsayımı tehlikelidir.
  • Bazen değişkenler veya ilgili çıktılar ile ilişkilidir.
  • R’da eksik gözlemler NA olarak temsil edilir.
  • Diğer formatlarda da olabilir. Örneğin, Excelde #N/A şeklinde, SPSS ve SAS’ta . şeklinde veya boş bir metin olarak karşımıza çıkabilir.

Özel Değerler,

  • Inf – Infinte Value = Sonsuz Değerler
  • Nan – Not a number = Bir sayı değil

6.1. Eksik Gözlem Tespiti

Eksik gözlemlerimizin olduğu bir veri seti oluşturalım.

  • is.na() tüm veri setinde mantıksal olarak eksik gözlem tespiti için kullanılır.

  • any(is.na()) veri setinde herhangi bir eksik gözlem var mı diye bakmak için kullanılır.

Eksik gözlemlerimizin olduğunu artık biliyoruz. Peki ne kadar eksi gözlemimiz var ?

Elimizde 3 tane eksik gözlemimiz bulunmakta. Yani mantıksal olarak 3 tane TRUE mevcut.

Ayrıca summary fonksiyonu ile veri setinin özetine bakarsak eksik gözlemlerimizin nerede kaç tane olduğunu da görebiliriz.

6.2. Eksik Gözlemler ile Mücadele

  • Satır bazında eksik gözlem olmayan değerleri mantıksal olarak göstermek,
  • Eksik gözlemlerin silinmesi,
veya,

7. Aykırı Değerler

Örneğin 30 kişilik bir sınıfın boy ortalamasını bulmak istiyoruz.Ama bu sınıfta 2 metrelik bir öğrencinin olduğunu düşünelim. Bu öğrenci nedeniyle boy ortalaması olması gerekenden yüksek çıkacaktır. Bu yüzden analizi yapmadan bu öğrenciyi hesaba katmamak gerekir. İşte bu 2 metrelik öğrenci bir aykırı gözlem / değerdir.

Aykırı gözlem tespitinde boxplot kullanışlı bir araçtır. Boxplotun uçlarının dışındaki noktalar bize aykırı değerleri göstermektedir.

Aykırı değerler,

  • veri içerisindeki diğer değerlerden uzaktadır
  • yanlış veri girişinden, deneysel bir hatadan, ölçme hatalarından kaynaklanır.

Bir veri bilimci olarak kendimize sormamız gereken soru, “bu aykırı gözlemler neden veri içerisinde ?”. Buna karar verdikten sonra problemimize bağlı olarak aykırı değerlere veri setinden atılablir veya tutulabilir.

7.1. Bariz Hatalar

Yukarıdaki boxplotun aslında bir şirkette çalışanların yaş dağılımını olduğunu söylersek, verideki -5 değeri yanlış bir veridir.

  • Bariz hataları pek çok formatta karşımıza çıkabilir.

Örneğin, yaş verisinde aykırı gözlemin negatif veya 250 gibi olması akla yatkın bir gözlem değildir.

  • Bariz hatalara bazı yanlışlıklar neden olur.

Veri giriş hataları, ölçüm hataları, eksik gözlemler için özel değerler girilmesi (-1 gibi) ve benzer yanlışlıklar ile bariz hatalar karşımıza çıkar.

  • Bariz hatalar ortadan kaldırılmalı veya düzeltilmelidir.

7.2. Aykırı Değerleri ve Hataları Bulma

Aykırı değerlerin olduğu bir veri seti oluşturalım.

summary fonksiyonundaki özet istatistikler ile aykırı gözlemleri tespit edebiliriz. Çıktıda minimum ve maksimum değerlere bakara değişkenlerdeki aykırı değerler görülebilir.

B değişkeninin maksimum değeri 500, C değişkeninin minimum değeri ise -1’dir. B değişkeninin histogramına bakalım.

Histogramdaki tüm değerler 0 ile 100 arasındadır fakat grafiğin en sağında tek bir gözlem bulunmakta. Muhtemelen 500 değeri yanlışıkla girilmiş olabilir diye düşünebiliriz.

Aykırı gözlemleri daha iyi görmek için bir boxplot çizdirelim. Boxplotta da görüleceği üzere 500 ve -1 değerleri birer aykırı gözlemlerdir.

Sonuç

Tüm süreç boyunca veri manipülasyonu hakkında teorik bilgiler edindik. Artık önümüze veri geldiğinde neler yapacağımızı, hangi yaklaşımlarla hareket edeceğimizi biliyoruz. Bundan sonrasında bu teorik bilgilerimizi pratiğe dökme zamanı. Aşağıdaki üç aşamayı dikkatli bir şekilde uyguladığınızda daha bilinçli bir şekilde veri manipülasyonunu gerçekleştirebiliriz.

  1. Ham verileri keşfetmek
  2. Düzenli veri formatı – Tidy data
  3. Veriyi analizler için hazırlamak

Tüm bu teorik bilgileri bir hava durumu seti üzerinde uygulamasını yaptığımız bölüme de göz atarmanız, teorik bilgilerin pekişmesine yardımcı olacaktır. Ayrıca bu teorik bilgileri kendi veri setleriniz üzerinde denemeniz sizlere iyi bir deneyim kazandıracakır.

Uygulama linki aşağıdadır.

https://www.veribilimi.co/2018/08/25/r-ile-veri-manipulasyonu-uygulama/?preview_id=5401&preview_nonce=85853a9612&_thumbnail_id=5402&preview=true

Kaynak: https://www.datacamp.com/courses/cleaning-data-in-r

 

 

Hakkında Ekrem Bayar

GÖZ ATMAK İSTEYEBİLİRSİNİZ

R ile Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

R’da Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir