Anasayfa / Genel bir bakış / Türkiye’deki Akarsular Üzerine Keşifçi Veri Analizi
Voyager Uzay Aracı, İnsanlık Tarihinin En Büyük Keşif Projesi

Türkiye’deki Akarsular Üzerine Keşifçi Veri Analizi

Utku Kubilay ÇINAR

 

Beni çok etkileyen bir söz ile yazıma başlamak isterim. Görselde gördüğünüz  “Voyager 2” uzay aracıdır. Güneş sisteminin dışına gönderilen, insanlık tarihinin en büyük keşif projesidir. Bu yazıda Keşifçi Veri Analizi örnek uygulaması yapılacaktır.

“Mikroskop insana ne kadar önemli olduğunu gösterdi; teleskop ise ne kadar önemsiz olduğunu…”  –Manly P.Hall

Veri biliminde, keşifçi veri analizi bilindiği üzere önemli bir başlıktır. Bu yazımda bazı keşifçi veri analizi yöntemleri ile kısa bir inceleme yapacağız. Türkiye’deki bazı akarsuların bileşenlerini yani suların analizini yapacağız ve hangi bölgelerde hangi fabrikalar var, hangi fabrikada kaçıncı seviye arıtma tesisi var ve bunlar suyun kalitesini ve içeriğini nasıl etkiliyor ? Bu gibi soruların cevaplarını arayacağız.

Bu yazının temel amacı, keşifçi veri analizlerinin önemini göstermek ve kısa bir çalışma ile ne gibi sonuçlar görebileceğimizi irdelemektir. Veri bilimciler olarak bizlerin temel görev ve sorumlulukları arasında veriyi modellemek, algoritmalar ile sorunu çözmek gibi maddeler olsa da keşifçi veri analizleri ile mevcut sorunları göstermek ve bu sorunları çözmek için öneriler de sunmak olduğunu unutmamalıyız.

Analizlerimize başlayabiliriz.

Kullanılan Kütüphaneler(Pokemonlar)

Veri Setini Yükleme

Veri setini R Studio 3.5.0 programına yükledikten sonra veri setini ve parametrelerini inceleyelim.
Veri setinde de görüldüğü gibi, suların bileşenlerini ve örnek alınan nehrin bazı özelliklerini içeren bir veri seti olduğunu görüyoruz.

Bir içme suyunun “kaliteli” olarak adlandırılabilmesi için bazı bileşenlerin belli oranlarda olması gerekmektedir. Su tadını, rengini ve kokusunu bu gibi bileşenlerinden alır.

Veri setindeki parametre isimlerine bakıldığında görüldüğü üzere veri setinde siyanür ve arsenik gibi zehir bileşenleri de bulunmaktadır. Bu değişkenler ile kaliteli bir su ayrımı yapılabilir. Kümeleme yöntemleri ile akarsuları birbirinden ayırabiliriz. Korelasyonlarını inceleyebiliriz. Önemli bileşenlerin birbirini nasıl etkilediğini öğrenebiliriz. Başka keşifçi analizler de yapılabilir fakat yazıyı uzun tutmak istemiyorum ve yapılabilecek diğer analiz ve yöntemleri de sizlere bırakıyorum.

Veri Manipülasyonu

Analizlerimize ve keşifçi veri analizine başlamadan önce veri setini, analizlere uygun hale getirmek gerekmektedir. Öncelikle eksik gözlem incelemesi yapılmıştır.

Eksik ya da kayıp gözlemler incelenmiştir.

IZLKOOR_x ve IZLKOOR_Y değişkenlerinde bir değer olmadığı için veri setinden çıkarılmıştır. Diğer eksik gözlemler ise grafikte de görüldüğü gibi kabul edilebilir seviyededir.

Veri setimizdeki bileşenlerin özet bilgisi;

Özet istatistikler incelendiğinde illerin kodları, grupları, bulundukları nehir ya da çayın isimleri gibi lokasyon bilgileri de mevcuttur.

Analizlerde kullanılacak olan parametrelerin karakterleri incelenmiştir.

Gruplandırma yapabileceğimiz değişkenleri faktör olarak atama yapıyoruz.

İllere göre gruplandırma yapacağımız zaman İzmir ilinde bazı değişkenler ilçeleri ile beraber yazıldığı için bu değerleri, “İzmir” olarak güncel hali ile yazmak gerekmektedir. Böylece İzmir ilinin gerçek değeri görülebilir.

Görüldüğü üzere veri setimizde en çok verisi bulunan şehirlerimiz sırasıyla İzmir, Manisa ve Balıkesir’dir.

Görsel İnceleme

Şeklindedir. Bu değişkenler ile gruplandırma işlemleri(group_by() fonksiyonu ile) yapılabilir ve bu parametreler faktör olarak atama yapıldığında ayrı başlık olarak incelenebilir.

Histogramları ve Dağılımları İncelediğimizde

Bileşenlerin dağılımı şekilde görüldüğü gibidir. Bu grafikleri incelemek, keşifçi veri analizinde önemli yere sahiptir.

Boxplot İncelemesi

Bazı önemli parametrelerde uç değerlerin olduğu gözlemlenmiştir.

Görseller incelendiğinde bazı değişkenlerde uç değerler olduğu gözlemlenmiştir fakat veri seti detaylı incelendiğinde ve veri setinin yani akarsuların karakterleri incelendiğinde bu uç değerlerin ölçüm hatası ya da verinin yanlış girilmesi gibi bir durumun olmadığı anlaşılmıştır. Uç değerlerin bizlere bir şey dediğini ve anlam içerdiği görülmelidir.

Bu uç değerlerin olmasının sebebi, ölçümün yapıldığı havzada arıtma tesisinin olmaması ya da o bölgede fabrikaların bulunmasıdır(Orjinal veri setinde akarsuların bulunduğu bölgede arıtma tesisinin varlığı ve çapı, bölgede bulunan fabrikalar gibi text formatında bilgiler de mevcuttur fakat analizlerin gösteriminde yer yerilmemiştir).

Bu detaylı inceleme yapılmasaydı ve uç değer olarak direk veri setinden silinseydi verinin bize söylemek istediği bilgileri anlayamayacaktık. Bu sebeple veri setinizde uç değerler varsa biraz durup sebebini anlamak gerekmektedir. Keşifçi veri analizinde, verinin bize söylemek istediği bilgileri algılamak ve görmek olduğu unutulmamalıdır.

Korelasyon İncelemesi

Korelasyonlar %95 güven düzeyinde anlamsız olanlar silinmiştir.

İçilebilir Suda pH Seviyesinin İncelenmesi

Araştırmalar ve literatür taraması sonucunda içilebilir suda bazı parametrelerin olmadığı(zehirli maddeler gibi) ve olması gereken parametrelerinde normal seviyede olduğu varsayımı altında incelendiğinde pH seviyesinin önemli parametrelerden biri olduğu görülmüştür. Literatürden de bu bilgi öğrenildikten sonra araştırmalarımız pH üzerine odaklanmıştır.

Bunun üzerine pH seviyesinin önemini anlamamızda ve gelecekte kuracağımız modelde pH seviyesini etkileyebilecek en önemli parametreler incelenmiştir.

Veri biliminde, çok boyutlu ve çok değişkenli veri setleri ile uğraştığımız için parametre seçimi(feature selection) çok önemli bir adımdır. Her değişken, bağımlı değişkeni aynı oranda etkilemez, bazıları daha önemlidir. Boruta algoritması ile bu önem belirlenebilir, büyük ölçekli veri setlerinde en önemli değişkenler kullanıbilir.

pH için Parametre Önemi

Parametre seçimi, Boruta Algoritması ile yapılmıştır. Parametre önemi sadece pH için değil diğer değişkenler için de hesaplanmıştır. Renk, koku ve sıcaklığa göre incelenmiştir fakat bu yazıda örnek olarak sadece pH gösterilmiştir.

Grafik incelendiğinde, pH seviyesini etkileyen en önemli bileşenler Çözünmüş Oksijen, Oksijen Doygunluğu, Mangan, Klorür ve Amanyum Azotu olarak sayılabilir.

Tablo olarak incelendiğinde, gerekli değerler aşağıdaki gibidir;

Bu çıktı ile “meanImp” değişkenini büyükten küçüğe göre sıralandığında, bağımlı değişken üzerinde açıklayıcılığı en yüksek değişkenler görülebilir.

pH Üzerinde Etkili Bileşenler

Grafikte görüldüğü gibi bileşenler arasında ilişki mevcuttur. Bazı bileşenler, bazı bileşenlerle tepkimeye girerek farklı sonuçlar elde edebilir. Bu durum incelemeye açıktır.

Paralel koordinat grafiği ile hangi bileşenin diğerleri karşısında nasıl bir davranış sergilediği incelenmiştir.

Grafiğe göre Mn bileşeni diğer bileşenlere göre azalma davranışı içindeyken bir örnekte bu durum tam tersidir(ilerleyen kısımlarda bu örnek incelendiğinde arsenik etkisi olduğu anlaşılmıştır).

Sıcaklığın İllere Göre Ortalama Değişimi

Grafikte kırmızı olarak gördüğümüz noktalar o ilde bulunan akarsuların sıcaklık ortalamalarıdır. Bu sıcaklıklar illere göre farklılık göstermektedir. Yazının ilerleyen kısımlarında pH seviyesinin ya da diğer seviyelerin illere göre grafikleri incelenecektir ve yapacağımız yorumların istatistiksel olarak anlamlı olup olmadığını anlamamız için ortalamaların istatistiksel testlerle kıyaslanması gerekmektedir. Bu testler %95 güven aralığında yapılmıştır.

Ortalamalar Arasındaki Farkın İncelenmesi

Homojenlik testi yapıldığında, varyansların homojen olması halinde yapılacak testler arasında genellikle “Tukey” testi tercih edilir.

Anova testinin varsayımlarından olan homojenlik testi incelendiğinde;

p değerimizin % 95 güven aralığında incelendiğinde varyanslar eşit diyebiliriz. (sig. değeri > 0.05)

Verilerin dağılımına bakıldığında normal ya da normale yakın olduğu görülmüştür. Veri sayısını arttırdığımızda Merkezi Limit Teoremi gereği normale yakınsayacaktır. Normallik varsayımı altında yapılan ortalamalar arasındaki farkların anlamlılığı incelendiğinde;

Ho: Ortalamalar arasında fark yoktur.

H1: En az iki ortalama arasında anlamlı bir farklılık vardır.

Çıktımızdaki p değerine bakıldığında % 95 güven aralığında Ho hipotezi reddedilir ve ortalamalar arasında anlamlı bir farklılık olduğu söylenir. Sıcaklık iller bazında istatistiksel olarak anlamlı bir farklılık göstermektedir.

pH Seviyesinin İllere Göre Ortalama Değişimi

Oksijen Doygunluğunun İllere Göre Ortalama Değişimi

Suda Bulunan En Zehirli Maddelerin Başında Olan Arsenik

İstatistiksel olarak anlamlı bileşenler grafiklerde gösterilmiştir. pH seviyesi en yüksek olan ilimiz Kütahya olmuştur. Aynı zamanda sıcaklık olarak en düşük ilimiz de Kütahya olmuştur. Bunun gibi yorumlar ve çıkarımlar çoğaltılabilir.

Sınıflandırma – Knn Algoritması

En yakın k-komşuluk ile veri setinde gruplandırma yapılmıştır.

Görselimiz,

Grafik incelendiğinde zehirli maddelerin ve pH değerlerinin gruplandırmada önemli olduğu görülmüştür ve ayrılmıştır. Bu sınıflandırma ile suların kalitesine göre derecelendirme yapabiliriz. Gruplar incelendiğinde Arseniğin çok büyük etkisi olduğu görülmüştür. Arsenik oranına göre kaliteleri ölçeklendirilebilir.

Kümelemelere ayırdıktan sonra veri setimizde, gruplar arasında anlamlı bir farkın olup olmadığını araştırmamız gerekmektedir(arsenik incelenmiştir çünkü grupların oluşturulmasında en etkili bileşen Arsenik olduğunu gördük). ANOVA Testi ile amaçlanan ise, değişkenlerin kümeler bazında anlamlı bir farklılık oluşturup oluşturmamasıdır. Gruplandırma işleminden sonra araştırmacının arzu ettiği çıktı ise gruplar arasında anlamlı bir farklılığın oluşmasıdır. Kümeleme analizlerinde, kümeler arasındaki uzaklık maksimum yapılır(bakınız diskriminant analizi).

En zehirli maddelerin başında gelen Arseniğe göre grafik oluşturduğumuzda;

Suların kalitesine göre sınıflandırma yapılmıştır. Az Riskli, Orta Riskli ve Çok Riskli olarak gruplandırılabilir.

Grupların dağılımı;

Bu çıktı ile veri setinde bulunda havza(akarsu) sayısının hangi gruplara girdiğini görebilmekteyiz.

Grupların illere göre dağılımı

Sülfat, Toplam Çözülmüş Madde, Toplam Fosfor aralarındaki ilişki;

Tüm bu grafikler ve çıktılar incelendiğinde suların kalitelerine ve içeriklerine göre bir sınıflandırma yapabilmek mümkündür fakat yazının temel amacı keşifçi veri analizlerinden bazıları ile örnek çalışma yapmaktır.

Keşifçi veri analizleri sonucunda oluşturduğumuz gruplar incelendiğinde arıtma tesislerinin önemi görülmektedir. Fabrikaların atıkları sulara boşaltıldığında suyun içeriğini, sıcaklığını ve pH düzeylerini ciddi ölçüde etkilemektedir. Bu sebeple akarsu havzalarında yapılan fabrikalara arıtma tesisi kurulması gerekmektedir ve bunun belli bir standardı olmalıdır.

Bu yazımda veri bilimciler olarak bizler, sadece elimizdeki veriden makine öğrenimi algoritmalarını, derin öğrenme algoritmalarını gerçekleştirmekten ya da sadece veriyi modellemekten sorumlu değiliz. Yaptığımız Keşifçi Veri Analizleri ve İstatistik Bilimi ile mevcut olan sorunların belirlenmesi ve çözüm süreçleri  konusunda da sorumluluk hissetmeliyiz.

Bu yazımda kısa bir keşifçi veri analizi ile Türkiye’de bulunan bazı akarsuların bileşenlerini inceleyerek mevcut sorunların analizini gerçekleştirdim. Bu yazımın asıl amacı; keşifçi veri analizi yöntemlerinin önemini vurgulamak, veriden neler ve ne gibi sonuçlar/yorumlar yapabilineceğini göstermektir. Keşifçi veri analizi, yaptığımız projelerde büyük önem taşımaktadır. Bu sebeple, neden-sonuç ilişkisini iyi kurmak, nedenselliği bilerlemek, sorunların neden kaynaklandığını(Pareto İlkesi bu konuda önemlidir) bilmek önem arz etmektedir.

Veri Çağında olduğumuzu unutmamalıyız. Veri okur yazarlığının önemini her yazımda vurguluyorum. Bu yazımda da verinin bize söylediği bilgileri anlamanın önemini belirterek sonlandırmak isterim. Keşifçi veri analizi(Exploratory Data Analysis(EDA)) ile neler yapabileceğimizi bir örnek veri seti ile önemine değinmiş olduk.

 

Saygılarımla.

Varsayımlarınızın sağlanması dileğiyle,

Veri ile kalın, Hoşça kalın..

 

 

Görsel Kaynak: http://amazinguniverse.net

Hakkında Utku Kubilay ÇINAR

GÖZ ATMAK İSTEYEBİLİRSİNİZ

Minitab Destekli İstatistiksel Analiz Eğitimleri – Ders 1/9 [Minitab Hakkında Genel Bilgi Giriş, Menüler ve Araç Çubukları]

Minitab Hakkında Kalite iyileştirme ve istatistik eğitimi konularında dünyanın lider yazılım ve hizmet sağlayıcısıdır. Merkezi …

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir