Anasayfa / Erkan ŞİRİN

Erkan ŞİRİN

Gazi Üniversitesi Yönetim Bilişim Sistemleri doktora öğrencisi. Son beş yıldır hem akademik hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütür. Çalışma alanları: büyük veri sistemleri üzerinde makine öğrenmesi, olağan dışılık tespiti, sahtecilik tespiti, veri hazırlama süreci, derin öğrenme kütüphanelerinin dağıtık olarak çalıştırılması, dağıtık graf işleme çatıları ve graf veri tabanları.

Nisan, 2019

  • 21 Nisan

    Apache Spark ile Parquet Formatında Veri Okuma (Python)

    Merhaba bu yazımızda parquet uzantılı bir dosyanın pyspark ile nasıl okunacağını göreceğiz. Bu yazıyı yazmamızın sebebi pyspark ile parquet dosyası okumanın, standart dataframe API’si ile csv gibi yaygın formatları okumaktan farklılık göstermesidir. Bu çalışma esnasında kullandığım ortamlar: İşletim sistemi: Windows …

  • 21 Nisan

    Apache Spark ile Parquet Formatında Veri Yazma ve Okuma (Scala)

    Merhaba. Bu yazımızda Apache Spark ile [crayon-5cbd402ea7a61913730205-i/] uzantılı bir veri dosyasını okuyup [crayon-5cbd402ea7a74473792927-i/] uzantılı olarak diske kaydedeceğiz ve kaydettiğimiz parquet dosyasını tekrar Spark ile okuyacağız. Spark, birçok formatta veriyi okuyup yazabiliyor. Parquet, csv dosyalarına göre daha az yer kapladığı gibi okuma performansı da daha …

  • 14 Nisan

    Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

    Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri hazırlığı aşamasında bunu mutlaka yapmalıyız. Çünkü kategorik nitelikler veri hazırlığı sürecinde stringIndexer, OneHotEncoder gibi daha farklı aşamalardan geçer. Bu yazımızda Spark dataframe içindeki nitelikleri kategorik …

  • 14 Nisan

    Apache Spark DataFrame İçinden Değerlere Ulaşmak

    Merhabalar. Bu yazımızda Apache Spark Dataframe içindeki tekil bir değeri basit veri türünde (Int, Double vb.) nasıl elde edeceğimizi bir örnek ile göreceğiz. Benim yaptığım çalışma esnasında kullandığım ortam bilgileri: İşletim sistemi: Windows 10 64 bit Pro IDE: Intellij IDEA …

  • 4 Nisan

    Hadoop-Spark Big Data Developer Eğitimi

    HADOOP VE SPARK DEVELOPER EĞİTİMİ (5 GÜN) Bu uygulamalı eğitim kursu, Hadoop ve Apache Spark 2 ile yüksek performanslı dağıtık uygulamalar geliştirmek için katılımcıların temel kavramları anlamasını ve uygulama seviyesinde yetenek kazanmalarını sağlar. Katılımcılar, Hadoop’un temel kavramlarını ve çalışma mantığını …

Mart, 2019

  • 9 Mart

    Ubuntu Kafka Kurulumu

    Apache Kafka, büyük miktarlarda gerçek zamanlı veriyi verimli bir şekilde ele almak için tasarlanmış popüler bir dağıtık mesaj sistemidir. Bir Kafka kümesi(cluster), sadece yüksek derecede ölçeklenebilir ve hataya dayanıklı olmakla kalmaz, aynı zamanda ActiveMQ ve RabbitMQ gibi diğer mesaj platformlarına …

Şubat, 2019

  • 11 Şubat

    Windows 10 Üzerine Kafka Kurmak

    Merhaba, bu yazımızda akan veri işleme ve yönetmede oldukça popüler olan Apache Kafka’nın Windows 10 üzerine kurulumu ve temel komutlarından bahsedeceğiz. Ön Gereksinimler Java kurulu olmalı Sıkıştırma programı kurulu olmalı (Örn:7-zip) ———- 1. Zookeeper Kurulumu: Bir çok Apache projesi gibi …

Ağustos, 2018

  • 15 Ağustos

    Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay

    Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme öne çıkmaktadır. Sınıflandırmada veri içinde etiketlenmiş bir hedef değişken bulunurken kümelemede ise herhangi bir hedef  …

Haziran, 2018

  • 21 Haziran

    Windows 10 Spark-2 Kurulumu

    Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. …

Mayıs, 2018

  • 24 Mayıs

    Apache Spark 2.3.0 OneHotEncoderEstimator: Scala Örnek Uygulaması

    Apache Spark 2X’e geçtikten sonra dördüncü sürümünü genel kullanıma sundu. Son sürüm 2.3.0. Bu sürümle birlikte gelen bir çok yenilik arasında MLlib kütüphanesindeki OneHotEncoderEstimator da yer alıyor. Bu sınıf, makine öğrenmesinde veri hazırlığı aşamasında kategorik niteliklerin vektör haline getirilmesine katkıda bulunuyor. …