Anasayfa / Erkan ŞİRİN

Erkan ŞİRİN

2014'ten beri hem akademik hem de sektörde pratik anlamda büyük veri ve veri bilimi ile ilgili çalışmalar yürütmektedir. Halihazırda İmpektra Bilişim A.Ş.'de büyük veri yöneticisi olarak çalışmakta olup aynı zamanda Gazi Üniversitesi Yönetim Bilişim Sistemleri doktora öğrencisidir. Büyük veri ve veri bilimi ile ilgili birçok kurum ve şirkete eğitimler vermekte ve projeler icra etmektedir. Çalışma alanları: büyük veri platformlarının kurulum ve yönetimi, büyük veri üzerinde makine öğrenmesi, olağan dışılık tespiti, sahtecilik tespiti, veri hazırlama sürecidir.

Nisan, 2019

  • 27 Nisan

    HDP-Sandbox içinde YARN’a Daha Fazla Kaynak Tahsis Etmek

    Merhabalar. Bu yazımızda Hortonworks’ün Hadoop sürümü olan HDP 2.6.4 Sandbox üzerinde YARN’a daha fazla kaynağı nasıl tahsis edeceğimizi göreceğiz. Bu yazımızın amacı Sandbox ile uygulama yaparken en fazla bir YARN uygulaması çalıştırabilecek kadar kısıtlı kaynağa (özellikle de RAM) sahip omasıdır. …

  • 21 Nisan

    Apache Spark ile Parquet Formatında Veri Okuma (Python)

    Merhaba bu yazımızda parquet uzantılı bir dosyanın pyspark ile nasıl okunacağını göreceğiz. Bu yazıyı yazmamızın sebebi pyspark ile parquet dosyası okumanın, standart dataframe API’si ile csv gibi yaygın formatları okumaktan farklılık göstermesidir. Bu çalışma esnasında kullandığım ortamlar: İşletim sistemi: Windows …

  • 21 Nisan

    Apache Spark ile Parquet Formatında Veri Yazma ve Okuma (Scala)

    Merhaba. Bu yazımızda Apache Spark ile [crayon-5d093dcf3e12f787584976-i/] uzantılı bir veri dosyasını okuyup [crayon-5d093dcf3e142512227336-i/] uzantılı olarak diske kaydedeceğiz ve kaydettiğimiz parquet dosyasını tekrar Spark ile okuyacağız. Spark, birçok formatta veriyi okuyup yazabiliyor. Parquet, csv dosyalarına göre daha az yer kapladığı gibi okuma performansı da daha …

  • 14 Nisan

    Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

    Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri hazırlığı aşamasında bunu mutlaka yapmalıyız. Çünkü kategorik nitelikler veri hazırlığı sürecinde stringIndexer, OneHotEncoder gibi daha farklı aşamalardan geçer. Bu yazımızda Spark dataframe içindeki nitelikleri kategorik …

  • 14 Nisan

    Apache Spark DataFrame İçinden Değerlere Ulaşmak

    Merhabalar. Bu yazımızda Apache Spark Dataframe içindeki tekil bir değeri basit veri türünde (Int, Double vb.) nasıl elde edeceğimizi bir örnek ile göreceğiz. Benim yaptığım çalışma esnasında kullandığım ortam bilgileri: İşletim sistemi: Windows 10 64 bit Pro IDE: Intellij IDEA …

  • 4 Nisan

    Hadoop-Spark Big Data Developer Eğitimi

    HADOOP VE SPARK DEVELOPER EĞİTİMİ (5 GÜN) Bu uygulamalı eğitim kursu, Hadoop ve Apache Spark 2 ile yüksek performanslı dağıtık uygulamalar geliştirmek için katılımcıların temel kavramları anlamasını ve uygulama seviyesinde yetenek kazanmalarını sağlar. Katılımcılar, Hadoop’un temel kavramlarını ve çalışma mantığını …

Mart, 2019

  • 9 Mart

    Ubuntu Kafka Kurulumu

    Apache Kafka, büyük miktarlarda gerçek zamanlı veriyi verimli bir şekilde ele almak için tasarlanmış popüler bir dağıtık mesaj sistemidir. Bir Kafka kümesi(cluster), sadece yüksek derecede ölçeklenebilir ve hataya dayanıklı olmakla kalmaz, aynı zamanda ActiveMQ ve RabbitMQ gibi diğer mesaj platformlarına …

Şubat, 2019

  • 11 Şubat

    Windows 10 Üzerine Kafka Kurmak

    Merhaba, bu yazımızda akan veri işleme ve yönetmede oldukça popüler olan Apache Kafka’nın Windows 10 üzerine kurulumu ve temel komutlarından bahsedeceğiz. Ön Gereksinimler Java kurulu olmalı Sıkıştırma programı kurulu olmalı (Örn:7-zip) ———- 1. Zookeeper Kurulumu: Bir çok Apache projesi gibi …

Ağustos, 2018

  • 15 Ağustos

    Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay

    Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme öne çıkmaktadır. Sınıflandırmada veri içinde etiketlenmiş bir hedef değişken bulunurken kümelemede ise herhangi bir hedef  …

Haziran, 2018

  • 21 Haziran

    Windows 10 Spark-2 Kurulumu

    Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. …