Anasayfa / Uygulamalar / R / R ile Metin Madenciliği | Bölüm 3/6

R ile Metin Madenciliği | Bölüm 3/6

Önceki yazılarda metin madenciliği üzerine genel girişi yaptığımıza göre yavaş yavaş işi ilerletme zamanı geldi, ama önceki konuda neler yaptığımızı hatırlayalım. Duygu analizinin ve duygu sözlüklerinin ne olduğunu, karşılaştırmalar ve görselleştirmeler üzerinden anlattık. Şimdi ise, belge koleksiyonlarından nasıl bilgi çıkarımı yapacağımızı keşfedelim.

3. Bölüm – Kelime ve Belge Sıklıklarını Analiz Etme: tf-idf

Doğal Dil İşlemenin ve Metin Madenciliği ortak bir soruyu kendine sorar, bir belgenin (döküman) ne ile alakalı olduğunu ölçmek. Belgeyi oluşturan kelimelere bakarak bunu yapabilir miyiz ? Bir kelimenin ne kadar önemli olabileceğinin bir ölçüsü, terim sıklığıdır (tf – term frequency).

Duraklama kelimelerinden bahsettik “the”, “of” gibi kelimeler. Belge içerisinde kelimeler var ama bunlardan bazıları çok fazla tekrar etmesine rağmen bir anlamı olmayabilir. Bu gibi kelimeleri duraklama kelimeleri gibi duraklama kelimesi listesine ekleyip, analizden çıkarma yaklaşımı sergileyebiliriz, ancak bazı kelimeler de bu belgelerin bazılarının diğerlerinden daha önemli olabileceği de olasıdır. Durma kelimelerinin listesi, yaygın olarak kullanılan kelimeler için terim sıklığını ayarlamada çok karmaşık bir yaklaşım değildir.

Bir diğer yaklaşım ise, terimin yaygın olarak kullanılan kelimelerin ağırlığını azaltan ve bir doküman koleksiyonunda çok fazla kullanılmayan kelimelerin ağırlığını arttıran bir terimin ters belge frekansına (inverse document frequency -idf) bakmaktır . idf, tf (terim frekansı) ile çarpılarak birleştirilebilir.

İstatistiksel tf-idf , bir kelimenin bir belgenin bir koleksiyonunda (veya bir belgede), örneğin bir roman koleksiyonunda bir romanda veya bir web sitesi koleksiyonundaki bir web sitesinde bir belgenin ne kadar önemli olduğunu ölçmek için tasarlanmıştır.

tf-idf, metin madenciliğinde, arama motorlarında vb. şeylerde yararlı olduğu kanıtlanmıştır.

3.1. Jane Austen’in Romanlarındaki Terim Frekansı

Jane Austen’in yayınlanmış romanlarına bakarak başlayalım. İlk olarak terim frekanslarını (tf), daha sonra da tf-idf’yi inceleyelim.

Jane Austen’in romanlarında en çok kullanılan kelimeler nelerdir?

n / total ile her romanın dağılımına bakalım, bir romanda görünen kelimelerin sayısı o romanda toplam terim (kelime) sayısına bölünür.

Jane Austen’in Romanlarında Terim Frekans Dağılımı

Grafikler tüm romanlar için benzer dağılıma sahip.

3.2. Zipf Kanunu

Zipf yasası, bir kelimenin ortaya çıkma sıklığıyla, sırasının ters orantılı olduğunu belirtir.

Terim sıklığını göstermek için kullandığımız veri çerçevesine sahip olduğumuzdan, Zipf’in Jane Austen’in romanlarına ilişkin birkaç yasayı dplyr işlevleri ile inceleyelim.

Buradaki rank sütunu, frekans tablosundaki her kelimenin sıralamasını bize gösterir. Tablo zaten frekanslara göre sıralandı, row_number() ile kelimelerin sırasını bulmak için kullanabiliriz.

Zipf yasası genellikle x ekseni ve y ekseni üzerindeki terim sıklğı logaritmik ölçekler üzerinde grafik çizilerek görselleştirilir. Bu şekilde çizildiğinde, ters orantılı bir ilişki sabit, negatif bir eğime sahip olacaktır.

Jane Austen’in romanları için Zipf yasası

Yukarıdaki şekilde log-log koordinatlarında olduğuna dikkat etmeliyiz. Jane Austen’in romanlarının altı tanesinin birbirine benzediğini ve kelime sırası ile frekansı arasındaki ilişkinin negatif eğime sahip olduğunu görüyoruz. Güç yasası ile belli aralıkta nasıl olduğunu görelim.

Aslında burada -1’e yakın bir eğime sahibiz.

Jane Austen’in romanlarıyla Zipf yasası için bir üs uydurma

Jane Austen’in romanlarının korpusu için Zipf’in yasasının klasik versiyonuna yakın bir sonuç bulduk.

Bu tür analizler yazarları karşılaştırmak ya da diğer metin koleksiyonlarını karşılaştırmak için yapılabilir. bu analizler sadece düzenli veri ilkelerini kullanarak uygulanabilir.

3.3. bind_tf_idf() Fonksyionu

Tf-idf, yaygın olarak kullanılan kelimelerin ağırlığını azaltarak ve bir dökümanda ya da belgede çok fazla kullanılmayan kelimelerin ağırlığını artırarak, her bir belgenin içeriği için önemli kelimeleri bulmaya çalışır.

Jane Austen’in romanlarıyla tf-idf hesaplamaya çalışalım

word değişkeni terimleri, book değişkeni dökümanları ve son değişken n ise her bir kelimenin o belge içinde geçme sıklığını içerir. total değişkeni her bir kitaptaki(belgedeki) kelime sayısını içerir. Ancak bind_tf_idf() fonksiyonu için total değişkeni gerekli değildir. Sadece her belgede bulunan tüm kelimeleri veri setinde içermesi yeterlidir.

Bu son derece yaygın kelimeler için idf ve dolayısıyla tf-idf’in sıfır olduğuna dikkat etmemiz gerekiyor. Buradaki kelimeler Jane Austen’ın romanlarının altısında da görülen tüm kelimelerdir. Bu nedenle idf terimi sıfırdır.

Bir belge koleksiyonundaki belgelerin çoğunda ortaya çıkan kelimeler için ters belge(döküman) frekansı (inverse document frequency – idf) sıfıra yakın olacak şekilde çok düşük olur. Bu yaklaşım ortak kelimelerin ağırlığının nasıl azalttığıdır. Ters Belge Frekansı (idf), koleksiyondaki belgelerin daha azında ortaya çıkan kelimeler için daha yüksek bir sayı olacaktır.

Jane Austen’in eserlerindeki yüksek tf-idf değerlerine bakalım.

Burada tüm isimler, gerçekte bu romanda önemli olan isimleri görüyoruz. Bunların hiçbiri romanda yer alamaz ve Jane Austen’in romanlarının içindeki her metin için önemli, karakteristik kelimelerdir.

Bu yüksek tf-idf kelimelerinin görselleştirilmesi yani Jane Austen’in romanlarının her birindeki en yüksek tf-idf kelimeleri

Görsellerde tf-idf tarafından ölçülen her bir romanda isimler ön plana çıkmış. Jane Austen altı romanında benzer bir dil kullanmış ve kişieri ön plana çıkartmış.

3.4. Özet

Terim sıklığı ve ters belge frekansı kullanmak, belge koloksiyonlarındaki belgelerin içerisindeki karakteristik kelimeleri bulmamızı sağlar. Tidytext paketi, tf-idf’in düzenli veri ilkeleriyle tutarlı bir şekilde kullanılmasını ve bu sayede belge koleksiyonlarındaki belgeler içindeki farklı kelimelerin öneminin nasıl olduğunu gösterir.

Hakkında Ekrem Bayar

GÖZ ATMAK İSTEYEBİLİRSİNİZ

R ile Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

R’da Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir