Unsupervised Learning, Clustering

Kategori: Data Mining , 08 Kasım 2019 , JanFranco


Makine öğrenmesi algoritmaları 3 kategoride incelenir:

* Denetimli Öğrenme  (Supervised)
* Denetimsiz Öğrenme (Unsupervised)
* Takviyeli/Pekiştirmeli Öğrenme (Reinforcement)

2 - Denetimsiz Öğrenme

Verikümesindeki örneklerin herhangi bir etiketle ayrıştırılmadığı ve etiket sayısının bilinmediği durumlarda kullanılır. En çok kullanılan denetimsiz öğrenme yöntemi kümelemedir. Kümeleme yöntemlerinin çoğu, veri örnekleri arasında uzaklık/yakınlık bilgisini kullanarak benzerlik bulma ve gruplama işlemini gerçekleştirmedir. Uzaklık/yakınlık bilgisi öklid, manhattan, minknowksi gibi yöntemler kullanılabilir. Bunun dışında yoğunluk, komşuluk gibi hesaplamalar da kullanılabilir. Kümeleme methodunda 5 farklı veri gruplama yaklaşımı bulunmaktadır:

* Bölümleme tabanlı yöntemler
* Hiyerarşik yöntemler
* Yoğunluk tabanlı yöntemler
* Model tabanlı yöntemler
* Izgara tabanlı yöntemler

a) Bölümleme tabanlı yöntemler

Belirlenen bir merkeze dayalı kümeler oluşturulmaya çalışılır. Amaç N kadar veriyi k kadar kümeye bölmektir. Her bir veri mutlaka bir kümeye girmelidir yani hiç bir veri açıkta kalmamalıdır. Ve her kümenin en az bir elemanı olmalıdır. Kullanılan algoritmalara örnek vermek gerekirse: K-Ortalamalar, K-Medoid, PAM ve CLARA'dır. Sık kullanılan K-Ortalamalar algoritmasını incelemek gerekirse:

1- k sayısı kadar veri, rastgele şekilde küme merkezi olarak seçilir.
2- Tüm verilerin X ve Y koordinatları için seçilen küme merkezine öklid uzaklığı hesaplanır. Her veri uzaklık hesaplarına göre kendine en yakın merkezle kümelenir.
3- Atanan veriler ile tekrar küme merkezi belirlenir.
4- Küme merkezleri sabit kalana kadar 2. ve 3. adım tekrarlanır.

Algoritmanın avantajları: 

* Anlaması ve gerçekleştirilmesi kolaydır.
* Hesaplama karmaşıklığı diğer yöntemlere göre daha azdır.
* Büyük veri kümelerinde hızlı çalışır.

Dezavantajları:

* Küme sayısının baştan belirtilmesi gerekir.
* Gürültü veya aykırılıkların olduğu durumlarda performans düşer.
* Küme merkezleri her seferinde rastgele seçildiği için algoritma her çalıştığında farklı değerler üretilir.

b) Hiyerarşik Kümeleme Yöntemleri

Bu kümeleme yaklaşımında, veri örnekleri arasında iç içe bir gruplama ilişkisi kullanılarak, farklı grupların benzerlik seviyeleri ağaç yapısı şeklinde gösterilir. Hiyerarşik kümeleme yöntemleri ikiye ayrılır: Birleştirici hiyerarşik kümeleme, Ayrıştırıcı hiyerarşik kümeleme

Adım0 Adım1 Adım2  Adım3       Adım4


 \
      a,b -----------------
 /                               \
b                                 \
                                     a,b,c,d,e
c ---------------                /  
                       \            /
                             c,d,e
d     -----             /  
              \          /    
               d,e --
            /
e    -----

Adım4  Adım3 Adım2  Adım1 Adım0

Birleştirici hiyerarşik kümeleme: Matris üzerinde tek bir küme kalana kadar devam eder. Yukarıdaki grafik üzerinden örnek vermek gerekirse, sağdan sola doğru adım adım gider.

Ayrıştırıcı hiyerarşik kümeleme: Yukarıdaki grafik üzerinden örnek vermek gerekirse, soldan sağa doğru adım adım gider.

Bu yöntemin avantajları:

* Anlaması ve gerçekleştirmesi kolaydır.
* Küme sayısının baştan belirlenmesine gerek yoktur.

Dezavantajları:

* Zaman karmaşıklığı O(n2logn)'dir.
* Aykırıklıklar veya gürültüler performansı düşürür.

c) Yoğunluk Tabanlı Kümeleme Yöntemleri

Bu yöntemde örneklerin ilk dağılımı bir fonksiyon ile bulunur. Belirli bir eşik değerini aşan alanlar küme olarak kabul edilir. Veri örnekleri aykırı nokta, sınır nokta ve çekirdek nokta şeklinde sınıflandırılır. Algoritmanın parametleri şunlardır:

Eps: Veri örneğinde komşulukların belirlenmesinde kullanılan yakınlık mesafesidir.

MinPts: Bir bölgenin yoğun olduğunu belirlemek için gerekli minimum komşu parametresidir.


Sonraki Yazı: Partitioning Based Methods
Yorumlar

Henüz bir yorum bulunmuyor.
Yorum bırakın