Measuring Performance of Classification

Kategori: Data Mining , 07 Kasım 2019 , JanFranco


- Sınıflandırma Performansını Ölçme Yöntemleri

Sınıflandırma problemleri için kullanılan performans ölçme yöntemleri şunlardır: Log-Kaybı (Log-Loss), Doğruluk (Accuracy), F1 Skoru, Eğri Altında Kalan Alan (Area Under Curve)

Log-Kaybı: Logaritmik kayıp oldukça önemli bir performans ölçütüdür. Tahmin değerinin 0 ile 1 arasında bir olasılık değeri olduğu durumlarda sınıflandırma modelinin performansını ölçer. Mükemmel modelin log-kaybı değeri 0'dır.

Karmaşıklık (Hata) Matrisi: Bu yöntemi örnek üzerinde anlatmak gerekirse, hedef değişkenimiz için aşağıdaki iki etiketi kullanalım:

0: Kişide test edilen hastalık bulunmamakta
1: Kişide test edilen hastalık bulunmakta

Doğru Pozitif (DP): Verinin gerçek değerinin 1, tahmin edilen değerin 1 olduğu durum
Doğru Negatif (DN): Verinin gerçek değerinin 0, tahmin edilen değerin 0 olduğu durum
Yanlış Pozitif (YP): Verinin gerçek değerinin 0, tahmin edilen değerin 1 olduğu durum
Yanlış Negatif (YN): Verinin gerçek değerinin 1, tahmin edilen değerin 0 olduğu durum

         |
  DP  |  YP
         |
  -------------
         |
  YN  |  DN
         |

Doğruluk (Accuracy): Hedef değişken sınıfların veri kümesinde dengeli dağıldığı durumlarda kullanılır. Doğru tahmin edilen verilen tüm verilere oranıdır.

                       DP + DN
Doğruluk = --------------------
             DP + YP + YN + DN

Kesinlik (Precision): Pozitif tahmin ettiğimiz verilerin, gerçekte hangi oranda pozitif olduğunu söyler.

                     DP
Kesinlik =  -----------
                DP + YP

Yakalama (Recall) veya Hassaslık (Sensitivity): Gerçekte pozitif olan verileri, ne kadar doğru tahmin ettiğimizi ölçer.

                         DP
Yakalama = ------------
                     DP + YN

Belirlilik (Specifity): Gerçekte negatif olan verileri, ne kadar doğru tahmin ettiğimizi ölçer.

                    DN
Belirlilik = -----------
               DN + YP

F1 Skoru: Kesinlik ve yakalama değerlerini ayrı ayrı hesaplamak yerine tek bir formülde de yapılabilir. 

                   2 * Kesinlik * Yakalama
F1 Skoru = -------------------------
                      Kesinlik + Yakalama

ROC Eğrisi (ROC Curve): Bu eğri ikili sınıflandırma yönteminin performansını ölçmek için kullanılır. Y ekseninde Hassaslık, X ekseninde Belirlilik değeri vardır. 

Eğri Altında Kalan Alan (Area Under the ROC Curve): Alan değeri 1'e yakın olan sonuçlar mükemmele yakın sonuçlardır. 0-1 arasındadır. 


Sonraki Yazı: Unsupervised Learning, Clustering
Yorumlar

Henüz bir yorum bulunmuyor.
Yorum bırakın