Preparing Data

Kategori: Data Mining , 06 Kasım 2019 , JanFranco


Veri hazılama aşaması, projenin en önemli kısımlarındandır. Veri hazırlama aşamasını 3 adımda incelemek mümkündür:

* Veri seçimi

Veri seçimi adımında, ham veri içerisinden daha önce tanımlamış olduğumuz, problemimizi etkileyen değişkenleri içeren bir küme oluşturulmalıdır. Bu veri kümesi, istatistiksel hesaplamalarda veya model oluşturmada bir anlam ifade edece kadar büyük olmalıdır.

* Veri önişleme

Veri temizleme: Bu adımda temel amaç, eksik verilerin giderilmesi, gürültülü verilerin ayıklanması ve aykırı değerlerin temizlenmesidir.

Eksik veriler: Eksik veri kümesinde aşağıdaki yöntemler uygulanabilir:

1- Eksik verileri göz ardı etmek: Eksik veri sayısı çok düşükse, o verileri dataset'ten çıkarmak çok büyük bir anlam kaybına yol açmayacaktır.

2- Eksik veirlerin elle doldurulması: Çözüm yollarından birisi bu olabilir ancak dataset büyüdükçe, verimsiz bir uygulama olacaktır.

3- Eksik veriyi hesaplama yöntemleri ile doldurma: Eksik veriler, mod medyan değerleri hesaplanarak doldurulabilir. Bir önceki veya bir sonraki değer ile doldurulabilir. Makine öğrenmesi veya derin öğrenme algoritmaları kullanılarak doldurulabilir.

* Veri dönüştürme

En yaygın veri dönüştürme yöntemleri aşağıdaki gibidir:

1- Normalleştirme: Verileri aynı ölçeğe, örneğin 0-1 aralığına indirger. Bu sayede farklı ölçekteki verilerin birlikte ele alınabilmesi sağlanır.

2- Birleştirme-Toplama (Aggregation): Birlikte olduklarında daha anlamlı olduklarını, iş bilgisi ya da veri analizi sayesinde bildiğimiz verilerin birlikte ele alınmasını sağlar.

3- Kategorik Değişkenler: İçinde bulunan kategorileri rakama dönüştürüp, bu rakamların kategorileri temsil etmesi sağlanan Encoding to ordinal variables yöntemi kullanılabilir. Veya her kategorinin bir sütunu temsil ettiği bir ikili matris kullanan One hot encodin yöntemi de kullanılabilir. Amaç veriyi algoritmaya uygun hale getirmektir.


Sonraki Yazı: Regression
Yorumlar

Henüz bir yorum bulunmuyor.
Yorum bırakın