RSS

Data Cleaning Pada Data Preprocessing

Penanganan Missing Value


Missing value yakni data yang tidak lengkap. Misal, seperti gambar dibawah ini:


Keterangan:
-    Ada data yang kosong pada jenis kelamin dan pendapatan.
-   Ada data yang tidak tepat, misal pada table diatas. Pada kolom usia terdapat usia 0 dan C.
Beberapa algoritma data mining tidak dapat mengatasi data yang tidak lengkap sehinga diperlukan penanganan terlebih dahulu.

Beberapa cara untuk menangani data yang tidak lengkap yakni sebagai berikut:
a. Data yang tidak lengkap dihapus.
b. Data yang tidak lengkap diisi dengan:
  • Nilai yang paling sering mucul (cocok untuk data nominal atau ordinal).
  • Nilai rata-rata seluruh data atau nilai rata-rata per kelompok (cocok untuk data ratio dan interval)
  • Nilai perhitungan regresi (cocok untuk data ratio dan interval)
Penanganan Noise


Contoh noise yakni distorsi pada telepon. Data yang bersifat noise akan mengurangi performansi algoritma data mining. Cara untuk menghilangkan noise yakni sebagai berikut:

a. Binning, digunakan untuk mnegurangi variasi pada data. Ada dua metode binning yakni binning by means (rata-rata) dan binning by boundaries (dengan batas).
Contoh:
Terdapat data : 4, 8, 15, 22, 24, 35, 38, 40, 40
(apabila data belum terurut maka diurutkan terlebih dahulu)
Penyelesaian:

4, 8, 15, 22, 24, 35, 36, 39, 39 (apabila 3 bin, maka dibagi 3 bagian)

Bin by means:
bin1 : 9, 9, 9 (didapat dari (4+8+15)/3)

bin2 : 27, 27, 27 (didapat dari (22+24+35)/3)

bin3 : 38, 38, 38 (didapat dari (36+39+39)/3)

Bin by boundaries:
bin1 : 4, 4, 15

bin2 : 22, 22, 35

bin3 : 36, 39, 39

Penjelasan

Digunakan rumus dibawah ini:

(batas bawah+batas atas)/2
Kemudian lihat apakah lebih kecil atau lebih besar dari nilai yang didapat.
Misal:
(4+15)/2 = 9.5
4 lebih kecil dari 9.5 maka nilai yang diambil tetap 4
8 lebih kecil dari 9.5 maka nilai yang diambil tetap 4
15     lebih besar dari 9.5 maka nilai yang diambil 15


b. Clustering, dilakukan terhadap data set kemudian data yang berada diluar cluster atau tidak termasuk didalam cluster manapun dianggap sebagai noise dyang bersifat outlier akan mengurangi performansi an dihilangkan


c. Regresi, regresi dilakukan untuk mencari persamaan garis lurus yang mengakomodasi sebagian besar titik-titik data.


Penanganan Outlier

Data outlier  yakni data yang berbeda jauh dengan yang lainnya selain itu juga memiliki gap dengan kumpulan data dominan. Data yang bersifat outlier akan mengurangi performansi algoritma data mining sehingga perlu dideteksi dan dihapus dari data set.
Ada beberapa cara untuk mendeteksi adanya data outlier, yakni sebagai berikut:
a.   Menggunakan grafik (kumpulan data diubah menjadi grafik batang, atau grafik lainnya sehingga akan terlihat jelas perbedaan datanya)
b.   Menggunakan metode numerik. Langkah-langkahnya yakni sebagai berikut:
  • Urutkan datanya apabila belum terurut, data diurutkan mulai dari terkecil sampai terbesar.
  • Cari nilai Q3 (kuartil ke-3) dan Q1 (kuartil ke-1)
Q1= ¼ (jumlahdata+1)
Q3= ¾ (jumlahdata+1)
  • Kemudian cari nilai IQR(Inter Quartil).
  • Data dikategorikan sebagai outlier, jika
Nilainya > Q3 + 1.5 (IQR)
Nilainya < Q3 + 1.5 (IQR)







0 komentar:

Posting Komentar