Missing value yakni
data yang tidak lengkap. Misal, seperti gambar dibawah ini:
Keterangan:
- Ada data yang kosong pada jenis kelamin dan
pendapatan.
- Ada data yang tidak tepat, misal pada table diatas.
Pada kolom usia terdapat usia 0 dan C.
Beberapa algoritma
data mining tidak dapat mengatasi data yang tidak lengkap sehinga diperlukan
penanganan terlebih dahulu.
Beberapa cara
untuk menangani data yang tidak lengkap yakni sebagai berikut:
a. Data yang tidak lengkap dihapus.
b. Data yang tidak lengkap diisi dengan:
Penanganan Noise- Nilai yang paling sering mucul (cocok untuk data nominal atau ordinal).
- Nilai rata-rata seluruh data atau nilai rata-rata per kelompok (cocok untuk data ratio dan interval)
- Nilai perhitungan regresi (cocok untuk data ratio dan interval)
Contoh noise
yakni distorsi pada telepon. Data yang bersifat noise akan mengurangi
performansi algoritma data mining. Cara untuk
menghilangkan noise yakni sebagai berikut:
a. Binning, digunakan untuk mnegurangi variasi pada
data. Ada dua metode binning yakni binning by means (rata-rata) dan binning by
boundaries (dengan batas).
b. Clustering, dilakukan terhadap data set kemudian data yang berada diluar cluster atau tidak termasuk didalam cluster manapun dianggap sebagai noise dyang bersifat outlier akan mengurangi performansi an dihilangkan
c. Regresi, regresi dilakukan untuk mencari persamaan garis lurus yang mengakomodasi sebagian besar titik-titik data.
Contoh:
Terdapat data : 4, 8, 15, 22, 24, 35, 38, 40, 40
(apabila data belum terurut maka diurutkan terlebih dahulu)
Penyelesaian:
Penyelesaian:
4, 8, 15, 22, 24, 35, 36, 39, 39 (apabila 3 bin, maka dibagi 3 bagian)
Bin by means:
bin1 : 9, 9, 9 (didapat dari (4+8+15)/3)
bin1 : 9, 9, 9 (didapat dari (4+8+15)/3)
bin2 : 27, 27, 27 (didapat dari (22+24+35)/3)
bin3 : 38, 38, 38 (didapat dari (36+39+39)/3)
Bin by boundaries:
bin1 : 4, 4, 15
bin1 : 4, 4, 15
bin2 : 22, 22, 35
bin3 : 36, 39, 39
Penjelasan
Digunakan rumus dibawah ini:
(batas bawah+batas atas)/2
Kemudian lihat apakah lebih kecil atau lebih besar dari nilai yang didapat.
Misal:
(4+15)/2 = 9.5
4 lebih kecil dari 9.5 maka nilai yang diambil tetap 4
8 lebih kecil dari 9.5 maka nilai yang diambil tetap 4
15 lebih besar dari 9.5 maka nilai yang diambil 15
4 lebih kecil dari 9.5 maka nilai yang diambil tetap 4
8 lebih kecil dari 9.5 maka nilai yang diambil tetap 4
15 lebih besar dari 9.5 maka nilai yang diambil 15
b. Clustering, dilakukan terhadap data set kemudian data yang berada diluar cluster atau tidak termasuk didalam cluster manapun dianggap sebagai noise dyang bersifat outlier akan mengurangi performansi an dihilangkan
c. Regresi, regresi dilakukan untuk mencari persamaan garis lurus yang mengakomodasi sebagian besar titik-titik data.
Penanganan Outlier
Data outlier yakni data yang berbeda jauh dengan yang lainnya
selain itu juga memiliki gap dengan kumpulan data dominan. Data yang bersifat
outlier akan mengurangi performansi algoritma data mining sehingga perlu
dideteksi dan dihapus dari data set.
Ada beberapa
cara untuk mendeteksi adanya data outlier, yakni sebagai berikut:
a. Menggunakan grafik (kumpulan data diubah menjadi
grafik batang, atau grafik lainnya sehingga akan terlihat jelas perbedaan
datanya)
b. Menggunakan metode numerik. Langkah-langkahnya yakni sebagai berikut:
- Urutkan datanya apabila belum terurut, data diurutkan mulai dari terkecil sampai terbesar.
- Cari nilai Q3 (kuartil ke-3) dan Q1 (kuartil ke-1)
Q1= ¼ (jumlahdata+1)
Q3= ¾ (jumlahdata+1)
- Kemudian cari nilai IQR(Inter Quartil).
- Data dikategorikan sebagai outlier, jika
Nilainya > Q3 + 1.5 (IQR)
Nilainya < Q3 + 1.5 (IQR)
0 komentar:
Posting Komentar