Klasifikasi Email Spam dengan Menggunakan Metode Support Vector Machine dan k-Nearest Neighbor

Shiela Novelia Dharma Pratiwi, Brodjol Sutijo Suprih Ulama
Submission Date: 2016-07-18 15:09:37
Accepted Date: 2016-12-19 15:43:14

Abstract


Akibat dari penggunaan email yang sangat intens dapat menyebabkan dampak positif dan negatif. Hal ini dikarenakan tidak semua orang dapat menggunakan email dengan baik dan diketahui banyak sekali penyalahgunaan email yang berpotensi dapat merugikan perusahaan ataupun individual. Email yang disalahgunakan ini biasa dikenal sebagai spam atau junkmail (email sampah), isi dari email tersebut bisa berupa iklan penjualan produk, penipuan berkedok menang undian atau bahkan virus dan malware. Banyaknya penyalahgunaan email ini menimbulkan kerugian yang cukup besar antara lain dapat meningkatkan data traffic dan menyebabkan kerugian ekonomis yang cukup signifikan, terutama bagi perusahaan. Hal-hal tersebut mendasari dilakukannya penelitian tentang klasifikasi email yang kemudian akan diklasifikasikan berdasar dua kategori utama yaitu email spam dan ham. Pengklasifikasian email pada penelitian ini diselesaikan dengan menggunakan metode SVM dan KNN. Metode SVM atau Support Vector Machine merupakan salah satu metode terbaik yang dapat digunakan dalam masalah klasifikasi pola, sedangkan metode KNN atau k-Nearest Neighbor metode pengklasifikasian yang berdasar pada pengukuran jarak tertangga terdekat yang memiliki performansi yang baik ketika data training yang diberikan sedikit. Beberapa referensi menyebutkan bahwa metode KNN dan SVM akan memberikan hasil ketepatan klasifikasi yang lebih baik bila dikombinasikan dengan teknik partisi data k-fold cross validation (k-fold cv), yang mana pada penelitian ini k yang digunakan adalah 10. Sehingga dari kombinasi antara metode klasifikasi dan teknik partisi diatas didapatkan kesimpulan bahwa kombinasi metode KNN pada k = 3,5,7,9,11 dengan 10-fold cv menghasilkan ketepatan klasifikasi terbaik pada saat k=3 dengan hasil ketepatan klasifikasi  sebesar 92.28% dengan error 7.72 % sedangkan kombinasi metode SVM menggunakan kernel linier dan RBF dengan 10-fold cv menghasilkan ketepatan klasifikasi terbaik dengan menggunakan SVM linier dengan ketepatan klasifikasi yang diberikan sebesar 96.6% dengan error 3.4% sehingga disimpulkan metode SVM lebih baik dibanding metode KNN.

Keywords


k-fold cross validation; kernel; Support Vector Machine; K-Nearest Neighbor

References