Klasifikasi Email Spam dengan Menggunakan Metode Support Vector Machine dan k-Nearest Neighbor

Shiela Novelia Dharma Pratiwi, Brodjol Sutijo Suprih Ulama
Submission Date: 2016-07-18 15:09:37
Accepted Date: 2016-12-19 15:43:14

Abstract


Akibat dari penggunaan email yang sangat intens dapat menyebabkan dampak positif dan negatif. Hal ini dikarenakan tidak semua orang dapat menggunakan email dengan baik dan diketahui banyak sekali penyalahgunaan email yang berpotensi dapat merugikan perusahaan ataupun individual. Email yang disalahgunakan ini biasa dikenal sebagai spam atau junkmail (email sampah), isi dari email tersebut bisa berupa iklan penjualan produk, penipuan berkedok menang undian atau bahkan virus dan malware. Banyaknya penyalahgunaan email ini menimbulkan kerugian yang cukup besar antara lain dapat meningkatkan data traffic dan menyebabkan kerugian ekonomis yang cukup signifikan, terutama bagi perusahaan. Hal-hal tersebut mendasari dilakukannya penelitian tentang klasifikasi email yang kemudian akan diklasifikasikan berdasar dua kategori utama yaitu email spam dan ham. Pengklasifikasian email pada penelitian ini diselesaikan dengan menggunakan metode SVM dan KNN. Metode SVM atau Support Vector Machine merupakan salah satu metode terbaik yang dapat digunakan dalam masalah klasifikasi pola, sedangkan metode KNN atau k-Nearest Neighbor metode pengklasifikasian yang berdasar pada pengukuran jarak tertangga terdekat yang memiliki performansi yang baik ketika data training yang diberikan sedikit. Beberapa referensi menyebutkan bahwa metode KNN dan SVM akan memberikan hasil ketepatan klasifikasi yang lebih baik bila dikombinasikan dengan teknik partisi data k-fold cross validation (k-fold cv), yang mana pada penelitian ini k yang digunakan adalah 10. Sehingga dari kombinasi antara metode klasifikasi dan teknik partisi diatas didapatkan kesimpulan bahwa kombinasi metode KNN pada k = 3,5,7,9,11 dengan 10-fold cv menghasilkan ketepatan klasifikasi terbaik pada saat k=3 dengan hasil ketepatan klasifikasi  sebesar 92.28% dengan error 7.72 % sedangkan kombinasi metode SVM menggunakan kernel linier dan RBF dengan 10-fold cv menghasilkan ketepatan klasifikasi terbaik dengan menggunakan SVM linier dengan ketepatan klasifikasi yang diberikan sebesar 96.6% dengan error 3.4% sehingga disimpulkan metode SVM lebih baik dibanding metode KNN.

Keywords


k-fold cross validation; kernel; Support Vector Machine; K-Nearest Neighbor

References


Suyanto. (2014). Artificial Intelligence, Searching - Reasoning - Planning - Learning. Bandung: Informatika Bandung.

Colas, F., & Brazdil, P. (2006). Comparison of SVM and Some Older Classification Algorithms in Text Classification Tasks.

Han, J., Kamber, M., & Pei, J. (2012). Data Mining : Concepts and Technique. United States of America: Morgan Kaufmann Publishers for Elsevier.

Saraswati, N. W. (2011). Text Mining dengan Metode Naive Bayes Classifier dan Support Vector Machine untuk Sentiment Analysis.

Rifqi, N., Maharani, W., & Shaufiah. (2011). Analisis dan Implementasi Klasifiksi Data Mining Menggunakan Jaringan Syarah Tiruan dan Evolution Strategis.

Weiss, S. M. (2010). Text mining: Predictive Methods for Analyzing Unstructured Information. New York: Springer.

Metsis, V., Androutsapoulos, I., & Paliouras, G. (2006). Spam Filtering with Naive Bayes – Which Naive Bayes? . CEAS PAPER .

Bengio, Y. (2004). No Unbiased Estimator of the Variance of K-Fold Cross-Validation. Journal of Machine Learning Research 5 (2004) 1089–1105.

Deokar, S. (2009). University of Minnesota Duluth. Diambil kembali dari CSEEWebsite:http://www.csee.umbc.edu/~tinoosh/cmpe650/slides/K_Nearest_Neighbor_Algorithm.pdf

Cortes, C., & Vapnik, V. (1995). “Support-Vector Networks,” Machine Learning, vol. 20, no. 3, pp. 273-297. Machine Learning.

Feldman, R., & Sanger, J. (2007). The Text Mining Hand Book. New York: Cambridge University Press.

Nugroho, A. S., Witarto, A. B., & Handoko, D. (2003). Support Vector Machine : Teori dan Aplikasinya dalam Bioinformatika.

Miner, G., Nisbet, B., Elder, J., Delen, D., Fast, A., & Hill, T. (2012). Practical Text Mining and Statistical Analysis for Unstructured Text Data Applications. United State of America: Academic Press.

Chen, Y.-N., Lu, C.-A., & Huang, C.-Y. (2009). Anti Spam Filter Based on Naive Bayes, SVM and KNN Model.

Huang, C.-M., Lee, Y.-J., Lin, D. K., & Huang, S.-Y. (2007). Model Selection For Support Vector Machines Via Uniform Design. Computational Statistics & Data Analysis, 335-346.


Full Text: PDF

CC Licencing


Authors who publish with this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).

Refbacks

  • There are currently no refbacks.


Lembaga Penjaminan Mutu, Pengelolaan dan Perlindungan Kekayaan Intelektual (LPMP2KI) ITS
Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.