Strategi Pemilihan Kalimat pada Peringkasan Multi Dokumen
Submission Date: 2016-08-04 11:45:38
Accepted Date: 2017-02-05 00:00:00
Abstract
Ringkasan berita diartikan sebagai teks yang dihasilkan dari satu atau lebih kalimat yang menyampaikan informasi penting dari berita. Salah satu fase penting dalam peringkasan adalah pembobotan kalimat (sentence scoring). Dimana pada peringkasan berita, metode pembobotannya sebagian besar menggunakan fitur dari berita sendiri. Berdasarkan hasil dari penelitian [3] bahwa untuk pembobotan kalimat pada dokumen yang memiliki karakter teks pendek dan terstruktur seperti berita maka teknik pembobotan kalimat terbaik adalah dengan menggunakan kombinasi dari keempat fitur yaitu word frequency, TF-IDF, posisi kalimat, dan kemiripan kalimat terhadap judul (Resemblance to the title ). Pada penelitian ini kombinasi keempat fitur tersebut dibandingkan dengan kombinasi tiga fitur dan dua fitur dan dievaluasi menggunakan nilai ROUGE-N dan dievaluasi berdasarkan lama waktu eksekusi. Berdasarkan hasil uji coba didapatkan hasil bahwa yang paling optimal diantara keempat kombinasi fitur tersebut adalah kombinasi antara dua buah fitur yakni fitur posisi kalimat dan word frequency dengan nilai ROUGE-N sebesar 0.679 dan lama waktu eksekusi 28.458 detik.
Keywords
kemiripan kalimat terhadap judul; pembobotan kalimat; posisi kalimat; ROUGE-N; TF-IDF; word frequency