Ekstraksi Informasi pada Dokumen Teks Menggunakan Metode Named-Entity Recognition untuk Sistem Autofill Formulir Lowongan SIM Magang MyITS StudentConnect

Kevin Christian Hadinata, Dini Adni Navastara, Hadziq Fabroyir
Submission Date: 2022-02-10 18:22:23
Accepted Date: 2022-04-18 10:13:53

Abstract


Sistem Informasi Manajemen (SIM) Magang MyITS StudentConnect adalah suatu platform yang dibuat untuk memenuhi kebutuhan penyebaran informasi magang dalam lingkungan mahasiswa Institut Teknologi Sepuluh Nopember (ITS). Dalam perkembangannya, diperlukan suatu sistem yang efektif dan efisien untuk pengisian informasi lowongan yang akan diunggah oleh pihak Pengembangan Kewirausahaan dan Karir (PK2) dalam lingkungan ITS. Oleh karena itu, suatu sistem autofill (sistem pengisian otomatis) dirasa perlu untuk dapat meningkatkan efisiensi dalam pengisian lowongan magang. Sistem ini bekerja dengan cara memindai dokumen lowongan magang yang diunggah dan mengisikan informasi yang didapat dari dokumen lowongan tersebut dalam format lowongan yang sesuai dengan modul SIM Magang myITS Student Connect.Untuk melakukan ekstraksi informasi dari dokumen yang diunggah, dilakukan pemindaian data teks menggunakan teknik Optical Character Recognition (OCR). Lalu, untuk klasifikasi, digunakan metode Named-Entity Recognition (NER), yang merupakan salah satu metode Natural Language Processing yang dapat mengklasifikasikan informasi berdasarkan entitasnya. Hasil ekstraksi informasi tersebut kemudian dimasukkan ke dalam kolom-kolom form yang tersedia sesuai dengan format modul Magang myITS StudentConnect. Hasil dari penelitian ini diharapkan dapat meningkatkan kinerja dan efisiensi SIM Magang dalam melakukan pendistribusian informasi terkait magang yang tersedia untuk kalangan mahasiswa-mahasiswa ITS. Dilakukan pengamatan performa terhadap ketepatan analisa NER dengan menggunakan data latih berupa poster lowongan magang sebanyak 24 buah. Setelah itu, didapatkan hasil berupa optimizer Adam dengan epochs sebanyak 1000 yang dapat bekerja dengan performa paling baik dengan nilai precision 0.53023, recall 0.56755, dan f1-score 0.54565.

Keywords


Named Entity Recognition; Natural Language Processing; Optical Character Recognition; Sistem Pengisian Otomatis

Full Text: PDF

CC Licencing


Authors who publish with this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).

Refbacks

  • There are currently no refbacks.


Creative Commons License
Jurnal Teknik ITS by Direktorat Riset dan Pengabdian Masyarakat (DRPM) ITS is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Based on a work at https://ejurnal.its.ac.id/index.php/teknik.
Statistik Pengunjung