Identifikasi Similar Question dengan IndoBERT (Studi Kasus Dataset QAS Covid-19)

person Rifki Adi Pramana
person Ade Romadhony

Question answering system (QAS) merupakan sebuah task pada bidang informatika, secara lebih spesifik yaitu pada bidang Natural Language Processing (NLP). Sebuah QAS menyediakan jawaban secara otomatis berdasarkan pertanyaan yang diberikan oleh pengguna. Salah satu bagian dari tahapan pemrosesan dalam QAS adalah identifikasi pertanyaan yang mirip (similar question identifition). Tahapan similar question identification bertujuan untuk mengidentifikasi pertanyaan yang mirip, sehingga didapatkan jawaban yang tepat. Pada penelitian ini, dilakukan identifikasi similar question pada dataset yang berisi pertanyaan seputar Covid-19. Identifikasi similar question diaplikasikan dengan memanfaatkan model IndoBERT, dimana diterapkan pengukuran similarity berdasarkan cosine similarity. Berdasarkan eksperimen yang dilakukan, diperoleh 197 dari total 611 pasang pertanyaan yang berhasil diidentifikasi kemiripannya. Analisis terhadap hasil identifikasi menunjukkan bahwa faktor yang memperngaruhi dalam kemiripan antar pertanyaan antara lain adalah panjang dari suatu kalimat yang dibandingkan, kata awal dari kalimat yang dibandingkan, dan relevansi antar beberapa kata yang terdeteksi memiliki kemiripan satu sama lain.

format_quote
Citation
file_copyCopy
PRAMANA, Rifki Adi; ROMADHONY, Ade. Identifikasi Similar Question dengan IndoBERT (Studi Kasus Dataset QAS Covid-19). LOGIC: Jurnal Penelitian Informatika, [S.l.], v. 2, n. 1, p. 12–17, juni 2024. ISSN 3026-4987. Tersedia pada: <//journals.telkomuniversity.ac.id/logic/article/view/7437>. Tanggal Akses: 03 juli 2024 doi: https://doi.org/10.25124/logic.v2i1.7437.