Automatic Short Answer Grading pada Soal Uraian Berbahasa Indonesia Menggunakan SBERT dan Metode K-Means Clustering

AZIZAH, Oktaviana Sadama Nur (2025) Automatic Short Answer Grading pada Soal Uraian Berbahasa Indonesia Menggunakan SBERT dan Metode K-Means Clustering. Undergraduate thesis, UNDIP: Fakultas Sains dan Matematika.

	Text 1. COVER.pdf Download (32kB)
	Text 2. HALAMAN PERNYATAAN KEASLIAN SKRIPSI.pdf Download (86kB)
	Text 3. HALAMAN PENGESAHAN.pdf Download (94kB)
	Text 4. KATA PENGANTAR.pdf Download (81kB)
	Text 6. ABSTRAK.pdf Download (76kB)
	Text 7. ABSTRACT.pdf Download (75kB)
	Text 8. DAFTAR ISI.pdf Download (141kB)
	Text 11. BAB I PENDAHULUAN.pdf Download (157kB)

Abstract

Proses penilaian manual untuk soal jawaban singkat sering kali memakan waktu yang lama
dan rentan terhadap subjektivitas. Automatic Short Answer Grading (ASAG) telah banyak
diteliti sebagai solusi otomatis dengan sebagian besar pendekatan memanfaatkan dua
masukan, yaitu referensi dan jawaban mahasiswa. Namun, pendekatan ini belum
sepenuhnya optimal dalam menangkap hubungan semantik yang melibatkan soal sebagai
konteks. Dalam penelitian ini, digunakan tiga masukan berupa soal, referensi, dan jawaban
mahasiswa yang diimplementasikan melalui fine-tuning triplet loss. Sebagian besar
penelitian ASAG yang menggunakan triplet loss bergantung pada data berlabel dalam proses
fine-tuning. Namun, tantangan muncul ketika bekerja dengan data jawaban mahasiswa yang
tidak berlabel (unsupervised), karena sulitnya menentukan pasangan sampel positif dan
negatif secara langsung. Oleh karena itu, penelitian ini mengusulkan metode clustering
menggunakan algoritma K-Means untuk mengelompokkan jawaban mahasiswa berdasarkan
kedekatan semantik dengan referensi. Soal kemudian digunakan sebagai anchor, cluster
jawaban yang dekat dengan referensi digunakan sebagai sampel positif, sedangkan cluster
jawaban yang jauh dari referensi digunakan sebagai sampel negatif. Model berbasis Sentence
BERT (SBERT), yaitu IndoSBERT dan paraphrase-multilingual-mpnet-v2 yang telah di
fine-tuning digunakan untuk representasi teks, dengan perhitungan relevansi semantik antara
soal, referensi, dan jawaban mahasiswa menggunakan cosine similarity. Penyesuaian
parameter α dan β dilakukan untuk mengoptimalkan performa empat dataset yang dievaluasi
menggunakan SMAPE. Hasil penelitian menunjukkan bahwa strategi clustering
menggunakan algoritma K-Means mampu mengatasi tantangan unsupervised dalam fine
tuning, serta secara signifikan meningkatkan performa model. Model IndoSBERT yang di
fine-tuning dengan α = 0,7 dan β = 0,3 menghasilkan rata-rata nilai SMAPE sebesar
8,9418%, mengungguli model paraphrase-multilingual-mpnet-v2 yang di fine-tuning
dengan α = 0,6 dan β = 0,4, dengan nilai SMAPE sebesar 9,8390%. Penelitian ini tidak hanya
membuktikan efektivitas model berbasis korpus bahasa Indonesia untuk tugas ASAG
(IndoSBERT), tetapi juga menawarkan solusi fine-tuning yang inovatif untuk data tidak
berlabel.
Kata kunci : Automatic Short Answer Grading, SBERT, Clustering, Triplet Loss, SMAPE

Item Type:	Thesis (Undergraduate)
Subjects:	Sciences and Mathemathic
Divisions:	Faculty of Science and Mathematics > Department of Informatics
Depositing User:	Yemima Laras Sekarsari
Date Deposited:	30 Oct 2025 10:41
Last Modified:	30 Oct 2025 10:41
URI:	https://eprints2.undip.ac.id/id/eprint/40521

Actions (login required)

View Item

Search for collections on Undip Repository