Search for collections on Undip Repository

PENGEMBANGAN MODEL SAMPLING MENGGUNAKAN RETRIEVAL AUGMENTED GENERATION DENGAN ADAPTIVE SYNTHETIC SAMPLING DAN TOMEK LINKS UNTUK KLASIFIKASI TEKS PADA DOKUMEN SERTIFIKASI PRODUK JAMINAN HALAL

HEKSAPUTRA, Dadang and Gernowo, Rahmat and Isnanto, R. Rizal (2026) PENGEMBANGAN MODEL SAMPLING MENGGUNAKAN RETRIEVAL AUGMENTED GENERATION DENGAN ADAPTIVE SYNTHETIC SAMPLING DAN TOMEK LINKS UNTUK KLASIFIKASI TEKS PADA DOKUMEN SERTIFIKASI PRODUK JAMINAN HALAL. Doctoral thesis, UNIVERSITAS DIPONEGORO.

[thumbnail of cover aja.pdf] Text
cover aja.pdf

Download (29kB)
[thumbnail of COVER _ Pengesahan 1.pdf] Text
COVER _ Pengesahan 1.pdf
Restricted to Repository staff only

Download (1MB)
[thumbnail of BAB I.pdf] Text
BAB I.pdf

Download (209kB)
[thumbnail of BAB II.pdf] Text
BAB II.pdf

Download (887kB)
[thumbnail of BAB III.pdf] Text
BAB III.pdf
Restricted to Repository staff only

Download (130kB)
[thumbnail of BAB IV.pdf] Text
BAB IV.pdf
Restricted to Repository staff only

Download (885kB)
[thumbnail of BAB V.pdf] Text
BAB V.pdf
Restricted to Repository staff only

Download (46kB)
[thumbnail of DAFTAR PUSTAKA.pdf] Text
DAFTAR PUSTAKA.pdf

Download (302kB)
[thumbnail of LAMPIRAN.pdf] Text
LAMPIRAN.pdf
Restricted to Repository staff only

Download (26MB)

Abstract

Sertifikasi halal merupakan proses krusial dalam menjamin keamanan produk bagi konsumen muslim. Dalam beberapa tahun terakhir, pemerintah Indonesia telah mengembangkan sistem sertifikasi daring untuk mempercepat proses permohonan sertifikat halal. Namun, tantangan utama yang dihadapi adalah ketidakseimbangan data pada dokumen sertifikasi, di mana dokumen berlabel positif secara signifikan lebih banyak daripada negatif atau netral. Kondisi ini menyebabkan model klasifikasi cenderung bias terhadap kelas mayoritas dan gagal mendeteksi potensi pelanggaran yang justru paling kritis.
Penelitian ini mengembangkan pendekatan hybrid yang mengintegrasikan teknik penanganan data tidak seimbang dengan model pemrosesan bahasa alami canggih. Metodologi yang digunakan meliputi penerapan Adaptive Synthetic Sampling (ADASYN) untuk augmentasi data minoritas dan Tomek links untuk pembersihan sampel ambigu, yang dikombinasikan dengan model IndoBERT dan mekanisme Retrieval-Augmented Generation (RAG). Evaluasi kinerja dilakukan menggunakan dataset dokumen sertifikasi halal berbahasa Indonesia (RUK-01 hingga RUK-06) dengan validasi 10-fold dan metrik akurasi, presisi, recall, serta F1-score.
Hasil penelitian menunjukkan bahwa pendekatan hybrid yang diusulkan berhasil meningkatkan kinerja klasifikasi secara signifikan. Model terbaik mencapai akurasi 98,2% dan F1-score 98,2% pada dataset RUK-02 dengan performa yang seimbang across semua kelas. Teknik Resampling terbukti efektif mengatasi ketidakseimbangan data, di mana model dengan penanganan ImBalance secara konsisten mengungguli model tanpa penanganan. Temuan ini tidak hanya memberikan kontribusi praktis bagi lembaga sertifikasi halal, tetapi model memperkaya perkembangan ilmu pengetahuan dalam bidang NLP dan machine learning untuk data tidak seimbang.
Kata Kunci: Adaptive Synthetic Sampling, Tomek links, Klasifikasi Teks, Ketidakseimbangan Data, Sertifikasi Halal

Halal certification is a crucial process in ensuring product safety for Muslim consumers. In recent years, the Indonesian government has developed an online certification system to accelerate the halal certificate Application process. However, the main challenge faced is data ImBalance in certification documents, where documents labeled "Positive" are Significantly more numerous than "Negative" or "Neutral" ones. This condition causes Classification models to tend to be biased towards the majority Class and fail to detect potential violations that are actually the most critical.
This research develops a hybrid approach that integrates ImBalanced data Handling Techniques with advanced natural language processing models. The methodology used includes the implementation of Adaptive Synthetic Sampling (ADASYN) for minority data augmentation and Tomek links for ambiguous sample
Cleaning, Combined with the IndoBERT model and Retrieval-Augmented Generation (RAG) mechanism. Performance evaluation was conducted using Indonesian halal certification document datasets (RUK-01 to RUK-06) with 10-fold Validation and accuracy, Precision, recall, and F1-score metrics.
The results show that the proposed hybrid approach Significantly improved Classification Performance. The best model achieved 98.2% accuracy and 98.2% F1-score on the RUK-02 dataset, with Balanced Performance across all Classes. Resampling Techniques proved effective in addressing data ImBalance, where models with ImBalance Handling consistently outperformed models without Handling. These findings Not only provide practical contributions for halal certification institutions but also enrich the development of science in the fields of NLP and machine learning for ImBalanced data.
Keywords: Adaptive Synthetic Sampling, Tomek links, Text Classification, Data ImBalance, Halal Certification.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: Adaptive Synthetic Sampling, Tomek links, Klasifikasi Teks, Ketidakseimbangan Data, Sertifikasi Halal
Subjects: Sciences and Mathemathic
Divisions: Postgraduate Program > Doctor Program in Information System
Depositing User: ekana listianawati
Date Deposited: 18 Jun 2026 08:02
Last Modified: 18 Jun 2026 08:02
URI: https://eprints2.undip.ac.id/id/eprint/53056

Actions (login required)

View Item View Item