Search for collections on Undip Repository

EVALUASI KOMPARATIF BERTOPIC, GSDMM DAN LDA DALAM PEMODELAN TOPIK DATA TEKS PENDEK (STUDI KASUS : RESPONS PUBLIK TERHADAP KEBIJAKAN PEMERINTAH 2025 DI MEDIA SOSIAL X)

ADAM, Nabiel Putra and Gernowo, Rahmat and Surarso, Bayu (2026) EVALUASI KOMPARATIF BERTOPIC, GSDMM DAN LDA DALAM PEMODELAN TOPIK DATA TEKS PENDEK (STUDI KASUS : RESPONS PUBLIK TERHADAP KEBIJAKAN PEMERINTAH 2025 DI MEDIA SOSIAL X). Masters thesis, UNIVERSITAS DIPONEGORO.

[thumbnail of 1. cover awal.pdf] Text
1. cover awal.pdf

Download (55kB)
[thumbnail of 2. cover lengkap.pdf] Text
2. cover lengkap.pdf
Restricted to Repository staff only

Download (1MB)
[thumbnail of 3. BAB I.pdf] Text
3. BAB I.pdf

Download (200kB)
[thumbnail of 4. BAB II.pdf] Text
4. BAB II.pdf

Download (476kB)
[thumbnail of 5. BAB III.pdf] Text
5. BAB III.pdf
Restricted to Repository staff only

Download (590kB)
[thumbnail of 6. BAB IV.pdf] Text
6. BAB IV.pdf
Restricted to Repository staff only

Download (1MB)
[thumbnail of 7. BAB V.pdf] Text
7. BAB V.pdf
Restricted to Repository staff only

Download (176kB)
[thumbnail of 8. Daftar Pustaka.pdf] Text
8. Daftar Pustaka.pdf

Download (248kB)
[thumbnail of 9. Lampiran.pdf] Text
9. Lampiran.pdf
Restricted to Repository staff only

Download (1MB)

Abstract

Implementasi berbagai kebijakan pemerintah pada tahun 2025 memicu opini publik yang masif dan kompleks di media sosial. Analisis sentimen tradisional sering kali gagal merinci topik spesifik dari kebijakan tersebut, sehingga diperlukan pendekatan Aspect-Based Sentiment Analysis (ABSA). Namun, tantangan utama dalam ABSA pada media sosial adalah karakteristik teks pendek dan tidak terstruktur yang sulit ditangani oleh algoritma pemodelan topik tradisional seperti Latent Dirichlet Allocation (LDA). Penelitian ini bertujuan untuk melakukan studi komparatif antara algoritma LDA, Gibbs Sampling Dirichlet Multinomial Mixture (GSDMM), dan BERTopic untuk menemukan model terbaik dalam mengekstraksi topik aspek dari data media sosial. Penelitian ini membandingkan kinerja ketiga algoritma tersebut dengan penggunaan dataset stemming dan tanpa stemming. Evaluasi model dilakukan secara kuantitatif menggunakan Coherence Score (Cv) dan Topic Diversity. Hasil penelitian menunjukkan bahwa model BERTopic dengan dataset tanpa stemming memberikan performa paling optimal dibandingkan model lainnya. BERTopic mencapai skor Cv tertinggi sebesar 0,7539 dan topic diversity sebesar 0,9285, mengungguli GSDMM (Cv = 0,5885) dan LDA (Cv = 0,5482). Secara kualitatif, BERTopic juga menunjukkan representasi topik yang lebih unggul dan tidak saling tumpang tindih (overlapping). Penelitian ini menyimpulkan bahwa penggunaan BERTopic lebih efektif dalam menangani semantik teks pendek pada media sosial, terutama ketika mempertahankan bentuk asli kata (tanpa stemming).
Kata Kunci : Pemodelan Topik, BERTopic, GSDMM, LDA, Kebijakan Pemerintah 2025, Media Sosial, Twitter

The implementation of various government policies in 2025 has triggered massive and complex public opinions on social media, necessitating an Aspect-Based Sentiment Analysis (ABSA) approach to capture specific policy issues. However, traditional topic modeling algorithms like Latent Dirichlet Allocation (LDA) often struggle with the short and unstructured nature of social media text. This study conducts a comparative analysis between LDA, Gibbs Sampling Dirichlet Multinomial Mixture (GSDMM), and BERTopic to determine the most effective model for aspect extraction using both stemmed and non-stemmed datasets. Evaluated quantitatively through Coherence Score (Cv) and Topic Diversity, the results demonstrate that BERTopic with non-stemmed data is the most optimal model, achieving a Cv of 0.7539 and a topic diversity of 0.9285, significantly outperforming GSDMM (Cv = 0.5885) and LDA (Cv = 0.5482). Qualitatively, BERTopic provides superior topic representation with distinct, non-overlapping clusters. The study concludes that BERTopic’s contextual embeddings are more effective for handling the semantics of short social media texts, particularly when retaining original word forms without stemming.
Keywords : Topic Modeling, BERTopic, GSDMM, LDA, 2025 Government Policy, Social Media, Twitter

Item Type: Thesis (Masters)
Uncontrolled Keywords: Pemodelan Topik, BERTopic, GSDMM, LDA, Kebijakan Pemerintah 2025, Media Sosial, Twitter
Subjects: Sciences and Mathemathic
Divisions: Postgraduate Program > Master Program in Information System
Depositing User: ekana listianawati
Date Deposited: 10 Mar 2026 04:57
Last Modified: 10 Mar 2026 04:57
URI: https://eprints2.undip.ac.id/id/eprint/47097

Actions (login required)

View Item View Item