MUZAKIR, Ari and Adi, Kusworo and Kusumaningrum, Retno (2024) KLASIFIKASI TEKS UJARAN KEBENCIAN BERBAHASA INDONESIA MENGGUNAKAN FUSION OF SEMANTIC ENRICHMENT AND CONVOLUTION NEURAL NETWORK (FuSE-CNN). Doctoral thesis, UNIVERSITAS DIPONEGORO.
![]() |
Text
Cover_merged.pdf Download (1MB) |
![]() |
Text
Bab 1.pdf Download (112kB) |
![]() |
Text
Bab 2.pdf Download (1MB) |
![]() |
Text
Bab 3.pdf Restricted to Repository staff only Download (1MB) |
![]() |
Text
Bab 4.pdf Restricted to Repository staff only Download (1MB) |
![]() |
Text
Bab 5.pdf Restricted to Repository staff only Download (29kB) |
![]() |
Text
Daftar Pustaka.pdf Download (210kB) |
![]() |
Text
Lampiran.pdf Restricted to Repository staff only Download (808kB) |
Abstract
Perkembangan teknologi digital telah mempermudah produksi dan penyebaran konten ujaran kebencian dengan biaya rendah, waktu nyata, dan terdistribusi secara anonimitas. Identifikasi kalimat menggunakan pola kalimat dapat menjadi strategi efektif untuk mengenali ujaran kebencian yang tersebar di media sosial “X” (Twitter) dalam bentuk teks singkat. Akan tetapi, pola kalimat ujaran kebencian umumnya melibatkan Target, Kategori, dan Level yang sulit diidentifikasi karena keterbatasan semantik dan informasi kontekstual yang tidak jelas, serta berdampak pada kinerja klasifikasi dengan data berlabel jamak. Pendekatan konvensional umumnya melakukan ekstraksi fitur semantik secara terpisah, sehingga menyebabkan model sulit menangkap konteks makna yang kompleks dalam teks ujaran kebencian. Pendekatan ini seringkali gagal memperhitungkan konteks yang mendasari ujaran kebencian. Oleh karena itu, pengembangan metode yang mampu mengintegrasikan dan memahami konteks secara luas menjadi krusial dalam mengatasi tantangan ini melalui strategi penggabungan yang berbeda. Penelitian ini bertujuan mengembangkan pendekatan baru untuk meningkatkan kinerja klasifikasi ujaran kebencian pada data label jamak dengan menggunakan fusion of semantic enrichment and convolutional neural network (FuSE-CNN). Pendekatan FuSE menggabungkan beberapa strategi pemrosesan seperti terjemahan balik, disambiguasi teks, ekspansi, dan kemiripan semantik. Strategi ini memungkinkan model dapat mengidentifikasi makna yang lebih halus dari suatu kalimat melalui terjemahan balik, disambiguasi kata dan ekspansi teks untuk memperkaya makna, dan kemiripan semantik untuk mendapatkan konteks yang lebih mendalam. Sementara itu, CNN mengekstraksi fitur-fitur penting dari teks dan melakukan klasifikasi pada data berlabel jamak. Dataset yang digunakan bersumber dari media sosial “X” yang terdiri dari 13.169 baris dengan 12 label. Tahapan penelitian meliputi prapengolahan, pengayaan semantik berbasis fusi, pembagian data (80/20), dan klasifikasi teks ujaran kebencian berlabel jamak. Kinerja model yang dihasilkan dievaluasi menggunakan confusion matrix dan AUC. Pelatihan model dilakukan dengan hyperparameter tuning yaitu learning rate, batch size, dan epoch untuk mendapatkan model terbaik, serta validasi pelatihan menggunakan k-fold=5. Model dengan kinerja terbaik diperoleh melalui strategi FuSE-CNN dengan parameter learning rate 0.001, batch size 16, dan epoch 30. Hasil analisis model dengan kinerja terbaik pada strategi FuSE-CNN mencapai kinerja tinggi: precision 76%, recall 84%, F1-Score 80%, accuracy 93%, dan AUC 91%. Hasil ini mengungguli dari strategi tanpa FuSE dan metode klasifikasi lain seperti BiGRU dan BiLSTM. Misalnya pada strategi terjemahan balik yang menghasilkan precision 58%, recall 71%, F1-Score 64%, accuracy 86%, dan AUC 84%. Hasil ini melampaui kinerja penelitian sebelumnya yang menggunakan dataset yang sama tanpa strategi FuSE yang dievaluasi dengan metrik akurasi. Analisis pengujian pada aplikasi waktu nyata menunjukkan bahwa strategi FuSE-CNN sering mengalami kesalahan prediksi pada kelas Kategori ujaran kebencian. Model cenderung kesulitan mengenali dan mengklasifikasikan berbagai kategori kebencian yang kompleks dan sering kali tumpang tindih.
Kata Kunci: convolutional neural network, fusion of semantic enrichment, klasifikasi ujaran kebencian, media sosial x, teks singkat
The development of digital technology has facilitated the production and dissemination of hate speech content at low cost, in real-time, and distributed anonymously. Identifying sentences using sentence patterns can be an effective strategy to recognize hate speech spread on social media "X" (Twitter) in the form of short texts. However, hate speech sentence patterns generally involve Targets, Categories, and Levels that are difficult to identify due to limited semantics and unclear contextual information, impacting the classification performance with multi-labeled data. Conventional approaches typically perform semantic feature extraction separately, making it challenging for models to capture the complex contextual meaning in hate speech texts. This approach often fails to account for the underlying context of hate speech. Therefore, developing methods that can integrate and broadly understand context becomes crucial in addressing this challenge through different fusion strategies. This study aims to develop a new approach to improve the classification performance of hate speech on multi-labeled data using the fusion of semantic enrichment and convolutional neural network (FuSE-CNN). The FuSE approach combines several processing strategies such as back translation, text disambiguation, expansion, and semantic similarity. These strategies enable the model to identify the finer meaning of a sentence through back translation, word disambiguation, and text expansion to enrich meaning, and semantic similarity to gain deeper context. Meanwhile, CNN extracts important features from the text and performs classification on multi-labeled data. The dataset used is sourced from social media "X" and consists of 13,169 rows with 12 labels. The research stages include preprocessing, fusion-based semantic enrichment, data splitting (80/20), and multi-labeled hate speech text classification. The performance of the resulting model is evaluated using a confusion matrix and AUC. Model training is conducted with hyperparameter tuning, including learning rate, batch size, and epoch to obtain the best model, as well as training validation using k-fold=5. The model with the best performance was achieved through the FuSE-CNN strategy with parameters: learning rate 0.001, batch size 16, and epoch 30. The best model analysis results for the FuSE-CNN strategy achieved high performance: precision 76%, recall 84%, F1-Score 80%, accuracy 93%, and AUC 91%. These results outperform the strategy without FuSE and other classification methods such as BiGRU and BiLSTM. For example, the back translation strategy resulted in precision 58%, recall 71%, F1-Score 64%, accuracy 86%, and AUC 84%. These results surpass previous research performance using the same dataset without the FuSE strategy evaluated with accuracy metrics. Real-time application testing analysis shows that the FuSE-CNN strategy often experiences prediction errors in the Category class of hate speech. The model tends to struggle to recognize and classify various complex and often overlapping categories of hate.
Keywords: convolutional neural network, fusion of semantic enrichment, hate speech classification, short text, social media x
Item Type: | Thesis (Doctoral) |
---|---|
Uncontrolled Keywords: | convolutional neural network, fusion of semantic enrichment, klasifikasi ujaran kebencian, media sosial x, teks singkat |
Subjects: | Sciences and Mathemathic |
Divisions: | Postgraduate Program > Doctor Program in Information System |
Depositing User: | ekana listianawati |
Date Deposited: | 24 Dec 2024 05:14 |
Last Modified: | 24 Dec 2024 05:14 |
URI: | https://eprints2.undip.ac.id/id/eprint/28413 |
Actions (login required)
![]() |
View Item |