Search for collections on Undip Repository

Sistem Klasifikasi Ulasan Konsumen Menggunakan Algoritma Random Forest dan Synthetic Minority Oversampling Technique (SMOTE)

ISTIQAMAH, Nurul and Surarso, Bayu and Warsito, Budi (2022) Sistem Klasifikasi Ulasan Konsumen Menggunakan Algoritma Random Forest dan Synthetic Minority Oversampling Technique (SMOTE). Masters thesis, School of Postgraduate Studies.

[img] Text
Nurul Istiqamah_Tesis_Cover.pdf

Download (178kB)
[img] Text
Nurul Istiqamah_Tesis_BAB I.pdf

Download (293kB)
[img] Text
Nurul Istiqamah_Tesis_BAB II.pdf

Download (620kB)
[img] Text
Nurul Istiqamah_Tesis_BAB III.pdf
Restricted to Repository staff only

Download (587kB)
[img] Text
Nurul Istiqamah_Tesis_BAB IV.pdf
Restricted to Repository staff only

Download (1MB)
[img] Text
Nurul Istiqamah_Tesis_BAB V.pdf

Download (303kB)
[img] Text
Nurul Istiqamah_Tesis_Daftar Pustaka.pdf

Download (412kB)
[img] Text
Nurul Istiqamah_Tesis_Lembar Persetujuan dkk.pdf

Download (604kB)

Abstract

Penelitian ini dilatarbelakangi oleh adanya fenomena aktifitas electronic Word-of-Mount (e-WOM) yang meningkat sehingga volume data yang semakin besar menjadikan aktifitas dalam menilai keseluruhan opini menjadi kurang efisien. Selain itu, adanya kasus kelas data tidak seimbang yang terjadi pada model klasifikasi yang dapat membuat performa model menjadi kurang optimal. Penelitian ini bertujuan untuk menerapkan Random Forest (RF) dan Synthetic Minority Oversampling Techniques (SMOTE) yang dikolaborasikan dengan Random Under-sampling (RU) serta melakukan evaluasi terhadap hasil sistem yang dibangun dalam mengklasifikasi ulasan positif dan negatif dengan tingkat akurasi dan model yang optimal. Maka untuk mewujudkan hal tersebut dibangun sebuah sistem untuk mengklasifikasi kumpulan ulasan pada keseluruhan dokumen secara otomatis ke dalam kategori positif dan negatif. Algoritma yang digunakan dalam penelitian ini adalah machine learning random forest karena memiliki kelebihan dalam memproses data dengan jumlah banyak dan memiliki kinerja yang cepat. SMOTE sebagai metode class imbalanced juga digunakan sebab memiliki kelebihan dalam menyeimbangkan kelas data yang tidak seimbang. Hasil penelitian menunjukkan bahwa sistem dapat mengklasifikasi dokumen yang berisi kumpulan ulasan konsumen kedalam kategori positif dan negatif. Penerapan metode kelas data tidak seimbang SMOTE dan RU pada tahapan pre-processing memberikan peningkatan akurasi sekitar 3%, sekitar 4% untuk skor AUC serta meningkatkan kinerja model dalam mengenali data yang awalnya dianggap minor.
Kata kunci : Algoritma Random Forest, Klasifikasi Sentimen, SMOTE, Ulasan Konsumen

This research is motivated by the phenomenon of Electronic Word-of-Mount (e-WOM) activities that increase so that the greater volume of data makes the activity in assessing the overall opinion less efficient. In addition, there are cases of unbalanced data classes that occur in classification models that can make model performance less than optimal. This study aims to apply the random forest and synthetic minority oversampling technique and evaluate the results of the system built in classifying positive and negative reviews with an optimal level of accuracy and model. So to realize this, a system was built to classify the collection of reviews on the entire document automatically into positive and negative categories. The algorithm used in this research is machine learning random forest because it has advantages in processing large amounts of data and has fast performance. SMOTE as a class imbalanced method is also used because it has advantages in balancing unbalanced data classes. The results showed that the system can classify documents containing a collection of consumer reviews into positive and negative categories. The implementation of the SMOTE and RU unbalanced data class methods at the pre-processing stage provides an accuracy increase of about 3%, about 4% for AUC scores as well as improving model performance in recognizing data that was originally considered minor.
Keywords : Random Forest Algorithm, Sentiment Classification, SMOTE, Customer Review

Item Type: Thesis (Masters)
Uncontrolled Keywords: Algoritma Random Forest, Klasifikasi Sentimen, SMOTE, Ulasan Konsumen
Subjects: Sciences and Mathemathic
Divisions: Postgraduate Program > Master Program in Information System
Depositing User: ekana listianawati
Date Deposited: 28 Oct 2022 08:18
Last Modified: 28 Oct 2022 08:18
URI: https://eprints2.undip.ac.id/id/eprint/9506

Actions (login required)

View Item View Item