Penggunaan Model Bahasa indoBERT pada metode Random Forest untuk Klasifikasi Sentimen dengan Dataset Terbatas
Abstract
Masalah keterbatasan data latih menjadi tantangan utama dalam klasifikasi sentimen di berbagai bahasa, termasuk bahasa Indonesia, terutama untuk analisis sentimen terkait topik tertentu. Hal ini disebabkan oleh berbagai faktor, dan umumnya adalah kebutuhan untuk mengetahui dengan segera bagaimana sentimen terhadap suatu isu, sehingga tidak mungkin menghabiskan waktu untuk memberi label yang cukup pada data untuk proses pelatihan. Penelitian ini mengusulkan model klasifikasi sentimen dengan sumber data pelatihan yang sedikit, pada studi kasus pengangkatan Kaesang Pangarep sebagai ketua umum PSI. Algoritma Random Forest digunakan sebagai model dasar (baseline) yang dioptimasi dengan penambahan data eksternal untuk training, pemrosesan teks (text preprocessing) dan parameter tuning. Fitur input yang digunakan adalah model bahasa IndoBERT sebagai embedding kata untuk menghasilkan representasi teks yang lebih kontekstual. Hasil penelitian menunjukkan bahwa metode IndoBERT dengan Random Forest yang dioptimasi memberikan peningkatan performa yang signifikan dibandingkan baseline, sebesar 6%. Hasil klasifikasi model yang paling optimal sebesar 54% unutk F1-score dan 63% akurasi. Temuan ini menegaskan bahwa penambahan data eksternal dan optimasi parameter dapat meningkatkan kemampuan generalisasi model dalam klasifikasi sentimen bahasa Indonesia. Penelitian ini diharapkan dapat menjadi referensi metodologis bagi studi klasifikasi sentimen serupa yang menghadapi kendala ukuran dataset.
Downloads
References
S. Abdullahi Salahudeen et al., “HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource TweetData for Sentiment Analysis.” [Online]. Available: https://github.com/afrisenti-semeval
R. Vindua and A. U. Zailani, “Analisis Sentimen Pemilu Indonesia Tahun 2024 Dari Media Sosial Twitter Menggunakan Python,” JURIKOM (Jurnal Riset Komputer), vol. 10, no. 2, p. 479, Apr. 2023, doi: 10.30865/jurikom.v10i2.5945.
E. Hokijuliandy, H. Napitupulu, and F. Firdaniza, “Analisis Sentimen Menggunakan Metode Klasifikasi Support Vector Machine (SVM) dan Seleksi Fitur Chi-Square”.
M. Riekert, M. Riekert, and A. Klein, “Simple Baseline Machine Learning Text Classifiers for Small Datasets,” SN Comput Sci, vol. 2, no. 3, May 2021, doi: 10.1007/s42979-021-00480-4.
M. Ravil, S. Agustian, M. Fikry, and F. Insani, “KLIK: Kajian Ilmiah Informatika dan Komputer Peningkatan Performa Klasifikasi Sentimen Tweet Kaesang Menggunakan Naïve Bayes dengan PSO pada Dataset Kecil,” Media Online), vol. 4, no. 6, pp. 2909–2917, 2024, doi: 10.30865/klik.v4i6.1939.
S. Safrizal, S. Agustian, A. Nazir, and Y. Yusra, “Klasifikasi Sentimen Terhadap Pengangkatan Kaesang Sebagai Ketua Umum Partai PSI Menggunakan Metode Support Vector Machine,” Building of Informatics, Technology and Science (BITS), vol. 6, no. 1, Jun. 2024, doi: 10.47065/bits.v6i1.5340.
O. A. Rasyid, "Klasifikasi Sentimen Kaesang sebagai Ketua PSI Menggunakan Chi-Square dengan Fitur TF-IDF Metode Random Forest," Tugas Akhir, Fakultas Sains dan Teknologi, Universitas Islam Negeri Sultan Syarif Kasim Riau, Pekanbaru, 2024.
P. Sayarizki and H. Nurrahmi, “Implementation of IndoBERT for Sentiment Analysis of Indonesian Presidential Candidates,” Journal on Computing, vol. 9, no. 2, pp. 61–72, 2024, doi: 10.34818/indojc.2024.9.2.934.
J. J. Sanchez-Medina, “Sentiment analysis and random forest to classify LLM versus human source applied to Scientific Texts,” Apr. 2024.
S. Agustian, M. I. Syah, N. Fatiara, and R. Abdillah, “New Directions in Text Classification Research: Maximizing The Performance of Sentiment Classification from Limited Data,” Jul. 2024.
H.-T. Duong and T.-A. Nguyen-Thi, “A review: preprocessing techniques and data augmentation for sentiment analysis,” Comput Soc Netw, vol. 8, no. 1, p. 1, Dec. 2021, doi: 10.1186/s40649-020-00080-x.
F. Rahutomo and A. R. T. H. Ririd, “Evaluasi Daftar Stopword Bahasa Indonesia,” Jurnal Teknologi Informasi dan Ilmu Komputer, vol. 6, no. 1, pp. 41–48, Jan. 2019, doi: 10.25126/jtiik.2019611226.
S. Khairunnisa, A. Adiwijaya, and S. Al Faraby, “Pengaruh Text Preprocessing terhadap Analisis Sentimen Komentar Masyarakat pada Media Sosial Twitter (Studi Kasus Pandemi COVID-19),” JURNAL MEDIA INFORMATIKA BUDIDARMA, vol. 5, no. 2, p. 406, Apr. 2021, doi: 10.30865/mib.v5i2.2835.
M. A. Palomino and F. Aider, “Evaluating the Effectiveness of Text Pre-Processing in Sentiment Analysis,” Applied Sciences, vol. 12, no. 17, p. 8765, Aug. 2022, doi: 10.3390/app12178765.
B. Wilie et al., “IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding.” [Online]. Available: https://github.com/annisanurulazhar/absa-playground
F. Koto, J. H. Lau, and T. Baldwin, “IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization,” Sep. 2021, [Online]. Available: http://arxiv.org/abs/2109.04607
L. Breiman, “Random Forests,” 2001.
I. Afdhal et al., “Penerapan Algoritma Random Forest Untuk Analisis Sentimen Komentar Di YouTube Tentang Islamofobia,” Jurnal Nasional Komputasi dan Teknologi Informasi, vol. 5, no. 1, 2022.
G. Awliya Muhammad Ashfania et al., “Penggunaan Algoritma Random Forest untuk Klasifikasi berbasis Kinerja Efisiensi Energi pada Sistem Pembangkit Daya.”
A. Liaw and M. Wiener, “Classification and Regression by randomForest,” 2002. [Online]. Available: http://www.stat.berkeley.edu/
P. Probst, M. Wright, and A.-L. Boulesteix, “Hyperparameters and Tuning Strategies for Random Forest,” Apr. 2018, doi: 10.1002/widm.1301.
F. Basbeth and D. H. Fudholi, “Klasifikasi Emosi Pada Data Text Bahasa Indonesia Menggunakan Algoritma BERT, RoBERTa, dan Distil-BERT,” JURNAL MEDIA INFORMATIKA BUDIDARMA, vol. 8, no. 2, p. 1160, Apr. 2024, doi: 10.30865/mib.v8i2.7472.
P. Yohana, S. Agustian, and S. Kurnia Gusti, “Klasifikasi Sentimen Masyarakat terhadap Kebijakan Vaksin Covid-19 pada Twitter dengan Imbalance Classes Menggunakan Naive Bayes.” [Online]. Available: https://lp2m.unmul.ac.id/webadmin/public/upload/files/9584b64517cfe308eb6b115847cbe8e7.pdf
R. Rakhmat Sani, Y. Ayu Pratiwi, S. Winarno, E. Devi Udayanti, and dan Farrikh Al Zami, “Analisis Perbandingan Algoritma Naive Bayes Classifier dan Support Vector Machine untuk Klasifikasi Hoax pada Berita Online Indonesia,” 2022.
M. Krithik Sathya, K. H. Gopalakrishnan, M. Pa, and P. Balasundaram, “Sinhala and Gujarati Hate Speech Detection,” 2023. [Online]. Available: http://ceur-ws.org
Bila bermanfaat silahkan share artikel ini
Berikan Komentar Anda terhadap artikel Penggunaan Model Bahasa indoBERT pada metode Random Forest untuk Klasifikasi Sentimen dengan Dataset Terbatas
Pages: 1668-1676
Copyright (c) 2024 Joni Pranata, Surya Agustian, Jasril Jasril, Elin Haerani

This work is licensed under a Creative Commons Attribution 4.0 International License.
Authors who publish with this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under Creative Commons Attribution 4.0 International License that allows others to share the work with an acknowledgment of the work's authorship and initial publication in this journal.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgment of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (Refer to The Effect of Open Access).