Penerapan Algoritma Random Forest dengan Pendekatan Hybrid Feature Engineering untuk Klasifikasi Promosi Judi Online
Abstract
Maraknya promosi perjudian daring ilegal di kolom komentar YouTube telah menjadi masalah serius yang sulit diatasi dengan filter konvensional. Penelitian ini bertujuan untuk membangun sistem deteksi otomatis yang efektif menggunakan pembelajaran mesin. Metode yang diusulkan mengimplementasikan algoritma Random Forest dengan pendekatan Rekayasa Fitur Hibrida yang inovatif. Pendekatan ini tidak hanya menganalisis fitur leksikal dari teks menggunakan TF-IDF, tetapi juga mengekstrak 11 fitur anomali dan perilaku untuk menangkap taktik penghindaran spammer. Untuk mengatasi masalah ketidakseimbangan kelas dalam kumpulan data 2.708 komentar yang diberi label manual, teknik SMOTE diterapkan pada data pelatihan. Evaluasi model pada data uji menunjukkan kinerja yang sangat tinggi, mencapai akurasi 94,65% dan Skor F1 0,89 untuk kelas "Judol". Analisis kepentingan fitur mengonfirmasi bahwa fitur anomali yang direkayasa, seperti pola nomor merek, berkontribusi signifikan terhadap keberhasilan model. Studi ini membuktikan bahwa pendekatan hibrida dapat menciptakan model klasifikasi yang kuat dan akurat untuk mengatasi konten promosi perjudian daring.
Kata Kunci: Klasifikasi Teks; Perjudian Daring; Pembelajaran Mesin; Rekayasa Fitur Hibrida; Hutan Acak.
----
Penyebaran promosi judi online ilegal di kolom komentar YouTube telah menjadi masalah serius yang sulit diatasi dengan filter konvensional. Penelitian ini bertujuan untuk membangun sebuah sistem deteksi otomatis yang efektif menggunakan pembelajaran mesin. Metode yang diusulkan menerapkan algoritma Random Forest dengan pendekatan Hybrid Feature Engineering yang inovatif. Pendekatan ini tidak hanya menganalisis fitur leksikal dari teks menggunakan TF-IDF, tetapi juga mengekstrak 11 fitur anomali dan perilaku untuk menangkap taktik penyamaran spammer. Untuk mengatasi masalah kecernaan kelas pada dataset yang terdiri dari 2.708 komentar berlabel manual, teknik SMOTE diterapkan pada data latih. Hasil evaluasi model pada data uji menunjukkan performa yang sangat tinggi, dengan akurasi mencapai 94.65% dan F1-Score sebesar 0.89 untuk kelas “Judol”. Analisis pentingnya fitur konfirmasi bahwa fitur rekayasa anomali, seperti pola merek-angka, secara signifikan memberikan kontribusi pada keberhasilan model. Penelitian ini membuktikan bahwa pendekatan hybrid mampu menciptakan klasifikasi model yang kuat dan akurat untuk memerangi konten promosi judi online.
Kata Kunci: Klasifikasi Teks, Judi Online, Machine Learning, Hybrid Feature Engineering, Random Forest.
Keywords
Full Text:
PDFReferences
E. Borgia, “The in[1] H. Junawan and N. Laugu, “Eksistensi Media Sosial , Youtube , Instagram dan Whatsapp Ditengah Pandemi Covid-19 Dikalangan Masyarakat Virtual Indonesia 1 Hendra A . PENDAHULUAN Perkembangan teknologi media yang sangat pesat serta dengan kemajuan teknologi-teknologi yang semakin har,” Baitul Ulum J. Ilmu Perpust. dan Inf., vol. 4, no. 1, pp. 41–57, 2020.
F. Prasetya, S. S. Embuningtiyas, and D. Andriyanto, “Youtube Sebagai Media Pembelajaran Di Indonesia,” J. Pendidik. Teknol. Inf., vol. 5, no. 2, pp. 192–202, 2022, doi: 10.37792/jukanti.v5i2.600.
M. F. As Shidiq and D. Alita, “Analisis Sentimen Masyarakat Terhadap Kasus Judi Online Menggunakan Data Dari Media Sosial X Pendekatan Naive Bayes Dan Svm,” J. Sist. Inf. dan Inform., vol. 8, no. 1, pp. 24–35, 2025, doi: 10.47080/simika.v8i1.3624.
Dwi Nanda Agustia and Ryan Randy Suryono, “Comparison of Naïve Bayes, Random Forest, and Logistic Regression Algorithms for Sentiment Analysis Online Gambling,” INOVTEK Polbeng - Seri Inform., vol. 10, no. 1, pp. 284–295, 2025, doi: 10.35314/prk93630.
Universitas Gadjah Mada, “Judi Online Makin Marak di Kalangan Anak Muda, Pakar UGM Sarankan Perlunya Edukasi Literasi Keuangan,” ugm.ac.id, 2024. https://ugm.ac.id/id/berita/judi-online-makin-marak-di-kalangan-anak-muda-pakar-ugm-sarankan-perlunya-edukasi-literasi-keuangan/ (accessed Aug. 01, 2025).
A. Uchendu, T. Le, and D. Lee, “Attribution and Obfuscation of Neural Text Authorship: A Data Mining Perspective,” ACM SIGKDD Explor. Newsl., vol. 25, no. 1, pp. 1–18, 2023, doi: 10.1145/3606274.3606276.
A. A. Abdo et al., “AI-based Spam Detection Techniques for Online Social Networks: Challenges and Opportunities,” J. Internet Serv. Inf. Secur., vol. 13, no. 3, pp. 78–103, 2023, doi: 10.58346/JISIS.2023.I3.006.
A. Muhaimin, I. A. Taufik, and D. D. Daniswara, “Pendeteksian Spam pada E-mail menggunakan Pendekatan Natural Language Processing,” Pros. Semin. Nas. Sains Data, vol. 3, no. 1, pp. 116–121, 2023, doi: 10.33005/senada.v3i1.90.
N. P. R. Adiati et al., “Comparative study of predictive models for hoax and disinformation detection in indonesian news,” Int. J. Adv. Intell. Informatics, vol. 10, no. 3, pp. 504–516, 2024, doi: 10.26555/ijain.v10i3.878.
N. P. Nur Fauzi, S. Khomsah, and A. D. Putra Wicaksono, “Penerapan Feature Engineering dan Hyperparameter Tuning untuk Meningkatkan Akurasi Model Random Forest pada Klasifikasi Risiko Kredit,” J. Teknol. Inf. dan Ilmu Komput., vol. 12, no. 2, pp. 251–262, 2025, doi: 10.25126/jtiik.2025128472.
N. Nyoman Eny Perimawati, R. Rudolf Huizen, D. Pramana Hostiadi, and M. Sistem Informasi, “Analisa Pengaruh Pre-Procesing Data Untuk Model Deteksi Akun Palsu Pada Media Sosial,” vol. 2, no. 1, p. 2025, 2025.
R. Cherekar, “Automated Data Cleaning: AI Methods for Enhancing Data Quality and Consistency,” Int. J. Emerg. Trends Comput. Sci. Inf. Technol., vol. 5, no. 1, pp. 31–40, 2024, doi: 10.63282/3050-9246.ijetcsit-v5i1p104.
U. S. Shanthamallu and A. Spanias, “Introduction to Machine Learning,” Synth. Lect. Signal Process., vol. 01, pp. 1–8, 2022, doi: 10.1007/978-3-031-03758-0_1.
M. Guntara and F. D. Astuti, “Komparasi Kinerja Label-Encoding dengan One-Hot-Encoding pada Algoritma K-Nearest Neighbor menggunakan Himpunan Data Campuran,” JIKO (Jurnal Inform. dan Komputer), vol. 9, no. 2, p. 352, 2025, doi: 10.26798/jiko.v9i2.1605.
C. M. F. Andriani and D. Susilaningrum, “Klasifikasi Waiting Time for Pilot di Pelabuhan Tanjung Perak Menggunakan Metode Regresi Logistik - Synthetic Minority Oversampling Technique (SMOTE),” J. Sains dan Seni ITS, vol. 12, no. 1, 2023, doi: 10.12962/j23373520.v12i1.109844.
C. Azzaria, E. Daniati, and A. Ristyawan, “Peningkatan Akurasi Deteksi Liver Disease melalui Hyperparameter Tuning pada Algoritma Random Forest,” vol. 4, no. 2, pp. 139–147, 2025.
A. Maulana, A. Yuliana, T. Bandung, J. Politeknik, J. Pesantren, and K. Cimahi, “Online Menggunakan Algoritma Naïve Bayes Dan Support Vector Mechine,” vol. 12, no. 3, pp. 3706–3714, 2024.ternet of things vision: Key features, applications and open issues,” Comput. Commun., vol. 54, pp. 1–31, 2014.
DOI: http://dx.doi.org/10.36448/expert.v15i2.4536
Refbacks
- There are currently no refbacks.
EXPERT: Jurnal Manajemen Sistem Informasi dan Teknologi
Published by Pusat Studi Teknologi Informasi, Fakultas Ilmu Komputer, Universitas Bandar Lampung
Gedung M Lt.2 Pascasarjana Universitas Bandar Lampung
Jln Zainal Abidin Pagaralam No.89 Gedong Meneng, Rajabasa, Bandar Lampung,
LAMPUNG, INDONESIA
Indexed by:
This work is licensed under a Creative Commons Attribution 4.0 International License.






