PENERAPAN TEKNIK KOMBINASI OVERSAMPLING DAN UNDERSAMPLING UNTUK MENGATASI PERMASALAHAN IMBALANCED DATASET

Ariani Indrawati

Abstract


Salah satu permasalahan pada machine learning yang cukup sering terjadi adalah ketidakseimbangan data yang digunakan atau sering disebut dengan imbalanced dataset. Cukup banyak penelitian yang melaporkan bahwa imbalanced dataset ini seringkali memberikan hasil yang keliru. Perlu ada penanganan khusus sebelum imbalanced dataset tersebut dapat digunakan pada machine learning. Cara paling populer dan efektif dalam mengatasi permasalahan imbalanced dataset adalah melakukan resampling, baik oversampling, undersampling, ataupun kombinasi keduanya. Pada penelitian ini akan dilakukan uji coba teknik kombinasi dengan menggabungkan teknik oversampling Synthetic Minority Oversampling Technique (SMOTE) dengan teknik undersampling Edited Nearest Neighbors (ENN) dan TomekLinks terhadap Support Vector Machine (SVM). Tiga public dataset UCI yaitu Breast Cancer Wisconsin, Pima Indian Diabetes, dan Heart Disease Detection digunakan pada penelitian ini dengan Python sebagai alat bantu pemrograman. Berdasarkan hasil uji coba yang dilakukan diketahui bahwa teknik kombinasi dapat membantu mengatasi permasalahan imbalanced dataset pada machine learning, SMOTE-ENN dapat meningkatkan performa akurasi dari SVM sebesar 2% hingga 23%.


References


Branco, P., Torgo, L., dan Ribeiro, R. 2015. A Survey of Predictive Modelling under Imbalanced Distributions

Hardoni, A., dan Rini, D.P. 2020. Integrasi Pendekatan Level Data Pada Logistic Regression untuk Prediksi Cacat Perangkat Lunak. JIKO, 3 (2), hal. 101-106. DOI: 10.33387/jiko

Chawla, N., et al. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16. Hal. 321-357. doi: 10.1613/jair.953.

Han, H., et al. 2005. Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning. Advances in Intelligent Computing, Hal. 878-887. doi: 10.1007/11538059_91

Last, F., et al. 2017. Oversampling for Imbalanced Learning Based on K-Means and SMOTE.

Zhang, C., et al. 2018. A Cost-Sensitive Deep Belief Network for Imbalanced Classification.

Haibo, H., et al. 2008. Adasyn: Adaptive synthetic samplingapproach for imbalanced learning. International Joint Conference on Neural Networks, June, 2008. 10.1109/IJCNN.2008.4633969.

Tomek, I. 1976. Two modifications of CNN. Two Modifications of CNN. iIEEE Transactions on Systems, Man, and Cybernetics. Vol. SMC-6, No. 11: 769-772. doi: 10.1109/TSMC.1976.4309452.

Wilson, D. L. 1972. Asymptotic Properties of Nearest Neighbor Rules Using Edited Data. IEEE Transactions on Systems, Man, and Cybernetics. Vol. SMC-2, No. 3: 408-421, doi: 10.1109/TSMC.1972.4309137.

Kubat, M. dan Matwin, S,. 1997. Addressing the Curse of Imbalanced Training Sets: One-Sided Selection. 14th International Conference on Machine Learning (ICML97) (USA: Tennessee) 179.

Laurikkala, J. 2001. Improving Identification of Difficult Small Classes by Balancing Class Distribution. 8th Conference on AI in Medicine in Europe AIME01 (Portugal: Cascais) 63.

Chamida, N., Santoni, M.M,. dan Matondang, N. 2020. Pengaruh Oversampling pada Klasifikasi Hipertensi dengan Algoritma Naïve Bayes, Decision Tree, dan Artificial Neural Network (ANN). RESTI, 4 (4), hal. 635-641. https://doi.org/10.29207/resti.v4i4.2015.

Heranova, O. 2019. Synthetic Minority Oversampling Technique pada Averaged One Dependence Estimators untuk Klasifikasi Credit Scoring. RESTI, 3 (3), hal. 443-335. https://doi.org/10.29207/resti.v3i3.1275.

Barro, R.A., Sulvianti, I.D., dan Afendi, F. M,. 2013. Penerapan Synthetic Minority Oversampling Technique (SMOTE) terhadap Data Tidak Seimbang pada Pembuatan Model Komposisi Jamu. Xplore, 1 (1), hal. 1-6. https://doi.org/10.29244/xplore.v1i1.12424

Al-Azani, S,. dan El-Alfy, E. 2018. Imbalanced Sentiment Polarity Detection Using Emoji-Based Features and Bagging Ensemble. 1-5. 10.1109/CAIS.2018.8441956.

Padurariu, C. dan Breaban, M. 2019. Dealing with Data Imbalance in Text Classification. Procedia Computer Science. 159. 736-745. 10.1016/j.procs.2019.09.229.

Pereira R,M., Costa, Y.M.G., dan Silla Jr, C.N. 2020. MLTL: A multi-label approach for the Tomek Link undersampling algorithm. Neurocomputing, 383, hal. 95-105. https://doi.org/10.1016/j.neucom.2019.11.076.

Pereira R,M., et. al. 2018. Dealing with Imbalanceness in Hierarchical Multi-Label Datasets Using Multi-Label Resampling Techniques. 818-824. 10.1109/ICTAI.2018.00128.

Fernández, A., et al. 2018. Learning from Imbalanced Data Sets. 10.1007/978-3-319-98074-4.

Sari, E.A., et al. 2020. Klasifikasi Kabupaten Tertinggal Di Kawasan Timur Indonesia dengan Support Vector Machine. JIKO, 3 (3), hal. 188–195. DOI: 10.33387/jiko.v3i3.2364.

Vig, L. 2014. Comparative Analysis of Different Classifiers for the Wisconsin Breast Cancer Dataset. Open Access Library Journal, 1, 1-7. doi: 10.4236/oalib.1100660.

Asri, H. et al. 2016. Using Machine Learning Algorithms for Breast Cancer Risk Prediction and Diagnosis. Procedia Computer Science. 83. 1064-1069. 10.1016/j.procs.2016.04.224.

Ubaidillah, S., Sallehuddin, R., dan Ali, N. A. 2013. Cancer Detection Using Aritifical Neural Network and Support Vector Machine: A Comparative Study. Jurnal Teknologi. 65. 10.11113/jt.v65.1788.

Kabir, A. Basuki, S., dan Wicaksono, G.W. 2019. Analisis sentimen kritik dan saran pelatihan aplikasi teknologi informasi (PATI) menggunakan algoritma support vector machine (SVM). Repositor. 1. 10.22219/repositor.v1i1.11.

Sinha, P. dan Sinha, P. 2015. Comparative Study of Chronic Kidney Disease Prediction using KNN and SVM. International Journal of Engineering Research and. V4. 10.17577/IJERTV4IS120622.




DOI: https://doi.org/10.33387/jiko.v4i1.2561

Refbacks

  • There are currently no refbacks.