Integrasi Pendekatan Level Data Pada Logistic Regression Untuk Prediksi Cacat Perangkat Lunak

andre hardoni, Dian Palupi Rini

Abstract


Prediksi awal modul cacat perangkat lunak dapat membantu pengembang perangkat lunak untuk mengalokasikan sumber daya yang tersedia dalam membuat produk perangkat lunak yang memiliki kualitas tinggi yang dapat membatu dalam setiap proses bisnis perusahaan. Perbaikan software setelah pengiriman dan implementasi, membutuhkan biaya jauh lebih mahal dari pada saat pengembangan. Model Logistic Regression (LR) merupakan salah satu model pengklasifikasi yang memiliki kinerja terbaikdalam prediksi cacat software, namun kelemahannya adalah rentan terhadap underfitting dataset yang kelasnya tidak seimbang, sehingga menghasilkan penurunan kinerja. Dataset NASA MDP bersifat publik yang banyak digunakan peneliti dalam penelitian prediksi cacat software, namun dataset ini memiliki ketidakseimbangan pada kelas. Untuk menangani masalah ketidakseimbangan kelas pada dataset ini diusulkan metode pendekatan level data yaitu Random Over Sampling (ROS), Random Under Sampling(RUS) dan Synthetic Minority Over-sampling Technique  (SMOTE), sehingga pada penelitian ini dilakukan integrasi antara pendekatan level data (ROS, RUS dan SMOTE) dengan model logistic regression dan kemudian membandingkan hasil antara sebelum diintegrasikan dengan sesudah diintegrasikan. Dari hasil percobaan yang dilakukan pada 9 dataset NASA MDP diperoleh hasil bahwa model ROS + LR dan SMOTE + LR dapat menigkatkan kinerja model pengklasifikasi hampir pada seluruh dataset, namun RUS + LR tidak menunjukan adanya perubahan yang signifikan namun ada beberapa nilai AUC pada dataset yang cenderung menurun.


References


A. Iqbal, S. Aftab, U. Ali, Z. Nawaz, L. Sana, M. Ahmad, and A. Husen “Performance Analysis of Machine Learning Techniques on Software Defect Prediction using NASA Datasets,†Int. J. Adv. Comput. Sci. Appl., vol. 10, no. 5, 2019.

Canu, S., & Smola, A. 2006. Kernel methods and the exponential family. Neurocomputing.

Chawla, N. V, Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P., SMOTE : Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence, 16, 321–357. 2002.

D. Bowes, T. Hall, and J. Petrić, “Software defect prediction: do different classifiers find the same defects?,†Softw. Qual. J., vol. 26, no. 2, pp. 525–552, 2018.

D. Tomar and S. Agarwal, “Prediction of Defective Software Modules Using Class Imbalance Learning,†Appl. Comput. Intell. Soft Comput., vol. 2016, pp. 1–12, 2016.

Gorunescu, F. 2011. Data Mining: Concepts, Models and Techniques. Berlin: Springer-Verlag.

Hall, T., Beecham, S., Bowes, D., Gray, D., & Counsell, S., “A Systematic Literature Review on Fault Prediction Performance in Software Engineering. IEEE Transactions on Software Engineering,†2012.

Khoshgoftaar, T. M., Gao, K., Napolitano, A., & Wald, R, 2013. "A comparative study of iterative and non-iterative feature selection techniques for software defect prediction. Information Systems Frontiers.

Larose, D. T. 2005. Discovering Knowladge In Data: An Introduction to Data Mining. Discovering Knowledge in Data: An Introduction to Data Mining.

Lin, C., Weng, R. C., & Keerthi, S. S, “Trust Region Newton Method for Large-Scale Logistic Regressionâ€, Journal of Machine Learning Research. 2008.

M. Ahmad, S. Aftab, I. Ali, and N. Hameed, “Hybrid Tools and Techniques for Sentiment Analysis: A Review,†Int. J. Multidiscip. Sci. Eng., vol. 8, no. 3, 2017.

S. Huda et al., “A Framework for Software Defect Prediction and Metric Selection,†IEEE Access, vol. 6, no. c, pp. 2844–2858, 2017.

Shepperd, M., Song, Q., Sun, Z., & Mair, C, “Data Quality:Some Comments on the NASA Software Defect Data Setsâ€. IEEE Transactions on Software Engineering, 1208-1215.doi:10.1109/TSE.2013.11. 2013.

Thanathamathee, P., & Lursinsap, C, “Handling imbalanced data sets with synthetic boundary data generation using bootstrap re-sampling and AdaBoost techniquesâ€. Pattern Recognition Letters. 2013.

Yap, B. W., Rani, K. A., Aryani, H., Rahman, A., Fong, S., Khairudin, Z., & Abdullah, N. N, â€An Application of Oversampling, Undersampling, Bagging and Boosting in Handling Imbalanced Datasets,†Proceedings of the First International Conference on Advanced Data and Information Engineering (DaEng-2013), 285, 13–23, 2014.

Zhang, D., Liu, W., Gong, X., & Jin, H, “A Novel Improved SMOTE Resampling Algorithm Based on Fractal,†Computational Information Systems, 2204-2211, 2011.




DOI: https://doi.org/10.33387/jiko.v3i2.1734

Refbacks

  • There are currently no refbacks.