Integrasi Pendekatan Level Data Pada Logistic Regression Untuk Prediksi Cacat Perangkat Lunak

andre hardoni; Dian Palupi Rini

doi:10.33387/jiko.v3i2.1734

Integrasi Pendekatan Level Data Pada Logistic Regression Untuk Prediksi Cacat Perangkat Lunak

andre hardoni, Dian Palupi Rini

Abstract

Prediksi awal modul cacat perangkat lunak dapat membantu pengembang perangkat lunak untuk mengalokasikan sumber daya yang tersedia dalam membuat produk perangkat lunak yang memiliki kualitas tinggi yang dapat membatu dalam setiap proses bisnis perusahaan. Perbaikan software setelah pengiriman dan implementasi, membutuhkan biaya jauh lebih mahal dari pada saat pengembangan. Model Logistic Regression (LR) merupakan salah satu model pengklasifikasi yang memiliki kinerja terbaikdalam prediksi cacat software, namun kelemahannya adalah rentan terhadap underfitting dataset yang kelasnya tidak seimbang, sehingga menghasilkan penurunan kinerja. Dataset NASA MDP bersifat publik yang banyak digunakan peneliti dalam penelitian prediksi cacat software, namun dataset ini memiliki ketidakseimbangan pada kelas. Untuk menangani masalah ketidakseimbangan kelas pada dataset ini diusulkan metode pendekatan level data yaitu Random Over Sampling (ROS), Random Under Sampling(RUS) dan Synthetic Minority Over-sampling TechniqueÃ‚Â (SMOTE), sehingga pada penelitian ini dilakukan integrasi antara pendekatan level data (ROS, RUS dan SMOTE) dengan model logistic regression dan kemudian membandingkan hasil antara sebelum diintegrasikan dengan sesudah diintegrasikan. Dari hasil percobaan yang dilakukan pada 9 dataset NASA MDP diperoleh hasil bahwa model ROS + LR dan SMOTE + LR dapat menigkatkan kinerja model pengklasifikasi hampir pada seluruh dataset, namun RUS + LR tidak menunjukan adanya perubahan yang signifikan namun ada beberapa nilai AUC pada dataset yang cenderung menurun.

Full Text:

PDF (Bahasa Indonesia)

References

A. Iqbal, S. Aftab, U. Ali, Z. Nawaz, L. Sana, M. Ahmad, and A. Husen Ã¢â‚¬Å“Performance Analysis of Machine Learning Techniques on Software Defect Prediction using NASA Datasets,Ã¢â‚¬Â Int. J. Adv. Comput. Sci. Appl., vol. 10, no. 5, 2019.

Canu, S., & Smola, A. 2006. Kernel methods and the exponential family. Neurocomputing.

Chawla, N. V, Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P., SMOTE : Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence, 16, 321Ã¢â‚¬â€œ357. 2002.

D. Bowes, T. Hall, and J. PetriÃ„â€¡, Ã¢â‚¬Å“Software defect prediction: do different classifiers find the same defects?,Ã¢â‚¬Â Softw. Qual. J., vol. 26, no. 2, pp. 525Ã¢â‚¬â€œ552, 2018.

D. Tomar and S. Agarwal, Ã¢â‚¬Å“Prediction of Defective Software Modules Using Class Imbalance Learning,Ã¢â‚¬Â Appl. Comput. Intell. Soft Comput., vol. 2016, pp. 1Ã¢â‚¬â€œ12, 2016.

Gorunescu, F. 2011. Data Mining: Concepts, Models and Techniques. Berlin: Springer-Verlag.

Hall, T., Beecham, S., Bowes, D., Gray, D., & Counsell, S., Ã¢â‚¬Å“A Systematic Literature Review on Fault Prediction Performance in Software Engineering. IEEE Transactions on Software Engineering,Ã¢â‚¬Â 2012.

Khoshgoftaar, T. M., Gao, K., Napolitano, A., & Wald, R, 2013. "A comparative study of iterative and non-iterative feature selection techniques for software defect prediction. Information Systems Frontiers.

Larose, D. T. 2005. Discovering Knowladge In Data: An Introduction to Data Mining. Discovering Knowledge in Data: An Introduction to Data Mining.

Lin, C., Weng, R. C., & Keerthi, S. S, Ã¢â‚¬Å“Trust Region Newton Method for Large-Scale Logistic RegressionÃ¢â‚¬Â, Journal of Machine Learning Research. 2008.

M. Ahmad, S. Aftab, I. Ali, and N. Hameed, Ã¢â‚¬Å“Hybrid Tools and Techniques for Sentiment Analysis: A Review,Ã¢â‚¬Â Int. J. Multidiscip. Sci. Eng., vol. 8, no. 3, 2017.

S. Huda et al., Ã¢â‚¬Å“A Framework for Software Defect Prediction and Metric Selection,Ã¢â‚¬Â IEEE Access, vol. 6, no. c, pp. 2844Ã¢â‚¬â€œ2858, 2017.

Shepperd, M., Song, Q., Sun, Z., & Mair, C, Ã¢â‚¬Å“Data Quality:Some Comments on the NASA Software Defect Data SetsÃ¢â‚¬Â. IEEE Transactions on Software Engineering, 1208-1215.doi:10.1109/TSE.2013.11. 2013.

Thanathamathee, P., & Lursinsap, C, Ã¢â‚¬Å“Handling imbalanced data sets with synthetic boundary data generation using bootstrap re-sampling and AdaBoost techniquesÃ¢â‚¬Â. Pattern Recognition Letters. 2013.

Yap, B. W., Rani, K. A., Aryani, H., Rahman, A., Fong, S., Khairudin, Z., & Abdullah, N. N, Ã¢â‚¬ÂAn Application of Oversampling, Undersampling, Bagging and Boosting in Handling Imbalanced Datasets,Ã¢â‚¬Â Proceedings of the First International Conference on Advanced Data and Information Engineering (DaEng-2013), 285, 13Ã¢â‚¬â€œ23, 2014.

Zhang, D., Liu, W., Gong, X., & Jin, H, Ã¢â‚¬Å“A Novel Improved SMOTE Resampling Algorithm Based on Fractal,Ã¢â‚¬Â Computational Information Systems, 2204-2211, 2011.

DOI: https://doi.org/10.33387/jiko.v3i2.1734

Refbacks

There are currently no refbacks.

Username
Password
Remember me