Pengaruh Teknik Oversampling pada Algoritma Machine Learning dalam Klasifikasi Body Mass Index (BMI)

 

Authors: IF Hawari, MK Najib, S Nurdiati, YFY Marpaung, N Kusumawati, M Nurfadila, KR Sijabat, BF Hernawan. 

Abstrak: Body Mass Index (BMI) menjadi dasar klasifikasi berat badan seseorang yang dapat mengindikasikan adanya penyakit berbahaya seperti obesitas. Banyak penelitian yang melakukan klasifikasi BMI menggunakan berbagai algoritma machine learning dengan menerapkan berbagai teknik, salah satunya penerapan teknik oversampling untuk menangani ketidakseimbangan data. Penelitian ini bertujuan untuk membandingkan pengaruh ada dan tidaknya teknik oversampling pada algoritma K-Nearest Neighbor (KNN), random forest, dan Support Vector Machine (SVM). Data yang digunakan merupakan data real klasifikasi BMI yang mencakup informasi seperti jenis kelamin, tinggi badan, berat badan, dan indeks BMI. Tahapan yang dilakukan dalam penelitian ini meliputi data pre-processing, eksplorasi data, pelatihan dan pengujian model, evaluasi model, tuning hyperparameter, serta mengidentifikasi feature importance. Tahap eksplorasi data menunjukkan bahwa berat badan merupakan variabel yang memiliki korelasi paling kuat dengan indeks BMI yaitu sebesar 0.8 serta tidak ada multikolinearitas antar variabel. Hasil evaluasi model menggunakan confusion matrix yang didasarkan pada nilai F1-score menunjukkan bahwa model SVM tanpa penerapan teknik oversampling yang telah dilakukan tuning hyperparameter merupakan model terbaik pada penelitian ini dengan nilai F1-score lebih dari 0.95. Identifikasi feature importance dengan metode Permutation Feature Importance (PFI) pada model terbaik menunjukkan bahwa berat badan merupakan variabel yang paling mempengaruhi indeks BMI..

Kata kunci: KNN, random forest, SVM, BMI, oversampling


Dipublikasikan pada Jurnal Riset dan Aplikasi Matematika (JRAM), vol. 8(1): 51-68. 

Posting Komentar

0 Komentar