Komparasi Algoritma Naive Bayes Dan Random Forest Pada Klasifikasi Kanker Payudara
Main Article Content
Ika Indah Lestari
Ahmad Homaidi
Kanker payudara merupakan salah satu jenis kanker yang paling umum ditemukan pada wanita dan menjadi penyebab utama kematian akibat kanker di seluruh dunia. Ketepatan dalam diagnosis kanker payudara menjadi sangat krusial untuk penanganan yang tepat. Penelitian ini bertujuan untuk membandingkan performa algoritma Naive Bayes dan Random Forest dalam mengklasifikasikan kanker payudara menggunakan dataset Breast Cancer Wisconsin. Metodologi penelitian dimulai dengan pengumpulan data dari dataset Breast Cancer Wisconsin yang terdiri dari 569 sampel dengan 32 atribut. Proses preprocessing data meliputi konversi data dari format nominal ke binominal untuk atribut diagnosis. Implementasi algoritma menggunakan tools RapidMiner dengan pendekatan cross validation (k=10) untuk evaluasi model yang lebih robust. Performa kedua algoritma dibandingkan menggunakan berbagai metrik evaluasi termasuk accuracy, precision, recall, dan analisis confusion matrix. Hasil penelitian menunjukkan bahwa algoritma Random Forest memberikan performa yang lebih unggul dengan tingkat akurasi 94,91% (±5,06%), precision 95,33%, dan recall 93,90%. Sementara itu, Naive Bayes mencapai akurasi 93,51% (±5,30%), precision 93,68%, dan recall 92,67%. Random Forest juga menunjukkan keunggulan dalam mengurangi false positive, dengan hanya 8 kasus dibandingkan 15 kasus pada Naive Bayes. Analisis confusion matrix menunjukkan bahwa kedua algoritma memiliki kemampuan yang baik dalam mengklasifikasikan kasus kanker payudara, meskipun Random Forest menunjukkan performa yang lebih stabil dan akurat. Kesimpulan dari penelitian ini menunjukkan bahwa kedua algoritma efektif untuk klasifikasi kanker payudara, dengan Random Forest menunjukkan keunggulan dalam hal akurasi dan presisi. Hasil ini dapat menjadi pertimbangan dalam pengembangan sistem pendukung keputusan untuk diagnosis kanker payudara, dimana Random Forest dapat menjadi pilihan utama ketika akurasi menjadi prioritas, sementara Naive Bayes tetap menjadi alternatif yang valid ketika kesederhanaan implementasi dan efisiensi komputasi diperlukan.
A’yunan, Y. A. D. K., Indahyanti, U., & Busono, S. (2023). Implementasi Data Mining dalam Klasifikasi Diagnosa Kanker Payudara menggunakan Algoritma Logistic Regression. Jurnal TEKINKOM, 6(2), 400–407. https://doi.org/10.37600/tekinkom.v6i2.948
Alrasyid, H., Homaidi, A., Kom, M., Fatah, Z., & Kom, M. (2024). Comparison Support Vector Machine and Random Forest Algorithms in Detect Diabetes. 1(1), 447–453.
Angkasa, V., & Pangaribuan, J. J. (2022). Information System Development Komparasi Tingkat Akurasi Random Forest Dan Knn Untuk Mendiagnosis Penyakit Kanker Payudara. Journal Information System Development (ISD), 7(1), 37–38. http://dx.doi.org/10.19166/xxxx
Devella, S., Yohannes, Y., & Rahmawati, F. N. (2020). Implementasi Random Forest Untuk Klasifikasi Motif Songket Palembang Berdasarkan SIFT. JATISI (Jurnal Teknik Informatika Dan Sistem Informasi), 7(2), 310–320. https://doi.org/10.35957/jatisi.v7i2.289
DOI: http://dx.doi.org/10.33846/sf12307 Faktor yang Mempengaruhi Keterlambatan Diagnosis Awal Pasien Kanker Payudara Tri Cita Pelima. (2021). 12, 258–260.
Faid, M., Jasri, M., & Rahmawati, T. (2019). Perbandingan Kinerja Tool Data Mining Weka dan Rapidminer Dalam Algoritma Klasifikasi. Teknika, 8(1), 11–16. https://doi.org/10.34148/teknika.v8i1.95
Hadistio, R. R., Mawengkang, H., & Zarlis, M. (2022). Perbandingan Algoritma Stochastic Gradient Descent dan Naïve Bayes Pada Klasifikasi Diabetic Retinopathy. 6, 271–277. https://doi.org/10.30865/mib.v6i1.3426
Ismai. (2017). Data Mining: Pengolahan Data Menjadi Informasi dengan RapidMiner.
Jalil, A., Homaidi, A., & Fatah, Z. (2024). Implementasi Algoritma Support Vector Machine Untuk Klasifikasi Status Stunting Pada Balita. G-Tech: Jurnal Teknologi Terapan, 8(3), 2070–2079. https://doi.org/10.33379/gtech.v8i3.4811
Munazilin, A., & Nasta’in, M. (2023). Analisis Sentimen Pengguna Aplikasi Sistem Pembayaran UTAP Pondok Pesantren Salafiyah Syafi’iyah Situbondo. Elektriese: Jurnal Sains Dan Teknologi Elektro, 13(01), 50–55. https://doi.org/10.47709/elektriese.v13i01.2581
Muntiari, N. R., & Hanif, K. H. (2022). Klasifikasi Penyakit Kanker Payudara Menggunakan Perbandingan Algoritma Machine Learning. Jurnal Ilmu Komputer Dan Teknologi, 3(1), 1–6. https://doi.org/10.35960/ikomti.v3i1.766
Nugraheni, F., Anisah, F., & Susetyo, G. A. (2022). Analisis Efek Radiasi Sinar-X pada Tubuh Manusia. Prosiding SNFA (Seminar Nasional Fisika Dan Aplikasinya), 1(1), 19–25.
Rahayu, P. T., & Qurrota, A. (2022). Jurnal Smart Teknologi Perbandingan Algoritma K-Nearest Neighbor Dan Gaussian Naïve Bayes Pada Klsifikai Penyakit Diabetes Melitus Comparison Of K-Nears Neighbor And Gaussian Naïve Bayes Algorithm On The Classification Of Diabetes Mellitus Jurnal Smart Te. 3(4), 366–373.
Rahmadini, A. F., D.S, R. K., & Agustiani, T. (2022). Edukasi Perilaku Pemeriksaan Payudara Sendiri (Sadari) Dalam Pencegahan Kanker Payudara Pada Remaja. Jurnal Pemberdayaan Dan Pendidikan Kesehatan (JPPK), 1(02), 105–113. https://doi.org/10.34305/jppk.v1i02.433
Rifa, Y., & Kunci, K. (2023). Analisis Metodologi Penelitian Kulitatif dalam Pengumpulan Data di Penelitian Ilmiah pada Penyusunan Mini Riset. 1(1), 31–37.
Rigatti, S. J. (2017). Random Forest. 31–39.
Risiko, F., & Payudara, K. (2013). Faktor Risiko Kanker Payudara Wanita. KESMAS - Jurnal Kesehatan Masyarakat, 8(2), 121–126. https://doi.org/10.15294/kemas.v8i2.2635
Shidqi, Z. N., Saraswati, L. D., Kusariana, N., Sutiningsih, D., & Udiyono, A. (2022). Faktor-Faktor Keterlambatan Diagnosis Kanker Pada Pasien Kanker Payudara : Systematic Review. Jurnal Epidemiologi Kesehatan Komunitas, 7(2), 471–481. https://doi.org/10.14710/jekk.v7i2.14911
Sigit, A., & Yuita, A. S. (2018). Implementasi Data Mining Menggunakan Weka. In Universitas Brawijaya Press.