Praktikum VIII - Moda Self-study : Pembangunan Model dan Evaluasi
Praktikum VIII
Selamat datang pada sesi ke-8 praktikum unggulan Universitas Gunadarma. Melanjutkan kegiatan praktikum sebelumnya, pada minggu ini Anda akan melanjutkan tahapan pengolahan data yaitu data training dan model generation.
Dataset
Dataset yang Anda gunakan yaitu dataset Beton (concrete) yang berisi informasi mengenai komposisi beton, pengaruh waktu dan hasil kekuatan beton yang berisi 1030 row data dengan 9 fitur.
Studi Kasus
Dengan menggunakan dataset tersebut Anda akan diminta menyelesaikan permasalahan klasifikasi, dimana model akan diminta untuk menentukan kekuatan beton berdasarkan kombinasi fitur yang dimiliki.
Algoritma
Algoritma yang digunakan adalah K-Nearest Neighbour.
Soal
Buatlah laporan akhir yang menjelaskan langkah-langkah serta penjelasan tahapan yang Anda lakukan pada praktikum ini, yang didalamnya menjawab beberapa pertanyaan sebagai berikut
1. Rubahlah fitur cement menjadi fitur target class yang ingin Anda prediksi, dengan nilai fitur > 281 merupakan kelas 1 dan < 281 menjadi nilai 0. Berapa akurasi model dan nilai k untuk skenario ini?
2. Pada hasil diagram heatmap, terlihat banyak konfigurasi warna dan nilai yang ditampilkan. Jelaskan arti kolom berwarna merah pada hasil diagram heatmap yang dihasilkan! Pasangan variabel apa saja yang bernilai merah?
3. Apa yang terjadi jika, nilai test set diganti menjadi 0.3 kemudian 0.2 dan 0,1 ?
4. Buatlah tabel yang berisi hasil pengujian Anda dan sertakan berapa nilai k dan nilai akurasi untuk masing-masing skenario uji.
5. Apakah terjadi perbedaan nilai akurasi model? Jika Ya, jelaskan pendapat Anda mengapa hal tersebut bisa terjadi.
6. Berapa nilai presisi dan recall dari masing-masing model yang Anda coba serta jelaskan arti dari nilai tersebut
pretest
Berikut adalah metrik evaluasi yang biasa digunakan untuk mengukur kehandalan model machine learning, kecuali
#p-value
Nilai korelasi pada koefisien korelasi pearson bernilai ... jika kedua variabel yang diuji memiliki hubungan yang bertolak belakang
#negatif
Proses perubahan data berjenis kategori menjadi suatu bilangan biner merupakan definisi proses ..
#encoding
Perintah .describe(include=all) akan memberikan hasil deskripsi statistik untuk data yang bernilai numerik dan obyek
#true
anda membutuhkan dataset yang telah dilabelkan oleh expert (ground truth) untuk menggunakan algoritma dengan jenis supervised learning
#true
Post Test
Anda dapat menggunakan satuan metrik accuracy sebagai salah satu acuan kehandalan model untuk data dengan distribusi tidak normal.
The correct answer is 'False'.
Nilai test_set =0.5 menunjukkan bahwa jumlah dataset yang digunakan dalam proses training dan testing kurang lebih sama.
The correct answer is 'True'.
Pendekatan perhitungan jarak digunakan oleh algoritma KNN dalam penentuan kelas data yang di prediksi.
The correct answer is 'True'.
nilai k menunjukkan jumlah 'tetangga' yang akan digunakan oleh algoritma KNN untuk mengetahui prediksi kelas dari sebuah nilai.
the correct answer is 'True'.
Anda tidak perlu melakukan proses normalisasi data ketika menggunakan algoritma berbasis jarak seperti KNN dan KMeans
The correct answer is 'False'.