Kali ini saya akan membahas salah satu teknik Machine Learning (ML) yaitu classification (klasifikasi). Tujuan dari proses klasifikasi ini mirip dengan clustering yaitu kita ingin membagi dataset ke dalam beberapa kelompok. Namun yang membuatnya berbeda adalah, dalam klasifikasi kita memberi tahu kepada mesin (algoritma) kita pembagian kelompoknya, atau dengan kata lain kita mengajari mesin cara membagi kelompoknya. Sedangkan pada clustering, kita tidak mengajarkan mesin, namun ia yang akan melakukan pengelompokan dengan sendirinya.
Selain itu klasifikasi masuk ke dalam tipe supervised learning, sementara clustering adalah tipe unsupervised learning.
Bisa disimpulkan, bahwa dalam proses membagi kelompok-kelompoknya:
- Classification, kita mengajarkan (memberitahu) mesin cara pembagian kelompoknya.
- Clustering, kita tidak mengajarkan mesin, melainkan mesin akan mencari tahu sendiri cara pembagian kelompoknya.
Regresi dan klasifikasi merupakan dua algoritma supervised learning. Kita gunakan regresi jika label data yang ingin kita prediksi bertipe numerik, dan kita gunakan klasifikasi jika label datanya bertipe kategori.
Ada beberapa jenis teknik klasifikasi yang akan kita bahas di sini, antara lain:
- Logistic regression
- K-nearest neighbors
- Support vector machine (SVM)
- Naive Bayes
- Decision tree classification
- Random forest classification