Machine Learning: Naive Bayes

March 2, 2019

BAGAIMANA KONSEP TEOREMA BAYES UNTUK MACHINE LEARNING?

Misal kita memiliki dua buah kategori, yaitu orang yang menggunakan sepeda motor dan mobil untuk pergi ke kantor dengan dua variabel independen usia dan gaji. Tentunya untuk memudahkan kita hanya menggunakan 2 fitur saja agar mudah visualisasinya. Dalam kasus nyata, fitur (variabel independen) biasanya lebih dari 2.

Ilustrasi dari permasalahan di atas kira-kira sebagai berikut:

Ilustrasi dua kelompok pengguna motor dan mobil untuk pergi ke kantor

Gambar di atas menunjukkan ada 30 orang yang dikelompokkan ke dalam 2 bagian, yaitu 10 orang adalah pengguna motor dan 20 orang adalah pengguna mobil. Semua data kita plot dengan sumbu X adalah usia dan sumbu Y adalah gaji yang didapat per bulannya.

Pertanyaannya, jika kita memasukkan 1 data ke dalam scatter plot di atas, maka ia akan masuk ke kelompok motor atau mobil?

Ilustrasinya sebagai berikut:

Ilustrasi penambahan data baru di plot sebelumnya

Untuk menyelesaikannya, mari kita review formula dari teorema bayes, yaitu:

Untuk menjawab permasalahan kita, maka formulanya akan menjadi seperti ini:

Tanda X merupakan fitur data baru yang kita masukkan. Fitur yang dimaksud adalah variabel independen usia dan gaji.

Perlu diingat bahwa P(Motor|X) artinya adalah probabilitas fitur X di mana ia memilih naik motor. Tips: Bacanya dari kanan dulu baru ke kiri.

Dengan demikian, cara membaca P(X|Motor) adalah probabilitas kelompok yang naik motor, di mana ia memiliki fitur X. Sampai di sini harus bisa dibedakan ya.

Langkah selanjutnya, untuk menghitung formula di atas sekaligus mencari solusinya dibagi ke dalam beberapa tahapan, sebagai berikut:

LANGKAH 1

Kita hitung dulu P(Motor) –> karena ini paling mudah dihitung terlebih dahulu
Selanjutnya kita hitung P(X)
Kemudian kita hitung P(X|Motor)
Dengan demikian, kita bisa mendapatkan P(Motor|X)

Agar lebih mudah, urutannya seperti ini (sekalian saya beri istilah inggrisnya):

LANGKAH 2

Jika tahapan di atas sudah selesai, maka langkah selanjutnya adalah menyelesaikan formula untuk P(Mobil|X). Formulanya yaitu:

Urutannya sama persis. Kita mulai dari menghitung P(Mobil) terlebih dahulu. Dilanjutkan dengan P(X), P(X|Mobil), baru terakhir P(Mobil|X).

Dengan demikian, sekarang kita memiliki 2 nilai penting yaitu P(Motor|X) dan P(X|Motor).

LANGKAH 3

Langkah selanjutnya adalah membandingkan 2 nilai ini.

P(Motor|X) vs P(Mobil|X)

Dari sini, baru kita bisa mengklasifikasikan apakah data fitur X masuk ke kelompok motor atau mobil.

Perlu diperhatikan bahwa yang kita bandingkan adalah probabilitasnya, dan bukan nilai sesungguhnya. Hal ini mirip dengan teknik klasifikasi logistic regression, di mana kita membandingkan probabilitas antara ya dan tidak.

Semoga sampai di sini pembaca bisa memahami prosesnya, bagaimana dari sebuah formula bayes menjadi sebuah teknik klasifikasi. Walau demikian, kita memang baru masuk ke konsepnya dan belum ke prakteknya menggunakan bahasa Python dan R.

Jika sudah mengerti dan siap melanjutkan membaca, silakan klik tombol halaman selanjutnya di bawah ini.

Pages: 1 2 3 4 5 6

6 Comments

Oldest

Newest Most Voted

Inline Feedbacks

View all comments

nan

6 years ago

visualnya error kalo featurenya lebih dari 2, gimana ya pak caranya

Author

Reply to nan

Visualisasi memang mudahnya untuk 2D (2 dimensi) untuk 2 fitur. Kalau lebih dari itu susah untuk memvisualisasikan, apalagi jika lebih dari 3 fitur.
Untuk fitur lebih dari 2, penyelesaiannya direkomendasikan untuk menggunakan pendekatan Neural Networks yang dibahas di bagian Deep Learning 🙂

Asep Muhidin

Maaf pak. Mengapa feature ‘kelamin’ tidak dimasukkan ?

Reply to Asep Muhidin

Halo, dalam pembahasan ini yang dipakai hanya data gaji dan usia.

Silakan dicoba-coba sendiri memasukkan data kelamin sebagai variabel independen, dan bandingkan hasilnya.

Jacoub

4 years ago

Halo Pak Mega,

Dalam 2 ilustrasi yang bapak Jelaskan, saya bingung dalam menentukan variabel dari formula bayes tsb, bukan kah P(M2) diilustrasi pertama sama dengan P(Motor) / P(Mobil) diilustrasi kedua karena memiliki sampel yang homogen jika dibandingkan dengan seluruh sampel, sedangkan P(Cacat) sama dengan P(X) karena kedua himpunan tsb teresbut terbentuk dari suatu kondisi dan memiliki sampel yang tidak homogen. Lalu di Ilustrasi pertama variabel P(M2) adalah pembagi, sedangkan di ilustrasi kedua variabel P(X) adalah Pembagi. kira2 bagaimana pak penjelasannya?

Terima kasih

Reply to Jacoub

Halo Jacoub. Rumusnya memang seperti itu.
Bisa diperdalam lagi di mata kuliah Statistik 1, biasanya ia dibahas bersama materi probabilitas.