Machine Learning: Naive Bayes

Machine Learning: Naive Bayes

Kita kembali ke permasalahan sebelumnya, yaitu 2 kelompok motor dan mobil. Namun kali ini, kita coba menghitungnya secara manual dengan angka yang ada.

Sebelumnya kita lihat kembali scatter plot dari 2 kelompok ini:


Ilustrasi penambahan data baru di plot motor dan mobil

Proses penyelesaiannya sama dengan pembahasan sebelumnya. Urutannya juga sama.

Langkah-langkahnya sebagai berikut:

  1. P(Motor) = Jumlah orang pengguna motor/Total pekerja = 10/30 = 0.33
  2. P(X) = Jumlah data dalam fitur X/Total pekerja = ?

Pembahasan mengenai P(X) agak sedikit menarik. Jadi kita harus buat dulu sebuah lingkaran dengan jari-jari (radius) yang bisa kita tentukan. Semua titik yang masuk ke dalam lingkaran ini, akan masuk sebagai data dengan fitur X. Maksudnya adalah titik-titik yang masuk ke dalam lingkaran tidak masuk ke golongan mobil atau motor, namun masuk ke golongan X. Ilustrasi mudahnya sebagai berikut:

Penambahan lingkaran fitur X

Perlu diperhatikan bahwa untuk menghitung P(X) kita tidak perlu memasukkan data baru tadi (titik berwarna merah), sehingga perhitungannya menjadi:

P(X) = Jumlah data dalam fitur X/Total pekerja = 5/30 = 0.16

Note = angka 5 didapat dari 4 pengguna motor ditambah 1 pengguna mobil

Sebagai review, P(X) adalah probabilitas titik-titik baru masuk ke dalam zona lingkaran ini.

Sampai sini pasti paham, sekarang saatnya lanjut ke tahap ketiga.


3. P(X|Motor) = Probabilitas pengguna motor yang masuk ke dalam fitur X

Jika ditulis ulang, maka menjadi:

P(X|Motor) = jumlah pengguna motor yang masuk ke fitur X / jumlah pengguna motor = 4/10 = 0.4

Note = angka 4 didapat dari total jumlah pengguna motor yang masuk ke lingkaran X, sementara 10 adalah total pengguna motor (termasuk yang masuk di lingkaran X).


4. P(Motor|X) = (0.4 * 0.33)/0.16 = 0.8


Jika sudah, sekarang gantian kita cari P(Mobil|X).

  • P(Mobil) = Jumlah orang pengguna mobil/Total pekerja = 20/30 = 0.67
  • P(X) = 0.16
  • P(X|Mobil) = jumlah pengguna mobil yang masuk ke fitur X / jumlah pengguna mobil = 1/20 = 0.05
  • P(Mobil|X) = (0.05*0.67)/0.16 = 0.2

Sekarang kita cukup membandingkan saja, mana yang lebih besar, apakah P(Motor|X) atau P(Mobil|X).

Ternyata P(Motor|X)>P(Mobil|X), di mana 0.8>0.2, sehingga titik baru tadi akan menjadi bagian dari pengguna motor.

Tips= Penjumlahan antara P(Motor|X)>P(Mobil|X) = 1. Jadi sebenarnya jika kita hanya membandingkan 2 kluster (kelompok), maka cukup dihitung salah satunya saja.

Titik baru menjadi bagian dari kelompok pengguna motor

Sampai sini saya harap pembaca bisa memahami konsepnya ya.

Untuk melanjutkan membaca, silakan klik tombol lanjut ke halaman berikutnya di bawah ini.

Pages: 1 2 3 4 5 6

Subscribe
Notify of
guest

6 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
nan
nan
6 years ago

visualnya error kalo featurenya lebih dari 2, gimana ya pak caranya

Asep Muhidin
Asep Muhidin
6 years ago

Maaf pak. Mengapa feature ‘kelamin’ tidak dimasukkan ?

Jacoub
Jacoub
4 years ago

Halo Pak Mega,

Dalam 2 ilustrasi yang bapak Jelaskan, saya bingung dalam menentukan variabel dari formula bayes tsb, bukan kah P(M2) diilustrasi pertama sama dengan P(Motor) / P(Mobil) diilustrasi kedua karena memiliki sampel yang homogen jika dibandingkan dengan seluruh sampel, sedangkan P(Cacat) sama dengan P(X) karena kedua himpunan tsb teresbut terbentuk dari suatu kondisi dan memiliki sampel yang tidak homogen. Lalu di Ilustrasi pertama variabel P(M2) adalah pembagi, sedangkan di ilustrasi kedua variabel P(X) adalah Pembagi. kira2 bagaimana pak penjelasannya?

Terima kasih