Machine Learning: Naive Bayes

March 2, 2019

MENGAPA DISEBUT NAIVE BAYES?

Dalam teorema bayes ada asumsi yang sangat penting, di mana asumsi ini haruslah dipenuhi. Apa itu? Asumsinya adalah semua variabelnya harus bersifat independen.

Independen yang dimaksud adalah variabel-variabel tersebut tidak saling mempengaruhi satu sama lain. Misal untuk ilustasi kita antara usia dan gaji tidak boleh ada hubungan sama sekali.

Ilustrasi data pengguna motor dan mobil dengan fitur usia dan gaji

Jika melihat hubungan di atas, maka kita sebenarnya bisa menebak bahwa semakin tinggi usia ternyata gajinya juga semakin naik. Oleh karena itu, sangat logis bahwa hubungan antara gaji dan usia tidaklah independen.

Mengapa disebut naive? Karena kita tidak perlu memegang teguh asumsi ini dalam aplikasi machine learning. Kita menggunakan formula dan konsepnya, namun asumsinya kita abaikan. Oleh karena itu disebut naive yang jika diartikan ke dalam bahasa indonesia adalah polos (tanpa dosa).

Sampai di sini paham ya alasan penamaannya. Walau kita abaikan asumsi independennya, ternyata akurasinya cukup tinggi.

BAGAIMANA JIKA ADA LEBIH DARI 2 KELOMPOK?

Dalam contoh kali ini kita hanya membahas kelompok motor dan mobil. Lalu bagaimana jika ada 3 kelompok, misal pengguna angkot? Mudah saja, kita cukup membandingkan 3 probabilitas, yaitu:

P(Angkot|X) vs P(Motor|X) vs P(Mobil|X)

Setelah itu kita pilih yang nilai probabilitasnya paling besar. Dengan demikian ia masuk ke kelompok dengan nilai p tertinggi.

Mudah bukan?

Selanjutnya kita akan coba menyelesaikan permasalahan nyata dengan bahasa Python dan R.

Untuk melanjutkan membaca, silakan klik tombol lanjut ke halaman berikutnya di bawah ini.

Pages: 1 2 3 4 5 6

6 Comments

Oldest

Newest Most Voted

Inline Feedbacks

View all comments

nan

6 years ago

visualnya error kalo featurenya lebih dari 2, gimana ya pak caranya

Author

Reply to nan

Visualisasi memang mudahnya untuk 2D (2 dimensi) untuk 2 fitur. Kalau lebih dari itu susah untuk memvisualisasikan, apalagi jika lebih dari 3 fitur.
Untuk fitur lebih dari 2, penyelesaiannya direkomendasikan untuk menggunakan pendekatan Neural Networks yang dibahas di bagian Deep Learning 🙂

Asep Muhidin

Maaf pak. Mengapa feature ‘kelamin’ tidak dimasukkan ?

Reply to Asep Muhidin

Halo, dalam pembahasan ini yang dipakai hanya data gaji dan usia.

Silakan dicoba-coba sendiri memasukkan data kelamin sebagai variabel independen, dan bandingkan hasilnya.

Jacoub

4 years ago

Halo Pak Mega,

Dalam 2 ilustrasi yang bapak Jelaskan, saya bingung dalam menentukan variabel dari formula bayes tsb, bukan kah P(M2) diilustrasi pertama sama dengan P(Motor) / P(Mobil) diilustrasi kedua karena memiliki sampel yang homogen jika dibandingkan dengan seluruh sampel, sedangkan P(Cacat) sama dengan P(X) karena kedua himpunan tsb teresbut terbentuk dari suatu kondisi dan memiliki sampel yang tidak homogen. Lalu di Ilustrasi pertama variabel P(M2) adalah pembagi, sedangkan di ilustrasi kedua variabel P(X) adalah Pembagi. kira2 bagaimana pak penjelasannya?

Terima kasih

Reply to Jacoub

Halo Jacoub. Rumusnya memang seperti itu.
Bisa diperdalam lagi di mata kuliah Statistik 1, biasanya ia dibahas bersama materi probabilitas.