Machine Learning: Naive Bayes

Machine Learning: Naive Bayes

Catatan penting : Jika Anda benar-benar awam tentang apa itu Python, silakan klik artikel saya ini. Jika Anda awam tentang R, silakan klik artikel ini.

Kali ini saya akan berbagi sebuah teknik klasifikasi dari teori Bayes. Teknik ini sebenarnya sederhana. Walau demikian, akan lebih mudah memahaminya jika sudah mengerti konsep teori Bayes. Apa itu?

Jika pembaca sudah paham teorema bayes, silakan lewati bagian ini dan lanjut ke halaman selanjutnya!

Saya jelaskan melalui ilustrasi berikut ini:

Dua buah mesin dengan kapasitas produksi yang berbeda

Sesuai ilustrasi di atas, anggap kita memiliki dua buah mesin produksi yang berbeda. Kedua mesin ini memproduksi tongkat baseball. Mesin 1 memiliki kapasitas produksi lebih besar dari mesin 2. Setiap tongkat baseball yang diproduksi diberi tanda, sehingga kita bisa tahu ia hasil dari mesin yang mana.

Setelah kita tunggu 1 jam kita mendapatkan beberapa tongkat baseball seperti ilustrasi berikut:

Total produksi tongkat baseball selama 1 jam

Pada gambar di atas kita bisa menghitung berapa tongkat yang dihasilkan. Selain itu, kita juga bisa mengetahui ada 2 tongkat yang rusak (berwarna kuning kemerahan).

Pertanyaan yang ingin kita jawab adalah berapa probabilitas (kemungkinan kejadian) mesin 2 memproduksi tongkat yang rusak?

Ilustrasi probabilitas mesin 2 memproduksi tongkat rusak

Untuk menjawabnya, maka kita akan menggunakan teorema bayes (Bayes Theorem). Formulanya bisa dilihat sebagai berikut:

Formula Bayes

Barangkali ada pembaca yang pusing melihat formula di atas. Tenang, tidak usah panik. Saya akan jelaskan dengan mudah.

Anggap kita mengetahui kapasitas produksi kedua mesin ini sebagai berikut:

  • Mesin 1 = 35 tongkat/jam
  • Mesin 2 = 15 tongkat/jam
  • Dari semua produk yang dihasilkan 1% nya cacat
  • Dari semua produk cacat yang ada, 45% berasal dari mesin 1, dan 55% lagi berasal dari mesin 2

Pertanyaannya berapa probabilitas mesin 2 menghasilkan produk cacat?

Probabilitas mesin 2 menghasilkan produk cacat bukan 55% ya. Itu adalah probabilitas produk cacat yang ada merupakan mesin 2 (kita mengetahui fakta bahwa produknya cacat terlebih dahulu).

Untuk menjawabnya, maka kita terjemahkan ke dalam bahasa matematika terlebih dahulu.

  • P(M1) = 35/50 = 0.7 –> 50 didapat dari 35+15
  • P(M2) = 15/50 = 0.3
  • P(Cacat) = 1% = 0.01
  • P(M1|Cacat) = 45% = 0.45 –> dibaca, peluang barang cacat yang berasal dari mesin 1.
  • P(M2|Cacat) = 55% = 0.55
  • P(Cacat|M2) = ? –> dibaca, peluang mesin 2 menghasilkan barang cacat

Untuk menghitung P(Cacat|M2) kita tulis rumus bayes nya sebagai berikut:

Formula bayes untuk permasalahan yang dibahas

Formula bayes untuk permasalahan yang dibahas

Dengan demikian P(Cacat|M2) adalah 0.018 atau 1.8%

Apa artinya? Jika kita memproduksi 1000 tongkat baseball, maka:

  • Mesin 1 menghasilkan 700 tongkat
  • Mesin 2 menghasilkan 300 tongkat
  • Dari total 1000 tongkat, ada 10 tongkat cacat
  • Dari 10 produk cacat ini, 4.5 produk (dibulatkan menjadi 4) berasal dari mesin 1
  • Dari 10 produk cacat, 5.5 produk (dibulatkan menjadi 5) berasal dari mesin 2. Karena pembulatan maka total pembulatan menjadi 9.
  • Probabilitas produk cacat yang dihasilkan dari mesin 2 [P(Cacat|M2)] = (0.55*0.01)/0.3 = 1.8%

Bisa dipahami ya sampai sini.

Untuk kembali membaca silakan diklik tombol di bawah ini.

Pages: 1 2 3 4 5 6

Subscribe
Notify of
guest

6 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
nan
nan
5 years ago

visualnya error kalo featurenya lebih dari 2, gimana ya pak caranya

Asep Muhidin
Asep Muhidin
4 years ago

Maaf pak. Mengapa feature ‘kelamin’ tidak dimasukkan ?

Jacoub
Jacoub
3 years ago

Halo Pak Mega,

Dalam 2 ilustrasi yang bapak Jelaskan, saya bingung dalam menentukan variabel dari formula bayes tsb, bukan kah P(M2) diilustrasi pertama sama dengan P(Motor) / P(Mobil) diilustrasi kedua karena memiliki sampel yang homogen jika dibandingkan dengan seluruh sampel, sedangkan P(Cacat) sama dengan P(X) karena kedua himpunan tsb teresbut terbentuk dari suatu kondisi dan memiliki sampel yang tidak homogen. Lalu di Ilustrasi pertama variabel P(M2) adalah pembagi, sedangkan di ilustrasi kedua variabel P(X) adalah Pembagi. kira2 bagaimana pak penjelasannya?

Terima kasih