Catatan penting : Jika Anda benar-benar awam tentang apa itu Python, silakan klik artikel saya ini. Jika Anda awam tentang R, silakan klik artikel ini.
Kali ini saya akan berbagi sebuah teknik klasifikasi dari teori Bayes. Teknik ini sebenarnya sederhana. Walau demikian, akan lebih mudah memahaminya jika sudah mengerti konsep teori Bayes. Apa itu?
Jika pembaca sudah paham teorema bayes, silakan lewati bagian ini dan lanjut ke halaman selanjutnya!
Saya jelaskan melalui ilustrasi berikut ini:
Sesuai ilustrasi di atas, anggap kita memiliki dua buah mesin produksi yang berbeda. Kedua mesin ini memproduksi tongkat baseball. Mesin 1 memiliki kapasitas produksi lebih besar dari mesin 2. Setiap tongkat baseball yang diproduksi diberi tanda, sehingga kita bisa tahu ia hasil dari mesin yang mana.
Setelah kita tunggu 1 jam kita mendapatkan beberapa tongkat baseball seperti ilustrasi berikut:
Pada gambar di atas kita bisa menghitung berapa tongkat yang dihasilkan. Selain itu, kita juga bisa mengetahui ada 2 tongkat yang rusak (berwarna kuning kemerahan).
Pertanyaan yang ingin kita jawab adalah berapa probabilitas (kemungkinan kejadian) mesin 2 memproduksi tongkat yang rusak?
Untuk menjawabnya, maka kita akan menggunakan teorema bayes (Bayes Theorem). Formulanya bisa dilihat sebagai berikut:
Barangkali ada pembaca yang pusing melihat formula di atas. Tenang, tidak usah panik. Saya akan jelaskan dengan mudah.
Anggap kita mengetahui kapasitas produksi kedua mesin ini sebagai berikut:
- Mesin 1 = 35 tongkat/jam
- Mesin 2 = 15 tongkat/jam
- Dari semua produk yang dihasilkan 1% nya cacat
- Dari semua produk cacat yang ada, 45% berasal dari mesin 1, dan 55% lagi berasal dari mesin 2
Pertanyaannya berapa probabilitas mesin 2 menghasilkan produk cacat?
Probabilitas mesin 2 menghasilkan produk cacat bukan 55% ya. Itu adalah probabilitas produk cacat yang ada merupakan mesin 2 (kita mengetahui fakta bahwa produknya cacat terlebih dahulu).
Untuk menjawabnya, maka kita terjemahkan ke dalam bahasa matematika terlebih dahulu.
- P(M1) = 35/50 = 0.7 –> 50 didapat dari 35+15
- P(M2) = 15/50 = 0.3
- P(Cacat) = 1% = 0.01
- P(M1|Cacat) = 45% = 0.45 –> dibaca, peluang barang cacat yang berasal dari mesin 1.
- P(M2|Cacat) = 55% = 0.55
- P(Cacat|M2) = ? –> dibaca, peluang mesin 2 menghasilkan barang cacat
Untuk menghitung P(Cacat|M2) kita tulis rumus bayes nya sebagai berikut:
Dengan demikian P(Cacat|M2) adalah 0.018 atau 1.8%
Apa artinya? Jika kita memproduksi 1000 tongkat baseball, maka:
- Mesin 1 menghasilkan 700 tongkat
- Mesin 2 menghasilkan 300 tongkat
- Dari total 1000 tongkat, ada 10 tongkat cacat
- Dari 10 produk cacat ini, 4.5 produk (dibulatkan menjadi 4) berasal dari mesin 1
- Dari 10 produk cacat, 5.5 produk (dibulatkan menjadi 5) berasal dari mesin 2. Karena pembulatan maka total pembulatan menjadi 9.
- Probabilitas produk cacat yang dihasilkan dari mesin 2 [P(Cacat|M2)] = (0.55*0.01)/0.3 = 1.8%
Bisa dipahami ya sampai sini.
Untuk kembali membaca silakan diklik tombol di bawah ini.
visualnya error kalo featurenya lebih dari 2, gimana ya pak caranya
Visualisasi memang mudahnya untuk 2D (2 dimensi) untuk 2 fitur. Kalau lebih dari itu susah untuk memvisualisasikan, apalagi jika lebih dari 3 fitur.
Untuk fitur lebih dari 2, penyelesaiannya direkomendasikan untuk menggunakan pendekatan Neural Networks yang dibahas di bagian Deep Learning 🙂
Maaf pak. Mengapa feature ‘kelamin’ tidak dimasukkan ?
Halo, dalam pembahasan ini yang dipakai hanya data gaji dan usia.
Silakan dicoba-coba sendiri memasukkan data kelamin sebagai variabel independen, dan bandingkan hasilnya.
Halo Pak Mega,
Dalam 2 ilustrasi yang bapak Jelaskan, saya bingung dalam menentukan variabel dari formula bayes tsb, bukan kah P(M2) diilustrasi pertama sama dengan P(Motor) / P(Mobil) diilustrasi kedua karena memiliki sampel yang homogen jika dibandingkan dengan seluruh sampel, sedangkan P(Cacat) sama dengan P(X) karena kedua himpunan tsb teresbut terbentuk dari suatu kondisi dan memiliki sampel yang tidak homogen. Lalu di Ilustrasi pertama variabel P(M2) adalah pembagi, sedangkan di ilustrasi kedua variabel P(X) adalah Pembagi. kira2 bagaimana pak penjelasannya?
Terima kasih
Halo Jacoub. Rumusnya memang seperti itu.
Bisa diperdalam lagi di mata kuliah Statistik 1, biasanya ia dibahas bersama materi probabilitas.