Machine Learning: Reinforcement Learning

Machine Learning: Reinforcement Learning

Cara Kerja Reinforcement Learning

Reinforcement learning (RL) bekerja melalui sebuah proses feedback, dan akan terus melakukan aktivitasnya sampai ia mencapai tujuannya. Jika ia mencapai tujuan maka ia akan mendapatkan reward. Proses ini akan terus berlangsung dengan tujuan besarnya adalah memaksimalkan reward yang didapat. Ilustrasinya bisa dilihat melalui gambar berikut:

Alur kerja reinforcement learning

Melalui gambar di atas bisa dilihat bahwa agen melakukan sebuah aksi, yang kemudian aksi itu akan diterapkan di lingkungannya (baik dunia luar atau berupa simulasi). Kemudian akan dilihat apakah tujuannya tercapai atau tidak. Jika tercapai maka ia akan mendapat reward, jika tidak maka ia mendapat hukuman (punishment) atau bisa juga disetting tidak terjadi apa-apa. Setiap keputusan (aksi) yang ia ambil, maka ia berada di kondisi (state) yang baru. Begitu seterusnya sampai reward yang didapat maksimal.

Dalam aplikasi nyata misalnya bermain mario bros, maka tujuan besarnya adalah mencapai skor tertinggi. Tentunya dengan tetap berusaha agar mario bros tidak pernah mati saat bermain. Atau jika kita mendesain robot yang bisa berjalan, maka tujuan besarnya adalah ia mencapai skor (reward) tertinggi juga. Setiap ia bisa berjalan normal (kriteria berjalan normal sudah kita tentukan), maka ia akan mendapat skor. Jika berjalannya sempurna, skornya sempurna, jika jatuh maka skornya minus. Perhitungan skor bersifat akumulatif. Begitu seterusnya.

Sampai sini saya harap pembaca memahami konsep dasarnya dulu. Jika sudah paham, baru kita masuk ke tahap selanjutnya yang lebih teknis.

Untuk melanjutkan membaca silakan klik tombol halaman selanjutnya di bawah ini.

Pages: 1 2 3 4

Subscribe
Notify of
guest

5 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Rocky
Rocky
6 years ago

Halo Pak, saya mau bertanya tentang definisi S dan S’, misalkan saya ambil dalam permaninan mario bros pada saat melompati box, bisa dikatakan Mario adalah Agent, Melompat adalah Action, Box adalah environtment, nah bagian S dan S’ yang mana yah pak? mohon pencerahan nya Pak, Terima Kasih

Rocky
Rocky
Reply to  MB Herlambang
6 years ago

Terima Kasih atas jawaban nya pak, maaf jika saya bertanya lagi, jika S+1 itu pd saat mario melompat, dan S+2 itu pd saat mario jongkok, berarti S(Skondisi) sepertinya hampir sama dengan Action yah pak? koreksi jika saya salah pak, apakah bisa dikatakan juga S+1 itu Kondisi Mario dibelakang Box (sebelum melompat), dan S+2 itu Kondisi Mario didepan/diatas Box (sesudah melompat)? mohon bantuan penjelasan lagi pak, Terima kasih

Rocky
Rocky
Reply to  MB Herlambang
6 years ago

Terima kasih Jawaban nya pak, saya mengerti sekarang.