Cara Kerja Reinforcement Learning
Reinforcement learning (RL) bekerja melalui sebuah proses feedback, dan akan terus melakukan aktivitasnya sampai ia mencapai tujuannya. Jika ia mencapai tujuan maka ia akan mendapatkan reward. Proses ini akan terus berlangsung dengan tujuan besarnya adalah memaksimalkan reward yang didapat. Ilustrasinya bisa dilihat melalui gambar berikut:

Melalui gambar di atas bisa dilihat bahwa agen melakukan sebuah aksi, yang kemudian aksi itu akan diterapkan di lingkungannya (baik dunia luar atau berupa simulasi). Kemudian akan dilihat apakah tujuannya tercapai atau tidak. Jika tercapai maka ia akan mendapat reward, jika tidak maka ia mendapat hukuman (punishment) atau bisa juga disetting tidak terjadi apa-apa. Setiap keputusan (aksi) yang ia ambil, maka ia berada di kondisi (state) yang baru. Begitu seterusnya sampai reward yang didapat maksimal.
Dalam aplikasi nyata misalnya bermain mario bros, maka tujuan besarnya adalah mencapai skor tertinggi. Tentunya dengan tetap berusaha agar mario bros tidak pernah mati saat bermain. Atau jika kita mendesain robot yang bisa berjalan, maka tujuan besarnya adalah ia mencapai skor (reward) tertinggi juga. Setiap ia bisa berjalan normal (kriteria berjalan normal sudah kita tentukan), maka ia akan mendapat skor. Jika berjalannya sempurna, skornya sempurna, jika jatuh maka skornya minus. Perhitungan skor bersifat akumulatif. Begitu seterusnya.
Sampai sini saya harap pembaca memahami konsep dasarnya dulu. Jika sudah paham, baru kita masuk ke tahap selanjutnya yang lebih teknis.
Untuk melanjutkan membaca silakan klik tombol halaman selanjutnya di bawah ini.

Halo Pak, saya mau bertanya tentang definisi S dan S’, misalkan saya ambil dalam permaninan mario bros pada saat melompati box, bisa dikatakan Mario adalah Agent, Melompat adalah Action, Box adalah environtment, nah bagian S dan S’ yang mana yah pak? mohon pencerahan nya Pak, Terima Kasih
Halo, S adalah kondisi (state) saat ini (sebut saja saat t, di mana t adalah satuan waktu), dan S’ istilah untuk S yg baru yaitu ketika Mario melompat (saat t+1), S’ ini juga disebut S(t+1).
Ketika kita berada di t+1 (perspektif waktunya maju sebanyak 1 satuan), maka t+1 menjadi t, dan S’ menjadi S.
Kemudian, misal setelah melompat tadi, Mario jongkok (saat t+2), maka state yang baru tetap disebut sebagai S’ atau bisa kita tulis secara matematis menjadi S(t+2).
Ketika kita berada di t+2, maka S’ tadi menjadi S (state saat ini).
Semoga paham ya penjelasan saya di atas.
Terima Kasih atas jawaban nya pak, maaf jika saya bertanya lagi, jika S+1 itu pd saat mario melompat, dan S+2 itu pd saat mario jongkok, berarti S(Skondisi) sepertinya hampir sama dengan Action yah pak? koreksi jika saya salah pak, apakah bisa dikatakan juga S+1 itu Kondisi Mario dibelakang Box (sebelum melompat), dan S+2 itu Kondisi Mario didepan/diatas Box (sesudah melompat)? mohon bantuan penjelasan lagi pak, Terima kasih
State berbeda dengan action.
State adalah kondisi setelah action. Ia tidak hanya merangkum action yang sudah dilakukan tapi juga lingkungan di sekitarya.
Sementara action adalah aksi dari Agen itu sendiri.
– Jadi sebelum Mario melompat ia berada di S (kondisi saat ini).
– Ia melakukan action melompat, maka sekarang state nya menjadi S(t+1).
– Ia melakukan action jongkok, maka state nya menjadi S(t+2).
Cara membayangkannya cukup buat tabel, ada kolom state dan ada kolom action.
Semoga menjawab.
Terima kasih Jawaban nya pak, saya mengerti sekarang.