Machine Learning: Reinforcement Learning

10/05/2019

MB Herlambang

Machine Learning: Reinforcement Learning

Beberapa Istilah RL yang Harus Dipahami

Agen = Sebuah entitas yang melakukan aksi. Ia juga belajar dari lingkungannya melalui feedback yang didapat setelah melakukan aksi tersebut.
Environment = Tempat di mana agen tinggal dan beroperasi. Ia bisa berupa simulasi atau dunia nyata.
State (S) = Kondisi / tahapan / konfigurasi di mana agen beroperasi. Setiap langkah baru menghasilkan state baru. Setiap konfigurasi baru (penambahan atau pengurangan komponen dalam environment) juga merupakan state yang baru.
Reward (R) = Sebuah nilai yang didapat jika agen berhasil melakukan perintah (mencapai tujuan). Ini adalah komponen yang membedakan RL dengan SL atau UL. Sebuah agen tidak hanya memaksimasi reward jangka pendek, tapi juga reward jangka panjang (akan mudah memahaminya melalui praktek dan contoh). Contoh nyata adalah reward=1 jika tercapai tujuan, dan reward=0 jika tidak tercapai tujuan (bisa juga dibuat reward=-1). Perlu diperhatikan bahwa reward haruslah berupa angka.
Action / policy (A) = Adalah langkah / keputusan / aksi yang diambil oleh agen untuk mencapai tujuannya. Sebuah agen akan melakukan langkah yang baru (belum pernah ia lakukan sebelumnya) untuk memaksimalkan reward. Ia akan belajar dari langkah-langkah sebelumnya dan mengambil langkah-langkah yang terbaik, selama itu bisa memaksimalkan rewardnya. Contoh = jika kita bermain game 2 dimensi seperti mario bros, maka aksi adalah langkah yang dilakukan apakah bergerak ke kanan, kiri, atas, bawah, melompat, dan menembak api.
Time (t) = Adalah waktu yang merupakan komponen yang selalu ada di RL. Setiap sebuah agen melakukan aksi maka time nya maju selangkah. Dalam bahasa matematik kita tulis dengan t+1.

Jika sudah memahami istilah di atas, maka pembaca juga bisa memahami ilustrasi di bawah ini:

Ilustrasi State, Reward, dan Action dalam RL

Proses RL adalah gabungan dari State, Reward dan Action.

Sebuah agen mulai dari sebuah state S(t), melakukan aksi A(t) dan menerima Reward R(t+1). Reward selalu dihasilkan dari S dan A di waktu sebelumnya.

S(t) dan A(t) akan selalu memberikan state yang baru S(t+1). Dengan demikian bisa ditulis [S(t), A(t), S(t+1)] atau dalam bahasa lain (s, a, s’).

Sampai di sini saya harap pembaca paham. Saya memulainya langkah demi langkah, agar informasi yang diterima pembaca tidak membebani. Jika sudah paham konsep dasarnya, kita bisa mulai berlatih membuat program RL yang nyata.

Pages: 1 2 3 4

5 Comments

Oldest

Newest Most Voted

Rocky

6 years ago

Halo Pak, saya mau bertanya tentang definisi S dan S’, misalkan saya ambil dalam permaninan mario bros pada saat melompati box, bisa dikatakan Mario adalah Agent, Melompat adalah Action, Box adalah environtment, nah bagian S dan S’ yang mana yah pak? mohon pencerahan nya Pak, Terima Kasih

Author

Reply to Rocky

Halo, S adalah kondisi (state) saat ini (sebut saja saat t, di mana t adalah satuan waktu), dan S’ istilah untuk S yg baru yaitu ketika Mario melompat (saat t+1), S’ ini juga disebut S(t+1).

Ketika kita berada di t+1 (perspektif waktunya maju sebanyak 1 satuan), maka t+1 menjadi t, dan S’ menjadi S.

Kemudian, misal setelah melompat tadi, Mario jongkok (saat t+2), maka state yang baru tetap disebut sebagai S’ atau bisa kita tulis secara matematis menjadi S(t+2).

Ketika kita berada di t+2, maka S’ tadi menjadi S (state saat ini).

Semoga paham ya penjelasan saya di atas.

Reply to MB Herlambang

Terima Kasih atas jawaban nya pak, maaf jika saya bertanya lagi, jika S+1 itu pd saat mario melompat, dan S+2 itu pd saat mario jongkok, berarti S(Skondisi) sepertinya hampir sama dengan Action yah pak? koreksi jika saya salah pak, apakah bisa dikatakan juga S+1 itu Kondisi Mario dibelakang Box (sebelum melompat), dan S+2 itu Kondisi Mario didepan/diatas Box (sesudah melompat)? mohon bantuan penjelasan lagi pak, Terima kasih

State berbeda dengan action.
State adalah kondisi setelah action. Ia tidak hanya merangkum action yang sudah dilakukan tapi juga lingkungan di sekitarya.
Sementara action adalah aksi dari Agen itu sendiri.
– Jadi sebelum Mario melompat ia berada di S (kondisi saat ini).
– Ia melakukan action melompat, maka sekarang state nya menjadi S(t+1).
– Ia melakukan action jongkok, maka state nya menjadi S(t+2).

Cara membayangkannya cukup buat tabel, ada kolom state dan ada kolom action.

Semoga menjawab.

Terima kasih Jawaban nya pak, saya mengerti sekarang.