Machine Learning: Reinforcement Learning

Machine Learning: Reinforcement Learning

Beberapa Istilah RL yang Harus Dipahami

  • Agen = Sebuah entitas yang melakukan aksi. Ia juga belajar dari lingkungannya melalui feedback yang didapat setelah melakukan aksi tersebut.
  • Environment = Tempat di mana agen tinggal dan beroperasi. Ia bisa berupa simulasi atau dunia nyata.
  • State (S) = Kondisi / tahapan / konfigurasi di mana agen beroperasi. Setiap langkah baru menghasilkan state baru. Setiap konfigurasi baru (penambahan atau pengurangan komponen dalam environment) juga merupakan state yang baru.
  • Reward (R) = Sebuah nilai yang didapat jika agen berhasil melakukan perintah (mencapai tujuan). Ini adalah komponen yang membedakan RL dengan SL atau UL. Sebuah agen tidak hanya memaksimasi reward jangka pendek, tapi juga reward jangka panjang (akan mudah memahaminya melalui praktek dan contoh). Contoh nyata adalah reward=1 jika tercapai tujuan, dan reward=0 jika tidak tercapai tujuan (bisa juga dibuat reward=-1). Perlu diperhatikan bahwa reward haruslah berupa angka.
  • Action / policy (A) = Adalah langkah / keputusan / aksi yang diambil oleh agen untuk mencapai tujuannya. Sebuah agen akan melakukan langkah yang baru (belum pernah ia lakukan sebelumnya) untuk memaksimalkan reward. Ia akan belajar dari langkah-langkah sebelumnya dan mengambil langkah-langkah yang terbaik, selama itu bisa memaksimalkan rewardnya. Contoh = jika kita bermain game 2 dimensi seperti mario bros, maka aksi adalah langkah yang dilakukan apakah bergerak ke kanan, kiri, atas, bawah, melompat, dan menembak api.
  • Time (t) = Adalah waktu yang merupakan komponen yang selalu ada di RL. Setiap sebuah agen melakukan aksi maka time nya maju selangkah. Dalam bahasa matematik kita tulis dengan t+1.

Jika sudah memahami istilah di atas, maka pembaca juga bisa memahami ilustrasi di bawah ini:

Ilustrasi State, Reward, dan Action dalam RL

Proses RL adalah gabungan dari State, Reward dan Action.

Sebuah agen mulai dari sebuah state S(t), melakukan aksi A(t) dan menerima Reward R(t+1). Reward selalu dihasilkan dari S dan A di waktu sebelumnya.

S(t) dan A(t) akan selalu memberikan state yang baru S(t+1). Dengan demikian bisa ditulis [S(t), A(t), S(t+1)] atau dalam bahasa lain (s, a, s’).

Sampai di sini saya harap pembaca paham. Saya memulainya langkah demi langkah, agar informasi yang diterima pembaca tidak membebani. Jika sudah paham konsep dasarnya, kita bisa mulai berlatih membuat program RL yang nyata.

Pages: 1 2 3 4

Subscribe
Notify of
guest

5 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Rocky
Rocky
6 years ago

Halo Pak, saya mau bertanya tentang definisi S dan S’, misalkan saya ambil dalam permaninan mario bros pada saat melompati box, bisa dikatakan Mario adalah Agent, Melompat adalah Action, Box adalah environtment, nah bagian S dan S’ yang mana yah pak? mohon pencerahan nya Pak, Terima Kasih

Rocky
Rocky
Reply to  MB Herlambang
6 years ago

Terima Kasih atas jawaban nya pak, maaf jika saya bertanya lagi, jika S+1 itu pd saat mario melompat, dan S+2 itu pd saat mario jongkok, berarti S(Skondisi) sepertinya hampir sama dengan Action yah pak? koreksi jika saya salah pak, apakah bisa dikatakan juga S+1 itu Kondisi Mario dibelakang Box (sebelum melompat), dan S+2 itu Kondisi Mario didepan/diatas Box (sesudah melompat)? mohon bantuan penjelasan lagi pak, Terima kasih

Rocky
Rocky
Reply to  MB Herlambang
6 years ago

Terima kasih Jawaban nya pak, saya mengerti sekarang.