Machine Learning: Reinforcement Learning

Ilustrasi robot anjing yang belajar menggunakan reinforcement learning

Setelah sebelumnya sudah saya bahas tentang 2 jenis machine learning (ML) yaitu supervised dan unsupervised learning, kali ini kita masuk ke jenis yang lain yaitu reinforcement learning.

Namun sebelum melanjutkan pembahasan, saya review sedikit tentang 2 jenis ML sebelumnya, agar pembaca mudah memahaminya ketika membahas reinforcement learning.

Supervised learning (SL) adalah jenis ML di mana kita sudah tahu tujuannya (maksudnya adalah hasil akhirnya). Dengan tahu hasilakhirnya, kita bisa memberi tahu kepada mesin (program) cara melakukannya. Contoh mudahnya adalah kita membuat program mendeteksi spam di email. Kita memberitahu program beberapa contoh (sample) mana email yang termasuk ke dalam spam dan mana email yang normal. Hasil akhirnya kita sudah tahu, yaitu programnya bisa mendeteksi email ke dalam dua jenis (normal dan tidak).

Sementara unsupervised learning (UL) adalah jenis ML yang kita belum tahu tujuan akhirnya. Kita tidak bisa mengajarkan kepada program cara melakukan sesuatu. Contohnya adalah clustering, di mana kita ingin membagi dataset ke dalam beberapa kelompok. Walaupun kita ingin program ini melakukan sesuatu, namun ini bukanlah tujuan yang dimaksud, karena hasil akhirnya belum jelas. Biarkan program melakukan sendiri dengan caranya, dan kita terima hasil akhirnya. Hasil akhir yang dihasilkan misalnya program kita bisa membagi dataset ke dalam 5 kluster, 7 kluster atau bahkan 10 kluster. Kita tinggal memilih mau hasil yang mana. Hasil akhir dari unsupervised learning tidak sejelas supervised learning.

Berbeda dengan keduanya, reinforcement learning (RL) berjalan untuk memaksimalkan reward yang ditawarkan. Yang dimaksud reward di sini adalah penghargaan atau insentif untuk program itu sendiri (dalam bahasa teknis, istilahnya adalah agent). Layaknya manusia yang suka diberi reward (komisi uang misalnya), maka agent dalam RL juga menyukainya.

Contoh nyata dari aplikas RL adalah program catur seperti Deep Blue yang bisa mengalahkan grandmaster Garry Kasparov, atau AlphaGo yang bisa mengalahkan pemegang gelar dunia catur jepang (catur Go) yaitu Lee Sedol. Kita juga bisa mendesain game seperti tic-tac-toe dengan RL. Bahkan teknik RL juga bisa digunakan untuk menyelesaikan game yang sudah ada seperti Mario Bros misalnya. Kita juga bisa mengajarkan ke sebuah robot bagaimana caranya berjalan hingga berlari.

Berikut adalah contoh bagaimana sebuah robot dilatih untuk bisa melakukan aktivitas tenis meja melawan manusia.

Ada banyak steps (langkah-langkah) yang harus dilalui agar kita bisa membuat program seperti video di atas. Tenang saja, kita akan mulainya secara perlahan tapi pasti.

Untuk melanjutkan membaca silakan klik tombol halaman selanjutnya di bawah ini.

Bagikan artikel ini:

Pages: 1 2 3 4

Leave a Reply

avatar
  Subscribe  
Notify of