Jika berbicara tentang data science, maka ada 2 bahasa pemrograman yang sering dipakai dan dibicarakan, yaitu Python dan R. Dua-duanya sama-sama digunakan secara intensif dan secara umum memberikan output yang sama-sama baik.
Walau demikian, di samping keunggulan dua bahasa ini yang sudah mendunia, masih banyak orang yang bingung (khususnya bagi yang ingin belajar data science) mana bahasa yang harus digunakan antara keduanya.
Sebenarnya apa perbedaan mendasar keduanya? Lalu kapan kita menggunakan Python dan kapan menggunakan R? Untuk menjawabnya mari kita bahas satu per satu.
R
R dikenal oleh banyak orang sebagai bahasa statistik. Artinya R lebih banyak digunakan untuk pengolahan data, atau melakukan teknik-teknik statistik tingkat tinggi.
Dulunya R memang dikembangkan di dunia para statisticians. R sebelumnya merupakan bagian dari bahasa pemrograman S dengan softwarenya yang disebut dengan S-PLUS yang dikembangkan oleh Bell Labs. Penamaan R dibuat karena penciptanya memiliki huruf depan R, yaitu Ross Ihaka dan Robert Gentleman.
R juga lebih banyak dipakai oleh mereka para akademisi. Hal ini dikarenakan faktor reusability yang dimiliki oleh R. Maksudnya adalah, dengan menggunakan R (menulis bahasa pemrograman yang disebut dengan script untuk pengolahan data), maka orang lain juga bisa menggunakan script milik kita, dan mendapatkan hasil yang sama persis. Dengan menggunakan R, maka tingkat kepercayaan hasil olah data kita menjadi tinggi karena mampu direplikasi oleh banyak orang.
Dari sisi kemudahan pakai (usability), R berbeda dengan software statistik lain semisal SPSS yang relatif lebih mudah penggunaannya (tinggal drag & drop). R relatif lebih sulit dan memerlukan proses belajar untuk membiasakan menulis script. Namun, SPSS memiliki reusability yang tidak lebih baik dari R, artinya jika ada orang lain yang ingin mengolah data kita, belum tentu ia akan mendapatkan hasil yang sama. Hal ini dikarenakan proses drag & drop di SPSS tadi sangat variatif, dan berbeda-beda tiap orang.
Keunggulan R lainnya adalah ia bersifat open source yang artinya gratis dan bisa diakses siapa saja. Berbeda dengan software statistik lain yang cukup mahal seperti SPSS dan Matlab misalnya, maka R mendapatkan popularitas yang sangat cepat karena mudahnya mengakses bahasa ini.
R juga memiliki banyak packages / libraries, di mana ada banyak sekali fitur-fitur pengolahan data tingkat tinggi yang dibuat oleh orang lain dan kita juga bisa menggunakannya. Hal ini membuat komunitas pengguna R juga semakin berkembang dan terus bertambah jumlahnya.
Python
Bahasa pemrograman Python lebih universal dibandingkan dengan R. Pemakai (users) nya juga sangat bervariasi, mulai dari programmer, akademisi, software engineer, dan masih banyak lagi. Karena banyaknya aplikasi dari Python, maka tidak heran jika saat ini ia menjadi bahasa paling populer di dunia menurut IEEE.
Python memiliki banyak packages / libraries yang juga memiliki fitur-fitur yang mirip dengan R. Beberapa packages yang sering digunakan untuk data science antara lain numpy, Pandas, sckitlearn, dan masih banyak lagi.
Python digunakan untuk konteks yang lebih besar. Misalnya kita ingin mengaplikasikan sebuah proses perhitungan ke banyak komputer, maka kita memerlukan Python dan bukan R. Untuk dunia robotika misalnya, maka Python juga digunakan untuk memprogram bagaimana robot belajar dan berinteraksi dengan lingkungannya. Python juga dapat digunakan untuk mengembangkan aplikasi AI (artificial intelligence) berbasis web yang menggantikan fungsi PHP (sebuah bahasa pemrograman web).
Berikut adalah tabel yang secara ringkas membandingkan dua bahasa pemrograman Python dan R:
Kriteria | Python | R |
Ruang lingkup | Aplikasi dan industri | Data science dan statistik |
Pengguna | Programmers & developers | Akademisi dan peneliti |
Integrasi | Terintegrasi baik dengan aplikasi lain | Berjalan secara lokal |
Popularitas | Bahasa paling populer saat ini (2019) | Berada di peringkat ke 5 |
Proses belajar | Lancar dan mudah | Sedikit lebih sulit |
Ukuran database yang diolah | Sangat besar | Sangat besar |
IDE (user interface) | Spyder, Jupyter Notebook, Pycharm, dll | RStudio |
Kelebihan | Sistematika penulisan script yang mudah dibaca | Kualitas grafik yang dihasilkan sangat tinggi |
Luasnya aplikasi yang ada | Fitur RMarkdown dan Shiny | |
Kecepatan komputasi | Library yang sangat banyak untuk data science |
Jadi kapan menggunakan Python dan kapan menggunakan R? Itu semua kembali kepada tujuan dari penggunaannya itu sendiri. Jika pembaca ingin belajar data science (ahli mengolah data), maka pilihlah bahasa R. Namun jika pembaca ingin fokus kepada pengembangan AI (artificial intelligence) atau kecerdasan buatan, maka pilihlah Python.
Jika pembaca ingin menguasai AI dan data science sekaligus, dan pembaca masih awam untuk 2 hal tersebut, maka saran saya mulailah dari Python. Karena jika pembaca sudah bisa menggunakan Python, maka akan jauh lebih mudah saat menggunakan R, mengingat dasar-dasar pemrograman sudah dikuasai saat menggunakan Python.
Jadi tetap semangat untuk belajar AI dan data science. Jika ada pertanyaan silakan tulis di bagian komentar.
Semoga bermanfaat.