Apa Itu Principal Component Analysis (PCA)?

Apa Itu Principal Component Analysis (PCA)?

Mulai menambahkan dimensi ketiga

Sekarang kita mulai masukkan variabel ketiga, yaitu gen 3. Kita lihat lagi tabelnya sebagai berikut.

Ketiga variabel gen untuk 6 kelinci

Kita tampilkan lagi visualisasi 3 dimensi untuk dataset di atas:

Visualisasi 3 dimensi untuk dataset 3 variabel

Langkah-langkah membuat PCA nya juga sama, pertama kita tentukan dulu garis terbaik untuk PC 1. Anggap saja kita sudah menemukan garis terbaik untuk PC 1 dan sudah kita dapatkan eigen vectors nya. Ilustrasinya sebagai berikut:

Ilustrasi PC 1 untuk 3 variabel

Nilai eigen vectors untuk PC 1 adalah sebagai berikut:

  • Gen 1 = 0.62
  • Gen 2 = 0.15
  • Gen 3 = 0.77

Dari nilai eigen vectors di atas kita tahu bahwa gen 3 adalah komponen penting pembentuk PC 1 (karena nilainya paling besar). Sekarang kita buat garis PC 2 yang merupakan garis tegak lurus terhadap PC 1. Ilustrasinya sebagai berikut:

Ilustrasi PC 2 untuk 3 variabel

Nilai eigen vectors untuk PC 2 adalah sebagai berikut:

  • Gen 1 = 0.77
  • Gen 2 = 0.62
  • Gen 3 = 0.15

Langkah selanjutnya adalah membuat garis PC 3 yang tegak lurus terhadap bidang yang dibuat antara PC 1 dan PC 2. Ilustrasinya sebagai berikut:

Ilustrasi PC 3 untuk 3 variabel

Tanpa perlu mengetahui eigen vectors untuk PC 3 (anggap kita sudah mengetahui variasi dari masing-masing PC), maka didapatkan nilai variasi masing-masing PC sebagai berikut:

  • Variasi PC 1 = 79%
  • Variasi PC 2 = 15%
  • Variasi PC 3 = 6%
Scree plot untuk ketiga PC

Kita tahu bahwa PC 1 dan PC 2 (total keduanya) bisa menjelaskan variasi sebesar (79+15) 94% untuk dataset yang kita miliki. Dengan demikian kita cukup memerlukan PC 1 dan PC 2 saja untuk visualisasinya. Dengan kata lain, PCA kita hanya terdiri dari 2 komponen yaitu PC 1 dan PC 2.

Pertanyaan selanjutnya, bagaimana jika kita tambahkan variabel keempat? Atau lebih ekstrimnya bagaimana jika variabelnya ratusan bahkan ribuan?


PCA untuk banyak variabel

Jika kita memiliki banyak variabel maka tidak mungkin melakukan visualisasi. Solusinya adalah harus melakukan perhitungan dengan komputer yang nanti akan kita bahas di pembahasan apliaksi PCA.

Intinya adalah, setelah proses komputasi dari algoritma PCA sudah kita lakukan (dengan python dan R nantinya), langkah selanjutnya adalah kita harus membandingkan nilai variasi untuk semua PC yang dihasilkan. Anggap untuk 4 dimensi, kita memiliki 4 PC dengan scree plot sebagai berikut:

Scree plot untuk 4 variabel

Kita bisa melihat bahwa total variasi PC 1 dan PC 2 bisa menjelaskan (68+22) 90% variasi dari dataset kita. Dengan demikian, PCA kita hanya terdiri dari PC 1 dan PC 2 saja. Setelah itu kita lihat pengelompokan datanya (clusters) dengan PC 1 sebagai sumbu x dan PC 2 sebagai sumbu y. Maka dengan mudah kita akan bisa melihat pengelompokan datanya.


Tunggu dulu, bagaimana jika scree plotnya membuat kita jadi bingung karena semua nilainya mirip? Ilustrasinya seperti berikut:

Ilustrasi scree plot untuk 4 variabel dengan nilai variasi hampir sama

Jika kita hanya menggunakan PC 1 dan PC 2, maka itu hanya bisa menjelaskan 54% variasi dataset kita. Maka, kita perlu menambahkan PC 3 sebagai PCA kita, sehingga total variasi yang bisa dijelaskan adalah 78%.

Setelah itu barulah lihat pengelompokan data dengan menggunakan PC 1, PC 2 dan PC 3 sebagai sumbu koordinatnya untuk bisa melihat pembagian clusternya. Namun, jika masih terlalu rumit (sulit membadakan cluster melalui visualisasi 3D), maka tetap gunakan 2 PC dengan variasi tertinggi, dalam hal ini PC 1 dan PC 2.

Pada dasarnya tujuan dari PCA adalah mereduksi dimensi data agar kita bisa lebih mudah membaca/menginterpretasikan datanya. Jika masih dirasa PCA belum mampu mereduksi data ke dalam bentuk 2D dengan mudah, maka saatnya beralih ke teknik yang sudah saya bahas sebelumnya yaitu SOM (self-generating maps).

Pembagian cluster adalah hasil yang bisa didapatkan PCA, namun ini bukan tujuan utama PCA.


Sampai di sini saya harap pembaca bisa mengerti tentang apa itu PCA, bagaimana logika di baliknya dan proses pembuatannya. Jika ada pertanyaan terkait PCA silakan tulis di bagian komentar.

Di artikel selanjutnya, saya akan bahas aplikasi nyata dari PCA di dunia industri. Semoga bermanfaat dan tetap semangat belajar AI!

Bagikan artikel ini:

Pages: 1 2 3

Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments