Machine Learning: Hierarchical Clustering

Machine Learning: Hierarchical Clustering

PENGGUNAAN DENDROGRAM

Dendrogram adalah sebuah grafik (diagram) yang menunjukkan proses penggabungan kluster. Di sumbu x dari sebuah dendrogram kita memiliki data kluster, sementara di sumbu y adalah jarak euclideannya.

Kita akan melihat dendrogram dari 6 buah data poin dan membuatnya secara manual agar paham alur berpikirnya.

Ilustrasinya sebagai berikut:

Dendrogram yang menunjukkan 6 buah data poin

Sama dengan langkah-langkah sebelumnya, kita cari jarak terdekat antara 2 kluster. Dalam hal ini, A2 dan A3 memiliki jarak terdekat, sehingga mereka menjadi satu kluster.

Sekarang dendrogramnya menjadi seperti ini:

A2 dan A3 menjadi satu kluster

Sekarang, kita menggabungkan A5 dan A6 menjadi satu kluster karena 2 kluster ini memiliki jarak terdekat. Maka dendrogramnya menjadi seperti berikut:

A5 dan A6 menjadi satu kluster

Perlu diperhatikan bahwa tingginya dendrogram antara A2-A3 dengan A5-A6 berbeda. A2-A3 memiliki ketinggian lebih rendah karena jarak euclideannya lebih dekat, dan A2-A3 memang penyatuan kluster yang pertama sebelum A5-A6.

Sekarang kita lihat, mana lagi yang memiliki jarak terdekat. Kluster A2-A3 memiliki jarak terdekat dengan A1, sehingga kita gabungkan menjadi 1 kluster.

Kluster A2-A3 digabungkan dengan kluster A1

Selanjutnya kluster A5-A6 digabungkan dengan A4.


Kluster A5-A6 digabungkan dengan kluster A4

Kemudian langkah terakhir adalah menggabungkan dua kluster antara A1-A2-A3 dengan A4-A5-A6 menjadi satu.

Menggabungkan semua kluster menjadi satu

Sekarang untuk mengetahui berapa kluster yang bisa dibuat (walaupun langkah akhirnya terbentuk 1 kluster besar), kita tentukan batas (threshold) dari dendrogram ini. Semakin rendah batas kluster, maka semakin banyak jumlah kluster yang didapat. Sebaliknya, jika semakin tinggi, maka semakin sedikit jumlah kluster yang dihasilkan.

Anggap kita tentukan batas klusternya adalah 1.5, maka ilustrasinya menjadi sebagai berikut:

Ilustrasi batas (threshold) 1.5

Dengan menentukan batas kluster 1.5, maka bisa dilihat kita memiliki 2 kluster. Hal ini bisa ditentukan dari 2 garis vertikal yang melalui garis threshold-nya. Mudah bukan?

Secara intuisi visual kita bisa menentukan jumlah klusternya dengan melihat garis vertikal dedrogram terpanjang yang tidak bertemu garis horisontal dendrogram manapun. Jika sudah mendapatkan garis terpanjang vertikal ini, maka di situlah kita tentukan batas klusternya (threshold).

Untuk permasalahan 2 variabel independen memang mudah, karena bisa divisualisasikan, namun untuk banyak variabel, bahkan sampai puluhan, maka kita serahkan ke komputer untuk melakukan proses komputasinya.

Sekarang kita coba mengaplikasikan teknik ini untuk memecahkan persoalan nyata.

Untuk melanjutkan membaca silakan klik halaman berikutnya di bawah ini.

Pages: 1 2 3 4

Subscribe
Notify of
guest

2 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Bams
Bams
5 years ago

Pak mau bertanya, jika di regression bisa pake MSE MAPE, klasifikasi pake confussion matrix dll, lalu apakah ada cara untuk mengecek keakuratan/keefektifan dari clustering?
Terima kasih