PENGGUNAAN DENDROGRAM
Dendrogram adalah sebuah grafik (diagram) yang menunjukkan proses penggabungan kluster. Di sumbu x dari sebuah dendrogram kita memiliki data kluster, sementara di sumbu y adalah jarak euclideannya.
Kita akan melihat dendrogram dari 6 buah data poin dan membuatnya secara manual agar paham alur berpikirnya.
Ilustrasinya sebagai berikut:

Sama dengan langkah-langkah sebelumnya, kita cari jarak terdekat antara 2 kluster. Dalam hal ini, A2 dan A3 memiliki jarak terdekat, sehingga mereka menjadi satu kluster.
Sekarang dendrogramnya menjadi seperti ini:

Sekarang, kita menggabungkan A5 dan A6 menjadi satu kluster karena 2 kluster ini memiliki jarak terdekat. Maka dendrogramnya menjadi seperti berikut:

Perlu diperhatikan bahwa tingginya dendrogram antara A2-A3 dengan A5-A6 berbeda. A2-A3 memiliki ketinggian lebih rendah karena jarak euclideannya lebih dekat, dan A2-A3 memang penyatuan kluster yang pertama sebelum A5-A6.
Sekarang kita lihat, mana lagi yang memiliki jarak terdekat. Kluster A2-A3 memiliki jarak terdekat dengan A1, sehingga kita gabungkan menjadi 1 kluster.

Selanjutnya kluster A5-A6 digabungkan dengan A4.

Kluster A5-A6 digabungkan dengan kluster A4
Kemudian langkah terakhir adalah menggabungkan dua kluster antara A1-A2-A3 dengan A4-A5-A6 menjadi satu.

Sekarang untuk mengetahui berapa kluster yang bisa dibuat (walaupun langkah akhirnya terbentuk 1 kluster besar), kita tentukan batas (threshold) dari dendrogram ini. Semakin rendah batas kluster, maka semakin banyak jumlah kluster yang didapat. Sebaliknya, jika semakin tinggi, maka semakin sedikit jumlah kluster yang dihasilkan.
Anggap kita tentukan batas klusternya adalah 1.5, maka ilustrasinya menjadi sebagai berikut:

Dengan menentukan batas kluster 1.5, maka bisa dilihat kita memiliki 2 kluster. Hal ini bisa ditentukan dari 2 garis vertikal yang melalui garis threshold-nya. Mudah bukan?
Secara intuisi visual kita bisa menentukan jumlah klusternya dengan melihat garis vertikal dedrogram terpanjang yang tidak bertemu garis horisontal dendrogram manapun. Jika sudah mendapatkan garis terpanjang vertikal ini, maka di situlah kita tentukan batas klusternya (threshold).
Untuk permasalahan 2 variabel independen memang mudah, karena bisa divisualisasikan, namun untuk banyak variabel, bahkan sampai puluhan, maka kita serahkan ke komputer untuk melakukan proses komputasinya.
Sekarang kita coba mengaplikasikan teknik ini untuk memecahkan persoalan nyata.
Untuk melanjutkan membaca silakan klik halaman berikutnya di bawah ini.

Pak mau bertanya, jika di regression bisa pake MSE MAPE, klasifikasi pake confussion matrix dll, lalu apakah ada cara untuk mengecek keakuratan/keefektifan dari clustering?
Terima kasih
Untuk clustering bisa gunakan beberapa metrics seperti Davies-Bouldin Index, Dunn Index, dan Silhouette Coefficient.