Machine Learning: K-Means Clustering

Machine Learning: K-Means Clustering

JEBAKAN CENTROID

Dari pembahasan di atas, sudah saya tuliskan bahwa titik krusial berhasil tidaknya (baik tidaknya) metode ini adalah saat menentukan jumlah klusternya (nilai K).Oleh karena itu, untuk permasalahan di atas, hasil klusternya akan berbeda, sesuai K yang dipilih.

Jika terlalu sedikit K (misal 2), maka pembagian kluster menjadi cepat, namun mungkin ada informasi tersembunyi yang tidak terungkap.

Jika K=3, maka ada informasi tambahan 1 kluster. Yang mungkin, akan memberi kita informasi, apa arti dari kluster ketiga ini.

Jika K=4, maka pembagian sangat baik. Namun dengan adanya 4 kluster, maka butuh 4 perlakuan berbeda untuk pelanggan di masing-masing kluster ini.

Jika K=10, maka terlalu banyak kluster. Mungkin akan terlalu sulit memilih strategi yang tepat (strategi marketing misalnya) untuk masing-masing klusternya.

Sebagai ilustrasi, bisa dilihat pada ilustrasi berikut:

K=3, K=4 dan K=5

Untuk mengatasi ini, maka ada metode perbaikan K-Means Clustering yang disebut dengan K-Means++ yang akan memilih jumlah awal kluster secara tepat.

Kita tidak akan membahas K-Means++ di pembahasan kali ini, namun akan kita gunakan di sesi latihan dan sebuah metode elbow yang akan membantu kita untuk memilih nilai K yang tepat dengan menggunakan metricWCSS (Within Cluster Sum of Squares):

Formula WCSS untuk 3 kluster

Formula di atas terlihat rumit, namun sebenarnya sangat sederhana. Itu adalah formula WCSS untuk menghitung 3 kluster.

Jika kita ingin menghitung 2 kluster, maka formulanya menjadi begini:

Formula WCSS untuk 2 kluster

Jadi tinggal kita ingin berapa kluster. Semakin banyak kluster, maka formulanya menjadi semakin panjang, itu saja.

Bagaimana cara membacanya?

Pada sisi kiri bisa dilihat WCSS sebagai variabel dependennya. Kemudian ada simbol Sigma (seperti E), yang menyatakan jumlah kuadrat dari jarak tiap titik Pi yang ada pada kluster 1. Mengapa dikuadratkan? Karena memang sebutannya adalah Sum of Squares (jumlah kuadrat).

Selanjutnya hasil penjumlahan kluster 1 ditambah dengan hasil kudrat jarak untuk tiap data poin terhadap titik pusat kluster dua, dan seterusnya sesuai jumlah kluster yang kita inginkan.

Kemudian berapa jumlah kluster seharusnya? tinggal dilihat perbandingan WCSS untuk 2 kluster, 3 kluster, 4 dan seterusnya. Yang kita pilih adalah ketika perubahan nilai WCSS nya sangat signifikan, seperti sebuah siku (elbow). Oleh karena itu cara pemilihan ini disebut dengan elbow method.

Contoh perhitungan WCSS dapat dilihat pada grafik berikut:

Grafik perhitungan WCSS untuk sebuah contoh dataset.
Semakin kecil skor WCSS, semakin baik. Sumbu x adalah jumlah kluster, sumbu y adalah skor WCSS.

Bisa dilihat bahwa saat K=1, nilai WCSS sangat tinggi. Kemudian menurun terus sampai K=5 terlihat membentuk seperti sebuah siku. Mulai K=6 sampai K=10 penurunan skor WCSS sudah tidak signifikan. Dengan demikian, dapat diketahui bahwa jumlah kluster yang tepat untuk grafik di atas adalah 5.

Untuk melanjutkan membaca silakan klik halaman berikutnya di bawah ini.

Bagikan artikel ini:

Pages: 1 2 3 4

4
Leave a Reply

avatar
2 Comment threads
2 Thread replies
1 Followers
 
Most reacted comment
Hottest comment thread
3 Comment authors
EkoMB HerlambangRizki Recent comment authors
  Subscribe  
newest oldest most voted
Notify of
Rizki
Guest
Rizki

makasih pak, sangat jelas detail dan bisa di jalankan tanpa adanya kesulitan

Eko
Guest
Eko

Kalau mengacu pada formula machine learning (Tom M. Mitchell), Formula T,P,E (Task,Performance,Experience) untuk kasus clustering/unsupervised learning ini mengidentifikasinya bagaimana ya pak?