- Kmeans (X , k)
Merupakan partisi titik pada data n-by-p dari matriks X ke dalam kelompok k. Partisi ini meminimalkan jumlah iterasi, pada semua cluster. Baris X sesuain dengan poin, kolom seduai dengan variable. Kmeans memiliki returns berupa vector yang berisi indeks cluster masing-masing titik. Secara default, kmeans menggunakan kuadrat jarak Euclidean.
- Subplot
Merupakan pembagian petak angka ke dalam panel persegi panjang yang diberi nomor baris yang sesuai, dimana setiap panel berisi sumbu objek. Plot berikutnya merupakan output pada pane saat ini.
- Silhouette(X , clust)
Merupakan siluet dari plot cluster untuk data n-by-p pada matrix X , dengan cluster ditentukan oleh clust nya. Baris X sesuai dengan poin, kolom sesuai dengan koordinat. Clust bisa menjadi variable kategori, vector numeric, karakter matriks, atau array yang berisi string nama cluster untuk tiap titik.
- Distance
Merupakan pengukuran jarak dalam ruang p-dimensi. Dalam contoh ini, pengukuran jarak yang digunakan adalah sqEuclidean yaitu pengukuran k uadrat jarak Euclidean pada setiap centroid mean titik di cluster itu.
- Replicates
Merupakan berapa kali pengulangan pada clustering, masing-masing dengan 1 set posisi awal centroid cluster yang baru. K-means memberikan returns berupa nilai sumd yang terendah.
Langkah-langkah :
- load fisheriris
Membagi menjadi 2 cluster
- idx2 = kmeans(meas,2,'dist','sqEuclidean','display','final','replicates',5)
- subplot(2,3,1)
- [silh2,h]=silhouette(meas,idx2,'sqEuclidean')
- mean(silh2)
Membagi menjadi 3 cluster
- idx3 = kmeans(meas,3,'dist','sqEuclidean','display','final','replicates',5)
- subplot(2,3,2)
- [silh3,h]=silhouette(meas,idx3,'sqEuclidean')
- mean(silh3)
Membagi menjadi 4 cluster
- idx4 = kmeans(meas,4,'dist','sqEuclidean','display','final','replicates',5)
- subplot(2,3,3)
- [silh4,h]=silhouette(meas,idx4,'sqEuclidean')
- mean(silh4)
Kesimpulan :
Dari hasil ketiga grafik dan perhitungan mean tersebut dapat diambil kesimpulan bahwa, pembagian cluster yang terbaik yaitu dimana hasil siluet nya tidak terlalu negatif dan memiliki mean yang tertinggi.