Saturday, April 24, 2010

K-Means with Matlab

- Kmeans (X , k)

Merupakan partisi titik pada data n-by-p dari matriks X ke dalam kelompok k. Partisi ini meminimalkan jumlah iterasi, pada semua cluster. Baris X sesuain dengan poin, kolom seduai dengan variable. Kmeans memiliki returns berupa vector yang berisi indeks cluster masing-masing titik. Secara default, kmeans menggunakan kuadrat jarak Euclidean.

- Subplot

Merupakan pembagian petak angka ke dalam panel persegi panjang yang diberi nomor baris yang sesuai, dimana setiap panel berisi sumbu objek. Plot berikutnya merupakan output pada pane saat ini.

- Silhouette(X , clust)

Merupakan siluet dari plot cluster untuk data n-by-p pada matrix X , dengan cluster ditentukan oleh clust nya. Baris X sesuai dengan poin, kolom sesuai dengan koordinat. Clust bisa menjadi variable kategori, vector numeric, karakter matriks, atau array yang berisi string nama cluster untuk tiap titik.

- Distance

Merupakan pengukuran jarak dalam ruang p-dimensi. Dalam contoh ini, pengukuran jarak yang digunakan adalah sqEuclidean yaitu pengukuran k uadrat jarak Euclidean pada setiap centroid mean titik di cluster itu.

- Replicates

Merupakan berapa kali pengulangan pada clustering, masing-masing dengan 1 set posisi awal centroid cluster yang baru. K-means memberikan returns berupa nilai sumd yang terendah.

Langkah-langkah :

- load fisheriris

Membagi menjadi 2 cluster

- idx2 = kmeans(meas,2,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,1)

- [silh2,h]=silhouette(meas,idx2,'sqEuclidean')

- mean(silh2)

Membagi menjadi 3 cluster

- idx3 = kmeans(meas,3,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,2)

- [silh3,h]=silhouette(meas,idx3,'sqEuclidean')

- mean(silh3)

Membagi menjadi 4 cluster

- idx4 = kmeans(meas,4,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,3)

- [silh4,h]=silhouette(meas,idx4,'sqEuclidean')

- mean(silh4)

Kesimpulan :

Dari hasil ketiga grafik dan perhitungan mean tersebut dapat diambil kesimpulan bahwa, pembagian cluster yang terbaik yaitu dimana hasil siluet nya tidak terlalu negatif dan memiliki mean yang tertinggi.



No comments:

Post a Comment