Saturday, April 24, 2010

K-Means with Matlab

- Kmeans (X , k)

Merupakan partisi titik pada data n-by-p dari matriks X ke dalam kelompok k. Partisi ini meminimalkan jumlah iterasi, pada semua cluster. Baris X sesuain dengan poin, kolom seduai dengan variable. Kmeans memiliki returns berupa vector yang berisi indeks cluster masing-masing titik. Secara default, kmeans menggunakan kuadrat jarak Euclidean.

- Subplot

Merupakan pembagian petak angka ke dalam panel persegi panjang yang diberi nomor baris yang sesuai, dimana setiap panel berisi sumbu objek. Plot berikutnya merupakan output pada pane saat ini.

- Silhouette(X , clust)

Merupakan siluet dari plot cluster untuk data n-by-p pada matrix X , dengan cluster ditentukan oleh clust nya. Baris X sesuai dengan poin, kolom sesuai dengan koordinat. Clust bisa menjadi variable kategori, vector numeric, karakter matriks, atau array yang berisi string nama cluster untuk tiap titik.

- Distance

Merupakan pengukuran jarak dalam ruang p-dimensi. Dalam contoh ini, pengukuran jarak yang digunakan adalah sqEuclidean yaitu pengukuran k uadrat jarak Euclidean pada setiap centroid mean titik di cluster itu.

- Replicates

Merupakan berapa kali pengulangan pada clustering, masing-masing dengan 1 set posisi awal centroid cluster yang baru. K-means memberikan returns berupa nilai sumd yang terendah.

Langkah-langkah :

- load fisheriris

Membagi menjadi 2 cluster

- idx2 = kmeans(meas,2,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,1)

- [silh2,h]=silhouette(meas,idx2,'sqEuclidean')

- mean(silh2)

Membagi menjadi 3 cluster

- idx3 = kmeans(meas,3,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,2)

- [silh3,h]=silhouette(meas,idx3,'sqEuclidean')

- mean(silh3)

Membagi menjadi 4 cluster

- idx4 = kmeans(meas,4,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,3)

- [silh4,h]=silhouette(meas,idx4,'sqEuclidean')

- mean(silh4)

Kesimpulan :

Dari hasil ketiga grafik dan perhitungan mean tersebut dapat diambil kesimpulan bahwa, pembagian cluster yang terbaik yaitu dimana hasil siluet nya tidak terlalu negatif dan memiliki mean yang tertinggi.



0 comments:

Post a Comment