Study and Fun: 2010

Thursday, September 30, 2010

Contoh Aplikasi Yang Menerapkan Sistem Temu Kembali Informasi

SpamAssassin Aplication

http://spamassassin.apache.org

Deskripsi SpamAssassin :
- SpamAssassin adalah sebuah penyaring email untuk mengidentifikasi suatu spam.
- Aplikasi ini merupakan penyaring email yang menggunakan beragam tes untuk mengidentifikasi email massal yang tidak diminta oleh pemilik email, yang biasa dikenal dengan Spam.
- Tes pada aplikasi ini berlaku untuk email headers dan konten untuk mengelompokkan email menggunakan suatu metode statistik. Selain itu, SpamAssassin mempunyai arsitektur yang dirancang untuk dapat dengan mudah memeriksa email spam hampir ke semua sistem email.

Keunggulan SpamAssasin :
- SpamAssassin memiliki pendekatan multi-teknik, modularity, dan extensibility yang yang dapat memberi nilai lebih dari sistem anti-spam lainnya.
- SpamAssassin dapat digunakan baik pada email client maupun email server untuk menyaring email masuk dan email keluar, dan kita juga bisa menggunakannya pada banyak sistem operasi yang berbeda-beda.

Bagan SpamAssassin

Equalization Hitogram Using Matlab

Source code :

%load image
image=imread('gigi.jpg');
%image yang berwarna diubah menjadi grayscale
grayscale=rgb2gray(image);
%mengequalization histogram
histequal=histeq(grayscale);

%mengatur tampilan input dan output image beserta histogramnya
subplot(2,2,1);
imshow(grayscale);
title('Input Image');
subplot(2,2,2);
imshow(histequal);
title('Output Image');
subplot(2,2,3);
imhist(grayscale);
title('Original Histogram');
subplot(2,2,4);
imhist(histequal);
title('Equalization Histogram');

Monday, May 10, 2010

MANOVA

Langkah - Langkah Pengujian

One Way MANOVA

1. Menghitung SST (Treatment)

2. Menghitung SSs(DT) (error)

3. Mencari TSS(Total)

SST + SSE

4. Mencari Wilks Lambda

det(SSs(DT))/det (SST)

Mencari F Hitung

- df effect = (treatment - 1)
- df error = (treatment(n-1))
- P = Jumlah DV
- S = MIN(P, df effect)
- Y =

1/s
- df1 = P*df effect
- df2 = s

- Fhitung(df1, df2)
- Ftabel(df1, df2)
- Menarik kesimpulan

Two Way MANOVA

1. Mencari nilai SST (Treatment)

2. Mencari nilai SSD (Block)

3. Mencari nilai SSDT (Interaksi)

4. Mencari SSS(DT) (Error)

5. Mencari TTS(Total)

F Hitung ? (to be continued...)

Manova vs Anova

Manova

- Adanya lebih dari satu variabel dependent yang dianalisis secara bersama-sama.
- Model MANOVA : Y1 + Y2 +…+ Yn = X1 + X2 +...+ Xn
- Menguji perbedaan mean di antara kelompok-kelompok kombinasi dependent variabel numerik.
- One-Way MANOVA : >1 DV numerik dengan 1 IV kategorikal
- Two-Way MANOVA : >1 DV numerik dengan >1 IV kategorikal

Anova

- Hanya ada satu variabel dependent yang dianalisis
- Model ANOVA :Y1 = X1 + X2 + ... + Xn
- Menguji perbedaan mean pada variabel dependen untuk beberapa variabel independen.
- One-Way ANOVA : 1 DV numerik dengan 1 IV Kategorikal
- Two-Way ANOVA : 1 DV numerik dengan >1 IV Kategorikal

Saturday, April 24, 2010

K-Means with Matlab

- Kmeans (X , k)

Merupakan partisi titik pada data n-by-p dari matriks X ke dalam kelompok k. Partisi ini meminimalkan jumlah iterasi, pada semua cluster. Baris X sesuain dengan poin, kolom seduai dengan variable. Kmeans memiliki returns berupa vector yang berisi indeks cluster masing-masing titik. Secara default, kmeans menggunakan kuadrat jarak Euclidean.

- Subplot

Merupakan pembagian petak angka ke dalam panel persegi panjang yang diberi nomor baris yang sesuai, dimana setiap panel berisi sumbu objek. Plot berikutnya merupakan output pada pane saat ini.

- Silhouette(X , clust)

Merupakan siluet dari plot cluster untuk data n-by-p pada matrix X , dengan cluster ditentukan oleh clust nya. Baris X sesuai dengan poin, kolom sesuai dengan koordinat. Clust bisa menjadi variable kategori, vector numeric, karakter matriks, atau array yang berisi string nama cluster untuk tiap titik.

- Distance

Merupakan pengukuran jarak dalam ruang p-dimensi. Dalam contoh ini, pengukuran jarak yang digunakan adalah sqEuclidean yaitu pengukuran k uadrat jarak Euclidean pada setiap centroid mean titik di cluster itu.

- Replicates

Merupakan berapa kali pengulangan pada clustering, masing-masing dengan 1 set posisi awal centroid cluster yang baru. K-means memberikan returns berupa nilai sumd yang terendah.

Langkah-langkah :

- load fisheriris

Membagi menjadi 2 cluster

- idx2 = kmeans(meas,2,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,1)

- [silh2,h]=silhouette(meas,idx2,'sqEuclidean')

- mean(silh2)

Membagi menjadi 3 cluster

- idx3 = kmeans(meas,3,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,2)

- [silh3,h]=silhouette(meas,idx3,'sqEuclidean')

- mean(silh3)

Membagi menjadi 4 cluster

- idx4 = kmeans(meas,4,'dist','sqEuclidean','display','final','replicates',5)

- subplot(2,3,3)

- [silh4,h]=silhouette(meas,idx4,'sqEuclidean')

- mean(silh4)

Kesimpulan :

Dari hasil ketiga grafik dan perhitungan mean tersebut dapat diambil kesimpulan bahwa, pembagian cluster yang terbaik yaitu dimana hasil siluet nya tidak terlalu negatif dan memiliki mean yang tertinggi.