Search what you want

Sunday, April 5, 2015

Naive Bayes

          Naïve Bayes merupakan salah satu metode machine learning yang menggunakan perhitungan probabilitas. Konsep dasar yang digunakan oleh Naïve bayes adalah Teorema Bayes, yaitu teorema dalam statistika untuk menghitung peluang, Bayes Optimal Classifier menghitung peluang dari satu kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.

sebelum melakukan perhitungan ini diperlukan pemahaman tentang dua jenis peluang penyusunnya terlebih dahulu, yaitu:
1. peluang posterior
2. peluang prior

jika X melambangkan set atribut data dan Y melambangkan kelas variabel. Peluang bersyarat P(Y|X) ini juga dikenal dengan posterior  peluang untuk Y, dan  sebaliknya peluang prior untuk Y adalah P(Y).

contoh soal:
jika diketahui terdapat tabel data sebagai barikut:

Jika diberikan test record dengan atribut berikut : X  = (Home Owner = No, Marital Status = Married, Annual Income = $120K).  masuk ke klasifikasi manakah data tersebut? Yes? or No?

langkah pertama yang harus dilakukan yaitu:
-> hitung peluang posterior  P(Yes|X) , P(No|X)

-> Jika  P(Yes|X)>P(No|X), maka record diklasifikasikan sebagai Yes
-> Jika  P(Yes|X)<P(No|X)maka record diklasifikasikan sebagai No

- untuk data data diskrit peluang dapat dihitung lansung dengan mengunakan peluang kejadian dibagi peluang keseluruhan. contoh untuk P(Home Owner = No| No) karena peluang home ownner yang no ada 7 data, sedangkan dari 7 data tersebut yang masuk ke kelas(defauited Borrowed) no ada 4 maka peluangnya adalah 4/7
- sedangkan untuk mencari peluang dari data yang bernilali kontinue dapat dicari dengan menggunakan cara data diskrit atau menggunakan distribusi Gausian untuk data yang kuntinu, distribusi Gausian memiliki rumus:
perhitungan untuk data diskrit:
jika kelas no: rata-rata=110
                    SD = 2954 {cari menggunakan excel dengan rumus =var(120,100,70,120,60,220,75)}
jika kelas yes: rata-rata=90
                     SD = 25 


jawab:
1. P(yes)=3/10
cari semua komponen P(X|Yes)
P(Home Owner = No| Yes)=1
P(Marital Status = Married| Yes)=0
P(Annual Income = $120K| Yes)=0.0388
P(X|Yes)=P(Home Owner = No| Yes) x P(Marital Status = Married| Yes) x P(Annual Income = $120K| Yes) = 1*0*0.0388=0


2. P(no) = 7/10
cari semua komponen P(X|No)
P(Home Owner = No| No)=4/7
P(Marital Status = MarriedNo)=4/7
P(Annual Income = $120K|No)=0.0073
P(X|No)=P(Home Owner = No| No) * P(Marital Status = MarriedNo) * P(Annual Income = $120K|No)=4/7*4/7*0.0073=0.0024

3. karena P(X|No)>P(X|Yes) maka data tersebut diklasifikasikan ke kelas no

untuk contoh soal yang data kontinunya tetap menggunakan perhitungan data diskret dapat membaca blog ini.

No comments:

Post a Comment