Pada kesempatan kali ini saya akan mencoba menjelaskan bagaimana suatu dokument dapat di klasifikasikan? contohnya jika ada portal berita yang memiliki beberapa kategori, dan kita ingin mengkategorikan berita baru yang ada. jikalau kita menggunakan cara konvensiional, makas kita akan mengklasifikasikanya manual, tapi bagaimana kalau misalkan kita memiliki 1000 dokumen baru? apakah itu baik kita kategorikan secara manual? saya rasa tidak. maka dari itu sya akan mencoba untuk sedikit menjelaskan bagaimana untuk mengklaskan dokumen secara otomatis.
langsung saja, untuk dapat melakukan pengkelasaanterhadap dokumen berikut beberapa langkah yang harus dilakukan.
berapa besaranya kata Council masuk ke kelas coffee -> I(Council, Coffee)
berapa besaranya kata Producers masuk ke kelas coffee -> I(Producers, Coffee)
berapa besaranya kata Roasted masuk ke kelas coffee -> I(Roasted, Coffee)
dari hasil tersebut kita mengetahui bahwa producers > brazil > roasted > council,
maka jikka hanya ingin mengambil 2 terbesar saja, maka kita akan memilih producers danbrazil
3. metode ketiga yaitu chi-square (x^2)
langsung saja, dengan data yang sama
rumus chi-square yaiut
atau dengan menggunakan rumus yang lebih ringkas




dari hasil tersebut roasted>brazil>producers>council
nah, jika kita perhatikan, terdapat perbedaan hasil antara dua metode yang kita gunakan yaitu MI dan chi-square
#Langkah ketiga
lanjut pada langkah ketiga kita akan melakukan dan membuat kelas dengan fungsi klasifikasi menggunakan dokumen latih.
untuk dapat membuaat fungsi klasifikasi, harus kita ketahui ada beberapa cara
cara pertama berdasarkan vektor { KNN, SVM}
cara kedua berdasarkan peluang {Decision tree, Naive Bayes}
pada artikel ini saya hanya akan membahas tentang cara pengerjaan menggunakan naive bayes.
ada beberapa istilah sebelumnya:
P(c) = berapa peluang kelas c
P(c) = berapa peluang kelas bukan c
P(c|d) = berapa peluang dokumen d berada dalam kelas c
P(~c|d) = berapa peluang dokumen d berada dalam kelas bukan d
langsung saja ke contoh soal:
![P(c|ds) = P(c).[P(Chinese|c)]^{3} . P(Tokyo|c) . P(Japan|c) = \frac{3}{4} . \frac{5}{8} . \frac{0}{8} . \frac{0}{8} = -](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_s6tUxUla-UV1FicY8gxsvi5f4S9LGFvY2Yd-oy5YSSQD-r0p4LZj7jjY_3CceRqOSltxiKOrCy1QbwscfJwbWR9bVUV6f7guAHiMwFkVm5rlRK8AUQjbZ9IQ_FZzi6fJGZ-DjvZMCNdehG9PHYd7fU-1jEtGXf8PIl1YzCEN3CDEIhUE58ACdtYASRKQUTc7LzWoHoU2BTxYrwWFZo5Wd6V3ogxDvO-24rlmdqga0BtcPcXUSWlRD8tZ9sDDymtdiuSqSQ04byQEboI4nomE_pOT9FtE_05Z414l3phtLHfGclId2v9Wac7gOW0nv7R4sAc8e2stbB_7YxKlW4jVa8xkl0OqOJxjf-WjiUa0krOYA3c_r8eku2kJBYIY_J3gnd-XbIvzB4OcsahhdWTPxvelRMwE8QUR4UpnhtS_xPCm_GDZeigUhNhGKCc5_C0zTECguRGvQ=s0-d)
dari hasil tersebut nilai peluang P(c|ds) menjadi nol karena ada data yang tidak ada dalam kelas chinese, maka dari itu kita harus memikirkan cara bagaimana perluang tersebut tidah harus Nol. tenang saja kita tidak harus memikirkannya begitu serius soalnya sudah ada metode dimana nal tersebut dapat tertangani. yaitu menggunakan smoothing. ada dua cara untuk smoothing, yaitu:
1. Laplace Smoothing
menggunakan metode Laplace Smoothing = add one smoothing
metode ini hanya tinggal menambahkan 1 pada masing-masing nilai pembilang, dan menampahkan angkan sebanyak kata unit yang ada dalam kelas tersebut
langsung saja, untuk dapat melakukan pengkelasaanterhadap dokumen berikut beberapa langkah yang harus dilakukan.
kita akan membahasa masing masing dari tahapan yang ada diatas.
#Langkah pertama:
pada langkah ini kita di fukuskan untuk mengumpulkan dokumen, yang dimaksudkan untuk membuat suatu kelas untuk fungsi klasifikasi,
# Langakah kedua
pada langkah ini kita akan melakukan seleksi fitur yang berguna untuk kira-kira pada kelas tertentu punya identitas apa sih yang berbeda.
nah pada langakah ini terdapat 3 metode (yang saya tau)
1. metode petama yaitu metode Luhn dimana dalam metode ini saya tidak akan bercerita banyak. tapi initinya kita melakukan langkah-langkah yang biasa digunakan dalan pemprosesan text.
- Buang stopwoard => IDF = 0
- Buang daerah kurva sebelah kanan => IDF = log N
2. metode kedua yaitu namanya Mutual Information (MI) -> peluang similarity
sebelumnya kita harus mengetahui tabel berikut:
| | Ct = 1 | | Ct = 0 |
---|---|---|
Cc = 1 | | N11 | | N10 |
Cc = 0 | | N01 | | N00 |
jika kita ketahui c = class dan t = term
jadi misalkan kita ingin tau (c = spam, t = jual), maksudnya yaitu seberapa banyak kata jual kita kelaskan di kelas spam (N11)
Formula dari MI
langsung saja kita ke contoh soal
misalkan ada data:
seberapa besar kata-kata (brazil, council, producers, roasted) masuk kedalam class coffee??
term | N00 | N10 | N01 | N11 |
---|---|---|---|---|
brazil | 98012 | 102 | 1835 | 51 |
council | 96322 | 133 | 3525 | 20 |
producers | 98524 | 119 | 1118 | 34 |
roasted | 99824 | 143 | 23 | 10 |
berapa besaranya kata Brazil masuk ke kelas coffee -> I(Brazil, Coffee)
berapa besaranya kata Council masuk ke kelas coffee -> I(Council, Coffee)
berapa besaranya kata Producers masuk ke kelas coffee -> I(Producers, Coffee)
berapa besaranya kata Roasted masuk ke kelas coffee -> I(Roasted, Coffee)
dari hasil tersebut kita mengetahui bahwa producers > brazil > roasted > council,
maka jikka hanya ingin mengambil 2 terbesar saja, maka kita akan memilih producers danbrazil
3. metode ketiga yaitu chi-square (x^2)
langsung saja, dengan data yang sama
rumus chi-square yaiut
atau dengan menggunakan rumus yang lebih ringkas
dari hasil tersebut roasted>brazil>producers>council
nah, jika kita perhatikan, terdapat perbedaan hasil antara dua metode yang kita gunakan yaitu MI dan chi-square
#Langkah ketiga
lanjut pada langkah ketiga kita akan melakukan dan membuat kelas dengan fungsi klasifikasi menggunakan dokumen latih.
untuk dapat membuaat fungsi klasifikasi, harus kita ketahui ada beberapa cara
cara pertama berdasarkan vektor { KNN, SVM}
cara kedua berdasarkan peluang {Decision tree, Naive Bayes}
pada artikel ini saya hanya akan membahas tentang cara pengerjaan menggunakan naive bayes.
ada beberapa istilah sebelumnya:
P(c) = berapa peluang kelas c
P(c) = berapa peluang kelas bukan c
P(c|d) = berapa peluang dokumen d berada dalam kelas c
P(~c|d) = berapa peluang dokumen d berada dalam kelas bukan d
langsung saja ke contoh soal:
Doc ID | Word in Document | in C = Chinese | |
---|---|---|---|
training set | 1 | Chinese Beijing Chinese | yes |
2 | Chinese Chinese sanghai | yes | |
3 | Chinese Macau | yes | |
4 | Tokyo Japan Chinese | no | |
test set | 1 | Chinese Chinese Chinese Tokyo Japan | ? |
dari hasil tersebut nilai peluang P(c|ds) menjadi nol karena ada data yang tidak ada dalam kelas chinese, maka dari itu kita harus memikirkan cara bagaimana perluang tersebut tidah harus Nol. tenang saja kita tidak harus memikirkannya begitu serius soalnya sudah ada metode dimana nal tersebut dapat tertangani. yaitu menggunakan smoothing. ada dua cara untuk smoothing, yaitu:
1. Laplace Smoothing
menggunakan metode Laplace Smoothing = add one smoothing
metode ini hanya tinggal menambahkan 1 pada masing-masing nilai pembilang, dan menampahkan angkan sebanyak kata unit yang ada dalam kelas tersebut
dari hasil tersebut kita dapat menentukan bahwa dokumen tersebut masuk kedalam kelas chinese
2. Bernaulli
sebenarnya hampir sama dengan Laplace Smoothing, hanya saja bernauli menambahkan beberapa perhirungan kedalamnya.
pembilang -> +1
penyebut -> +(jumlah kelas)
No comments:
Post a Comment