Decision tree, adaptive naive bayes,logistic regression dan support vector machine.
Secara konsep Decision tree adalah
salah satu dari teknik decision analysis.Tries sendiri pertama kali
diperkenalkan pada tahun 1960-an oleh Fredkin. Trie atau digital tree
berasal dari kata retrival (pengambilan kembali) sesuai dengan
fungsinya. Secara etimologi kata ini diucapkan sebagai ‘tree’. Meskipun
mirip dengan penggunaan kata ‘try’ tetapi hal ini bertujuan untuk
membedakannya dari general tree. Dalam ilmu komputer, trie, atau prefix
tree adalah sebuah struktur data dengan representasi ordered tree yang
digunakan untuk menyimpan associative array yang berupa string. Berbeda
dengan binary search tree (BST) yang tidak ada node di tree yang
menyimpan elemen yang berhubungan dengan node sebelumnya dan, posisi
setiap elemen di tree sangat menentukan. Semua keturunan dari suatu node
mempunyai prefix string yang mengandung elemen dari node itu, dengan
root merupakan string kosong. Values biasanya tidak terkandung di setiap
node, hanya di daun dan beberapa node di tengah yang cocok dengan
elemen tertentu.
Secara singkat bahwa Decision Tree merupakan salah satu metode
klasifikasi pada Text Mining. Klasifikasi adalah proses menemukan
kumpulan pola atau fungsi-fungsi yang mendeskripsikan dan memisahkan
kelas data satu dengan lainnya, untuk dapat digunakan untuk memprediksi
data yang belum memiliki kelas data tertentu (Jianwei Han, 2001).
Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu.
Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu.
Decision Tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan yang merupakan singkatan dari Iterative Dichotomiser 3 atau Induction of Decision “3″ (baca: Tree).
Algoritma ID3 membentuk pohon keputusan dengan metode divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan algoritma ID3 adalah:
- Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
- Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
- Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
- Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
- Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi:
- Semua data dari anak cabang telah termasuk dalam kelas yang sama.
- Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
- Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
Beberapa contoh pemakaian Decision Tree,yaitu :
- Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain
- Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain
- Pemilihan pegawai teladan sesuai dengan kriteria tertentu
- Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain
Pada
project ini,Kami mencoba mengakali konsep decision tree dengan
cara,mengubah implementasinya pada penjumlahan nilai dari tiap
kepribadian.
Kunci
dari program kami terletak pada pertanyaan utama.Jadi gini,4
kepribadian itu dibagi menjadi 2 golongan besar, yaitu : Ekstrovert : sanguinis dan Koleris
Introvert : Melankolis dan Plegmatis
Introvert : Melankolis dan Plegmatis
Nilai Ekstrovert : sanguinis + Koleris
Nilia Introvert : Melankolis + Plegmatis
Pertanyaan pertama pada aplikasi kami adalah mengkondisikan apakah jumlah nilai ekstrovert >= introvert. Apabila benar maka,tinggal membandingkan nilai sanguinis dan koleris,en klo jawabannya salah,maka program akan membandingkan nilai melankolis dan plegmatis.
Hasilnya adalah nilai kepribadian yang paling besar.
Setiap Nilai yang didapat akan disimpan kedalam temp,dan akan dimunculkan dalam bentuk grafik di program.
Adaptive Naive Bayes merupakan algoritma pembelajaran untuk klasifikasi dengan
efisiensi komputasi dan akurasi yang baik, khususnya untuk dimensi dan
jumlah data yang besar. Akan tetapi performa algoritma ini akan menurun
ketika antar atribut tidak memiliki keterkaitan satu sama lain. Beberapa
solusi untuk menyelesaikan permasalahan ini yaitu dengan structure
extension, pemilihan atribut, pembobotan pada masing-masing atribut,
instance weighting, pembelajaran lokal, dan sebagainya. Dalam paper
tersebut, penulis membahas teknik pembobotan (Weighting) atribut pada
klasifikasi Naive Bayes (NB) dengan menggunakan Artificial Immune System
(AIS), disingkat AISWNB.
Metode ini digunakan untuk menghitung bobot optimal antar atribut, yaitu
penentuan bobot secara mandiri dalam menentukan independensi atribut
sehingga probabilitas masing-masing atribut bisa ditentukan dengan lebih
akurat. Keunggulan dari metode ini yaitu mampu menyesuaikan bobot
berdasarkan atribut secara mandiri karena metode ini mengadopsi cara
kerja sistem imun, yaitu melalui proses penggandaan diri, pembelahan,
mutasi, dan memory. Metode ini mampu memilih bobot yang baik selama
proses pembelajaran sehingga performa Naive Bayes dapat ditingkatkan.
Penelitian dilakukan dengan membandingkan 36 jenis data pembelajaran
dalam mengklasifikasikan 6 kelompok gambar. Hasil penelitian ini yaitu
performa, akurasi, dan estimasi probabilitas Naive Bayes lebih bagus
daripada metode-metode lainnya.
Konsep Regresi Logistik
Regresi logistik merupakan alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.
Asumsi Regresi Logistik
Regresi logistik merupakan alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.
Asumsi Regresi Logistik
- Regresi logistik tidak membutuhkan hubungan linier antara variabel bebas dengan variabel terikat.
- Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik sering dinyatakan sebagai probabilitas. Misal Odd sebuah perusahaan dapat bangkrut atau berhasil atau odd seorang anak dapat lulus atau tidak pada Ujian Nasional.
- Variabel bebas tidak memerlukan asumsi multivariate normality
- Asumsi homokedastis tidak diperlukan
- Variabel bebas tidak perlu dirubah ke bentuk metric (interval atau skala ratio)
Menurut
Santoso (2007) Support vector machine (SVM) adalah suatu teknik untuk
melakukan prediksi, baik dalam kasus klasifikasi maupun regresi. SVM
berada dalam satu kelas dengan Artificial Neural Network (ANN) dalam hal
fungsi dan kondisi permasalahan yang bisa diselesaikan. Keduanya masuk
dalam kelas supervised learning.
Dalam penelitian ini, teknik SVM digunakan untuk menemukan fungsi pemisah(klasifier)
yang optimal yang bisa memisahkan dua set data dari dua kelas yang
berbeda. Penggunaan teknik machine learning tersebut, karena
performansinya yang meyakinkan dalam memprediksi kelas suatu data baru.
Teori
SVM dimulai dengan kasus klasifikasi yang secara linier bisa
dipisahkan. Dalam hal ini fungsi pemisah yang dicari adalah fungsi
linier. Fungsi ini bisa didefinisikan sebagai;
g(x) := sgn(f(x)) (2.1)
dengan (2,2)
atau (2.3)
dimana x, w ∈and b ∈
Masalah klasifikasi ini bisa dirumuskan set parameter (w, b) sehingga f(xi) =< w, x > +b = yi
untuk semua i. Teknik SVM berusaha menemukan fungsi pemisah (klasifier/hyperplane) terbaik diantara fungsi yang tidak terbatas jumlahnya untuk memisahkan dua macam obyek. Hyperplane terbaik adalah hyperplane yang terletak di tengah-tengah antara dua set obyek dari dua kelas. Mencari hyperplane terbaik ekuivalen dengan memaksimalkan margin atau jarak antara dua set obyek dari kelas yang berbeda. Jika adalah hyperplane-pendukung (supporting hyperplane) dari kelas dan hyperplane-pendukung dari kelas margin antara dua kelas dapat dihitung dengan mencari jarak antara kedua hyperplane-pendukung dari kedua kelas.