All About Information and Technology: April 2018

PENGERTIAN DECISION TREE, ADAPTIVE NAIVE BAYES, LOGISTIC REGRESSION AND SUPPORT VECTOR MACHINE

Decision tree, adaptive naive bayes,logistic regression dan support vector machine.

Secara konsep Decision tree adalah salah satu dari teknik decision analysis.Tries sendiri pertama kali diperkenalkan pada tahun 1960-an oleh Fredkin. Trie atau digital tree berasal dari kata retrival (pengambilan kembali) sesuai dengan fungsinya. Secara etimologi kata ini diucapkan sebagai ‘tree’. Meskipun mirip dengan penggunaan kata ‘try’ tetapi hal ini bertujuan untuk membedakannya dari general tree. Dalam ilmu komputer, trie, atau prefix tree adalah sebuah struktur data dengan representasi ordered tree yang digunakan untuk menyimpan associative array yang berupa string. Berbeda dengan binary search tree (BST) yang tidak ada node di tree yang menyimpan elemen yang berhubungan dengan node sebelumnya dan, posisi setiap elemen di tree sangat menentukan. Semua keturunan dari suatu node mempunyai prefix string yang mengandung elemen dari node itu, dengan root merupakan string kosong. Values biasanya tidak terkandung di setiap node, hanya di daun dan beberapa node di tengah yang cocok dengan elemen tertentu.

Secara singkat bahwa Decision Tree merupakan salah satu metode klasifikasi pada Text Mining. Klasifikasi adalah proses menemukan kumpulan pola atau fungsi-fungsi yang mendeskripsikan dan memisahkan kelas data satu dengan lainnya, untuk dapat digunakan untuk memprediksi data yang belum memiliki kelas data tertentu (Jianwei Han, 2001).

Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu.

Decision Tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan yang merupakan singkatan dari Iterative Dichotomiser 3 atau Induction of Decision “3″ (baca: Tree).

Algoritma ID3 membentuk pohon keputusan dengan metode divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan algoritma ID3 adalah:

Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi:

Semua data dari anak cabang telah termasuk dalam kelas yang sama.
Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.

Beberapa contoh pemakaian Decision Tree,yaitu :

Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain
Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain
Pemilihan pegawai teladan sesuai dengan kriteria tertentu
Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain

Pada project ini,Kami mencoba mengakali konsep decision tree dengan cara,mengubah implementasinya pada penjumlahan nilai dari tiap kepribadian.

Kunci dari program kami terletak pada pertanyaan utama.Jadi gini,4 kepribadian itu dibagi menjadi 2 golongan besar, yaitu : Ekstrovert : sanguinis dan Koleris

Introvert : Melankolis dan Plegmatis

Nilai Ekstrovert : sanguinis + Koleris
Nilia Introvert : Melankolis + Plegmatis

Pertanyaan pertama pada aplikasi kami adalah mengkondisikan apakah jumlah nilai ekstrovert >= introvert. Apabila benar maka,tinggal membandingkan nilai sanguinis dan koleris,en klo jawabannya salah,maka program akan membandingkan nilai melankolis dan plegmatis.

Hasilnya adalah nilai kepribadian yang paling besar.
Setiap Nilai yang didapat akan disimpan kedalam temp,dan akan dimunculkan dalam bentuk grafik di program.

Adaptive Naive Bayes merupakan algoritma pembelajaran untuk klasifikasi dengan efisiensi komputasi dan akurasi yang baik, khususnya untuk dimensi dan jumlah data yang besar. Akan tetapi performa algoritma ini akan menurun ketika antar atribut tidak memiliki keterkaitan satu sama lain. Beberapa solusi untuk menyelesaikan permasalahan ini yaitu dengan structure extension, pemilihan atribut, pembobotan pada masing-masing atribut, instance weighting, pembelajaran lokal, dan sebagainya. Dalam paper tersebut, penulis membahas teknik pembobotan (Weighting) atribut pada klasifikasi Naive Bayes (NB) dengan menggunakan Artificial Immune System (AIS), disingkat AISWNB.

Metode ini digunakan untuk menghitung bobot optimal antar atribut, yaitu penentuan bobot secara mandiri dalam menentukan independensi atribut sehingga probabilitas masing-masing atribut bisa ditentukan dengan lebih akurat. Keunggulan dari metode ini yaitu mampu menyesuaikan bobot berdasarkan atribut secara mandiri karena metode ini mengadopsi cara kerja sistem imun, yaitu melalui proses penggandaan diri, pembelahan, mutasi, dan memory. Metode ini mampu memilih bobot yang baik selama proses pembelajaran sehingga performa Naive Bayes dapat ditingkatkan. Penelitian dilakukan dengan membandingkan 36 jenis data pembelajaran dalam mengklasifikasikan 6 kelompok gambar. Hasil penelitian ini yaitu performa, akurasi, dan estimasi probabilitas Naive Bayes lebih bagus daripada metode-metode lainnya.

Konsep Regresi Logistik
Regresi logistik merupakan alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.
Asumsi Regresi Logistik

Regresi logistik tidak membutuhkan hubungan linier antara variabel bebas dengan variabel terikat.
Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik sering dinyatakan sebagai probabilitas. Misal Odd sebuah perusahaan dapat bangkrut atau berhasil atau odd seorang anak dapat lulus atau tidak pada Ujian Nasional.
Variabel bebas tidak memerlukan asumsi multivariate normality
Asumsi homokedastis tidak diperlukan
Variabel bebas tidak perlu dirubah ke bentuk metric (interval atau skala ratio)

Menurut Santoso (2007) Support vector machine (SVM) adalah suatu teknik untuk melakukan prediksi, baik dalam kasus klasifikasi maupun regresi. SVM berada dalam satu kelas dengan Artificial Neural Network (ANN) dalam hal fungsi dan kondisi permasalahan yang bisa diselesaikan. Keduanya masuk dalam kelas supervised learning.

Dalam penelitian ini, teknik SVM digunakan untuk menemukan fungsi pemisah(klasifier) yang optimal yang bisa memisahkan dua set data dari dua kelas yang berbeda. Penggunaan teknik machine learning tersebut, karena performansinya yang meyakinkan dalam memprediksi kelas suatu data baru.

Teori SVM dimulai dengan kasus klasifikasi yang secara linier bisa dipisahkan. Dalam hal ini fungsi pemisah yang dicari adalah fungsi linier. Fungsi ini bisa didefinisikan sebagai;

g(x) := sgn(f(x)) (2.1)

dengan (2,2)

atau (2.3)

dimana x, w ∈
and b ∈

Masalah klasifikasi ini bisa dirumuskan set parameter (w, b) sehingga f(xi) =< w, x > +b = y_i
untuk semua i. Teknik SVM berusaha menemukan fungsi pemisah (klasifier/hyperplane) terbaik diantara fungsi yang tidak terbatas jumlahnya untuk memisahkan dua macam obyek. Hyperplane terbaik adalah hyperplane yang terletak di tengah-tengah antara dua set obyek dari dua kelas. Mencari hyperplane terbaik ekuivalen dengan memaksimalkan margin atau jarak antara dua set obyek dari kelas yang berbeda. Jika adalah hyperplane-pendukung (supporting hyperplane) dari kelas dan hyperplane-pendukung dari kelas margin antara dua kelas dapat dihitung dengan mencari jarak antara kedua hyperplane-pendukung dari kedua kelas.

April 07, 2018