0% menganggap dokumen ini bermanfaat (0 suara)
53 tayangan8 halaman

Pengklasifikasian Laman Web Berdasarkan Genre Menggunakan Url Feature

1. The document discusses classifying web pages based on genre using URL features. It aims to produce more specific and accurate search results by organizing web pages into genres with similar content or meaning. 2. The classification is done by breaking down URLs into text containing words and numbers, which are grouped based on representative words for each field or genre. 3. An SVM-KNN method is used for classification, which provides feedback to prune KNN classifications and fix SVM mistakes. URLs are weighted using TF-IDF and similarity is calculated using longest common subsequence.

Diunggah oleh

dhebys suryani
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
53 tayangan8 halaman

Pengklasifikasian Laman Web Berdasarkan Genre Menggunakan Url Feature

1. The document discusses classifying web pages based on genre using URL features. It aims to produce more specific and accurate search results by organizing web pages into genres with similar content or meaning. 2. The classification is done by breaking down URLs into text containing words and numbers, which are grouped based on representative words for each field or genre. 3. An SVM-KNN method is used for classification, which provides feedback to prune KNN classifications and fix SVM mistakes. URLs are weighted using TF-IDF and similarity is calculated using longest common subsequence.

Diunggah oleh

dhebys suryani
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd

Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815

Yogyakarta, 28 Maret 2015

PENGKLASIFIKASIAN LAMAN WEB BERDASARKAN GENRE MENGGUNAKAN


URL FEATURE
Hendri Noviyanto1, Teguh Bharata Adji2, Indriana Hidayah3
Jurusan Teknik Elektro dan Teknologi Informasi
Universitas Gadjah Mada
Jl. Grafika No.2 Yogyakarta - 55281
E-mail: nhendri0@[Link], adji@[Link], indriana.h@[Link]

ABSTRACT
The Internet as a source of all information required to be able to present the relevant information as the user
desires. In a search using search engine sometimes generate a lot of information that is too abroad and the topic
is not always in accordance with the genre. The genre of the web is a group of web pages or posts that contain
the contents or meaning almost the same. Classification of web page is very important in order to generate a
more specific search. Genre classification is done by using the url of a web page where all the tags have been
broken down into text that only containts a collection of words and numbers. The text will be grouped based on
the words which are represent each field or have the same meaning, for example system information include in
the category of informatics, and so on. The classification of URLs can be done with the SVM-KNN method.
SVM-KNN work by providing feedback that will do the pruning KNN and SVM will fix his mistake. Weighting is
done using TF-IDF then similarity be calculated using the longest resemblance common subsequence (LCS) and
evaluated by looking at the value of precission and best recall. The classification based on genre is expected to
produce the desired information more quick and accurate.
Keyword : Genre, Classification, URL, Web Page, Search Engine

ABSTRAKS
Internet sebagai sumber dari segala jenis informasi dituntut untuk dapat menyajikan informasi yang relevan
sesuai keinginan pengguna. Pencarian menggunakan mesin pencari banyak menghasilkan informasi yang
terlalu luas dan topiknya tidak selalu sesuai dengan genre yang dicari. Genre dari sisi web adalah sebuah
kelompok dari laman web atau postingan yang mengandung isi atau makna yang hampir sama. Klasifikasi
laman web sangat diperlukan agar dapat menghasilkan pencarian yang lebih spesifik. Klasifikasi genre
dilakukan dengan memanfaatkan URL sebuah laman web dimana semua tag sudah dipecah sehingga hanya
berisi teks berupa kumpulan kata dan angka. Teks tersebut akan dikelompokan berdasarkan kata-kata yang
mewakili setiap bidang atau memiliki makna yang sama, misalnya Sistem Informasi masuk ke dalam kategori
informatika, dan sebagainya. Pengklasifikasian URL bisa dilakukan dengan metode SVM-KNN. SVM-KNN
bekerja dengan cara memberikan umpan balik yaitu KNN akan melakukan pruning dan SVM akan memperbaiki
kesalahannya. Cara pembobotan dilakukan menggunakan TF-IDF kemudian kemiripan akan dihitung
menggunakan longest common subsequence (LCS) dan di evaluasi dengan melihat nilai precission dan recall
terbaik. Dengan adanya pengklasifikasian berdasarkan genre diharapkan dapat menghasilkan informasi yang
diinginkan secara lebih cepat dan akurat.

Kata Kunci: genre, klasifikasi, url, laman web, mesin pencari

1. PENDAHULUAN terhadap suatu produk online maupun pengetahuan


1.1 Latar Belakang yang lain. Jumlah informasi yang sangat besar tidak
Perkembangan Internet yang semakin pesat selalu berdampak positif, salah satunya yaitu
membawa tingkat popularitas Worl Wide Web pengguna kesulitan menemukan laman web dengan
(WWW) menjadi lebih terkenal. WWW menyajikan informasi yang relevan secara cepat sesuai
beragam konten yang direpresentasikan melalui kebutuhan menggunakan search engine.
sebuah laman web yang menyediakan berbagai Seperti yang kita ketahui, sebuah laman web atau
bentuk informasi, seperti penyedia layanan berita informasi yang berada di Internet bersifat tidak
(news site), toko online (online shop), dan beragam terstruktur (Krutil, 2012), artinya informasi yang
penyedia layanan-layanan yang lain. tersedia sangat banyak dan beragam jenisnya, serta
Melimpahnya sumber informasi di Internet dapat sumber informasi berasal dari berbagai tempat yang
dilihat dari meningkatnya persentase penggunaan berbeda. Untuk mengatasi tingkat kesulitan
Internet dengan melihat data dari (“Total Number of pencarian informasi yang relevan, dibutuhkan
Websites”, 2014). Proses yang sering dilakukan sebuah mekanisme proses pengklasifikasian
seperti transaksi jual beli, memperoleh informasi informasi dari laman web dengan tujuan agar
223
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015

informasi lebih terstruktur. Klasifikasi termasuk melakukan pembelajaran secara terbimbing karena
dalam cabang ilmu data mining yang dikenal dengan memiliki data training untuk menentukan class-nya.
teknik-teknik pengolahan data. Langkah melakukan klasifikasi, yaitu: 1) Proses
Data Mining (DM) berkembang dengan cepat pengumpulan data yang masih bersifat mentah (raw
dalam beberapa area penelitian dan disiplin ilmu data); 2) Melakukan proses preprocessing untuk
seperti paralel computing, databases, statistic, membersihkan noise dalam data. Data yang
visualization (Mikanshu dkk, 2013). DM adalah dihasilkan proses preprocessing diolah dalam
sebuah proses untuk menggali pengetahuan machine learning seperti proses filtrasi, agregasi,
(Knowledge Discovery) dari sekumpulan data yang classification atau proses lain sesuai kebutuhan.
memiliki volume sangat besar. Proses yang Klasifikasi dapat digunakan untuk mengatasi
dilakukan memiliki kemungkinan untuk menggali masalah pengelompokan suatu objek sesuai dengan
sebuah data yang tidak terstruktur atau belum definisi dan kesamaan menjadi sekumpulan genre
diketahui menjadi sebuah data yang berguna dan (Chaker, 2014).
bisa dimanfaatkan untuk melakukan manajemen atau
mengelola sumber daya menjadi lebih baik.
Knowledge Discovery in Databases (KDD) adalah
satu kesatuan dengan DM yang memiliki beberapa
tahapan sebelum bisa diproses dalam Machine
Learning (ML) seperti pembersihan data (data
cleaning), integrasi data (data integration),
pemilihan data (data selection), transformasi data Gambar 1. Classification input output (Rani, 2013)
(data transformation), evaluasi pola (pattern
evaluation), menyajikan pengetahuan (knowledge Pengertian genre dalam buku Genre Analysis
presentation) (Ayub, 2007). (Swales, 1990) adalah sebuah pengelompokan suatu
DM memiliki beberapa aplikasi yang dapat objek yang memiliki kesamaan. Klasifikasi laman
digunakan untuk melakukan pemrosesan tugas web berdasarkan genre bertujuan untuk
pengolahan data, salah satunya adalah WEKA. memudahkan dalam pencarian informasi yang
Aplikasi WEKA dapat digunakan untuk relevan dikarenakan pertumbuhan informasi yang
menyelesaikan berbagai tugas yang berbeda, seperti berada di Internet terus meningkat dengan cepat.
association (membentuk sebuah pola dimana terjadi Pengklasifikasian terhadap genre dipilih karena pada
hubungan antara satu data dengan data yang lain), saat ini search engine, misalnya Google masih
classification (mengindentifikasi pola baru dengan menggunakan kombinasi metode Keyword dan
target data yang sudah dikenal), dan clustering PageRank (“Mesin Pencari Web” 2015). Pendekatan
(mengelompokan identitas atau kesamaan sebuah dengan keyword memiliki cara kerja yaitu dengan
object)(Rani, 2013). memecahan kata masukan dalam pencarian
WEKA adalah sebuah aplikasi DM yang dokumen atau informasi. Misalnya contoh pencarian
bersifat open sources software, dikembangkan oleh “Machine Learning” maka search engine akan
Universitas Waikato di New Zealand menggunakan melakukan pemecahan kata menjadi “Machine” +
bahasa java (WEKA, 2014) dan termasuk salah satu “Learning” kemudian melakukan pencarian pada
aplikasi yang memiliki kumpulan algoritme di dalam directory yang dimilikinya. PageRank bertujuan
direktorinya, sehingga memiliki kemampuan untuk untuk membantu proses pencarian dokumen atau
menangani beberapa tugas seperti regression, informasi dengan menampilkan laman web yang
classification, clustering, association rule mining sering dikunjungi tanpa melihat isi dari content
dan attribute selection. WEKA menggunakan format sebuah laman web yang ditampilkan.
ARFF sebagai source file untuk melakukan
pemrosesan data, maka mengubah format file
menjadi ARFF bersifat wajib agar dapat diolah oleh
WEKA. ARFF adalah sebuah format file yang
digunakan untuk mengindikasi perbedaan attribute
names, attribute type, dan attribute value (Rani,
2013). Selain penyajian dengan angka WEKA juga
mampu memberikan hasil dalam bentuk visual
seperti tabel dan kurva.
Klasifikasi adalah sebuah teknik yang cukup baik
untuk mengolah data yang bervariasi. Pada
penelitian (Baykan, 2009; Zhaohui, 2011; Gambar 2. Skema pengklasifikasian laman web
Rajalakshmi, 2013; Chaker, 2014) klasifikasi dari Open Directory Project (ODP) (“DMOZ” 2014)
digunakan untuk menentukan nilai precision dan 1.2 Literatur Review
recall dari sebuah dataset. Klasifikasi termasuk Penelitian dengan topik klasifikasi laman web
dalam supervised learning (Rani, 2013) yang sudah banyak dilakukan dengan berbagai macam
224
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015

feature, salah satunya URL. Beberapa peneliti telah SVM. Sehingga diperoleh bahwa algoritme LIC
melakukan penelitian terhadap klasifikasi dengan mampu menunjukkan kemampuannya dengan
feature tersebut, berbagai macam metode telah melebihi kemampuan KNN dan SVM (Zhaohui,
diterapkan untuk mendapatkan hasil precision dan 2011) dengan menunjukan hasil precision dan recall
recall yang terbaik. yang lebih baik.
Pada tahun 2007, M. Indra Devi dkk melakukan Tahun 2013, R. Rajalakshmi dkk dalam penelitian
penelitian terkait dengan klasifikasi URL dengan berjudul “Web Page Classification using n-gram
judul “Machine Learning Techniques for Automated based URL Features”, menitikberatkan penggunaan
Web Pages Classification using URL Feature”. feature URL untuk klasifikasi dan didukung dengan
Penelitian tersebut hanya menggunakan feature dari penggunaan metode n-gram sebagai pemecah kata,
URL untuk melakukan pengklasifikasian dengan seperti yang dilakukan (Devi, 2007) pada penelitian
alasan bahwa URL bersifat unik, memiliki arti, serta sebelumnya. Dalam penelitian ini dibandingkan
dapat digunakan untuk identifikasi. Dengan metode SVM dan ME untuk mengetahui metode
membandingkan 3 buah algoritme yaitu Naïve mana yang lebih baik untuk klasifikasi. Penggunaan
Bayes, SVM dan RBF Network, diperoleh hasil dataset yaitu dengan WebKB dan Open Directory
bahwa SVM lebih unggul dari kedua algoritme yang Project (ODP) (“DMOZ” 2014) yang berasal dari
lain. Kekurangan dari RBF adalah tidak mampu directory yang dimiliki oleh mozilla. Hasil yang
mengeksekusi instances yang bersifat negative, diperoleh menunjukan bahwa ME lebih unggul saat
namun dalam instances yang bersifat positive RFB mengeksekusi data yang lebih kecil, namun
lebih unggul dibanding dengan SVM dan Naïve kemampuan kedua algoritme tersebut seimbang saat
Bayes (Devi, 2007). melakukan eksekusi pada data yang relatif
Pada tahun 2009, Penelitian Eda Baykan dkk berjumlah besar (Rajalakshmi, 2013).
dengan judul “Purely URL-based Topic Tahun 2014, Chaker Jebari dalam penelitiannya
Classification”, subject penelitian hanya tantang klasifikasi laman web ke dalam genre
menggunakan URL sebagai feature utama tanpa ada berdasarkan URL feature, penelitian tersebut
feature pendukung yang lainnya. Pertimbangan Eda menggunakan pendekatan dengan memberikan
Baykan adalah URL mengandung informasi yang pembobotan pada URL, Seperti Domain name
sudah cukup mewakili dan menggambarkan isi dari (DOMN), Document path (DOCP), dan Document
sebuah laman web, selain itu kecepatan dan resource name and query string (DOCN). Pendekatan yang
storage sangat di pertimbangkan. Penelitian ini lain adalah dengan menggunakan metode n-gram
melibatkan metode n-gram sebagai pemecah kata, untuk membantu proses pemecahan kata. Chaker
sedangkan classifier menggunakan metode SVM, membandingkan metode pada penelitiannya
NaiveBayes, dan ME, dengan cara melakukan terdahulu tentang klasifikasi genre (C. Jebari and
perbandingan diantara ketiga metode tersebut. Wani 2012) yaitu RakEL, BR-SVM, MLKNN, dan
Namun hasil penelitian yang dilakukan masih BPMLL. Hasil yang diperoleh adalah metode RakEL
memiliki kelemahan yaitu tidak semua single URL lebih baik dalam pengklasifikasian laman web
bisa di klasifikasikan (Baykan, 2009). menggunakan URL (Chaker, 2014).
Pada tahun 2011, Zhaohui Xu dkk dalam Dari penjelasan diatas dapat disimpulkan bahwa
penelitiannya yang berjudul “A Web Page penggunaan feature URL sudah bisa mewakili isi
Classification Algorithm Based On Link dari sebuah laman web, sehingga sudah dapat
Information”, menjelaskan bahwa traditional digunakan untuk melakukan proses klasifikasi.
classification biasanya melakukan pengeksekusian Pengklasifikasian berdasarkan genre akan
terhadap content web namun metode tersebut memudahkan pencarian spesifik sesuai keinginan
memiliki beberapa kelemahan, antara lain besarnya pengguna. Beberapa metode umum yang digunakan
tingkat kesalahan informasi yang dihasilkan, ukuran meliputi Naive Bayes, SVM, ME, RakEL, BR-SVM,
teks yang terlalu besar sehingga sering mengalami MLKNN, dan BPMLL. Setiap metode memiliki
error, dan tidak bisa digunakan untuk kelemahan dan kelebihan masing-masing dalam
mengklasifikasian video, musik, dan gambar. melakukan klasifikasi, sehingga perlu adanya
Karena dalam prosesnya membutuhkan eksplorasi terhadap metode lain untuk tujuan
preprocessing terhadap semua text yang termuat klasifikasi yang sama yaitu menggunakan SVM-
dalam isi laman web, maka dikembangkan KNN (Yun Lin, 2014).
klasifikasi dengan Link Information Categorization
(LIC) yang dikembangkan dari KNN. KNN 2. PEMBAHASAN
termasuk lazy learning algorithm yang 2.1 URL Feature
membutuhkan storage dan computing cost yang URL adalah singkatan dari Uniform Resource
cukup besar. Dengan memperbaiki metode KNN Locator, URL adalah serangkaian karakter yang
agar lebih cepat dan tingkat akurasi yang tinggi sesuai dengan format berstandar yang digunakan
maka LIC hadir untuk mengatasi masalah tersebut. untuk menunjukan alamat suatu sumber atau
Penelitian yang dikerjakan memperoleh hasil dengan resource seperti dokumen, gambar dan aplikasi di
membandingkan 3 algoritme yaitu LIC, KNN, dan
225
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015

Internet (“URL” 2014). URL memiliki fungsi antara Contoh pada kata “SAYASAJA”, terdiri dari
lain sebagai berikut (“Situs Web” 2014): (tWord) sebanyak 8 buah. Dengan menggunakan
 Pengidentifikasi sebuah dokumen di situs web. bigram (depth = 2) dapat membentuk n-gram
 Memudahkan dalam pengaksesan suatu dokumen (tNgram) sebanyak: 8 – 2 + 1 = 7 kemungkinan
melalui situs web. yaitu {SA, AY, YA, AS, SA, AJ, JA}.
 Memberikan penamaan terhadap suatu berkas
atau dokumen pada situs web. Dengan kata lain n-gram melakukan proses sesuai
 Memudahkan kita dalam menginggat sebuah masukan pada depth dimana nilai masukan akan
mempengaruhi pemrosesan terhadapnya, seperti
alamat situs web.
bigram, trigram, fourgram, dan seterusnya diperoleh
dari seberapa besar nilai gram masukannya.
2.1.1 N-gram
URL adalah sebuah kumpulan kata yang
2.1.2 Teknik Pembobotan
memudahkan kita dalam mengingat sebuah alamat
Pengukuran tingkat kemiripan sangat penting
situs atau laman web, namun dalam proses
dalam mekanisme pengolahan dokumen berbasis
pengklasifikasian tidak mungkin memproses data
teks. Dalam pengolahan dokumen langkah yang
mentah, tingkat kesulitan akan semakin membesar
sering digunakan adalah menghitung kesaman query
atau bahkan tidak dapat dilakukan. Maka diperlukan
masukan dengan dokumen lain. Teks atau dokumen
pemrosesan terlebih dahulu supaya menjadi token-
akan di representasikan sebagai vektor untuk
token yang dimengerti oleh algoritme dan mempermudah dalam perhitungan.
mempermudah dalam pemrosesan. Contoh sebuah
url [Link] a. Term Frequency-Inverse Document Frequency
machine learning belum mengetahui maksud dari
(TF-IDF)
serangkaian kata tersebut bahkan sulit untuk
TF adalah metode dasar untuk menghitung
memprosesnya. Oleh sebab itu kualitas data
frekuensi kemunculan kata atau istilah dalam
masukan pada machine learning berperan penting
sebuah dokumen (Riboni, 2002). Frekuensi
terhadap kesuksesan pengklasifikasian. N-gram
kemunculan tersebut dijadikan sebuah bobot
adalah sebuah metode yang digunakan untuk
dokumen yang akan direpresentasikan dalam
melakukan pemotongan n karakter dalam suatu
bentuk lingkungan vektor sehingga terbentuk
string tertentu atau potongan kata dalam suatu
vektor berdimensi n yang mana nilainya dapat
kalimat tertentu. Seminsal “machine learning”, jika digunakan untuk proses selanjutnya. TF
dilakukan pemrosesan dengan n-gram maka akan dihitung dengan persamaan (2). Sedangkan
medapatkan hasil sebagai berikut. IDF adalah algoritme dari rasio jumlah seluruh
dokumen yang dimiliki oleh korpus dengan
Tebel 1. Pemrosesan n-gram
dokumen term yang ditulis secara matematis
N-gram by each adjacent character pada persamaan (3). Kemudian nilai total akan
Bi-gram “ma”, “ac”, “ch”, “hi”, “in”, didapatkan dengan melakukan perkalian antara
“ne”, “el”, “le”, “ea”, “ar”, TF dan IDF dengan formula (4) (Saadah,
“rn”, “ni”, “in”, “ng” 2013). Formula fungsi dapat dilihat sebagai
Tri-gram “mac”, “ach”, “chi”, “hin”, berikut.
“ine”, “nel”, “ele”, “lea”, “ear”,
freqi (d )
“arn”, “rni”, “nin”, “ing” t k
(2)
4-gram “mach”, “achi”, “chin”, “hine”,
“inel”, “nele”, “elea”, “lear”,
 freq
i 1
i

“earn”, “arni”, “rnin”, “ning”


Dst…… | D|
Untuk pemrosesan terhadap dokumen idf i  log (3)
| {d : ti  d } |
menggunakan metode n-gram dapat diformulasikan
sebagai berikut (Zhaohui, 2011):
(tf  idf ) ij  tf i (d ) j  idf i (4)
tNgram  tWord  depth  1 (1)
Dimana (ti) menunjukan jumlah frekuensi
dimana: kemunculan istilah atau kata dalam sebuah
tNgram adalah total dari jumlah n-gram dokumen (dj) .
tWord adalah total dari pemberian kata
b. Longest Common Subsequence (LCS)
depth adalah type dari n-gram

226
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015

LCS adalah sebuah pendekatan yang digunakan 2.2 Metode Klasifikasi


untuk menghitung relasi berurutan yang paling a. SVM-KNN
panjang antara query masukan dengan Support Vector Machine (SVM) diusulkan oleh
vapnik (Vapnik V, 1995), SVM dikenal dengan
dokumen. LCS digunakan sebagai
sistem pembelajaran machine learning (ML) yang
pendudukung fitur pembobotan tf-idf cukup baik. Pada dasarnya SVM dikembangkan agar
sebelumnya. Dokumen yang memiliki dapat menyelesaikan masalah klasifikasi linier
kesamaan urutan kata dengan query masukan kemudian dikembangkan agar mampu bekerja pada
akan memiliki bobot yang tinggi. Nilai query q masalah non-linier dengan konsep kernel trick pada
dengan dokumen j yang telah didapatkan ruang berdimensi tinggi. SVM secara sederhana
kemudian dinormalisasi dengan persamaan (5) berusaha mencari hyperplane terbaik yang berfungsi
sebagai pemisah dua kelas pada input space, seperti
seperti pada (Saadah, 2013). Yaitu m adalah
pada gambar 3. Pola positif ditunjukan dengan tanda
jumlah term dalam query dan n adalah jumlah kotak dan negatif dengan tanda bulat.
term dalam dokumen.

LSCq , j
LSC( q , j ) normalisasi  (5)
mn
2.1.3 Preprocessing
Preprocessing adalah proses mengubah data
mentah menjadi format yang sesuai untuk tahap
analisis berikutnya. Selain itu preprocessing juga
digunakan untuk membantu dalam pengenalan
atribut dan data segmen yang relevan dengan tugas
data mining.
Seperti yang telah dijelaskan sebelumnya bahwa
setiap masukan data harus memiliki kualitas dan
Gambar 3. Sketsa pemetaan hyperplane (Weimin,
penyampaian yang jelas, agar machine learning
2006)
dapat bekerja secara maksimal. Dalam proses
Prepocessing dan Extraction URL sebelum
Hyperplane pemisah terbaik antara dua kelas
dilakukan training dan testing maka beberapa
dapat digunakan untuk mengukur batas tepi
langkah yang dilakukan antara lain:
hyperplane tersebut. SVM yang mampu bekerja
 Stoplist, yaitu menghilangkan karakter yang pada ruang berdimensi tinggi memiliki beberapa
tidak berguna atau noise seperti “http”, “www” kelebihan, salah satunya proses generalisasi.
, “:” , “//”. Generalisasi dikategorikan sebagai kemampuan
 Pemrosesan menggunakan n-gram, yaitu metode SVM untuk mengklasifikasikan suatu pola
melakukan pemecahan kata seperti yang yang tidak termasuk dalam data yang dipakai dalam
ditunjukan di tabel 1. fase pembelajaran. Dalam fase metode tersebut
vapnik (Vapnik V, 1995) menjelaskan generalisasi
 Pembobotan TF-IDF, yaitu memberikan bobot error disebabkan oleh dua faktor yaitu error terhadap
kepada setiap kata hasil pemrosesan n-gram. training set dan dipengaruhi oleh Vapnik-
Dengan melakukan pembobotan maka akan Chervokinesis (VC). Strategi yang digunakan SVM
diketahui tingkat similarity dari suatu kata dan untuk mengatasi kedua masalah tersebut adalah
kemudian diijadikan sebagai acuan untuk dengan cara Empirical Risk Minimation (ERM)
pengklasifikasian laman web ke dalam genre dengan meminimalkan error pada training set dan
Structural Risk Minimation (SRM) pada VC untuk
masing-masing.
memilih hyperplane dengan margin terbesar
(Chaker, 2014), (Yun Lin, 2014).
Setelah melakukan tahap preprocessing maka
K-Nearest Neighbour (KNN) adalah sebuah
dapat dilakukan klasifikasi URL berdasarkan genre
metode untuk melakukan klasifikasi terhadap object
dengan machine learning classifier untuk
berdasarkan data pembelajaran yang paling dekat
mendapatkan hasil akhir. Data yang diperoleh
(Chaker, 2014). Data pembelajaran diproyeksikan
kemudian akan dilakukan analisis untuk mengetahui
keruang berdimensi banyak, dimana masing-masing
hasil yang paling baik.
merepresentasikan fitur dari data dan ruangan dibagi
berdasarkan klasifikasi data pembelajaran. Pada fase
pembelajaran, algoritme ini hanya melakukan
penyimpanan vektor-vektor fitur dan klasifikasi dari

227
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015

data pembelajaran. Perhitungan jarak dari vektor


biasanya dihitung berdasarkan jarak Euclidean.
Untuk mengetahui nilai terbaik dengan metode ini
adalah dengan mengambil nilai k terbaik pada data.
Nilai k bisa dipilih secara acak, misalnya dengan
menggunakan Cross Validation. Kasus khusus di
mana klasifikasi pembelajaran paling dekat adalah
k=1. Namun nilai k yang tergantung kepada data Gambar 5. Ide penggunaan algoritme SVM (Al-
membuat k menggurangi noise, tetapi membuat ani, 2010)
batasan antara setiap klasifikasi menjadi kabur
(“KNN” 2015).
b. RBF
RBF network adalah metode dari pemodelan
matematik, dasar fungsi RBF adalah jaringan syaraf
tiruan yang menggunakan dasar radial sebagai
aktivasi. Output adalah kombinasi linier radial
fungsi input dan neuron parameter. RBF biasanya
memiliki 3 lapisan, 1) lapisan masukan, 2) lapisan
tersembunyi dengan aktivasi RBF non-liner, 3)
lapisan output linier. Masukan dapat dimodelkan
sebagai vektor bilangan real, output dari jarigan ini
fungsi saklar vektor masukan (Devi, 2007), (“Radial
Basis Function Network” 2015).

2.3 Performa Measure


Gambar 4. KNN Sketch Map (k=4) (Yun Lin, Pengukuran performa dari pengklasifikasian
2014) adalah dengan cara mengeatahui Error rate, Recall,
dan Precision. Pertama pendefinisian Error rate
SVM-KNN merupakan penggabungan dua seperti dibawah ini.(Weimin Xue et al. 2006)
metode yang berbeda, tujuan dari kombinasi ini
adalah untuk bisa mendapatkan nilai precision dan Jumlah Pr ediksiSalah (6)
ErrorRate 
recall yang baik. Studi klasifikasi menggunakan JumlahTotal Pr ediksi
SVM ditemukan sebuah kesalahan sampel dekat
dengan margin, hal ini menunjukan bahwa informasi Mendefiniskan Recall , Precision , Acuracy, dan
tersebut dapat digunakan untuk meningkatkan
F-measure.
kinerja klasifikasi dengan menutup kelemahan
tp (7)
tersebut. Dengan mengkombinasi SVM dan KNN, Re call 
sampel yang didistribusikan ke dalam ruang dapat tn  fp
digunakan untuk mencari klasifikasi dengan
menggunakan Nearest Neighbors. Kombinasikan tp
KNN di gunakan dengan menghitung fungsi jarak Pr ecision  (8)
tp  tn
yang sederhana dan untuk menghasilkan keputusan
yang lebih baik. Pemangkasan dilakukan
menggunakan KNN, dan perbaikan menggunakan tp  tn (9)
Accuracy 
SVM. Fitur KNN bekerja dengan syarat bahwa tp  tn  fp  fn
semua sampel poin adalah perwakilan sebuah titik.
Dengan demikian KNN akan melakukan pelatihan precision  recall
terhadap semua sampel titik. Oleh karena itu harus F  2 (10)
precision  recall
dilakukan perhitungan semua jarak uji sampel x
untuk semua pelatihan sampel, dengan
menggabungkan dua metode SVM dan KNN (Yun Dimana:
Lin, 2014). tp adalah True Positif
tn adalah true negatif
fp adalah false positif
fn adalah false negatif
F adalah F-measure

2.4 Dataset
Klasifikasi laman web termasuk dalam kategori
supervised learning dengan kebutuhan data yang

228
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015

relative simple, pada penelitian ini penulis Devi, M. Indra, R. Rajaram, and K. Selvakuberan.
menggunakan dataset dari ODP(“DMOZ” 2014) 2007. “Machine Learning Techniques for
dengan laman web versi Bahasa Indonesia. Dalam Automated Web Page Classification Using
directory ODP terdapat berbagai variasi laman web URL Features.” In Proceedings of the
yang dapat diklasifikasikan menurut genre, namun International Conference on Computational
dalam penelitian ini kami melakukan proses Intelligence and Multimedia Applications
pengklasifikasian hanya terhadap 12 genre laman (ICCIMA 2007) - Volume 02, 116–20.
web, seperti penyedia layanan berita (news site), IEEE Computer Society.
Business, Computer, Games, Health, Home, Arts, “DMOZ.” 2014. Accessed December 17.
Shopping, Sciences, Sport, References, Society. [Link]
Dalam penelitian ini akan digunakan 2400 data Jebari, C., and M.A. Wani. 2012. “A Multi-label and
URL, dengan masing-masing genre sebanyak 200 Adaptive Genre Classification of Web
URL. Pages.” In , 1:578–81.
doi:10.1109/ICMLA.2012.106.
3. KESIMPULAN Jebari, C. 2014. “A Pure URL-Based Genre
Dari paper yang telah dikaji diatas dapat ditarik Classification of Web Pages.” In , 233–37.
sebuah gambaran tentang pengklasifikasian terhadap doi:10.1109/DEXA.2014.56.
laman web ke dalam genre masing-masing “KNN.” 2015. Accessed January 31.
menggunakan feature URL. Beberapa metode [Link]
seperti Naive Bayes, SVM, ME, KNN, NN, RakEL, Krutil, J., M. Kudelka, and V. Snasel. 2012. “Web
BR-SVM, MLKNN, dan BPMLL yang telah Page Classification Based on [Link]
diterapkan untuk meningkatkan Precision dan Recall Collection.” In , 356–60.
memiliki hasil yang berbeda, semua kondisi ini doi:10.1109/CASoN.2012.6412428.
dikarenakan terdapat perbedaan terhadap “Mesin Pencari Web.” 2015. Accessed January 31.
penggunaan dataset, penggunaan feature, serta [Link]
kendala saat penelitian berlangsung. _web.
Dalam penelitian ini diusulkan penggunaan SVM “Radial Basis Function Network.” 2015. Accessed
dan KNN yang dikombinasikan sebagai metode January 29.
pengklasifikasian URL, diimplementasikan untuk [Link]
klasifikasi laman web berdasarkan genre. Feature n- unction_network.
gram akan digunakan sebagai pemecah kata dengan Rajalakshmi, R., and Chandrabose A. 2013. “Web
mencari n terbaik. Pembobotan teks menggunakan Page Classification Using N-gram Based
TF-IDF, hasilnya akan dilakukan lagi pembobotan URL Features.” In , 15–21.
dengan LCS untuk meneliti tingkat similarity pada doi:10.1109/ICoAC.2013.6921920.
query dan dokumen supaya hasil pencarian lebih Rani, M, Singh V, and Bhushan B. 2013.
akurat. “Performance Evaluation of Classification
Techniques Based on Mean Absolute
Error” Vol 4 (Issue 1 January 2013).
Riboni, D. 2002. Feature Selection for Web Page
PUSTAKA Classification. na.
Saadah, M.N., Rigga W.A, Dyah S.R, and Agus
Al-ani T, and Dalila T. 2010. Signal Processing and Z.A. 2013. “Sistem Temu Kembali
Classification Approaches for Brain- Dokumen Teks Dengan Pembobotan Tf-Idf
Computer Interface, Intelligent and Dan LCS” Vol 11: 17–20.
Biosensors, Vernon S. Somerset (Ed.). “Situs Web.” 2014. Accessed December 16.
InTech. [Link]
[Link] L_.28uniform_resource_locator.29.
nt-and-biosensors/signal-processing-and- Swales, J. 1990. Genre Analysis. New York:
classification-approaches-for-brain- Cambrige University Press.
computer-interface. “Total Number of Websites.” 2014. Internet Live
Ayub, M. 2007. “Proses Data Mining Dalam Sistem Stats. Accessed October 22.
Pembelajaran Berbantuan Komputer.” [Link]
Jurnal Sistem Informasi Vol. 2 No. 1 number-of-websites/.
(March): 21–30. “URL.” 2014. Accessed December 16.
Baykan, E, Monika H, Ludmila M, and Ingmar W. [Link]
2009. “Purely URL-based Topic Vapnik V. 1995. “The Nature of Statistical Earning
Classification.” In Proceedings of the 18th Theory.” Springer.
International Conference on World Wide Weimin Xue, Hong Bao, Weitong Huang, and
Web, 1109–10. Madrid, Spain: ACM. Yuchang Lu. 2006. “Web Page

229
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015

Classification Based on SVM.” In , 2:6111–


14. doi:10.1109/WCICA.2006.1714255.
WEKA. 2014. “Machine Learning.” Accessed
December 8.
[Link]
Yun Lin, and Jie Wang. 2014. “Research on Text
Classification Based on SVM-KNN.” In ,
842–44.
doi:10.1109/ICSESS.2014.6933697.
Zhaohui Xu, Fuliang Yan, Jie Qin, and Haifeng Zhu.
2011. “A Web Page Classification
Algorithm Based on Link Information.” In ,
82–86. doi:10.1109/DCABES.2011.19.

230

Anda mungkin juga menyukai