Pengklasifikasian Laman Web Berdasarkan Genre Menggunakan Url Feature
Pengklasifikasian Laman Web Berdasarkan Genre Menggunakan Url Feature
ABSTRACT
The Internet as a source of all information required to be able to present the relevant information as the user
desires. In a search using search engine sometimes generate a lot of information that is too abroad and the topic
is not always in accordance with the genre. The genre of the web is a group of web pages or posts that contain
the contents or meaning almost the same. Classification of web page is very important in order to generate a
more specific search. Genre classification is done by using the url of a web page where all the tags have been
broken down into text that only containts a collection of words and numbers. The text will be grouped based on
the words which are represent each field or have the same meaning, for example system information include in
the category of informatics, and so on. The classification of URLs can be done with the SVM-KNN method.
SVM-KNN work by providing feedback that will do the pruning KNN and SVM will fix his mistake. Weighting is
done using TF-IDF then similarity be calculated using the longest resemblance common subsequence (LCS) and
evaluated by looking at the value of precission and best recall. The classification based on genre is expected to
produce the desired information more quick and accurate.
Keyword : Genre, Classification, URL, Web Page, Search Engine
ABSTRAKS
Internet sebagai sumber dari segala jenis informasi dituntut untuk dapat menyajikan informasi yang relevan
sesuai keinginan pengguna. Pencarian menggunakan mesin pencari banyak menghasilkan informasi yang
terlalu luas dan topiknya tidak selalu sesuai dengan genre yang dicari. Genre dari sisi web adalah sebuah
kelompok dari laman web atau postingan yang mengandung isi atau makna yang hampir sama. Klasifikasi
laman web sangat diperlukan agar dapat menghasilkan pencarian yang lebih spesifik. Klasifikasi genre
dilakukan dengan memanfaatkan URL sebuah laman web dimana semua tag sudah dipecah sehingga hanya
berisi teks berupa kumpulan kata dan angka. Teks tersebut akan dikelompokan berdasarkan kata-kata yang
mewakili setiap bidang atau memiliki makna yang sama, misalnya Sistem Informasi masuk ke dalam kategori
informatika, dan sebagainya. Pengklasifikasian URL bisa dilakukan dengan metode SVM-KNN. SVM-KNN
bekerja dengan cara memberikan umpan balik yaitu KNN akan melakukan pruning dan SVM akan memperbaiki
kesalahannya. Cara pembobotan dilakukan menggunakan TF-IDF kemudian kemiripan akan dihitung
menggunakan longest common subsequence (LCS) dan di evaluasi dengan melihat nilai precission dan recall
terbaik. Dengan adanya pengklasifikasian berdasarkan genre diharapkan dapat menghasilkan informasi yang
diinginkan secara lebih cepat dan akurat.
informasi lebih terstruktur. Klasifikasi termasuk melakukan pembelajaran secara terbimbing karena
dalam cabang ilmu data mining yang dikenal dengan memiliki data training untuk menentukan class-nya.
teknik-teknik pengolahan data. Langkah melakukan klasifikasi, yaitu: 1) Proses
Data Mining (DM) berkembang dengan cepat pengumpulan data yang masih bersifat mentah (raw
dalam beberapa area penelitian dan disiplin ilmu data); 2) Melakukan proses preprocessing untuk
seperti paralel computing, databases, statistic, membersihkan noise dalam data. Data yang
visualization (Mikanshu dkk, 2013). DM adalah dihasilkan proses preprocessing diolah dalam
sebuah proses untuk menggali pengetahuan machine learning seperti proses filtrasi, agregasi,
(Knowledge Discovery) dari sekumpulan data yang classification atau proses lain sesuai kebutuhan.
memiliki volume sangat besar. Proses yang Klasifikasi dapat digunakan untuk mengatasi
dilakukan memiliki kemungkinan untuk menggali masalah pengelompokan suatu objek sesuai dengan
sebuah data yang tidak terstruktur atau belum definisi dan kesamaan menjadi sekumpulan genre
diketahui menjadi sebuah data yang berguna dan (Chaker, 2014).
bisa dimanfaatkan untuk melakukan manajemen atau
mengelola sumber daya menjadi lebih baik.
Knowledge Discovery in Databases (KDD) adalah
satu kesatuan dengan DM yang memiliki beberapa
tahapan sebelum bisa diproses dalam Machine
Learning (ML) seperti pembersihan data (data
cleaning), integrasi data (data integration),
pemilihan data (data selection), transformasi data Gambar 1. Classification input output (Rani, 2013)
(data transformation), evaluasi pola (pattern
evaluation), menyajikan pengetahuan (knowledge Pengertian genre dalam buku Genre Analysis
presentation) (Ayub, 2007). (Swales, 1990) adalah sebuah pengelompokan suatu
DM memiliki beberapa aplikasi yang dapat objek yang memiliki kesamaan. Klasifikasi laman
digunakan untuk melakukan pemrosesan tugas web berdasarkan genre bertujuan untuk
pengolahan data, salah satunya adalah WEKA. memudahkan dalam pencarian informasi yang
Aplikasi WEKA dapat digunakan untuk relevan dikarenakan pertumbuhan informasi yang
menyelesaikan berbagai tugas yang berbeda, seperti berada di Internet terus meningkat dengan cepat.
association (membentuk sebuah pola dimana terjadi Pengklasifikasian terhadap genre dipilih karena pada
hubungan antara satu data dengan data yang lain), saat ini search engine, misalnya Google masih
classification (mengindentifikasi pola baru dengan menggunakan kombinasi metode Keyword dan
target data yang sudah dikenal), dan clustering PageRank (“Mesin Pencari Web” 2015). Pendekatan
(mengelompokan identitas atau kesamaan sebuah dengan keyword memiliki cara kerja yaitu dengan
object)(Rani, 2013). memecahan kata masukan dalam pencarian
WEKA adalah sebuah aplikasi DM yang dokumen atau informasi. Misalnya contoh pencarian
bersifat open sources software, dikembangkan oleh “Machine Learning” maka search engine akan
Universitas Waikato di New Zealand menggunakan melakukan pemecahan kata menjadi “Machine” +
bahasa java (WEKA, 2014) dan termasuk salah satu “Learning” kemudian melakukan pencarian pada
aplikasi yang memiliki kumpulan algoritme di dalam directory yang dimilikinya. PageRank bertujuan
direktorinya, sehingga memiliki kemampuan untuk untuk membantu proses pencarian dokumen atau
menangani beberapa tugas seperti regression, informasi dengan menampilkan laman web yang
classification, clustering, association rule mining sering dikunjungi tanpa melihat isi dari content
dan attribute selection. WEKA menggunakan format sebuah laman web yang ditampilkan.
ARFF sebagai source file untuk melakukan
pemrosesan data, maka mengubah format file
menjadi ARFF bersifat wajib agar dapat diolah oleh
WEKA. ARFF adalah sebuah format file yang
digunakan untuk mengindikasi perbedaan attribute
names, attribute type, dan attribute value (Rani,
2013). Selain penyajian dengan angka WEKA juga
mampu memberikan hasil dalam bentuk visual
seperti tabel dan kurva.
Klasifikasi adalah sebuah teknik yang cukup baik
untuk mengolah data yang bervariasi. Pada
penelitian (Baykan, 2009; Zhaohui, 2011; Gambar 2. Skema pengklasifikasian laman web
Rajalakshmi, 2013; Chaker, 2014) klasifikasi dari Open Directory Project (ODP) (“DMOZ” 2014)
digunakan untuk menentukan nilai precision dan 1.2 Literatur Review
recall dari sebuah dataset. Klasifikasi termasuk Penelitian dengan topik klasifikasi laman web
dalam supervised learning (Rani, 2013) yang sudah banyak dilakukan dengan berbagai macam
224
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015
feature, salah satunya URL. Beberapa peneliti telah SVM. Sehingga diperoleh bahwa algoritme LIC
melakukan penelitian terhadap klasifikasi dengan mampu menunjukkan kemampuannya dengan
feature tersebut, berbagai macam metode telah melebihi kemampuan KNN dan SVM (Zhaohui,
diterapkan untuk mendapatkan hasil precision dan 2011) dengan menunjukan hasil precision dan recall
recall yang terbaik. yang lebih baik.
Pada tahun 2007, M. Indra Devi dkk melakukan Tahun 2013, R. Rajalakshmi dkk dalam penelitian
penelitian terkait dengan klasifikasi URL dengan berjudul “Web Page Classification using n-gram
judul “Machine Learning Techniques for Automated based URL Features”, menitikberatkan penggunaan
Web Pages Classification using URL Feature”. feature URL untuk klasifikasi dan didukung dengan
Penelitian tersebut hanya menggunakan feature dari penggunaan metode n-gram sebagai pemecah kata,
URL untuk melakukan pengklasifikasian dengan seperti yang dilakukan (Devi, 2007) pada penelitian
alasan bahwa URL bersifat unik, memiliki arti, serta sebelumnya. Dalam penelitian ini dibandingkan
dapat digunakan untuk identifikasi. Dengan metode SVM dan ME untuk mengetahui metode
membandingkan 3 buah algoritme yaitu Naïve mana yang lebih baik untuk klasifikasi. Penggunaan
Bayes, SVM dan RBF Network, diperoleh hasil dataset yaitu dengan WebKB dan Open Directory
bahwa SVM lebih unggul dari kedua algoritme yang Project (ODP) (“DMOZ” 2014) yang berasal dari
lain. Kekurangan dari RBF adalah tidak mampu directory yang dimiliki oleh mozilla. Hasil yang
mengeksekusi instances yang bersifat negative, diperoleh menunjukan bahwa ME lebih unggul saat
namun dalam instances yang bersifat positive RFB mengeksekusi data yang lebih kecil, namun
lebih unggul dibanding dengan SVM dan Naïve kemampuan kedua algoritme tersebut seimbang saat
Bayes (Devi, 2007). melakukan eksekusi pada data yang relatif
Pada tahun 2009, Penelitian Eda Baykan dkk berjumlah besar (Rajalakshmi, 2013).
dengan judul “Purely URL-based Topic Tahun 2014, Chaker Jebari dalam penelitiannya
Classification”, subject penelitian hanya tantang klasifikasi laman web ke dalam genre
menggunakan URL sebagai feature utama tanpa ada berdasarkan URL feature, penelitian tersebut
feature pendukung yang lainnya. Pertimbangan Eda menggunakan pendekatan dengan memberikan
Baykan adalah URL mengandung informasi yang pembobotan pada URL, Seperti Domain name
sudah cukup mewakili dan menggambarkan isi dari (DOMN), Document path (DOCP), dan Document
sebuah laman web, selain itu kecepatan dan resource name and query string (DOCN). Pendekatan yang
storage sangat di pertimbangkan. Penelitian ini lain adalah dengan menggunakan metode n-gram
melibatkan metode n-gram sebagai pemecah kata, untuk membantu proses pemecahan kata. Chaker
sedangkan classifier menggunakan metode SVM, membandingkan metode pada penelitiannya
NaiveBayes, dan ME, dengan cara melakukan terdahulu tentang klasifikasi genre (C. Jebari and
perbandingan diantara ketiga metode tersebut. Wani 2012) yaitu RakEL, BR-SVM, MLKNN, dan
Namun hasil penelitian yang dilakukan masih BPMLL. Hasil yang diperoleh adalah metode RakEL
memiliki kelemahan yaitu tidak semua single URL lebih baik dalam pengklasifikasian laman web
bisa di klasifikasikan (Baykan, 2009). menggunakan URL (Chaker, 2014).
Pada tahun 2011, Zhaohui Xu dkk dalam Dari penjelasan diatas dapat disimpulkan bahwa
penelitiannya yang berjudul “A Web Page penggunaan feature URL sudah bisa mewakili isi
Classification Algorithm Based On Link dari sebuah laman web, sehingga sudah dapat
Information”, menjelaskan bahwa traditional digunakan untuk melakukan proses klasifikasi.
classification biasanya melakukan pengeksekusian Pengklasifikasian berdasarkan genre akan
terhadap content web namun metode tersebut memudahkan pencarian spesifik sesuai keinginan
memiliki beberapa kelemahan, antara lain besarnya pengguna. Beberapa metode umum yang digunakan
tingkat kesalahan informasi yang dihasilkan, ukuran meliputi Naive Bayes, SVM, ME, RakEL, BR-SVM,
teks yang terlalu besar sehingga sering mengalami MLKNN, dan BPMLL. Setiap metode memiliki
error, dan tidak bisa digunakan untuk kelemahan dan kelebihan masing-masing dalam
mengklasifikasian video, musik, dan gambar. melakukan klasifikasi, sehingga perlu adanya
Karena dalam prosesnya membutuhkan eksplorasi terhadap metode lain untuk tujuan
preprocessing terhadap semua text yang termuat klasifikasi yang sama yaitu menggunakan SVM-
dalam isi laman web, maka dikembangkan KNN (Yun Lin, 2014).
klasifikasi dengan Link Information Categorization
(LIC) yang dikembangkan dari KNN. KNN 2. PEMBAHASAN
termasuk lazy learning algorithm yang 2.1 URL Feature
membutuhkan storage dan computing cost yang URL adalah singkatan dari Uniform Resource
cukup besar. Dengan memperbaiki metode KNN Locator, URL adalah serangkaian karakter yang
agar lebih cepat dan tingkat akurasi yang tinggi sesuai dengan format berstandar yang digunakan
maka LIC hadir untuk mengatasi masalah tersebut. untuk menunjukan alamat suatu sumber atau
Penelitian yang dikerjakan memperoleh hasil dengan resource seperti dokumen, gambar dan aplikasi di
membandingkan 3 algoritme yaitu LIC, KNN, dan
225
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015
Internet (“URL” 2014). URL memiliki fungsi antara Contoh pada kata “SAYASAJA”, terdiri dari
lain sebagai berikut (“Situs Web” 2014): (tWord) sebanyak 8 buah. Dengan menggunakan
Pengidentifikasi sebuah dokumen di situs web. bigram (depth = 2) dapat membentuk n-gram
Memudahkan dalam pengaksesan suatu dokumen (tNgram) sebanyak: 8 – 2 + 1 = 7 kemungkinan
melalui situs web. yaitu {SA, AY, YA, AS, SA, AJ, JA}.
Memberikan penamaan terhadap suatu berkas
atau dokumen pada situs web. Dengan kata lain n-gram melakukan proses sesuai
Memudahkan kita dalam menginggat sebuah masukan pada depth dimana nilai masukan akan
mempengaruhi pemrosesan terhadapnya, seperti
alamat situs web.
bigram, trigram, fourgram, dan seterusnya diperoleh
dari seberapa besar nilai gram masukannya.
2.1.1 N-gram
URL adalah sebuah kumpulan kata yang
2.1.2 Teknik Pembobotan
memudahkan kita dalam mengingat sebuah alamat
Pengukuran tingkat kemiripan sangat penting
situs atau laman web, namun dalam proses
dalam mekanisme pengolahan dokumen berbasis
pengklasifikasian tidak mungkin memproses data
teks. Dalam pengolahan dokumen langkah yang
mentah, tingkat kesulitan akan semakin membesar
sering digunakan adalah menghitung kesaman query
atau bahkan tidak dapat dilakukan. Maka diperlukan
masukan dengan dokumen lain. Teks atau dokumen
pemrosesan terlebih dahulu supaya menjadi token-
akan di representasikan sebagai vektor untuk
token yang dimengerti oleh algoritme dan mempermudah dalam perhitungan.
mempermudah dalam pemrosesan. Contoh sebuah
url [Link] a. Term Frequency-Inverse Document Frequency
machine learning belum mengetahui maksud dari
(TF-IDF)
serangkaian kata tersebut bahkan sulit untuk
TF adalah metode dasar untuk menghitung
memprosesnya. Oleh sebab itu kualitas data
frekuensi kemunculan kata atau istilah dalam
masukan pada machine learning berperan penting
sebuah dokumen (Riboni, 2002). Frekuensi
terhadap kesuksesan pengklasifikasian. N-gram
kemunculan tersebut dijadikan sebuah bobot
adalah sebuah metode yang digunakan untuk
dokumen yang akan direpresentasikan dalam
melakukan pemotongan n karakter dalam suatu
bentuk lingkungan vektor sehingga terbentuk
string tertentu atau potongan kata dalam suatu
vektor berdimensi n yang mana nilainya dapat
kalimat tertentu. Seminsal “machine learning”, jika digunakan untuk proses selanjutnya. TF
dilakukan pemrosesan dengan n-gram maka akan dihitung dengan persamaan (2). Sedangkan
medapatkan hasil sebagai berikut. IDF adalah algoritme dari rasio jumlah seluruh
dokumen yang dimiliki oleh korpus dengan
Tebel 1. Pemrosesan n-gram
dokumen term yang ditulis secara matematis
N-gram by each adjacent character pada persamaan (3). Kemudian nilai total akan
Bi-gram “ma”, “ac”, “ch”, “hi”, “in”, didapatkan dengan melakukan perkalian antara
“ne”, “el”, “le”, “ea”, “ar”, TF dan IDF dengan formula (4) (Saadah,
“rn”, “ni”, “in”, “ng” 2013). Formula fungsi dapat dilihat sebagai
Tri-gram “mac”, “ach”, “chi”, “hin”, berikut.
“ine”, “nel”, “ele”, “lea”, “ear”,
freqi (d )
“arn”, “rni”, “nin”, “ing” t k
(2)
4-gram “mach”, “achi”, “chin”, “hine”,
“inel”, “nele”, “elea”, “lear”,
freq
i 1
i
226
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015
LSCq , j
LSC( q , j ) normalisasi (5)
mn
2.1.3 Preprocessing
Preprocessing adalah proses mengubah data
mentah menjadi format yang sesuai untuk tahap
analisis berikutnya. Selain itu preprocessing juga
digunakan untuk membantu dalam pengenalan
atribut dan data segmen yang relevan dengan tugas
data mining.
Seperti yang telah dijelaskan sebelumnya bahwa
setiap masukan data harus memiliki kualitas dan
Gambar 3. Sketsa pemetaan hyperplane (Weimin,
penyampaian yang jelas, agar machine learning
2006)
dapat bekerja secara maksimal. Dalam proses
Prepocessing dan Extraction URL sebelum
Hyperplane pemisah terbaik antara dua kelas
dilakukan training dan testing maka beberapa
dapat digunakan untuk mengukur batas tepi
langkah yang dilakukan antara lain:
hyperplane tersebut. SVM yang mampu bekerja
Stoplist, yaitu menghilangkan karakter yang pada ruang berdimensi tinggi memiliki beberapa
tidak berguna atau noise seperti “http”, “www” kelebihan, salah satunya proses generalisasi.
, “:” , “//”. Generalisasi dikategorikan sebagai kemampuan
Pemrosesan menggunakan n-gram, yaitu metode SVM untuk mengklasifikasikan suatu pola
melakukan pemecahan kata seperti yang yang tidak termasuk dalam data yang dipakai dalam
ditunjukan di tabel 1. fase pembelajaran. Dalam fase metode tersebut
vapnik (Vapnik V, 1995) menjelaskan generalisasi
Pembobotan TF-IDF, yaitu memberikan bobot error disebabkan oleh dua faktor yaitu error terhadap
kepada setiap kata hasil pemrosesan n-gram. training set dan dipengaruhi oleh Vapnik-
Dengan melakukan pembobotan maka akan Chervokinesis (VC). Strategi yang digunakan SVM
diketahui tingkat similarity dari suatu kata dan untuk mengatasi kedua masalah tersebut adalah
kemudian diijadikan sebagai acuan untuk dengan cara Empirical Risk Minimation (ERM)
pengklasifikasian laman web ke dalam genre dengan meminimalkan error pada training set dan
Structural Risk Minimation (SRM) pada VC untuk
masing-masing.
memilih hyperplane dengan margin terbesar
(Chaker, 2014), (Yun Lin, 2014).
Setelah melakukan tahap preprocessing maka
K-Nearest Neighbour (KNN) adalah sebuah
dapat dilakukan klasifikasi URL berdasarkan genre
metode untuk melakukan klasifikasi terhadap object
dengan machine learning classifier untuk
berdasarkan data pembelajaran yang paling dekat
mendapatkan hasil akhir. Data yang diperoleh
(Chaker, 2014). Data pembelajaran diproyeksikan
kemudian akan dilakukan analisis untuk mengetahui
keruang berdimensi banyak, dimana masing-masing
hasil yang paling baik.
merepresentasikan fitur dari data dan ruangan dibagi
berdasarkan klasifikasi data pembelajaran. Pada fase
pembelajaran, algoritme ini hanya melakukan
penyimpanan vektor-vektor fitur dan klasifikasi dari
227
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015
2.4 Dataset
Klasifikasi laman web termasuk dalam kategori
supervised learning dengan kebutuhan data yang
228
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015
relative simple, pada penelitian ini penulis Devi, M. Indra, R. Rajaram, and K. Selvakuberan.
menggunakan dataset dari ODP(“DMOZ” 2014) 2007. “Machine Learning Techniques for
dengan laman web versi Bahasa Indonesia. Dalam Automated Web Page Classification Using
directory ODP terdapat berbagai variasi laman web URL Features.” In Proceedings of the
yang dapat diklasifikasikan menurut genre, namun International Conference on Computational
dalam penelitian ini kami melakukan proses Intelligence and Multimedia Applications
pengklasifikasian hanya terhadap 12 genre laman (ICCIMA 2007) - Volume 02, 116–20.
web, seperti penyedia layanan berita (news site), IEEE Computer Society.
Business, Computer, Games, Health, Home, Arts, “DMOZ.” 2014. Accessed December 17.
Shopping, Sciences, Sport, References, Society. [Link]
Dalam penelitian ini akan digunakan 2400 data Jebari, C., and M.A. Wani. 2012. “A Multi-label and
URL, dengan masing-masing genre sebanyak 200 Adaptive Genre Classification of Web
URL. Pages.” In , 1:578–81.
doi:10.1109/ICMLA.2012.106.
3. KESIMPULAN Jebari, C. 2014. “A Pure URL-Based Genre
Dari paper yang telah dikaji diatas dapat ditarik Classification of Web Pages.” In , 233–37.
sebuah gambaran tentang pengklasifikasian terhadap doi:10.1109/DEXA.2014.56.
laman web ke dalam genre masing-masing “KNN.” 2015. Accessed January 31.
menggunakan feature URL. Beberapa metode [Link]
seperti Naive Bayes, SVM, ME, KNN, NN, RakEL, Krutil, J., M. Kudelka, and V. Snasel. 2012. “Web
BR-SVM, MLKNN, dan BPMLL yang telah Page Classification Based on [Link]
diterapkan untuk meningkatkan Precision dan Recall Collection.” In , 356–60.
memiliki hasil yang berbeda, semua kondisi ini doi:10.1109/CASoN.2012.6412428.
dikarenakan terdapat perbedaan terhadap “Mesin Pencari Web.” 2015. Accessed January 31.
penggunaan dataset, penggunaan feature, serta [Link]
kendala saat penelitian berlangsung. _web.
Dalam penelitian ini diusulkan penggunaan SVM “Radial Basis Function Network.” 2015. Accessed
dan KNN yang dikombinasikan sebagai metode January 29.
pengklasifikasian URL, diimplementasikan untuk [Link]
klasifikasi laman web berdasarkan genre. Feature n- unction_network.
gram akan digunakan sebagai pemecah kata dengan Rajalakshmi, R., and Chandrabose A. 2013. “Web
mencari n terbaik. Pembobotan teks menggunakan Page Classification Using N-gram Based
TF-IDF, hasilnya akan dilakukan lagi pembobotan URL Features.” In , 15–21.
dengan LCS untuk meneliti tingkat similarity pada doi:10.1109/ICoAC.2013.6921920.
query dan dokumen supaya hasil pencarian lebih Rani, M, Singh V, and Bhushan B. 2013.
akurat. “Performance Evaluation of Classification
Techniques Based on Mean Absolute
Error” Vol 4 (Issue 1 January 2013).
Riboni, D. 2002. Feature Selection for Web Page
PUSTAKA Classification. na.
Saadah, M.N., Rigga W.A, Dyah S.R, and Agus
Al-ani T, and Dalila T. 2010. Signal Processing and Z.A. 2013. “Sistem Temu Kembali
Classification Approaches for Brain- Dokumen Teks Dengan Pembobotan Tf-Idf
Computer Interface, Intelligent and Dan LCS” Vol 11: 17–20.
Biosensors, Vernon S. Somerset (Ed.). “Situs Web.” 2014. Accessed December 16.
InTech. [Link]
[Link] L_.28uniform_resource_locator.29.
nt-and-biosensors/signal-processing-and- Swales, J. 1990. Genre Analysis. New York:
classification-approaches-for-brain- Cambrige University Press.
computer-interface. “Total Number of Websites.” 2014. Internet Live
Ayub, M. 2007. “Proses Data Mining Dalam Sistem Stats. Accessed October 22.
Pembelajaran Berbantuan Komputer.” [Link]
Jurnal Sistem Informasi Vol. 2 No. 1 number-of-websites/.
(March): 21–30. “URL.” 2014. Accessed December 16.
Baykan, E, Monika H, Ludmila M, and Ingmar W. [Link]
2009. “Purely URL-based Topic Vapnik V. 1995. “The Nature of Statistical Earning
Classification.” In Proceedings of the 18th Theory.” Springer.
International Conference on World Wide Weimin Xue, Hong Bao, Weitong Huang, and
Web, 1109–10. Madrid, Spain: ACM. Yuchang Lu. 2006. “Web Page
229
Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015) ISSN: 2089-9815
Yogyakarta, 28 Maret 2015
230