0% menganggap dokumen ini bermanfaat (0 suara)

196 tayangan25 halaman

Python Web Scraping

Dokumen tersebut membahas tentang pengertian web scraping yaitu teknik pengambilan data dari situs web yang tidak terstruktur menjadi terstruktur untuk digunakan dalam berbagai aplikasi. Dokumen ini juga menjelaskan cara kerja scraper web dengan mengidentifikasi target scraping, memilih proxy server, mengirim permintaan, mengidentifikasi lokasi data, memproses data, menyimpan hasil scraping ke storage. Terakhir dibahas penggunaan library Beautiful Soup dan Requests di

Diunggah oleh

jarotsusilo18

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

196 tayangan25 halaman

Python Web Scraping

Diunggah oleh

jarotsusilo18

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

PYTHON

WEB SCRAPING
Pertemuan 13 – 14
INTRODUCTION OF WEB
SCRAPING
 Web Scraping adalah salah satu Teknik yang digunakan untuk mengambil data dari sebuah situs website.

 Data yang diambil adalah data yang tidak terstruktur dalam format HTML yang kemudian diubah
menjadi data terstruktur dalam spreadsheet atau database sehingga dapat digunakan dalam berbagai
aplikasi.
INTRODUCTION OF WEB
SCRAPING
 Ada banyak cara untuk melakukan web
scraping pada sebuah website, seperti :
 Menggunakan online services (API)
 Membuat code from scratch untuk web
scraping

 Website – website besar seperti Google,

Twitter, Facebook, StackOverflow, dll sudah
memiliki API yang dapat membantu kita untuk
mengakses data mereka dalam format yang
terstruktur contoh nya json, csv, database, dll
HOW WEB
SCRAPERS
WORK ?
1. Identifikasi website atau url target scraping
2. Pilih proxy server
3. Kirim request ke website/url tersebut
4. Identifikasi lokasi data
5. Parsing data
6. Konversi data hasil scraping ke dalam format yang
diinginkan
7. Simpan data hasil scraping data ke dalam storage
SCRAPING VS CRAWLING
 Web Scraping terdiri dari dua
bagian, yaitu crawler dan scraper
1. Crawler : Merupakan algoritma
kecerdasan buatan yang menjelajahi
website untuk mencari data tertentu
sesuai keperluan
2. Scraper : Merupakan alat tertentu
yang dibuat untuk ekstraksi data
dari situs web
SCRAPING VS CRAWLING
WHAT IS WEB SCRAPING
USED FOR
1. Data Analytics and Data Science
2. Marketing and Sales
3. Human Resources
4. Trading
5. Strategy
CHALLENGES OF WEB
SCRAPING
WHY PYTHON ??
 Python memiliki banyak library yang
dapat digunakan untuk membuat
scraper ataupun crawler tools.
1. Scrapy merupakan framework
crawling website yang populer
digunakan. Biasanya digunakan untuk
mengesktrak data menggunakan API.
2. BeautifulSoup merupakan library
python yang digunakan untuk
ekstraksi data dari website.
PYTHON WEB SCRAPING
 Install Request Module : “pip install requests”
 Modul Request memiliki beberapa metode bawaan untuk membuat HTTP Request ke URI
tertentu menggunakan methode GET, POST, PUT, PATCH, atau HEAD.
 HTTP REQUEST berarti mengambil data dari URI tertentu atau untuk mengaupload data ke
server
 Sebagai contoh, kita akan gunakan metode get, dimana kita akan mengambil informasi dari
server berdasarkan URI yang dimasukkan.
PYTHON WEB SCRAPING
 Response Object
 Ketika membuat permintaan ke URI, maka URI akan mengembalikan respons.
 Respons adalaah objek yang dapat digunakan untuk membantu menormalkan
 Misalnya response.status_code berarti mengembalikan status kode dari header itu sendiri, dan
seseorang dapat memeriksa apakah permintaan itu berhasil diproses atau tidak.
 Contoh :
BEAUTIFULSOUP
 BeautifulSoup digunakan untuk mengekstrak informasi dari file HTML dan XML.
 Instalasi :
 pip install beautifulsoup4
BEAUTIFULSOUP
 Setelah mendapatkan HTML halaman, mari
kita lihat cara mem-parsing kode HTML
mentah ini menjadi beberapa informasi
berguna. Pertama-tama, kita akan membuat
objek BeautifulSoup dengan menentukan
parser yang ingin kita gunakan.
EXTRACT DATA FROM HTML
CONTENT
 Finding element by class
 Untuk mendapatkan data pada element
tertentu, kita dapat menggunakan method
find. Pada kasus ini, kita akan mengekstrak
data pada website [Link] pada
kelas ‘entry-content.’
 Ekstraksi content pada class tertentu dapat
dilakukan setelah kita mengetahui nama
class dengan inspect element website yang
akan kita ekstrak.
EXTRACT DATA FROM HTML
CONTENT
 Finding element by id
 Langkah pertama adalah identifikasi
struktur website yang akan kita scraping.
 Kita akan mengesktrak element yang ada
pada <div> dengan id = “main”
 Element yang diekstrak terletak pada class
leftBarList dengan tag ul
 Konten yang akan diekstrak berada pada
tag “li”
EXTRACTING TEXT FROM
TAGS
 Removing the tags from the content of the
page

 Pada contoh ini, kita akan mengekstraksi

teks yang berada di class “entry-content”
 Teks yang akan kita ekstrak merupakan
bagian dari tag <p>
EXTRACTING TEXT FROM
TAGS
 Removing the tags from the content of the
leftbar

 Contoh berikutnya adalah kita akan

mengekstrak teks dalam bentuk list
EXTRACTING TEXT FROM
TAGS
 Python BeautifulSoup Extracting Links
EXTRACTING IMAGE
INFORMATION
 Biasanya data dalam bentuk gambar
terletak pada tag img.
 Sedangkan alamat gambar terletak pada
atribut src.
SCRAPING MULTIPLE PAGES
 Terdapat dua cara untuk mengekstraksi data pada website yang memiliki lebih dari 1
halaman.
 Cara pertama adalah menulis dengan membuat kode yang ditujukan untuk ekstraksi alamat
web yang sama (looping)
 Cara kedua adalah dengan kode yang ditujukan untuk ekstraksi pada URL situs di halaman
lain
SCRAPING MULTIPLE PAGES
 Kode disamping merupakan contoh
penggunaan BeautifulSoup untuk scraping
pada lebih dari 1 halaman website. Kode
diatas me-retrieve semua URL yang ada pada
web tersebut
SCRAPING MULTIPLE PAGES
 Kode program diasamping merupakan bentuk
implementasi BeautifulSoup untuk
menambang data pada suatu page tertentu
dalam suatu website
SCRAPING MULTIPLE PAGES
 Kode program diasamping merupakan bentuk
implementasi BeautifulSoup untuk
menambang data pada banyak halaman pada
sebuah website
SAVE DATA TO CSV
TUGAS LATIHAN SCRAPING
WEBSITE
 Silahkan scraping data di website [Link] atau
[Link]
 Ambil data judul/title di setiap halaman
 Simpan data ke dalam format CSV

Anda mungkin juga menyukai

Panduan Instalasi Proxmox di VirtualBox
Belum ada peringkat
Panduan Instalasi Proxmox di VirtualBox
10 halaman
07 - Python - Unit Testing
Belum ada peringkat
07 - Python - Unit Testing
159 halaman
Proses Web Scraping dengan Python
Belum ada peringkat
Proses Web Scraping dengan Python
7 halaman
PRAKTIKUM 1 - Scrapping Data
Belum ada peringkat
PRAKTIKUM 1 - Scrapping Data
5 halaman
Panduan Web Scraping Scrapy Selenium
Belum ada peringkat
Panduan Web Scraping Scrapy Selenium
2 halaman
Panduan Web Scraping dengan Python
Belum ada peringkat
Panduan Web Scraping dengan Python
6 halaman
M2. Crawling Data
Belum ada peringkat
M2. Crawling Data
7 halaman
Publik 177006068
Belum ada peringkat
Publik 177006068
3 halaman
Publik 177006068
Belum ada peringkat
Publik 177006068
3 halaman
Laporan Craw
Belum ada peringkat
Laporan Craw
4 halaman
Data Crawling dan Scraping: Panduan Lengkap
Belum ada peringkat
Data Crawling dan Scraping: Panduan Lengkap
14 halaman
Pengumpulan Data dengan API dan Scraping
Belum ada peringkat
Pengumpulan Data dengan API dan Scraping
21 halaman
Web Scraping Harga Barang Tokopedia
Belum ada peringkat
Web Scraping Harga Barang Tokopedia
6 halaman
Web Scraping OJS dengan CSS Selector
Belum ada peringkat
Web Scraping OJS dengan CSS Selector
6 halaman
Modul Tambahan Scraping Visualisasi
Belum ada peringkat
Modul Tambahan Scraping Visualisasi
42 halaman
Bab 1 Informatika Semester 2
Belum ada peringkat
Bab 1 Informatika Semester 2
5 halaman
Zakia
Belum ada peringkat
Zakia
7 halaman
FarhanKaromi
Belum ada peringkat
FarhanKaromi
6 halaman
Big Data
Belum ada peringkat
Big Data
22 halaman
File 2
Belum ada peringkat
File 2
1 halaman
177006103
Belum ada peringkat
177006103
6 halaman
Pythonn
Belum ada peringkat
Pythonn
6 halaman
Laporan Modul 5 Praktikum Big Data Analytics (245411099)
Belum ada peringkat
Laporan Modul 5 Praktikum Big Data Analytics (245411099)
7 halaman
Soal Tik Mid Ma Kelas 10
Belum ada peringkat
Soal Tik Mid Ma Kelas 10
3 halaman
Firmania Dwi Utami - Pertemuan 4
Belum ada peringkat
Firmania Dwi Utami - Pertemuan 4
3 halaman
Kunci Informatika X Kumer Pk-z-II
Belum ada peringkat
Kunci Informatika X Kumer Pk-z-II
25 halaman
Laporan Praktikum - Text Extraction - 17082010039
Belum ada peringkat
Laporan Praktikum - Text Extraction - 17082010039
8 halaman
Web Scraping
Belum ada peringkat
Web Scraping
3 halaman
Penerapan Teknik Web Scraping Pada Mesin Pencari Artikel Ilmiah Ilovepdf Compressed 2
Belum ada peringkat
Penerapan Teknik Web Scraping Pada Mesin Pencari Artikel Ilmiah Ilovepdf Compressed 2
6 halaman
Bab 6 Analisis Data
Belum ada peringkat
Bab 6 Analisis Data
13 halaman
Panduan Web Scraping: Metode & Manfaat
Belum ada peringkat
Panduan Web Scraping: Metode & Manfaat
10 halaman
Crawling Data Di Media Sosial Dan Website
Belum ada peringkat
Crawling Data Di Media Sosial Dan Website
16 halaman
4223 11863 1 PB
Belum ada peringkat
4223 11863 1 PB
9 halaman
Python Pandas For Data Analytic
Belum ada peringkat
Python Pandas For Data Analytic
18 halaman
Panduan Dasar Pemrograman Python
Belum ada peringkat
Panduan Dasar Pemrograman Python
4 halaman
MaskandaRizky 7SIB TugasCrawling, Scrapingdatajurnal
Belum ada peringkat
MaskandaRizky 7SIB TugasCrawling, Scrapingdatajurnal
2 halaman
Panduan Web Scraping dengan Python
Belum ada peringkat
Panduan Web Scraping dengan Python
25 halaman
Alur Proses Web Scraping Wikipedia
100% (1)
Alur Proses Web Scraping Wikipedia
8 halaman
2727-Article Text-9789-1-10-20221213
Belum ada peringkat
2727-Article Text-9789-1-10-20221213
10 halaman
Koleksi Data
Belum ada peringkat
Koleksi Data
3 halaman
Putih Ungu Oranye Modern Simpel Geometrik Tugas Presentasi Kelompok - 20250205 - 184207 - 0000
Belum ada peringkat
Putih Ungu Oranye Modern Simpel Geometrik Tugas Presentasi Kelompok - 20250205 - 184207 - 0000
11 halaman
Makalah Python
Belum ada peringkat
Makalah Python
7 halaman
Informatika SMA X-2 - SP - Kunci (Oke) - 2022
Belum ada peringkat
Informatika SMA X-2 - SP - Kunci (Oke) - 2022
32 halaman
Web Science 10.3 - Ferdinand Andhika Widhiyan
Belum ada peringkat
Web Science 10.3 - Ferdinand Andhika Widhiyan
6 halaman
Web Scraping
Belum ada peringkat
Web Scraping
12 halaman
Panduan Lengkap Web Crawler dan Algoritma
Belum ada peringkat
Panduan Lengkap Web Crawler dan Algoritma
20 halaman
BAB7
Belum ada peringkat
BAB7
12 halaman
ARTIKEL Web Scraping
Belum ada peringkat
ARTIKEL Web Scraping
5 halaman
Co Soal
100% (1)
Co Soal
6 halaman
498 1738 1 PB
Belum ada peringkat
498 1738 1 PB
7 halaman
Arum Yulindasari - 2031730056 - Pertemuan16
Belum ada peringkat
Arum Yulindasari - 2031730056 - Pertemuan16
4 halaman
4902-Article Text-17182-1-10-20230908
Belum ada peringkat
4902-Article Text-17182-1-10-20230908
12 halaman
Bab Ii
Belum ada peringkat
Bab Ii
18 halaman
Aplikasi Database 2 Semuah Berfge
Belum ada peringkat
Aplikasi Database 2 Semuah Berfge
43 halaman
Langkah-langkah Web Scraping Data Lowongan
Belum ada peringkat
Langkah-langkah Web Scraping Data Lowongan
2 halaman
Pernjelasan Server Mariobros
Belum ada peringkat
Pernjelasan Server Mariobros
2 halaman
Data Crawling
Belum ada peringkat
Data Crawling
25 halaman
Pengenalan Data Crawling dan Web Crawler
100% (2)
Pengenalan Data Crawling dan Web Crawler
52 halaman
Teknik Grabbing
Belum ada peringkat
Teknik Grabbing
16 halaman
MBKM Course PDF
Belum ada peringkat
MBKM Course PDF
20 halaman