0% found this document useful (0 votes)

47 views5 pages

Python Code

The document is a Python script designed to scrape job listings from the Indeed and CWJobs websites based on specified job titles and locations. It utilizes libraries such as requests, BeautifulSoup, and Selenium to extract job information including titles, companies, links, and dates listed, and saves the results to an Excel file. The script includes functions for initiating a web driver, making job searches, and extracting relevant job details from the HTML content.

Uploaded by

AliRazaJatoi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views5 pages

Python Code

Uploaded by

AliRazaJatoi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 5

#!

/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Tue Apr 28 11:35:04 2020

@author: chrislovejoy
"""

import urllib
import requests
from bs4 import BeautifulSoup
import selenium
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import pandas as pd
import os

def find_jobs_from(website, job_title, location, desired_characs,

filename="results.xls"):

if website == 'Indeed':
job_soup = load_indeed_jobs_div(job_title, location)
jobs_list, num_listings = extract_job_information_indeed(job_soup,
desired_characs)

if website == 'CWjobs':
location_of_driver = os.getcwd()
driver = initiate_driver(location_of_driver, browser='chrome')
job_soup = make_job_search(job_title, location, driver)
jobs_list, num_listings = extract_job_information_cwjobs(job_soup,
desired_characs)

save_jobs_to_excel(jobs_list, filename)

print('{} new job postings retrieved from {}. Stored in

{}.'.format(num_listings,
website,
filename))

## ======================= GENERIC FUNCTIONS ======================= ##

def save_jobs_to_excel(jobs_list, filename):

jobs = pd.DataFrame(jobs_list)
jobs.to_excel(filename)

## ================== FUNCTIONS FOR INDEED.CO.UK =================== ##

def load_indeed_jobs_div(job_title, location):

getVars = {'q' : job_title, 'l' : location, 'fromage' : 'last', 'sort' :
'date'}
url = ('https://hk.indeed.com/' + urllib.parse.urlencode(getVars))
page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")
job_soup = soup.find(id="resultsCol")
return job_soup

def extract_job_information_indeed(job_soup, desired_characs):

job_elems = job_soup.find_all('div', class_='jobsearch-SerpJobCard')

cols = []
extracted_info = []

if 'titles' in desired_characs:
titles = []
cols.append('titles')
for job_elem in job_elems:
titles.append(extract_job_title_indeed(job_elem))
extracted_info.append(titles)

if 'companies' in desired_characs:
companies = []
cols.append('companies')
for job_elem in job_elems:
companies.append(extract_company_indeed(job_elem))
extracted_info.append(companies)

if 'links' in desired_characs:
links = []
cols.append('links')
for job_elem in job_elems:
links.append(extract_link_indeed(job_elem))
extracted_info.append(links)

if 'date_listed' in desired_characs:
dates = []
cols.append('date_listed')
for job_elem in job_elems:
dates.append(extract_date_indeed(job_elem))
extracted_info.append(dates)

jobs_list = {}

for j in range(len(cols)):
jobs_list[cols[j]] = extracted_info[j]

num_listings = len(extracted_info[0])

return jobs_list, num_listings

def extract_job_title_indeed(job_elem):
title_elem = job_elem.find('h2', class_='title')
title = title_elem.text.strip()
return title

def extract_company_indeed(job_elem):
company_elem = job_elem.find('span', class_='company')
company = company_elem.text.strip()
return company

def extract_link_indeed(job_elem):
link = job_elem.find('a')['href']
link = 'www.Indeed.co.uk/' + link
return link

def extract_date_indeed(job_elem):
date_elem = job_elem.find('span', class_='date')
date = date_elem.text.strip()
return date

## ================== FUNCTIONS FOR CWJOBS.CO.UK =================== ##

def initiate_driver(location_of_driver, browser):

if browser == 'chrome':
driver = webdriver.Chrome(executable_path=(location_of_driver +
"/chromedriver"))
elif browser == 'firefox':
driver = webdriver.Firefox(executable_path=(location_of_driver +
"/firefoxdriver"))
elif browser == 'safari':
driver = webdriver.Safari(executable_path=(location_of_driver +
"/safaridriver"))
elif browser == 'edge':
driver = webdriver.Edge(executable_path=(location_of_driver +
"/edgedriver"))
return driver

def make_job_search(job_title, location, driver):

driver.get('https://www.cwjobs.co.uk/')

# Select the job box

job_title_box = driver.find_element_by_name('Keywords')

# Send job information

job_title_box.send_keys(job_title)

# Selection location box

location_box = driver.find_element_by_id('location')

# Send location information

location_box.send_keys(location)

# Find Search button

search_button = driver.find_element_by_id('search-button')
search_button.click()

driver.implicitly_wait(5)

page_source = driver.page_source

job_soup = BeautifulSoup(page_source, "html.parser")

return job_soup

def extract_job_information_cwjobs(job_soup, desired_characs):

job_elems = job_soup.find_all('div', class_="job")

cols = []
extracted_info = []

if 'titles' in desired_characs:
titles = []
cols.append('titles')
for job_elem in job_elems:
titles.append(extract_job_title_cwjobs(job_elem))
extracted_info.append(titles)

if 'companies' in desired_characs:
companies = []
cols.append('companies')
for job_elem in job_elems:
companies.append(extract_company_cwjobs(job_elem))
extracted_info.append(companies)

if 'links' in desired_characs:
links = []
cols.append('links')
for job_elem in job_elems:
links.append(extract_link_cwjobs(job_elem))
extracted_info.append(links)

if 'date_listed' in desired_characs:
dates = []
cols.append('date_listed')
for job_elem in job_elems:
dates.append(extract_date_cwjobs(job_elem))
extracted_info.append(dates)

jobs_list = {}

for j in range(len(cols)):
jobs_list[cols[j]] = extracted_info[j]

num_listings = len(extracted_info[0])

return jobs_list, num_listings

def extract_job_title_cwjobs(job_elem):
title_elem = job_elem.find('h2')
title = title_elem.text.strip()
return title

def extract_company_cwjobs(job_elem):
company_elem = job_elem.find('h3')
company = company_elem.text.strip()
return company

def extract_link_cwjobs(job_elem):
link = job_elem.find('a')['href']
return link

def extract_date_cwjobs(job_elem):
link_elem = job_elem.find('li', class_='date-posted')
link = link_elem.text.strip()
return link

Web Scrapping
No ratings yet
Web Scrapping
3 pages
Job Scraping Automation with Python
No ratings yet
Job Scraping Automation with Python
1 page
Indeed Job Listings Scraper
No ratings yet
Indeed Job Listings Scraper
2 pages
Python Scraper
No ratings yet
Python Scraper
2 pages
87 1
No ratings yet
87 1
10 pages
Which Defines A Link
No ratings yet
Which Defines A Link
6 pages
Sourcecode
No ratings yet
Sourcecode
16 pages
111 Final
No ratings yet
111 Final
12 pages
This Is A PDF Extractor
No ratings yet
This Is A PDF Extractor
2 pages
Main 115
No ratings yet
Main 115
22 pages
Act 115 1
No ratings yet
Act 115 1
22 pages
Py 4
No ratings yet
Py 4
2 pages
84 3
No ratings yet
84 3
10 pages
Employee Count Google Scraping Python Script (Serpapi)
No ratings yet
Employee Count Google Scraping Python Script (Serpapi)
6 pages
84 Store
No ratings yet
84 Store
7 pages
Main Code
No ratings yet
Main Code
10 pages
Chatgpt Code Chat Data
No ratings yet
Chatgpt Code Chat Data
32 pages
Code Output
No ratings yet
Code Output
12 pages
Linkdin
No ratings yet
Linkdin
2 pages
Wuzzuf Job Scraping Project Guide
No ratings yet
Wuzzuf Job Scraping Project Guide
2 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
3 pages
Final 057
No ratings yet
Final 057
8 pages
Job Market Data Scraping Guide
No ratings yet
Job Market Data Scraping Guide
2 pages
Real Estate Scraper
No ratings yet
Real Estate Scraper
23 pages
A 0 DYYSLy Yu
No ratings yet
A 0 DYYSLy Yu
8 pages
Abhinav Vijay
No ratings yet
Abhinav Vijay
10 pages
Talabat
No ratings yet
Talabat
2 pages
Ai Agent Build Guide
No ratings yet
Ai Agent Build Guide
14 pages
Project 2 EmailbySeleniumSameProject
No ratings yet
Project 2 EmailbySeleniumSameProject
16 pages
Data Job Insights for Aspiring Analysts
No ratings yet
Data Job Insights for Aspiring Analysts
17 pages
Lang Chain
No ratings yet
Lang Chain
11 pages
Another Hack Test3
No ratings yet
Another Hack Test3
4 pages
LinkedIn Automation Script
No ratings yet
LinkedIn Automation Script
2 pages
Automation Cheat Sheet 2.0
100% (1)
Automation Cheat Sheet 2.0
6 pages
CV Nagaraj 3 4 2023.pdf 1680525267971
No ratings yet
CV Nagaraj 3 4 2023.pdf 1680525267971
3 pages
Python Part2
No ratings yet
Python Part2
11 pages
Pseudocodes and Flowcharts (Riyansha Shahare)
No ratings yet
Pseudocodes and Flowcharts (Riyansha Shahare)
14 pages
Assignment No-4: Output
No ratings yet
Assignment No-4: Output
16 pages
Automation Cheat Sheet 2.0
100% (1)
Automation Cheat Sheet 2.0
6 pages
Backend Server for Recruitment System
No ratings yet
Backend Server for Recruitment System
4 pages
ATS Scanner Development Roadmap
No ratings yet
ATS Scanner Development Roadmap
2 pages
From Docx Import Document
No ratings yet
From Docx Import Document
2 pages
Indeed Scraper
No ratings yet
Indeed Scraper
2 pages
Empproject
No ratings yet
Empproject
18 pages
LinkedIn Data Scraping for CEOs
No ratings yet
LinkedIn Data Scraping for CEOs
2 pages
AI Solutions For Labor Market Systems
No ratings yet
AI Solutions For Labor Market Systems
4 pages
Version 2 of Employee - Contract
No ratings yet
Version 2 of Employee - Contract
5 pages
Data Gathering
No ratings yet
Data Gathering
7 pages
Web Scraping Assignment for Job Data
No ratings yet
Web Scraping Assignment for Job Data
8 pages
Job Title Analysis with Python & NLTK
No ratings yet
Job Title Analysis with Python & NLTK
12 pages
Create Resume
No ratings yet
Create Resume
3 pages
DeepSeek Email Classification Overview
No ratings yet
DeepSeek Email Classification Overview
8 pages
Here's A Structured Outline For You - Skill Gap Analysis
No ratings yet
Here's A Structured Outline For You - Skill Gap Analysis
2 pages
Unemployment and Graduate Job Analysis
No ratings yet
Unemployment and Graduate Job Analysis
11 pages
Ali Raza Jatoi-HW2
No ratings yet
Ali Raza Jatoi-HW2
8 pages
EPM Aaignment 1 Haider
No ratings yet
EPM Aaignment 1 Haider
2 pages
Procurement and Contracting Terms
No ratings yet
Procurement and Contracting Terms
2 pages
Introduction To Cabinet Wars
No ratings yet
Introduction To Cabinet Wars
1 page
PAF-KIET Student Fee Details
No ratings yet
PAF-KIET Student Fee Details
1 page

Python Code

Uploaded by

Python Code

Uploaded by

#!

def find_jobs_from(website, job_title, location, desired_characs,

print('{} new job postings retrieved from {}. Stored in

## ======================= GENERIC FUNCTIONS ======================= ##

def save_jobs_to_excel(jobs_list, filename):

## ================== FUNCTIONS FOR INDEED.CO.UK =================== ##

def load_indeed_jobs_div(job_title, location):

def extract_job_information_indeed(job_soup, desired_characs):

return jobs_list, num_listings

## ================== FUNCTIONS FOR CWJOBS.CO.UK =================== ##

def initiate_driver(location_of_driver, browser):

def make_job_search(job_title, location, driver):

# Select the job box

# Send job information

# Selection location box

# Send location information

# Find Search button

job_soup = BeautifulSoup(page_source, "html.parser")

def extract_job_information_cwjobs(job_soup, desired_characs):

job_elems = job_soup.find_all('div', class_="job")

return jobs_list, num_listings

You might also like