0% menganggap dokumen ini bermanfaat (0 suara)

60 tayangan7 halaman

Modul 07 Simple Linear Regression

Modul ini membahas regresi linier tunggal untuk memprediksi harga mobil berdasarkan spesifikasi horsepower. Data berisi 200 mobil dengan 2 fitur yaitu horsepower dan harga. Analisis data menunjukkan hubungan positif yang kuat antara kedua variabel. Model regresi dibangun menggunakan 80% data latih dan diuji menggunakan 20% sisa data. Hasil prediksi menunjukkan bahwa semakin besar nilai horsepower, semakin mahal harga mobil yang dihasilkan,

Diunggah oleh

Muhammad Zulham

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

60 tayangan7 halaman

Modul 07 Simple Linear Regression

Diunggah oleh

Muhammad Zulham

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Modul 07 Simple Linear Regression

June 12, 2022

1 Simple Linear Regression

• Pada tutorial kali ini, kita akan menggunakan sebuah dataset yang memiliki 2 features, yaitu
horsepower dan price dari sebuah mobil
• Tujuan dari tutorial ini adalah memprediksi harga mobil jika mobil tersebut mempunyai
horsepower sebesar 100, 150, dan 200
• Hipotesis awal : mobil dengan horsepower lebih tinggi harganya lebih mahal jika dibandingkan
dengan yang horsepowernya lebih rendah.

1.0.1 Load library

[1]: import pandas as pd

import [Link] as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

1.0.2 Load datasets

[2]: #Nama dataframe kita adalah df yang berisi data dari [Link]
#Hanya menggunakan kolom horsepower dan price
df = pd.read_csv('[Link]', usecols=['horsepower', 'price'])

1.0.3 Sneak peak data

[3]: #Melihat 5 baris teratas dari data

#Independent variabel(x) adalah horsepower
#Dependent variabel(y) adalah price
[Link]()

[3]: horsepower price

0 111.0 13495.0
1 111.0 16500.0
2 154.0 16500.0
3 102.0 13950.0
4 115.0 17450.0

1
[4]: #Mengetahui jumlah kolom dan baris dari data
#Data kita mempunya 2 kolom dengan 200 baris
[Link]

[4]: (200, 2)

[6]: #Melihat informasi data kita mulai dari jumlah data, tipe data, memory yang␣
,→digunakan dll.

[Link]()

<class '[Link]'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 horsepower 200 non-null float64
1 price 200 non-null float64
dtypes: float64(2)
memory usage: 3.2 KB

[7]: #Melihat statistical description dari data mulai dari mean, kuartil, standard␣
,→deviation dll

[Link]()

[7]: horsepower price

count 200.000000 200.000000
mean 103.320000 13230.375000
std 37.468615 7960.155239
min 48.000000 5118.000000
25% 70.000000 7775.000000
50% 95.000000 10320.000000
75% 116.000000 16500.750000
max 262.000000 45400.000000

1.0.4 Handling Missing Values

[31]: #Mencari dan menangani missing values

#Ternyata data kita tidak ada missing values
[Link]().sum()

[31]: horsepower 0
price 0
dtype: int64

2
1.0.5 Exploratory Data Analysis (EDA)

[8]: #Univariate analysis horsepower

#Melihat distribusi dari horsepower
f = [Link](figsize=(12,4))

f.add_subplot(1,2,1)
df['horsepower'].plot(kind='kde')

f.add_subplot(1,2,2)
[Link](df['horsepower'])
[Link]()

• Dapat dilihat bahwa density dari horsepower paling tinggi di nilai 100.
• Distribusinya hampir mirip dengan distribusi normal namun persebaran data kurang merata
(memiliki standard deviasi yang tinggi).

[69]: #Univariate analysis price

#Melihat distribusi dari price
f = [Link](figsize=(12,4))

f.add_subplot(1,2,1)
df['price'].plot(kind='kde', c='g')

f.add_subplot(1,2,2)
[Link](df['price'])
[Link]()

3
• Density dari price paling tinggi di nilai 10000.
• Distribusinya hampir mirip dengan distribusi normal namun persebaran data kurang merata
(memiliki standard deviasi yang tinggi).

[34]: #Bivariate analysis horsepower dan price

#Menggunakan scatter plot
[Link](df['horsepower'], df['price'])
[Link]('Horsepower')
[Link]('Price')
[Link]('Scatter Plot Horsepower vs Price')
[Link]()

4
• Dari scatter plot dapat dilihat bahwa data memiliki korelasi positif yang cukup signifikan.
• Hal ini berarti dengan bertambahnya nilai dari horsepower maka nilai price pun akan bertam-
bah
[35]: #Mengetahui nilai korelasi dari horsepower dan price
#Nilai korelasinya adalah 0.81 termasuk kategori sangat tinggi
[Link]()

[35]: horsepower price

horsepower 1.000000 0.811097
price 0.811097 1.000000

• Setelah kita tahu tentang karakteristik data kita, bisa dilanjutkan ke tahap modelling

1.0.6 Modelling

[36]: #Recall data kita

[Link]()

[36]: horsepower price

0 111.0 13495.0
1 111.0 16500.0
2 154.0 16500.0
3 102.0 13950.0
4 115.0 17450.0

[9]: #Pertama, buat variabel x dan y

x = df['horsepower'].[Link](-1,1)
y = df['price'].[Link](-1,1)

[10]: #Kedua, kita split data kita menjadi training and testing dengan porsi 80:20
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

[11]: #Ketiga, kita bikin object linear regresi

lin_reg = LinearRegression()

[13]: #Keempat, train the model menggunakan training data yang sudah displit
lin_reg.fit(x_train, y_train)

[13]: LinearRegression()

[14]: #Kelima, cari tau nilai slope/koefisien (m) dan intercept (b)
print(lin_reg.coef_)
print(lin_reg.intercept_)

[[171.93277579]]
[-4522.89780842]

5
• dari nilai m dan b diatas, kalau dimasukan ke dalam rumus menjadi: Y = 164.73x - 3903.39
[15]: #Keenam, kita cari tahu accuracy score dari model kita menggunakan testing data␣
,→yang sudah displit

lin_reg.score(x_test, y_test)

[15]: 0.769360504968589

• Model kita mendapatkan accuracy score sebesar 78.68%

[16]: #Ketujuh, visualisasi aktual vs prediksi menggunakan data testing
#Garis merah merupakan garis regresi dari persamaan yang kita dapat tadi
y_prediksi = lin_reg.predict(x_test)
[Link](x_test, y_test)
[Link](x_test, y_prediksi, c='r')
[Link]('Horsepower')
[Link]('Price')
[Link]('Plot Horsepower vs Price')

[16]: Text(0.5, 1.0, 'Plot Horsepower vs Price')

1.0.7 Prediction
• Yuk kita prediksi harga mobil ketika memiliki horsepower 100, 150, dan 200

6
[17]: #Prediksi harga mobil dengan horsepower 100
lin_reg.predict([[100]])

[17]: array([[12670.3797705]])

[18]: #Prediksi harga mobil dengan horsepower 150

lin_reg.predict([[150]])

[18]: array([[21267.01855996]])

[74]: #Prediksi harga mobil dengan horsepower 200

lin_reg.predict([[200]])

[74]: array([[29044.0245815]])

• dengan melihat prediksi harga diatas, didapatkan bahwa hipotesis awal kita memang benar
yaitu mobil dengan Horsepower 200 memiliki harga yang lebih mahal daripada yang lain!

Anda mungkin juga menyukai

PPT-Data Mining - Prediksi Laptop Bekas
Belum ada peringkat
PPT-Data Mining - Prediksi Laptop Bekas
19 halaman
Prediksi Harga Toyota Corolla Bekas
Belum ada peringkat
Prediksi Harga Toyota Corolla Bekas
24 halaman
Veronika Julien - Algoritma Regresi Linear
Belum ada peringkat
Veronika Julien - Algoritma Regresi Linear
13 halaman
Prediksi Harga Mobil Bekas dengan Regresi Linier
Belum ada peringkat
Prediksi Harga Mobil Bekas dengan Regresi Linier
8 halaman
Mini Project 1 - Pmte - Kelompok 4
Belum ada peringkat
Mini Project 1 - Pmte - Kelompok 4
20 halaman
Prediksi Transaksi E-Commerce
Belum ada peringkat
Prediksi Transaksi E-Commerce
28 halaman
Tugas Mandiri Pertemuan 10
Belum ada peringkat
Tugas Mandiri Pertemuan 10
24 halaman
03 - Modul Praktikum JST Untuk Memprediksi Harga Mobil Yang Dibeli - Final
Belum ada peringkat
03 - Modul Praktikum JST Untuk Memprediksi Harga Mobil Yang Dibeli - Final
18 halaman
Tugas Pert 8 YSW
Belum ada peringkat
Tugas Pert 8 YSW
37 halaman
Bab 2
Belum ada peringkat
Bab 2
9 halaman
Fundamental Data Analyst: Minggu Ke - 5
Belum ada peringkat
Fundamental Data Analyst: Minggu Ke - 5
23 halaman
Modul Praktik Pertemuan 5 (SVM Classifier)
Belum ada peringkat
Modul Praktik Pertemuan 5 (SVM Classifier)
11 halaman
Analisis Regresi Linear MPG Mobil
Belum ada peringkat
Analisis Regresi Linear MPG Mobil
22 halaman
Proyek Pemodelan Data Dengan Python
Belum ada peringkat
Proyek Pemodelan Data Dengan Python
28 halaman
Regression
Belum ada peringkat
Regression
59 halaman
Fadly Septian Haryono 21538144022 H S1-TE'21 SVM Using Phyton
Belum ada peringkat
Fadly Septian Haryono 21538144022 H S1-TE'21 SVM Using Phyton
9 halaman
Praktikum Analisis Big Data
Belum ada peringkat
Praktikum Analisis Big Data
34 halaman
TUGAS KELOMPOK CODING-dikonversi
Belum ada peringkat
TUGAS KELOMPOK CODING-dikonversi
16 halaman
Salinan Modul 7 - Konsep Dasar Machine Learning
Belum ada peringkat
Salinan Modul 7 - Konsep Dasar Machine Learning
11 halaman
Final Project Presentation
Belum ada peringkat
Final Project Presentation
34 halaman
Studi Kasus 1
Belum ada peringkat
Studi Kasus 1
10 halaman
8423 ArticleText 15909 1 10 20200423
Belum ada peringkat
8423 ArticleText 15909 1 10 20200423
8 halaman
(Supervised/unsupervised Learning) : Proyek Pemrograman Aplikasi KA Menggunakan Dataset
Belum ada peringkat
(Supervised/unsupervised Learning) : Proyek Pemrograman Aplikasi KA Menggunakan Dataset
12 halaman
DATA MINING P5 Fix
Belum ada peringkat
DATA MINING P5 Fix
31 halaman
Laporan 3
Belum ada peringkat
Laporan 3
9 halaman
Analisis Fitur Data dengan Python
Belum ada peringkat
Analisis Fitur Data dengan Python
17 halaman
Simple Linear Regression
Belum ada peringkat
Simple Linear Regression
9 halaman
Tugas 2 PrakART
Belum ada peringkat
Tugas 2 PrakART
43 halaman
ML Mid Dama
Belum ada peringkat
ML Mid Dama
5 halaman
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
Belum ada peringkat
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
24 halaman
Praktisi Mengajar - Data Science - Supervised Learning
Belum ada peringkat
Praktisi Mengajar - Data Science - Supervised Learning
16 halaman
Machine Learning With Python For Beginner
Belum ada peringkat
Machine Learning With Python For Beginner
64 halaman
AI Purpose - Metode Analisis Data
Belum ada peringkat
AI Purpose - Metode Analisis Data
5 halaman
Panduan Regresi untuk Prediksi Harga Mobil
Belum ada peringkat
Panduan Regresi untuk Prediksi Harga Mobil
5 halaman
Pengantar AI - 02
Belum ada peringkat
Pengantar AI - 02
16 halaman
Learning Progress Review Week 9
Belum ada peringkat
Learning Progress Review Week 9
35 halaman
Pertemuan 5 AI
Belum ada peringkat
Pertemuan 5 AI
17 halaman
Final Project
Belum ada peringkat
Final Project
31 halaman
UTS Data Science Ridhoghifari 2011010130
100% (1)
UTS Data Science Ridhoghifari 2011010130
4 halaman
Tantangan Milestone Pada Kumpulan Data Sepeda Bekas
Belum ada peringkat
Tantangan Milestone Pada Kumpulan Data Sepeda Bekas
11 halaman
Panduan Decision Tree & Regresi Linier
Belum ada peringkat
Panduan Decision Tree & Regresi Linier
15 halaman
Panduan Machine Learning Python
Belum ada peringkat
Panduan Machine Learning Python
11 halaman
FINAL PROJECT - Kelompok 2
Belum ada peringkat
FINAL PROJECT - Kelompok 2
16 halaman
Catatan Belajar Untuk Menguasai Wawancara Data Science Anda
Belum ada peringkat
Catatan Belajar Untuk Menguasai Wawancara Data Science Anda
7 halaman
Rangkuman Coding Python
Belum ada peringkat
Rangkuman Coding Python
2 halaman
Modul Praktikum Data Science-3
Belum ada peringkat
Modul Praktikum Data Science-3
9 halaman
Prediksi Harga Emas
Belum ada peringkat
Prediksi Harga Emas
5 halaman
Analisis Regresi Motor Acak
Belum ada peringkat
Analisis Regresi Motor Acak
22 halaman
Machine Learning - Kharisma Sda - 8020210009
Belum ada peringkat
Machine Learning - Kharisma Sda - 8020210009
4 halaman
TI3C - 10 - Modul6 - Ismia Dwi Febrianti PDF
Belum ada peringkat
TI3C - 10 - Modul6 - Ismia Dwi Febrianti PDF
13 halaman
Tugas Personal Ke-2 Week 7: Big Data Technologies
Belum ada peringkat
Tugas Personal Ke-2 Week 7: Big Data Technologies
11 halaman
Fadly Septian Haryono - 21538144022 - H - S1-Teknik Elektro'21 - Simple Linear Regression Using Anaconda
Belum ada peringkat
Fadly Septian Haryono - 21538144022 - H - S1-Teknik Elektro'21 - Simple Linear Regression Using Anaconda
6 halaman
Peran Python Dalam Prediksi Data
Belum ada peringkat
Peran Python Dalam Prediksi Data
21 halaman
Prediksi Harga Rumah dengan Regresi
Belum ada peringkat
Prediksi Harga Rumah dengan Regresi
5 halaman
Ru'yatul Hilal (Gid018072)
Belum ada peringkat
Ru'yatul Hilal (Gid018072)
10 halaman
LKM 2 - Kelompok 7
Belum ada peringkat
LKM 2 - Kelompok 7
7 halaman
Fadly Septian Haryono 21538144022 H S1-TE'21 SVM Using Phyton
Belum ada peringkat
Fadly Septian Haryono 21538144022 H S1-TE'21 SVM Using Phyton
10 halaman
04 - Curriculum Vitae - Xi Ips 1
Belum ada peringkat
04 - Curriculum Vitae - Xi Ips 1
1 halaman
Jadwal Kegiatan Pramuka Lengkap
Belum ada peringkat
Jadwal Kegiatan Pramuka Lengkap
1 halaman
Karya Ilmiah 2
Belum ada peringkat
Karya Ilmiah 2
9 halaman
"Profil Mahasiswa Angkatan 2021"
Belum ada peringkat
"Profil Mahasiswa Angkatan 2021"
1 halaman
8 - Lingkungan Fisik Tempat Kerja
Belum ada peringkat
8 - Lingkungan Fisik Tempat Kerja
24 halaman
Konversi Suhu: Fahrenheit dan Celsius
Belum ada peringkat
Konversi Suhu: Fahrenheit dan Celsius
1 halaman