BAB II
TINJAUAN PUSTAKA
2.1 Mobil
Mobil adalah kendaraan darat yang memiliki empat roda atau lebih dan umumnya
menggunakan bahan bakar minyak untuk penggerak mesinnya. Contoh mobil
termasuk mobil ambulans yang didesain khusus untuk mengangkut orang sakit dan
korban kecelakaan, serta mobil dinas yang dimiliki oleh instansi atau perusahaan
untuk keperluan operasional mereka sendiri, mobil pribadi digunakan untuk keperluan
pribadi saja seperti berpergian ke suatu tempat (Wibowo, 2020).
2.2 Harga
Harga merupakan suatu harga yang disepakati dan menjadi syarat pertukaran
dalam suatu transaksi pembelian. Harga juga dapat diartikan sebagai apa yang harus
dibayar pembeli untuk menerima produk tersebut. Secara sederhana, harga bisa
dijelaskan sebagai nilai dalam satuan moneter atau faktor lainnya yang melibatkan
manfaat atau kegunaan spesifik untuk memperoleh produk tersebut. (Sutrisno, 2020)
2.3 Prediksi
Prediksi memiliki arti yang serupa dengan meramalkan atau memperkirakan.
Menurut Kamus Besar Bahasa Indonesia, prediksi adalah hasil dari kegiatan
meramalkan atau memperkirakan nilai-nilai di masa depan berdasarkan data masa lalu.
(Kafil, 2019). Setiap fitur pada data sebelumnya memiliki bobotnya masing-masing
sehingga mempengaruhi data prediksi. Semakin unik suatu fitur, semakin bernilai pula
dalam proses prediksi.
2.4 Data Mining
Data mining memiliki beragam definisi seperti, Data mining merupakan proses
analisis yang kompleks dari kumpulan data untuk menghasilkan informasi yang
mengungkapkan potensi implisit yang sebelumnya tidak teridentifikasi. Definisi lain
tentang data mining adalah penggunaan alat otomatis atau semi-otomatis untuk
menggali dan menganalisis sebagian besar data dengan tujuan menemukan pola yang
bermakna atau signifikan.(Wahono, 2020)
7
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`
Data mining biasanya dilakukan melalui tiga langkah (Arhami & Nasir, 2020) :
1. Eksplorasi dimana proses menyiapkan data dalam jumlah besar,
membersihkannya sesuai kebutuhan, menguranginya, membuang data yang
duplikat dan tersisa data yang layak untuk digunakan.
2. Permodelan atau identifikasi melibatkan pembuatan model statistik dengan
tujuan untuk mengevaluasi dan memprediksi mana yang paling optimal dan
akurat.
3. Penerapan melibatkan pengujian model terhadap data latih dan data uji untuk
menghasilkan prediksi atau estimasi yang sesuai dengan tujuan, dengan harapan
prediksi yang akurat sesuai dengan yang diinginkan.
2.5 Multiple Linear Regression
Multiple linear regression (MLR) adalah analisis regresi yang menggambarkan
hubungan antara faktor-faktor yang mempengaruhi suatu variabel respon atau variable
dependen dan beberapa variabel prediktor atau variabel independen (Muliati, 2016).
Data yang diperoleh dari pemodelan MLR dipengaruhi oleh variabel independen
terhadap variabel dependen dan tercipta hubungan sebab akibat . Bentuk model
persamaan MLR adalah sebagaimana dalam persamaan (1) di bawah ini (Bevans,
2020).
𝑦 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + … + 𝛽𝑛𝑋𝑛 ( 1 )
Keterangan
𝑦 = nilai prediksi dari variabel dependen
𝑋1𝑋2 … 𝑋𝑛 = variabel independen
𝛽0 = perpotongan y (nilai y ketika semua parameter lain diisikan 0)
𝛽1𝛽2 … 𝛽𝑛 = koefisien regresi
2.5.1 Matriks
Matriks adalah susunan bilangan atau variabel berbentuk persegi panjang atau
persegi yang disusun dalam baris dan kolom (Everitt & Rencher, 2020). Baris dan kolom
tersebut yang diisi oleh bilangan - bilangan yang disebut elemen matriks (Nuraini,
2022). Pada penelitian ini nantinya akan membentuk korelasi matriks, sehingga
terbentuklah beberapa jenis matriks seperti matriks independen dan matriks dependen.
8
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`
Dalam proses pembuatan model bentuk persaman variable diperlukan
pembangunan beberapa matriks yang akan digunakan sebagai operasi korelasi pada
setiap variabel datanya. Dalam kerangka model ini, diasumsikan bahwa hubungan
antara variabel independent (X) dan variabel dependen (Y) tetap konstan di setiap lokasi
pengamatan. Untuk setiap elemen pada matriks X dan Y dituliskan dalam persamaan
(2) dan (3) dibawah ini : (Utami et al., 2017)
Matriks X :
1 𝑋11 𝑋21 … 𝑋𝐾1
[1 𝑋12 𝑋22 … 𝑋𝐾2]
… … … … …
1 𝑋1𝑛 𝑋2𝑛 … 𝑋𝐾𝑛
( 2)
Matriks Y :
𝑌1
𝑌
[ …2 ]
𝑌𝑛
(3)
Jika sudah dibuat kedua matriks-nya, langkah berikutnya adalah mencari nilai
koefisien (b) dari b0 sampai b14. Rumus persamaan untuk mencari nilai koefisien,
tergantung dari elemen matriks yang didapat, berikut untuk mencari nilai koefisien
menggunakan persamaan (4) dibawah ini :
b = (𝑋𝑇𝑋)-1(𝑋𝑇𝑌) (4)
Keterangan
B : Koefisien
(𝑋𝑇𝑋)-1 :
Matriks invers dari hasil perkalian matriks X transpose dengan matriks
X
(XTY) : Hasil perkalian matriks X transpose dengan matriks Y
2.5.2 Koefisien Determinasi
Koefisien determinasi dilakukan untuk mengetahui seberapa jauh variasi
variabel independen dapat menerangkan dengan baik variasi variabel dependen (Lestari
& Setyawan, 2017). Selain itu, koefisien determinasi dapat digunakan untuk
mengevaluasi suatu model regresi secara optimal berdasarkan nilai adjusted R2. R-
Squared berupa angka yang bernilai antara 0 sampai 1 yang dimana nilai ini
9
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`
mengindikasikan besaran kombinasi variabel X bersama - sama mempengaruhi nilai
variabel Y (Hair et al, 2011). Pada perhitungan R-squared dibutuhkan SSres (sum
squared residual) dan SStot (sum squared total) yang bisa dihitung menggunakan
persamaan (5) dan (6) dibawah ini (Goldman, 2019) :
1. SSres = ∑𝑛 (𝑌 − 𝑌′)2
𝑖=1
2.
(5)
3. SStot = ∑𝑛 (𝑌 − 𝑦)2
𝑖=1
(6)
Keterangan
SSres = jumlah kuadrat regresi
SStot = jumlah total kolom
Y = data aktual
𝑌′ = data prediksi
𝑦 = rata – rata data aktual
Dalam mencari nilai R-squared, dituliskan dalam bentuk persamaan (7)
dibawah ini (AKOSSOU, 2013):
R2 = 1 - SSres
SStot
(7)
Keterangan
R2 = R – squared
SSres = jumlah kuadrat regresi
SStot = jumlah total kolom
Semakin besar nilai R2 maka semakin baik model regresinya, Ditunjukan pada
empat kategori yang mengelompokkan nilai R-squared pada tabel 2.1 di bawah ini
(Hair et al, 2020):
10
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`
Tabel 2. 1 Tabel Hipotesis R Squared
Nilai Hipotesis
>0.75 – 0,99 Korelasi yang kuat/substansial
>0,50 – 0,75 Korelasi yang moderat/sedang
>0,25- 0,50 Korelasi cenderung lemah
<0,25 Korelasi sangat lemah
Pada tabel 2.1 Sebuah nilai R-squared sebesar 0,75 diklasifikasikan sebagai
kuat, sementara nilai 0,50 dikategorikan sebagai sedang, dan nilai di bawah 0,50
dianggap lemah.
Perbedaan antara R-squared dan adjusted R-squared adalah bahwa adjusted R-
squared mengukur sejauh mana variasi dalam variabel Y dapat dijelaskan oleh setiap
variabel X, sementara R-squared mengukur variasi yang dapat dijelaskan oleh variabel
independen yang secara signifikan mempengaruhi variabel dependen. Untuk mencari
nilai adjusted R squared, sebagaimana dalam bentuk persamaan (8) seperti dibawah ini
(AKOSSOU, 2019) :
R2adj = 1 – (1 - R2) 𝑛−1
𝑛−𝑝−1
(8)
Keterangan
R2adj : Adjusted R squared
R2 : Hasil R squared
n : Banyaknya data
p : Banyaknya prediktor
2.6 MAE dan MAPE
Mean Absolute Error (MAE) adalah dua dari sekian banyak metode yang
digunakan untuk mengukur keakuratan model peramalan. Nilai MAE menampilkan
rata rata error absolut antara nilai riil dengan nilai hasil peramalan (Kurniawan, 2023).
Perhitungan MAE sangat sederhana yaitu nilai mutlak antara nilai prediksi dan nilai
sebenarnya |Y'-Y|. Untuk mencari nilai MAE, sebagaimana dalam bentuk persamaan
(9) seperti dibawah ini.
11
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`
|𝑌′−𝑌|
MAE = ∑𝑡=1
𝑛
𝑛
(9)
Keterangan
MAE : Mean Absolute Error
𝑌′ : Data prediksi
Y : Data aktual
n : Banyaknya data
Selain MAE, terdapat Mean Absolute Percentage Error (MAPE) yang
menghitung selisih persentase absolut antara nilai aktual dan nilai prediksi untuk setiap
data point, kemudian dihitung rata-rata dari kesalahan persentase tersebut. Hasilnya
dikonversi ke dalam persen (dengan pengalian 100%). Untuk perhitungannya dapat
dilihat pada gambar 2.1 dibawah ini (Agustian & Wibowo, 2019) :
Gambar 2.1
Keterangan
MAPE : Mean absolute percentage error
𝑌′ : Data Prediksi
Y : Data Aktual
n : Banyaknya data
Nilai MAPE dapat diinterpretasikan atau ditafsirkan ke dalam kategori
presentase seperti pada tabel 2.2 di bawah ini (Lewis, 2020).
12
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`
Tabel 2. 2 Tabel Hipotesis MAPE
Nilai MAPE Hipotesis
<10% Sangat Baik
10-20% Baik
>20-50% Wajar
>50% Tidak Akurat
2.7 Random Forest
Random Forest merupakan bagian dari algoritma Machine Learning yang
menggunakan konsep supervised learning untuk membangun classifier yang menggabungkan
prediksi dari beberapa Decision Tree. (Fitri, 2023). Persamaan yang dimiliki oleh Random
Forest sebagaimana berikut:
̂ 1 𝑁𝑡𝑟𝑒𝑒
̂
𝑌𝑖 = 𝑁𝑡𝑟𝑒𝑒 ∑ 𝑌𝑛
𝑛=1
Di mana nilai 𝑌̂𝑖 adalah hasil prediksi, kemudian 𝑁𝑡𝑟𝑒𝑒 adalah total pohon, sementara
𝑌̂𝑛 adalah hasil prediksi pohon ke-n.
Random Forest menggabungkan beberapa pohon keputusan dimana setiap pohon
bertindak untuk pengambilan keputusan independen (Pratama et al., 2024). Uniknya dari
lagoritma ini adalah dapat menggbungkan prediksi semua pohon untuk prediksi akhir yang
lebih akurat dan dapat diandalkan (Fitri, 2023).
2.7.1 Tuning Hyperparameter
Dalam proses Randoom Forest Regression biasanya dilakukan teknik seperti Grid
Search untuk menemukan kombinasi parameter yang paling baik untuk meningkatkan
performa model dengan penyetelan parameternya yakni:
a. Banyaknya cabang pohon pada random forest (n_estimators)
b. Jumlah fitur yang dipertimbangkan untuk pembagian di setiap simpul (max_features)
c. Kedalaman maksimal setiap pohon (max_depth)
d. Jumlah minimum sampel yang diperlukan untuk membagi simpul internal
(min_samples_split)
13
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`
e. Jumlah minimum sampel yang diperlukan untuk menjadi simpul lanjutan atau simpul
daun (min_sample_leaf)
2.7.2 K-Fold Cross Validation
Penggunaan K-Fold untuk membagi data train menjadi beberapa fold agar mencegah
terjadinya overfitting dan membuat model tidak menghafal data, sehingga mampu secara baik
mengenali data baru diluar data latih.
Tabel 2. 3 K-fold Cross Validation
Fold ke-n Persentase pembagian fold
Fold 1 20% 80%
Fold 2 20% 20% 60%
Fold 3 40% 20% 40%
Fold 4 60% 20% 20%
Fold 5 80% 20%
2.8 Kajian Literatur
Adapun jurnal penelitian dan skripsi yang relevan untuk dijadikan acuan untuk
menunjang penelitian ini. Berikut ini paparan jurnal penelitian dan skripsi yang menjadi
referensi yaitu :
1. Skripsi prediksi harga smartphone ditulis oleh Toni Muhayat (2022) yang melakukan
penelitian prediksi harga smartphone dengan menggunakan multiple liniear regression.
Penelitian dilakukan dengan melakukan pra proses data dan membagi data serta
membuat model prediksinya. Setelah selesai akan dilakukan evaluasi dengan R-squared
dan adjusted R-squared dan dihitung pencapaian ramalannya menggunakan MAE dan
MAPE. Data penelitian berupa handphone dengan variabel independen spesifikasi dan
dependennya adalah harga. Didapatkan nilai R-squared sebesar 0,80 dan adjusted R-
squared sebesar 41%, lalu selisih MAE menggunakan nilai rata-rata yang didapat antara
aktual dan prediksi sebesar 699.419,0629 dengan nilai MAPE 23.9%.
2. Jurnal penelitian tentang prediksi harga Rumah yang dilakukan oleh Muhammad Labib
Mu’tasim, dkk (2021), dimana dilakukan pra proses, menganalisis data, melakukan
pembagian data dan dilakukan pemodelan data menggunakan MLR. Dengan data
14
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`
berjumlah 1001 baris dan 7 kolom yang berisikan data harga dengan spesifikasi luas
tanah, luas bangunan, jumlah kamar, jumlah kamar mandi, ada/tidaknya garasi dan
lokasi, didapatkan akurasi sebesar 66% yang dinilai cukup baik.
3. Jurnal penelitian tentang prediksi harga sewa kamar kost yang dilakukan oleh
Muhammad Reza Fahlepi dan Andreas Widjaja (2019), Penelitian dilakukan
menggunakan metode Multiple Linear Regression dimana data yang digunakan
dikumpulkan berasal dari wawancara langsung ke penjaga/pemilik rumah kost di
sekitar Universitas Kristen Maranatha, data berisi ketersedian AC, internet, laundry,
kamar mandi dalam, kost khusus,fasilitas dapur, air panas lalu ada ukuran kamar serta
harga dari sewanya. Penelitian ini menghasilkan akurasi rata-rata sistem sebesar 70%
menggunakan MLR.
4. Skripsi prediksi harga laptop yang ditulis oleh Aldiriansyah Dwi Febrianto (2023) yang
melakukan penelitian prediksi harga laptop dengan menggunakan multiple liniear
regression. Penelitian dilakukan dengan melakukan pra proses data dan membagi data
serta membuat model prediksinya. Kemudian melakukan evaluasi R squared dan R
adjusted Squared serta mengetahui tingkatan kesalahan dengan menggunakan Mean
Absolute Error dan Mean Absolute Percentage Error. Data penelitian berupa laptop
dengan variabel independen spesifikasi dan dependennya adalah harga. Didapatkan
nilai R squared sebesar 0.74695 dan R adjusted squared sebesar 96.1%. Untuk
kesalahan dalam prediksi harga terhadap nilai aktual didapatkan rata-rata nilai sebesar
2,737,493 dengan persentase kesalahan mencapai 30.4356% yang dinyatakan oleh
hipotesis sebagai model yang layak/memadai
15
Ahmad Rizki Hardiansyah, 2025
PREDIKSI HARGA MOBIL BEKAS MENGGUNAKAN MULTIPLE LINEAR REGRESSION
UPN Veteran Jakarta, Fakultas Ilmu Komputer, S1 Informatika
[www.upnvj.ac.id – www.library.upnvj.ac.id – www.repository.upnvj.ac.id]`