Assignment 1

The document reads in airline data, imputes missing values with medians, identifies outliers which are dropped, examines correlations between variables, and fits linear and logistic regression models to predict recommendations. Key findings are that value_money_rating and cabin_staff_rating are most important to customers, and country-specific models identify variables for airlines like Lufthansa to focus on for different countries.

Uploaded by

Harshit Patel

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

48 views2 pages

Assignment 1

Uploaded by

Harshit Patel

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

Data <- [Link]("C:/Users/admin/Downloads/airline.

csv")
names(Data)
str(Data)

#---------------------------Imputing missing values with median of the

var-----------------------------

colSums([Link](Data))
#Data$author_country[[Link](Data$author_country)] <- median(Data$author_country,
[Link] = TRUE)
Data$overall_rating[[Link](Data$overall_rating)] <- median(Data$overall_rating,
[Link] = TRUE)
Data$seat_comfort_rating[[Link](Data$seat_comfort_rating)] <-
median(Data$seat_comfort_rating, [Link] = TRUE)
Data$cabin_staff_rating[[Link](Data$cabin_staff_rating)] <-
median(Data$cabin_staff_rating, [Link] = TRUE)
Data$ food_beverages_rating[[Link](Data$ food_beverages_rating)] <- median(Data$
food_beverages_rating, [Link] = TRUE)
Data$inflight_entertainment_rating[[Link](Data$inflight_entertainment_rating)] <-
median(Data$inflight_entertainment_rating, [Link] = TRUE)
#Data$ground_service_rating[[Link](Data$ground_service_rating)] <-
median(Data$ground_service_rating, [Link] = TRUE)
#Data$wifi_connectivity_rating[[Link](Data$wifi_connectivity_rating)] <-
median(Data$wifi_connectivity_rating, [Link] = TRUE)
Data$value_money_rating[[Link](Data$value_money_rating)] <-
median(Data$value_money_rating, [Link] = TRUE)

#----------------------Finding the outliers---------------------

boxplot(Data$overall_rating)$out
boxplot(Data$seat_comfort_rating)$out
boxplot(Data$cabin_staff_rating)$out
boxplot(Data$food_beverages_rating)$out
boxplot(Data$inflight_entertainment_rating)$out
#boxplot(Data$ground_service_rating)$out
#boxplot(Data$wifi_connectivity_rating)$out
boxplot(Data$value_money_rating)$out

#-------wifi rating and ground service has outliers and dropping the
columns-------------------------

df = subset(Data, select = -c(ground_service_rating,wifi_connectivity_rating) )

#Dropping the NA values from author_country

levels(df$author_country)[1] = NA
df<-[Link](df,cols="author_country")

#----------Finding the correlation among the variable-----------------------

round(cor(df[,11:17]),
digits = 2 # rounded to 2 decimals
)

#------------overall_rating & value_money_rating are correlated.. so dropping

overall_rating from the model--------

pos = df %>% group_by(airline_name) %>% summarise(AVG = mean(overall_rating))

# Using Linear Regression
model1 = lm(recommended ~ type_traveller+ cabin_flown + seat_comfort_rating +
cabin_staff_rating + food_beverages_rating + inflight_entertainment_rating +
value_money_rating, data = df )
summary(model1)

# Using Logistic Regression

model2 = glm(recommended ~ type_traveller+
cabin_flown+seat_comfort_rating+cabin_staff_rating+food_beverages_rating+
inflight_entertainment_rating+
value_money_rating,data=df,binomial(link = "logit"))
summary(model2)

#----------------Ans1- Both the model suggests value_money_rating &

cabin_staff_rating are of utmost importance to the customers---------------

#---------------------------Ans2- counntry specific decesion making

variables------------------------
library(dplyr)
fitted_models = dplyr::group_by(df,author_country) %>% dplyr::do(model =
lm(recommended~ seat_comfort_rating+cabin_staff_rating+food_beverages_rating+

inflight_entertainment_rating+

value_money_rating,data=.))
View(fitted_models$model)

#-----------------------------Ans3- counntry specific decesion making variables

forlufthansa airlines -----------------------------

pos3 = df %>% filter(airline_name == "lufthansa") %>% group_by(author_country) %>%

summarise(AVG = mean(overall_rating,[Link] = TRUE),CSR =
mean(cabin_staff_rating,[Link] = TRUE),

SCR = mean(seat_comfort_rating,[Link] = TRUE), IER =

mean(inflight_entertainment_rating,[Link] = TRUE),

VMR = mean(value_money_rating,[Link] = TRUE),FBR = mean(food_beverages_rating,[Link]

= TRUE))

# For example for Ireland the overall average is 4 but FBR is only one hence,
lufthansa should focus on food_beverages_rating in Ireland

Random Forest Model
No ratings yet
Random Forest Model
16 pages
MachineLearningBigR Tutorial
No ratings yet
MachineLearningBigR Tutorial
5 pages
Finalproj Aml
No ratings yet
Finalproj Aml
69 pages
BPP Business School - Applied Modelling and Visualisation
No ratings yet
BPP Business School - Applied Modelling and Visualisation
19 pages
Tài Liệu Không Có Tiêu Đề
No ratings yet
Tài Liệu Không Có Tiêu Đề
7 pages
NYC Flights Data Analysis Lab
No ratings yet
NYC Flights Data Analysis Lab
9 pages
BH GF
No ratings yet
BH GF
16 pages
Logistic Regression for Airline Satisfaction
No ratings yet
Logistic Regression for Airline Satisfaction
20 pages
Customer Satisfaction Prediction with ML
No ratings yet
Customer Satisfaction Prediction with ML
42 pages
Customer Behavior Analysis in R
No ratings yet
Customer Behavior Analysis in R
30 pages
K-Means Clustering in R Analysis
No ratings yet
K-Means Clustering in R Analysis
1 page
Airline Customer Satisfaction Analysis
No ratings yet
Airline Customer Satisfaction Analysis
12 pages
Model Lab
No ratings yet
Model Lab
6 pages
R Programming: Data Manipulation & Visualization
No ratings yet
R Programming: Data Manipulation & Visualization
9 pages
Flight Ticket Price Prediction Guide
No ratings yet
Flight Ticket Price Prediction Guide
43 pages
Airline Passenger Booking Analyze
No ratings yet
Airline Passenger Booking Analyze
26 pages
Rutik Kothwala Final Practical Data Science
No ratings yet
Rutik Kothwala Final Practical Data Science
27 pages
Case1 Gr1 Team10 Airfare
No ratings yet
Case1 Gr1 Team10 Airfare
14 pages
Zomoto Data Analysis Using Python - 1
No ratings yet
Zomoto Data Analysis Using Python - 1
10 pages
Logistic Regression Analysis of Flight Satisfaction
No ratings yet
Logistic Regression Analysis of Flight Satisfaction
16 pages
Descriptive Statistics, Hypothesis Testing, and Basic
No ratings yet
Descriptive Statistics, Hypothesis Testing, and Basic
62 pages
Regression Analysis of Fertility and Hiking
No ratings yet
Regression Analysis of Fertility and Hiking
8 pages
Name: Reg. No.: Lab Exercise:: Shivam Batra 19BPS1131
No ratings yet
Name: Reg. No.: Lab Exercise:: Shivam Batra 19BPS1131
8 pages
Optimizing Flight Booking Decisions Through Machine Learning Price Predictions
No ratings yet
Optimizing Flight Booking Decisions Through Machine Learning Price Predictions
50 pages
Toyota Car Price Prediction Analysis
No ratings yet
Toyota Car Price Prediction Analysis
13 pages
Supervised Regression
No ratings yet
Supervised Regression
24 pages
InsideSherpa - Task2 - DraftSolutions - Template - RMD - Notepad - InsideSherpa - Task2 - DraftSolutions - Template
No ratings yet
InsideSherpa - Task2 - DraftSolutions - Template - RMD - Notepad - InsideSherpa - Task2 - DraftSolutions - Template
18 pages
Wine Prediction
100% (1)
Wine Prediction
13 pages
Homework 2
100% (1)
Homework 2
14 pages
Capstone Project Output - Hotel Room Pricing in Indian Cities
No ratings yet
Capstone Project Output - Hotel Room Pricing in Indian Cities
23 pages
1.1 Loading The Data: Survival by Sex
No ratings yet
1.1 Loading The Data: Survival by Sex
6 pages
Flight Delay Cost Index Visualization
No ratings yet
Flight Delay Cost Index Visualization
8 pages
Task:-5: Name:-Shambel Gonfa Reg no:-18BCE2429 Data Vitualization Lab Course code:-CSE3020
No ratings yet
Task:-5: Name:-Shambel Gonfa Reg no:-18BCE2429 Data Vitualization Lab Course code:-CSE3020
8 pages
Data Analysis for Analysts
No ratings yet
Data Analysis for Analysts
56 pages
Zomoto Data Analysis Using Python
No ratings yet
Zomoto Data Analysis Using Python
10 pages
DATAMINING
No ratings yet
DATAMINING
24 pages
Divvy Exercise R Script
No ratings yet
Divvy Exercise R Script
5 pages
Final
No ratings yet
Final
15 pages
Report For Task2
No ratings yet
Report For Task2
23 pages
Report For Task2
No ratings yet
Report For Task2
23 pages
Task 1
No ratings yet
Task 1
6 pages
Project
No ratings yet
Project
4 pages
ML5 Decision Tree Airline Safety
No ratings yet
ML5 Decision Tree Airline Safety
3 pages
Presentation On Flight Price Prediction
No ratings yet
Presentation On Flight Price Prediction
30 pages
EDA Zomato 1681401606
No ratings yet
EDA Zomato 1681401606
15 pages
Ict Project Report
No ratings yet
Ict Project Report
14 pages
Aviation Marketing Project - Capstone 1
100% (1)
Aviation Marketing Project - Capstone 1
25 pages
Implementing K-Means Clustering: '/content/mall - Customers (1) .CSV'
No ratings yet
Implementing K-Means Clustering: '/content/mall - Customers (1) .CSV'
8 pages
F 5
No ratings yet
F 5
2 pages
Exemplar - Perform Logistic Regression
No ratings yet
Exemplar - Perform Logistic Regression
16 pages
Quick Guide To Data Cleaning With Examples - Sunscrapers
No ratings yet
Quick Guide To Data Cleaning With Examples - Sunscrapers
11 pages
R Assignment
No ratings yet
R Assignment
8 pages
Activité Language R Lesson Changing Solution
No ratings yet
Activité Language R Lesson Changing Solution
5 pages
R Script for Analyzing Fitbit Data
No ratings yet
R Script for Analyzing Fitbit Data
4 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
Praktikum Modul 3
No ratings yet
Praktikum Modul 3
5 pages
EU IT Salary Prediction Analysis
No ratings yet
EU IT Salary Prediction Analysis
23 pages
Chi-Squared Test Worked Example
100% (1)
Chi-Squared Test Worked Example
2 pages
Scheme of Work Maths Stage 9
50% (2)
Scheme of Work Maths Stage 9
16 pages
Chi-Square Goodness of Fit Test
No ratings yet
Chi-Square Goodness of Fit Test
2 pages
Mid Term Exam Schedule Spring 2024
No ratings yet
Mid Term Exam Schedule Spring 2024
10 pages
CH7 - Statistical Data Treatment and Evaluation
No ratings yet
CH7 - Statistical Data Treatment and Evaluation
56 pages
05 Descriptive Statistics - Distribution
No ratings yet
05 Descriptive Statistics - Distribution
5 pages
Normal Distribution Probability Examples
No ratings yet
Normal Distribution Probability Examples
26 pages
Technology Literacy in Grade 12 TVL-CSS Students
No ratings yet
Technology Literacy in Grade 12 TVL-CSS Students
23 pages
Understanding Principal Component Analysis
No ratings yet
Understanding Principal Component Analysis
13 pages
AQA A Level History Stuart Britain and the Crisis of Monarchy 1603 1702 Angela Anderson latest ebook pdf 2025
100% (1)
AQA A Level History Stuart Britain and the Crisis of Monarchy 1603 1702 Angela Anderson latest ebook pdf 2025
157 pages
Solution Manual For Elementary Statistics Picturing The World 7th Edition
No ratings yet
Solution Manual For Elementary Statistics Picturing The World 7th Edition
8 pages
Wilcoxon Signed Rank Test Overview
No ratings yet
Wilcoxon Signed Rank Test Overview
23 pages
Differential Diagnosis in Clinical Medicine 1st Edition R Deenadayalan PDF Download
100% (9)
Differential Diagnosis in Clinical Medicine 1st Edition R Deenadayalan PDF Download
143 pages
Date Preparation and Exploration:: Titanic Data - CSV
No ratings yet
Date Preparation and Exploration:: Titanic Data - CSV
5 pages
Lampiran Tabulasi Silang: Case Processing Summary
100% (1)
Lampiran Tabulasi Silang: Case Processing Summary
13 pages
624-The Basic Education Statistics For Tanzania (BEST) Moodle Answer
No ratings yet
624-The Basic Education Statistics For Tanzania (BEST) Moodle Answer
8 pages
G*Power: ANCOVA & Power Analysis Guide
No ratings yet
G*Power: ANCOVA & Power Analysis Guide
43 pages
The Process of Statistical Analysis in Psychology Dawn M McBride Ebook and TestBank Bundle Official Test Bank
No ratings yet
The Process of Statistical Analysis in Psychology Dawn M McBride Ebook and TestBank Bundle Official Test Bank
332 pages
(Xii) STATISTICS Target Paper by SIR IRFAN
No ratings yet
(Xii) STATISTICS Target Paper by SIR IRFAN
7 pages
CRD Is Best Suited For Experiments With A Small Number of Treatments
No ratings yet
CRD Is Best Suited For Experiments With A Small Number of Treatments
14 pages
Lect 1 1610799804379
No ratings yet
Lect 1 1610799804379
42 pages
Bu Mba Syllabus Full Time 1 Sem All Subjects PDF
100% (1)
Bu Mba Syllabus Full Time 1 Sem All Subjects PDF
6 pages
Kisteria Content
No ratings yet
Kisteria Content
27 pages
Credit Risk Impact on Nigerian Banks' Profitability
No ratings yet
Credit Risk Impact on Nigerian Banks' Profitability
8 pages
Urban Pakistan's Milk Preferences
No ratings yet
Urban Pakistan's Milk Preferences
2 pages
Quantitative Methods in Psychology Exam Solutions
No ratings yet
Quantitative Methods in Psychology Exam Solutions
18 pages
HND 315 (RESEARCH PROPOSAL) Lecture Note
No ratings yet
HND 315 (RESEARCH PROPOSAL) Lecture Note
27 pages
ML and AI Program
No ratings yet
ML and AI Program
32 pages
计量经济学英文重点知识点考试必备
No ratings yet
计量经济学英文重点知识点考试必备
26 pages
Introduction To Biostatistics
No ratings yet
Introduction To Biostatistics
53 pages