0% found this document useful (0 votes)

32 views6 pages

Module 5

Uploaded by

goaltracker38

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views6 pages

Module 5

Uploaded by

goaltracker38

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Module 5: R Programming for Data Analysis and

Visualization

5.1 Introduction to R Programming

R is an open-source programming language designed for statistical computing, data analysis, and
visualization. It provides a wide array of statistical and graphical techniques, making it a popular tool
among data analysts, statisticians, and researchers.

Key Features:

• Extensive statistical functions (mean, median, regression, etc.)

• Data manipulation and cleaning capabilities

• Powerful visualization libraries (ggplot2, lattice, base graphics)

• Support for various data formats (CSV, Excel, SQL, JSON)

• Open-source with a large community and package ecosystem

Usefulness in Analytics:
R allows analysts to import, clean, explore, and visualize data efficiently. Its statistical computing
capabilities make it ideal for hypothesis testing, predictive modeling, and advanced analytics.

5.2 Importing and Exporting Data in R

R provides functions to read and write data from multiple formats:

• Importing CSV: [Link]("[Link]")

Example:

• data <- [Link]("[Link]")

• head(data)

• Exporting CSV: [Link](data, "[Link]")

Example:

• [Link](data, "cleaned_data.csv")

Step-by-Step Process:

1. Locate the file path or set working directory using setwd().

2. Use [Link]() to load the dataset into R.

3. Check the dataset using head() or str().

4. Perform analysis or cleaning.

5. Export processed data using [Link]().

Example Application: Importing sales data, cleaning missing values, and exporting the cleaned dataset
for visualization.

5.3 Data Types and Attributes in R

R supports multiple data types:

• Numeric: Stores numbers (e.g., 12, 45.6)

• Character: Stores text (e.g., "R Programming")

• Factor: Categorical data (e.g., "Male", "Female")

• Logical: TRUE or FALSE

Example:

age <- c(23, 25, 30) # Numeric

gender <- factor(c("M","F","M")) # Factor

name <- c("Amit","Riya","Karan") # Character

is_student <- c(TRUE,FALSE,TRUE) # Logical

Attributes: Include names, class, dimensions, and levels (for factors).

Example: class(age) returns "numeric", levels(gender) returns "M","F".

Importance: Proper data typing is crucial for statistical analysis, visualizations, and function
compatibility.

5.4 Basic Arithmetic Operations in R

R can perform arithmetic operations on variables and vectors:

x <- 10

y <- 5

sum <- x + y # 15

difference <- x - y # 5

product <- x * y # 50

quotient <- x / y # 2
power <- x^2 # 100

Explanation: Each operator (+, -, *, /, ^) performs standard mathematical calculations. R can also operate
element-wise on vectors.

5.5 Descriptive Statistics in R

Descriptive statistics summarize dataset characteristics:

• Mean: mean(data$column)

• Median: median(data$column)

• Standard Deviation: sd(data$column)

• Summary: summary(data) returns min, max, median, mean, and quartiles.

Example:

scores <- c(80, 75, 90, 85, 95)

mean(scores) # 85

median(scores) # 85

sd(scores) # 7.9057

Use in Analytics: Helps understand central tendency, spread, and variability before visualization.

5.6 Handling Missing Values

Dirty data (incomplete, inconsistent, or missing) affects analysis and visualization.

Techniques to Handle Missing Values in R:

• Identify missing values: [Link](data$column)

• Remove missing values: [Link](data)

• Replace missing values: data$column[[Link](data$column)] <- mean(data$column, [Link]=TRUE)

Example:

data <- c(10, NA, 15, 20, NA)

data[[Link](data)] <- mean(data, [Link]=TRUE)

Importance: Cleaning ensures accurate statistical results and reliable visualizations.

5.7 Exploratory Data Analysis (EDA)

EDA involves exploring data to understand patterns, distributions, and relationships before formal
modeling.

Key Steps in EDA:

1. Inspect structure: str(data)

2. Summarize variables: summary(data)

3. Visualize distributions: histograms, boxplots, density plots

4. Explore relationships: scatter plots, correlation matrices

Example: Plotting the distribution of sales data to detect skewness or outliers.

Importance: EDA helps identify anomalies, trends, and relationships that guide further analysis and
reporting.

5.8 Visualization Techniques in R

5.8.1 Single Variable Visualization

• Histogram: Shows frequency distribution.

• hist(data$scores, main="Score Distribution", xlab="Scores", col="blue")

• Boxplot: Detects outliers and spread.

• boxplot(data$scores, main="Score Spread")

• Density Plot: Smooth estimate of data distribution.

• plot(density(data$scores), main="Density Plot")

5.8.2 Multi-variable Visualization

• Scatter Plot: Shows relationship between two numeric variables.

• plot(data$age, data$score, main="Age vs Score", xlab="Age", ylab="Score")

• Correlation Analysis: Quantifies relationship.

• cor(data$age, data$score) # e.g., 0.85 indicates strong positive correlation

Difference Between Exploration and Presentation:

• Exploration: Understand patterns, anomalies, and distributions.

• Presentation: Clean, publication-ready charts for decision-making.

5.9 Benefits and Limitations of R for Visualization

Benefits:

• Extensive plotting libraries and customization.

• Handles large datasets efficiently.

• Integrates seamlessly with statistical functions for analysis.

Limitations:

• Steep learning curve for beginners.

• Requires coding skills for advanced visualization.

• Rendering complex graphics can be slower with very large datasets.

5.10 Summary of Key Functions

Function Purpose Example

[Link]() Import CSV file data <- [Link]("[Link]")

[Link]() Export CSV file [Link](data, "[Link]")

str() Display structure str(data)

summary() Summary stats summary(data$score)

mean() Mean mean(data$score)

median() Median median(data$score)

sd() Standard deviation sd(data$score)

hist() Histogram hist(data$score)

boxplot() Box plot boxplot(data$score)

plot() Scatter plot plot(data$age, data$score)

cor() Correlation cor(data$age, data$score)

5.11 Quick Notes

Concept Explanation Example

Numeric Data Type Stores numbers 10, 25.5

Factor Data Type Categorical data "Male", "Female"

Convert Numeric to
[Link]() data$group <- [Link](data$group)
Factor

Distribution of a single numeric

Histogram hist(data$score)
variable

Boxplot Detect outliers boxplot(data$score)

Density Plot Smoothed distribution plot(density(data$score))

Missing Values NA values affecting analysis [Link](data$score)

data[[Link](data)] <- mean(data,

Handle Missing Values Remove or replace
[Link]=TRUE)

Relationship between two numeric

Scatter Plot plot(data$age, data$score)
variables

Correlation Strength of linear relationship cor(data$age, data$score)

Unit 5 - R and Data Analysis
No ratings yet
Unit 5 - R and Data Analysis
29 pages
R Topicscovered
No ratings yet
R Topicscovered
22 pages
Apunts BLOC 1 Estadística
No ratings yet
Apunts BLOC 1 Estadística
15 pages
4251 Assignment 8
No ratings yet
4251 Assignment 8
15 pages
Unit 2
No ratings yet
Unit 2
32 pages
R for Big Data and Statistics
No ratings yet
R for Big Data and Statistics
57 pages
Unit 4
No ratings yet
Unit 4
27 pages
Module 5-6
No ratings yet
Module 5-6
12 pages
Chapter - 03 - Review of Basic Data
No ratings yet
Chapter - 03 - Review of Basic Data
92 pages
Possible Questions On R Programming and Metaverse
No ratings yet
Possible Questions On R Programming and Metaverse
20 pages
Data Analysis for Business Insights
No ratings yet
Data Analysis for Business Insights
44 pages
R Programming for Students
No ratings yet
R Programming for Students
10 pages
R1 Uptovisualisation
No ratings yet
R1 Uptovisualisation
122 pages
Advance R Prog.-1
No ratings yet
Advance R Prog.-1
24 pages
Business Analytics - L2
No ratings yet
Business Analytics - L2
41 pages
R for MBA Students
No ratings yet
R for MBA Students
10 pages
R Programming Essentials
No ratings yet
R Programming Essentials
27 pages
Data Analytic R
No ratings yet
Data Analytic R
28 pages
Unit 03 Notes
No ratings yet
Unit 03 Notes
26 pages
Unit 1 Big Data Analytics - An Introduction (Final)
No ratings yet
Unit 1 Big Data Analytics - An Introduction (Final)
65 pages
R Programming: © 2016 SMART Training Resources Pvt. LTD
No ratings yet
R Programming: © 2016 SMART Training Resources Pvt. LTD
28 pages
Lecture 1
No ratings yet
Lecture 1
35 pages
Unit 03 Imp Questions-1
No ratings yet
Unit 03 Imp Questions-1
27 pages
Data Analytics Using R
100% (1)
Data Analytics Using R
27 pages
Unit 4
No ratings yet
Unit 4
35 pages
Basics of R
No ratings yet
Basics of R
12 pages
Basic R
No ratings yet
Basic R
64 pages
Data Analytic Using R - Advanced
No ratings yet
Data Analytic Using R - Advanced
51 pages
BA - Unit 4 (P2)
No ratings yet
BA - Unit 4 (P2)
17 pages
How To Use The R Programming Language For Statistical Analyses
No ratings yet
How To Use The R Programming Language For Statistical Analyses
38 pages
Business Analytics (Unit4 Chapter5)
No ratings yet
Business Analytics (Unit4 Chapter5)
7 pages
Data Science Practical Completion Report
No ratings yet
Data Science Practical Completion Report
31 pages
Module 2.9
No ratings yet
Module 2.9
12 pages
Introduction To R For Business Analytics
No ratings yet
Introduction To R For Business Analytics
7 pages
Data Manipulation and Visualization in R
No ratings yet
Data Manipulation and Visualization in R
58 pages
Practical R Programming Guide
No ratings yet
Practical R Programming Guide
103 pages
Viva
No ratings yet
Viva
9 pages
Advanced Statistics
No ratings yet
Advanced Statistics
259 pages
Data Types & RStudio Basics
No ratings yet
Data Types & RStudio Basics
42 pages
01 IntroSlides
No ratings yet
01 IntroSlides
43 pages
Unit 4-1
No ratings yet
Unit 4-1
21 pages
BQL Record PDF
No ratings yet
BQL Record PDF
65 pages
Basics of Data Analysis and Graphics in
No ratings yet
Basics of Data Analysis and Graphics in
103 pages
R Data Types 8
No ratings yet
R Data Types 8
7 pages
Runit 1
No ratings yet
Runit 1
55 pages
Introduction to R for Statistics
No ratings yet
Introduction to R for Statistics
56 pages
An R Companion To Statistical Thinking For The 21st Century
No ratings yet
An R Companion To Statistical Thinking For The 21st Century
159 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
40 pages
MTech R Notes
No ratings yet
MTech R Notes
14 pages
Data Analytics Using R
No ratings yet
Data Analytics Using R
37 pages
Module 1 Rprogramming Introduction Part A
No ratings yet
Module 1 Rprogramming Introduction Part A
20 pages
Teaching Notes of R
No ratings yet
Teaching Notes of R
78 pages
Introduction to R Programming Basics
No ratings yet
Introduction to R Programming Basics
40 pages
BA End Sem Important
No ratings yet
BA End Sem Important
18 pages
Working with Data Frames in R
No ratings yet
Working with Data Frames in R
8 pages
R Study Material I
No ratings yet
R Study Material I
8 pages
Unit Ii Ids Notes
No ratings yet
Unit Ii Ids Notes
30 pages
Data Visulization1
No ratings yet
Data Visulization1
39 pages
Disadvantages of R Programming in Academia
No ratings yet
Disadvantages of R Programming in Academia
4 pages
Advantages of R Programming and Plotly
No ratings yet
Advantages of R Programming and Plotly
34 pages
Module 4
No ratings yet
Module 4
6 pages
1 s2.0 S2352340925004494 Main
No ratings yet
1 s2.0 S2352340925004494 Main
11 pages
1 s2.0 S2352340925004512 Main
No ratings yet
1 s2.0 S2352340925004512 Main
12 pages
1 s2.0 S2352340925002513 Main
No ratings yet
1 s2.0 S2352340925002513 Main
8 pages
Lab03 Solutions - DBMS - Queries
No ratings yet
Lab03 Solutions - DBMS - Queries
4 pages
Cooling Tower Upgrade Report
No ratings yet
Cooling Tower Upgrade Report
24 pages
Exam in Analytic Geometry With Answers
90% (10)
Exam in Analytic Geometry With Answers
4 pages
Deep learning-RNN
No ratings yet
Deep learning-RNN
54 pages
JEE Main (January Attempt) 2020: A Detailed Analysis by Resonance
No ratings yet
JEE Main (January Attempt) 2020: A Detailed Analysis by Resonance
7 pages
Engineering Analysis Techniques
No ratings yet
Engineering Analysis Techniques
28 pages
Scattering Theory
No ratings yet
Scattering Theory
1 page
IR Spectroscopy: Functional Group Analysis
No ratings yet
IR Spectroscopy: Functional Group Analysis
36 pages
(EBook PDF) Recent Developments in Electrical and Electronics Engineering 1st edition by Poonam Singhal, Sakshi Kalra, Bhim Singh, Bansal 303108280X 9783031082801 full chapters - The full ebook with all chapters is available for download
100% (16)
(EBook PDF) Recent Developments in Electrical and Electronics Engineering 1st edition by Poonam Singhal, Sakshi Kalra, Bhim Singh, Bansal 303108280X 9783031082801 full chapters - The full ebook with all chapters is available for download
83 pages
Design Calculation For Dirty Brackish Water Tank (129-0T2540)
No ratings yet
Design Calculation For Dirty Brackish Water Tank (129-0T2540)
9 pages
Mobile Hydraulics Solutions Guide
No ratings yet
Mobile Hydraulics Solutions Guide
16 pages
Creating BIRT Reports For Maximo
No ratings yet
Creating BIRT Reports For Maximo
14 pages
HV100 Series Inverter User Manual
No ratings yet
HV100 Series Inverter User Manual
148 pages
Replicating ChatGPT with LangChain
No ratings yet
Replicating ChatGPT with LangChain
6 pages
91240-001000 CS4000 User E1 04 2 E
No ratings yet
91240-001000 CS4000 User E1 04 2 E
40 pages
Power BI Interview Questions
No ratings yet
Power BI Interview Questions
8 pages
VHDL Language: Simulation & Synthesis Guide
No ratings yet
VHDL Language: Simulation & Synthesis Guide
9 pages
Heat Transfer Lab Setup Guide
No ratings yet
Heat Transfer Lab Setup Guide
1 page
2024 - Intel - Tech Tour TW - Lunar Lake AI Hardware Accelerators
No ratings yet
2024 - Intel - Tech Tour TW - Lunar Lake AI Hardware Accelerators
60 pages
Guide Bend Test - AWS D1.1 - Extract
No ratings yet
Guide Bend Test - AWS D1.1 - Extract
5 pages
Symmetrical Harmonies... The Tritone Progression
100% (21)
Symmetrical Harmonies... The Tritone Progression
40 pages
ISO 2768-2:1989 Geometrical Tolerances
No ratings yet
ISO 2768-2:1989 Geometrical Tolerances
9 pages
Verbal and Mental Process
No ratings yet
Verbal and Mental Process
16 pages
Ehb322e 2020 Spring Final Exam
No ratings yet
Ehb322e 2020 Spring Final Exam
2 pages
Dental Management System
No ratings yet
Dental Management System
6 pages
MITEE Nuclear Engine For Mission Pluto
No ratings yet
MITEE Nuclear Engine For Mission Pluto
23 pages
Allied Radio Data Handbook 1943
No ratings yet
Allied Radio Data Handbook 1943
52 pages
Definitions and MCQs of Ninth Class Chemistry (States of Matter)
No ratings yet
Definitions and MCQs of Ninth Class Chemistry (States of Matter)
6 pages
V Wow I Tamil & Hindi Material
No ratings yet
V Wow I Tamil & Hindi Material
2 pages
OBE-Syllabus-2021-CHEMISTRY FOR ENGINEERS
No ratings yet
OBE-Syllabus-2021-CHEMISTRY FOR ENGINEERS
7 pages