0% found this document useful (0 votes)

30 views26 pages

R Basic

Introduce about Rstudio

Uploaded by

tramltn22401c

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

30 views26 pages

R Basic

Introduce about Rstudio

Uploaded by

tramltn22401c

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

L1-IntroR

Introduction to R for Quant Methods

Giới thiệu sử dụng R căn bản cho lớp Phân tích định lượng

https://rpubs.com/chuong/1219896

Tại sao sử dụng R

• Trong môn phân tích định lượng, mục tiêu của môn học là xây dựng và nâng cấp các
kỹ năng phân tích dựa trên dữ liệu cho người học. Theo đó, kỳ vọng của môn học là
người học có thể giải quyết tốt các vấn đề trong phân tích kinh tế/kinh doanh dựa trên
các công cụ định lượng. Do đó việc xây dựng kỹ năng phân tích dựa trên các mô hình
định lượng cũng như trực quan hóa các kết quả là bắt buộc. Việc sử dụng các phần
mềm là một phần tất yếu để phân tích, ước lượng và trình bày kết quả. Một số phần
mềm phổ biến được sử dụng như: SPSS, Eviews, Stata, SmartPLS,R,Python,…Trong đó,
phần lớn các phần mềm hiện tại được sử dụng là các phần mềm thương mại, và người
dùng thường lách bằng các cách khác nhau để sử dụng khi không đủ kinh phí mua bản
quyền. Xu hướng hiện nay là sử dụng các phần mềm nguồn mở không chỉ để giải quyết
vấn đề này mà còn dựa trên khả năng mở rộng và sức mạnh của phần mềm mã nguồn
mở. R và Python là 2 phần mềm mã nguồn mở phổ biến nhất trong phân tích định
lượng hiện nay. Có nhiều lợi điểm khi sử dụng 2 phần mềm này, trong đó một số điểm
nổi bật: - Mã nguồn mở: tất cả đều được sử dụng free, tiếp cận dễ dàng không bị rào
cản về chi phí và các rủi ro khi dùng các phần mềm lậu. - Cộng đồng sử dụng lớn: Cộng
đồng sử dụng lớn không chỉ hỗ trợ tốt cho các nhu cầu đa dạng trong phân tích mà còn
tiềm năng phát triển lâu dài cũng như xu hướng yêu cầu kỹ năng nghề nghiệp. - Sức
mạnh: R và Python đều có sức mạnh vượt trội trong phân tích định lượng. Sức mạnh
này tiếp tục được phát triển và mở rộng theo thời gian. - Trực quan hóa dữ liệu: Đây
là điểm mạnh của các phần mềm này so với các phần mềm thương mại được sử dụng
phổ biến hiện nay. - Đa dụng: Có thể sử dụng với nhiều mục đích khác nhau không chỉ
phân tích định lượng.

1
• Trong đó, R và Python tuy ban đầu có tiếp cận tương đối rắc rối và khó hơn các
phần mềm thương mại nhưng khi quen thuộc logic lệnh và cấu trúc thì việc phát
triển là nhanh. Cả 2 phần mềm đều có cấu trúc lệnh và logic tương tự nhau, có
thể chuyển đổi giữa 2 phần mềm không tốn nhiều thời gian. Trong đó, R tập trung
nhiều hơn trong phân tích định lượng, Python có tính đa dụng cao hơn. Trong
khóa học về phân tích định lượng trong Kinh tế, người học được kỳ vọng phát triển
cả tư duy xử lý vấn đề trong kinh tế kinh doanh bằng các mô hình định lượng
và phát kỹ kỹ năng về sử dụng các phần mềm hỗ trợ. Các dữ liệu thông tin của
lớp được chia sẻ tại link của lớp học: https://drive.google.com/drive/u/1/folders/1-
GLHSy2a0ihmoAN0AaFsnQPV_4ivb2A0

Cách thiết lập R ban đầu

• Để bắt đầu sử dụng R, cần cài đặt phần mềm R. Hiện tại phiên bản R mới nhất
là R4.4. Việc sử dụng R sẽ thuận tiện hơn rất nhiều khi sử dụng các môi trường
làm việc với R, tiêu biểu nhất là Rstudio. Cần cài đặt cả 2 phần mềm này để làm
việc với R một cách tối ưu nhất. Link cài đặt tại: https://posit.co/download/rstudio-
desktop/ Lưu ý trong link đã có sẵn hướng dẫn cài đặt. Một số máy tính khi cài
đặt có thể lỗi tải thiếu thì cần cài thêm Rtools tại (hoặc search Rtools trên google):
https://cran.rstudio.com/bin/windows/Rtools/
• Bước 1: Mở R-studio. Nếu lần đầu tiên mở lên, R-studio sẽ tự động quét phần mềm R
có trong máy, nếu chưa có, nó sẽ yêu cầu cài đặt trước R. Nếu đã có R, R-studio sẽ đề
xuất lựa chọn để sử dụng phiên bản R tối ưu. Đừng lo ngại, hãy cứ chọn mặc định.
• Bước 2: Khi mở R-studio, các thiết lập mặc định ban đầu là đủ để sử dụng. Nếu cần cài
đặt thay đổi giao diện và cách trình bày của R-studio thì vào: Tools/Global Options.
• Bước 3: Hãy vào File/NewFile/ Quarto. Để bắt đầu mở 1 file Quarto như file này. File
Quarto Document có thể vừa ghi chú, vừa thực hiện các lệnh và tạo report cũng như
nhiều tính năng khác rất thuận tiện cho việc sử dụng với nhiều mục đích khác nhau.
• Bước 4: Tổng quan các cửa sổ (windows) trong R có 4 nhóm cửa sổ chính: Cửa sổ sử
dụng các file (Quarto, Rmarkdown, Rscript,Data), Cửa sổ Console, Cửa Sổ Plots (và
các phần như Help, Files), Cửa sổ History. Các cửa sổ này đều hiển thị ở mặc định. Khi
mới tiếp cận không cần chỉnh sửa gì với các cửa sổ này, các bạn có thể sử dụng ngay lập
tức.

Các tính toán đơn giản với R

Trước hết mở 1 khối lệnh với R có 2 cách:

• 1- Trực tiếp gõ lệnh vào cửa sổ Console và xem kết quả

2
• 2- Để mở khối lệnh trong Quarto, hoặc click vào biểu tượng +c phía bên phải của file,
hoặc gõ theo các ký hiệu khối lệnh:
• 3- Thử kết quả với các tính toán đơn giản và nhấn nút run ở phía bên phải của khối lệnh

2+2

[1] 4

1+2*3-4/5

[1] 6.2

(19465*0.25)^23

[1] 6.389569e+84

5%%2

[1] 1

Các hàm tính toán căn bản trong R

• print(x) - In ra màn hình

• seq() - Tạo chuỗi
• log(x) Natural log - Logarithm tự nhiên
• sum(x) Sum -Tổng
• exp(x) Exponential - Hàm mũ
• mean(x) Mean - Trung bình
• max(x) Largest element - Lớn nhất
• median(x) Median - Trung vị
• min(x) Smallest element - Nhỏ nhất
• quantile(x) Percentage quantiles - Phân vị
• round(x, n) Round to n decimal places - Làm tròn số
• rank(x) Rank of elements - Thứ bậc

3
• var(x) The variance - Phương sai
• cor(x,y) Correlation - Tương quan
• sd(x) The standard deviation - Độ lệch chuẩn
• Nếu cần hỗ trợ cấu trúc lệnh hay lênh gì bất kỳ hãy gõ ?lệnh, hoặc ??lệnh Nếu cần tìm
thông tin khác, help.search:

print("Hello world")

[1] "Hello world"

seq(10,80, 10) # Tạo 1 chuỗi tăng mỗi 10 đơn vị

[1] 10 20 30 40 50 60 70 80

help.search("regression")

starting httpd help server ... done

Lệnh Gán

Lệnh gán là 1 phần quan trọng của R, giúp gán tất cả các thành phần dữ liệu, thông tin mà
người phân tích muốn gán tên để sau đó có thể gọi ra và sử dụng. Ví dụ gán biến, dữ liệu, mô
hình, biểu đồ,….

x<-2 # Gán x với giá trị 2

[1] 2

3 -> y # cách viết khác

[1] 3

4
x+y # Gọi tên và thực hiện phép tính

[1] 5

x<-"a+b" # Gán x với 1 thông tin bất kỳ

[1] "a+b"

x<- 10>5 # Gán phép tính logic

[1] TRUE

Cấu trúc dữ liệu trong R

Các cấu trúc căn bản trong R bao gồm:

Vector: 1 chiều

X <- 1:5
X

[1] 1 2 3 4 5

Y <- letters
Y

[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s"
[20] "t" "u" "v" "w" "x" "y" "z"

x <-letters[1:5]
x

[1] "a" "b" "c" "d" "e"

5
class(x) # Lệnh biểu thị đặc tính của x

[1] "character"

Ma trận: 2 chiều

x <- matrix(1:30,nrow = 2 ) # Tạo ra 1 ma trận với 2 hàng, giá trị từ 1 đền 30

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14]
[1,] 1 3 5 7 9 11 13 15 17 19 21 23 25 27
[2,] 2 4 6 8 10 12 14 16 18 20 22 24 26 28
[,15]
[1,] 29
[2,] 30

y <- matrix(1:30,ncol = 3) # tạo ra ma trận với 3 cột

[,1] [,2] [,3]

[1,] 1 11 21
[2,] 2 12 22
[3,] 3 13 23
[4,] 4 14 24
[5,] 5 15 25
[6,] 6 16 26
[7,] 7 17 27
[8,] 8 18 28
[9,] 9 19 29
[10,] 10 20 30

z <- matrix(1:30, nrow = 6, ncol = 5)

[,1] [,2] [,3] [,4] [,5]

[1,] 1 7 13 19 25
[2,] 2 8 14 20 26
[3,] 3 9 15 21 27
[4,] 4 10 16 22 28
[5,] 5 11 17 23 29
[6,] 6 12 18 24 30

6
Dữ liệu

data.frame(Col1=1:2, Col2=100:1) # Tạo ra dữ liệu và xem

Col1 Col2
1 1 100
2 2 99
3 1 98
4 2 97
5 1 96
6 2 95
7 1 94
8 2 93
9 1 92
10 2 91
11 1 90
12 2 89
13 1 88
14 2 87
15 1 86
16 2 85
17 1 84
18 2 83
19 1 82
20 2 81
21 1 80
22 2 79
23 1 78
24 2 77
25 1 76
26 2 75
27 1 74
28 2 73
29 1 72
30 2 71
31 1 70
32 2 69
33 1 68
34 2 67
35 1 66
36 2 65
37 1 64

7
38 2 63
39 1 62
40 2 61
41 1 60
42 2 59
43 1 58
44 2 57
45 1 56
46 2 55
47 1 54
48 2 53
49 1 52
50 2 51
51 1 50
52 2 49
53 1 48
54 2 47
55 1 46
56 2 45
57 1 44
58 2 43
59 1 42
60 2 41
61 1 40
62 2 39
63 1 38
64 2 37
65 1 36
66 2 35
67 1 34
68 2 33
69 1 32
70 2 31
71 1 30
72 2 29
73 1 28
74 2 27
75 1 26
76 2 25
77 1 24
78 2 23
79 1 22
80 2 21

8
81 1 20
82 2 19
83 1 18
84 2 17
85 1 16
86 2 15
87 1 14
88 2 13
89 1 12
90 2 11
91 1 10
92 2 9
93 1 8
94 2 7
95 1 6
96 2 5
97 1 4
98 2 3
99 1 2
100 2 1

x <- data.frame(Col1=1:5, Col2=1:10) # gán tên dữ liệu

Col1 Col2
1 1 1
2 2 2
3 3 3
4 4 4
5 5 5
6 1 6
7 2 7
8 3 8
9 4 9
10 5 10

List: 1 dạng thông tin đa dụng, hỗn hợp

L <- list(Truong="uel", Lop="Quant", soluong=3, thanhtich=c(7,10,2))

9
$Truong
[1] "uel"

$Lop
[1] "Quant"

$soluong
[1] 3

$thanhtich
[1] 7 10 2

Các thư viện và gói mã lệnh

Các gói thư viện bao gồm nhiều mã lệnh khác nhau có sẵn trong R hoặc phải cài thêm để sử
dụng cho thuận tiện.
Mỗi gói thư viện với các mục đích sử dụng khác nhau. Có thể cùng một mục tiêu có nhiều gói
thư viện khác nhau đều sử dụng được.
Vì R là phần mềm mã nguồn mở nên sự đóng góp của cộng đồng rất lớn và rất đa dạng. Để
sử dụng cần cài đặt gói thư viện và tải vào R trước khi sử dụng (hoặc gọi tên ngay trước khi
dùng lệnh tương ứng).
Trong khóa học này chỉ hướng dẫn các gói thư viện phổ biến và thuận tiện, các bạn có thể sử
dụng nhiều gói thư viện khác nhau để hoàn thành mục tiêu của mình.
Cài đặt thư viện dùng lệnh: install.packages
Sử dụng thư viện dùng lệnh: library(tên thư viện)
Khi R báo lỗi không có thư viện khi bạn sử dụng lệnh trong môn học, cần cài đặt thư viện
trước.
Trong đó, gói “tidyverse” là gói thư viện phổ phiến với rất nhiều thư viện nhỏ để sử dụng đa
mục đích cần cài đặt Để cài đặt hãy gõ install.packages(“tidyverse”) trong cửa sổ console

library(tidyverse)

Warning: package 'tidyverse' was built under R version 4.4.1

-- Attaching core tidyverse packages ------------------------ tidyverse 2.0.0 --

v dplyr 1.1.4 v readr 2.1.5
v forcats 1.0.0 v stringr 1.5.1

10
v ggplot2 3.5.1 v tibble 3.2.1
v lubridate 1.9.3 v tidyr 1.3.1
v purrr 1.0.2
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag() masks stats::lag()
i Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to becom

Đọc và ghi dữ liệu

Lấy dữ liệu trên link thông tin lớp học: https://drive.google.com/drive/u/1/folders/1-

GLHSy2a0ihmoAN0AaFsnQPV_4ivb2A0
Có nhiều cách nhập dữ liệu và ghi các dữ liệu với nhiều loại file khác nhau, ở đây giới thiệu 2
cách phổ biến sử dụng trong môn học, các kiểu file khác nhau các bạn có thể tự tìm hiểu

Cách 1: Nhập dữ liệu từ Stata

Link dẫn đến file cần đến là \ hoặc /

# Đọc thông tin

## Link dẫn đến file cần đến là \\ hoặc /
haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods\\2024\

# A tibble: 13,300 x 6
CountryName CountryCode year GDP K L
<chr> <chr> <dbl> <dbl> <dbl> <dbl>
1 Afghanistan AFG 1974 NA NA NA
2 Afghanistan AFG 1975 NA NA NA
3 Afghanistan AFG 1976 NA NA NA
4 Afghanistan AFG 1977 NA NA NA
5 Afghanistan AFG 1978 NA NA NA
6 Afghanistan AFG 1979 NA NA NA
7 Afghanistan AFG 1980 NA NA NA
8 Afghanistan AFG 1981 NA NA NA
9 Afghanistan AFG 1982 NA NA NA
10 Afghanistan AFG 1983 NA NA NA
# i 13,290 more rows

dấu %>% nằm trong gói thư viện tidyverse biểu thị lấy kết quả trước để làm cho lệnh sau.
Ví dụ mô tả chung summary

11
library(tidyverse) # tải thư viện vào R

# Đọc thông tin

## dấu %>% nằm trong gói thư viện tidyverse biểu thị lấy kết quả trước để làm cho lệnh sau. V
haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods\\2024\
summary()

CountryName CountryCode year GDP

Length:13300 Length:13300 Min. :1974 Min. :1.010e+07
Class :character Class :character 1st Qu.:1986 1st Qu.:5.422e+09
Mode :character Mode :character Median :1998 Median :3.553e+10
Mean :1998 Mean :1.685e+12
3rd Qu.:2011 3rd Qu.:3.995e+11
Max. :2023 Max. :9.283e+13
NA's :1588
K L
Min. :-3.873e+07 Min. :3.347e+04
1st Qu.: 2.634e+09 1st Qu.:1.352e+06
Median : 1.703e+10 Median :4.815e+06
Mean : 4.345e+11 Mean :1.335e+08
3rd Qu.: 1.333e+11 3rd Qu.:3.432e+07
Max. : 2.232e+13 Max. :3.628e+09
NA's :6320 NA's :5548

# Gán tên dữ liệu

WDI <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods
WDI # Xem dữ liệu

12
# i 13,290 more rows

View(WDI) # Xem bằng cách mở cửa sổ riêng

Cách 2: Nhập dữ liệu từ file excel

Đọc dữ liệu từ 1 file excel ở 1 sheet

readxl::read_xlsx("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods\\202

# A tibble: 798 x 53
`Country Name` `Country Code` `Series Name` `1974` `1975` `1976`
<chr> <chr> <chr> <dbl> <dbl> <dbl>
1 Afghanistan AFG GDP NA NA NA
2 Afghanistan AFG L NA NA NA
3 Afghanistan AFG K NA NA NA
4 Albania ALB GDP NA NA NA
5 Albania ALB L NA NA NA
6 Albania ALB K NA NA NA
7 Algeria DZA GDP 49117415082. 5.16e10 5.59e10
8 Algeria DZA L NA NA NA
9 Algeria DZA K 19508642957. 2.12e10 2.04e10
10 American Samoa ASM GDP NA NA NA
# i 788 more rows
# i 47 more variables: `1977` <dbl>, `1978` <dbl>, `1979` <dbl>, `1980` <dbl>,
# `1981` <dbl>, `1982` <dbl>, `1983` <dbl>, `1984` <dbl>, `1985` <dbl>,
# `1986` <dbl>, `1987` <dbl>, `1988` <dbl>, `1989` <dbl>, `1990` <dbl>,
# `1991` <dbl>, `1992` <dbl>, `1993` <dbl>, `1994` <dbl>, `1995` <dbl>,
# `1996` <dbl>, `1997` <dbl>, `1998` <dbl>, `1999` <dbl>, `2000` <dbl>,
# `2001` <dbl>, `2002` <dbl>, `2003` <dbl>, `2004` <dbl>, `2005` <dbl>, ...

Gán tên

WDI <- readxl::read_xlsx("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMetho

Xem tên biến

# Xem tên biến

WDI %>% variable.names()

13
[1] "Country Name" "Country Code" "Series Name" "1974" "1975"
[6] "1976" "1977" "1978" "1979" "1980"
[11] "1981" "1982" "1983" "1984" "1985"
[16] "1986" "1987" "1988" "1989" "1990"
[21] "1991" "1992" "1993" "1994" "1995"
[26] "1996" "1997" "1998" "1999" "2000"
[31] "2001" "2002" "2003" "2004" "2005"
[36] "2006" "2007" "2008" "2009" "2010"
[41] "2011" "2012" "2013" "2014" "2015"
[46] "2016" "2017" "2018" "2019" "2020"
[51] "2021" "2022" "2023"

Ghi dữ liệu

Ghi bằng kiểu stata

WDI <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods

WDI %>% haven::write_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMetho

Ghi bằng kiểu excel

WDI %>% openxlsx::write.xlsx("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantM

Quản lý dữ liệu căn bản

Xem thông tin

Gán tên

WDI <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods

Xem tên biến

# Xem tên biến

WDI %>% variable.names()

[1] "CountryName" "CountryCode" "year" "GDP" "K"

[6] "L"

14
Tạo và thay đổi biến

WDI %>%
rename(Tenmoi=CountryName)

# A tibble: 13,300 x 6
Tenmoi CountryCode year GDP K L
<chr> <chr> <dbl> <dbl> <dbl> <dbl>
1 Afghanistan AFG 1974 NA NA NA
2 Afghanistan AFG 1975 NA NA NA
3 Afghanistan AFG 1976 NA NA NA
4 Afghanistan AFG 1977 NA NA NA
5 Afghanistan AFG 1978 NA NA NA
6 Afghanistan AFG 1979 NA NA NA
7 Afghanistan AFG 1980 NA NA NA
8 Afghanistan AFG 1981 NA NA NA
9 Afghanistan AFG 1982 NA NA NA
10 Afghanistan AFG 1983 NA NA NA
# i 13,290 more rows

Lưu lại thành dữ liệu

WDI %>%
rename(Country=CountryName)

# A tibble: 13,300 x 6
Country CountryCode year GDP K L
<chr> <chr> <dbl> <dbl> <dbl> <dbl>
1 Afghanistan AFG 1974 NA NA NA
2 Afghanistan AFG 1975 NA NA NA
3 Afghanistan AFG 1976 NA NA NA
4 Afghanistan AFG 1977 NA NA NA
5 Afghanistan AFG 1978 NA NA NA
6 Afghanistan AFG 1979 NA NA NA
7 Afghanistan AFG 1980 NA NA NA
8 Afghanistan AFG 1981 NA NA NA
9 Afghanistan AFG 1982 NA NA NA
10 Afghanistan AFG 1983 NA NA NA
# i 13,290 more rows

15
Tạo biến mới

WDI %>%
mutate(lnY=log(GDP))

# A tibble: 13,300 x 7
CountryName CountryCode year GDP K L lnY
<chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
1 Afghanistan AFG 1974 NA NA NA NA
2 Afghanistan AFG 1975 NA NA NA NA
3 Afghanistan AFG 1976 NA NA NA NA
4 Afghanistan AFG 1977 NA NA NA NA
5 Afghanistan AFG 1978 NA NA NA NA
6 Afghanistan AFG 1979 NA NA NA NA
7 Afghanistan AFG 1980 NA NA NA NA
8 Afghanistan AFG 1981 NA NA NA NA
9 Afghanistan AFG 1982 NA NA NA NA
10 Afghanistan AFG 1983 NA NA NA NA
# i 13,290 more rows

Tạo biến mới

WDI %>%
rename(Country=CountryName) %>% # Đổi tên biến
mutate(lnY=log(GDP),
lnL=log(L)) %>% # Tạo biến
select(Country,year, lnY,L,K) %>% # Chọn biến
filter(year>=1990) -> WDI_data # Lọc quan sát theo điều kiện và lưu thành dữ liệu mới

Quay chiều dữ liệu (pivot)

Ví dụ dữ liệu tải về

WDI <- readxl::read_xlsx("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMetho

Xem dữ liệu

WDI

16
# A tibble: 798 x 53
`Country Name` `Country Code` `Series Name` `1974` `1975` `1976`
<chr> <chr> <chr> <dbl> <dbl> <dbl>
1 Afghanistan AFG GDP NA NA NA
2 Afghanistan AFG L NA NA NA
3 Afghanistan AFG K NA NA NA
4 Albania ALB GDP NA NA NA
5 Albania ALB L NA NA NA
6 Albania ALB K NA NA NA
7 Algeria DZA GDP 49117415082. 5.16e10 5.59e10
8 Algeria DZA L NA NA NA
9 Algeria DZA K 19508642957. 2.12e10 2.04e10
10 American Samoa ASM GDP NA NA NA
# i 788 more rows
# i 47 more variables: `1977` <dbl>, `1978` <dbl>, `1979` <dbl>, `1980` <dbl>,
# `1981` <dbl>, `1982` <dbl>, `1983` <dbl>, `1984` <dbl>, `1985` <dbl>,
# `1986` <dbl>, `1987` <dbl>, `1988` <dbl>, `1989` <dbl>, `1990` <dbl>,
# `1991` <dbl>, `1992` <dbl>, `1993` <dbl>, `1994` <dbl>, `1995` <dbl>,
# `1996` <dbl>, `1997` <dbl>, `1998` <dbl>, `1999` <dbl>, `2000` <dbl>,
# `2001` <dbl>, `2002` <dbl>, `2003` <dbl>, `2004` <dbl>, `2005` <dbl>, ...

Với mục tiêu là dữ liệu phải có dạng Y, X1, X2 để có thể chạy mô hình kinh tế lượng, chúng
ta phải quay dữ liệu tương ứng
Quay dọc: Để giá trị năm thành 1 biến

WDI %>%
pivot_longer(cols= c(-"Country Name",- "Country Code",-"Series Name" )) # Quay dọc trừ các

# A tibble: 39,900 x 5
`Country Name` `Country Code` `Series Name` name value
<chr> <chr> <chr> <chr> <dbl>
1 Afghanistan AFG GDP 1974 NA
2 Afghanistan AFG GDP 1975 NA
3 Afghanistan AFG GDP 1976 NA
4 Afghanistan AFG GDP 1977 NA
5 Afghanistan AFG GDP 1978 NA
6 Afghanistan AFG GDP 1979 NA
7 Afghanistan AFG GDP 1980 NA
8 Afghanistan AFG GDP 1981 NA
9 Afghanistan AFG GDP 1982 NA
10 Afghanistan AFG GDP 1983 NA
# i 39,890 more rows

17
Sau đó quay ngang: để tên biến thành các cột riêng

WDI %>%
pivot_longer(cols= c(-"Country Name",- "Country Code",-"Series Name" )) %>%
pivot_wider(id_cols = c("Country Name", "Country Code", "name"),names_from = c("Series Name

# A tibble: 13,300 x 6
`Country Name` `Country Code` name GDP L K
<chr> <chr> <chr> <dbl> <dbl> <dbl>
1 Afghanistan AFG 1974 NA NA NA
2 Afghanistan AFG 1975 NA NA NA
3 Afghanistan AFG 1976 NA NA NA
4 Afghanistan AFG 1977 NA NA NA
5 Afghanistan AFG 1978 NA NA NA
6 Afghanistan AFG 1979 NA NA NA
7 Afghanistan AFG 1980 NA NA NA
8 Afghanistan AFG 1981 NA NA NA
9 Afghanistan AFG 1982 NA NA NA
10 Afghanistan AFG 1983 NA NA NA
# i 13,290 more rows

Đổi tên biến

WDI %>%
pivot_longer(cols= c(-"Country Name",- "Country Code",-"Series Name" )) %>%
pivot_wider(id_cols = c("Country Name", "Country Code", "name"),names_from = c("Series Name
rename("year"="name")

# A tibble: 13,300 x 6
`Country Name` `Country Code` year GDP L K
<chr> <chr> <chr> <dbl> <dbl> <dbl>
1 Afghanistan AFG 1974 NA NA NA
2 Afghanistan AFG 1975 NA NA NA
3 Afghanistan AFG 1976 NA NA NA
4 Afghanistan AFG 1977 NA NA NA
5 Afghanistan AFG 1978 NA NA NA
6 Afghanistan AFG 1979 NA NA NA
7 Afghanistan AFG 1980 NA NA NA
8 Afghanistan AFG 1981 NA NA NA
9 Afghanistan AFG 1982 NA NA NA
10 Afghanistan AFG 1983 NA NA NA
# i 13,290 more rows

18
Gán tên dữ liệu

WDI %>%
pivot_longer(cols= c(-"Country Name",- "Country Code",-"Series Name" )) %>%
pivot_wider(id_cols = c("Country Name", "Country Code", "name"),names_from = c("Series Name
rename("year"="name") ->WDI_data

Chạy thử mô hình

lm(GDP~L+K, data = WDI_data) %>% summary()

Call:
lm(formula = GDP ~ L + K, data = WDI_data)

Residuals:
Min 1Q Median 3Q Max
-9.168e+12 -1.773e+11 -1.637e+11 -7.177e+10 4.533e+12

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.789e+11 9.804e+09 18.25 <2e-16 ***
L -3.125e+03 5.343e+01 -58.49 <2e-16 ***
K 4.631e+00 8.577e-03 539.89 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.827e+11 on 5316 degrees of freedom

(7981 observations deleted due to missingness)
Multiple R-squared: 0.9922, Adjusted R-squared: 0.9922
F-statistic: 3.378e+05 on 2 and 5316 DF, p-value: < 2.2e-16

lm(log(GDP)~log(L)+log(K), data = WDI_data) %>% summary()

Warning in log(K): NaNs produced

Call:
lm(formula = log(GDP) ~ log(L) + log(K), data = WDI_data)

19
Residuals:
Min 1Q Median 3Q Max
-1.6020 -0.1687 0.0114 0.1731 4.4288

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.604035 0.041035 63.46 <2e-16 ***
log(L) 0.082066 0.003676 22.33 <2e-16 ***
log(K) 0.902241 0.003151 286.34 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3249 on 5315 degrees of freedom

(7982 observations deleted due to missingness)
Multiple R-squared: 0.9836, Adjusted R-squared: 0.9836
F-statistic: 1.599e+05 on 2 and 5315 DF, p-value: < 2.2e-16

Ghép dữ liệu

Ghép có tên biến xác định giống nhau

Nhập dữ liệu từ file stata (dta)

D1 <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods\

D2 <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods\

Xem 2 dữ liệu

# A tibble: 8 x 3
id X1 X2
<dbl> <dbl> <dbl>
1 1 0.762 0.732
2 2 0.555 0.710
3 3 0.118 0.184
4 4 0.0350 0.209
5 5 0.476 0.753
6 6 0.178 0.653
7 7 0.779 0.839
8 10 0.353 0.172

20
D2

# A tibble: 5 x 3
id X3 X4
<dbl> <dbl> <dbl>
1 1 0.0368 0.333
2 2 0.216 0.244
3 8 0.125 0.824
4 9 0.503 0.253
5 10 0.187 0.427

Ghép D2 vào D1

D1 %>%
left_join(D2, by=c("id"))

# A tibble: 8 x 5
id X1 X2 X3 X4
<dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0.762 0.732 0.0368 0.333
2 2 0.555 0.710 0.216 0.244
3 3 0.118 0.184 NA NA
4 4 0.0350 0.209 NA NA
5 5 0.476 0.753 NA NA
6 6 0.178 0.653 NA NA
7 7 0.779 0.839 NA NA
8 10 0.353 0.172 0.187 0.427

Ghép D1 vào D2

D1 %>%
right_join(D2, by=c("id"))

# A tibble: 5 x 5
id X1 X2 X3 X4
<dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0.762 0.732 0.0368 0.333
2 2 0.555 0.710 0.216 0.244
3 10 0.353 0.172 0.187 0.427
4 8 NA NA 0.125 0.824
5 9 NA NA 0.503 0.253

21
Ghép toàn bộ dữ liệu giữ toàn bộ thông tin của D1

D1 %>%
full_join(D2, by=c("id"))

# A tibble: 10 x 5
id X1 X2 X3 X4
<dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0.762 0.732 0.0368 0.333
2 2 0.555 0.710 0.216 0.244
3 3 0.118 0.184 NA NA
4 4 0.0350 0.209 NA NA
5 5 0.476 0.753 NA NA
6 6 0.178 0.653 NA NA
7 7 0.779 0.839 NA NA
8 10 0.353 0.172 0.187 0.427
9 8 NA NA 0.125 0.824
10 9 NA NA 0.503 0.253

Ghép toàn bộ dữ liệu giữ toàn bộ thông tin của D2

D2 %>%
full_join(D1, by=c("id"))

# A tibble: 10 x 5
id X3 X4 X1 X2
<dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0.0368 0.333 0.762 0.732
2 2 0.216 0.244 0.555 0.710
3 8 0.125 0.824 NA NA
4 9 0.503 0.253 NA NA
5 10 0.187 0.427 0.353 0.172
6 3 NA NA 0.118 0.184
7 4 NA NA 0.0350 0.209
8 5 NA NA 0.476 0.753
9 6 NA NA 0.178 0.653
10 7 NA NA 0.779 0.839

Ghép có tên biến xác định khác nhau hoặc nhiều biến xác định

Nhập dữ liệu từ file stata (dta)

22
D1 <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods\
D2 <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods\

Xem dữ liệu

# A tibble: 10 x 4
id1 id2 X1 X2
<dbl> <dbl> <dbl> <dbl>
1 1 1 0.756 0.802
2 2 2 0.560 0.243
3 3 3 0.789 0.421
4 4 4 0.260 0.747
5 5 5 0.532 0.589
6 6 6 0.349 0.348
7 7 7 0.153 0.292
8 8 8 0.0827 0.745
9 9 9 0.843 0.961
10 10 10 0.166 0.889

# A tibble: 5 x 4
hh1 hh2 X3 X4
<dbl> <dbl> <dbl> <dbl>
1 1 1 0.939 0.799
2 2 2 0.520 0.869
3 8 3 0.483 0.883
4 9 4 0.832 0.125
5 10 5 0.956 0.527

Ghép Ghép D2 vào D1

D1 %>%
left_join(D2, by=c("id1"="hh1", "id2"="hh2"))

# A tibble: 10 x 6
id1 id2 X1 X2 X3 X4
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>

23
1 1 1 0.756 0.802 0.939 0.799
2 2 2 0.560 0.243 0.520 0.869
3 3 3 0.789 0.421 NA NA
4 4 4 0.260 0.747 NA NA
5 5 5 0.532 0.589 NA NA
6 6 6 0.349 0.348 NA NA
7 7 7 0.153 0.292 NA NA
8 8 8 0.0827 0.745 NA NA
9 9 9 0.843 0.961 NA NA
10 10 10 0.166 0.889 NA NA

Ghép D1 vào D2

D1 %>%
right_join(D2, by=c("id1"="hh1", "id2"="hh2"))

# A tibble: 5 x 6
id1 id2 X1 X2 X3 X4
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 1 0.756 0.802 0.939 0.799
2 2 2 0.560 0.243 0.520 0.869
3 8 3 NA NA 0.483 0.883
4 9 4 NA NA 0.832 0.125
5 10 5 NA NA 0.956 0.527

Ghép toàn bộ dữ liệu, giữ thông tin của D1

D1 %>%
full_join(D2, by=c("id1"="hh1", "id2"="hh2"))

# A tibble: 13 x 6
id1 id2 X1 X2 X3 X4
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 1 0.756 0.802 0.939 0.799
2 2 2 0.560 0.243 0.520 0.869
3 3 3 0.789 0.421 NA NA
4 4 4 0.260 0.747 NA NA
5 5 5 0.532 0.589 NA NA
6 6 6 0.349 0.348 NA NA
7 7 7 0.153 0.292 NA NA
8 8 8 0.0827 0.745 NA NA

24
9 9 9 0.843 0.961 NA NA
10 10 10 0.166 0.889 NA NA
11 8 3 NA NA 0.483 0.883
12 9 4 NA NA 0.832 0.125
13 10 5 NA NA 0.956 0.527

Ghép toàn bộ dữ liệu, giữ thông tin của D2

D2 %>%
full_join(D1, by=c("hh1"="id1", "hh2"="id2"))

# A tibble: 13 x 6
hh1 hh2 X3 X4 X1 X2
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 1 0.939 0.799 0.756 0.802
2 2 2 0.520 0.869 0.560 0.243
3 8 3 0.483 0.883 NA NA
4 9 4 0.832 0.125 NA NA
5 10 5 0.956 0.527 NA NA
6 3 3 NA NA 0.789 0.421
7 4 4 NA NA 0.260 0.747
8 5 5 NA NA 0.532 0.589
9 6 6 NA NA 0.349 0.348
10 7 7 NA NA 0.153 0.292
11 8 8 NA NA 0.0827 0.745
12 9 9 NA NA 0.843 0.961
13 10 10 NA NA 0.166 0.889

Ghép toàn bộ dữ liệu, giữ thông tin của cả D1, D2

D2 %>%
full_join(D1, by=c("hh1"="id1", "hh2"="id2"),keep=T)

# A tibble: 13 x 8
hh1 hh2 X3 X4 id1 id2 X1 X2
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 1 0.939 0.799 1 1 0.756 0.802
2 2 2 0.520 0.869 2 2 0.560 0.243
3 8 3 0.483 0.883 NA NA NA NA
4 9 4 0.832 0.125 NA NA NA NA
5 10 5 0.956 0.527 NA NA NA NA

25
6 NA NA NA NA 3 3 0.789 0.421
7 NA NA NA NA 4 4 0.260 0.747
8 NA NA NA NA 5 5 0.532 0.589
9 NA NA NA NA 6 6 0.349 0.348
10 NA NA NA NA 7 7 0.153 0.292
11 NA NA NA NA 8 8 0.0827 0.745
12 NA NA NA NA 9 9 0.843 0.961
13 NA NA NA NA 10 10 0.166 0.889

Đồ thị căn bản

Bài tập

R Coding Style & Basics Guide
No ratings yet
R Coding Style & Basics Guide
27 pages
HỒ ĐẮC LÂM
No ratings yet
HỒ ĐẮC LÂM
21 pages
R - A Brief Introduction
No ratings yet
R - A Brief Introduction
14 pages
Tài Liệu System Identification Toolbox Tiếng Việt - Tài Liệu, eBook, Giáo Trình
No ratings yet
Tài Liệu System Identification Toolbox Tiếng Việt - Tài Liệu, eBook, Giáo Trình
22 pages
Code RLS, Lms
No ratings yet
Code RLS, Lms
5 pages
Thi Nghiem Thong Tin So
No ratings yet
Thi Nghiem Thong Tin So
13 pages
CH 7 Goldoilprice
No ratings yet
CH 7 Goldoilprice
14 pages
Giáo Trình Python Cơ Bản PDF
No ratings yet
Giáo Trình Python Cơ Bản PDF
36 pages
BÀI TẬP THỰC HÀNH BUỔI 1
No ratings yet
BÀI TẬP THỰC HÀNH BUỔI 1
15 pages
BAI THUC HANH MPHTTT (b1)
No ratings yet
BAI THUC HANH MPHTTT (b1)
25 pages
Code R For Student
No ratings yet
Code R For Student
6 pages
ML4 Do Thi
No ratings yet
ML4 Do Thi
37 pages
Ex Anova 1 Way
No ratings yet
Ex Anova 1 Way
10 pages
MATH
No ratings yet
MATH
6 pages
Matlab - Simulink Dành Cho Kỹ Sư Điều Khiển Tự Động- Nguyễn Phùng Quang P2
No ratings yet
Matlab - Simulink Dành Cho Kỹ Sư Điều Khiển Tự Động- Nguyễn Phùng Quang P2
49 pages
Bài Thi HKI 2024-2025docx
No ratings yet
Bài Thi HKI 2024-2025docx
30 pages
Part I Basic
No ratings yet
Part I Basic
73 pages
Exercise Data Analysis
No ratings yet
Exercise Data Analysis
25 pages
49343-Article Text-153019-1-10-20200723
No ratings yet
49343-Article Text-153019-1-10-20200723
10 pages
Khoa CNTT - Ngày CTDL & TRR
No ratings yet
Khoa CNTT - Ngày CTDL & TRR
19 pages
Tổng Quan Về Thống Kê Dữ Liệu
No ratings yet
Tổng Quan Về Thống Kê Dữ Liệu
2 pages
Bài T P Thưc Hành 2
No ratings yet
Bài T P Thưc Hành 2
9 pages
Tin Hoc Trong KT - 0001
No ratings yet
Tin Hoc Trong KT - 0001
19 pages
Báo Cáo BTL ĐSTT
No ratings yet
Báo Cáo BTL ĐSTT
10 pages
PCA & FA for R Users
No ratings yet
PCA & FA for R Users
13 pages
Revise Machine Learning Final 20 - 06
No ratings yet
Revise Machine Learning Final 20 - 06
16 pages
KTL 1
No ratings yet
KTL 1
7 pages
Chuong04 CSDL
No ratings yet
Chuong04 CSDL
68 pages
Ex Anova 2 Way
No ratings yet
Ex Anova 2 Way
16 pages
CT KTL
No ratings yet
CT KTL
24 pages
Linear Regression Analysis with Python
No ratings yet
Linear Regression Analysis with Python
10 pages
Chi Tiêu Hộ Gia Đình 2020-2022
No ratings yet
Chi Tiêu Hộ Gia Đình 2020-2022
2 pages
23-MATH1315 - Xác suất và thống kê
No ratings yet
23-MATH1315 - Xác suất và thống kê
19 pages
Baitap Tuan 1
No ratings yet
Baitap Tuan 1
16 pages
BT CSDL
No ratings yet
BT CSDL
10 pages
DFHFGHJ
No ratings yet
DFHFGHJ
268 pages
Ptdabien 1
No ratings yet
Ptdabien 1
25 pages
Embedded Systems - Chapter 8
No ratings yet
Embedded Systems - Chapter 8
50 pages
Bai2 Data - Pandas
No ratings yet
Bai2 Data - Pandas
11 pages
FinalProject 2024
No ratings yet
FinalProject 2024
3 pages
Lecture 14 - Panel Data Models - Auto.vi
No ratings yet
Lecture 14 - Panel Data Models - Auto.vi
40 pages
Bao Cao Bai Tap Buoi 2
No ratings yet
Bao Cao Bai Tap Buoi 2
8 pages
Lesson 0 - Review
No ratings yet
Lesson 0 - Review
10 pages
Câu hỏi trắc nghiệm về thuật toán và cấu trúc dữ liệu
No ratings yet
Câu hỏi trắc nghiệm về thuật toán và cấu trúc dữ liệu
3 pages
Tài liệu giáo khoa Tin học lớp 2
No ratings yet
Tài liệu giáo khoa Tin học lớp 2
176 pages
Python Programming - Chapter05 - function-guiSV
No ratings yet
Python Programming - Chapter05 - function-guiSV
64 pages
Chuong 2
No ratings yet
Chuong 2
47 pages
Modaupttktt
No ratings yet
Modaupttktt
3 pages
Ex Descriptive Estimate and Outliers
No ratings yet
Ex Descriptive Estimate and Outliers
5 pages
De Thi Tin Hoc Trong Ky Thu T Meif134529
No ratings yet
De Thi Tin Hoc Trong Ky Thu T Meif134529
16 pages
BGXLTH Slide
No ratings yet
BGXLTH Slide
337 pages
Understanding MATLAB Functions and Operations
100% (1)
Understanding MATLAB Functions and Operations
28 pages
ch0bt10 1
No ratings yet
ch0bt10 1
9 pages
* Ảnh âm bản
No ratings yet
* Ảnh âm bản
5 pages
Evans Analytics2e PPT 04
No ratings yet
Evans Analytics2e PPT 04
63 pages
03 Pandas
No ratings yet
03 Pandas
51 pages
Course 7
No ratings yet
Course 7
100 pages
FinalExam S1 2018 2019
No ratings yet
FinalExam S1 2018 2019
4 pages
Order of Preference of The Post Details: Railway Recruitment Board Ministry of Railways, Govt. of India
No ratings yet
Order of Preference of The Post Details: Railway Recruitment Board Ministry of Railways, Govt. of India
2 pages
NEET (UG) 2023 FAQs and Guidelines
No ratings yet
NEET (UG) 2023 FAQs and Guidelines
11 pages
SSRN Id3292154
No ratings yet
SSRN Id3292154
27 pages
An Introduction To Ritual Magic 1997 Dion Fortune Amp Gareth Knightpdf
No ratings yet
An Introduction To Ritual Magic 1997 Dion Fortune Amp Gareth Knightpdf
122 pages
Benevolent Assimilation
No ratings yet
Benevolent Assimilation
31 pages
O'Connell Letter To DoJ
No ratings yet
O'Connell Letter To DoJ
17 pages
Jesus: The Perfect Mediator
No ratings yet
Jesus: The Perfect Mediator
3 pages
Weapons Requirement
No ratings yet
Weapons Requirement
1 page
Lesson Plan on Scarcity in Economics
No ratings yet
Lesson Plan on Scarcity in Economics
6 pages
Kashfush Shubhaat Eng
No ratings yet
Kashfush Shubhaat Eng
34 pages
CV
100% (2)
CV
157 pages
Workshop First Time Charging
100% (1)
Workshop First Time Charging
23 pages
02teamwork4 Term2 L2
No ratings yet
02teamwork4 Term2 L2
4 pages
The World I Wish To Live in
No ratings yet
The World I Wish To Live in
2 pages
Thesis On Education System in Nepal
100% (3)
Thesis On Education System in Nepal
5 pages
Jose Rizals Education
No ratings yet
Jose Rizals Education
37 pages
Postmetaphysical God-Talk Insights
No ratings yet
Postmetaphysical God-Talk Insights
352 pages
BEL Hyderabad Engineer Recruitment
No ratings yet
BEL Hyderabad Engineer Recruitment
3 pages
KHDA Training Programs Overview
No ratings yet
KHDA Training Programs Overview
5 pages
Nabatchi (2012) Putting The Public Back in Public Values Research Designing Participation To Identify and Respond To Values
No ratings yet
Nabatchi (2012) Putting The Public Back in Public Values Research Designing Participation To Identify and Respond To Values
11 pages
IBDP REPORT CARD SAMPLE
No ratings yet
IBDP REPORT CARD SAMPLE
3 pages
Cephalosporins Teaching Basics
No ratings yet
Cephalosporins Teaching Basics
46 pages
Ict Assignment 2
No ratings yet
Ict Assignment 2
1 page
Superintendents Message To Members of The Eastchester Community
No ratings yet
Superintendents Message To Members of The Eastchester Community
2 pages
Understanding Personality Disorders
No ratings yet
Understanding Personality Disorders
5 pages
Chennai Metro Rail Limited: Employment Notification No - Cmrl/Hr/10/2020
No ratings yet
Chennai Metro Rail Limited: Employment Notification No - Cmrl/Hr/10/2020
6 pages
Swami Lakshmanjoo "The Eight Limbs of Yoga"
No ratings yet
Swami Lakshmanjoo "The Eight Limbs of Yoga"
58 pages
Filipino Architects: UAP Collaboration & Initiatives
No ratings yet
Filipino Architects: UAP Collaboration & Initiatives
14 pages
Meseret Fetene
100% (1)
Meseret Fetene
22 pages
Silicon Motion: Growth & Valuation Insights
No ratings yet
Silicon Motion: Growth & Valuation Insights
27 pages

R Basic

Uploaded by

R Basic

Uploaded by

L1-IntroR

Introduction to R for Quant Methods

Tại sao sử dụng R

Cách thiết lập R ban đầu

Các tính toán đơn giản với R

Trước hết mở 1 khối lệnh với R có 2 cách:

Các hàm tính toán căn bản trong R

• print(x) - In ra màn hình

[1] "Hello world"

seq(10,80, 10) # Tạo 1 chuỗi tăng mỗi 10 đơn vị

starting httpd help server ... done

x<-2 # Gán x với giá trị 2

3 -> y # cách viết khác

x<-"a+b" # Gán x với 1 thông tin bất kỳ

x<- 10>5 # Gán phép tính logic

Cấu trúc dữ liệu trong R

Các cấu trúc căn bản trong R bao gồm:

[1] "a" "b" "c" "d" "e"

x <- matrix(1:30,nrow = 2 ) # Tạo ra 1 ma trận với 2 hàng, giá trị từ 1 đền 30

y <- matrix(1:30,ncol = 3) # tạo ra ma trận với 3 cột

[,1] [,2] [,3]

z <- matrix(1:30, nrow = 6, ncol = 5)

[,1] [,2] [,3] [,4] [,5]

data.frame(Col1=1:2, Col2=100:1) # Tạo ra dữ liệu và xem

x <- data.frame(Col1=1:5, Col2=1:10) # gán tên dữ liệu

List: 1 dạng thông tin đa dụng, hỗn hợp

L <- list(Truong="uel", Lop="Quant", soluong=3, thanhtich=c(7,10,2))

Các thư viện và gói mã lệnh

Warning: package 'tidyverse' was built under R version 4.4.1

-- Attaching core tidyverse packages ------------------------ tidyverse 2.0.0 --

Đọc và ghi dữ liệu

Lấy dữ liệu trên link thông tin lớp học: https://drive.google.com/drive/u/1/folders/1-

Cách 1: Nhập dữ liệu từ Stata

Link dẫn đến file cần đến là \ hoặc /

# Đọc thông tin

# Đọc thông tin

CountryName CountryCode year GDP

# Gán tên dữ liệu

View(WDI) # Xem bằng cách mở cửa sổ riêng

Cách 2: Nhập dữ liệu từ file excel

Đọc dữ liệu từ 1 file excel ở 1 sheet

WDI <- readxl::read_xlsx("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMetho

Xem tên biến

# Xem tên biến

Ghi bằng kiểu stata

WDI <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods

Ghi bằng kiểu excel

WDI %>% openxlsx::write.xlsx("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantM

Quản lý dữ liệu căn bản

Xem thông tin

WDI <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods

Xem tên biến

# Xem tên biến

[1] "CountryName" "CountryCode" "year" "GDP" "K"

Lưu lại thành dữ liệu

Tạo biến mới

Quay chiều dữ liệu (pivot)

WDI <- readxl::read_xlsx("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMetho

Đổi tên biến

Chạy thử mô hình

lm(GDP~L+K, data = WDI_data) %>% summary()

Residual standard error: 6.827e+11 on 5316 degrees of freedom

lm(log(GDP)~log(L)+log(K), data = WDI_data) %>% summary()

Warning in log(K): NaNs produced

Residual standard error: 0.3249 on 5315 degrees of freedom

Ghép có tên biến xác định giống nhau

Nhập dữ liệu từ file stata (dta)

D1 <- haven::read_dta("C:\\Users\\Huynh Chuong\\Desktop\\University\\UEL\\Class_QuantMethods\

Ghép toàn bộ dữ liệu giữ toàn bộ thông tin của D2

Nhập dữ liệu từ file stata (dta)

Ghép Ghép D2 vào D1

Ghép toàn bộ dữ liệu, giữ thông tin của D1

Ghép toàn bộ dữ liệu, giữ thông tin của D2

Ghép toàn bộ dữ liệu, giữ thông tin của cả D1, D2

Đồ thị căn bản

You might also like