BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.93 MB, 48 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA


BÁO CÁO BÀI TẬP LỚN
MÔN XÁC XUẤT THỐNG KÊ HỌC KÌ 211
GVHD: Nguyễn Đình Huy
Nhóm: L13
Nhóm sinh viên thực hiện:
STT

HỌ VÀ TÊN

MSSV

LỚP

1

Vũ Mai Hoài Nam

1914260 L13

2

Nguyễn Thái Uyên Vy

1912478 L13

3

Trần Nguyễn Diễm Thi

1915266 L13

4

Nguyễn Ngọc Hải Hà

1913211 L13

5

Phạm Thanh Thảo Nguyên

1914396 L13

NGÀNH

KÝ
TÊN

Thành phố Hồ Chí Minh – 2021

1

MỤC LỤC
A. PHẦN CHUNG
BÀI TẬP SỐ 1 .............................................................................................................. 3
1. Đọc dữ liệu (Import data): ........................................................................... 3

2. Làm sạch dữ liệu (Data cleaning): .............................................................. 3
3. Làm rõ dữ liệu.............................................................................................7
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression
models):.........................................................................................................19
5. Dự báo (Predictions).................................................................................26
B. PHẦN RIÊNG
LÝ DO CHỌN ĐỀ TÀI ............................................................................................. 28
ĐỀ BÀI ....................................................................................................................... 28
XỬ LÝ SỐ LIỆU ........................................................................................................ 29
1. Đọc dữ liệu. ...................................................................................................... 29
2. Làm sạch dữ liệu (Data cleaning) .................................................................... 30
3. Làm rõ dữ liệu (Data visualization): ................................................................ 30
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression
models):................................................................................................................41
5. Dự báo (Predictions) ........................................................................................ 46
6. Kết luận: ........................................................................................................... 48

A. PHẦN CHUNG
Đề 1: Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
ngôi nhà ở quân King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015. Bên

2

cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mơ tả chất lượng ngơi nhà. Dữ liệu gốc
được cung cấp tại: />Các biến chính trong bộ dữ liệu:
 price: Giá nhà được bán ra.
 floors: Số tầng của ngôi nhà được phân loại từ 1-3.5.
 condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt.
 view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4

 sqft_above: Diện tích ngơi nhà.
 sqft_living: Diện tích khn viên nhà.
 sqft_basement: Diện tích tầng hầm.
1. Đọc dữ liệu (Import data):
Dùng lệnh read.csv() để đọc tệp tin.
Input:
house_price = read.csv("C:/Users/Asus/Desktop/XSTK-211/gia_nha.csv")
# Đọc tệp tin và lưu dữ liệu với tên là house_price Output

2. Làm sạch dữ liệu (Data cleaning):
a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta
quan tâm như đã trình bày trong phần giới thiệu dữ liệu. Từ câu hỏi này về sau, mọi yêu
cầu xử lý đều dựa trên tập dữ liệu con new_DF này.
Input:
names(house_price)
# Liệt kê tất cả các biến có trong house_price

3

Output:

[1] "X.2"

"X.1"

"X"

[4] "id"

"date"

"price"

[7] "bedrooms"

"bathrooms"

"sqft_living"

[10] "sqft_lot"

"floors"

"waterfront"

[13] "view"

"condition"

"grade"

[16] "sqft_above"

"sqft_basement"

"yr_built"

[19] "yr_renovated"

"zipcode"

"lat"

[22] "long"

"sqft_living15"

"sqft_lot15"

Input:
new_DF = data.frame(house_price[,c(6,23,11,14,16,9,17)])
# Trích ra dữ liệu con đặt tên là new_DF bao gồm các biến chính.
Output:

Input:
4

head(new_DF)
Output:
price

sqft_living15

floors

condition sqft_above sqft_living sqft_living

sqft_basement

1 221900

1340

1

3

1180

1180

1180

0

2 538000

1690

2

3

2170

2570

2570

400

3 180000

2720

1

3

770

770

770

0

4 604000

1360

1

5

1050

1960

1960

910

5 510000

1800

1

3

1680

1680

1680

0

6 1225000

4760

1

3

3890

5420

5420

1530

b) Kiểm tra các dữ liệu bị khuyết trong tập tin. (Các câu lênh tham khảo: is.na(), which(),
apply()). Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho những dữ liệu
bị khuyết này.
Input:
apply(is.na(new_DF), 2, which)
# Kiểm tra và xuất ra vị trí dịng chứa giá trị khuyết của các biến trong new_DF
Output:

Input:
colSums(is.na(new_DF))
5

# Thống kê số lượng giá trị khuyết trong new_DF
Output:
price

spft_living15

floors

condition

sqft_above

sqft_living

sqft_basement

20

0

0

0

0

0

0

Input:
colMeans(is.na(new_DF))
# Tính tỉ lệ giá trị khuyết trong dữ liệu.
Output:
Dựa trên kết quả thu được, ta nhận thấy có các giá trị khuyết tại biến price. Vậy nên ta
cần xử lý các giá trị khuyết đó. Phương pháp xử lí được đề xuất là thay thế giá trị trung
bình vào các quan sát của biến price tại vị trí chứa giá trị khuyết.
Input:
new_DF$price[is.na(new_DF$price)]=mean(new_DF$price,na.rm=T)
# Thay thế các quan sát chứa giá trị khuyết tại biến price bằng giá trị trung bình.

Output

6

3. Làm rõ dữ liệu
a) Chuyển đổi các biến price, sqft_living15, sqft_above, sqft_living lần lượt thành
log(price), log(sqft_living15), log(sqft_above), và log(sqft_living). Từ đây mọi sự tính
tốn với các biến trên được hiểu là đã qua đổi biến dạng log.
Input:
new_DF[,c(1,2,5,6)]=log(new_DF[,c(1,2,5,6)])
#Chuyển đối biến price thành log(price), sqft_living15 thành log(sqft_living15),
sqft_above thành log(sqft_above), sqft_living thành log(sqft_living).
Output:

7

b) Đối với các biến liên tục, hãy tính các giá trị thống kê mơ tả bao gồm: trung bình,
trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả dưới dạng bảng.
(Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()).
8

Input:
mean=apply(new_DF[,c(1,2,5,6)],2,mean)
# Tính trung bình của các biến liên tục (price, sqft_living15, sqft_above, sqft_living) và
lưu vào biến có tên là mean
median=apply(new_DF[,c(1,2,5,6)],2,median)

# Tính trung vị của các biến liên tục (price, sqft_living15, sqft_above, sqft_living) và lưu
vào biến có tên là median
sd=apply(new_DF[,c(1,2,5,6)],2,sd)
# Tính độ lệch chuẩn của các biến liên tục (price, sqft_living15, sqft_above, sqft_living)
và lưu vào biến có tên là sd
max=apply(new_DF[,c(1,2,5,6)],2,max)
# Tính giá trị lớn nhất của các biến liên tục (price, sqft_living15, sqft_above, sqft_living)
và lưu vào biến có tên là max
min=apply(new_DF[,c(1,2,5,6)],2,min)
# Tính giá trị nhỏ nhất của các biến liên tục (price, sqft_living15, sqft_above,
sqft_living) và lưu vào biến có tên là min
descriptive=data.frame(mean,median,sd,max,min)
descriptive
# Tạo bảng thể hiện các giá trị thống kê mô tả cho các biến liên tục, lưu vào biến
descriptive
Output:

c) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại
(Hàm gợi ý: table()).
Input
9

table(new_DF$floors)
# Tạo bảng thống kê số lượng cho biến floors.
table(new_DF$condition)
# Tạo bảng thống kê số lượng cho biến conditon.
Output:

d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến price.

Input:
hist(new_DF$price,xlab="price",main="Histogram of price",labels=T)
# Vẽ biểu đồ historgram cho biến price.
Output:

10

Nhận xét: Đồ thị phân phối của biến price có hình dạng phân phối ch̉n. Ngồi ra, ta có
thể thấy giá nhà tập trung phần lớn ở mức giá từ 12.5$ - 13.5$, phân bố tần số cao nhất ở
mức giá 12.5$-13$, phân bố tần số thấp nhất ở mức giá 15.5$ -16$
e) Hãy dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của
biến floors và biến condition.
Input:
boxplot(price~floors,main="Boxplot of price for each category of floor",new_DF)
# Vẽ biểu đồ Boxplot của biến price cho từng nhóm phân loại của biến floors.
Output:

11

Nhận xét:
• Với nhóm nhà có 1 tầng:
Giá nhà bán ra thị trường cao nhất khoảng 15.5$
Giá nhà bán ra thị trường thấp nhất 11.2$
Có khoảng 25% nhà bán ra thị trường với giá dưới 12.5$
Có khoảng 50% nhà bán ra thị trường với giá dưới 12.9$
Có khoảng 75% nhà bán ra thị trường với giá dưới 13.25$
Phạm vi liên phần tử (IQR) khoảng 0.75$
• Với nhóm nhà có 1.5 tầng:

Giá nhà bán ra thị trường cao nhất khoảng 15.25$
Giá nhà bán ra thị trường thấp nhất khoảng 11.5$
Có khoảng 25% nhà bán ra thị trường với giá dưới 12.85$
12

Có khoảng 50% nhà bán ra thị trường với giá dưới 13.25$
Có khoảng 75% nhà bán ra thị trường với giá dưới 13.4$
Phạm vi liên phần tử (IQR) khoảng 0.55$
• Với nhóm nhà có 2 tầng:
Giá nhà bán ra thị trường cao nhất khoảng 15.75$
Giá nhà bán ra thị trường thấp nhất khoảng 11.5$
Có khoảng 25% nhà bán ra thị trường với giá dưới 12.9$
Có khoảng 50% nhà bán ra thị trường với giá dưới 13.3$
Có khoảng 75% nhà bán ra thị trường với giá dưới 13.5$
Phạm vi liên phần tử (IQR) khoảng 0.6$
• Với nhóm nhà có 2.5 tầng:
Giá nhà bán ra thị trường cao nhất khoảng 15.85$
Giá nhà bán ra thị trường thấp nhất khoảng 12.5$
Có khoảng 25% nhà bán ra thị trường với giá dưới 13.25$
Có khoảng 50% nhà bán ra thị trường với giá dưới 13.5$
Có khoảng 75% nhà bán ra thị trường với giá dưới 14.15$
Phạm vi liên phần tử (IQR) khoảng 0.9
• Với nhóm nhà có 3 tầng:
Giá nhà bán ra thị trường cao nhất khoảng 14.8$
Giá nhà bán ra thị trường thấp nhất khoảng 12.4$
Có khoảng 25% nhà bán ra thị trường với giá dưới 12.9$
Có khoảng 50% nhà bán ra thị trường với giá dưới 13.1$
Có khoảng 75% nhà bán ra thị trường với giá dưới 13.3$
Phạm vi liên phần tử (IQR) khoảng 0.4$

• Với nhóm nhà có 3.5 tầng:
Giá nhà bán ra thị trường cao nhất khoảng 14.85$
Giá nhà bán ra thị trường thấp nhất khoảng 12.9$
Có khoảng 25% nhà bán ra thị trường với giá dưới 13.1$
Có khoảng 50% nhà bán ra thị trường với giá dưới 13.2$
Có khoảng 75% nhà bán ra thị trường với giá dưới 13.5$
13

Phạm vi liên phần tử (IQR) khoảng 0.4$
Nhìn chung, nhóm nhà có số tầng từ 2 đến 2.5 có giá nhà bán ra cao nhất. Điều này cho
thấy nhóm nhà này được ưa chuộng nhất và phù hợp nhất với người dân quận King nước
Mỹ. Giá bán ra cao nhất thuộc nhóm nhà có 2.5 tầng, thấp nhất ở nhóm nhà có 1 tầng.
Cũng có thể đánh giá được giá bán ra của nhóm nhà 3.5 tầng khá đồng đều so với những
nhóm khác
Input:
boxplot(price~condition,main="Boxplot of price for each category of
condition",new_DF)
# Vẽ biểu đồ Boxplot cho biến price cho từng nhóm phân loại của biến condition.
Ouput:

Nhận xét:
• Với nhóm nhà có điều kiện kiến trúc rất tệ(1):
Giá nhà bán ra thị trường cao nhất khoảng 14.25$
Giá nhà bán ra thị trường thấp nhất khoảng 11.25$
Có khoảng 25% nhà bán ra thị trường với giá dưới 11.9$
14

Có khoảng 50% nhà bán ra thị trường với giá dưới 12.5$

Có khoảng 75% nhà bán ra thị trường với giá dưới 13$
Phạm vi liên phần tử (IQR) khoảng 1.1$
• Với nhóm nhà có điều kiện kiến trúc tệ(2):
Giá nhà bán ra thị trường cao nhất khoảng 14.8$
Giá nhà bán ra thị trường thấp nhất khoảng 11.25$
Có khoảng 25% nhà bán ra thị trường với giá dưới 12.25$
Có khoảng 50% nhà bán ra thị trường với giá dưới 12.6$
Có khoảng 75% nhà bán ra thị trường với giá dưới 12.9$
Phạm vi liên phần tử (IQR) khoảng 0.65$
• Với nhóm nhà có điều kiện kiến trúc trung bình(3):
Giá nhà bán ra thị trường cao nhất khoảng 15.8$
Giá nhà bán ra thị trường thấp nhất khoảng 11.15$
Có khoảng 25% nhà bán ra thị trường với giá dưới 12.7$
Có khoảng 50% nhà bán ra thị trường với giá dưới 13$
Có khoảng 75% nhà bán ra thị trường với giá dưới 13.3$
Phạm vi liên phần tử (IQR) khoảng 0.6$
• Với nhóm nhà có điều kiện kiến trúc tốt(4):
Giá nhà bán ra thị trường cao nhất khoảng 15.9$
Giá nhà bán ra thị trường thấp nhất khoảng 11.4$
Có khoảng 25% nhà bán ra thị trường với giá dưới 12.6$
Có khoảng 50% nhà bán ra thị trường với giá dưới 13$
Có khoảng 75% nhà bán ra thị trường với giá dưới 13.25$
Phạm vi liên phần tử (IQR) khoảng 0.65$
• Với nhóm nhà có điều kiện kiến trúc rất tốt(5):
Giá nhà bán ra thị trường cao nhất khoảng 15.2$
Giá nhà bán ra thị trường thấp nhất khoảng 11.6$
Có khoảng 25% nhà bán ra thị trường với giá dưới 12.8$
Có khoảng 50% nhà bán ra thị trường với giá dưới 13.1$
Có khoảng 75% nhà bán ra thị trường với giá dưới 13.4$
Phạm vi liên phần tử (IQR) khoảng 0.6$

15

Với điều kiện kiến trúc ngôi nhà từ mức trung bình trở lên, ta thấy giá cả nhà bán ra cao
hơn so với điều kiện kiến trúc ngôi nhà tệ hoặc rất tệ. Từ đó điều kiện kiến trúc ngơi nhà
càng tốt thì giá càng cao tỷ lệ thuận với nhu cầu nhà ở của người dân.
Nhận xét chung: Dựa vào các biểu đồ Boxplot ta nhận thấy có nhiều ngoại lai của biến
price theo biến floors và condition. Nguyên nhân có nhiều biến ngoại lai rất có thể là do
lỗi phát sinh trong quá trình nhập và chỉnh sửa dữ liệu hoặc người ta cố tình tạo ra giá trị
ảo để test thị trường hoặc làm mồi nhử, hoặc thâm chí là trong một vài ngày, giá nhà cao
hơn một cách đột biến so với các ngày còn lại do gần đó có một sự kiện cộng đồng…
f) Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến sqft_living15,
sqft_above, và sqft_living.
Input:
pairs(price~sqft_living15,main="Pairs of price for each category of sqft_living15" ,
new_DF)
# Vẽ phân phối của biến price theo biến sqft_living15.
pairs(price~sqft_above,main="Pairs of price for each category of sqft_above", new_DF)
# Vẽ phân phối của biến price theo biến sqft_above.
pairs(price~sqft_living,main = "Pairs of price for each category of sqft_living" ,new_DF)
# Vẽ phân phối của biến price theo biến sqft_living.
Output:

16

17

18

Nhận xét: Từ các đồ thị phân tán của biến price theo sqft_living15, sqft_above,
sqft_living, ta nhận thấy các biến sqft_living15, sqft_above, sqft_living có quan hệ tuyến
tính với price, nói rõ hơn là quan hệ đồng biến. Có thể nhận thấy khi các biến
sqft_living15, sqft_above, sqft_living tăng lên thì biến price có xu hướng tăng theo.
4. Xây dựng các mơ hình hồi quy tuyến tính (Fitting linear regression models):
a) Xét mơ hình hồi quy tuyến tính bao gồm biến price là một biến phụ thuộc, và
tất cả các biến còn lại đều là biến độc lập. Hãy dùng lệnh lm() để thực thi mơ hình
hồi quy tuyến tính bội.
Input:
m1 = lm(price ~ sqft_living15 + floors + condition + sqft_above + sqft_living, data
= new_DF)
summary(m1)
# Xây dựng mơ hình tuyến tính bội theo mơ hình m1
# Thống kê kết quả tính tốn khi xây dựng mơ hình m1

19

Output:

Từ kết quả phân tích, ta thu được: 𝛽0 =5.451345, 𝛽1=0.429764, 𝛽2 =0.13687,
𝛽3=0.085407, 𝛽4= – 0.178314, 𝛽5 = 0.685977.
Như vậy đường thẳng hồi quy ước lượng cho bởi phương trình sau:
Price = 5.451345 + 0.429764 x sqft_living15 + 0.13687 x floors + 0.085407 x condition
– 0.178314 x sqft_above + 0.685977 x sqft_living
Hệ số R2 hiệu chỉnh bằng 0.4983 nghĩa là 49.83 % sự biến thiên trong biến Price được
giải thích bởi các biến sqft_living15, floors, condition, sqft_above, sqft_living.
b) Dựa vào kết quả của mơ hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi

mơ hình tương ứng với mức ý nghĩa 5%?
Ta đặt giả thiết:
H0: Các hệ số hồi quy khơng có ý nghĩa thống kê.
H1: Các hệ số hồi quy có ý nghĩa thống kê.
Nhận xét: Dựa vào kết quả của mơ hình hồi quy, ta nhận thấy Pr(>|t|) của tất cả các hệ số
tương ứng các biến đều bằng 2𝑒 −16 , bé hơn nhiều so với mức ý nghĩa 5%, nên ta sẽ bác
bỏ giả thiết H0, chấp nhận giả thiết H1, có nghĩa là tất cả các hệ số ứng với các biến đều
có ý nghĩa thống kê. Vậy ta sẽ khơng loại bỏ biến nào ra khỏi mơ hình.
c) Xét 2 mơ hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng:
+ Mơ hình M1 chứa tất cả các biến cịn lại là biến độc lập
+ Mơ hình M2 là loại bỏ biến condition từ mơ hình M1.
Hãy dùng lệnhh anova() để đề xuất mơ hình hồi quy hợp lý hơn.
Input:
m2 = lm(price ~ sqft_living15 + floors + sqft_above + sqft_living,data = new_DF)
20

summary(m2)
# Xây dựng mơ hình tuyến tính bội theo mơ hình m2
# Thống kê kết quả tính tốn khi xây dựng mơ hình m2
Output:

Từ kết quả phân tích, ta thu được:𝛽0 = 5.81042, 1 = 0.414445, 𝛽2 = 0.112811, 𝛽3 = –
0.203136, 𝛽4 = 0.721355.
Như vậy đường thẳng hồi quy ước lượng cho bởi phương trình sau:
Price = 5.81042 + 0.414445.sqft_living15 + 0.112811.floors – 0.203136.sqft_above +
0.721355.sqft_living
Hệ số R2 hiệu chỉnh bằng 0.4881 nghĩa là 48,81 % sự biến thiên trong biến Price
được giải thích bởi các biến sqft_living15, floors, sqft_above, sqft_living.
Input:

anova(m1,m2)
# Phân tích phương sai cho hai mơ hình tuyến tính m1 và m2

21

Output:

Ta đặt giả thiết:
H0: Hai mơ hình hiệu quả như nhau
H1: Hai mơ hình hiệu quả khác nhau
Nhận xét: Vì kết quả thu được trong bảng Anova cho 2 mô hình M1 và M2 là Pr(>F)
= 2,2.𝑒 −16 Nhỏ hơn 0.05 nên ta bác bỏ H0, chấp nhận H1. Điều đó chỉ ra rằng 2 mơ
hình là khác nhau. Do đó ta sẽ cân nhắc việc chọn mơ hình M1 hay mơ hình M2. Đối
với mơ hình M2, biến loại bỏ đi từ mơ hình M1 là condition, mà biến condition ta
khơng loại bỏ khỏi mơ hình (đã xét ở câu b) do đó ta sẽ có chọn mơ hình M1 sẽ hợp
lý hơn.
Mặt khác, ta có thể xét hệ số muiltle R2 (hệ số xác định) ở mơ hình M1 = 0,4984 >
hệ số multiple R2 (hệ số xác định) ở mơ hình M2 = 0,4882. Tức có nghĩa là mơ hình
M1 cho ta biết sự thay đởi của biến price được giải thích bởi các biến độc lập tốt
hơn so với mơ hình M2.
d) Chọn mơ hình hợp lý hơn từ câu (c) hãy suy luận sự tác động của các biến lên giá nhà.
Nhận xét: Dựa kết quả việc lựa chọn mơ hình ở câu (c), ta nhận thấy mơ hình 1 là
hợp lý nhất, tức biến price có liên quan tuyến tính đến tất cả các biến độc lập cịn
lại. Ngồi ra, dựa trên kết quả tóm tắt trên mơ hình 1, ta nhận thấy các biến độc lập
đều có Pr(>t) rất bé (***), tức khả năng bác bỏ H0 càng cao, tức các hệ số ứng với
các biến trên có ý nghĩa thống kê cao, có nghĩa là những thay đởi của các biến này
có ảnh hưởng nhiều đến sự thay đổi của giá nhà. Ngồi ra, ta có thể đánh giá sự tác
động của các hệ số ứng với từng biến độc lập.
Ví dụ như: hệ số hồi quy ứng với sqft_living15 = 0.430556 thì ứng với sqft_living15

tăng 1 đơn vị thì ta có thể kỳ vọng giá nhà có thể tăng 0,4305 đơn vị (giả sử rằng các biến
dự báo cịn lại khơng đổi). Tương tự cũng như hệ số hồi quy ứng với floors = 0.137069
thì ứng với floors tăng 1 đơn vị thì ta có thể kỳ vọng giá nhà tăng 0.137069 (giả sử rằng
các biến dự báo cịn lại khơng đởi)
e) Từ mơ hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu
thị sai số hồi quy (residuals) và giá trị dự báo (fitted values). Nêu ý nghĩa và nhận
xét đồ thị.
Input:
plot(m1,which = 1)
# Vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values)
Output:
22

Nhận xét: Đồ thị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương
ứng. Dựa vào đồ thị ta thấy, đường thẳng màu đỏ trên đồ thị là đường hơi cong (lõm ở
giữa), tức là mối quan hệ giữa các biến dự báo X và biến phụ thuộc Y được xem như là
tuyến tính, thoả mản giả định tuyến tính của dữ liệu. Ngồi ra các giá trị thặng dư (sai số)
phân tán tương đối đều xung quanh đường thẳng y = 0, chứng tỏ phương sai của các sai
số là hằng số.
• Các giả định trong mơ hình hồi quy tuyến tính:
Y và X có mối quan hệ tuyến tính
Sai số hồi quy tuân theo phân phối chuẩn
Các sai số phải độc lập với nhau
Phương sai các sai số phải là hằng số
• Vẽ thêm các biểu đồ để kiểm tra các giả định của mơ hình hồi quy
Input:
plot(m1,which = 1)
plot(m1,which = 2)
plot(m1,which = 3)

plot(m1,which = 5)
Output:
Đồ thị 1:
23

Nhận xét: Dựa vào đồ thị ta thấy, đường thẳng màu đỏ trên đồ thị là đường thẳng hơi
cong nằm ngang, nhưng mức độ cong khá nhỏ còn chấp nhận được, tức là mối quan hệ
giữa các biến dự báo X và biến phụ thuộc Y được xem như là tuyến tính, thoả mãn giả
định tuyến tính của dữ liệu. Ngoài ra các giá trị thặng dư (sai số) phân tán tương đối đều
xung quanh đường thẳng y = 0 (ngoài trừ một số giá trị là ngoại lai), chứng tỏ phương sai
của các sai số là hằng số.
Đồ thị 2: Đồ thị kiểm tra giả định về phân phối chuẩn của các sai số.Nếu các điểm thặng
dư nằm trên cùng 1 đường thẳng thì điều kiện về phân phối chuẩn được thỏa mãn.

24

Nhận xét: Nhìn vào từng đồ thị, ta nhận thấy các biến tập trung đa số xung quanh đường
thẳng 45𝑜 , ở khoảng đầu và cuối có vài giá trị lệch khỏi đường thẳng nhưng không đáng
kể, nên giả định về các sai số tuân theo phân phối chuẩn được thỏa mãn.
Đồ thị 3: Đồ thị vẽ căn bậc hai của giá trị thặng dư được chuẩn hóa bởi các giá trị dự
báo, được dùng để kiểm tra giả định phương sai của các sai số là hằng số.

25

BÁO CÁO BÀI TẬP LỚN MÔN XÁC XUẤT THỐNG KÊ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về