ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
------------------------------------------------------------------------
TIỂU LUẬN
-------------------------------------------------------------------------------
Giảng viên hướng dẫn: TS. NGUYỄN ĐÌNH THN
Nhóm sinh viên thực hiện: 17520433 – PHẠM HUỲNH MỸ HẠNH
17520499 - NGUYỄN THỊ CẨM HOÀI
17520596 – HỒ THỊ NGỌC HUYỀN
17520692- TRƯƠNG THỊ MỸ LINH
17520831 – TRÀ THẢO NGUN
Mơn học:
Phân tích dữ liệu kinh doanh
Lớp:
IS403.K21
TP. Hồ Chí Minh, tháng 6 năm 2020
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
Contents
1. CÁC PHƯƠNG PHÁP ĐỂ ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA
CÁC PHƯƠNG TRÌNH HỒI QUI TÌM ĐƯỢC........................................3
2. CÁCH GIẢI QUYẾT BÀI TỐN HỒI QUY PHI TUYẾN...............4
2.1 Tại sao dùng bài toán hồi quy phi tuyến...............................................4
2.2 Cách giải quyết bài toán hồi quy phi tuyến..........................................4
Các phương trình hồi quy phi tuyến thường được sử dụng............................4
3. TÌM HIỂU VỀ CÁCH GIẢI BÀI TOÁN HỒI QUI LOGISTIC.......9
3.1. Khái niệm về hồi quy Logistic...............................................................9
2
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
1. CÁC PHƯƠNG PHÁP ĐỂ ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC PHƯƠNG
TRÌNH HỒI QUI TÌM ĐƯỢC
1.1. Phương trình hồi qui:
- Phương trình hồi qui là một mơ hình thống kê cho biết mối quan hệ giữa biến
quyết định và biến phụ thuộc.
- Phương trình hồi qui được sử dụng trong các số liệu thống kê để tìm ra mối quan
hệ nào, nếu có, tồn tại giữa các bộ dữ liệu.
- Dạng đơn giản nhất của một mơ hình hồi qui chứa một biến phụ thuộc (còn gọi là
"biến đầu ra," "biến nội sinh," "biến được thuyết minh", hay "biến-Y") và một biến
độc lập đơn (còn gọi là "hệ số," "biến ngoại sinh", "biến thuyết minh", hay "biếnX").
- Ví dụ thường dùng là sự phụ thuộc của huyết áp Y theo tuổi tác X của một người,
hay sự phụ thuộc của trọng lượng Y của một con thú nào đó theo khẩu phần thức
ăn hằng ngày X. Sự phụ thuộc này được gọi là hồi qui của Y lên X.
1.2. Các phương pháp đánh giá độ chính xác của phương trình hồi quy:
- Các tiêu chí để kiểm định độ chính xác của phương trình hồi qui bao gồm:
MAE: (Trung bình của sai biệt tuyệt đối) là một phương pháp đo lường sự
khác biệt giữa hai biến liên tục.
MAPE (Phần tram sai số tuyệt đối trung bình)
-
Tiêu chí MAPE đo lường sai biệt theo tỉ lệ % , dùng cho những trường hợp mà
biến kết quả có đơn vị quá thấp hoặc quá cao.
MSE: (trung bình bình phương sai số) là trung bình của bình phương của
sai số, tức là sự khác biệt giữa các giá trị được mơ hình dự đốn và gía trị
thực
RMSE: Căn bậc 2 của trung bình bình phương sai số: cho biết mức độ phân
tán các giá trị dự đoán từ các giá trị thực tế
3
Tiểu luận
-
-
-
-
GVHD: TS. Nguyễn Đình Thuân
Với n là tổng số quan sát.
Các tiêu chí MAE và MSE và RMSE có đặc tính, cơng năng như nhau và thường
cho cùng một kết quả khi đánh giá. Tuy nhiên, chuyên gia khuyến cáo rằng nếu giá
trị sai số εt đều nhau thì nên chọn tiêu chí MSE để đánh giá.
Ngược lại, nếu các giá trị sai số εt quá khác biệt thì nên chọn tiêu chí MAE để đánh
giá. Tiêu chí RMSE là căn bậc 2 của tiêu chí MSE nên hai tiêu chí về bản chất là
một; điều khác biệt là giá trị của tiêu chí RMSE bé hơn.
Tiêu chí MAPE giúp đánh giá sai số một cách tương đối. Giả sử sai số trung bình
là 1 đơn vị so với giá trị của dữ liệu là 100 thì vẫn là nhỏ (1%). Ngược lại, sai số
trung bình 1 đơn vị so với giá trị của dữ liệu là 10 thì được xem là lớn (10%). Vậy
nên khi đánh giá sai số dự báo với những bộ số liệu khác nhau thì nên sử dụng tiêu
chí MAPE
Ngược lại, với cùng một bộ số liệu nhưng áp dụng nhiều phương pháp dự báo
khác nhau thì khơng nên áp dụng tiêu chí MAPE vì tính phức tạp trong tính tốn.
4
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
2. CÁCH GIẢI QUYẾT BÀI TỐN HỒI QUY PHI TUYẾN
2.1 Tại sao dùng bài tốn hồi quy phi tuyến
Khi các mối quan hệ cơ bản giữa những biến số độc lập và phụ thuộc không phải
tuyến tính (phi tuyến), phương pháp hồi quy tuyến tính khơng ứng dụng được. Tuy
nhiên, các mối quan hệ có dạng cong (phi tuyến) có thể chuyển thành quan hệ tuyến
tính bằng cách đổi biến, đổi hàm, sử dụng logarit tự nhiên của các biến số, qua đó làm
cho chúng tuân theo phương pháp phân tích hồi quy tuyến tính.
2.2 Cách giải quyết bài toán hồi quy phi tuyến
Các phương trình hồi quy phi tuyến thường được sử dụng
2.2.1 Phương trình parabol bậc 2
Cơng thức:
Phương trình parabol bậc 2 thường được áp dụng trong trường hợp các trị số của
chỉ tiêu nguyên nhân tăng lên thì trị số của chỉ tiêu kết quả tăng (hoặc giảm), việc
5
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
tăng (hoặc giảm) đạt đến trị số cực đại (hoặc cực tiểu) rồi sau đó lại giảm (hoặc
tăng).
Trong đó a,b,c là hệ số phương trình
∑y = na + b∑x + c∑x2 (1)
∑xy = a∑x + b∑x2 + c∑x3 (2)
∑x2y = a∑x2 + b∑x3 + c∑x4 (3)
Bằng phương pháp bình phương nhỏ nhất ta xây dựng được các hệ phương trình
chuẩn tắc phù hợp để xác định các hệ số của các phương trình a,b, c
Ví dụ: Viết phương hồi quy phi tuyến tính dạng mơ hình parabol. Với kết quả thực
nghiệm giữa đại lượng nghiên cứu y và x có mối quan hệ:
Bảng tính được thiết lập như sau:
n
1
2
3
4
5
∑
xi
5
10
15
20
25
75
yi
1,8
2,2
2,5
2,77
2,8
12,07
xi2
25
100
225
400
625
1375
xi3
125
10000
3375
8000
15625
28125
xi4
625
10000
50625
160000
390625
611875
xiyi
9
22
37,5
55,4
56
193,9
xi2yi
45
220
562,5
1108
1400
3685,5
Với n=5, ta có hệ phương trình 3 ẩn
5a+75b+1375c=12,07
75a+1375b+28125c=193,9
1375a+28125b+611875c=3685,5
6
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
Giải hệ phương trình ta thu được: a=1,258 b=0,1174 c=-0,0022
Vậy phương trình hồi quy có dạng:
2.2.2 Phương trình hyperbol
Cơng thức :
Phương trình hypebol được áp dụng trong trường hợp các trị số của chỉ tiêu
nguyên nhân tăng thì trị số trị số của tiêu thức kết quả giảm với tốc độ không đều
Trong đó a,b là hệ số phương trình
Bằng phương pháp bình phương nhỏ nhất ta xây dựng được các hệ phương trình
chuẩn tắc phù hợp để xác định các hệ số của các phương trình a,b
2.2.3 Phương trình hàm số mũ
Phương trình hàm số mũ được áp dụng trong trường hợp cùng với sự tăng lên của
chỉ tiêu nguyên nhân thì trị số của các chỉ tiêu kết quả thay đổi theo cấp số nhân,
nghĩa là có tốc độ tăng xấp xỉ nhau
Việc xác định các hệ số phương trình hồi quy có thể rất khó khăn do phải giải hệ
phương trình phi tuyến. Việc tính tốn sẽ trở nên đơn giản hơn nếu tiến hành thay
thế các biến số và hạ bậc đa thức.
Công thức :
Biến đổi sơ bộ
Có thể đưa về hồi quy tuyến tính bằng cách biến đổi hàm trứơc khi đổi biến
Đầu tiên lấy log 2 vế:
7
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
log Y = loga + X*logb
Đặt biến: Z = log Y, a0 = loga, a1 = logb
Phương trình sau biến đổi:
Z = a0 + a1X
2.2.4 Phương trình dạng đa thức bậc cao
Cơng thức : Y = b0 + b1X1 + … + bmXm
Biến đổi sơ bộ
Có thể đưa về hồi quy tuyến tính bằng cách biến đổi hàm trứơc khi đổi biến
Đặt biến:
X1 = X1, … , Xm = Xm
Phương trình sau biến đổi:
Y = b0 + b1X1 + … + bmXm
2.2.5 Dạng tương tác giữa các biến vào:
Công thức: Y = b0 + b1X1+ b2X2+ b3X1X2
Biến đổi sơ bộ
Có thể đưa về hồi quy tuyến tính bằng cách biến đổi hàm trứơc khi đổi biến
Đặt biến:
X3 = X1X2
Phương trình sau biến đổi:
Y = b0 + b1X1 + b2X2 + b3X3
2.2.6 Phương trình hàm ngược
Cơng thức: Y = 1/(b0 + b1X1+ b2X2)
Biến đổi sơ bộ
Có thể đưa về hồi quy tuyến tính bằng cách biến đổi hàm trứơc khi đổi biến
Đổi hàm ra Z=1/Y
Phương trình sau biến đổi
Z = (b0 + b1X1+ b2X2)
8
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
2.2.7 Phương trình hàm lũy thừa
Công thức:
Biến đổi sơ bộ
Đầu tiên lấy log 2 vế: logY=logb+a*logX
Đặt biến: Z = logY, b0=logb, x1=logX
Thì có mơ hình hồi quy tuyến tính:
Z = b0+ax1
9
Tiểu luận
GVHD: TS. Nguyễn Đình Thn
3. TÌM HIỂU VỀ CÁCH GIẢI BÀI TOÁN HỒI QUI LOGISTIC
3.1. Khái niệm về hồi quy Logistic
Hồi quy logistic (Logistic regression) là mơ hình khá phổ biến trong nghiên cứu dùng
để ước lượng xác suất một sự kiện sẽ xảy ra. Đặc trưng của hồi quy logistic là biến
phụ thuộc chỉ có 2 giá trị 0 và 1
3.2. Mục tiêu của việc dùng bài toán hồi qui Logistic
Tìm ra mơ hình phù hợp nhất và tối ưu nhất để mô tả mối quan hệ biến mục tiêu y và
một tập hợp các biến độc lập x (biến dự đốn hoặc giả thích) qua đó đưa ra các kết
quả dự báo hay phân loại trong tương lai.
3.3. Tại sao dùng bài toán hồi quy Logistic
Trên thực tế, có rất nhiều hiện tượng tự nhiên, kinh tế, xã hội,… mà chúng ta cần dự
đoán khả năng xảy ra của nó: chiến dịch quảng cáo có được chấp nhận hay khơng,
người vay có trả được nợ hay khơng, cơng ty có phá sản hay khơng, khách hàng có
mua sản phẩm này khơng,… Những biến nghiên cứu có có 2 biểu hiện như vậy được
mã hóa thành 2 giá trị 0 và 1 - được gọi là biến nhị phân. Trong đó:
Biến nhị phân (binary variable): biến chỉ có 2 giá trị, 2 biểu hiện không trùng nhau
của một đơn vị, nếu đơn vị khơng có giá trị này, thì phải chứa giá trị cịn lại của biến
thay phiên. Ví dụ có hoặc khơng, sống hoặc chết, rời dịch vụ hay tiếp tục sử dụng
dịch vụ. Biến nhị phân có 2 dạng: Symmetric (đối xứng) và Asymmetric (khơng đối
xứng)
3.4. Cách giải quyết bài tốn
3.4.1. Lấy ví dụ cụ thể cho bài tốn hồi quy Logistic:
Ví dụ ứng dụng logistic regression vào email marketing. Một công ty bán lẻ các sản
phẩm cơng nghệ, điện tử có các cửa hàng nằm trong 2 tỉnh thành khác nhau, công ty
tháng trước đã triển khai một chương trình ưu đãi dành cho khách hàng thân thiết.
Công ty đã thiết kế một email quảng cáo để gửi đến những khách hàng của mình ở
tình A, bao gồm khách hàng có thẻ thành viên và những khách hàng khơng có thẻ
thành viên. Cơng ty muốn phân tích xem số tiền mà mỗi khách hàng bỏ ra trong 1
năm vừa qua và đăng ký thẻ thành viên có tác động đến như thế nào đến việc khách
hàng tham gia chương trình ưu đãi. Chương trình ưu đãi cụ thể là nhận phiếu giảm giá
25%, khi tổng giá trị hàng mua trên 5 triệu đồng. Lấy mẫu 100 khách hàng thì có 40
khách hàng tham gia bằng cách click vào link đăng ký trong email, 60 khách cịn lại
thì khơng. Cơng tu muốn dự báo hay phân loại một nhóm khách hàng ở cửa hàng tỉnh
B có khả năng đăng kí chương trình ưu đãi hay khơng nếu dựa vào kết quà phân tích
để quyết định tháng tới có làm chương trình tương tự hay khơng?
10
Tiểu luận
GVHD: TS. Nguyễn Đình Thn
3.4.2. Bài tốn đặt ra
Link:
/>Chúng ta sẽ xây dựng phương trình hồi quy Logistic sử dụng dữ liệu lịch sử để phân
tích khả năng khách hàng mới có khả năng đăng ký chương trình ưu đãi hay không?
Biến mục tiêu là đăng ký chương trình ưu đãi, trong đó:
+ y=1: đăng ký chương trình ưu đãi
+ y=0: khơng đăng ký chương trình ưu đãi
Biến độc lập là:
+ x1: số tiền khách hàng bỏ ra trong năm vừa rồi
+ x2: thông tin về đăng ký thẻ thành viên, có 2 giá trị:
o x2=1: có đăng ký thẻ thành viên
o x2=0: không đăng ký thẻ thành viên
3.4.3. Tiến hành giải bài toán: Ước lượng tham số: Phương pháp hợp lý cực đại
Phương trình hồi quy Logistic:
P(y =1) = hβ = 1/(1+e^(- β) ). Với β=β0 + β1x1 + … + βkxk
P(y=0) = 1- P(y=1)
Log của hàm hợp lí:
Tìm vectơ β[β0, β1,…, βn] sao cho Log(L(β)) đạt cực đại
Ví dụ trên gồm 100 dịng dữ liệu: Chúng ta chia tập dữ liệu ở phía trên thành 2 phần:
80 dòng để training và 20 dòng dữ liệu để test
Bước1: Tính β=β0 + β1x1 + β2x2. Giả sử β0 =1, β1 = 1, β2 = 1
11
Tiểu luận
GVHD: TS. Nguyễn Đình Thn
Bước 2: Tính hβ =1/(1+e^-β)
Bước 3: Tính Log(L(β ))= (y*log(hβ)+(1-y)*log(1-hβ)
12
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
Bước 4: Chúng ta dùng hàm Solver trong Excel để tìm β0, β1, β2 sao cho tổng của cột
y*log(hβ)+(1-y)*log(1-hβ) lớn nhất. Ta dùng hàm Solver trong Excel để tối ưu hóa kết
quả sum vừa tìm được
13
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
Ta tìm được β0 = -1.66775, β1 = 0.143447, β2 =0.932207
14
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
Phương trình hồi quy logistic là: P(y =1) = 1/(1+e^(- β) ).
Với β= -1.66775 + 0.143447x1 + 0.932207x2
Giả sử khách hàng số 81 có số tiền chi là 8.3 và có đăng ký là thành viên thì khách hàng
có khả năng đăng ký chương trình ưu đãi khơng?
P(y =1) = 1/(1+e^(- (-1.66775 + 0.143447 * 8.3 + 0.932207))) = 0.61
P(y=0) = 1 – 0.61 = 0.39
Ta có 0.61 > 0.39 nên ta dự đốn khách hàng này sẽ đăng ký chương trình khuyến
mãi. Ta đối chiếu kết quả thì thấy trùng khớp
Ta dùng hồi quy logistic để kiểm thử 20 dòng dữ liệu cịn lại.
Sau khi kiểm thử ta có ma trận nhầm lẫn
Lớp dương
Lớp dương
6
Lớp âm
2
Độ chính xác = 6/8 = 0.75
Độ phủ = 6/9 = 0.67
F1-score = 2* (0.75*0.67)/(0.75+0.67) =0.71
Lớp âm
3
9
Ta thấy f1-score khá cao nên ta có thể dùng hồi quy logistic để dự đốn khách hàng có
đăng ký chương trình khuyến mãi khơng
15
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
16
Tiểu luận
GVHD: TS. Nguyễn Đình Thn
BẢNG PHÂN CƠNG CƠNG VIỆC
Thành Viên
Nguyễn Thị Cẩm Hoài - 17520499
Phạm Huỳnh Mỹ Hạnh - 17520443
Trà Thảo Nguyên - 17520831
Trương Thị Mỹ Linh – 17520692
Hồ Thị Ngọc Huyền - 17520596
Công việc
Làm câu 1 bài tiểu luận
Làm câu 2 bài tiểu luận
Làm câu 2 bài tiểu luận
Làm câu 3 bài tiểu luận
Làm câu 3 bài tiểu luận
17
Tiểu luận
GVHD: TS. Nguyễn Đình Thuân
TÀI LIỆU THAM KHẢO
[1] />[2] />[3] />4M8RGrX1kgCggTXZlsQ
[4] />fbclid=IwAR1Imijzq7u1qwEHyLB9jx4l4iXUax8VoYGMXIwWuY2sUN3wJPy6pBh4uW8
[5] />
18