Tải bản đầy đủ (.pdf) (65 trang)

phân loại khả năng tiếp cận vốn tín chấp của khách hàng trên địa bàn tỉnh hậu giang

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.69 MB, 65 trang )

TRƯỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN

--------------

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

PHÂN LOẠI KHẢ NĂNG TIẾP CẬN
VỐN TÍN CHẤP CỦA KHÁCH HÀNG
TRÊN ĐỊA BÀN TỈNH HẬU GIANG

Giáo viên hướng dẫn
Ts. Võ Văn Tài

Sinh viên thực hiện
Nguyễn Thị Cẩm Linh
Mssv: 1117481
Ngành: Toán Ứng Dụng K37

Cần Thơ – 5/2015


LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với những sự
hổ trợ, giúp đở dù ít hay nhiều, dù trực tiếp hay gián tiếp. Trong suốt quá trình
học tập trên giãng đường đại học em đã nhận được rất nhiều sự quan tâm, giúp đở
của quý Thầy Cô, gia đình và bạn bè.
Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý thầy cô ở khoa Khoa học
Tự Nhiên – Trường Đại học Cần Thơ đã cùng với tri thức và tâm huyết của mình
để truyền đạt vốn kiến thức quý báu cho chúng em trong suốt quá trình học tập tại


trường.
Em xin gởi lời cám ơn đến cô Lê Thị Mỹ Xuân – cố vấn học tập lớp Toán
Ứng Dụng K37. Cảm ơn cô đã luôn dìu dắt chúng em từ ngày em và các bạn
bước chân vào giãng đường đại học đến hôm nay.
Em xin cảm ơn TS. Võ Văn Tài đã tận tình chỉ dạy em qua những bài học
trên lớp và đặc biệt trong quá trình chọn đề tài và hoàn thành luận văn tốt nghiệp.
Nếu không có sự giúp đở của thầy thì có lẽ em sẽ không thể hoàn thành được.
Một lần nữa em xin chân thành cảm ơn.
Cần Thơ, ngày…. Tháng…. Năm 2015

Nguyễn Thị Cẩm Linh

i


MỤC LỤC
LỜI CẢM ƠN .................................................................................................. i
MỤC LỤC ...................................................................................................... ii
DANH MỤC BẢNG ...................................................................................... iv
PHẦN MỞ ĐẦU ............................................................................................. 1
1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI
TRONG VÀ NGOÀI NƯỚC .............................................................................. 1
1.1 Ngoài nước ................................................................................................. 1
1.2 Trong nước ................................................................................................. 1
2. LÝ DO CHỌN ĐỀ TÀI................................................................................... 2
3. MỤC TIÊU ĐỀ TÀI ........................................................................................ 2
4. PHƯƠNG PHÁP NGHIÊN CỨU ................................................................... 2
5. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................................ 3
6. CẤU TRÚC CỦA LUẬN VĂN ...................................................................... 3
Chương 1: PHÂN LOẠI BẰNG PHƯƠNG PHÁP LOGISTIC VÀ PHƯƠNG

PHÁP FISHER ............................................................................................... 4
1.1 HỒI QUY LOGISTIC ĐƠN ......................................................................... 4
1.1.1 Số chênh và tỷ số của số chênh ............................................................... 4
1.1.2 Mô hình ................................................................................................... 4
1.1.3 Xây dựng mô hình hồi quy mẫu ............................................................. 5
1.2 HỒI QUY LOGISTIC BỘI ........................................................................... 6
1.2.1 Mô hình ................................................................................................... 6
1.2.2 Xây dựng mô hình hồi quy mẫu ............................................................. 6
1.2.3 Ý nghĩa hệ số của hồi quy ....................................................................... 7
1.2.4 Vấn đề phân loại ..................................................................................... 8
1.2.5 Vấn đề tính toán ...................................................................................... 8
1.2.6 Một số vấn đề khác trong xây dựng mô hình hồi quy logistic ................ 9
1.3 PHƯƠNG PHÁP FISHER .......................................................................... 11
1.3.1 Trường hợp hai tổng thể........................................................................ 11
1.3.2 Trường hợp nhiều hơn 2 tổng thể ......................................................... 12
1.3.3 Vấn đề tính toán .................................................................................... 14
Chương 2: PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES ......................... 17
2.1 TRƯỜNG HỢP HAI TỔNG THỂ .............................................................. 17
2.1.1 Khi quan tâm đến xác suất tiên nghiệm ................................................ 17
2.1.2 Khi ta không quan tâm đến xác suất tiên nghiệm hoặc xác suất tiên
nghiệm bằng nhau .......................................................................................... 18
2.2 TRƯỜNG HỢP NHIỀU HƠN HAI TỔNG THỂ ....................................... 18
2.2.1 Khi quan tâm đến xác suất tiên nghiệm ................................................ 18
2.2.2 Hàm phân biệt khi biến quan sát có phân phối chuẩn .......................... 19
ii


2.3 SAI SỐ BAYES .......................................................................................... 19
2.3.1 Trường hợp hai tổng thể........................................................................ 19
2.3.2 Trường hợp nhiều hơn hai tổng thể ...................................................... 20

2.3.3 Một số kết quả về sai số Bayes ............................................................. 21
2.4 VẤN ĐỀ TÍNH TOÁN TRONG PHƯƠNG PHÁP BAYES ..................... 34
2.4.1 Ước lượng hàm mật độ xác suất bằng phương pháp hạt nhân .............. 34
2.4.2 Vấn đề phân loại ................................................................................... 37
2.4.3 Vấn đề tính sai số Bayes ....................................................................... 38
Chương 3: ĐÁNH GIÁ CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN KHẢ NĂNG
TIẾP CẬN VỐN VAY TÍN CHẤP TẠI TỈNH HẬU GIANG ...................... 39
3.1 GIỚI THIỆU ................................................................................................ 39
3.1.1 Tổng quan về tỉnh Hậu Giang ............................................................... 39
3.1.2 Giới thiệu về vấn đề vai tín chấp ngân hàng ......................................... 42
3.2 TỔNG QUAN VIỆC THỰC HIỆN ............................................................ 43
3.2.1 Số liệu ................................................................................................... 43
3.2.2 Phương pháp thực hiện ......................................................................... 44
3.2.3 Vấn đề tính toán .................................................................................... 45
3.3 KẾT QUẢ THỰC HIỆN ............................................................................. 45
3.3.1 Theo phương pháp hồi quy Logistic ..................................................... 45
3.3.2 Phương pháp Fisher .............................................................................. 52
3.3.3 Phương pháp Bayes............................................................................... 56
3.4 KẾT LUẬN ................................................................................................. 57
KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU ......................................... 59
1. KẾT LUẬN ................................................................................................... 59
2. ĐỊNH HƯỚNG NGHIÊN CỨU ................................................................... 59
TÀI LIỆU THAM KHẢO ............................................................................ 60

iii


DANH MỤC BẢNG
Bảng 3.1. Các biến độc lập được khảo sát. ........................................................... 44
Bảng 3.2. Hệ số tương quan cặp của biến định lượng đưa vào mô hình. ............. 45

Bảng 3.3. Bảng phân tích hồi quy Logistic cho 9 biến. ........................................ 47
Bảng 3.4. Tổng hợp các trường hợp phân loại bằng phương pháp Logistic ........ 48
Bảng 3.5. Các bảng phân tích hồi quy Logistic cho 3 biến X2, X5, X7. ............. 48
Bảng3.6. Tổng hợp các trường hợp phân loại bằng phương pháp Fisher. ........... 52
Bảng 3.7. Phân loại bằng phương pháp Fisher cho 2 biến H và N. ...................... 53
Bảng 3.8. Bảng tổng hợp sai số các trường hợp phân loại. .................................. 56
Bảng 3.9. Bảng tổng hợp khả năng phân loại đúng của 3 phương pháp. ............. 57

iv


PHẦN MỞ ĐẦU
1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI
TRONG VÀ NGOÀI NƯỚC
1.1 Ngoài nước
Bài toán phân loại lần đầu tiên được đưa ra bởi Fisher (1936) giải quyết cho
trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher. Hàm phân biệt này
chỉ được thiết lập khi ma trận hiệp phương sai của hai tổng thể bằng nhau. Năm
1948, Rao đã mở rộng cho trường hợp nhiều hơn hai tổng thể, nhưng cũng trên cơ
sở giả thiết ma trận hiệp phương sai các tổng thể bằng nhau. Một phương pháp
khác, đó là phương pháp thống kê tuần tự do Kendall (1973) đề nghị. Nhưng đây
chỉ là phương pháp mang tính chất thủ công, rất phức tạp mà thực tế gần như
không thể thực hiện được. Một số khía cạnh liên quan của bài toán phân loại đề
cập cho đến 1970 khi mà máy tính chưa được phát triển. Rất nhiều tài liệu trong
đó có Fukunaga (1990), McLachlan (1992), Webb (2002), đã tổng kết những kết
quả đạt được của bài toán phân loại. Trong các tài liệu này hồi quy logistic được
đề cập như một phương pháp phân loại hiệu quả. Dựa vào thống kê Bayes,
phương pháp phân loại Bayes đã ra đời. Phương pháp này cho đến hiện tại được
xem có nhiều ưu điểm nhất vì đã giải quyết được yêu cầu đặt ra của bài toán phân
loại. Tìm ra thuật toán, đồng thời đưa ra biểu thức tính sai số phân loại. Hiện nay

các kết quả mới về mặt lý thuyết của vấn đề phân loại hầu như chỉ tập trung vào
phương pháp Bayes. Tuy nhiên vấn đề giải quyết chỉ mang tính chất lý thuyết,
việc tính toán thực tế rất khó khăn do tính chất phức tạp của các tiêu chuẩn, hay
tính tích phân.
1.2 Trong nước
Trong nước chúng tôi chưa tìm thấy đóng góp nào về mặt lý thuyết cho bài
toán phân loại, tuy nhiên vấn đề ứng dụng cho bài toán này đã được quan tâm
nhiều, nhất là trong lĩnh vực kinh tế. Vương Quân Hoàng, Đào Gia Hưng,
Nguyễn Văn Hữu (2008) đã áp dụng bài toán phân loại trong kinh tế. Một số tác
giả khác cũng đã áp dụng bài toán phân loại trong y học với việc xem xét bệnh
viêm não Nhật Bản, nguy cơ gãy xương,… Tuy nhiên các ứng dụng trong nước

1


hầu như chỉ sử dụng phương pháp phân loại Logistic mà chưa xem xét kết hợp
với các phương pháp khác để có được mô hình phân loại tối ưu.
2. LÝ DO CHỌN ĐỀ TÀI
Ngày nay thống kê có một vai trò rất quan trọng trong nghiên cứu khoa học
của tất cả các lĩnh vực, nhất là lĩnh vực thực nghiệm. Nó cũng có những đóng góp
không thể thiếu trong việc hoạch định các chiến lược phát triển kinh tế xã hội của
từng địa phương và quốc gia. Vai trò của thống kê không chỉ là tổng hợp những
con số mà điều quan trọng hơn là từ các con số đó ta có thể dự đoán được xu
hướng phát triển của nó trong tương lai. Hiện nay việc dự báo có một ý nghĩa rất
quan trọng trong mỗi lĩnh vực. Không ai có thể phủ định việc dự báo đúng sẽ đem
lại một lợi ích rất lớn trong sự phát triển kinh tế xã hội. Dự báo tốt sẽ giúp các tổ
chức hoạch định hướng đi cũng như xây dựng được các chiến lược phát triển phù
hợp. Cho đến hiện tại dự báo vẫn là một môn khoa học vô cùng phức tạp, đòi hỏi
nhiều kinh nghiệm và kiến thức liên quan. Trong kinh tế, đặc biệt từ sau khi gia
nhập WTO, ngân hàng thương mại với vai trò cung ứng tín dụng đã có những

đóng góp quan trọng đối với sự phát triển đội ngũ doanh nghiệp góp phần đẩy
nhanh tiến trình công nghiệp hóa hiện đại hóa đất nước. Trong cung cấp tín dụng
chúng ta có một hình thức vay có nhiều ưu điểm nhưng chưa được đẩy mạnh hiện
nay đó là vay tín chấp. Nhằm giúp ngân hàng có một cách nhìn tổng thể hơn các
yếu tố ảnh hưởng đến khả năng tiếp cận vốn vay tín chấp em chọn đề tài: Đánh
giá các yếu tố ảnh hưởng đến khả năng tiếp cận vốn vay tín chấp trên địa bàn
tỉnh Hậu Giang qua mô hình bài toán phân loại.
3. MỤC TIÊU ĐỀ TÀI
Tổng hợp các phương pháp phân loại, vấn đề tính toán với số liệu lớn để áp
dụng cụ thể trong lĩnh vực ngân hàng. Đánh giá các yếu tố ảnh hưởng đến khả
năng tiếp cận vốn vay tín chấp.
4. PHƯƠNG PHÁP NGHIÊN CỨU
Tổng hợp tài liệu về các phương pháp phân loại, phân tích, vận dụng
giải quyết vấn đề của thực tế với số liệu lớn.
Sử dụng phần mềm thống kê SPSS, phần mềm Matlab thực hiện việc
xử lý số liệu và tính toán.
Sử dụng các tiêu chuẩn xác suất sai lầm trong phân loại để lựa chọn
mô hình phù hợp nhất.
2


5. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
a) Đối tượng nghiên cứu
Các phương pháp phân loại và ứng dụng trong ngân hàng.
b) Phạm vi nghiên cứu
Vấn đề tính toán của các phương pháp phân loại và các số liệu thứ cấp
thu thập được về vấn đề vay tín chấp.
6. CẤU TRÚC CỦA LUẬN VĂN
Chương 1: Phân loại bằng phương pháp logistic và phương pháp Fisher
Trình bày các mô hình và các vấn đề liên quan đến phương pháp hồi quy

Logistic và phương pháp Fisher. Các vấn đề liên quan đến việc tính toán cũng
như phân loại của hai phương pháp này.
Chương 2: Phân loại bằng phương pháp Bayes
Trình bày các trường hợp trong bài toán phân loại bằng phương pháp Bayes,
các vấn đề tính toán, phân loại. Ở đây đã thiết lập các chương trình liên quan đến
việc tính cho các phương pháp phân loại bằng phần mềm Matlab. Đó là chương
trình ước lượng hàm mật độ xác suất n chiều, chương trình tính sai số Bayes,
phương pháp Bayes. Trong chương này cũng trình bày một số kết quả về sai số
Bayes, việc tính sai số Bayes và một số kết quả liên quan đến sai số Bayes
Chương 3: Đánh giá các yếu tố ảnh hưởng đến khả năng tiếp cận vốn vay tín
chấp tại tỉnh Hậu Giang
Trình bày sơ lược về tỉnh Hậu Giang và vấn đề vay tín chấp ngân hàng; tổng
quan việc thực hiện về đánh giá khả năng trả nợ của khách hàng theo 3 phương
pháp: Fisher, Logistic và Bayses. Thực hiện lần lượt các phương pháp bằng sử
dụng các phần mềm đã trình bày ở chương 1, 2; sau đó phân tích các kết quả nhận
được và đưa ra nhận xét từng phương pháp. Sau cùng sẽ nhận xét một cách tổng
quan các kết quả đã đạt được của 3 phương pháp.

3


Chương 1

PHÂN LOẠI BẰNG PHƯƠNG PHÁP LOGISTIC
VÀ PHƯƠNG PHÁP FISHER
1.1 HỒI QUY LOGISTIC ĐƠN
Hồi quy Logistic là mô hình hồi quy mà biến phụ thuộc Y là một biến nhị
phân. Theo đó Y chỉ có 2 giá trị thường được mã hoá là 1 và 0 ( y  1 gọi là lớp
thành công; y  0 gọi là lớp thất bại). Biến độc lập trong hồi quy logistic có thể là
biến rời rạc hoặc liên tục, biến đơn hoặc đa biến số.

Hồi quy Logistic được xây dựng trên nền tảng các mô hình hồi quy phổ
biến, đặc biệt là hồi quy tuyến tính.
1.1.1 Số chênh và tỷ số của số chênh
Định nghĩa 1.1 Số chênh của một biến cố xảy ra được định nghĩa là tỷ số
giữa xác suất của biến cố xảy ra với xác suất của biến cố đó không xảy ra.
Kí hiệu: Số chênh của biến cố A được kí hiệu là odds  A .
Như vậy odds  A 

P  A
.
1  P  A

Định nghĩa 1.2 Tỷ số của số chênh hai biến cố A và B đã xảy ra là tỷ số
của odds  A và odds  B  . Kí hiệu: OR  A, B  .
Như vậy OR  A, B  

odds  A
P  A 1  P  B 

.
.
odds  B  1  P  A P  B 

Nhận xét: Số chênh của một biến cố đã xảy ra là con số so sánh số lần xác
suất xảy ra và không xảy ra của một biến cố. Trong khi đó OR  A, B  là số so
sánh số lần của odds  A và odds  B  .
1.1.2 Mô hình
Xét hai biến X , Y trong đó Y là biến phụ thuộc chỉ nhận giá trị 0 và 1, X là
biến độc lập.
4



Gọi P( X )  P(Y  1| X ) là xác suất có điều kiện của Y  1 khi X xảy ra.
Vì P( X ) [0,1] mà X  R nên ta không tìm mối giữa P( X ) và X . Vì vậy ta tìm
 P( X ) 
mối quan hệ giữa ln  odds( P( X )  ln 
 và X , giả sử quan hệ đó là
1  P ( X ) 
tuyến tính
 P( X ) 
ln  odds( P( X )  ln 
   0  1 X
1  P ( X ) 

(1.1)

P( X )
 e   X
1  P( X )

hay

0

(1.2)

1

Mô hình (1.1), (1.2) được gọi là mô hình hồi quy logistic đơn với  0 gọi là
điểm chắn, 1 gọi là độ dốc.

1.1.3 Xây dựng mô hình hồi quy mẫu
Giả sử ta có n mẫu quan sát ( xi , pi ), i  1, n, pi  pi ( x) . Giả sử phân phối
điều kiện của

yi khi xi xảy ra là phân phối nhị thức B(1, pi ) với

 p 
ln  i    0  1 xi .
 1  pi 

Gọi ˆ0 , ˆ1 lần lượt là ước lượng hợp lí cực đại của 0 , 1 . Đường hồi quy mẫu
 p ( x)  ˆ
ˆ
ln 
   0  1 x
1

p
(
x
)



Ta suy ra
ˆ

p( x) 

ˆ


e   x
1
,1

p
(
x
)

ˆ
ˆ
ˆ ˆ
1  e  x
1  e  x
0

1

0

1

0

1

Hàm hợp lí
n


L( ˆ0 , ˆ1 )   p (1  pi )
i 1


n



i 1
n

ˆ

ˆ

e y  x y
0 i

1 i i

 1  e
i 1

ˆ  ˆ x
0
1 i

yi

1 y

 e ˆ  ˆ x  
1

 
ˆ  ˆ x  
ˆ  ˆ x 
i 1  1  e

 1 e
n

1 yi

yi
i

0

0




i

1 i

1 i

0


n
 n

exp  ˆ0  yi  ˆ1  xi yi 
i 1
 i 1


n
ˆ
ˆ
 1  e  x
i 1

5



0

1 i



1 i


Suy ra để tìm ˆ0 , ˆ1 ta cần giải hệ






n
1
n
 ˆ  ˆ x
y

1

e

i

i 1
i 1
n
n
 x y   x 1  e  ˆ  ˆ x
 i 1 i i i 1 i
0

1 i



0


1 i



(1.3)

Việc giải hệ (1.3) rất phức tạp, nên thực tế tính toán người ta sử dụng phần
mềm hỗ trợ để tìm ˆ , ˆ .
0

1

1.2 HỒI QUY LOGISTIC BỘI
1.2.1 Mô hình
Xét biến phụ thuộc Y và k biến độc lập X1 , X 2 ,..., X k , trong đó Y chỉ nhận
hai giá trị 0 và 1 còn giá trị của X i ảnh hưởng đến giá trị của Y . Đặt

X   X1 , X 2 ,..., X k  , gọi P  X   P Y  1 X  là xác suất điều kiện của Y  1 khi

X xảy ra. Giả sử P  X  có quan hệ tuyến tính với biến X bởi biểu thức
k
 P X  
ln 
   0   i X i
i 1
1  P  X  

hay

k

P X 


 exp  0   i X i 
1 P X 
i 1



Mô hình trên là mô hình hồi quy logistic bội.
1.2.2 Xây dựng mô hình hồi quy mẫu
Quan sát n mẫu độc lập ta có các giá trị có thể có của Y và các giá trị có
thể có của X1 , X 2 ,..., X k là yi và x1i , x2i ,..., xki i  1,2,..., n . Giả sử y1 , y2 ,..., yn là
những biến độc lập và pi  P  y  1 . Gọi ˆ j , j  0,1,..., k là những ước lượng hợp
lí cực đại của  j .
Ta có

k
 p 
ln  i   ˆ0   ˆij xij
j 1
 1  pi 

Từ đây ta rút ra được xác suất của sự thành công và không thành công cho
một một lần quan sát được xác định bởi công thức
6


k



exp  ˆ0   ˆij xij 
1
j 1

 ,1  p 
pi 
i
k
k




1  exp  ˆ0   ˆij xij 
1  exp  ˆ0   ˆij xij 
j 1
j 1





Hàm hợp lý cho n quan sát trên là
y

k

 ˆ


 exp   0   ˆij xij  
n
j 1

 
L   
k



i 1
 1  exp  ˆ0   ˆij xij  
j 1




i

1 yi





1


k


 ˆ
ˆ 
 1  exp   0   ij xij  
j 1











Suy ra ˆ j , j  0,1,..., k là nghiệm của hệ phương trình
1
 n
n 
k

 ˆ


  yi   1  exp     0   ˆij xij   

i 1
j 1
 i 1
  

 


n
k


 ˆ
n
ˆ x   
x
y

x
1

exp









i i
i
ij ij  


 0
i 1
j 1
 
 

 i 1

1.2.3 Ý nghĩa hệ số của hồi quy
Xét mô hình

ln(Y )  0 1 X 1   2 X 2  ...   k X k  
Thực hiện đạo hàm riêng theo biến x j trong mô hình (1.4) ta có
Y
 ln Y
j 
 Y
X j
X j

Chúng ta có thể tính xấp xỉ như sau:

Y

j 

 ln Y
 Y
X j
X j


Với X j thể hiện mức tăng của X j và

7

Y
Y

thể hiện tốc độ tăng của Y.

(1.4)


Khi X j  1 thì  j 

Y
Y

.

Với biểu thức này có thể giải thích ý nghĩa của  j (j  1, k ) như sau: trong
điều kiện các nhân tố khác không đổi, khi X j tăng lên 1 đơn vị ( theo đơn vị tính
của X j ) thì Y sẽ tăng lên  j %.
1.2.4 Vấn đề phân loại
Khi tìm được đường hồi quy, một phần tử với biến quan sát được
x   x1 , x2 ,..., xk  sẽ có xác suất để thuộc lớp thành công và không thành công:
k

p


exp( ˆ0   ˆ j x j )
j 1

k

1  exp( ˆ0   ˆ j x j )
j 1

k

1 p  1

exp( ˆ0   ˆ j x j )
j 1

k

1  exp( ˆ0   ˆ j x j )
j 1



1
k

1  exp( ˆ0   ˆ j x j )

.

j 1


Từ đây chúng ta có nguyên tắc phân loại như sau:
Một phần tử với biến quan sát x  ( x1 , x2 , ...., xn ) sẽ được xếp vào nhóm
thành công nếu xác suất thành công lớn hơn 0.5 . Ngược lại nếu xác suất này nhỏ
hơn 0.5 ta sẽ xếp vào nhóm thất bại.
1.2.5 Vấn đề tính toán
Hiện tại các phần mềm thống kê như SPSS, R đều có các gói chương trình
xây dựng mô hình hồi quy logistic và các vấn đề liên quan. Đề tài sử dụng phần
mềm SPSS với các câu lệnh chính như sau:
Bước 1: Tại cửa sổ dữ liệu của file Binary Logistic bạn chọn menu: Anlyze
> Regression > Binary Logistic, lựa chọn này mở ra hộp thoại Logistic
Regression.
Bước 2: Chọn biến phụ thuộc (y) đưa sang khung Dependent, nhớ chỉ chọn
biến có 2 biểu hiện, nếu biến phụ thuộc bạn chọn không có đúng 2 biểu hiện thì
thủ tục này không thực hiện được.

8


Bước 3: Chọn một biến hay một khối biến (block) đưa sang khung
Covariate. Nếu muốn tạo biến dạng tương tác thì bạn chọn sang 2 biến (hay hơn 2
biến) của mối tương tác trong danh sách biến nguồn và nhấp >a*b> đưa sang
khung Covariate.
Bước 4: Trong nút Method bạn chọn phương pháp đưa biến độc lập vào mô
hình, ở đây ta để chế độ mật định là Enter.
Bước 5: Để thể hiện đồ thị phân loại giá trị thật và giá trị dự báo của biến
phụ thuộc, bạn nhấn nút Option để mở hộp thoại Logistic Regression: Options,
rồi nhấn chọn Classification plots trong phần Statistics and Plots.
Bước 6: Nhấp Continue trở về hộp thoại đầu tiên.
Bước 7: Muốn tính được giá trị dự đoán, là xác suất mà một đối tượng sẽ trả

nợ ta nhấp Predict value trong hộp thoai Save.
1.2.6 Một số vấn đề khác trong xây dựng mô hình hồi quy logistic
a) Lựa chọn biến
Việc lựa chọn biến để xây dựng mô hình hồi quy là rất quan trọng. Trong
một nghiên cứu thông thường với một biến số phụ thuộc, có nhiều biến số độc
lập, giữa một biến độc lập và một biến phụ thuộc cũng có thể có nhiều mô hình
hồi quy khác nhau được thiết lập. Như vậy một vấn đề dự báo bằng mô hình hồi
quy sẽ có nhiều mô hình khác nhau có thể được thiết lập. Trong các mô hình thiết
lập, mô hình nào được xem là phù hợp nhất? Mô hình đơn giản, ít biến và có một
hoặc nhiều tiêu chuẩn đánh giá đã trình bày ở trên tốt nhất sẽ được chọn. Để làm
việc này ta thường dùng phương pháp phân tích hồi quy bậc thang. Hai nguyên
tắc xây dựng hồi quy bậc thang thường được sử dụng là
Nguyên tắc lùi: Bắt đầu với mô hình hồi quy có chứa tất cả các biến độc
lập. Sau đó lần lượt loại trừ dần từng biến( dựa trên các tiêu chuẩn đánh giá) cho
đến khi tìm được mô hình thích hợp.
Nguyên tắc tiến: bắt đầu với mô hình một biến sau đó lần lượt thêm dần
từng biến một cho đến khi tìm được mô hình thích hợp.
Đề tài lựa chọn biến theo nguyên tắc lùi, biến bị loại khỏi mô hình khi
không có ý nghĩa thống kê.

9


b) Khắc phục đa cộng tuyến trong xây dựng mô hình hồi quy
i) Khái niệm
Khi xây dựng mô hình hồi quy, để đường hồi quy có kết quả cao chúng ta
phải giả sử các biến độc lập không có tương quan với nhau, nghĩa là mỗi biến
chứa đựng một số thông tin riêng về biến phụ thuộc Y và thông tin đó không có
trong biến độc lập khác. Khi đó mỗi hệ số hồi quy cho ta biết ảnh hưởng của từng
biến độc lập đối với biến phụ thuộc. Nếu như điều kiện này bị vi phạm ta sẽ được

hiện tượng đa cộng tuyến.
Định nghĩa 1.3 Giả sử ta phải ước lượng hàm hồi quy Y gồm p biến độc
lập X1 , X 2 , X 3 ,..., X p

:

Yi  0  1 X1i  2 X 2i  ...   p X pi   i


i  1, n 

Các biến X1 , X 2 , X 3 ,..., X p gọi là các đa cộng tuyến hoàn hảo hay còn

gọi là đa cộng tuyến chính xác nếu tồn tại 1 , 2 ,...,  p  k  R  không đồng thời
bằng không sao cho:
1 X1  2 X 2  ...   p X p  0


Các biến X1 , X 2 , X 3 ,..., X p gọi là các đa cộng tuyến không hoàn hảo

nếu tồn tại 1 , 2 ,...,  p  k  R  không đồng thời bằng không sao cho:

1 X1  2 X 2  ...  p X p  vi  0

(1.5)

trong đó vi là sai số ngẫu nhiên.
Định nghĩa 1.4 Đa cộng tuyến là sự tồn tại mối quan hệ tuyến tính hoàn
hảo hoặc không hoàn hảo giữa một số hoặc tất cả các biến độc lập trong một mô
hình hồi quy.

ii) Cách phát hiện
Hiện tại có nhiều cách khác nhau để phát hiện đa công tuyến như sử dụng độ đo
Theil, sử dụng nhân tố phóng xạ phương sai, hồi quy phụ, hệ số tương quan cặp.
Chúng ta chưa thể khẳng định phương pháp nào là tốt hơn. Luận văn này sử dụng
phương pháp tính hệ số tương quan cặp, một phương pháp có thể nói phổ biến
nhất hiện nay. Thông thường nếu hệ số tương quan cặp giữa các biến giải thích
cao (thông thường lớn hơn 0.8 ) thì có khả năng tồn tại đa cộng tuyến là rất cao.
10


iii) Khắc phục hiện tượng đa cộng tuyến
Về mặt lý thuyết để khắc phục hiện tượng đa cộng tuyến ta có các phương
pháp: Sử dụng thông tin tiên nghiệm, loại trừ biến độc lập ra khỏi mô hình, thu
thập thêm số liệu hoặc lấy mẫu mới, lấy sai phân,… Các tài liệu cũng đã khẳng
định chưa có phương pháp nào được xem là tối ưu. Trong thực hành người ta
thường sử dụng phương pháp đơn giản: loại trừ biến độc lập ra khỏi mô hình.
Phương pháp này được thực hiện như sau:
Bước 1: Xem cặp biến độc lập nào có quan hệ chặt chẽ với nhau. Giả sử
X1 , X 3 ,..., X p là các biến độc lập, Y là biến phụ thuộc và X 2 , X 3 có tương quan
chặt chẽ với nhau.
Bước 2: Tính R 2 đối với các hàm hồi quy: có mặt cả hai biến và không có
mặt một trong hai biến.
Bước 3: Ta loại biến mà giá trị R 2 tính được khi không có mặt biến đó là
lớn hơn.
1.3 PHƯƠNG PHÁP FISHER
1.3.1 Trường hợp hai tổng thể
Xét trong trường hợp 2 tổng thể w1 và w2 với biến quan sát x có n chiều.
Gọi 1 và  2 là trung bình của w1 và w2 theo biến x .
Giả sử ma trận hiệp phương sai


  E  x    x   

T

i

i

 , i  1, 2 bằng nhau


cho cả hai tổng thể. Đặt y  l T x , trong đó l T   l1 l2 ... ln  . Ta có:

1 y  l T 1 là trung bình của w1 theo biến y,
2 y  l T 2 là trung bình của w2 theo biến y,

 

σ y2  Var l T x  l T  l là phương sai bằng nhau của hai tổng thể theo biến y.

Để tìm hàm phân biệt tuyến tính y ta tìm l sao cho



1y

 2y 
σ 2y

2


l


T

1  l T 2 

2

lT  l

l T  1  2  1  2  l

.
lT  l
T

đạt giá trị cực đại. Fisher đã đưa ra kết quả cụ thể l  c 1  1  2  với c  0.
11


Chọn c  1 ta có hàm phân biệt tuyến tính Fisher:

y   1  2 

T

m


Đặt



1

x.

1
1
T
1 y  2 y    1  2   1  1  2  .

2
2

Khi đó nếu có phần tử mới với biến quan sát x0 thì luật phân loại Fisher
được thực hiện như sau:
Xếp phần tử mới x0 vào w 1 nếu y0   1  2  1 x0  m, ngược lại sẽ xếp
T

vào w2 .
1.3.2 Trường hợp nhiều hơn 2 tổng thể
Trong trường hợp nhiều hơn 2 tổng thể w1 , w2 ,..., wk ,  k  3 , giả sử ma trận
hiệp phương sai của các tổng thể bằng nhau: 1  2  ...  k   .
Gọi

i là véc tơ trung bình của tổng thể thứ i ,




1 k
 i là véc tơ trung bình chung của các tổng thể theo biến x .
k i 1

Đặt y  l T x , khi đó

μiy  l T i là trung bình của wi theo biến y ,

y 

1 k
iy  l T  là véc tơ trung bình chung của các tổng thể theo

k i 1

biến y , σ y2  l T l là phương sai giống nhau của các tổng thể theo biến y .
Tương tự như trường hợp 2 tổng thể, để tìm hàm phân biệt tuyến tính y ,
chúng ta tìm l để biểu thức sau đạt giá trị lớn nhất:
k


i 1

k

μ

iy


 μy 

 y2

2

T
k
l T    i    i     l
l T Bol
i 1



 T .
l T l
l l

với B0    i    i   

T

i 1

12


Gọi 1  2  ...  5  0 với s  min  k  1, n  là giá trị riêng khác 0 của
ma trận




1

B0 . Với giá trị riêng i , Fisher chứng minh rằng biểu thức trên đạt

1
( Σ B0  λi I )li  0
giá trị lớn nhất khi vectơ li thỏa:  T
li Σ li  1

Khi đó yi  liT x , i  s được gọi là hàm phân biệt thứ i .
Giả sử có r hàm phân biệt Fisher vừa tìm ở trên thì khoảng cách từ
Y  y tới μiy là
s

hi ( y)  ( y  μiy )2   l Tj  x  i 

2

j 1

Việc phân loại phần tử mới có giá trị y theo phương pháp Fisher được thực
hiện rất tự nhiên.
Xếp phần tử mới vào tổng thể w j nếu bình phương khoảng cách từ y tới
μ jy nhỏ hơn bình phương khoảng cách từ y tới μiy với mọi i  j.

hay h j ( y)  hi ( y) i  j .
Gọi x là biến quan sát của phần tử mới, ta có


hi ( x) 

r

 l
j 1

T
j

( x  i ) 

2

  x  i  1  x  i 
T

 2di ( x)  xT 1 x .
1
trong đó di ( x)  iT 1 x  iT 1i .
2

Lúc này phần tử mới sẽ được xếp vào w j nếu h j ( x) nhỏ nhất. Vì xT  1 x
giống nhau cho tất cả hi ( x) nên qui tắc phân loại đơn giản như sau:
Xếp phần tử mới vào w j nếu d j  x   max di  x  .
i

13



1.3.3 Vấn đề tính toán
Cho cặp biến ngẫu nhiên X i và X k có hàm mật độ xác suất đồng thời
fik  xi , xk  . Đại lượng đo lường mối liên hệ tuyến tính giữa X i và X k là hiệp

phương sai  ik . Ta có
 ik  E ( X i  i ) ( X k  k )

Cụ thể:
i) Nếu X i , X k là biến ngẫu nhiên rời rạc có thể nhận các giá trị lần lượt là
xi1 , xi2 ,..., xin và xk1 , xk2 ,..., xkm thì

 ik     xij  ij   xkh  kh  pik  xij , xkh 
n

m

j 1 h 1

ii) Nếu X i , X k là biến ngẫu nhiên liên tục với hàm mật độ xác suất
fik  xi , xk  thì

 ik 





   x    x
i


i

k

 k  fik  xi , xk  dxi dxk

 

Ma trận  với phần tử thứ i, k  là  ik được gọi là ma trận hiệp phương sai.
Véc tơ trung bình và ma trận hiệp phương sai của véc tơ ngẫu nhiên X có thể
biểu diễn dưới dạng ma trận lần lượt như sau:
 E  X1     

  1
 E  X 2    2 
EX     
 

  
 E  X     p 
p 


 11  12  1 p 


 21  22  2 p 

  cov  X   




 p1  p 2  pp 

Trong thực tế, ta chỉ có mẫu dữ liệu rời rạc của các tổng thể mà không có số liệu
tổng thể. Vì vậy các tham số của tổng thể được ước lượng bằng các tham số mẫu.

14


i) Giả sử chúng ta có một mẫu trong

n

với kích thước n . Trong đó, phần

tử mẫu thứ j là véc tơ cột x j , j  1, 2,..., n. Gọi x là véc tơ cột trung bình và S
là ma trận hiệp phương sai của số liệu mẫu. Ta có

x





1 n
1 n
x
,
S


 j 1 n  x j  x x j  x
n j 1
j 1



T

ii) Cho k tổng thể, trong đó tổng thể thứ j có kích thước mẫu ni , véctơ
trung bình mẫu x i và ma trận hiệp phương sai Si . Ta có ma trận hiệp phương sai
gộp của k tổng thể được định nghĩa là
k

S

n

 1 Si

i

i 1

k

n
i 1

i


k

iii) Trong thực hành, chúng ta sẽ thay thế trung bình tổng thể i bằng trung
bình mẫu x i ; ma trận hiệp phương sai



bởi ma trận hiệp phương sai gộp của

các tổng thể S .
Hiện tại các phần mềm thống kê như SPSS, R, Eview,… cũng có các gói
phân loại bằng phương pháp Fisher. Sử dụng phần mềm SPSS để thực hiện phân
loại theo phương pháp Fisher, chúng ta làm như sau:
Bước 1: Vào menu Analyze  Classify  Discriminant… Khi đó, hộp
thoại Discriminant Analysis sẽ xuất hiện.
Bước 2: Đưa biến phụ thuộc (y) vào khung Grouping Variable. Kích vào
nút Define Range, điền số 0 cho ô Minimum, và điền số 1 cho ô Maximum, xong
chọn Continue. Đưa tiếp 1 biến hay 1 khối biến cần xét vào ô Independents.
Bước 3: Vào tùy chọn Statistics  check chọn các phần: Means, Fisher’s,
Within groups–covariance, Total covariance,… Để hiển thị các trung bình từng
tổng thể, các hệ số của các hàm phân biệt Fisher, các ma trận hiệp phương sai và
ma trận hiệp phương sai gộp. Xong ta chọn Continue.
Bước 4: Vào tùy chọn Classify  chọn Summary table. Nếu muốn vẽ các
đồ thị thì độc giả kích chọn thêm các phần Plots. Xong ta chọn continue.

15


Bước 5: Vào tùy chọn Save  check chọn các phần: Predicted group

membership, Discriminant scores, Probabilities of group membership. Xong chọn
Continue.

16


Chng 2

PHN LOI BNG PHNG PHP BAYES

2.1 TRNG HP HAI TNG TH
2.1.1 Khi quan tõm n xỏc sut tiờn nghim
Cho 2 tng th w1 , w2 vi bin quan sỏt x cú hm mt xỏc sut ln lt
l f1 ( x) , f 2 ( x) . Gi P( w1 ) v P( w2 ) ln lt l xỏc sut tiờn nghim ca tng
th th nht v th hai. Xột mt phn t vi bin quan sỏt x . Theo phng phỏp
Bayes ta cú

Neỏu P(w1 | x) > P(w2 | x) thỡ xeỏp x vaứo w1 , ngửụùc laùi xeỏp x vaứo w2 .

(2.1)

Theo nh lý Bayes cho trng hp liờn tc, xỏc sut hu nghim P wi | x
c xỏc nh bi cụng thc sau:

P wi | x

P wi f x | wi
2

P wi f x | wi




qi fi x
, i 1, 2
f x

(2.2)

i 1

trong ú
qi P(wi ) l xỏc sut tiờn nghim ca tng th wi , q1 q2 1 ,

fi x f x | wi l hm mt xỏc sut ca tng th wi ,
f ( x) q1 f1 ( x) q2 f 2 ( x) l hm mt xỏc sut kt hp.

Th (2.2) vo (2.1) v do f ( x) ging nhau cho 2 v bt ng thc, nờn quy
lut (2.1) tr thnh:

Neỏu q1 f1 (x) > q2 f2 (x) thỡ xeỏp x vaứo w1 , ngửụùc laùi xeỏp x vaứo w2 .

(2.3)

Nguyờn tc (2.3) cú th vit li di dng:
Neỏu l x =

f1 x q2
> thỡ xeỏp x vaứo w1 , ngửụùc laùi xeỏp x vaứo w2 .
f2 x q1


17

(2.4)


l x c gi l t s hp lý v q2 q1 c gi l giỏ tr ngng ca s
quyt nh.
ụi khi thun tin cho vic tớnh toỏn, ta ly logarit c s e hai v ca t
s hp lý. Lỳc ny lut (2.4) tr thnh:

Neỏu ln f1 ( x) ln f 2 ( x) ln q2 / q1 thỡ xeỏp x vaứo w1 , ngửụùc laùi xeỏp x vaứo w2 .
h( x) ln[l ( x)] ln f1 ( x) ln f 2 ( x) c gi l hm phõn bit.

2.1.2 Khi ta khụng quan tõm n xỏc sut tiờn nghim hoc xỏc sut tiờn
nghim bng nhau
Nu khụng bit xỏc sut tiờn nghim hoc xỏc sut tiờn nghim bng nhau
( q1 q2 1 2 ) thỡ (2.3) c vit li nh sau:

Neỏu f1 (x) > f2 (x) thỡ xeỏp x vaứo w1 , ngửụùc laùi xeỏp x vaứo w2 .
2.2 TRNG HP NHIU HN HAI TNG TH
2.2.1 Khi quan tõm n xỏc sut tiờn nghim
Cho k tng th w1 , w2 ,..., wk cú bin quan sỏt x cú hm mt xỏc sut

f1 ( x), f2 ( x),..., fk ( x)

v cú xỏc sut tiờn nghim qi . Tng t nh trng hp

hai tng th, mt phn t vi bin quan sỏt


x

s c xp vo tng th th i nu:

P(wi | x) P(w j | x) , i j

(2.5)

p dng nh lý Bayes thỡ (2.5) tr thnh

qi fi x q j f j x

fi x q j

f j x qi

trong ú
qi P(wi ) : Xỏc sut tiờn nghim ca tng th th i ,

fi x : Hm mt xỏc sut ca tng th th i .

18

(2.6)


2.2.2 Hàm phân biệt khi biến quan sát có phân phối chuẩn






Chúng ta gọi di  x   ln qi fi  x  là hàm phân biệt của tổng thể thứ i . Khi
các tổng thể có biến quan sát X có phân phối chuẩn n chiều:
f  x 

1

 2 

n

2



1
N
2

T
 1

exp    x     1  x    
 2


trong đó

 là giá trị trung bình,

 là ma trận hiệp phương sai.

Khi đó hàm phân biệt di  x  được xác định như sau:

1
1
n
T
di  x    ln  i    x  i  i1  x  i   ln  2   ln  qi 
2
2
2
n
Vì  ln  2  giống nhau cho các hàm phân biệt vì vậy ta có thể bỏ số hạng
2
này, khi đó hàm phân biệt trên trở thành:

1
1
T
di  x    ln  i    x  i  i1  x  i   ln  qi 
2
2
Trong trường hợp các tổng thể có ma trận hiệp phương sai giống nhau thì
hàm phân biệt trở thành:

1
di  x    Tj 1 x   Tj 1 j  ln  qi 
2
2.3 SAI SỐ BAYES

2.3.1 Trường hợp hai tổng thể
Trong trường hợp không quan tâm đến xác suất tiên nghiệm q của w1 , ta có

1  P  w2 | w1  

 f1  x  dx : Xác suất phân loại một phần tử vào

R2n

thuộc w1 .

19

w2 khi nó


 2  P  w1 | w2  

 f2  x  dx : Xác suất phân loại một phần tử vào

w1 khi nó

R1n

thuộc w2 .
trong đó R1n  x | f1 ( x)  f 2 ( x) , R2n  x | f1 ( x)  f 2 ( x)
Xác suất sai lầm trong phân loại Bayes được gọi là sai số Bayes và được xác
định bởi công thức
Pe  1   2


(2.7)

Khi quan tâm đến xác suất tiên nghiệm q của w1 thì  1 trở thành  1* và  2
trở thành  2* với

1* 

 qf1 ( x)dx và  2   (1  q) f2 ( x)dx
*

R2n*

R1n*

trong đó R1n*  x | qf1 ( x)  (1  q) f 2 ( x) , R2n*  x | qf1 ( x)  (1  q) f 2 ( x)
Đặt (q)  (q, 1  q) , khi đó sai số Bayes xác định bởi

Pe( q )  τ1*   2*

(2.8)

*
*
 1 và  2 ;  1 và  2 được gọi chung là hai thành phần của sai số Bayes.

2.3.2 Trường hợp nhiều hơn hai tổng thể
a) Định nghĩa
Sai số Bayes trong phân loại k tổng thể được định nghĩa bởi biểu thức
k


(q)
Pe1,2,...,
k 

i 1 R



n

qi fi  x  dx

\ Rin

Ở trường hợp này, thay vì tính xác suất sai lầm, người ta thường tính xác
(q)
suất của sự phân loại đúng Pc1,2,...,
k như sau:

k

( q)
Pc1,2,...,
k    qi f i ( x )dx
i 1 R n
i

Khi đó sai số Bayes được xác định
(q)
(q)

Pe1,2,...,
k  1  Pc1,2,..., k .

20


×