BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Mục tiêu
•
Dịch tễ Thống kê Nâng cao
•
Hồi quy logistics
•
Lê Thị Kim Ánh
BM Dịch tễ-Thống kê
3/5/2012
•
1
Trình bày được nguyên lý của hồi quy
logistic
Trình bày được các bước xây dựng mô
hình hồi quy logistic
Kiểm soát được các vấn đề khi thực hiện
hồi quy logistic
Thực hiện được phân tích trên SPSS và
phiên giải kết quả
3/5/2012
2
Ví dụ 1
Nguyên lý của hồi quy logistics
3/5/2012
3
3/5/2012
Ví dụ 1 (tt)
4
Ví dụ 2
Tuyến tính?
Tuyến tính?
3/5/2012
5
3/5/2012
6
1
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Hồi quy logistics
Vấn đề
• Giá trị trục tung – y: đi từ 0 đến 1
• Giá trị ước lượng theo hồi quy tuyến tính
có thể nằm ra ngoài giá trị ý nghĩa
• Sai số không có phân phối chuẩn
• Hồi quy logistic được sử dụng khi biến phụ thuộc
là biến nhị giá
– Được đo lường bằng:
• Nguy cơ (risk), hoặc
• Số chênh (odds), hoặc
• Tỷ số số chênh (odds ratio)
– Các đo lường này có miền xác định: risk(0,1),
Odds(0,+α)
• Khi đó, mô hình y = a + bx
– với miền xác định của y là (-α; +α) không thích hợp để sử
dụng.
3/5/2012
7
8
Hồi quy logistics (tt)
Hồi quy logistics (tt)
Tình trạng
bệnh
• Vấn đề: biến đổi đo lường biến phụ thuộc để
có miền xác định (-α; +α)
• Sử dụng thuật toán logit
– Logit = ln(θ/1- θ)
– Như vậy: miền xác định của logit là (-α; +α)
3/5/2012
3/5/2012
9
Bệnh
phong
Không có
bệnh phong
Tổng
Có chủng
ngừa
Tổng
a
Không
chủng
ngừa
b
c
d
c+d
a+c
b+d
N
a+b
Theo lý thuyết, Odds được tính như sau :
Odds của nhóm bệnh
= tỷ lệ có chủng ngừa trong nhóm bệnh/tỷ lệ không chủng ngừa trong nhóm bệnh
= (a/a+b)/(b/a+b)
= 3/5/2012
p/(1-p)
10
Hồi quy logistics (tt)
Hồi quy logistics (tt)
• Như vậy:
• Sử dụng thuật toán logit
– Logit = ln(θ/1- θ)
• Odds của x = 0 là:
• Như vậy:
• Odds của x = 1 là:
– Logit = ln(Odds) = ln[p/(1 - p)] = a + bx
Tính toán được OR
• Vậy OR được tính:
3/5/2012
11
3/5/2012
12
2
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Như vậy
• Hồi quy logistics:
– Dùng cho biến phụ thuộc là biến nhị giá
– Giúp xác định:
Hồi quy logistics trong SPSS
Biến độc lập là biến nhị giá
• Số chênh
• Tỷ số số chênh
• Tỷ lệ đã hiệu chỉnh
3/5/2012
13
3/5/2012
Tính tỷ số số chênh OR
14
Kết quả hồi quy logistics
• Đo lường mức độ tác động giữa chủng
ngừa BCG và bệnh phong
• Kết quả 1: Omnibus Test of Model Coefficients
– Giả thuyết Ho: việc đưa biến độc lập vào mô hình là
không có ý nghĩa
– Đối thuyết Ha: việc đưa biến độc lập vào mô hình là
có ý nghĩa
– Bảng 2x2
– Hồi quy logistics
• Đơn biến: 1 biến độc lập
• Kết quả phần Block 1
Omnibus Tests of Model Coefficients
Step 1
3/5/2012
15
Step
Block
Model
Chi-square
84.352
84.352
84.352
df
1
1
1
Sig.
.000
.000
.000
3/5/2012
Kết quả hồi quy logistics (tt)
16
Phiên giải thế nào?
Variables in the Equation
Step
a
1
bcg
Constant
B
-1.490
-.933
S.E.
.180
.081
Wald
68.221
131.286
df
1
1
Sig.
.000
.000
Exp(B)
.225
.393
95.0% C.I.for EXP(B)
Lower
Upper
.158
.321
a. Variable(s) entered on step 1: bcg.
• ln(odds) = - 0.933 – 1.49 x chủng ngừa BCG
• Như vậy
• OR=0.089/0.393 = 0.225
• Người được tiêm chủng BCG có nguy cơ
mắc bệnh phong chỉ vào khoảng 22,5% so
với người không tiêm BCG
ln(Odds) = 0.933 – 1.49 x 0 = - 0.933 Odds=0.393
ln(Odds) = 0.933 – 1.49 x 1 = - 2.423 Odds=0.089
Hiểu như thế nào?
3/5/2012
17
3/5/2012
18
3
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Phiên giải
• Suy luận tỷ lệ từ giá trị Odds tính được
– Odds = 0.393 p = 0.393/1.393 = 0.282
mô hình giúp tiên đoán: 28.2% người không
chủng ngừa BCG sẽ mắc bệnh phong.
– Odds = 0.089 p = 0.089/1.089 = 0.082.
mô hình giúp tiên đoán: 8.2% người có chủng
ngừa BCG sẽ mắc bệnh phong.
3/5/2012
19
Hồi quy logistics trong SPSS
Biến độc lập là biến thứ bậc
3/5/2012
Tính tỷ số số chênh (1)
20
Tính tỷ số số chênh (1)
• Đo lường mối liên quan giữa bệnh phong và tuổi
• Giả định tính khuynh hướng của tuổi: sự khác biệt giữa
các lớp tuổi kế cận nhau là giống nhau:
• Mô hình: y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε
• Khi đó
– OR của nhóm tuổi 15-24 so với nhóm 1-14 là:
• OR = Oddsx=1/Oddsx=0 = eα + β/eα = eβ
– OR của nhóm tuổi 25-24 so với 15-24 là:
• OR = Oddsx=2/Oddsx=1 = eα + 2β/eα + β = eβ
3/5/2012
21
3/5/2012
Phiên giải kết quả
22
Phiên giải kết quả (tt)
Variables in the Equation
Step
a
1
nhtuoi
Constant
B
.380
-2.669
S.E.
.049
.194
Wald
59.253
189.407
df
1
1
Sig.
.000
.000
Exp(B)
1.463
.069
95.0% C.I.for EXP(B)
Lower
Upper
1.328
1.612
a. Variable(s) entered on step 1: nhtuoi.
• So với nhóm tuổi nhỏ hơn, nhóm tuổi lớn hơn kề
bên sẽ bị nguy cơ bị bệnh phong tăng gấp 1.463
lần.
e0.76 = 2.138
3/5/2012
23
3/5/2012
24
4
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Kết quả
Tính tỷ số số chênh (2)
Variables in the Equation
• Đo lường mối liên quan giữa bệnh phong và
tuổi
• Không giả định tính khuynh hướng của tuổi:
B
Step
a
1
y = logit = ln(Odds) = ln[p/(1 - p)] = α + β1x1 + β2x2 + β3x3 + β4x4 + β5x5 + ε
.271
.308
.251
.217
.187
df
4
1
1
1
1
1
Sig.
.000
.407
.737
.000
.000
.000
Exp(B)
1.252
1.109
2.723
4.073
.120
95.0% C.I.for EXP(B)
Lower
Upper
.736
.607
1.664
2.663
2.128
2.026
4.458
6.230
• OR của nhóm tuổi 15/24 và nhóm tuổi 24/34 là
không có ý nghĩa thống kê (hay hệ số hồi quy B
trong 2 nhóm này không có ý nghĩa).
• Biến giả (dummy variables): chọn indicator
để define categorical covariates
25
3/5/2012
26
Tương tự biến thứ bậc
Hồi quy logistics trong SPSS
Biến độc lập là biến danh định
3/5/2012
.224
.103
1.002
1.404
-2.122
Wald
66.632
.687
.112
15.877
41.971
128.612
a. Variable(s) entered on step 1: nhtuoi.
– x=0 (không nằm trong nhóm tuổi x)
– x=1 (nằm trong nhóm tuổi x)
3/5/2012
nhtuoi
nhtuoi(1)
nhtuoi(2)
nhtuoi(3)
nhtuoi(4)
Constant
S.E.
Không có giả định tính khuynh hướng
27
3/5/2012
28
Kết quả
Variables in the Equation
Step
a
1
Hồi quy logistics trong SPSS
Biến độc lập là biến định lượng
cholesterol
Constant
B
.007
-3.538
S.E.
.003
.687
Wald
5.225
26.531
df
1
1
Sig.
.022
.000
Exp(B)
1.007
.029
95.0% C.I.for EXP(B)
Lower
Upper
1.001
1.013
a. Variable(s) entered on step 1: cholesterol.
• Với mỗi 1 mg% cholesterol cao hơn, nguy cơ của bệnh
mạch vành sẽ tăng lên 1.007 lần ???
• OR của người có cholesterol 210 so với 200 là như thế nào?
– Odd210 = e- 3.538 + 0.007x210
– Odd200 = e- 3.538 + 0.007x200
• OR = e0.007(210-200) = exp(0.07)=1.072
3/5/2012
29
3/5/2012
30
5
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Mô hình
• Biến phụ thuộc: bệnh phong
• Biến độc lập: chủng ngừa BCG
Hồi quy logistics đa biến
Nhiều biến độc lập trong mô hình
3/5/2012
31
3/5/2012
Biến thứ 3
Xem xét
• Tuổi có phải là yếu tố gây nhiễu/tương tác
hay không?
– Phân tầng
– Hồi quy logistics
3/5/2012
33
•
•
•
•
•
Thay đổi của hệ số hồi quy
Thay đổi của OR hiệu chỉnh và OR thô
Thay đổi của -2loglikelihood
Giá trị p của biến thứ 3
Kết quả của kiểm định Hosmer-Lemeshow
3/5/2012
Xem xét (tt)
34
Xem xét (tt)
• Thay đổi của hệ số hồi quy (B)
• Thay đổi của OR hiệu chỉnh và OR thô:
– B mô hình 1: -1.49
– B mô hình 2: -1.194
– Tỷ số của hệ số hồi quy: 1.194/1.49 = 0.80
(thay đổi nhiều)
– “Nhiều”? Thay đổi >1%
3/5/2012
32
– OR thô (crude): 0.225
– OR hiệu chỉnh: 0.303
– Thay đổi:
– (0.303-0.225)/0.303= 0.257
– Thay đổi >10%
35
3/5/2012
36
6
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Xem xét (tt)
Xem xét (tt)
• -2loglikelihood
• Giá trị p của biến thứ 3:
– Mô hình cũ: 1176.663
– Mô hình mới: 1152.028
– Thay đổi 1176.663-1152.028=24.635
– Thay đổi của df = 2-1=1
– Χ2(24.635,1)
3/5/2012
– p=0.000 (p<0.001)
– Rất nhỏ
37
3/5/2012
38
Xem xét (tt)
Sử dụng thông tin nào?
• Kết quả của kiểm định Hosmer-Lemeshow
• Biến thứ 3 là biến nhị giá hay không?
• Mô hình tiên đoán hay mô hình giải thích?
– Ho: Mô hình phù hợp
– Ha: Mô hình không phù hợp
• p=0.408 > 0.05 Mô hình phù hợp
3/5/2012
39
Giới có phải là nhiễu/tương tác?
3/5/2012
40
Đưa biến tương tác vào mô hình
• Lưu ý:
– Phải có biến gốc
• Nếu không là biến nhiễu, có phải là tương
tác không?
3/5/2012
41
3/5/2012
42
7
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Kết quả
Học vấn là nhiễu/tương tác?
• Xem xét giá trị p của tương tác
3/5/2012
43
3/5/2012
Học vấn là nhiễu/tương tác?
3/5/2012
44
Tiếp xúc phong u, phong củ
45
3/5/2012
46
Mô hình đa biến
logit = ln(p/1-p) = α + β1x1 + β2x2 + β3x3 + … + ε
• trong đó x1, x2, …, xn là những biến độc lập
Đưa nhiều biến vào mô hình
Variables in the Equation
Step
a
1
bcg
nhtuoi
Constant
B
-1.194
.245
-1.849
S.E.
.191
.051
.214
Wald
38.913
23.166
74.487
df
1
1
1
Sig.
.000
.000
.000
Exp(B)
.303
1.278
.157
95.0% C.I.for EXP(B)
Lower
Upper
.208
.441
1.157
1.412
a. Variable(s) entered on step 1: bcg, nhtuoi.
logit = ln(Odds) = - 1.849 – 1.194 x chủng ngừa
BCG + 0.245 x nhóm tuổi
3/5/2012
47
3/5/2012
48
8
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Đưa biến số vào mô hình
Đưa biến số vào mô hình (tt)
• Enter: Kết quả cho một mô hình duy nhất
bao gồm tất cả các biến đã được lựa chọn
• Forward: lần lượt đưa dần từng biến độc
lập vào mô hình và sẽ giữ chúng lại nếu như
biến đó có ý nghĩa thống kê.
3/5/2012
49
• Backward: đưa toàn bộ các biến độc lập vào mô
hình sau đó bỏ dần từng biến không có ý nghĩa
thống kê.
• Stepwise: kết hợp 2 phương pháp forward và
backward, tại mỗi một bước phương pháp này sẽ
tính toán để đưa vào hoặc loại ra các biến độc lập
sau khi có sự xuất hiện của các biến khác
3/5/2012
Mô hình: tuổi, học vấn, tiếp xúc phong u, phong củ
3/5/2012
51
Kết quả
3/5/2012
Mô hình: tuổi, học vấn, tiếp xúc phong u, phong củ
3/5/2012
53
50
52
Kết quả
3/5/2012
54
9
BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng
Có nên đưa biến giới vào không?
Vấn đề đưa biến số vào mô hình
• Mô hình giải thích hay mô hình tiên đoán?
• Mô hình giải thích:
– Đưa các biến độc lập chính vào mô hình, lần
lượt bổ sung các biến khác
– Đưa tất cả biến độc lập vào mô hình, sao cho
bậc tự do của mô hình <10% số đối tượng
– Chia các biến độc lập thành nhóm, trong mỗi
nhóm chọn 1-2 biến nhiều thông tin nhất
3/5/2012
55
3/5/2012
Vấn đề đưa biến số vào mô hình (tt)
So sánh mô hình
• Thực hiện backward selection
• Sử dụng likelihood ratio test:
– Đưa các biến độc lập chính, các biến
nhiễu/tương tác vào mô hình
– Giữ lại trong mô hình những biến có p<0.2
– Mô hình A nằm trong mô hình B (nested
models)
– Sử dụng giá trị -2log likelihood
– Chênh lệch bậc tự do giữa 2 mô hình
– Kiểm định Khi bình phương sự chênh lệch 2
giá trị -2log likelihood
Cần lưu ý ý nghĩa y sinh học của biến số!
3/5/2012
57
3/5/2012
Ví dụ
58
Tóm tắt
• Mô hình không có biến số “giới”
• Hồi quy logistics sử dụng khi đo lường
mức độ tác động OR
• Lưu ý các loại biến số độc lập khác nhau
• Việc đưa các biến số vào mô hình đòi hỏi
nhiều thời gian, cân nhắc ý nghĩa y sinh
học, ý nghĩa thống kê của biến số.
• Mô hình có biến số “giới”
3/5/2012
56
59
3/5/2012
60
10