Tải bản đầy đủ (.pdf) (10 trang)

Bài giảng hồi quy logistic

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (508.03 KB, 10 trang )

BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Mục tiêu


Dịch tễ Thống kê Nâng cao



Hồi quy logistics



Lê Thị Kim Ánh
BM Dịch tễ-Thống kê

3/5/2012


1

Trình bày được nguyên lý của hồi quy
logistic
Trình bày được các bước xây dựng mô
hình hồi quy logistic
Kiểm soát được các vấn đề khi thực hiện
hồi quy logistic
Thực hiện được phân tích trên SPSS và
phiên giải kết quả


3/5/2012

2

Ví dụ 1

Nguyên lý của hồi quy logistics

3/5/2012

3

3/5/2012

Ví dụ 1 (tt)

4

Ví dụ 2

Tuyến tính?
Tuyến tính?

3/5/2012

5

3/5/2012

6


1


BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Hồi quy logistics

Vấn đề
• Giá trị trục tung – y: đi từ 0 đến 1
• Giá trị ước lượng theo hồi quy tuyến tính
có thể nằm ra ngoài giá trị ý nghĩa
• Sai số không có phân phối chuẩn

• Hồi quy logistic được sử dụng khi biến phụ thuộc
là biến nhị giá
– Được đo lường bằng:
• Nguy cơ (risk), hoặc
• Số chênh (odds), hoặc
• Tỷ số số chênh (odds ratio)

– Các đo lường này có miền xác định: risk(0,1),
Odds(0,+α)

• Khi đó, mô hình y = a + bx
– với miền xác định của y là (-α; +α) không thích hợp để sử
dụng.
3/5/2012


7

8

Hồi quy logistics (tt)

Hồi quy logistics (tt)

Tình trạng
bệnh

• Vấn đề: biến đổi đo lường biến phụ thuộc để
có miền xác định (-α; +α)
• Sử dụng thuật toán logit
– Logit = ln(θ/1- θ)
– Như vậy: miền xác định của logit là (-α; +α)

3/5/2012

3/5/2012

9

Bệnh
phong
Không có
bệnh phong
Tổng

Có chủng

ngừa

Tổng

a

Không
chủng
ngừa
b

c

d

c+d

a+c

b+d

N

a+b

Theo lý thuyết, Odds được tính như sau :
Odds của nhóm bệnh
= tỷ lệ có chủng ngừa trong nhóm bệnh/tỷ lệ không chủng ngừa trong nhóm bệnh
= (a/a+b)/(b/a+b)
= 3/5/2012

p/(1-p)

10

Hồi quy logistics (tt)

Hồi quy logistics (tt)

• Như vậy:

• Sử dụng thuật toán logit
– Logit = ln(θ/1- θ)

• Odds của x = 0 là:

• Như vậy:
• Odds của x = 1 là:

– Logit = ln(Odds) = ln[p/(1 - p)] = a + bx
 Tính toán được OR

• Vậy OR được tính:

3/5/2012

11

3/5/2012

12


2


BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Như vậy
• Hồi quy logistics:
– Dùng cho biến phụ thuộc là biến nhị giá
– Giúp xác định:

Hồi quy logistics trong SPSS
Biến độc lập là biến nhị giá

• Số chênh
• Tỷ số số chênh
• Tỷ lệ đã hiệu chỉnh

3/5/2012

13

3/5/2012

Tính tỷ số số chênh OR

14

Kết quả hồi quy logistics


• Đo lường mức độ tác động giữa chủng
ngừa BCG và bệnh phong

• Kết quả 1: Omnibus Test of Model Coefficients
– Giả thuyết Ho: việc đưa biến độc lập vào mô hình là
không có ý nghĩa
– Đối thuyết Ha: việc đưa biến độc lập vào mô hình là
có ý nghĩa

– Bảng 2x2
– Hồi quy logistics
• Đơn biến: 1 biến độc lập
• Kết quả phần Block 1

Omnibus Tests of Model Coefficients
Step 1

3/5/2012

15

Step
Block
Model

Chi-square
84.352
84.352
84.352


df
1
1
1

Sig.
.000
.000
.000

3/5/2012

Kết quả hồi quy logistics (tt)

16

Phiên giải thế nào?

Variables in the Equation

Step
a
1

bcg
Constant

B
-1.490

-.933

S.E.
.180
.081

Wald
68.221
131.286

df
1
1

Sig.
.000
.000

Exp(B)
.225
.393

95.0% C.I.for EXP(B)
Lower
Upper
.158
.321

a. Variable(s) entered on step 1: bcg.


• ln(odds) = - 0.933 – 1.49 x chủng ngừa BCG
• Như vậy

• OR=0.089/0.393 = 0.225
• Người được tiêm chủng BCG có nguy cơ
mắc bệnh phong chỉ vào khoảng 22,5% so
với người không tiêm BCG

ln(Odds) = 0.933 – 1.49 x 0 = - 0.933  Odds=0.393
ln(Odds) = 0.933 – 1.49 x 1 = - 2.423  Odds=0.089
Hiểu như thế nào?
3/5/2012

17

3/5/2012

18

3


BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Phiên giải
• Suy luận tỷ lệ từ giá trị Odds tính được
– Odds = 0.393  p = 0.393/1.393 = 0.282 
mô hình giúp tiên đoán: 28.2% người không
chủng ngừa BCG sẽ mắc bệnh phong.

– Odds = 0.089  p = 0.089/1.089 = 0.082. 
mô hình giúp tiên đoán: 8.2% người có chủng
ngừa BCG sẽ mắc bệnh phong.

3/5/2012

19

Hồi quy logistics trong SPSS
Biến độc lập là biến thứ bậc

3/5/2012

Tính tỷ số số chênh (1)

20

Tính tỷ số số chênh (1)

• Đo lường mối liên quan giữa bệnh phong và tuổi
• Giả định tính khuynh hướng của tuổi: sự khác biệt giữa
các lớp tuổi kế cận nhau là giống nhau:
• Mô hình: y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε

• Khi đó
– OR của nhóm tuổi 15-24 so với nhóm 1-14 là:
• OR = Oddsx=1/Oddsx=0 = eα + β/eα = eβ

– OR của nhóm tuổi 25-24 so với 15-24 là:
• OR = Oddsx=2/Oddsx=1 = eα + 2β/eα + β = eβ


3/5/2012

21

3/5/2012

Phiên giải kết quả

22

Phiên giải kết quả (tt)

Variables in the Equation

Step
a
1

nhtuoi
Constant

B
.380
-2.669

S.E.
.049
.194


Wald
59.253
189.407

df
1
1

Sig.
.000
.000

Exp(B)
1.463
.069

95.0% C.I.for EXP(B)
Lower
Upper
1.328
1.612

a. Variable(s) entered on step 1: nhtuoi.

• So với nhóm tuổi nhỏ hơn, nhóm tuổi lớn hơn kề
bên sẽ bị nguy cơ bị bệnh phong tăng gấp 1.463
lần.
e0.76 = 2.138
3/5/2012


23

3/5/2012

24

4


BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Kết quả

Tính tỷ số số chênh (2)

Variables in the Equation

• Đo lường mối liên quan giữa bệnh phong và
tuổi
• Không giả định tính khuynh hướng của tuổi:

B
Step
a
1

y = logit = ln(Odds) = ln[p/(1 - p)] = α + β1x1 + β2x2 + β3x3 + β4x4 + β5x5 + ε

.271

.308
.251
.217
.187

df
4
1
1
1
1
1

Sig.
.000
.407
.737
.000
.000
.000

Exp(B)
1.252
1.109
2.723
4.073
.120

95.0% C.I.for EXP(B)
Lower

Upper
.736
.607
1.664
2.663

2.128
2.026
4.458
6.230

• OR của nhóm tuổi 15/24 và nhóm tuổi 24/34 là
không có ý nghĩa thống kê (hay hệ số hồi quy B
trong 2 nhóm này không có ý nghĩa).

• Biến giả (dummy variables): chọn indicator
để define categorical covariates
25

3/5/2012

26

Tương tự biến thứ bậc

Hồi quy logistics trong SPSS
Biến độc lập là biến danh định

3/5/2012


.224
.103
1.002
1.404
-2.122

Wald
66.632
.687
.112
15.877
41.971
128.612

a. Variable(s) entered on step 1: nhtuoi.

– x=0 (không nằm trong nhóm tuổi x)
– x=1 (nằm trong nhóm tuổi x)

3/5/2012

nhtuoi
nhtuoi(1)
nhtuoi(2)
nhtuoi(3)
nhtuoi(4)
Constant

S.E.


Không có giả định tính khuynh hướng

27

3/5/2012

28

Kết quả
Variables in the Equation

Step
a
1

Hồi quy logistics trong SPSS
Biến độc lập là biến định lượng

cholesterol
Constant

B
.007
-3.538

S.E.
.003
.687

Wald

5.225
26.531

df
1
1

Sig.
.022
.000

Exp(B)
1.007
.029

95.0% C.I.for EXP(B)
Lower
Upper
1.001
1.013

a. Variable(s) entered on step 1: cholesterol.

• Với mỗi 1 mg% cholesterol cao hơn, nguy cơ của bệnh
mạch vành sẽ tăng lên 1.007 lần  ???
• OR của người có cholesterol 210 so với 200 là như thế nào?
– Odd210 = e- 3.538 + 0.007x210
– Odd200 = e- 3.538 + 0.007x200

• OR = e0.007(210-200) = exp(0.07)=1.072

3/5/2012

29

3/5/2012

30

5


BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Mô hình
• Biến phụ thuộc: bệnh phong
• Biến độc lập: chủng ngừa BCG

Hồi quy logistics đa biến
Nhiều biến độc lập trong mô hình

3/5/2012

31

3/5/2012

Biến thứ 3

Xem xét


• Tuổi có phải là yếu tố gây nhiễu/tương tác
hay không?
– Phân tầng
– Hồi quy logistics

3/5/2012

33







Thay đổi của hệ số hồi quy
Thay đổi của OR hiệu chỉnh và OR thô
Thay đổi của -2loglikelihood
Giá trị p của biến thứ 3
Kết quả của kiểm định Hosmer-Lemeshow

3/5/2012

Xem xét (tt)

34

Xem xét (tt)


• Thay đổi của hệ số hồi quy (B)

• Thay đổi của OR hiệu chỉnh và OR thô:

– B mô hình 1: -1.49
– B mô hình 2: -1.194
– Tỷ số của hệ số hồi quy: 1.194/1.49 = 0.80
(thay đổi nhiều)
– “Nhiều”? Thay đổi >1%

3/5/2012

32

– OR thô (crude): 0.225
– OR hiệu chỉnh: 0.303
– Thay đổi:
– (0.303-0.225)/0.303= 0.257
– Thay đổi >10%

35

3/5/2012

36

6


BM Thống kê Y tế - Trường ĐH Y tế

Công Cộng

Xem xét (tt)

Xem xét (tt)

• -2loglikelihood

• Giá trị p của biến thứ 3:

– Mô hình cũ: 1176.663
– Mô hình mới: 1152.028
– Thay đổi 1176.663-1152.028=24.635
– Thay đổi của df = 2-1=1
– Χ2(24.635,1)

3/5/2012

– p=0.000 (p<0.001)
– Rất nhỏ

37

3/5/2012

38

Xem xét (tt)

Sử dụng thông tin nào?


• Kết quả của kiểm định Hosmer-Lemeshow

• Biến thứ 3 là biến nhị giá hay không?
• Mô hình tiên đoán hay mô hình giải thích?

– Ho: Mô hình phù hợp
– Ha: Mô hình không phù hợp

• p=0.408 > 0.05  Mô hình phù hợp
3/5/2012

39

Giới có phải là nhiễu/tương tác?

3/5/2012

40

Đưa biến tương tác vào mô hình
• Lưu ý:
– Phải có biến gốc

• Nếu không là biến nhiễu, có phải là tương
tác không?

3/5/2012

41


3/5/2012

42

7


BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Kết quả

Học vấn là nhiễu/tương tác?

• Xem xét giá trị p của tương tác

3/5/2012

43

3/5/2012

Học vấn là nhiễu/tương tác?

3/5/2012

44

Tiếp xúc phong u, phong củ


45

3/5/2012

46

Mô hình đa biến
logit = ln(p/1-p) = α + β1x1 + β2x2 + β3x3 + … + ε
• trong đó x1, x2, …, xn là những biến độc lập

Đưa nhiều biến vào mô hình

Variables in the Equation

Step
a
1

bcg
nhtuoi
Constant

B
-1.194
.245
-1.849

S.E.
.191

.051
.214

Wald
38.913
23.166
74.487

df
1
1
1

Sig.
.000
.000
.000

Exp(B)
.303
1.278
.157

95.0% C.I.for EXP(B)
Lower
Upper
.208
.441
1.157
1.412


a. Variable(s) entered on step 1: bcg, nhtuoi.

logit = ln(Odds) = - 1.849 – 1.194 x chủng ngừa
BCG + 0.245 x nhóm tuổi
3/5/2012

47

3/5/2012

48

8


BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Đưa biến số vào mô hình

Đưa biến số vào mô hình (tt)

• Enter: Kết quả cho một mô hình duy nhất
bao gồm tất cả các biến đã được lựa chọn
• Forward: lần lượt đưa dần từng biến độc
lập vào mô hình và sẽ giữ chúng lại nếu như
biến đó có ý nghĩa thống kê.

3/5/2012


49

• Backward: đưa toàn bộ các biến độc lập vào mô
hình sau đó bỏ dần từng biến không có ý nghĩa
thống kê.
• Stepwise: kết hợp 2 phương pháp forward và
backward, tại mỗi một bước phương pháp này sẽ
tính toán để đưa vào hoặc loại ra các biến độc lập
sau khi có sự xuất hiện của các biến khác

3/5/2012

Mô hình: tuổi, học vấn, tiếp xúc phong u, phong củ

3/5/2012

51

Kết quả

3/5/2012

Mô hình: tuổi, học vấn, tiếp xúc phong u, phong củ

3/5/2012

53

50


52

Kết quả

3/5/2012

54

9


BM Thống kê Y tế - Trường ĐH Y tế
Công Cộng

Có nên đưa biến giới vào không?

Vấn đề đưa biến số vào mô hình
• Mô hình giải thích hay mô hình tiên đoán?
• Mô hình giải thích:
– Đưa các biến độc lập chính vào mô hình, lần
lượt bổ sung các biến khác
– Đưa tất cả biến độc lập vào mô hình, sao cho
bậc tự do của mô hình <10% số đối tượng
– Chia các biến độc lập thành nhóm, trong mỗi
nhóm chọn 1-2 biến nhiều thông tin nhất

3/5/2012

55


3/5/2012

Vấn đề đưa biến số vào mô hình (tt)

So sánh mô hình

• Thực hiện backward selection

• Sử dụng likelihood ratio test:

– Đưa các biến độc lập chính, các biến
nhiễu/tương tác vào mô hình
– Giữ lại trong mô hình những biến có p<0.2

– Mô hình A nằm trong mô hình B (nested
models)
– Sử dụng giá trị -2log likelihood
– Chênh lệch bậc tự do giữa 2 mô hình
– Kiểm định Khi bình phương sự chênh lệch 2
giá trị -2log likelihood

Cần lưu ý ý nghĩa y sinh học của biến số!

3/5/2012

57

3/5/2012


Ví dụ

58

Tóm tắt

• Mô hình không có biến số “giới”

• Hồi quy logistics sử dụng khi đo lường
mức độ tác động OR
• Lưu ý các loại biến số độc lập khác nhau
• Việc đưa các biến số vào mô hình đòi hỏi
nhiều thời gian, cân nhắc ý nghĩa y sinh
học, ý nghĩa thống kê của biến số.

• Mô hình có biến số “giới”

3/5/2012

56

59

3/5/2012

60

10




×