Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
CHIẾN LƯỢC PHÂN TÍCH SỐ LIỆU
Mục tiêu
Sau khi học xong bài này, học viên có thể:
1. Xây dựng được sơ đồ phân tích dự kiến các kết quả nghiên cứu
2. Hiểu được các bước tiếp cận phân tích số liệu
3. Lựa chọn được các kiểm định và mô hình thống kê phù hợp với các kết quả
nghiên cứu
Giới thiệu
Chúng ta đã biết có những kĩ thuật thống kê chuyên biệt cho các nghiên cứu
dịch tễ nhất định. Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu
của rất nhiều các biến số, rất khó quyết định thao tác nào được áp dụng và áp dụng
theo trình tự như thế nào. Trong phần này, chúng ta sẽ trình bày một số nguyên tắc
chiến lược để phân tích số liệu từ nghiên cứu dịch tễ.
1. Xây dựng sơ đồ phân tích dự kiến
1.1. Phân tích theo mục tiêu nghiên cứu
Trong nghiên cứu, việc thu thập và phân tích số liệu đóng vai trò quan trọng và
được dẫn đường bởi mục tiêu nghiên cứu. Điều này đảm bảo các số liệu được thu thập
và phân tích đáp ứng trả lời tất cả các thông tin mục tiêu nghiên cứu yêu cầu. Do vậy,
cần phải có sự hiểu biết về các công cụ và kỹ thuật phân tích số liệu.
Phân tích số liệu là một quá trình trong việc thực hiện nghiên cứu. Nhìn chung,
nghiên cứu có các giai đoạn:
o Xác định vấn đề nghiên cứu
o Xác định câu hỏi và mục tiêu nghiên cứu
o Hình thành phương pháp nghiên cứu (bao gồm các vấn đề về đối tượng nghiên
cứu, mẫu nghiên cứu, phương pháp thu thập số liệu v.v…)
o Thu thập số liệu
o Phân tích số liệu
o Phiên giải và trình bày kết quả
Trong việc phân tích số liệu, nội dung phân tích cũng gắn liền một cách chặt
chẽ với mục tiêu nghiên cứu để đảm bảo kết quả phân tích đáp ứng mục tiêu đề ra.
1.2. Câu hỏi phân tích dự kiến
Dựa trên các mục tiêu nghiên cứu, trước khi phân tích, nhà nghiên cứu thường
đặt các câu hỏi để xây dựng kế hoạch phân tích/sơ đồ phân tích dự kiến. Do đó, không
có một công thức chung cho việc xây dựng sơ đồ phân tích dự kiến cho tất cả các
nghiên cứu. Ví dụ sau đây sẽ giúp chúng ta cách tiếp cận để xây dựng sơ đồ phân tích
phù hợp.
1
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Ví dụ 1:
Nghiên cứu Thực trạng bệnh lây truyền qua đường tình dục ở gái mại dâm tại
Trung tâm Chữa bệnh- Giáo dục- Lao động xã hội tỉnh Hoà Bình năm 2009
Mục tiêu nghiên cứu:
i) Mô tả thực trạng bệnh lây truyền qua đường tình dục ở gái mại dâm tại Trung
tâm Chữa bệnh-Giáo dục-Lao động xã hội tỉnh Hoà Bình năm 2009.
ii) Mô tả một số yếu tố liên quan đến bệnh lây truyền qua đường tình dục ở gái
mại dâm tại Trung tâm Chữa bệnh-Giáo dục-Lao động xã hội tỉnh Hoà Bình
năm 2009.
Để phân tích, nhà nghiên cứu đặt ra các câu hỏi như sau:
1. Đặc điểm của GMD trong NC này như thế nào? Ví dụ các đặc điểm về tuổi, trình
độ học vấn, tình trạng hôn nhân, nơi hành nghề, dân tộc…
2. Tỷ lệ từng bệnh lây truyền qua đường tình dục ở GMD như thế nào? Ví dụ các
bệnh: giang mai, lậu, chlamydia, trichomonas, nấm, sùi mào gà, herpes sinh dục,
HIV…
3. Bệnh lây truyền qua đường tình dục phân bố như thế nào trong các nhóm GMD có
đặc điểm khác nhau? Ví dụ các đặc điểm: tuổi, tình trạng hôn nhân, dân tộc, thời
gian hành nghề, nơi hành nghề, trình độ học vấn…
4. Các yếu tố nguy cơ trong nhóm GMD có đặc điểm như thế nào? Ví dụ các yếu tố:
tuổi, thời gian hành nghề, nơi hành nghề, số lượng bạn tình, số lượt bạn tình trong
tuần, đặc điểm khách hàng thường xuyên (khách lạ/khách quen), sử dụng bao cao
su, kiến thức về phòng ngừa bệnh lây truyền qua đường tình dục…
5. Mối liên quan giữa các yếu tố nguy cơ với việc mắc bệnh (có mắc/không mắc) lây
truyền qua đường tình dục trong nhóm GMD như thế nào? Nói cách khác, những
người có yếu tố nguy cơ có nguy cơ mắc bệnh cao hơn người không có yếu tố nguy
cơ hay không?
Thực tế là, các câu hỏi này xuất phát từ mục tiêu nghiên cứu. Mục tiêu i) được đáp ứng
bằng các câu hỏi phân tích 2 và 3, mục tiêu ii) được đáp ứng bằng các câu hỏi phân
tích 4 và 5. Câu hỏi phân tích 1 luôn luôn được đưa ra để mô tả và giới thiệu về đối
tượng nghiên cứu, trước khi đi vào phân tích cho các mục tiêu chính.
Thêm vào đó, các câu hỏi này cũng xuất phát từ khung lý thuyết của nghiên cứu. Điều
này là hiển nhiên vì khung lý thuyết nhằm định hướng và thể hiện các mục tiêu nghiên
cứu, do đó cũng định hướng cho việc phân tích số liệu.
2
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Các yếu tố nguy cơ:
- Thời gian hành nghề
- Số lượng bạn tình
- Số lượt bạn tình/tuần
- Đặc điểm khách hàng
- Sử dụng bao cao su
- Kiến thức phòng ngừa
Đặc điểm nhân khẩu học:
- Tuổi
- Dân tộc
- Trình độ học vấn
- Tình trạng hôn nhân
- Địa chỉ sinh sống
- Thu nhập
- Địa bàn hành nghề
Bệnh LTQĐTD:
- Giang mai
- Lậu
- Chlamydia
- Herpes sinh dục
- Trichomonas
- Nấm
- Sùi mào gà
- Viêm âm đạo
- Viêm cổ tử cung
- HIV
Hình 1. Khung lý thuyết ví dụ
Như vậy, khung lý thuyết cũng thể hiện được các cấu phần cần phân tích để
đảm bảo mục tiêu nghiên cứu. Tuy nhiên, ở một số nghiên cứu phức tạp hơn, khung lý
thuyết đôi khi mang tính chất khái quát hóa các khái niệm, các vấn đề nghiên cứu, hơn
là liệt kê đầy đủ các biến số trong mỗi nhóm như ở hình 1. Khi đó, nhà nghiên cứu cần
dựa vào khung lý thuyết, các câu hỏi phân tích để xây dựng sơ đồ phân tích cụ thể hơn.
1.3. Xây dựng sơ đồ phân tích dự kiến
Sau khi tham khảo mục tiêu nghiên cứu, khung lý thuyết và liệt kê các câu hỏi
phân tích dự kiến, nhà nghiên cứu có thể phân nhóm các câu hỏi nghiên cứu theo định
hướng phân tích: phân tích mô tả hay phân tích suy luận.
Phân tích mô tả nhằm mục đích mô tả đối tượng nghiên cứu và những yếu tố
nguy cơ liên quan đến vấn đề nghiên cứu.
Việc mô tả một cách rõ ràng và chính xác thông tin của đối tượng nghiên cứu
giúp cho những người đọc báo cáo kết quả nghiên cứu hiểu rõ hơn đặc điểm của
nghiên cứu và dân số nghiên cứu. Các thông tin được chọn để đưa ra trong thống kê
mô tả liên quan chặt chẽ đến những thông tin trong thống kê suy luận.
Trong khi phân tích mô tả chỉ nhằm mục đích mô tả các đặc tính của đối tượng
nghiên cứu, sự phân bố của tình trạng phơi nhiễm và bệnh tật, thống kê suy luận sử
dụng các kiểm định thống kê để chứng minh có hay không có mối liên quan giữa phơi
nhiễm và kết cuộc quan tâm. Lưu ý, các kết quả phân tích từ thống kê suy luận chưa
đủ để kết luận về mối liên quan nhân quả, việc kết luận mối liên quan nhân quả giữa
phơi nhiễm và bệnh phải được dựa vào các yếu tố khác được đề cập nhiều trong dịch
tễ học.
3
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Ví dụ:
Trong ví dụ 1:
Câu hỏi phân tích 1, 2, 3 và 4 thuộc về phân tích mô tả.
Câu hỏi 5 thuộc về phân tích suy luận.
Như vậy, dựa trên các câu hỏi phân tích, nhà nghiên cứu có thể khái quát thành
sơ đồ phân tích sau:
Mục tiêu
NC 1
Câu hỏi
phân tích 1
Câu hỏi
phân tích 2
Câu hỏi
phân tích 3
Mục tiêu
NC 2
Mô tả 1
biến số
Thống kê
mô tả
Mô tả 1
biến số
Câu hỏi
phân tích 4
Câu hỏi
phân tích 5
Mô tả 2
biến số
Thống kê
phân tích
Lựa chọn
kiểm định
Hình 2. Sơ đồ phân tích dự kiến
Tóm lại, để xây dựng sơ đồ phân tích dự kiến (hoặc các câu hỏi phân tích dự
kiến), nhà nghiên cứu cần tiếp cận theo trình tự như hình 2.
2. Lựa chọn các kỹ thuật phân tích
2.1. Phân tích mô tả
2.1.1. Mô tả 1 biến số:
Một trong những vấn đề quan trọng của phân tích mô tả là chọn đại lượng thống
kê để mô tả. Điều này tuỳ thuộc vào loại biến số: biến phân loại hay biến định lượng.
-
Biến số phân loại: sử dụng tỷ lệ (%)
-
Biến số định lượng (liên tục): sử dụng các đại lượng đo lường độ tập trung và
sự biến thiên/sự phân tán.
o Đo lường độ tập trung: trung bình, trung bị, mode
o Đo lường sự biến thiên/sự phân tán: phương sai, độ lệch chuẩn, khoảng
phân vị, khoảng
Lưu ý: Đối với biến số định lượng, việc lựa chọn đại lượng để mô tả còn phụ
thuộc vào phân bố của biến đó. Nếu biến có phân bố chuẩn, giá trị trung bình và độ
lệch chuẩn được dùng để mô tả đại lượng được thể hiện bởi biến đó. Nhưng nếu biến
đó không có phân bố chuẩn thì giá trị trung vị, khoảng (giá trị nhỏ nhất; giá trị lớn
nhất) được dùng để mô tả cho biến đó.
4
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Bảng 1. Lựa chọn đại lượng mô tả 1 biến số
Biến số
Định lượng
Thứ bậc
Danh định
Phân nhóm số liệu Bảng phân phối tần Bảng phân phối tần
Trình bày số liệu
Bảng phân phối tần suất (sắp xếp theo suất (sắp xếp theo
suất
thứ tự)
tần suất)
Có thể dùng % tích Có thể dùng % tích Không dùng % tích
luỹ
luỹ
luỹ
Histograms
Biểu đồ cột rời
Biểu đồ cột rời
Đồ thị, biểu đồ
Box-and-Whisker
Biểu đồ bánh
Biểu đồ bánh
Không cần thiết
Thống kê tóm tắt Trung bình
(phân phối bình Độ lệch chuẩn
thường)
Phân phối không Trung vị
Phạm vi (min, max,
bình thường
phân vị)
2.1.2. Mô tả 2 biến số
Khi mô tả hai biến số, cần chọn lựa các kỹ thuật được mô tả trong bảng 2.
Bảng 2. Lựa chọn đại lượng mô tả mối liên quan giữa hai biến số
Biến số
Định lượng
Phân loại
Định lượng
Phân tán đồ (biểu đồ chấm Boxplot
điểm)
Case summaries
Hệ số tương quan
Phân loại
Boxplot
Bảng chéo (Crosstabs)
Case summaries
Giả định
Các quan sát là độc lập
Biến định lượng có phân phối chuẩn
2.2. Phân tích suy luận
2.2.1. Lựa chọn kiểm định
Về nguyên tắc, việc lựa chọn kiểm định thường dựa vào biến số trong câu hỏi
nghiên cứu. Bước đầu tiên khi thực hiện kiểm định là phân tích câu hỏi nghiên cứu để
xem xét các biến số trong câu hỏi, từ đó giúp lựa chọn kiểm định phù hợp.
Có hai nhóm kiểm định: kiểm định tham số và kiểm định phi tham số.
Kiểm định tham số thường được sử dụng khi biến số phụ thuộc là biến định
lượng có phân phối chuẩn.
• Nếu biến độc lập là biến nhị phân (ví dụ giới tính, có hai giá trị là nam, nữ) Æ
kiểm định được sử dụng khi so sánh sự khác nhau trung bình của biến số phụ
thuộc giữa hai nhóm giá trị của biến số độc lập là t-test không bắt cặp
Ví dụ: so sánh lượng calories trung bình trong hai nhóm có và không béo phì
• Nếu biến độc lập là biến phân loại có từ 3 giá trị trở lên (ví dụ: bệnh nặng, bệnh
trung bình, bệnh nhẹ) Æ kiểm định được sử dụng để so sánh sự khác nhau trung
bình của biến số phụ thuộc giữa các nhóm giá trị của biến số độc lập là phân
tích phương sai (ANOVA)
5
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Ví dụ: so sánh lượng calories trung binh trong 3 nhóm đối tượng thiếu cân, bình
thường và thừa cân.
Kiểm định phi tham số thường được sử dụng khi biến số phụ thuộc không phải
là biến định lượng hoặc biến định lượng không có phân phối chuẩn.
Kiểm định phi tham số thường được sử dụng nhất trong nhiều nghiên cứu là
kiểm định Khi bình phương (chi-square). Kiểm định này được sử dụng khi biến phụ
thuộc và biến độc lập đều là các biến phân loại.
Bảng dưới đây mô tả nguyên tắc chọn lựa kiểm định phù hợp. Nguyên tắc bao gồm:
• Dựa vào thang đo (đặc điểm đo lường) của biến số độc lập và biến số phụ thuộc
- loại biến số (định lượng hay phân loại…)
• Dựa vào các giả định (các yêu cầu) của kiểm định: phân phối của biến số định
lượng, sự giống nhau của các phương sai trong các nhóm.
Bảng 3: Lựa chọn các kiểm định
Biến số
phụ thuộc
(loại biến
số)
Loại biến số độc lập
Nhị phân
Danh định
So sánh trước – sau
(trên cùng đối tượng)
Hai nhóm đối
tượng
gồm
các cá nhân
khác nhau
Ba hay nhiều
nhóm
đối
tượng gồm
các cá nhân
khác nhau
Trước và
sau nghiên
cứu
trên
cùng
các
đối tượng
Liên hệ giữa
hai biến số
≥
3 can
thiệp trên
cùng
các
đối tượng
tích t-test ghép Phân tích Hồi qui tuyến
Liên
tục t-test không Phân
phương sai
cặp
phương sai tính và tương
(phân phối ghép cặp
đo
lường quan pearson
chuẩn)
lặp lại
Danh định
χ2 bảng 2 x n
χ2 bảng 3 x test
McNemar
n
Cochrance
Q
Hệ số của bảng
nxm
(OR, RR…)
Kiểm
định KruskalLiên
tục sắp hạng – Wallis
(không có tổng Mannphân phối Whitney
chuẩn)
Thứ tự
Kiểm định Friedman
sắp hạng có
dấu
Wilcoxon
Hệ số tương
quan Spearman
2.2.2. Quy trình lựa chọn kiểm định – ví dụ
Để lựa chọn các kiểm định thống kê cơ bản trở nên dễ dàng hơn với nhà nghiên
cứu, việc phân tích lựa chọn có quy trình khởi đầu từ biến phụ thuộc.
6
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Hộp 1. Có sự khác biệt hay không? Biến phụ thuộc là biến số định lượng, các
đo lường là độc lập với nhau (không lặp lại)
So sánh giữa
hai nhóm
t-test không
ghép cặp
So sánh
nhiều hơn
hai nhóm
Phân tích
phương sai
ANOVA
So sánh giữa
hai nhóm
Kiểm định
MannWhitney
So sánh
nhiều hơn 2
nhóm
Kiểm định
KruskalWallis
Có phân
phối chuẩn
Biến định
lượng
Không có
phân phối
chuẩn
Hộp 2. Có sự khác biệt hay không? Biến phụ thuộc là biến số phân loại, các
đo lường là độc lập với nhau (không lặp lại)
Biến
phân loại
So sánh
giữa các
nhóm
Có ≥25% ô
có giá trị kỳ
vọng <5
Fisher’s
exact test
<25% ô có giá
trị kỳ vọng <5
Chi square
test
Bảng n x m
3. Chiến lược phân tích
Như vậy, sau khi đã định hướng sơ đồ phân tích, nhà nghiên cứu cần có chiến
lược tiếp cận phân tích phù hợp.
3.1. Biên tập số liệu
Kiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân
tích thống kê.
Bước 1: Xem sự phân phối của từng biến số để phát hiện các sai lầm có thể.
7
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
-
Đối với biến số phân loại: điều này thực hiện bằng bảng phân phối tần suất
để xem rằng các bản ghi đều ở trong các nhóm đã được xác định và tần suất
của mỗi nhóm là hợp lí.
-
Đối với biến số định lượng: kiểm tra phạm vi cần được tiến hành để phát
hiện những giá trị nằm ngoài phạm vi mong đợi. Histogram cũng có thể
dùng để tìm kiếm các giá trị bất thường (outliers) không phù hợp với phần
số liệu còn lại.
Bước 2: Tiến hành kiểm tra tính hằng định, để tìm kiếm những trường hợp
mà 2 hay nhiều biến số là không hằng định.
Thí dụ, nếu có 2 biến số: “giới tính” và “số lần mang thai” trong bộ số liệu,
chúng ta có thể sử dụng bảng chéo (crosstabs) để chắc rằng không có người nam giới
nào có số lần mang thai là một hay nhiều hơn. Phân tán đồ (scatter graph) cũng có thể
được sử dụng để kiểm tra tính hằng định của số liệu số; thí dụ chúng ta có thể vẽ phân
tán đồ của trọng lượng theo tuổi, trọng lượng theo chiều cao, dung tích sống theo chiều
cao. Những giá trị bất thường cũng có thể được phát hiện bằng cách này.
Kết quả của việc kiểm tra: nếu có sai sót:
-
Những sai sót có thể được kiểm tra so với tài liệu gốc. Trong một số trường
hợp cần phải điều chỉnh lại số liệu.
-
Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value)
nếu chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi
sinh là 45 kg và đã tăng cân 35kg trong thời gian có thai).
Lưu ý: Trong trường hợp còn chưa rõ, khi số liệu là bất thường nhưng không bị
xem là không thể xảy ra, tốt nhất là để số liệu giữ nguyên. Một cách chặt chẽ, việc
phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá
mức vì giá trị cực đoan này. Trên thực tiễn, giá trị bằng số (định lượng) thường được
chia thành các nhóm trước khi phân tích và do đó một hay hai giá trị bất thường khó có
thể có ảnh hưởng đáng kể đến kết quả.
Nếu là nghiên cứu bệnh chứng: Việc kiểm tra cần phải được tiến hành riêng biệt
cho nhóm mắc bệnh và nhóm không mắc bệnh bởi vì phân phối của 2 nhóm này có thể
hoàn toàn khác nhau.
3.2. Mô tả số liệu
Sau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát
lại. Điều này được thực hiện cho 2 mục đích.
-
Để đảm bảo rằng tất cả các số liệu đều đã được sắp xếp phù hợp
-
Để có một cảm giác về số liệu. Cảm giác vế số liệu là sự hiểu biết về đặc
tính của dân số đối với biến số phơi nhiễm và các giá trị khác cần đo lường.
Khi thực hiện nghiên cứu bệnh chứng, chúng ta cần phải xem xét số liệu
một cách riêng biệt.
3.3. Phân loại biến số
Nói chung, sẽ rất hữu ích nếu chúng ta phân biệt các loại biến số: biến "kết
cuộc" (outcome), "phơi nhiễm", "gây nhiễu" và "thay đổi tác động" (tương tác).
8
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
-
Biến số kết cuộc và biến số phơi nhiễm: là các biến số trung tâm của nghiên
cứu, trong đó:
o Biến số kết cuộc mô tả vấn đề nghiên cứu;
o Biến số phơi nhiễm là biến số mà chúng ta muốn xem xét và ước
lượng tác động của nó lên biến số kết cuộc.
-
Biến số gây nhiễu: là biến số làm biến dạng quan hệ giữa biến số phơi
nhiễm và kết cuộc. Chúng ta thu thập số liệu của các biến số gây nhiễu để
loại bỏ tác động của yếu tố gây nhiễu trong khi phân tích.
-
Biến số thay đổi tác động (biến số tương tác): là biến số làm thay đổi tác
động của biến số phơi nhiễm lên nguy cơ. Chúng ta thu thập số liệu của các
biến số thay đổi tác động để xem xét tác động của biến số phơi nhiễm lên
nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác động.
Ví dụ:
-
Khi xem xét mối liên quan giữa biến số kết cuộc “ung thư phổi” có hai giá
trị “bệnh” và không bệnh – “chứng” và biến số phơi nhiễm “hút thuốc
lá”(Hình 1), kết quả cho thấy tỷ số số chênh OR=0.89 < 1Æ hút thuốc có
thể là yếu tố bảo vệ đối với bệnh ung thư phổi (???).
-
Khi phân tích cụ thể theo biến giới tính: phân tích riêng cho nhóm nam và
nhóm nữ, OR = 1.98 hoặc 1.99 Æ Con số OR thực ra là > 1 (gần bằng 2).
-
Như vậy, rõ ràng biến số giới tính đã làm biến dạng mối quan hệ giữa hút
thuốc lá và ung thư phổi. Rõ ràng nếu không loại bỏ sự gây nhiễu của biến
số giới tính, kết quả của chúng ta sẽ bị sai.
Hình 1: Minh hoạ yếu tố gây nhiễu
9
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Trong hình 2, chúng ta xem xét mối liên quan giữa chỉ số khối cơ thể (BMI) với
bệnh nhồi máu cơ tim. Kết quả phân tích đầu tiên giữa biến số phơi nhiễm (BMI) và
biến số kết cuộc (Nhồi máu cơ tim) cho thấy OR = 1,5 Æ nghĩa là BMI là một yếu tố
nguy cơ của bệnh Nhồi máu cơ tim, nhưng nguy cơ đó không quá cao.
Tuy nhiên khi phân tích cụ thể theo biến giới tính: phân tích riêng trong nhóm
nữ có OR = 2,3 và trong nhóm nam OR = 1,2 Æ như vậy, BMI đúng là một yếu tố
nguy cơ của bệnh NMCT (như kết luận trên). Tuy nhiên mức độ liên quan (hay mức
độ ảnh hưởng) của BMI đến bệnh NMCT ở hai nhóm là khác nhau. Mức độ ảnh hưởng
của BMI đến NMCT ở nữ là cao hơn ở nam. Rõ ràng trong ví dụ này, giới tính không
phải làm biến dạng mối liên quan, mà mối liên quan này thay đổi tuỳ theo từng nhóm
giới tính
Hình 2: Minh hoạ yếu tố biến đổi tác động (yếu tố gây nhiễu)
Trên thực tiễn, mối liên hệ giữa các biến số có thể phức tạp hơn:
-
Thí dụ một biến số có thể là yếu tố gây nhiễu lên mối quan hệ của một yếu
tố phơi nhiễm và kết cuộc, nhưng bản thân nó cũng có thể là biến số phơi
nhiễm quan tâm.
-
Một biến số khác có thể gây nhiễu cho một biến sô phơi nhiễm này nhưng
làm thay đổi tác động cho một biến số phơi nhiễm khác.
-
Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò. Qua phân tích biến
số này có thể trở thành biến số phơi nhiễm, hoặc nếu nó không trở thành
biến số phơi nhiễm, nó có thể được xem là biến số gây nhiễu hay thay đổi
tác động.
3.4. Rút gọn số liệu
Trước khi bắt đầu phân tích chính thức, có thể cần phân nhóm giá trị của các
biến số.
Việc phân nhóm là quan trọng cho các biến số liên tục. Ví dụ chúng ta có biến
số BMI với các giá trị 19, 19.2, 19.6, 20, 20.5,… Để đơn giản, chúng ta dựa trên phân
nhóm BMI về béo phì và nhóm các giá trị này thành 2 nhóm: BMI<30 và BMI≥30.
10
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Việc phân nhóm cũng cần thiết cho biến số phân loại hay biến số rời rạc nếu
các biến số này có chứa một số lớn các nhóm (thí dụ như học vấn, nghề nghiệp, số lần
mang thai).
Số nhóm được phân chia phụ thuộc vào từng loại biến số: đối với biến số phơi
nhiễm cần phân chia thành nhiều nhóm hơn đối với biến số gây nhiễu hay biến số thay
đổi tác động.
Lưu ý: Đối với biến số phơi nhiễm, khi chúng ta muốn xem xét sự phụ thuộc
của nguy cơ vào mức độ phơi nhiễm (ví dụ nguy cơ mắc bệnh đái tháo đường sẽ càng
tăng khi chỉ số BMI càng tăng: đó là quan hệ liều lượng – đáp ứng), chúng ta sẽ mắc
sai lầm nếu chúng ta sử dụng quá ít nhóm.
Nguyên tắc chung:
-
Đối với các biến phân loại: như hút thuốc lá, phân loại BMI… Nhóm không
phơi nhiễm nên đặt riêng (thí dụ nhóm không hút thuốc, nhóm có BMI bình
thường) và nhóm phơi nhiễm nên chia thành nhiều nhóm (thường là 4 hay 5
nhóm là đủ để có thể xem xét mối quan hệ liều lượng đáp ứng).
-
Đối với biến số liên tục: như cao huyết áp, có nhiều cách để phân nhóm:
o Chia các giá trị của biến số làm 5 nhóm có tần suất (frequency) bằng
nhau (được gọi là quintiles – ngũ phân vị). Điều này giúp cho độ
chính xác của ước lượng tác động lên mỗi nhóm. Tuy nhiên đôi khi
có thể sai lầm do nếu có một ít đối tượng có mức phơi nhiễm rất cao
bị ghép chung với các đối tượng có độ phơi nhiễm vừa phải.
o Chọn các điểm cắt (cut point) dựa trên nền tảng của các nghiên cứu
trước đó, mục đích là xác định các nhóm mà nguy cơ tương đối ít
thay đổi trong từng nhóm.
-
Đối với biến số gây nhiễu, hai hay ba nhóm là đủ đối với phần lớn các yếu
tố gây nhiễu. Dù vậy nếu biến số gây nhiễu mạnh (thí dụ như tuổi) thì có thể
phân thành nhiều nhóm hơn. Trước khi quyết định số nhóm cần dùng trong
phân tích, chúng ta có thể đánh giá sức mạnh quan hệ giữa biến số gây nhiễu
và biến số kết cuộc. Nếu sự quan hệ này là yếu thì chúng ta có thể kết hợp
nhiều nhóm lại với nhau.
3.5. Đo lường tác động
Sau khi đã hoàn tất việc chuẩn bị số liệu theo các bước như trên, nhà nghiên
cứu phải quyết định các chỉ số/giá trị để đo lường các tác động/mối liên quan mà nhà
nghiên cứu quan tâm. Việc lựa chọn phụ thuộc vào thiết kế nghiên cứu. Có các lựa
chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Các lựa chọn bao
gồm:
11
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Bảng 4: Lựa chọn các đo lường tác động
Thiết kế nghiên cứu
Đo lường tần suất bệnh
Thuần tập (người thời Tỉ suất mới mắc
gian)
Thuần tập (không có số Nguy cơ
liệu người thời gian)
Số chênh
Cắt ngang để đo lường Tỉ lệ hiện mắc
hiện mắc
Số chênh
Bệnh chứng
Đo lường tác động
Tỉ số tỉ suất
Hiệu số tỉ suất
Tỉ số nguy cơ
Hiệu số nguy cơ
Tỉ số số chênh
Tỉ số nguy cơ (hiện mắc)
Hiệu số nguy cơ
Tỉ số số chênh
Tỉ số số chênh
Đối với nghiên cứu thuần tập, nếu có số liệu về người thời gian phơi nhiễm, tỉ
suất mới mắc thường là số đo tần suất được chọn lựa và tỉ số tỉ suất là số đo tác động
được chọn lựa.
Đối với nghiên cứu thuần tập dựa trên nguy cơ và để nghiên cứu bệnh hiện mắc,
tỉ số nguy cơ sẽ được xem là dễ lí giải hơn tỉ số số chênh. Tuy nhiên tỉ số số chênh
thường được sử dụng do tính chất thống kê của các thao tác dựa trên tỉ số số chênh là
tốt hơn. Bởi vì hồi quy logistic thường được sử dụng để ước lượng tỉ số số chênh, tỉ số
số chênh cũng được sử dụng do nó cho kết quả hằng định với kết quả của phân tích hồi
quy logistic.
Trong nghiên cứu bệnh chứng, tỉ số số chênh thưòng được dung để đo lường tác
động mặc dù nó có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất, phụ thuộc vào
phương pháp chọn lựa nhóm chứng.
3.6. Phân tích đơn biến
Sau khi đã xác định các đo lường cần phân tích, thông thường nhà nghiên cứu
sẽ đặt câu hỏi: Quy trình phân tích sẽ như thế nào?
Thông thường nên bắt đầu với phân tích thô đơn biến, sử dụng các phương
pháp cổ điển để xem xét sự liên quan giữa kết cuộc và các yếu tố phơi nhiễm quan tâm
và bỏ qua các biến số khác. Mặc dù phân tích này sẽ bị thay thế bởi các phân tích phức
tạp hơn và có xem xét đến tác động của các biến số khác, phân tích đơn biến vẫn có
ích lợi vì:
i)
Xem xét các bảng phân tích đơn Æ cho người nghiên cứu những thông tin hữu ích
về bộ số liệu; thí dụ tỷ lệ các trường hợp tử vong ở một nhóm phơi nhiễm nhất
định….;
ii) Nó cho chúng ta khái niệm ban đầu về các biến số có thể liên quan mạnh đến kết
cuộc;
iii) Mức độ thay đổi của ước lượng thô so với ước lượng khi các biến số khác được
đưa vào để sử dụng trong phân tầng là một chỉ số quan trọng để đánh giá sự hiện
diện của yếu tố gây nhiễu.
12
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
Khi phơi nhiễm có trên 2 mức độ, một mức độ phơi nhiễm được chọn làm mức
nền. Thông thường người ta chọn mức nền là mức không có phơi nhiễm (hoặc phơi
nhiễm ít nhất nếu ai đó đều bị phơi nhiễm hoặc ít hoặc nhiều). Tuy nhiên nếu nhóm
này có ít người thì ước lượng sẽ có sai số chuẩn lớn và chúng ta có thể có lợi khi chọn
nhóm lớn hơn làm nền tảng.
Phân tích phơi nhiễm với 2 hoặc hơn các mức độ (cả khi phân tích thô và phân
tích phân tầng) sẽ bao gồm:
i)
Các bảng 2x2, so sánh các mức độ phơi nhiễm với nhóm nền;
ii) Xem xét các ước lượng của tác động có theo một khuynh hướng nào hay không;
iii) Nếu phù hợp, thực hiện một kiểm định khuynh hướng (test for trend) để tìm bằng
chứng về sự tăng giảm nguy cơ theo mức độ phơi nhiễm tăng dần.
3.7. Kiểm soát các yếu tố gây nhiễu
Yếu tố gây nhiễu hiện diện ít nhiều trong các nghiên cứu quan sát và cần phải
thực hiện loại bỏ các yếu tố gây nhiễu trong các phân tích của biến số phơi nhiễm quan
tâm.
Chúng ta đã có 2 công cụ cho nhiệm vụ này:
-
Phương pháp cổ điển (Mantel-Haenszel) dựa trên phân tầng;
-
Phương pháp mô hình hoá với các phương trình hồi quy.
Chúng ta nên dùng phương pháp cổ điển trong bước đầu của phân tích vì các lí
do sau:
i)
Các bảng số liệu đơn giản giúp nhà nghiên cứu có liên hệ với số liệu. Ngược lại,
phương trình hồi quy có thể gây ra những sai số tai họa khi mô hình hoá.
ii) Phương pháp cổ điển đòi hỏi ít giả định nên có thể phát hiện được các mối liên
quan phức tạp. Phương pháp mô hình hoá có thể bỏ qua một số tương tác.
Lưu ý: Phương pháp cổ điển sẽ gặp khó khăn khi có một số lớn các biến số gây
nhiễu và khi muốn kiểm soát các yếu tố gây nhiễu này đồng thời thì do sự hiện diện
của quá nhiều tầng sẽ khiến cho số liệu của mỗi tầng trở thành quá nhỏ và sẽ khiến sức
mạnh thống kê bị kém và khoảng tin cậy của ước lượng sẽ rộng ra.
Mặc dù vậy, nếu phương pháp cổ điển được áp dụng một cách sáng suốt sẽ cho
một ước lượng có giá trị và loại bỏ các sai lệch do yếu tố gây nhiễu gây ra. Điều này
đúng cho hầu hết các loại nghiên cứu ngoại trừ nghiên cứu bệnh chứng bắt cặp cá
nhân trong đó kĩ thuật phân tầng cổ điển có rất ít giá trị.
Phương pháp hồi quy có các lợi ích sau:
i)
Có giả định giống như giả định trong phương pháp phân tầng và do đó cho kết
quả hoàn toàn đồng nhất.
i)
Giả định rằng không có tương tác giữa các biến số gây nhiễu, chúng ta có thể làm
giảm số tham số cần thiết
ii) Có thể xác định được tác động của từng biến số, được kiểm soát cho tác động của
các biến số khác.
iii) Có thể xem xét tác động liều lượng hậu quả một cách linh hoạt hơn.
13
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
3.8. Cách đưa vào biến số gây nhiễu
Khi phân tích với nhiều biến số, nhà nghiên cứu sẽ đặt câu hỏi: nên đưa các
biến số nào vào phân tích để kiểm soát các gây nhiễu? Một số quy tắc có thể áp dụng
được gợi ý sau đây:
i)
Thông thường sẽ có hai hay ba biến số được cho là các biến số gây nhiễu quan
trọng (những biến số này đuợc gọi là biến số gây nhiễu trù định - a priori
confounders, hoặc là biến số gây nhiễu tiềm tàng – potential confounders).
Những biến số này thường là tuổi và một hay hai yếu tố nguy cơ quan trọng của
bệnh và được cho là có thể có liên quan đến biến số phơi nhiễm quan tâm. Theo
các quy tắc chung, những biến số này phải được kiểm soát trong phân tích.
ii) Chúng ta xem xét các biến số có thể gây nhiễu khác. Kiểm soát từng biến số một
và xem có làm thay đổi con số ước lượng tác động hay không.
iii) Đôi khi chỉ có môt hoặc hai biến số gây nhiễu làm thay đổi ước lượng tác động.
Khi đó phân tích cuối cùng thưc hiện việc kiểm soát các biến số gây nhiễu trù
định với các biến số gây nhiễu bổ sung có tác động. Không cần thiết phải đưa
tất cả các biến số gây nhiễu vào phân tích cuối cùng bởi vì một số biến số gây
nhiễu không làm thay đổi ước lượng tác động của biến số phơi nhiễm quan tâm
nếu đã được kiểm soát cho các biến số gây nhiễu khác.
Lưu ý: Nếu có 3 hay ít hơn các biến số gây nhiễu thì chỉ cần sử dụng phương
pháp cổ điển là đủ. Trong trường hợp này, lần lượt phân tầng cho từng biến số và sau
đó phân tầng cho đồng thời các biến số để xem các ước lượng tác động thay đổi như
thế nào. Chiến lược này đủ để loại bỏ hầu hết các ảnh hưởng gây nhiễu.
Khi số các biến số gây nhiễu là quá lớn và không thể kiểm soát bằng phương
pháp phân tầng đơn thuần, phương trình hồi quy (giả định không có hay chỉ có ít tương
tác giữa các biến số gây nhiễu) sẽ có giá trị.
Phân tích hồi quy:
Bước 1: Bước đầu tiên của phương pháp mô hình là lập lại những phân tích đơn
giản và kiểm tra xem kết quả có phù hợp với phân tích phân tầng đơn giản hay không.
Bước 2: Sau đó có thể xây dựng các mô hình phức tạp hơn bao gồm:
-
Biến số phơi nhiễm hoặc các biến số phơi nhiễm quan tâm;
-
Tất cả các biến số được cho là yếu tố gây nhiễu từ trước (yếu tố gây nhiễu
trù định);
-
Tất cả các biến số khác được cho là có thể gây nhiễu và số liệu cho thấy có
tác động gây nhiễu đáng kể.
Lưu ý:
-
Tránh việc đưa vào các biến số không phải là yếu tố gây nhiễu, đặc biệt là
nếu biến số này có liên quan mạnh đến phơi nhiễm quan tâm bởi vì nó sẽ
tạo ra sai số chuẩn lớn và khiến ước lượng kém chính xác.
-
Cần lưu ý rằng các biến số được xem là gây nhiễu phụ thuộc một phần vào
quyết định trù định (a priori decision - dự định trước các yếu tố nào có thể là
yếu tố gây nhiễu) và một phần vào mức độ của ước lượng bị thay đổi sau
khi kiểm soát cho yếu tố gây nhiễu đó. Chúng ta hoàn toàn không dựa vào
14
Bài giảng Dịch tễ-Thống kê Nâng cao. BM Dịch tễ Thống kê - Trường ĐH YTCC
kết quả của kiểm định ý nghĩa. Do đó các nhà thống kê và dịch tễ hàng đầu
thường không khuyến cáo sử dụng phương pháp hồi quy từng bước
(stepwise) trong phân tích dịch tễ.
3.9. Phân tích tương tác
Hồi quy là một công cụ rất phù hợp cho phân tích sự tương tác. Có 3 loại tương
tác cần được phân biệt
i)
Tương tác giữa các biến số gây nhiễu:
Sự khác biệt chính giữa phương pháp mô hình hoá và phương pháp cổ điển là
phương pháp cổ điển cho phép xem xét sự tương tác giữa các biến số gây nhiễu. Điều
may mắn là trên thực thế, hầu như không bao cần xem xét sự tương tác giữa các biến
số gây nhiễu.
ii)
Tương tác giữa biến số gây nhiễu và biến số phơi nhiễm chúng ta
quan tâm:
Khi có sự hiện diện đáng kể của tương tác, tác động đặc hiệu của từng tầng phải
được báo cáo.
iii)
Tương tác giữa các biến số phơi nhiễm quan tâm
Nếu có sự tương tác giữa các biến số phơi nhiễm quan tâm thì điều này là rất
quan trọng cho việc lí giải khoa học của kết quả phân tích và cho việc ứng dụng các
can thiệp dự phòng.
Lưu ý:
Việc tích cực tìm kiếm sự tương tác với tất cả các biến số có thể là không có ích
lợi. Kiểm định thống kê cho sự tương tác được chứng minh là có lực rất kém và nếu
chúng ta lần lượt tìm kiếm sự tương tác có ý nghĩa thống kê của tất cả các biến số sẽ
dễ dàng bỏ qua những tương tác thực sự và tình cờ đưa ra các phát hiện giả tạo.
Nhà nghiên cứu cũng nên nhớ rằng mục tiêu của nghiên cứu dịch tễ là tìm ra
một bức trạnh đơn giản nhưng chân thật và hữu dụng của thực tế. Nếu có tương tác
yếu, bản thân điều này không có ý nghĩa quan trọng lắm, do đó, việc tính toán ước
lượng gộp của tác động cho từng phơi nhiễm là sự xấp xỉ hợp lí cho sự thật.
Vì những lí do này, nên trì hoãn việc phân tích tương tác vào giai đoạn cuối
của phân tích và chỉ nên xem xét tương tác phơi nhiễm-phơi nhiễm và phơi nhiễmgây nhiễu, đặc biệt chú ý đến những yếu tố tương tác trù định đáng được nghiên cứu.
Nên xem xét từng yếu tố tương tác một để tránh những mô hình quá phức tạp với
nhiều tham số.
Kết luận
Chiến lược phân tích số liệu đóng vai trò quan trọng trong phân tích số liệu
nghiên cứu. Nhà nghiên cứu cần lưu ý, mọi phân tích đều đi từ mục tiêu nghiên cứu.
Nói cách khác, mục tiêu nghiên cứu phải dẫn đường cho các phân tích về sau.
15