Tải bản đầy đủ (.doc) (72 trang)

Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm sàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 72 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ CẨM VÂN

CÁC MƠ HÌNH HỌC SÂU TIÊN TIẾN VÀ
ỨNG DỤNG TRONG PHÂN TÍCH CHUỖI
THỜI GIAN LÂM SÀNG

LUẬN VĂN THẠC SĨ
Ngành: Hệ thống thông tin

HÀ NỘI - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Cẩm Vân

CÁC MƠ HÌNH HỌC SÂU TIÊN TIẾN VÀ
ỨNG DỤNG TRONG PHÂN TÍCH CHUỖI
THỜI GIAN LÂM SÀNG

LUẬN VĂN THẠC SĨ
Ngành: Hệ thống thông tin
Cán bộ hướng dẫn:

PGS.TS. Hà Quang Thuỵ

TS. Trần Mai Vũ



HÀ NỘI - 2019


Tóm tắt
Trong thập kỉ qua, lượng dữ liệu được lưu trữ trong hồ sơ sức khỏe điện tử (Electronic
Heath Records) tăng lên nhanh chóng, việc sử dụng các hệ thống EHR đã tăng lên rất nhiều
ở cả bệnh viện và cơ sở chăm sóc. Các hệ thống EHR lưu trữ dữ liệu liên quan đến mỗi lần
gặp bệnh nhân, bao gồm thơng tin nhân khẩu học, chẩn đốn, xét nghiệm và kết quả trong
phịng thí nghiệm, đơn thuốc, hình ảnh X quang, ghi chú lâm sàng ... Mặc dù được thiết kế
chủ yếu để cải thiện hiệu quả chăm sóc sức khỏe từ quan điểm vận hành, nhiều nghiên cứu
đã tìm thấy việc sử dụng cho các ứng dụng tin học lâm sàng.

Trong những năm gần đây, cộng đồng nghiên cứu về chăm sóc sức khỏe ứng
dụng các cơng nghệ trí tuệ nhân tạo ngày càng tăng để cung cấp các phương pháp
phân tích dữ liệu lớn và hỗ trợ ra quyết định trong chẩn đoán lâm sàng. Một trong những
lý do chính cho điều này là tác động to lớn của việc áp dụng các kĩ thuật học sâu để sử
dụng dữ liệu lớn trong các trường hợp phân tích hồ sơ chăm sóc sức khỏe phức tạp.

Luận văn sẽ xây dựng một mơ hình học sâu áp dụng cơ chế Attention kết
hợp với mạng BiLSTM dự đoán sự kiện lâm sàng cho 3 sự kiện mục tiêu đó là
Nhiễm trùng máu (SEPSIS), Nhồi máu cơ tim (MI), và nồng độ Vancomycin
trong huyết thanh sau 24 giờ dùng thuốc Vancomycin.
Đồng thời, luận văn trích xuất các đặc trưng tương ứng với 3 sự kiện mục tiêu từ
cơ sở dữ liệu MIMIC-III và xây dựng mơ hình cơ sở sử dụng các mơ hình độc lập:
LSTM, Attention và BiLSTM để làm nổi bật tính hiệu quả của mơ hình kết hợp đề xuất.

Từ khóa: Dự đốn sự kiện lâm sàng, EHR, MIMIC-III, Nhồi máu cơ tim, Nhiễm
trùng huyết, Vancomycin, Học sâu trong y tế.


iii


Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới PGS.TS. Hà
Quang Thuỵ, người thầy đã mang đến cho em nguồn cảm hứng vô tận trong
nghiên cứu khoa học. Em thật sự biết ơn những giúp đỡ, lời khuyên và sự tận
tình hướng dẫn của thầy trong luận văn cũng như định hướng nghiên cứu
trong suốt thời gian học tập và làm việc tại Phịng Thí nghiệm và Cơng nghệ tri
thức (DS&KT Lab - Đại học Công nghệ, Đại học quốc gia Hà Nội.
Em muốn gửi lời cảm ơn sâu sắc đến TS. Trần Mai Vũ, người đã tận tình chỉ bảo,
hướng dẫn, động viên và giúp đỡ em không chỉ trong quá trình thực hiện đề tài luận văn
này mà cịn trong suốt quãng thời gian học tập và nghiên cứu tại Phịng Thí nghiệm.
Em xin gửi lời cảm ơn sâu sắc tới quý thầy cô giáo trong Khoa Công nghệ thông tin
nói riêng và trường Đại học Cơng nghệ - Đại học Quốc gia Hà Nội nói chung, đã truyền
đạt kiến thức quý báu cho em trong những năm tháng ngồi trên ghế nhà trường.

Em xin gửi lời cảm ơn tới các thầy cô, anh chị và các bạn trong DS&KTLab,
đặc biệt là chị Quỳnh, chị Hồng, chị Yến, Trang và Cát đã giúp đỡ em rất nhiều
trong việc hỗ trợ kiến thức chun mơn để hồn thành luận văn tốt nghiệp này.
Cuối cùng, con xin nói lên lịng biết ơn vơ hạn đối với gia đình, những người
ln ln chăm sóc, là nguồn động viên, khích lệ con, giúp con vượt qua những
khó khăn trong cuộc sống. Gửi tới chồng em, cảm ơn anh đã luôn bên cạnh em
qua bao thăng trầm trong cuộc sống, luôn là điểm tựa vững chắc để em vượt qua
mọi khó khăn và cố gắng hồn thiện bản thân mình từng ngày.

Tơi xin chân thành cảm ơn!

iv



Lời cam đoan
Tôi xin cam đoan rằng luận văn thạc sĩ hệ thống thơng tin "Các mơ hình học sâu tiên tiến
và ứng dụng trong phân tích chuỗi thời gian lâm sàng" là cơng trình nghiên cứu do tơi
thực hiện dưới sự hướng dẫn của PGS.TS. Hà Quang Thuỵ và TS.Trần Mai Vũ.

Tất cả những tài liệu tham khảo từ các nghiên cứu liên quan đều được
trích dẫn nguồn gốc rõ ràng từ danh mục tài liệu tham khảo của luận văn.
Trong luận văn này, khơng có việc sao chép tài liệu, các cơng trình nghiên cứu
của người khác mà khơng trích dẫn nguồn.
Nếu phát hiện có bất kì sự gian lận nào, tơi xin hồn tồn chịu trách
nhiệm trước hội đồng cũng như kết quả luận văn của mình.
Học viên cao học

Nguyễn Thị Cẩm Vân

v


Mục lục
Tóm tắt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
Lời cảm ơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv
Lời cam đoan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Mục lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
Danh mục thuật ngữ viết tắt và giải nghĩa . . . . . . . . . . . . . . . . . . . . . . ix
Danh sách hình vẽ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x
Danh sách bảng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii
1 Khái qt bài tốn phân tích chuỗi thời gian lâm sàng . . . . . . . . . . . . 1
1.1


Giới thiệu về phân tích chuỗi thời gian lâm sàng . . . . . . . . . . . . . . 1
1.1.1
Giới thiệu về chuỗi thời gian . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Giới thiệu về bài toán phân tích chuỗi thời gian lâm sàng . . . . . 2

1.2 Các phương pháp phân tích chuỗi thời gian lâm sàng . . . . . . . . . . . . 3
1.2.1
1.2.2

Hệ thống chấm điểm trong ICU . . . . . . . . . . . . . . . . . . . 3
Điểm chuẩn của các mơ hình học sâu trên bộ dữ liệu chăm sóc
sức khỏe lớn MIMIC-III . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Khó khăn và thách thức trong phân tích chuỗi thời gian lâm sàng . . . . . 10
1.4 Giới thiệu về ba mục tiêu dự báo: Nhiễm trùng huyết, Nhồi máu cơ tim,
và nồng độ Vancomycin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.5

1.4.1

Nhiễm trùng huyết . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4.2

Nhồi máu cơ tim . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.3


Vancomycin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Phát biểu bài toán của luận văn . . . . . . . . . . . . . . . . . . . . . . . . 12
vi


2 Mơ hình bộ nhớ dài ngắn hạn hai chiều BiLSTM . . . . . . . . . . . . . . . 14
2.1
Mạng nơ-ron nhân tạo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2
Mạng truyền thẳng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3

Học với mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1

Hàm lỗi và cực tiểu hóa Gradient Descent . . . . . . . . . . . . . 17

2.3.2

Lan truyền ngược . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3.3

Hàm kích hoạt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.4

Bộ nhớ dài ngắn hạn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.1


Mạng nơ-ron hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.4.2

Mạng bộ nhớ dài ngắn hạn . . . . . . . . . . . . . . . . . . . . . . 20

2.4.3

Bộ nhớ dài ngắn hạn hai chiều . . . . . . . . . . . . . . . . . . . . 21

2.5

Cơ chế chú ý . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.6

Cơ chế che dấu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Mơ hình dự đốn sự kiện lâm sàng sử dụng cơ chế Attention kết hợp
kĩ thuật BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1 Mơ hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Dữ liệu đầu vào của mơ hình . . . . . . . . . . . . . . . . . . . . .

26
26

3.1.2 Áp dụng cơ chế che dấu . . . . . . . . . . . . . . . . . . . . . . .

27


3.1.3 Áp dụng cơ chế chú ý . . . . . . . . . . . . . . . . . . . . . . . . .

28

3.1.4 Các lớp BiLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

3.2 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.2.1 Ma trận nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.2.2 Đường cong AUC-ROC . . . . . . . . . . . . . . . . . . . . . . .

30

4 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1 Môi
trường thực nghiệm và cài đặt cấu hình . . . . . . . . . . . . . . . . . 32
4.1.1 Thư viện xây dựng mơ hình . . . . . . . . . . . . . . . . . . . . .
4.1.2 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . . . . . . .

32
33

4.1.3 Cài đặt tham số mơ hình . . . . . . . . . . . . . . . . . . . . . . .


33

4.2 Dữ liệu và phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . .

33

4.2.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

4.2.2 Xây dựng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

4.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

4.3.1 Kết quả thực nghiệm 1: Dự đoán trong ngày . . . . . . . . . . . . 38
4.3.2 Kết quả thực nghiệm 2: Dự đốn ngày hơm sau . . . . . . . . . . 39
vii


4.3.3 Kết quả thực nghiệm 3: Đánh giá dựa trên mức độ sẵn có của dữ
liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3.4 Nghiên cứu mức độ ảnh hưởng của các đặc trưng lên từng sự kiện
mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.5

Định hướng nghiên cứu tương lai . . . . . . . . . . . . . . . . . . 45

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Danh sách bài báo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Phụ lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

viii


Danh mục thuật ngữ viết tắt
và giải nghĩa
Attention Mechanism

Cơ chế chú ý

AUC

Diện tích phía dưới đường cong

Bi-directional Long Shortterm Memory (BiLSTM)

Bộ nhớ dài ngắn hạn hai chiều

Electronic Heath Record (EHR)

Bản ghi sức khỏe điện tử

Intensive Care Unit (ICU)

Đơn vị chăm sóc chuyên sâu


Long short-term memory (LSTM)

Bộ nhớ dài ngắn hạn

Medical Information Mart for

Trung tâm thông tin y tế cho

Intensive Care III (MIMIC-III)

chăm sóc chuyên sâu III Nhồi
Myocardial Infarction (MI)

máu cơ tim

Natural Language Processing (NLP)

Xử lý ngôn ngữ tự nhiên

Reccurent Neural Network (RNN)

Mạng nowrron hồi quy

Receiver Operating Characteristic (ROC) Curve

Đường cong đặc trưng hoạt
động của bộ thu nhận

Sepsis


Nhiễm trùng máu

ix


Danh sách hình vẽ
1
Sự phổ biến của hồ sơ sức khỏe điện tử . . . . . . . . . . . . . . . . . . .
1.1 Mơ hình xây dựng MIMIC-III. . . . . . . . . . . . . . . . . . . . . . . . .

xii
5

2.1 Mạng nơ-ron nhân tạo. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

2.2 Cấu trúc mạng nơ-ron truyền thẳng . . . . . . . . . . . . . . . . . . . . .

16

2.3 Các hàm kích hoạt khác nhau trong mạng nơ-ron nhân tạo . . . . . . . . . 19
2.4 Mạng nơ-ron hồi quy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.5 Kiến trúc của một đơn vị bộ nhớ dài ngắn hạn LSTM. . . . . . . . . . . . 21
2.6 Kiến trúc mở ra của BiLSTM với ba bước thời gian liên tiếp. . . . . . . . 22
2.7 Cơ chế che dấu cho chuỗi thời gian mất mát dữ liệu. . . . . . . . . . . . . 24

3.1 Mơ hình đề xuất. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

4.1 Các bước trích xuất dữ liệu từ MIMIC-III và tiền xử lý. . . . . . . . . . . 34
4.2 SEPSIS ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.3 MI ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.4 Vancomycin ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.5 SEPSIS Cross ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.6 MI Cross ROC curves . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.7 Vancomycin Cross ROC curves . . . . . . . . . . . . . . . . . . . . . . . .

44

4.8 Mức độ ảnh hưởng của các đặc trưng lên từng sự kiện mục tiêu theo thứ

tự từ trái qua phải bao gồm: SEPSIS, MI và VANCOMYCIN. . . . . . . . 45
4.9 Mức độ ảnh hưởng của các đặc trưng theo ngày lên từng sự kiện mục tiêu
theo thứ tự từ trái qua phải bao gồm: SEPSIS, MI và VANCOMYCIN. . . 46

x


Danh sách bảng
1.1 Một số loại chuỗi thời gian . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Mô tả các bảng của CSDL MIMIC-III . . . . . . . . . . . . . . . . . . . .

2
6

1.2 Mô tả các bảng của CSDL MIMIC-III . . . . . . . . . . . . . . . . . . . .

7

1.2 Mô tả các bảng của CSDL MIMIC-III . . . . . . . . . . . . . . . . . . . .

8

2.1 Một số hàm kích hoạt . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

3.1 Ma trận nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29


4.1 Tham số mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

4.3 Kết quả dự báo trong ngày trên các mơ hình cho 3 nhiệm vụ dự báo mục
tiêu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

4.4 Kết quả dự báo cho ngày tiếp theo trên các mơ hình cho 3 nhiệm vụ dự
báo mục tiêu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

4.5 Kết quả dự đốn của các mơ hình trên các nhiệm vụ mục tiêu theo ngày. . 39
4.6 Kết quả AUC của LSTM trên các mức độ dữ liệu khác nhau với đánh giá
trong ngày và đánh giá cho 1 ngày tiếp theo . . . . . . . . . . . . . . . . .

41

4.7 Kết quả AUC của Attention+LSTM trên các mức độ dữ liệu khác nhau
với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo . . . . . . . . . . 41
4.8 Kết quả AUC của mô hình BiLSTM trên các mức độ dữ liệu khác nhau
với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo . . . . . . . . . . 42
4.9 Kết quả AUC của Attention+BiLSTM trên các mức độ dữ liệu khác nhau
với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo . . . . . . . . . . 42

xi



Mở đầu
Chăm sóc sức khỏe là một trong những ứng dụng nổi bật của khai phá dữ liệu và
học máy, nó đã thu hút được sự quan tâm nghiên cứu của cộng đồng nghiên cứu
trong thời gian gần đây. Điều này có được phải kể đến việc áp dụng rộng rãi hồ
sơ sức khỏe điện tử (EHR – Electronic Heath Records) trong đời sống xã hội, tạo
ra một nguồn dữ liệu lâm sàng kĩ thuật số vô cùng phong phú, ví dụ: các đơn vị
chăm sóc tăng cường (ICU – Intensive Care Unit), thường bao gồm các giá trị đa
biến được quan sát theo chuỗi thời gian tương ứng với các phép đo cảm biến,
kết quả xét nghiệm và các đánh giá chủ quan khác.

Hình 1: Sự phổ biến của hồ sơ sức khỏe điện tử

Một thách thức phổ biến trong chăm sóc sức khỏe hiện nay là các bác sĩ có quyền
truy cập vào một lượng lớn dữ liệu về bệnh nhân, nhưng có ít thời gian cũng như công
cụ hỗ trợ để đưa ra quyết định điều trị. Hỗ trợ ra quyết định dự đoán về kết quả lâm sàng

xii


tại thời điểm chăm sóc dành riêng cho bệnh nhân đóng vai trị quan trọng trong chẩn
đốn y học. Hồ sơ sức khỏe điện tử hiện rất phổ biến trong chăm sóc sức khỏe trên thế
giới. Những dữ liệu này đang được sử dụng với tần suất tăng dần để dự đoán các sự
kiện trong tương lai. Trong khi các mơ hình dự đốn đã được phát triển để dự đốn nhu
cầu, hầu hết các cơng việc hiện tại đã tập trung vào các mơ hình dự đốn chun biệt
dự đoán một tập hợp kết quả hạn chế. Tuy nhiên, thực hành lâm sàng hàng ngày liên
quan đến sự pha trộn khơng theo lịch trình và khơng đồng nhất của các kịch bản và cần
các mơ hình dự đốn khác nhau trong hàng trăm đến hàng ngàn bản ghi. Việc phát triển
và triển khai các mơ hình chun ngành từng cái một là không thực tế.

Cùng với sự phát triển của mạng nơ ron học sâu, nhiều mơ hình được đề

xuất cho bài tốn phân tích dữ liệu lâm sàng [23, 28]. Phương pháp cổ điển để
phân tích dữ liệu chăm sóc sức khỏe tập trung vào việc trích xuất các đặc
trưng được xử lý bằng tay và xây dựng các mơ hình dự đốn theo nhiệm vụ
cụ thể. Các mơ hình học máy thường đối mặt với thách thức là các yếu tố như
nhu cầu phụ thuộc dài hạn, lấy mẫu không đều và các giá trị bị thiếu.
Trong những năm gần đây, mạng nơ ron hồi quy RNN dựa trên bộ nhớ dài ngắn
hạn LSTM đã trở thành giải pháp thực tế để xử lý dữ liệu chuỗi thời gian lâm sàng. RNN
được thiết kế để mơ hình hóa dữ liệu có độ dài khác nhau và đã đạt được các kết quả
tiên tiến trong mơ hình hóa trình tự, chú thích hình ảnh và gần đây trong chẩn đốn lâm
sàng. Hơn nữa, các LSTM có hiệu quả trong việc khai thác các phụ thuộc tầm xa và xử
lý phi tuyến. Các RNN thực hiện tính tốn tại mỗi vị trí của chuỗi thời gian bằng cách tạo
ra một chuỗi các trạng thái ẩn dưới dạng hàm của trạng thái ẩn trước đó và đầu vào cho
vị trí hiện tại. Bản chất tuần tự vốn có này làm cho việc song song hóa thách thức.

Mặc dù những nỗ lực để cải thiện hiệu quả tính tốn mơ hình tuần tự đã xuất
hiện gần đây, một số hạn chế vẫn cịn tồn tại. Cơng trình gần đây của Vaswani và
cộng sự [29] lập luận rằng các cơ chế chú ý, mà khơng có bất kỳ sự tái phát, có thể
có hiệu quả trong các nhiệm vụ mơ hình hóa theo trình tự. Các cơ chế chú ý
(Attention Mechanism) được sử dụng để mơ hình hóa các phụ thuộc theo trình tự mà
khơng quan tâm đến khoảng cách thực tế của chúng trong chuỗi [1].
Do đó, luận văn quan tâm đến việc áp dụng các mơ hình học sâu vào việc phân
tích dữ liệu lâm sàng, cụ thể là bài toán dự đoán sự kiện lâm sàng hỗ trợ cho việc ra
quyết định trong chẩn đoán lâm sàng sử dụng dữ liệu hồ sơ sức khỏe điện tử.

xiii


Các đóng góp chính của luận văn
Luận văn sẽ xây dựng một mơ hình học sâu áp dụng cơ chế chú ý kết
hợp với bộ nhớ dài ngắn hạn hai chiều với mục đích dự đốn sự kiện lâm

sàng cho 3 sự kiện mục tiêu đó là Nhiễm trùng máu (SEPSIS), Nhồi máu
cơ tim (MI), và nồng độ Vancomycin trong huyết thanh sau 24 giờ dùng
thuốc Vancomycin hỗ trợ trong việc ra quyết định chẩn đoán lâm sàng.
Đồng thời, luận văn trích xuất các đặc trưng tương ứng với 3 sự kiện mục tiêu
từ cơ sở dữ liệu MIMIC-III và xây dựng mơ hình cơ sở sử dụng các mơ hình
độc lập: Mạng bộ nhớ dài ngắn hạn, Cơ chế chú ý và Mạng bộ nhớ dài ngắn
hạn hai chiều để làm nổi bật tính hiệu quả của mơ hình kết hợp đề xuất.

Luận văn cũng nghiên cứu và đánh giá sự đóng góp của các đặc trưng
đối với từng sự kiện mục tiêu nhằm tăng hiệu suất cho mô hình và cung
cấp cái nhìn sâu sắc hữu ích về một số khía cạnh của phương pháp mà
luận văn đề xuất trong các nghiên cứu tương lai.
Ngoài phần Mở đầu và Kết luận, luận văn được cấu trúc bao gồm các Chương

sau:
Chương 1: Khái qt bài tốn phân tích chuỗi thời gian lâm sàng: Trong
chương ngày, luận văn giới thiệu sơ lược về bài tốn phân tích dữ liệu chuỗi thời gian
lâm sàng nói chung và bài tốn dự đốn sự kiện lâm sàng nói riêng. Bên cạnh đó, luận
văn giới thiệu về các phương pháp tiếp cận phổ biến trong phân tích và dự đốn chuỗi
thời gian lâm sàng và các nghiên cứu liên quan.Luận văn đồng thời phân tích các khó
khăn và thách thức của bài tốn và phát biểu bài toán sẽ triển khai trong luận văn này.

Chương 2: Mơ hình bộ nhớ dài ngắn hạn hai chiều BiLSTM: Trong
chương này, luận văn giới thiệu về mô hình BiLSTM. Đồng thời, luận văn trình
bày các kiến thức nền tảng về trí tuệ nhân tạo, các mơ hình học sâu cơ sở
như mạng nơ-ron hồi quy, bộ nhờ dài ngắn hạn, cơ chế chú ý... và các kĩ thuật
xử lý dữ liệu được sử dụng trong luận văn
Chương 3: Mơ hình dự đốn sự kiện lâm sàng sử dụng cơ chế
Attention kết hợp kĩ thuật BiLSTM: Trong chương này, luận văn đầu tiên
giới thiệu về các mơ hình đề xuất của luận văn.

Chương 4: Thực nghiệm và kết quả: Luận văn trình bày chi tiết về mơi trường
thực nghiệm, chi tiết các pha trong quá trình triển khai mơ hình, các kịch bản thực
nghiệm và tham số của mơ hình. Luận văn đồng thời trình bày chi tiết kết quả đạt được

xiv


và đưa ra nhận xét.
Kết luận: Trình bày tổng kết lại các đóng góp của luận văn và các kết
quả đã đạt được. Các điểm hạn chế cũng như kế hoạch cải tiến mơ hình đề
xuất trong tương lai sẽ được trình bày trong chương này.

xv


Chương 1

Khái qt bài tốn phân tích
chuỗi thời gian lâm sàng
1.1 Giới thiệu về phân tích chuỗi thời gian lâm sàng
1.1.1 Giới thiệu về chuỗi thời gian
Một chuỗi thời gian là một tập hợp các quan sát được thực hiện tuần tự theo
thời gian. Thời gian tiến hành quan sát có thể thường xun hoặc khoảng
cách khơng đều. Hơn nữa, thời gian có thể liên tục hoặc rời rạc [26].
Định nghĩa:
Theo [4], một chuỗi thời gian được định nghĩa như sau:
k

Với k 2 N; T 2 R, một hàm x : T ! R ; t ! xt, tương đương với một tập các chỉ
mục xtjxt 2 R; t 2 T được gọi là một chuỗi thời gian được quan sát. Chúng ta

cũng có thể viết tương đương xt(t 2 T ) hoặc (xt)t2T
Với kN; T R, một không gian xác suất ( ; F; P ), hay một tập các chỉ mục
k

của các biến ngẫu nhiên XtjX + t 2 R ; t 2 T; (Xt)t2T P được gọi là một chuỗi thời
kT

gian hay một mơ hình chuỗi thời gian. Trong đó, = (R ) là khơng gian của hàm
k

X : T ! R , F là đại số trong , P là xác suất trên ( ; F).

Bảng 1.1 mô tả một số loại chuỗi thời gian Xt 2 R(t 2 T; T 6= ;)

1


Bảng 1.1: Một số loại chuỗi thời gian
Giá trị

Thuật ngữ

k=1
k 2

Chuỗi thời gian đơn biến
Chuỗi thời gian đa biến

T đếm được, 8a < b 2 R : T \ [a; b] hữu hạn Thời gian rời rạc
T rời rạc, 9u 2 R+s; t; tj+1


Thời gian bình đẳng

tj = u

T = [a; b](a < b 2 R); t = R+ hoặc T = R

Thời gian liên tục

1.1.2 Giới thiệu về bài tốn phân tích chuỗi thời gian lâm sàng
Thập kỷ qua đã chứng kiến sự bùng nổ về lượng thông tin kỹ thuật số được lưu trữ
trong hồ sơ sức khỏe điện tử (EHR).Các hệ thống EHR lưu trữ dữ liệu liên quan đến
mỗi lần gặp bệnh nhân, bao gồm thông tin nhân khẩu học, chẩn đoán, xét nghiệm và
kết quả trong phịng thí nghiệm, đơn thuốc, hình ảnh X quang, ghi chú lâm sàng và
nhiều hơn nữa [5]. Mặc dù được thiết kế chủ yếu để cải thiện hiệu quả chăm sóc sức
khỏe từ quan điểm vận hành, nhiều nghiên cứu đã tìm thấy việc sử dụng cho các
ứng dụng tin học lâm sàng [6, 16]. Cụ thể, dữ liệu bệnh nhân có trong các hệ thống
EHR đã được sử dụng cho các nhiệm vụ như trích xuất khái niệm y tế [17, 24], mơ
hình quỹ đạo bệnh nhân [11], suy luận bệnh tật [20]. Trong cùng thời gian, cộng đồng
học máy đã chứng kiến những tiến bộ rộng rãi trong lĩnh vực học sâu và ứng dụng
trong phân tích hồ sơ sức khỏe điện tử.
Việc sử dụng các hệ thống EHR đã tăng lên rất nhiều ở cả bệnh viện và cơ sở
chăm sóc xe cứu thương [6, 7]. Việc sử dụng EHR tại bệnh viện và phòng khám có
khả năng cải thiện chăm sóc bệnh nhân bằng cách giảm thiểu sai sót, tăng hiệu quả
và cải thiện sự phối hợp chăm sóc, đồng thời cung cấp nguồn dữ liệu phong phú cho
các nhà nghiên cứu. Các hệ thống EHR có thể khác nhau về chức năng, nhưng ngay
cả các hệ thống EHR cơ bản cũng có thể cung cấp nhiều thông tin về tiểu sử bệnh,
các biến chứng và lịch sử sử dụng thuốc của bệnh nhân [7].
Cho đến vài năm trước, hầu hết các kỹ thuật phân tích dữ liệu EHR phong phú đều
dựa trên các kỹ thuật thống kê và học máy truyền thống như hồi quy logistic, máy vectơ

hỗ trợ (SVM) và rừng ngẫu nhiên [19]. Gần đây, các kỹ thuật học sâu đã đạt được thành
công lớn trong nhiều lĩnh vực thông qua xây dựng mạng nơ-ron nhân tạo và nắm bắt các
phụ thuộc tầm xa trong dữ liệu theo cách hiệu quả [21]. Do sự gia tăng phổ biến của các

2


phương pháp học sâu và số lượng dữ liệu bệnh nhân ngày càng lớn, cũng đã có
sự gia tăng số lượng nghiên cứu áp dụng học sâu vào dữ liệu EHR cho các
nhiệm vụ tin học lâm sàng [9, 17, 25], mang lại hiệu suất tốt hơn các phương
pháp truyền thống và yêu cầu kỹ thuật tiền xử lý và tính năng tốn ít thời gian hơn.

Hồ sơ y tế điện tử của mỗi bệnh nhân có thể được biểu diễn dưới dạng
một chuỗi thời gian đa biến (multivariate time series). Giả sử chúng ta có r
biến quan sát, bệnh nhân thứ n trong số N bệnh nhân có thể được biểu diễn
bằng một chuỗi T

(n)

( n)

( n)

với các bộ (t i ; (x i

r

2 R R trong đó i = 1; : : : ; T

( n)


(n)

. Dấu

(n)

thời gian t i biểu thị lần nhập viện thứ i của bệnh nhân thứ n và T
là số lượt
khám của bệnh nhân n. Mục tiêu của mơ hình dự đốn là để dự đoán nhãn ở mỗi
s

s

bước yi 2 0; 1 hoặc ở cuối dãy yi 2 0; 1 . Số lượng các nhãn có thể nhiều hơn 1.
Ví dụ: Trong mơ hình trình tự truy cập (ESM) [8], mỗi lần truy cập hay một lần nhập
viện của một bệnh nhân, trình tự truy cập được thể hiện bằng một bộ mã số y tế khác
nhau c1; c2; : : : ; cn. cj là mã thứ j từ từ vựng C. Do đó, trong ESM, số lượng biến
r = jCj và đầu vào xi 2 0; 1

jCj

là một vector nhị phân trong đó giá trị của thứ j chỉ ra rằng cj

là dữ liệu của lần truy cập thứ i. Đưa ra một chuỗi các lượt truy cập x1; x2; : : : ; xT ,

mục tiêu của ESM là tại mỗi bước thời gian i, cần phải dự đoán mã tương ứng
cho lần truy cập x2; x3; : : : ; xT +1 với số lượng nhãn là s = jCj.
Trong trường hợp học mã (L2D) hay dự đoán mã cho chuỗi thời gian lâm sàng[22],
vector đầu vào xi chứa các giá trị liên tục đo được trong quá trình điều trị. Giả sử có r các

r

giá trị đo được khác nhau, thì xi 2 R . Mục tiêu của L2D là đưa một chuỗi đầu vào x1; x2; : : : ;
xT để dự đoán sự xuất hiện của một bệnh cụ thẻ s = 1 hoặc nhiều bệnh (s > 1). Khơng mất

tính tổng qt, L2D có thể được xem là một trường hợp đặc biệt của

ESM.

1.2 Các phương pháp phân tích chuỗi thời gian lâm sàng
1.2.1 Hệ thống chấm điểm trong ICU
Thang đo nghiêm trọng là những điều chỉnh quan trọng trong điều trị tại khoa chăm sóc
đặc biệt (ICU) để dự đốn kết quả điều trị của bệnh nhân, so sánh chất lượng chăm sóc
và phân tầng cho các thử nghiệm lâm sàng. Mặc dù điểm số nghiêm trọng của bệnh
không phải là yếu tố chính của điều trị, tuy nhiên, chúng là một phần thiết yếu của sự cải
thiện trong các quyết định lâm sàng và trong việc xác định bệnh nhân có kết quả khơng
mong muốn. Các mơ hình dự đốn phải đối mặt với nhiều thách thức, nhưng, việc áp
3


dụng đúng các mơ hình này sẽ giúp đưa ra quyết định đúng lúc và giảm chi phí bệnh
viện. Trên thực tế, chúng đã trở thành một công cụ cần thiết để mô tả các quần thể ICU
và để giải thích sự khác biệt về tỷ lệ tử vong. Tuy nhiên, cũng cần lưu ý rằng việc lựa
chọn thang điểm, chỉ số hoặc mơ hình điểm nghiêm trọng phải phù hợp chính xác với sự
kiện, cài đặt hoặc ứng dụng; khi áp dụng sai, các hệ thống như vậy có thể dẫn đến lãng
phí thời gian, tăng chi phí, ngoại suy khơng chính đáng và khoa học kém. Bài viết này
cung cấp một cái nhìn tổng quan ngắn gọn về thang đo mức độ nghiêm trọng của ICU
(cùng với các tính tốn tỷ lệ tử vong / tỷ lệ sống dự đoán của họ) được phát triển trong 3
thập kỷ qua, bao gồm một vài trong số chúng đã được sửa đổi cho phù hợp.
Trong hầu hết các hệ thống tính điểm, điểm số được tính từ dữ liệu thu thập được

vào ngày đầu tiên của ICU - sinh lý cấp tính và đánh giá sức khỏe mãn tính (APACHE),
điểm sinh lý cấp tính đơn giản (SAPS) và mơ hình dự đoán tử vong (MPM). Những
người khác lặp đi lặp lại và thu thập dữ liệu mỗi ngày trong suốt thời gian ở ICU hoặc
trong 3 ngày đầu tiên - rối loạn chức năng nội tạng và hệ thống nhiễm trùng (ODIN),
đánh giá suy cơ quan tuần tự (SOFA), điểm rối loạn chức năng đa cơ quan (MODS), rối
loạn chức năng cơ quan hậu cần (LOD) mơ hình và kết quả kiểm tra lại ICU trong ba
ngày (TRIOS). Điểm số có thể là chủ quan hoặc khách quan. [5] Điểm số chủ quan được
thiết lập bởi một nhóm các chuyên gia chọn các biến và gán trọng số cho từng biến dựa
trên ý kiến cá nhân của họ. Ví dụ: APACHE II, ODIN và SOFA. Các biến số điểm khách
quan được thu thập bằng cách sử dụng các kỹ thuật mơ hình hồi quy logistic và phán
đốn lâm sàng để xác định phạm vi và để gán trọng số. Ví dụ: APACHE III, SAPS II,
MPM II, MODS, điểm LOD (LODS) và TRIOS.

1.2.2 Điểm chuẩn của các mơ hình học sâu trên bộ dữ liệu chăm sóc
sức khỏe lớn MIMIC-III
1.2.2.1 Giới thiệu về MIMIC-III
Bộ dữ liệu MIMIC-III bao gồm các dữ liệu y tế được thu thập tại Trung tâm y tế Beth Israel
Deaconess ở Boston, Massachusetts, Hoa Kỳ. Bộ dữ liệu này chứa dữ liệu từ 38.597 bệnh
nhân khác nhau, được thu thập từ năm 2001 đến 2012. Đồng thời, nó được kết hợ từ hai cơ
sở dữ liệu riêng biệt đó là cơ sở dữ liệu CareVue và cơ sở dữ liệu Metavision.

Trái với dữ liệu của Bệnh viện Đại học Ghent, MIMIC-III không chỉ chứa các thông
số liên quan đến chẩn đoán cấy máu. Một loạt các chẩn đốn được lưu giữ trong cơ sở
dữ liệu. Nó nhằm mục đích cung cấp một bộ sưu tập dữ liệu đa dạng cho các loại phân

4


tích y tế khác nhau. Mặc dù MIMIC-III là một cơ sở dữ liệu mở, quyền truy cập chỉ
được cấp sau khi hồn thành một quy trình được xác định. Việc hồn thành chương

trình Sáng kiến Đào tạo Thể chế Hợp tác (CITI) liên quan đến dữ liệu hoặc nghiên
cứu mẫu vật cần phải được chứng minh. Hơn nữa, danh tính và viện nghiên cứu liên
kết của người nộp đơn được xem xét. MIMIC-III xây dựng thêm dựa trên cơ sở dữ
liệu MIMIC-II phổ biến đã được sử dụng trong nhiều nghiên cứu khác nhau.

Trong q trình hồn thành luận văn này, tơi đã hồn thành chương trình
đào tạo liên quan đến dữ liệu nói trên và được cấp quyền truy cập cơ sở dữ
liệu MIMIC-III. Giấy chứng nhận được đặt tại Phụ lục.

Hình 1.1: Mơ hình xây dựng MIMIC-III.

Các bảng của bộ dữ liệu này được trình bày chi tiết tại Bảng 1.2.

5


Bảng 1.2: Mơ tả các bảng của CSDL MIMIC-III
STT

Tên file

Shape

Tóm tắt

1

ADMISSIONS

(58976, 19)


Bảng ADMISSIONS đưa ra các thông tin liên quan đến một bệnh nhân nhập
viện.

2

CALLOUT

(34499, 24)

Bảng CALLOUT cung cấp thông tin về kế hoạch xả thải ICU.

3

CAREGIVERS

4

CHARTEVENTS

5

CVEVENTS

(7567, 4)

Bảng này cung cấp các thơng tin liên quan đến người chăm sóc. Ví dụ, nó sẽ xác
định người chăm sóc là y tá, bác sĩ y khoa...

(330712483, 15) CHARTEVENT chứa tất cả các dữ liệu biểu đồ có sẵn cho một bệnh nhân.

(573146, 12)

6

Bảng CPTEVENT chứa danh sách các mã thuật ngữ của thủ tục hiện tại được
lập hóa đơn cho bệnh nhân. Điều này có thể hữu ích để xác định xem các quy
trình nhất định đã được thực hiện chưa.

6

D_CPT

7

D_ICD_DIAGNOSES

(134, 9)

Bảng này cung cấp một số thông tin cấp cao về mã thuật ngữ thủ tục. Tuy nhiên,
thông tin chi tiết cho các mã riêng lẻ là khơng có sẵn.

(14567, 4)

Bảng này xác định mã ICD-9 để chẩn đoán. Các mã này được chỉ định ở thời
gian ở lại cuối cùng của bệnh nhân và được bệnh viện sử dụng để lập hóa đơn
chăm sóc. cung cấp.

8

D_ICD_PROCEDURES


(3882, 4)

Bảng này xác định mã ICD-9 cho các thủ tục. Các mã này được chỉ định ở thời
gian ở lại cuối cùng của bệnh nhâ và được bệnh viện sử dụng để lập hóa đơn
chăm só.c cung cấp.

9

D_ITEMS

(12487, 10)

Bảng D_ITEMS định nghĩa ITEMID, đại diện cho các phép đo trong cơ sở dữ
liệu.


Bảng 1.2: Mơ tả các bảng của CSDL MIMIC-III
STT

Tên file

Shape

Tóm tắt

(753, 6)

D_LABITEMS chứa các định nghĩa cho tất cả ITEMID liên quan đến các phép
đo trong phịng thí nghiệm trong cơ sở dữ liệu MIMIC.


(4485937,14)

Cơ sở dữ liệu chứa tất cả các phép đo thời gian về một bệnh nhân trong ICU.

7

10

D_LABITEMS

11

DATETIMEEVENTS

12

DIAGNOSES_ICD

(651047,5)

Bảng này xác định mã ICD-9 để chẩn đoán. Các Mã ICD được tạo cho mục đích
thanh tốn tạic thời gian kết thúc nằm viện.

13

DRGCODES

(125557,8)


Bảng này xác định mã HCFA-DRG và APR-DRG cung cấp thông tin liên quan
đến chẩn đốn được ghi nhận chủ yếu cho mục đích thanh tốn và hành chính.

14

ICUSTAYS

(61532, 12)

Bảng này cung cấp thơng tin liên quan đến thời gian nằm viện của ICU.

15

INPUTEVENTS_CV

(17527935, 22)

Bảng này chứa dữ liệu của các sự kiện đầu vào chất lỏng (huyết thanh, thuốc
tiêm tĩnh mạch, insulin,...) liên quan đến nguồn cơ sở dữ liệu Carevue trong các
đợt ICU.

16

INPUT_EVENTS_MV

(3618991,31)

17

LABEVENTS


(27854055, 9)

Chứa tất cả các phép đo trong phịng thí nghiệm trong một thời gian nhất định
của bệnh nhân, bao gồm cả dữ liệu bệnh nhân.

18

MICROBIOLOGYEVENTS

(631726, 16)

Chứa thông tin vi sinh, bao gồm các xét nghiệm được thực hiện và độ nhạy cảm.

19

NOTEEVENTS

(2083180, 9)

Bảng này chứa tất cả các ghi chú thủ cơng cho bệnh nhân bởi người chăm sóc.

20

OUTPUTEVENTS

21

PATIENTS


(4349218,13)
(46520, 8)

Bảng này chứa dữ liệu đầu vào cho bệnh nhân.

Bảng này chứa dữ liệu đầu ra cho bệnh nhân.
Bảng này chứa dữ liệu nhập viện cho tất cả các bệnh nhân nh: giới tính, ngày
sinh,...


Bảng 1.2: Mơ tả các bảng của CSDL MIMIC-III
STT

Tên file

Shape

Tóm tắt

22

PRESCRIPTIONS

(4156450, 19) Bảng này chứa các mục nhập đơn hàng liên quan đến thuốc, hay đơn thuốc.

23

PROCEDUREEVENTS_MV

(258066, 25)


24

PROCEDURES_ICD

(17527935, 22) Chứa các thủ tục ICD cho bệnh nhân, đáng chú ý nhất là các thủ tục ICD-9. Các
mã ICD được tạo cho mục đích thanh tốn và được ghi nhận cho tất cả các bệnh

Bảng này chứa các quy trình cho bệnh nhân

nhân nhập viện.

8

25

SERVICES

26

TRANSFERS

(73343, 6)

Bảng SERVICES mô tả dịch vụ kèm theo khi bệnh nhân được nhập viện. Các
dịch vụ này có thể tự chọn hoặc phát sinh trong quá trình điều trị.

(261897, 13)

Bảng này chứa các vị trí thực tế cho bệnh nhân trong suốt thời gian nằm viện



1.2.2.2 Điểm chuẩn của các mơ hình học sâu trên MIMIC-III
Một yếu tố quan trọng đã thách thức nghiên cứu học máy đối với chẩn đoán lâm
sàng là thiếu các tiêu chuẩn được chấp nhận phổ biến để đánh giá chặt chẽ các
kỹ thuật mơ hình hóa. Do đó, trong [14] các tác giả đã đề xuất điểm chuẩn công
khai cho bốn nhiệm vụ lâm sàng khác nhau: dự đoán tỷ lệ tử vong, phát hiện mất
bù sinh lý, dự báo thời gian lưu trú và kiểu hình. Các điểm chuẩn này được hỗ trợ
bởi Cơ sở dữ liệu thông tin y tế cho chăm sóc chuyên sâu (Medical Information
Mart for Intensive Care MIMIC-III) [18], đây là kho lưu trữ dữ liệu lâm sàng phong
phú công khai lớn nhất hiện có. Trong [18, 22], các tác giả cho rằng RNNs với
các tế bào LSTM vượt trội hơn tất cả các mơ hình baseline hiện có.

Dự đốn tử vong tại bệnh viện: dự đoán tỷ lệ tử vong tại bệnh viện dựa
trên 48 giờ đầu tiên của ICU. Đây là một nhiệm vụ phân loại nhị phân với
độ đo đánh giá sử dụng AUC-ROC.
Phát hiện mất bù sinh lý: dự đoán liệu sức khỏe của bệnh nhân có bị suy giảm
nhanh chóng trong 24 giờ tới hay khơng. Các mục tiêu của nhiệm vụ này là thay
thế điểm cảnh báo sớm hiện đang được sử dụng trong các bệnh viện. Do thiếu tiêu
chuẩn để đánh giá điểm cảnh báo sớm, [14] theo dõi cơng việc trước đó và xác
định nhiệm vụ của họ là dự đoán tử vong trong 24 giờ ở lại ICU. Điều quan trọng
cần lưu ý là định nghĩa này đi lệch khỏi ý nghĩa cốt lõi của mất bù, và nhiệm vụ trở
nên tương tự như dự đoán tử vong. Mặt khác, họ tin rằng đây là nhiệm vụ gần nhất
để dự đoán mất bù mà người ta có thể có được các nhãn chính xác từ cơ sở dữ
liệu MIMIC-III. Mỗi trường hợp này nhiệm vụ là một ví dụ phân loại nhị phân.
Tương tự như dự đốn tử vong trong bệnh viện, độ đo chính là AUC-ROC.

Dự đoán thời gian lưu trú: dự đoán thời gian còn lại dành cho ICU vào mỗi
giờ ở lại. Dự đốn chính xác thời gian lưu trú cịn lại rất quan trọng để lên lịch
và quản lý tài nguyên bệnh viện.Tác giả coi nhiệm vụ này như là một phân loại

đa nhãn với 10 lớp/nhóm (một cho ICU ngắn hơn một ngày, 7 ngày của tuần
đầu tiên, ở lại trên một tuần nhưng ít hơn hai tuần và cho ở lại hơn hai tuần).
Độ đo chính cho nhiệm vụ này là điểm số kappa có trọng số tuyến tính Cohen.

Phân loại kiểu hình phân loại trong số 25 điều kiện chăm sóc cấp tính có
trong một kiểu bệnh nhân lưu hồ sơ ICU nhất định. Vấn đề này là một
vấn đề phân loại đa nhãn với AUC-ROC trung bình vĩ mơ là độ đo chính
9


1.3 Khó khăn và thách thức trong phân tích chuỗi thời
gian lâm sàng
Dữ liệu EHR đang ngày càng được sử dụng rộng rãi tại các trung tâm chăm
sóc sức khỏe trên toàn thế giới. Cùng với sự bùng nổ về dữ liệu là rất nhiều
vấn đề còn tồn tại trong dữ liệu này. Có thể kể đến các yếu tố sau đây:
Tính đầy đủ: Các thơng tin về bệnh nhân khơng phải lúc nào cũng được trình
bày hồn tồn trong cơ sở dữ liệu EHR. Ngay cả với một giao diện người dùng
chuẩn thu thập dữ liệu bệnh nhân một cách có hệ thống, EHR vẫn khơng có
đầy đủ thơng tin của người bệnh. Có nhiều lý do cho việc này, ví dụ: (1) thiếu
ghi chép tỉ mỉ thơng tin bệnh nhân trong EHRs; (2) bác sĩ không thể xác định
các điều kiện cụ thể như tác dụng phụ của thuốc; (3) khi có nhiều bác sĩ cùng
tham gia điều trị cho một bệnh nhân và gặp nhiều vấn đề trong việc trao đổi
thông tin và cập nhật chúng kịp thời; và (4) khó khăn trong việc tích hợp các hệ
thống EHR khác nhau được sử dụng bởi các bệnh viện khác nhau, kết quả là
dữ liệu của bệnh nhân có thể bị mất khi bệnh nhân chuyển bệnh viện.
Tính chính xác: Thơng tin được cập nhật trong EHR cần phải có tính chính xác
cao. Thực tế, thơng tin quan trọng thường tồn tại trong hình dạng của thơng tin
khơng đủ cụ thể. Ví dụ, hồ sơ bệnh nhân có thể chứa chẩn đốn một rối loạn
da nói chung trong khi tình trạng cơ bản thực sự là do thuốc rối loạn da. Theo
Ủy ban Y tế Quốc gia Thụy Điển, trong một đánh giá của 4200 hồ sơ sức khỏe,

khoảng 20% các mã được gán trong EHRs đã được tìm thấy có lỗi lớn.
Độ phức tạp: Điều này chủ yếu đề cập đến độ phức tạp của dữ liệu trong EHRs.
Các loại dữ liệu khơng đồng nhất vẫn cịn tồn tại rất nhiều trong EHRs làm nổi bật
những khó khăn trong việc phân tích chúng. Những khó khăn khơng chỉ xuất hiện
trong việc kết hợp các loại dữ liệu khơng đồng nhất mà cịn xuất hiện trong việc
phân tích chúng một cách riêng biệt. Để xử lý các ghi chú lâm sàng trong văn bản,
phương pháp phổ biến và được sử dụng nhiều đó là xử lý ngơn ngữ tự nhiên. Tuy
nhiên,việc này trở lên phức tạp bởi chất lượng văn bản thấp chứa số lượng lớn
chữ viết tắt trong y tế, lỗi đánh máy và câu không đầy đủ.
Các sự kiện lâm sàng được báo cáo trong EHRs, bao gồm chẩn đoán, thuốc và xét
nghiệm, thường là mang tính tạm thời. Thường có nhiều hơn một loại sự kiện lâm
sàng được báo cáo trong mỗi hồ sơ bệnh nhân, và mỗi sự kiện lâm sàng được báo
10


×