Tải bản đầy đủ (.pdf) (26 trang)

Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 26 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
⎯⎯⎯⎯⎯⎯⎯⎯⎯

NGUYỄN THỊ THANH HUYỀN

ỨNG DỤNG MƠ HÌNH HỌC MÁY ĐỂ DỰ BÁO KHẢ NĂNG
HẤP PHỤ DƯỢC PHẨM BẰNG THAN SINH HỌC TRONG
MÔI TRƯỜNG NƯỚC

Chun ngành: Kỹ thuật mơi trường
Mã số: 8520320

TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT MÔI TRƯỜNG

Đà Nẵng – 2022

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


Cơng trình được hồn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học: PGS.TS LÊ PHƯỚC CƯỜNG
T.S NGUYỄN XUÂN CƯỜNG
Phản biện 1: TS. ĐẶNG QUANG HẢI
Phản biện 2: PGS.TS LÊ MINH ĐỨC
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp
thạc sĩ (Kỹ thuật môi trường) họp tại Trường Đại học Bách khoa vào
ngày 15 tháng 07 năm 2022.



Có thể tìm hiểu luận văn tại:
− Trung tâm Học liệu, Đại học Bách khoa tại Trường Đại học Bách
Khoa
− Thư viện Khoa Môi Trường, Trường Đại học Bách khoa - Đại học Đà
Nẵng

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Các hợp chất dược phẩm (gọi chung là pharmaceutical compounds: Dược phẩm) như
oxytetracycline, ciprofloxacin, và paracetamol phát sinh từ quá trình sản xuất thuốc là
những nguồn độc hại đối với môi trường nước và ảnh hưởng đến hiệu quả của quá trình sinh
học trong xử lý nước thải do đặc tính độc hại và khả năng không phân hủy sinh học của
chúng. Các dược phẩm có khả năng gây ra các tác động có hại đến đời sống thủy sinh, như
biến đổi về trao đổi chất và giới tính, phản ứng kháng sinh ở các vi sinh vật gây bệnh thủy
sinh và làm gián đoạn các hoạt động phân hủy sinh học [1, 2]. Những dược phẩm này dễ
dàng xâm nhập vào môi trường thông qua nguồn nước chưa được xử lý hoặc khơng được
quản lý đúng cách. Thậm chí, nguồn nước đầu ra đã xử lý từ quá trình sản xuất thuốc, nồng
độ dược phẩm vẫn cao, chẳng hạn nồng độ vẫn còn vài mg. L-1 ở Mỹ và Châu Âu [3], 31
mg.L-1 ở Ấn Độ [4] và 51 mg.L-1 ở Trung Quốc [5]. Do đó, việc loại bỏ dược phẩm trong
nguồn nước là điều cần thiết và ngày càng trở thành chủ đề thu hút nhiều sự quan tâm của
các nhà khoa học trong nghiên cứu ứng dụng.
Đa số các nhà máy xử lý nước thải thường không được thiết kế để loại bỏ dược phẩm [6].
Mặc dù công nghệ xử lý tiên tiến bao gồm q trình oxy hóa nâng cao và lọc màng đạt hiệu

quả trong việc loại bỏ các dược phẩm, tuy nhiên năng lượng tiêu thụ cao hoặc các sản phẩm
phụ không mong muốn là nhược điểm của chúng [7, 8]. Vì thế, phương pháp hấp phụ bằng
than sinh học (biochars: BC) dường như là một trong những phương pháp hiệu quả về chi
phí và thân thiện với môi trường để xử lý dược phẩm [9, 10]. Tuy nhiên, hiệu quả loại bỏ
dược phẩm bằng hấp phụ BC đã được thay đổi rất nhiều tùy thuộc vào một số yếu tố thúc
đẩy. Chẳng hạn, loại bỏ ibuprofen cao nhất đã tìm thấy ở pH= 3, và sự loại bỏ có xu hướng
giảm ở điều kiện cơ bản [11]. Li (2018) đã quan sát cho thấy hấp phụ đạt trạng thái cân
bằng của ciprofloxacin tăng từ 32,9 đến 146,9 mg/g với nồng độ ban đầu tăng từ 150 đến
500 mg/L [12]. Trong nghiên cứu khác, tương tác axit-bazơ đóng một vai trò quan trọng
hơn trong sự hấp phụ của diclofenac, trong khi đó sự tương tác liên kết hydro có xu hướng
trở nên quan trọng hơn đối với khả năng hấp phụ cephalexin bởi BC hoạt tính có nguồn gốc
từ cây anthriscus sylvestris [13]. Như vậy, sự khác nhau của các thiết kế thử nghiệm, mục
đích nghiên cứu và các yếu tố ảnh hưởng giữa các nghiên cứu trước đây gây ra khó khăn
đáng kể trong việc lựa chọn các vật liệu BC thích hợp để đạt được hiệu quả hấp phụ. Bên
cạnh đó, hầu hết các nghiên cứu hấp phụ chỉ được giới hạn ở quy mô phòng thí nghiệm với
một hoặc một số dược phẩm cụ thể, trong khi nhiều loại của chúng cùng tồn tại trong nước
thải tổng hợp hoặc nước thải thực tế. Do đó, những thách thức quan trọng này đã dẫn đến sự
quan tâm của chúng tôi về cách khai thác dữ liệu từ các tài liệu để phát triển các thuật toán
nhằm dự đoán hiệu quả loại bỏ dược phẩm bởi BC.
Học máy (machine learning: ML), một cách tiếp cận toán học nâng cao theo hướng dữ
liệu, thường được sử dụng để diễn giải tính trừu tượng hoặc phức tạp trong dữ liệu, đặc biệt
quan trọng trong việc tính gần đúng các phản ứng phi tuyến phức tạp, hoặc khi sự sẵn có
của một lượng lớn dữ liệu khơng phù hợp với các mơ hình vật lý thống kê đơn giản [14]. Do
khả năng “tự học” (“learning”), tính đơn giản trong thiết kế thuật toán, khả năng tiếp cận

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ



2
sẵn có, ML có thể đưa ra dự đốn chính xác và cung cấp các giải pháp tối ưu, qua đó giảm
bớt sức cơng việc, thời gian và vận hành các thí nghiệm [15]. Những năm gần đây, ML đã
được áp dụng rộng rãi trong lĩnh vực môi trường, xử lý chất thải và hỗ trợ sự quyết định
quản lý [16].
Trong bối cảnh của sự hấp phụ, một số nghiên cứu đã được thực hiện để khám phá ứng
dụng tiềm năng của ML. Ví dụ, Afolabi và cộng sự (2020) đã phát triển một cấu trúc mạng
neuron nhân tạo (Artifical neuron networks: ANN) để dự đoán sự hấp phụ của paracetamol
bởi BC biến tính - từ vỏ cam [17]. Gần đây, Zhu và cộng sự (2021) đã chứng minh sự hoạt
động tốt của mơ hình “rừng ngẫu nhiên” (random forest) khi dự báo khả năng hấp phụ của
tetracycline và sulfamethoxazole trên các vật liệu carbon khác nhau dựa vào thuật tốn
ANN [18]. Ngồi ra, ANN cũng được áp dụng để dự báo Log Kd (tỷ lệ giữa Qe / Ce) và Log
KF (của mơ hình Freundlich ở trạng thái cân bằng) cho các vật liệu hấp phụ nano carbon,
BC và graphenes [19, 20]. Mặc dù kết quả của những nghiên cứu trước đó đạt hiệu quả đáng
kể, tuy nhiên, ứng dụng ML cho các nghiên cứu về hấp phụ toàn diện bởi BC trong phương
pháp hoặc khai thác dữ liệu vẫn còn bị hạn chế. Công việc này bao gồm thu thập một loạt
dữ liệu rộng hơn qua các quan sát trong mười năm gần đây từ các nghiên cứu đã cơng bố
trên các tạp chí khoa học về loại bỏ loại dược phẩm trong môi trường nước bằng các loại
BC khác nhau. Dựa trên những phân tích nêu trên, tôi đề xuất đề tài luận văn tốt nghiệp:
“Ứng dụng mơ hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh
học trong môi trường nước”.
2.Mục tiêu nghiên cứu
Mục tiêu tổng quát
Làm rõ hiệu quả hấp phụ dược phẩm bởi BC trong môi trường nước trên cơ sở số liệu
thực tế từ các nghiên cứu đã xuất bản trên thế giới (số liệu từ khoảng 267 bài báo khoa học,
19 loại dược phẩm và 88 biochars).
Phạm vi nghiên cứu
Phát triển mơ hình học máy dự báo hấp phụ (R2>0.9) và xây dựng công cụ giao diện
người dùng web (website user interface) để hỗ trợ đánh giá, lựa chọn BC tiềm năng cho hấp
phụ dược phẩm trong môi trường nước.

3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
- Dữ liệu nghiên cứu hấp phụ từ các nghiên cứu đã cơng bố trên các tạp chí uy tín có
phản biện.
- Các thơng số hấp phụ:
+ Thơng số Abraham: Là các thông số được dùng để để mô tả định lượng các tương
tác giữa chất tan/dung môi. Mỗi loại dược phẩm được lựa chọn (hợp chất trung hòa) sẽ có
các giá trị của thơng số Abraham khác nhau.
Thơng số Abraham gồm có các thơng số đơn lẽ như sau: A (Khả năng cho liên kết
hydro), B (Khả năng chấp nhận liên kết hydro), S (Tính phân cực: Polarity), E (Khúc xạ mol
dư) và V (Thể tích mol). Giá trị thông số Abraham được lấy từ cơ sở dữ liệu UFZ-LSER tại
địa chỉ:

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


3
/>c/start
+ BET (Specific surface area): Là diện tích riêng bề mặt của BC được xác định bằng
phương pháp Brunauer–Emmett–Teller
+ PV (Pore volume): Là thể tích lổ rỗng của BC, đơn vị cm3/g
+ PS (pore size): Là kích thước lổ trung bình của BC, đơn vị tính là nanomet (nm)
+ TemP (Temperature of pyrolysis): Là nhiệt độ nhiệt phân chế tạo BC
- Kết quả về dung lượng hấp phụ: Dung lượng hấp phụ cực đại (Qm, mg dược phẩm/g
BC) từ mô hình Langmuir
- Các mơ hình học máy: 02 phương pháp/mơ hình học máy được sử dụng bao gồm:
+ Thuật tốn/mơ hình KNN (K nearest neigbor): Ứng dụng trong dự báo dung lượng
hấp phụ dược phẩm bởi BC

+ Thuật toán Cubist: Ứng dụng trong dự báo dung lượng hấp phụ.
Phạm vi nghiên cứu
Dữ liệu hấp phụ dược phẩm được sử dụng trong nghiên cứu này, có phạm vi và giới hạn
như sau:
- Dữ liệu từ các nghiên cứu đã công bố trên tạp chí uy tín có phản biện:
+ 267 bài báo khoa học (ngôn ngữ Tiếng Anh, ISI và Scopus)
+ 19 loại dược phẩm khác nhau (kháng sinh, kích thích thần kinh và tổng hợp)
+ 88 loại BC, gồm BC thường và biến tính
- Các thí nghiệm hấp phụ dược phẩm bằng BC công bố trong các bài báo khoa học
thỏa mãn 02 điều kiện:
+ Có thí nghiệm đẳng nhiệt hấp phụ
+ Mơ phỏng kết quả thí nghiệm đẳng nhiệt hấp phụ bằng mơ hình Langmuir (có kết
quả dung lượng hấp phụ cực đại Qm)
- Các thí nghiệm hấp phụ trong các bài báo khoa học phải ở dạng mẻ và đơn chất hấp
phụ. Dược phẩm được pha trộn với nước cất ở các nồng độ thích hợp để thực hiện hấp phụ
bởi BC.
- Các thí nghiệm đồng hấp phụ (nhiều loại dược phẩm), hấp phụ dạng cột hoặc không
thực hiện thí nghiệm đẳng nhiệt hấp phụ (thí nghiệm ở điều kiện nhiệt độ ổn định) sẽ được
loại ra trong quá trình thu thập dữ liệu.
4. Ý nghĩa của đề tài
4.1.Ý nghĩa khoa học
Nghiên cứu này làm rõ hiệu quả hấp phụ dược phẩm bởi BC dựa trên các dữ liệu và học
máy. Kết quả đề tài góp phần làm phong phú, bổ sung thêm vào kho tàng kiến thức về lĩnh
vực hấp phụ bởi vật liệu BC
4.2.Ý nghĩa thực tiễn
Kết quả của nghiên cứu này nhằm đưa ra công cụ hỗ trợ đánh giá và lựa chọn BC tiềm
năng cho xử lý dược phẩm trong mơi trường nước; góp phần giảm chi phí, thời gian và hạn
chế nước thải phát sinh từ phòng thí nghiệm.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ


Lưu hành nội bộ


4
Phạm vi nghiên cứu ứng dụng được thực hiện triển khai hấp phụ dược phẩm đơn lẻ trong
môi trường nước cất và điều kiện thí nghiệm dạng mẻ.
5. Bố cục luận văn
MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN
CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP
CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN
KẾT LUẬN VÀ KIẾN NGHỊ
TÀI LIỆU THAM KHẢO
DANH MỤC CƠNG TRÌNH KHOA HỌC
PHỤ LỤC

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


5
CHƯƠNG I: TỔNG QUAN
1.1. Giới thiệu về dược phẩm
1.1.1. Dược phẩm trong môi trường
a. Nồng độ dược phẩm trong môi trường
Hiện nay việc thải bỏ các loại dược phẩm không qua xử lý là điều lo ngại về vấn đề ô
nhiễm nguồn nước. Các nghiên cứu đã chứng minh dư lượng của một vài loại dược phẩm
được tìm thấy trong nước mặt, nước ngầm, đất và các mô động vật với nồng độ ô nhiễm cao

[21]. Theo thống kê của Cơ quan thăm dò địa chất Hoa Kỳ khi nghiên cứu với hơn 139
nguồn nước, có 80% nguồn nước đều chứa dư lượng của rất nhiều dược phẩm, trong đó hơn
phân nửa chứa trên 07 hóa chất khác nhau và có nguồn chứa tới 38 hóa chất [22]. Một số
loại thuốc giảm đau, thuốc chống vi trùng, thuốc chống trầm cảm, thuốc tránh thai và thuốc
chống ký sinh trùng cũng thường được tìm thấy trong mơi trường nước lục địa [21].
b. Nguồn dược phẩm trong môi trường
Dược phẩm chủ yếu phát tán ra môi trường thông qua:
- Xả thải từ các nhà máy xử lý nước thải đơ thị có chứa các dược phẩm;
- Nguồn nước: Nước rỉ rác, nước xử lý dùng để tưới tiêu; dược phẩm còn tồn đọng sẽ
thấm vào mạch nước ngầm;
- Rãi phân gia súc, nuôi trồng thủy sản; các dược phẩm thường được trộn cùng với thức
ăn chăn nuôi. Các nguồn phát thải dược phẩm khác như [23];
- Xả thải từ các nhà máy sản xuất;
- Sự lan truyền của bùn thải có chứa dược phẩm đã bị loại bỏ khỏi nước thải trong quá
trình xử lý sinh học;
- Chăn thả gia súc;
- Thuốc dùng cho thú y;
- Thải bỏ không phù hợp vào trong bãi chôn lấp.
c. Những ảnh hưởng và rủi ro đối với môi trường
Ảnh hưởng đến sức khỏe và rủi ro môi trường của dược phẩm vẫn chưa rõ ràng vì sự
biến động, chuyển hóa của nó trong mơi trường, cũng như khó khăn trong việc đánh giá.
Các nghiên cứu gần đây đã đưa ra những nhận định ban đầu về ảnh hưởng của dược phẩm.
Những tác động mãn tính được tìm thấy trong thử nghiệm ngắn hạn thường ở nồng độ cao
hơn nồng độ tìm thấy trong mơi trường đã được nghiên cứu.
Một số thử nghiệm đã đưa ra phản ứng độc hại chung, dựa trên cơ chế hoạt động [24].
Cleuvers (2008) đã chứng minh độc tính của một hỗn hợp thuốc chống viêm khơng steroid
chống lại lồi Daphnia (động vật giáp xác phù du) cao hơn đáng kể ngay cả ở nồng độ mà
các chất đơn lẻ không có hoặc chỉ có tác dụng rất nhẹ [25]. Các nồng độ dược phẩm được
sử dụng trong quá trình thử nghiệm độc chất là rất khác nhau và có thể khác nồng độ dược
phẩm trong môi trường hoặc là nơi sản xuất [26, 27].

1.1.2. Các phương pháp xử lý dược phẩm
Ngày nay, cùng với sự gia tăng của dân số, lượng dược phẩm được sử dụng nhiều hơn.
Do đó, số lượng các nhà máy nghiên cứu và sản xuất ra dược phẩm ngày càng lớn. Nước

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


6
thải của các nhà máy thường chứa một lượng nhất định dược phẩm, nếu không được quản lý
và xử lý sẽ phát tán ra môi trường.
Việc xử lý nước thải dược phẩm cũng là cần thiết và cấp bách đối với các nhà máy sản
xuất dược phẩm. Vì vậy, để hoạt động tốt và bảo vệ môi trường phát triển bền vững, các nhà
máy sản xuất thuốc cần phải có hệ thống xử lý hiệu quả. Tuy nhiên, đa phần các nhà máy
hoặc cơng trình xử lý nước thải khơng được thiết kế để loại bỏ các chất vi lượng khó phân
hủy như dược phẩm [32].
1.2. Giới thiệu về than sinh học
1.2.1. Quá trình chế tạo than sinh học
BC là một loại vật liệu giàu cacbon, được tạo thành từ việc đốt nóng sinh khối trong điều
kiện khơng có hoặc thiếu oxy [45, 46]. Nó có đặc tính xốp, độ rỗng lớn, diện tích bề mặt cao
và có khả năng hấp phụ tốt [47, 48]. Quá trình chế tạo BC được gọi là quá trình nhiệt phân
và nhiệt độ nhiệt phân thường khoảng từ 300 đến 1000 oC [46].
1.2.2. Nguyên liệu và các loại than sinh học
a. Nguyên liệu
Nguồn nguyên liệu để tạo BC cũng khá đa dạng, như bùn hoạt tính [59], chất thải gia
cầm [49], chất thải cà phê [60], chất thải nông nghiệp [61], chất thải rắn đô thị [62], cây tre
[63], vỏ trấu [64] và cây mai dương.
b. Các loại than sinh học
BC bao gồm 2 loại: BC thơng thường và BC biến tính.

- BC thường là than được tạo ra trong điều kiện nhiệt phân cơ bản (băm nhỏ vật liệu,
phơi, nung, sấy, rửa nước cất...). BC biến tính là BC được cải tiến hoặc bổ sung tác nhân
(hố học, vật lý hoặc quy trình) trong q trình chế tạo (nhiệt phân).
- BC thơng thường có một số hạn chế như khả năng hấp phụ khơng cao và phạm vi hấp
phụ hẹp. Do đó, nhiều nghiên cứu đã sử dụng BC biến tính nhằm cải thiện chức năng và
hiệu quả xử lý chất thải.
1.2.3. Ứng dụng của than sinh học
Các nghiên cứu BC đã tập trung vào tiềm năng hấp phụ trong các thí nghiệm dạng mẻ,
cột. BC được áp dụng để loại bỏ các chất như: thuốc nhuộm [67, 68], dinh dưỡng [64], hợp
chất hữu cơ [69] và kim loại nặng [70, 71] trong môi trường nước.
Ứng dụng của BC rất đa dạng từ quá trình sản xuất nhiệt đến năng lượng, xử lý khí thải,
luyện kim, nơng nghiệp, vật liệu xây dựng, y tế và làm giảm khí thải nhà kính [72]. BC là
ngun liệu có sẵn, chi phí thấp, đặc tính bề mặt vật lý/ hóa học thuận lợi, và có khả năng
xử lý hiệu quả các chất gây ô nhiễm. Đã có nhiều nghiên cứu về tính chất và ứng dụng của
BC trong xử lý nước và nước thải [73].
1.3 Cơ chế hấp phụ
1.3.1. Cơ chế hấp phụ vật lý
Trong hấp phụ vật lý, các phân tử chất bị hấp phụ liên kết ở bề mặt phân tử bởi lực liên
kết Van Der Walls. Chất bị hấp phụ cố định trên bề mặt phân chia pha và bị giữ lại trên bề
mặt chất hấp phụ, khơng tạo thành hợp chất hóa học. Ở hấp phụ vật lý, nhiệt hấp phụ không
lớn.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


7
1.3.2. Cơ chế hấp phụ hố học
Hấp phụ hóa học là khi các phân tử chất hấp phụ tạo hợp chất hóa học với chất bị hấp

phụ. Lực hấp phụ hóa học khi đó là lực liên kết hóa học thơng thường. Lực liên kết này
mạnh hơn nên khó bị phá vỡ và thiệt hấp phụ hóa học lớn.
Giữa hấp phụ hóa học và vật lý trên thực tế rất khó phân biệt và khơng được rõ ràng.
Một số trường hợp tồn tại cả quá trình hấp phụ vật lý và hóa học. Ở nhiệt độ thấp thì xảy ra
q trình hấp phụ vật lý, khi tăng nhiệt độ lên thì khả năng hấp phụ vật lý giảm còn khả
năng hấp phụ hóa học lại tăng lên [80].
❖ Các yếu tố ảnh hưởng đến khả năng hấp phụ như:
- Diện tích bề mặt của vật liệu hấp phụ: Diện tích lớn khả năng hấp phụ cao hơn
- Thời gian tiếp xúc và thời gian lưu: Thời gian càng lâu thì hiệu quả càng cao
- Độ tan của chất tan trong chất lỏng: Chất ít tan trong nước sẽ được dễ dàng tách ra hơn
chất có khả năng hòa tan cao
- pH, nhiệt độ và các điều kiện khác.
1.4. Tổng quan về học máy và các nghiên cứu ứng dụng học máy dự báo hấp phụ
1.4.1. Lịch sử ra đời, các khái niệm và phân loại học máy
a. Lịch sử ra đời học máy
Học máy (machine learning) ra đời vào cuối những năm 80 và đầu những năm 90 của thế
kỷ XX. Là một lĩnh vực của trí tuệ nhân tạo (Artificial Intelligence) liên quan đến việc
nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải
quyết những đưa ra quyết định dựa trên dữ liệu để thực hiện một nhiệm vụ nhất định. Các
chương trình này là các thuật tốn được thiết kế theo cách mà chúng có thể học hỏi và cải
thiện theo thời gian khi tiếp xúc với dữ liệu mới.
b. Khái niệm về học máy
Học máy (machine learning) là một thuật ngữ để chỉ hành động máy tính tự học để cải
thiện một nhiệm vụ mà nó đang thực hiện;
Học máy là một nhánh của trí thơng minh nhân tạo, cho phép các hệ thống máy tính học
trực tiếp từ các ví dụ, dữ liệu và kinh nghiệm;
Hiệu suất của máy tính khi thực hiện một nhiệm vụ sẽ trở nên tốt hơn khi thực hiện
nhiệm vụ đó nhiều lần. Hay nói cách khác khả năng cơ bản nhất của học máy là sử dụng các
thuật toán để phân tích các thơng tin có sẵn học hỏi từ nó rồi đưa ra quyết định hoặc dự
đốn về một thứ gì đó có liên quan thay vì tạo ra một phần mềm mới với những hành động

hướng dẫn chi tiết để thực hiện một nhiệm vụ cụ thể.
c. Phân loại học máy
Học máy được phân thành 4 loại bao gồm:
- Học có giám sát (Supervied learning)
- Học khơng giám sát (Unsupervied learing)
- Học bán giám sát (Semi-supervised learning)
- Học tăng cường (Reinforcement learning)

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


8
1.4.2. Các nghiên cứu ứng dụng học máy dự báo hấp phụ
Trong những năm gần đây, những nghiên cứu về ứng dụng mơ hình học máy để dự báo
khả năng hấp phụ đang là vấn đề còn khá mới. Ở Việt Nam, gần như chưa có nghiên cứu
nào. Nhiều nghiên cứu ứng dụng mơ hình học máy được sử dụng như các mơ hình ANN,
NNET, v.v. có thể làm rõ được mối quan hệ phức tạp của các đối tượng dự báo mà chúng ta
khơng cần thực hiện các thí nghiệm thực tế. Trong hệ thống hấp phụ bằng mô hình học máy,
các đối tượng dự báo khá đa dạng và phong phú với các phương pháp dự báo có thể khác
nhau như là dự báo hiệu quả hấp phụ, dự báo khả năng hấp phụ tối đa (Qm), khả năng hấp
phụ đạt trạng thái cân bằng (Qe), v.v….
Trên thế giới cũng có nhiều nghiên cứu đã áp dụng các mơ hình dự báo hấp phụ. Trong
báo cáo, Afolabi và nnk (2020) đã phát triển mơ hình NNET để dự báo khả năng hấp phụ
paracetamol bằng than sinh học biến tính từ vỏ cam [17]. Bên cạnh đó, Xu và nnk (2021) đã
ứng dụng mơ hình random forest để dự báo khả năng hấp phụ của tetracycline và
sulfamethoxazole trên các vật liệu từ carbon khác nhau bằng mơ hình cây quyết định và
ANN [18]. Ngoài ra, nhiều nghiên cứu được báo cáo gần đây đã sử dụng mơ hình ANN từ
các vật liệu hấp phụ nano carbon, BC và graphene để dự báo khả năng hấp phụ của mơ hình

Freundlich ở trạng thái cân bằng [19, 20]. Mặc dù, với kết quả tốt của những nghiên cứu
trước đó, các nghiên cứu về ứng dụng ML để dự báo khả năng hấp phụ vẫn còn bị hạn chế
trong quá trình lựa chọn phương pháp hay khai thác dữ liệu. Một số báo cáo trước đây chỉ
giới hạn ở các dược phẩm cụ thể như: paracetamol, tetracycline và sulfamethoxazole hoặc
nguyên liệu BC, ví dụ: vỏ cam [17, 18, 82, 83], trong khi các nghiên cứu khác cố gắng làm
rõ giữa các vật liệu hấp phụ khác nhau [19, 20] do đó có thể làm ảnh hưởng đến việc dự
đoán kém hoặc sai.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


9
CHƯƠNG ll: PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Quy trình nghiên cứu
Quy trình nghiên cứu: ứng dụng mơ hình học máy để dự báo khả năng hấp phụ dược
phẩm bằng BC trong môi trường nước bao gồm thứ tự các bước (5 bước) như sau:
Bước 1: Tìm kiếm, thu thập và tổng hợp các dữ liệu
Bước 2: Sàng lọc các bài báo phù hợp theo tiêu chí nghiên cứu
Bước 3: Xử lý dữ liệu
Bước 4: Áp dụng kĩ thuật thống kê và thuật tốn ML để phân tích số liệu và dự báo
Bước 5: Xây dựng công cụ giao diện người dùng web để dự báo dung lượng hấp phụ.
2.2. Phương pháp nghiên cứu
2.2.1. Phương pháp thu thập dữ liệu
Trong nghiên cứu này, chúng tôi lựa chọn phương pháp nghiên cứu thu thập dữ liệu thứ
cấp. Đây là phương pháp thu thập từ các nguồn dữ liệu có sẵn, thường là các dữ liệu thu
thập đã qua tổng hợp và xử lý. Nguồn dữ liệu thu thập đã được công bố rộng rãi trên các cơ
sở dữ liệu nên rất dễ tìm kiếm và thu thập, có độ tin cậy về mặt khoa học cao.
Dữ liệu nghiên cứu về hấp phụ dược phẩm bằng BC đã cơng bố trên các tạp chí uy tín, có

phản biện được thu thập thơng qua cơ sở dữ liệu google scholar. Nhóm từ khóa được tìm
kiếm trong nghiên cứu này gồm 03 từ khóa: Biochar (than sinh học - BC), pharmaceutical
(dược phẩm) và adsorbent (hấp phụ). Ngơn ngữ sử dụng trong q trình tìm kiếm tài liệu là
ngơn ngữ tiếng Anh. Kết quả tìm kiếm thơng qua bước sàng lọc ban đầu đã cho 267 bài báo
khoa học, xuất bản từ năm 2010 đến 2020. Cuối cùng, 36 bài báo được lựa chọn để thu thập
dữ liệu.
2.2.2. Phương pháp xử lý dữ liệu
- Lưu trữ dữ liệu
Dữ liệu về nghiên cứu hấp phụ dược phẩm bằng BC được lưu trữ và quản lý bằng phần
mềm Excel. Dữ liệu được cấu trúc thành các cột và hàng. Các cột là tên các biến đầu vào
(các thông số của hệ thống hấp phụ), gồm có E, S, A, B, V, L, PS, PV, BET, pHs, tem, time,
temp, Qm, H/C, O/C, N/C, biomass, và method. Giá trị ở các hàng là kết quả các thí nghiệm
hấp phụ đẳng nhiệt.
- Xử lý dữ liệu
Các dữ liệu về hấp phụ trong quá trình thu thập từ các bài báo sẽ được rà soát, làm sạch
bằng cách xử lý các số liệu bị trùng, bị lặp và lỗi. Các dữ liệu không chính xác và khơng
phù hợp sẽ bị loại bỏ khỏi tập dữ liệu. Các trường hợp trùng lặp và lỗi giá trị là điều thường
xảy ra trong quá trình thu thập dữ liệu. Quá trình xử lý dữ liệu đòi hỏi nhiều thời gian và
công sức trong nghiên cứu. Nếu bỏ qua việc xử lý dữ liệu, khi đưa bộ dữ liệu vào chạy mơ
hình ML sẽ cho ra kết quả dự báo sai hoặc phần mềm/lệnh sẽ không hoạt động.
- Xử lý với dữ liệu thiếu
Bên cạnh các biến đầu vào thiết yếu (BET, Qe, Qm), có một số biến như nhiệt độ, PS hay
PV có thể bị thiếu giá trị do các nghiên cứu không báo cáo đầy đủ. Có nhiều phương pháp
để xử lý các thơng số bị thiếu trong thu thập dữ liệu. Trong nghiên cứu này, chúng tôi sẽ
thay thế dữ liệu thiếu (missing values) bằng phương pháp thống kê. Dữ liệu thiếu sẽ được

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ



10
dùng một phương pháp thống kê như sử dụng giá trị trung bình của cột để điền vào giá trị
trống đó.
2.2.3. Phương pháp học máy
Dữ liệu hấp phụ sẽ được xử lý và sử dụng đào tạo các mơ hình học máy. Trong nghiên
cứu này phương pháp ML sẽ được sử dụng để:
✓ Dùng thuật toán ML để dự báo dung lượng hấp phụ.
- Thuật tốn KNN:
KNN có thể thực hiện trong bài toán dự báo cho số thực (biến đầu ra là số) và phân loại
(biến đầu ra là phân loại, ví dụ: “Hiệu quả”, “lỗi”, vv.). Mơ hình dự đoán bằng cách áp dụng
nguyên tắc gần nhất của tập dữ liệu huấn luyện (dữ liệu mới). Nó khơng phải là một mơ
hình được đào tạo tập dữ liệu biết trước, hay nói cách khác mơ hình KNN khơng phải đào
tạo trước khi sử dụng [85].
Để xác định mẫu/giá trị là lân cận gần nhất, hàm khoảng cách được áp dụng (tức là
khoảng cách Euclid). K là số trường hợp hoặc mẫu có hàm khoảng cách gần nhất. Trong
KNN, tất cả dữ liệu được đưa vào huấn luyện (và cả tập kiểm tra) bao gồm n mẫu (n hàng
dữ liệu). Khi một mẫu mới cần dự đoán kết quả đầu ra, khoảng cách (ví dụ Euclidean) của
mẫu mới này đến tất cả các mẫu trong dữ liệu huấn luyện được tính tốn và k trường hợp (ví
dụ: k = 5,5 trường hợp hoặc 5 mẫu) với khoảng cách thấp nhất sẽ được kiểm tra. Đối với bài
toán hồi quy, dự đốn cuối cùng được tính trung bình của k lân cận gần nhất [85].

Hình 2.9 Diễn giải mơ hình học máy KNN [86]
- Mơ hình Cubist:
Từ đánh giá sơ bộ ban đầu ngoài phạm vi nghiên cứu này, cùng với kinh nghiệm đào tạo
các thuật toán ML [86, 87], chúng tôi quyết định sử dụng Cubist để dự báo Qe.
Mơ hình Cubist, là một hình thức của mơ hình “cây quyết định” – phát triển từ mơ hình
M5 - cây phân loại dựa vào mơ hình hồi quy [88, 89]. Cơ chế của Cubist là xây dựng các
mơ hình tuyến tính cùng với các quy tắc, được gọi là “cây – tạo ra” và “lá - điểm cuối”. Mối
quan hệ của các quy tắc và phương trình hồi quy tuyến tính là lệnh "nếu-thì", trong đó mỗi


THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


11
quy tắc (rule) kết hợp với nhiều mơ hình tuyến tính [86, 87, 90]. Đối với mỗi quy tắc (If –
Nếu), thì (then) đồng thời 1 phương trình hồi quy tuyến tính được tạo ra để dự báo đầu ra.
Các phương trình hồi quy tuyến tính sẽ được hiệu chỉnh thơng qua thay đổi committee [88].
Committee có thể được xem như là số lượng các điều chỉnh của mơ hình hồi quy để đạt
được mơ hình dự báo tốt nhất.

Hình 2.1 Mơ hình học máy Cubist [86]
2.3. Cơng cụ và ngơn ngữ máy tính
2.3.1. Giới thiệu ngơn ngữ R
Ngơn ngữ R (phiên bản 3.6) được sử dụng để xử lý dữ liệu và chạy thuật tốn ML. Đây
là một ngơn ngữ và mơi trường cho tính tốn thống kê và đồ họa. Ngồi ra, các mơ hình
được áp dụng để trực quan hóa, xử lý dữ liệu và chạy thuật toán ML, bao gồm “Random
Forest”, “Caret”, “ggplot2”, “psych”, “VIM”, “tidyr” and “dplyr”.
2.3.2. Tải R- Studio và cài đặt máy tính
Để sử dụng R-Studio, việc đầu tiên là chúng ta phải cài đặt R- Studio trong máy tính của
mình. Để làm việc này, ta cần truy cập vào website có tên là “Comprehensive R Archive
Network” (CRAN), sau đây: />2.3.3. Các bước chạy mơ hình học máy
a. Các bước chạy mơ hình dự báo dung lượng hấp phụ Qe
Sau đây là các bước cụ thể thực hiện mơ hình học máy trên phần mềm R-Studio:
Bước1: Trước khi tiến hành thực hiện các bước trong mơ hình, cần làm sạch dữ liệu
Bước 2: Để thực hiện được việc chạy mơ hình R, cần tải và cài đặt các package (gói) dữ
liệu để mở file excel và chứa thuật tốn trong các mơ hình.
Bước 3: Sau khi đã cài đặt được các package, sẽ gọi các package để làm việc.

Bước 4: Truy xuất dữ liệu để làm việc.
Bước 5: Dữ liệu được chia thành 2 phần: phần 1 dữ liệu đào tạo với 80%, phần 2 dữ liệu.
Bước 6: Sau khi phân chia dữ liệu xong, tiến hành chuẩn bị khai thác dữ liệu để đánh giá
thuật toán.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


12
Bước 7: Tinh chỉnh mơ hình.
b. Các bước chạy mơ hình dự báo dung lượng hấp phụ Qm
Bước 1: Thực hiện cài đặt 04 package
Bước 2: Tải các gói lên thư viện để làm việc
Bước 3: Truy xuất dữ liệu để làm việc
Bước 4: Dữ liệu được chia thành 2 phần: phần 1 dữ liệu đào tạo với 80%, phần 2 dữ liệu
kiểm tra với 20%. Thực hiện lệnh bên dưới
Bước 5: Sau khi phân chia dữ liệu xong, tiến hành chuẩn bị khai thác dữ liệu để đánh giá
thuật tốn
Bước 6. Dùng mơ hình đã đào tạo để dự báo đối với dữ liệu kiểm tra. Sau đó thực hiện
thao tác kỹ thuật để tạo ra bộ dữ liệu để tính R2 và RMSE
Bước 7: Sau khi có kết quả của R2 và RMSE, ta thực hiện vẽ biểu đồ residual (phần
dư/sai số).
c. Xây dựng công cụ giao diện người dùng Web
❖ Giao diện người dùng
Bước 1: Cần tải và cài đặt các package (gói) dữ liệu
Bước 2: Sau khi đã cài đặt được các package, sẽ gọi các package để làm việc
Bước 3: Tạo ứng dụng web, dữ liệu MAC được đưa vào máy học và sau đó sẽ cho kết
quả địa chỉ web. Người dùng nhấp vào địa chỉ và khai báo các giá trị đầu vào, sau đó phần

mềm giao diện web sẽ đưa ra kết quả dự đốn.

Hình 2.2 Phần mềm giao diện người dùng web
Hình 2.3 Phần mềm giao diện người dùng web

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


13
CHƯƠNG III: KẾT QUẢ VÀ THẢO LUẬN NGHIÊN CỨU
3.1. Thống kê mô tả và suy luận
3.1.1. Dữ liệu thực tế
Dữ liệu dung lượng hấp phụ là kết quả báo cáo trong các bài báo đã thu thập và được lưu
trữ trong phần mềm excel. Giá trị Qm là kết quả rút ra từ mô phỏng dữ liệu hấp phụ bằng
phương trình Langmuir (3). Dữ liệu này là cần thiết cho q trình thiết kế hệ thống hấp phụ.
Có 02 bộ dữ liệu bao gồm bộ dữ liệu hấp phụ cực đại Qm và dữ liệu hấp phụ bão hồ Qe.
Mơ hình Langmuir (dạng phi tuyến tính):

𝑞𝑒 =

𝑞𝑚 𝐾𝐿 𝐶𝑒

CT. (3)

1+ 𝐾𝐿 𝐶𝑒

Trong đó:
qe là hấp phụ bảo hòa

qm là hấp phụ tối đa (mg/g)
KL là hằng số Langmuir (L/mg)
Ce nồng độ bão hòa (mg/L).
Dữ liệu dung lượng hấp phụ cực đại (Dữ liệu Qm) nhằm sàng lọc và lựa chọn vật liệu BC
tiềm năng ứng dụng loại bỏ dược phẩm mà không cần phải tốn thời gian thực hiện các thí
nghiệm và hạn chế nước thải phát sinh ra mơi trường. Vì giá trị Qm thu được từ phương trình
Langmuir (ở điều kiện cân bằng) nên có khả năng chứa sai số lớn, do đó chúng ta cần sàng
lọc các giá trị bất thường. Dữ liệu ngoại lai Qm được phát hiện bởi biểu đồ hộp (box-plot) –
là giá trị vượt ra khỏi phạm vi bách phân vị Q1 và Q3, bao gồm 18 hàng có giá trị lớn hơn
258,76 mg /g đã được xóa khỏi dữ liệu.
Dữ liệu cuối cùng được làm sạch (loại bỏ giá trị trùng lặp, lỗi, các biến không quan
trọng) làm sạch bao gồm 152 hàng và 05 cột để chạy mơ hình ML. Bảng 3.1 thể hiện dữ liệu
Qm, trong đó cột Stt và Dược phẩm là 02 biến mô tả - không dùng để chạy mơ hình. Qm là
đầu ra mục tiêu (tức là biến phụ thuộc) và các biến khác (S, A, BET và PV) là các biến độc
lập (tức là biến đầu vào).
Các biến cuối cùng được lựa chọn để đưa vào chạy mơ hình được thu thập trong 36 bài
báo. Dữ liệu ban đầu được thu thập hết tất cả các biến. Sau đó, sử dụng các cơng cụ xử lý dữ
liệu để chọn lại các biến cần thiết, biến nào khơng quan trọng và khơng đóng góp cho hiệu
quả của mơ hình sẽ bị loại bỏ.
Bảng 3.1 Bộ dữ liệu tóm tắt về dung lương hấp phụ tối đa Qm
STT

Dược phẩm

S

A

BET


PV

Qm

1

Citalopram

1,99

0

3,43

0,02

4,4

2

Citalopram

1,99

0

94,39

0,06


3,8

3

Citalopram

1,99

0

120,86

0,08

8,5

4

Citalopram

1,99

0

209,12

0,13

19,6


5

Citalopram

1,99

0

10,82

0,02

4

6

Citalopram

1,99

0

2,36

0,018

2,2

7


Salicylic acid

0,85

0,73

1,35

0,095

7,56

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


14
8

Salicylic acid

0,85

0,73

1,35

0,193


16,84

9

Salicylic acid

0,85

0,73

1,35

0,193

22,7

10

Ibuprofen

0,7

0,56

1,35

0,378

10,74


11

Sulfamethazine

2,55

0,65

0,85

0,004

15,656

12

Sulfamethazine

2,55

0,65

1,22

0,003

14,681

13


Sulfamethazine

2,55

0,65

2,31

0,008

20,559

14

Sulfamethazine

2,55

0,65

2,31

0,008

18,776

15

Sulfamethazine


2,55

0,65

2,31

0,008

18,591

16

Sulfamethazine

2,55

0,65

2,31

0,008

10,451

17

Sulfamethazine

2,55


0,65

7,1

0,038

37,731

18

Sulfamethazine

2,55

0,65

7,1

0,038

32,192

19

Sulfamethazine

2,55

0,65


7,1

0,038

30,015

20

Sulfamethazine

2,55

0,65

7,1

0,038

25,226

151

Salicylic acid

0,85

0,73

841


0,378

48,8

152

Salicylic acid

0,85

0,73

477

0,38

50,5



Dữ liệu dung lượng hấp phụ bão hòa (Dữ liệu Qe) là dữ liệu với biến mục tiêu là giá trị
dung lượng ở trạng thái cân bằng – được trích xuất từ các biểu đồ hấp phụ. Nó bao gồm các
đặc tính của chất hấp phụ và điều kiện thí nghiệm hấp phụ. Mục đích của thu thập dữ liệu
này là nhằm hỗ trợ trong nghiên cứu hấp phụ, ước lượng được hiệu quả sơ bộ để xác định
liều lượng cần dùng của loại dược phẩm và loại BC. Dữ liệu này còn dùng để phát triển các
thuật tốn nhằm hiểu tồn diện về cơ chế hấp phụ trên cơ sở dự đoán hiệu quả hấp phụ dược
phẩm bởi BC ở điều kiện bão hòa. Dữ liệu Qe bao gồm 07 biến đầu vào gồm: BET, Ci, AD,
O/C, PV, A và B và biến mục tiêu Qe với 1033 dòng, được thể hiện tóm tắt ở Bảng 3.2.
Bảng 3.2 Bộ tóm tắt về dữ liệu dung lương hấp bão hoà Qe
STT


Dược phẩm

A

B

BET

PV

AD

1

Citalopram

0

1,53

3,43

0,02

0,5

1,212965 0,494163

1,99199


2

Citalopram

0

1,53

3,43

0,02

0,5

1,61512

0,494163

2,38436

3

Citalopram

0

1,53

3,43


0,02

0,5

2,23643

0,494163

2,5884

4

Citalopram

0

1,53

3,43

0,02

0,5

2,608245 0,494163

2,79243

5


Citalopram

0

1,53

3,43

0,02

0,5

2,91485

0,494163

3,07494

6

Citalopram

0

1,53

3,43

0,02


0,5

3,50824

0,494163

3,20574

7

Citalopram

0

1,53

3,43

0,02

0,5

3,98069

0,494163

3,69228

8


Citalopram

0

1,53

3,43

0,02

0,5

4,705335 0,494163

3,65043

9

Citalopram

0

1,53

3,43

0,02

0,5


5,483295 0,494163

4,17359

10

Citalopram

0

1,53

3,43

0,02

0,5

6,94296

0,494163

4,64444

11

Citalopram

0


1,53

94,39

0,06

0,5

1,418965 0,498778

2,66481

12

Citalopram

0

1,53

94,39

0,06

0,5

1,734715 0,498778

2,87459


13

Citalopram

0

1,53

94,39

0,06

0,5

2,297755 0,498778

2,87459

14

Citalopram

0

1,53

94,39

0,06


0,5

2,61077

3,23646

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Ci

O_C

0,498778

Qe

Lưu hành nội bộ


15
15

Citalopram

0

1,53

94,39


0,06

0,5

3,15541

0,498778

3,4777

16

Citalopram

0

1,53

94,39

0,06

0,5

3,796385 0,498778

3,58259

17


Citalopram

0

1,53

94,39

0,06

0,5

4,472885 0,498778

4,13851

18

Citalopram

0

1,53

94,39

0,06

0,5


5,35248

0,498778

4,72064

19

Citalopram

0

1,53 120,86

0,08

0,5

3,516275 0,502169

4,51859

20

Citalopram

0

1,53 120,86


0,08

0,5

4,344625 0,502169

5,12921


1031

Ibuprofen

0,56 0,79

342

0,132

3,33 23,94501 0,508075 4,799386

1032

Ibuprofen

0,56 0,79

342


0,132

3,33 20,59512 0,508075 4,316485

1033

Ibuprofen

0,56 0,79

342

0,132

3,33 17,44552 0,508075 3,752627

3.1.2. Mô tả dữ liệu
Mục đích của bước này là để tóm tắt dữ liệu, nhận diện kiểu phân bố và suy luận ra các
thông tin của các biến. Chẳng hạn, nếu dữ liệu nghiên cứu có phân bố chuẩn, các giá trị suy
luận và thống kê như trung bình, trung vị, sai số chuẩn, khoảng tin cậy, v.v sẽ được cung
cấp nhiều thơng tin có giá trị, giúp hiểu dữ liệu rõ hơn. Trong nghiên cứu này, có 19 loại
dược phẩm được sử dụng, bao gồm: Thuốc kháng sinh (Tetracycline, norfloxacin,
ciprofloxacin, metronidazole, sulfadiazine, sulfamerazine và sulfamethoxazole), thuốc kích
thích thần kinh (Caffeine), thuốc gây mê (Benzocaine, 2-phenoxyethanol) và thuốc tổng hợp
(Acetaminophen, citalopram, diclotine, ibuprofen, axit salicylic, sulfamethazine và
naproxen).
Các thống kê mô tả của dữ liệu được sử dụng trong nghiên cứu này được trình bày ở
Bảng 3.3.
Giá trị độ lệch (skewness) = 0, dữ liệu phân bố chuẩn; khi giá trị này càng lớn, chứng tỏ
dữ liệu bị lệch chuẩn (dữ liệu phân bố khơng đều thì sẽ rất khó để suy ra các giá trị suy

luận). Theo quan sát cho thấy, đa số các biến có độ lệch phân bố (skewness) gần như dương,
phần đuôi của các biến nằm ở bên phải. Độ lệch của biến cao (tức là giá trị lệch > 1 hoặc 1), cho thấy rằng dữ liệu khơng phân bố chuẩn. Chỉ có biến Temp có sự phân bố dữ liệu là
xấp xỉ đối xứng, gần với phân phối chuẩn.
Khoảng giá trị nhỏ nhất – lớn nhất của các biến cũng khá lớn, chẳng hạn, BET có giá trị
tối đa gấp 3831 lần tối thiểu, Qm là 1082 lần và thời gian là 2400 lần. Có thể khẳng định
rằng, các biến dữ liệu có khoảng giá trị (range) rộng, độ biến thiên lớn và không tuân theo
luật phân bố chuẩn thường không phù hợp cho các phương pháp phân tích thống kê thơng
thường (chẳng hạn, mơ hình hồi quy tuyến tính đòi hỏi các biến phải tuân theo phân bố
chuẩn). Biến mục tiêu có giá trị trung bình Qm đạt 48,29 mg/g.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


16
Bảng 3.3 Thống kê tóm tắt các biến sử dụng cho thuật tốn ML
Biến

Trung
bình

Độ lệch
chuẩn

Giá trị tối
thiểu

Giá trị tối
đa


Độ lệch
(skewness)

H/C

0,45

0,38

0,03

3,76

5,18

N/C

0,04

0,04

0,0

0,24

2,36

O/C


0,25

0,24

3,10-3

1,58

2,47

PS

10,09

29,49

1,32

213,29

6,46

BET

191,26

255,60

0,48


1838,86

2,64

PV

0,15

0,16

0,001

1,03

1,84

pHS

6,28

1,40

2,00

9,00

-1,32

Tem


27,24

9,11

15,00

61,00

1,83

Time

29,78

42,78

0,08

192,00

2,53

TemP

611,28

189,09

300,00


950,00

0,35

Qm

48,29

55,77

0,22

238,10

1,58

3.1.3. Khả năng hấp phụ và diện tích riêng bề mặt
Trong tập dữ liệu thì Qm và BET là hai thơng số quan trọng trong nghiên cứu hấp phụ BC
để loại bỏ dược phẩm, do đó nghiên cứu này đã kiểm tra xem giá trị trung bình của Qm và
BET có khác biệt ý nghĩa thống kê hay sai số ngẫu nhiên không. Kết quả của phân phối và
biểu đồ trong Hình 3.1 cho thấy rằng, Qm và BET khơng tn theo luật một phân phối
chuẩn, vì vậy cần sử dụng phương pháp kiểm tra Kruskal-Wallis. Phương pháp KruskalWallis là phương pháp kiểm tra xem giá trị trung bình giữa 2 nhóm (khơng tn theo luật
phân phối chuẩn) có thực sự khác biệt, có ý nghĩa thống kê (P<0,05).
Kiểm định thống kê về giá trị trung bình của Qm và BET của BC giữa phương pháp chế
tạo BC thường và biến tính cho kết quả P<0,05. Kết quả này xác nhận rằng, giá trị trung
bình (Qm và BET) giữa hai phương pháp nhiệt phân (BC thơng thường và biến tính) là khác
nhau đáng kể (có ý nghĩa thống kê, P<0,05). BC biến tính đã làm gia tăng BET và năng lực
hấp phụ dược phẩm. Chẳng hạn, BC thường để loại bỏ ibuprofen đạt Qm 5 mg/g, trong khi
BC hoạt hóa bằng hơi nước cho kết quả 12,66 mg/g [77]; BC biến tính xử lý tetracycline có
BET 140,08 m2/g, Qm đạt 98,33 mg/g trong khi BC thông thường chỉ đạt đạt 28,13 m2/g

(BET) và 37,80 mg/g (Qm) [78].
Kết quả của Qm và BET cũng được làm sáng tỏ trong Hình 3.1 Qm của BC thường (n =
93) chiếm trung bình là 37,31 mg/g thấp hơn BC biến tính (n = 59) với 65,59 mg/g. Hình
3.1 cũng cho thấy Qm của BC thơng thường chứa nhiều ngoại vi (là những giá trị cao hoặc
thấp hơn bất thường so với 95% giá trị còn lại). Giá trị ngoại vi có thể có ảnh hưởng tiêu
cực đến kết quả thống kê và giá trị trung bình (giá trị trung bình khơng phản ánh độ lớn

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


17
“trung bình”, hoặc “khoảng giữa” của tập số liệu). BET của BC biến tính đạt trung bình
253,37 m2/g, trong khi đó, BC thường chỉ đạt 151,85 m2/g.
Các kết quả về BET và Qm giữa hai loại phương pháp nhiệt phân này phù hợp với dự đoán
chung rằng hiệu quả của BC để hấp phụ có thể được cải thiện bằng cách thúc đẩy q trình
chế tạo với các biến tính khác nhau. Một trong những cải tiến này của BC đã làm tăng BET.
Ví dụ, khi BC được nhiệt phân ở 600o C bằng kali cacbonat (Qm 70,05 mg naphthalene/g
BC), cao gấp 5 lần BET so với BC thường (Qm 43,06 mg naphthalene/g BC) [92].

Hình 3.1 Dung lượng hấp phụ tối đa (a) và diện tích bề mặt được chia theo phương pháp
chế tạo thường và biến tính.
3.1.4. Phân tích tương quan
Phân tích tương quan trong nghiên cứu về hấp phụ dược phẩm được thực hiện để khám
phá mối quan hệ giữa hiệu quả hấp phụ dược phẩm và các đặc tính của BC. Mục đích của
bước này là xem xét mức độ tương quan giữa các biến đầu vào có tồn tại vấn đề đa cộng
tuyến hay khơng (hệ số tương quan cao, r >0,85). Ngồi ra, thơng qua phân tích tương quan,
chúng ta có thể có những đánh giá ban đầu về dữ liệu, qua đó lựa chọn kĩ thuật thống kê
hoặc thuật toán phù hợp. Kết quả phân tích tương quan của dữ liệu Qm được thực hiện trong

phần mềm R bao gồm giá trị r và mức độ “có ý nghĩa thống kê” (kí hiệu *). Khi kết quả cho
thấy “có ý nghĩa thống kê”, có nghĩa giá trị r có ý nghĩa, mà khơng phải là ngẫu nhiên.
Hệ số tương quan (r) của Qm và BET, PV, PS, TemP được minh họa trong Hình 3.2 Kết
quả cho thấy, các biến đầu vào có tương quan cao và hầu như mối tương quan giữa các biến
là có ý nghĩa thống kê. Mối tương quan cao nhất với r = 0,507 là giữa Qm và BET; tiếp theo
là giữa Qm và PV với r = 0,489, trong khi PS tương quan nghịch với Qm với r = -0,036. Các
biến đầu vào tương quan với nhau ở mức trung bình và thấp, do đó, khơng tồn tại vấn đề đa
cộng tuyến trong dữ liệu.
Kết quả tương quan trên có thể diễn giải như sau. Khi chúng ta muốn tăng Qm – có nghĩa
là tăng khả năng hấp phụ của vật liệu đối với dược phẩm, thì cần tăng BET và PV của BC.
Diện tích bề mặt và lỗ rỗng là 2 yếu tố quan trọng, quyết định hiệu quả hấp phụ của vật liệu.
Gia tăng diện tích bề mặt của BC góp phần tạo ra nhiều điểm hấp phụ hơn trên bề mặt, do
đó tăng khả năng hấp phụ dược phẩm trong mơi trường nước. Bên cạnh đó, nghiên cứu

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


18
cũng khẳng định rằng, bên cạnh sự tăng của giá trị diện tích bề mặt riêng của BC (BET) đã
làm tăng Qm, thì nó còn làm tăng độ rỗng của vật liệu (PV), tương ứng với r = 0,724. Hình
3.2 còn cho thấy BET có mối tương quan thuận với TemP (r = 0,43), có nghĩa là khi tăng
nhiệt độ nhiệt phân BC đã làm gia tăng BET. Các nghiên cứu trước cho biết gia tăng nhiệt
độ nhiệt phân đã làm tăng diện tích bề mặt và độ xốp của BC [92-94]. Quá trình chế tạo BC
ở nhiệt độ cao đã tạo ra nhiều lỗ xốp siêu nhỏ do chất bay hơi trong vật liệu hữu cơ được
giải phóng và phân hủy [95].

Hình 3.2 Ma trận biểu đồ phân bố cho các biến đầu vào và kết quả.Các tông màu đỏ là
tương quan dương và xanh là âm (theo tỷ lệ). Cor: correlation (tương quan), r có giá trị từ 1 đến 1. (*) ở đây là sự khẳng định mối tương quan có ý nghĩa thống kê. Nếu r khơng có

dấu (*) là tương quan khơng có ý nghĩa thống kê (tương quan này có thể do ngẫu nhiên).
3.2. Mơ hình học máy dự báo dung lượng hấp phụ
3.2.1. Dự báo dung lượng hấp phụ cực đại
Như đã phân tích, dung lượng hấp phụ cực đại của BC đối với dược phẩm là thông số ổn
định và không phụ thuộc vào điều kiện thí nghiệm. Nó được rút ra từ mô phỏng dữ liệu hấp
phụ bão hòa thông qua mơ hình hấp phụ Langmuir (3). Do đó, thơng số dung lượng hấp phụ
cực đại của BC được chọn để dự báo bằng mơ hình học máy. Giá trị dự báo này nhằm góp
phần đánh giá và lựa chọn BC tiềm năng cho hấp phụ dược phẩm trong môi trường nước.
Thông qua bước đánh giá và sàng lọc dữ liệu, 04 biến đầu vào được lựa chọn để xây
dựng mô hình dự báo, bao gồm: PV, S, A, và BET. Mơ hình được lựa chọn cho dự báo hấp
phụ Qm dược phẩm bằng BC là mơ hình KNN. Đây là mơ hình dự đốn biến đầu ra (biến
liên tục) bằng cách áp dụng nguyên tắc gần nhất của tập dữ liệu huấn luyện (dữ liệu mới).
Mơ hình KNN được lựa chọn bởi vì đây là mơ hình có hiệu quả cao trong dự báo (hệ số xác
định R2 cao, giá trị sai số - RMSE thấp) và tốn ít tài ngun máy tính (thời gian xử lý, chạy
thuật tốn nhanh hơn).
Dữ liệu hấp phụ dược phẩm bởi BC sẽ được chia làm 2 phần: phần 1 dữ liệu đào tạo với
80%, phần 2 dữ liệu kiểm tra với 20%. Dữ liệu đào tạo là để chạy mơ hình và 20% - dữ liệu

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


19
còn lại sẽ được “test” độ chính xác của mơ hình. Đây là cách phân chia dữ liệu nhằm tránh
“thiên kiến” (bias) so với dùng 100% dữ liệu cho đào tạo mơ hình. 20% giữ lại – dữ liệu
kiểm tra, được xem như dữ liệu hồn tồn mới (mơ hình khơng được biết), nhằm đánh giá
mức độ chính xác của mơ hình.
Chạy mơ hình KNN trên nền tảng phần mềm (ngơn ngữ lập trình) R với dữ liệu đào tạo,
cho kết quả trung bình: RMSE = 23,48 và hệ số xác định R2 = 0,83. Số lượng mẫu của bước

chạy mơ hình này là 10 mẫu (kĩ thuật kiểm tra chéo 10 lần: 10 fold - Cross validation). Kết
quả Hình 3.3 là thể hiện khoảng giá trị kết quả của mơ hình KNN đối với dữ liệu đào tạo.
Biểu đồ phân bố ở Hình 3.3 cho thấy, giá trị trung vị và trung bình có giá trị xấp xỉ nhau và
không xuất hiện giá trị ngoại vi trong khoảng dữ liệu. Điều này cho thấy rằng, kết quả của
mơ hình KNN với các lần chạy dự báo đối với các mẫu dữ liệu khác nhau có kết quả đồng
đều và đáng tin cậy.
Khi mơ hình được chạy bằng dữ liệu đào tạo thì nó sẽ có các thơng số mơ hình (có thể
điều chỉnh). Do đó, chúng ta cần xem xét và lựa chọn các thơng số mơ hình (gọi là tin chỉnh
mơ hình) để tối ưu hóa mơ hình. Kết quả tinh chỉnh của KNN cho giá trị K tối ưu = 1. Giá
trị này sẽ được thiết lập để chạy mơ hình KNN với dữ liệu kiểm tra.

Hình 3.3 Giá trị RMSE (a) và R2 (b) của mô hình KNN
Mơ hình KNN được đào tạo sẽ được thử nghiệm độ chính xác với dữ liệu kiểm tra KNN.
Kết quả hệ số xác định R2 đạt được là 0,92 và giá trị sai số (RMSE) là 16,62 cho dữ liệu
kiểm tra. Đối với toàn bộ dữ liệu, KNN đạt R2 0,98 và RMSE 8,60 trong dự đoán kết quả
Qm của dược phẩm.
Kết quả từ bước chạy mơ hình KNN với dữ liệu kiểm tra và so sánh với mô hình chạy
với dữ liệu đạo tạo cho thấy rằng mơ hình KNN là đáng tin cậy (hiệu quả cao, khơng dự báo
tín hiệu nhiễu của dữ liệu và có thể áp dụng tốt cho bộ dữ liệu khác nhau) và khả thi cho dự
báo hấp phụ dược phẩm. Mơ hình KNN đã được phát triển không phải là “quá mức”
(overfitting) – hiệu quả mơ hình với dự liệu đào tạo cao, trong khi hiệu quả mơ hình với dữ
liệu kiểm tra thấp hay “chưa khớp” (underfitting).

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


20
Sử dụng KNN để dự báo với dữ liệu kiểm tra và so sánh với giá trị thực tế Qm của dược

phẩm, phần dư (sai số của mơ hình) được trình bày trong Hình 3.4. Sự phân bố giữa giá trị
thực tế, dự đốn và phần dư trong Hình 3.2 cho thấy rằng, dữ liệu dự đốn của KNN có mối
tương quan chặt chẽ với dữ liệu thực tế. Tuy nhiên, Hình 3.4 cũng cho thấy một số giá trị
ngoại vi – giá trị có sai số lớn hơn ± 20. Điều này cho thấy, việc áp dụng mơ hình KNN vào
thực tế cũng cần đòi hỏi sự đánh giá và kiểm tra kĩ lưỡng của nhà nghiên cứu, đặc biệt trong
sàng lọc dữ liệu (loại bỏ dữ liệu ngoại vi, dữ liệu chứa sai số, v.v).

Hình 3.4 Kết quả dự báo của mơ hình KNN với dữ liệu kiểm tra
3.2.2. Dự báo dung lượng hấp phụ bão hòa
Dữ liệu cho dự báo Qe bao gồm 07 biến đầu vào gồm: BET, Ci, AD, O/C, PV, A và B và
biến mục tiêu Qe. Dựa vào q trình đánh giá mơ hình và đánh giá sàng lọc ban đầu, mơ
hình ML được lựa chọn là mơ hình Cubist.
Mơ hình Cubist sử dụng 80% dữ liệu đào tạo (dữ liệu Qe) để phát triển mơ hình dự báo.
Mơ hình ML sẽ được chạy 10 lần dựa vào kĩ thuật lấy mẫu lại theo nguyên tắc kiểm tra
chéo 10 lần (10 fold - Cross validation). Phân phối kết quả dự báo (hệ số xác định R2 và sai
số RMSE) của mơ hình Cubist dự báo Qe với dữ liệu đào tạo được trình bày trong Hình 3.5.
Mơ hình đạt kết quả trung bình với R2 là 0,95 và RMSE là 13,90. Giá trị R2 chứa đựng một
số giá trị ngoại vi với R2 ~0,85 – 0,91.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


21

Hình 3.5 Kết quả mơ hình Cubist với dữ liệu đào tạo dựa trên các thông số RMSE (a) và R2
(b).
Mơ hình Cubist có 02 tham số là committee và giá trị lân cận (neighbor). Committee
được xem như là số lượng điều chỉnh, tức là tăng cường lặp lại sức mạnh của dự đốn. Sau

khi đào tạo mơ hình với dữ liệu, bước tiếp theo là lựa chọn tham số tối ưu cho mơ hình
Cubist. Q trình này gọi là tinh chỉnh mơ hình và được thực hiện trong phần mềm R với
gói hỗ trợ (package) Caret.
Kết quả của việc tối ưu hóa thơng số của Cubist được trình bày trong Hình 3.6a. Thuật
tốn chứng minh rằng với dữ liệu điều chỉnh (committees) = 40 và giá trị lân cận = 1 mơ
hình hoạt động tốt nhất với RMSE thấp nhất. Mơ hình Cubist điều chỉnh có RMSE là 16,52
và R2 là 0,94. Giá trị lân cận k = 0 và hệ số điều chỉnh/tăng cường committee = 1, mô hình
đạt hiệu quả thấp nhất. Hình 3.6a còn cho thấy, tăng hệ số committee góp phần làm giảm sai
số của mơ hình.
Nhằm đánh giá tồn diện hiệu quả của thuật toán ML, dữ liệu kiểm tra sẽ được sử dụng
để áp dụng với mơ hình đã được đào tạo. Mơ hình Cubist được sử dụng để dự báo Qe với dữ
liệu kiểm tra đã cho kết quả RMSE là 14,18 với R2 là 0,97. Điều này cho thấy, hiệu quả mơ
hình Cubist với dữ liệu kiểm tra có thay đổi khơng lớn so với hiệu quả mơ hình với dữ liệu
đào tạo. Hay nói cách khác, mơ hình Cubist đã phát triển không phải là do quá mức
(overfiting) hay không kém hiệu quả (underfiting). Để hiểu rõ hơn hiệu quả của mơ hình
Cubist, phần dư (residuals), giá trị dự đốn và thực tế của Qe được minh họa trong Hình
3.6b. Nó cho thấy rằng, thực tế trong một số dự báo Qe, phần sai số dự báo của mơ hình (giá
trị Qe thực tế trừ đi giá gị dự báo) tương đối lớn (>20 hoặc <-20). Kết quả này, phản ánh
phần nào sự biến thiên và ngẫu nhiên của dữ liệu cũng như tính ngẫu nhiên của thuật tốn
ML. Do đó, trong nghiên cứu và áp dụng ML, cần chú trọng tất cả các khâu như thu thập và
xử lý dữ liệu, lựa chọn thuật tốn phù hợp và có q trình hậu kiểm (sau khi ứng dụng mơ
hình ML vào thực tế).

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


22


\
Hình 3.6 Biểu đồ tối ưu hóa siêu tham số (a) và tổng qt hóa thuật tốn Cubist (b)
3.2.3. Xây dựng công cụ giao diện người dùng
Trong nghiên cứu này, kết quả cho thấy 02 mơ hình ML gồm KNN và Cubist có hiệu quả
cao để dự báo dung lượng hấp phụ dược phẩm bởi BC. Đây là các thuật tốn đã được “đào
tạo” (train) để hình thành các mơ hình có thể sử dụng, đó là các mơ hình có đầu vào và đầu
ra. Đầu vào chính là các biến phản ánh đặc tính của BC và phản ứng hấp phụ, cũng như loại
dược phẩm và BC. Đầu ra chính là các giá trị/kết quả dự đốn, phục vụ cho các mục đích
nghiên cứu và ứng dụng trong hấp phụ dược phẩm bằng BC.
Mơ hình Cubist có thể dự đoán dung lượng hấp phụ bão hòa và đã minh chứng hiệu quả
trong dự báo dữ liệu mới. Kết quả dự báo Qe hỗ trợ trong nghiên cứu hấp phụ - ước lượng
được hiệu quả sơ bộ trên cơ sở lượng cần dùng, loại dược phẩm và loại BC. Bên cạnh đó,
mơ hình dự đốn KNN cũng đã chứng minh một cách hiệu quả với dữ liệu kiểm tra có thể
được áp dụng trong trong thực tế để lựa chọn các BC tiềm năng cho hấp phụ dược phẩm. Vì
Qm được xem là năng lực hấp phụ đặc trưng của vật liệu trong các điều kiện bão hòa và và
giá trị này có thể so sánh – vì chúng khơng phụ thuộc vào điều kiện thí nghiệm như lượng
BC, nhiệt độ, nồng độ dược phẩm, v.v. Mơ hình KNN này sẽ hỗ trợ các nhà thiết kế và quản
lý vận hành hình dung hay dự đốn được Qm của BC nhất định mà khơng cần thực hiện các
thí nghiệm ở quy mơ phòng thí nghiệm mới.
Trên cơ sở mơ hình ML được đào tạo, để thuận tiện cho việc sử dụng, việc tích hợp mơ
hình ML vào cơng cụ giao diện người dùng web là cần thiết. Ngoài ra, một ứng dụng web
đã được xây dựng để tạo điều kiện thuận lợi cho việc sử dụng mơ hình KNN mà khơng cần
biết ML. Ứng dụng này đã tích hợp thuật tốn đã đào tạo và xây dựng các cơng cụ để người
dùng có thể tương tác. Phương thức xây dựng giao diện người dùng web được minh họa
như Hình 3.7. Đây là giao diện người dùng được hỗ trợ bởi gói Shiny chạy trên phần mềm R
studio hoặc chạy trực tiếp trên website.
Trong nghiên cứu này, chúng tôi xây dựng giao diện người dùng cho mơ hình KNN cho
dự báo Qm hấp phụ dược phẩm trong môi trường nước. Người dùng khai báo các giá trị đầu
vào (tức là BET, PV, A và S) trên ứng dụng web, kết quả của Qm sẽ được phản hồi trực tiếp
trên công cụ giao diện. Có thể nói đây là cơng cụ mạnh mẽ và dễ dàng cho các kỹ sư và nhà

nghiên cứu. Nó phục vụ người dùng trong việc sàng lọc các loại BC tiềm năng cho hấp phụ
dược phẩm trong môi trường nước. Thông qua áp dụng công cụ này, người dùng sẽ giảm

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


23
được chi phí thử nghiệm vật liệu, vì khơng phải thực hiện các thí nghiệm thủ cơng tốn kém
và mất thời gian. Ngồi ra, giảm các cơng việc thí nghiệm xử lý nước và nước thải cũng góp
phần làm giảm lượng nước thải từ phòng thí nghiệm và bảo vệ mơi trường.

Hình 3.7 Mơ hình giao diện người dùng – mơ hình KNN dự báo dung lượng hấp phụ
cực đại

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ

Lưu hành nội bộ


×