Tải bản đầy đủ (.pdf) (84 trang)

ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.23 MB, 84 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>THÀNH PHỐ HỒ CHÍ MINH</b>

BỘ GIÁO DỤC VÀ ĐÀO TẠO

<b>TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT </b>

<b> </b>

<b> <sup> </sup> <sup> </sup> </b>

<b> </b>

<b> </b>

<b> </b>

<b> </b>

<b>KHÓA LUẬN TỐT NGHIỆPNGÀNH NĂNG LƯỢNG TÁI TẠO</b>

<b> SVTH: NGUYỄN NHẬT TRƯỜNG ĐÀO THÁI CÁT TƯỜNG</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>BỘ GIÁO DỤC VÀ ĐÀO TẠO </b>

<b> TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CƠ KHÍ ĐỘNG LỰC </b>

<b>ĐỒ ÁN TỐT NGHIỆP </b>

TP. Hồ Chí Minh, ngày 21 tháng 1 năm 2024

<b>ỨNG DỤNG TRÍ TUỆ NHÂN TẠO </b>

<b>ĐỂ DỰ ĐOÁN CƯỜNG ĐỘ BỨC XẠ MẶT TRỜI </b>

<b>GVHD: TS. NGUYỄN VĂN TRUNG SVTH: NGUYỄN NHẬT TRƯỜNG MSSV: 20154065 </b>

<b>SVTH: ĐÀO THÁI CÁT TƯỜNG MSSV: 20154002 </b>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>DANH MỤC HÌNH ẢNH </b>

<b>Hình 1.1. Những tác động của NLHT lên khí hậu, mơi trường, thể trạng con người .. 1 </b>

<b>Hình 1.2. Những hệ luỵ của việc đốt NLHT ... 1 </b>

<b>Hình 1.3. Phân nhóm các thuật tốn ML ... 4 </b>

<b>Hình 1.4. Cấu trúc của thuật toán ML kết hợp được đề xuất ... 7 </b>

<b>Hình 2.1. Hàm hồi quy tuyến tính ... 10 </b>

<b>Hình 2.2. Phần dư 𝑒 được biểu diễn trong mơ hình LR ... 11 </b>

<b>Hình 2.3. Biểu đồ biểu diễn giá trị BXMT. Giá trị tập trung 0 W/m</b><small>2</small> – 62.5 W/m<small>2</small> .. 13

<b>Hình 2.4. Biểu đồ biểu diễn giá trị nhiệt độ. Giá trị tập trung 43° F – 53° F... 13 </b>

<b>Hình 2.5. Biểu đồ biểu diễn giá trị áp suất ... 14 </b>

<b>Hình 2.6. Biểu đồ biểu diễn giá trị độ ẩm ... 14 </b>

<b>Hình 2.7. Biểu đồ biểu diễn giá trị hướng gió. Giá trị tập trung 130° – 200° ... 15 </b>

<b>Hình 2.8. Biểu đồ biểu diễn giá trị tốc độ ... 15 </b>

<b>Hình 2.9. Xây dựng, huấn luyện mơ hình ... 16 </b>

<b>Hình 2.10. Đồ thị thể hiện giá trị BXMT ... 17 </b>

<b>Hình 2.11. Đồ thị thể hiện giá trị nhiệt độ ... 18 </b>

<b>Hình 2.12. Đồ thị thể hiện giá trị áp suất ... 18 </b>

<b>Hình 2.13. Đồ thị thể hiện giá trị độ ẩm ... 19 </b>

<b>Hình 2.14. Đồ thị thể hiện giá trị hướng gió ... 19 </b>

<b>Hình 2.15. Đồ thị thể hiện giá trị tốc độ gió ... 20 </b>

<b>Hình 2.16. Ma trận tương quan Pearson giữa các biến ... 23 </b>

<b>Hình 2.17. Biểu đồ tương quan Scatter Plot giữa các biến (Phương pháp 1) ... 23 </b>

<b>Hình 2.18. Ma trận tương quan Pearson giữa các biến (Phương pháp 3) ... 24 </b>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>Hình 2.19. Biểu đồ tương quan Scatter Plot giữa các biến (Phương pháp 3) ... 25 </b>

<b>Hình 2.20. Biểu đồ đánh giá giá trị thực tế, dự đoán của BXMT (Phương pháp 1) .. 26 </b>

<b>Hình 2.21. Biểu đồ kiểm tra sai số dư (Phương pháp 1) ... 27 </b>

<b>Hình 2.22. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 1) ... 28 </b>

<b>Hình 2.23. Biểu đồ đánh giá giá trị thực tế, dự đoán của BXMT (Phương pháp 2) .. 29 </b>

<b>Hình 2.24. Biểu đồ kiểm tra sai số dư (Phương pháp 2) ... 30 </b>

<b>Hình 2.25. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 2) ... 31 </b>

<b>Hình 2.26. Biểu đồ đánh giá giá trị thực tế, dự đoán của BXMT (Phương pháp 3) .. 32 </b>

<b>Hình 2.27. Biểu đồ kiểm tra sai số dư (Phương pháp 3) ... 33 </b>

<b>Hình 2.28. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 3) ... 34 </b>

<b>Hình 3.1. Ensemble learning đạt hiệu suất cao nhờ kết hợp nhiều mơ hình ... 35 </b>

<b>Hình 3.2. Mơ hình Bagging ... 37 </b>

<b>Hình 3.3. Mơ hình Boosting ... 37 </b>

<b>Hình 3.4. Mơ hình Gradient Boosting Machine ... 39 </b>

<b>Hình 3.5. Khả năng vượt trội của XGBoost ... 40 </b>

<b>Hình 3.6. Xây dựng, huấn luyện mơ hình XGBoost ... 43 </b>

<b>Hình 3.7. Mơ hình Extra Tree Classifier ... 48 </b>

<b>Hình 3.8. Ma trận tương quan Pearson giữa các biến (XGBoost) ... 52 </b>

<b>Hình 3.9. Biểu đồ áp dụng phương pháp Chi-square đánh giá mức độ tương quan giữa các đặc trưng và biến mục tiêu ... ... 53 </b>

<b>Hình 3.10. Biểu đồ áp dụng mơ hình Extra Tree Classifier so sánh mức độ ảnh hưởng của các đặc trưng ... ... 54 </b>

<b>Hình 3.11. Lựa chọn giá trị đặc trưng Min-max Transformation cho nhiệt độ ... 56 </b>

<b>Hình 3.12. Lựa chọn giá trị đặc trưng Min-max Transformation cho áp suất ... 56 </b>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>Hình 3.13. Lựa chọn giá trị đặc trưng Min-max Transformation cho độ ẩm ... 56 </b>

<b>Hình 3.14. Lựa chọn giá trị đặc trưng Min-max Transformation cho tốc độ gió ... 57 </b>

<b>Hình 3.15. Lựa chọn giá trị đặc trưng Min-Max Transformation cho hướng gió ... 57 </b>

<b>Hình 3.16. Biểu đồ đánh giá giá trị thực tế và dự đốn của BXMT (XGBoost) ... 58 </b>

<b>Hình 3.17. So sánh giá trị 25 mẫu dữ liệu bất kỳ (XGBoost) ... 59 </b>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>DANH MỤC CÁC BẢNG </b>

<b>Bảng 1.1. Bảng so sánh các kỹ thuật ML ... 4 </b>

<b>Bảng 1.2. Hiệu suất các mơ hình ... 6 </b>

<b>Bảng 2.1. Thu thập dữ liệu ... 12 </b>

<b>Bảng 2.2. Kết quả đánh giá (Phương pháp 1) ... 27 </b>

<b>Bảng 2.3. Kết quả đánh giá (Phương pháp 2) ... 30 </b>

<b>Bảng 2.4. Kết quả đánh giá (Phương pháp 3) ... 33 </b>

<b>Bảng 2.5. So sánh và đánh giá các phương pháp phân tích dữ liệu ... 34 </b>

<b>Bảng 3.1. Thông số và phương pháp lựa chọn giá trị đặc trưng ... 55 </b>

<b>Bảng 3.2. Kết quả mơ hình XGBoost ... 58 </b>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>DANH MỤC CÁC TỪ VIẾT TẮT </b>

ANN – Artificial Neural Network Mạng nơ-ron nhân tạo

EIA – Energy Information Administration Cơ quan Thông tin Năng lượng Hoa Kỳ MAE – Mean Absolute Error Trung bình giá trị tuyệt đối của sai số

OLS – Ordinary Least Square Phương pháp bình phương nhỏ nhất R<small>2</small> – The Coefficient of Determination Hệ số xác định

RNN – Recurrent Neural Network Mạng nơ-ron hồi quy LR – Linear Regression Hồi quy tuyến tính

XGBoost – Extreme Gradient Boosting Thuật toán tăng cường độ dốc cấp cao

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Chúng em xin chân thành cảm ơn sự tận tâm của quý Thầy/Cô giảng viên ngành Năng lượng tái tạo và toàn thể giảng viên, Ban giám hiệu Trường Đại học Sư phạm Kỹ thuật TP.HCM. Chúng em cảm ơn sự chỉ dạy của quý Thầy/Cô trong suốt quá trình chúng em học tập tại Nhà trường. Đó là một niềm vinh dự và tự hào khi chúng em được học tập dưới sự hướng dẫn của Thầy/Cô.

Chúng em kính chúc q Thầy/Cơ sức khỏe dồi dào và đạt nhiều thành tựu trong công việc giảng dạy và nghiên cứu. Mong rằng chúng em sẽ có cơ hội tiếp tục học hỏi và mang lại nhiều thành tựu đáng kể cho cộng đồng và xã hội trong tương lai.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>MỤC LỤC </b>

<b>Chương 1. Tổng quan ... 1 </b>

<b>1.1. Lý do chọn đề tài ... 1 </b>

<b>1.2. Mục tiêu của đề tài ... 5 </b>

<b>1.3. Đối tượng nghiên cứu ... 5 </b>

<b>1.4. Phạm vi nghiên cứu ... 5 </b>

<b>1.5. Tình hình nghiên cứu trong và ngoài nước liên quan đến đề tài ... 6 </b>

1.5.1. Tại Việt Nam ... 6

2.1.1. Mơ hình hồi quy tuyến tính đơn giản... 9

2.1.2. Mơ hình hồi quy đa biến ... 10

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

3.1.2. GBM (Gradient Boosting Machine) ... 37

3.2.2.2. SelectKBest Method (Chi square) ... 45

3.2.2.3. Extra Tree Classifier ... 47

3.2.3. Chuẩn hoá dữ liệu (Feature Engineering) bằng phương pháp Min-Max ... 49

<b>3.3. Kết quả đạt được ... 51 </b>

<b>Chương 4. Kết luận và kiến nghị ... 60 </b>

<b>4.1. Kết luận ... 60 </b>

<b>4.2. Kiến nghị ... 60 </b>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<b>CHƯƠNG 1. TỔNG QUAN 1.1. Lý do chọn đề tài </b>

Hiện nay, nhiên liệu hóa thạch (NLHT) chiếm vai trò quan trọng hàng đầu trong hệ thống năng lượng (NL) tồn cầu. Theo ước tính của Cơ quan Thơng tin Năng lượng Hoa Kỳ (Energy Information Administration, EIA), than đá vẫn sẽ chiếm thứ hai trong tổng số các nguồn NL lớn trên thế giới sau dầu mỏ và nhiên liệu lỏng cho đến năm 2030. Từ năm 2030 đến năm 2040, than đá sẽ xuống thứ ba, sau nhiên liệu lỏng và khí tự nhiên [1]. Song song với những mặt lợi ích về kinh tế mà NLHT mang lại, nguồn nhiên liệu này cũng gây ra những tác hại đối với môi trường sống và thể trạng con người [2, 3, 4]. Liên minh nhóm nhà khoa học (Union of Concerned Scientists) đã nêu rõ, quá trình khai thác, vận chuyển và sử dụng NLHT gây ra tác động tiêu cực đáng kể [5].

<b>Hình 1.1. Những tác động của NLHT lên khí hậu, mơi trường và thể trạng con người [2] </b>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Theo thống kê của EIA, mỗi năm tổng tiêu thụ NLHT tương đương với khoảng 11 tỷ tấn dầu. Theo dự báo, nguồn dầu thô sẽ cạn kiệt vào năm 2052, nguồn khí tự nhiên sẽ cạn kiệt vào năm 2060 và than đá sẽ cạn kiệt vào năm 2088 [6]. Trong kịch bản chuyển đổi NL, điện mặt trời (ĐMT) được dự đốn sẽ trở thành nguồn phát điện chính, đóng góp từ 41 đến 96 PWh/năm và cung cấp hơn 25% tổng nhu cầu điện vào năm 2050 [7, 8].

NL được tạo ra từ các nhà máy ĐMT phụ thuộc mật thiết với cường độ bức xạ mặt trời (BXMT) chiếu xuống bề mặt tấm pin NL mặt trời. Trong q trình tích hợp cơng nghệ quang điện (Photovoltaic, PV) vào lưới điện, sự phức tạp của việc quản lý lưới điện đang gia tăng do tính biến thiên liên tục của năng lượng mặt trời (NLMT). Cường độ BXMT dao động với biên độ lớn có thể lên tới hàng trăm W/m<small>2</small>. Mất điện đột ngột do giảm BXMT sẽ làm giảm tính ổn định và chất lượng điện năng của lưới điện cục bộ, gây ra hiệu ứng lan truyền cho các nút điện lân cận trong hệ thống lưới điện thông minh (Smart grid) [9].

Do đó, việc ước tính chính xác BXMT giúp thiết kế hệ thống PV một cách phù hợp, giảm sự phụ thuộc vào việc lưu trữ NL dự phòng lớn và tối thiểu hóa lãng phí NL trong các nhà máy quang điện. Tuy nhiên, giá trị của BXMT bị ảnh hưởng bởi nhiều hiện tượng khí quyển khác nhau. Ngoài ra, việc đo đạc và ghi lại giá trị BXMT không phổ biến ở các nước đang phát triển. Nguyên nhân chủ yếu là do vấn đề kỹ thuật và kinh phí thực hiện.

Có nhiều phương pháp được thực hiện nhằm ước tính giá trị BXMT. Phép đo mặt đất bằng nhật xạ kế (pyranometer, solarimeter) là phương pháp đơn giản và cơ bản nhất để thu thập giá trị BXMT. Nhật xạ kế là loại máy đo bức xạ được lắp đặt phổ biến nhất tại các trạm khí tượng, hiển thị tổng lượng bức xạ mà bề mặt ngang ở mặt đất nhận được. Nếu được hiệu chuẩn tốt, bản ghi nhật xạ kế là ước tính chính xác nhất về giá trị BXMT. Tuy nhiên, nhật xạ kế là một thiết bị cảm biến khá nhạy, cần được bảo trì và hiệu chuẩn liên tục để giữ độ chính xác tối ưu. Bên cạnh đó, chi phí lắp đặt nhật xạ kế cao khiến chúng khơng được lắp đặt rộng rãi [10].

Ngồi phương pháp sử dụng nhật xạ kế, mơ hình thực nghiệm được áp dụng rộng rãi do có quan hệ tốn học đơn giản, tính sẵn có lâu dài và khả thi với các phép đo mặt đất. Nhiều loại mơ hình thực nghiệm khác nhau đã được xây dựng để ước tính BXMT, như mơ hình dựa trên đám mây [10], mơ hình dựa trên nhiệt độ [11, 12, 13], mơ hình dựa trên nhiệt độ và lượng mưa [14], mơ hình dựa trên số giờ nắng [15], mơ hình dựa trên ánh sáng mặt

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

trời [16, 17, 18, 19]. Trong đó, mơ hình dựa trên ánh sáng mặt trời hoạt động hiệu quả hơn so với các mơ hình dựa trên các biến số khí tượng đơn lẻ khác (thời gian nắng, độ che phủ mây, nhiệt độ, áp suất trung bình hằng ngày (P), áp suất hơi nước (Pv), tốc độ gió (W), độ ẩm tương đối (RH) và hơi nước kết tủa,... Nhược điểm của mơ hình thực nghiệm là khơng thể xử lý mối quan hệ phức tạp và phi tuyến tính giữa các biến. Đặc biệt, mơ hình thực nghiệm dự đốn kém chính xác ở những vùng có thời tiết nhiều mây mù, ẩm ướt, nơi mà BXMT chịu ảnh hưởng lớn bởi các đám mây dày trong những ngày mưa [15].

Khác với phương pháp đo BXMT bằng mơ hình thực nghiệm, việc thu thập thông số BXMT từ vệ tinh có thể cung cấp bộ dữ liệu BXMT với độ phân giải không gian, thời gian cao liên tục. Hình ảnh được thiết bị trên vệ tinh ghi lại sau 10 phút (hoặc 15 phút), 30 phút, 60 phút và được chuyển đổi thành giá trị BXMT thông qua các thuật toán chuyển đổi. Tuy nhiên, việc thu thập vệ tinh không thể nắm bắt đầy đủ sự biến thiên của BXMT trong thời gian dài, điều này có thể dẫn đến khả năng dự đoán giá trị BXMT bị hạn chế [20].

Các phương pháp dự đoán cường độ BXMT có những ưu điểm và hạn chế riêng biệt. Trong đó, nghiên cứu về dự đốn BXMT dựa trên phương pháp học máy (Machine Learning, ML) được đánh giá là một phương pháp đầy triển vọng [21, 22, 23, 24].

Nhiều nghiên cứu được tài trợ thực hiện nhằm xây dựng và đánh giá độ chính xác của các phương pháp dự đoán BXMT dựa trên thuật toán ML. Một số thuật toán được đánh giá cao trong việc dự đốn chính xác về cường độ BXMT như mạng nơ-ron nhân tạo (Artificial Neural Network, ANN), mạng nơ-ron hồi quy (Recurrent Neural Network, RNN), mạng nơ-ron tích chập (Convolutional Neural Network, CNN), Long Short Term Memory (LSTM), Support Vector Machine (SVM),…[25]. Tuy nhiên, mỗi thuật tốn đều có những ưu và nhược điểm riêng [21]. Ngoài ra, nhiều bộ dữ liệu chỉ phù hợp với một số phương pháp dự đoán và khơng tối ưu cho các mơ hình khác. Vì vậy, đề tài này được thực hiện nhằm đánh giá độ chính xác của thuật tốn hồi quy tuyến tính (Linear Regression, LR) và thuật toán tăng cường độ dốc cấp cao (Extreme Gradient Boosting, XGBoost) khi xử lý bộ dữ liệu có sẵn. Đồng thời, đề tài so sánh kết quả của hai thuật tốn dự đốn để tìm ra thuật tốn tối ưu hơn.

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<b>Hình 1.3. Phân nhóm các thuật tốn ML [21] Bảng 1.1. Bảng so sánh các kỹ thuật ML [21]</b>

(Logistic Regression)

Dễ thực hiện, hoạt động tốt với dữ liệu nhỏ

Chỉ áp dụng cho bài tốn phân loại

Dự đốn tình trạng mất điện, phân loại sự kiện thời tiết

Học tập theo nhóm (Ensemble learning)

Hiệu suất cải thiện nhờ kết hợp nhiều mơ hình

Tốn kém chi phí tính tốn, cần xây dựng từng bước

Dự báo năng lượng tái tạo (NLTT) nhận dạng hình ảnh

Cây quyết định (Decision Trees)

Xử lý bài toán phân loại và biến liên tục

Dễ xảy ra hiện tượng overfitting

Dự đốn bảo trì, tài chính

Rừng ngẫu nhiên (Random Forest, RF)

Độ chính xác cao, ít xảy ra hiện tượng overfitting

Khó giải thích Phân loại hình ảnh

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

CNN Phân tích hình ảnh đạt hiệu quả cao

Cần khối lượng dữ liệu lớn, thời gian xử lý dữ liệu

Phân loại hình ảnh, dự đốn nhu cầu NL

ANN

Xử lý dữ liệu lớn và các mối quan hệ phi tuyến tính

Khó giải thích

Dự đốn tài ngun NL, nhận dạng hình ảnh, giọng nói

RNN Xử lý tốt dữ liệu chuỗi thời gian

Thời gian xử lý dữ liệu lâu

Dự báo NL, nhận dạng giọng nói

LSTM Xử lý tốt dữ liệu chuỗi thời gian

Cần xây dựng từng bước

Nhận dạng giọng nói, dự báo tải và giá NL

<b>1.2. Mục tiêu của đề tài </b>

Xây dựng và huấn luyện 2 mơ hình dự đoán BXMT dựa trên thuật tốn LR và XGBoost. Từ đó đánh giá độ chính xác của 2 thuật tốn này dựa trên 4 phương pháp đánh giá: sai số bình phương trung bình (Mean Squared Error, MSE), lỗi trung bình bình phương gốc (Root Mean Square Error, RMSE), trung bình giá trị tuyệt đối của sai số (Mean Absolute Error, MAE) và hệ số xác định (The Coefficient of Determination, R<small>2</small>).Kết quả chỉ ra rằng mơ hình sử dụng thuật tốn XGBoost cho ra kết quả dự đốn (R<small>2</small> = 0.93) chuẩn xác hơn mơ hình sử dụng thuật tốn LR (R<small>2</small> = 0.57).

Có thể nhận định, mỗi bộ dữ liệu tương thích với các phương pháp dự đốn khác nhau. Vì thế cần lựa chọn và xây dựng nhiều phương pháp dự đoán khác nhau để đưa ra mơ hình tối ưu nhất, tương thích với bộ dữ liệu.

<b>1.3. Đối tượng nghiên cứu </b>

Đề tài xây dựng mơ hình dự đốn BXMT tại thủ đơ Moscow, Liên bang Nga. Trong đó, biến đầu vào là giá trị BXMT, nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió, Unix time, Date, Thời gian, Thời gian MT mọc, Thời gian MT lặn và biến đầu ra là giá trị BXMT.

<b>1.4. Phạm vi nghiên cứu </b>

Bộ dữ liệu có sẵn từ Kaggle.com [26].

Đề tài sử dụng phần mềm Python làm công cụ lập trình và xây dựng 2 thuật tốn.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<b>1.5. Tình hình nghiên cứu trong và ngoài nước liên quan đến đề tài </b>

<i><b>1.5.1. Tại Việt Nam </b></i>

Nhóm sinh viên Nguyễn Tuấn Anh, Vũ Xuân Sơn Hữu, Phan Văn Long, Nguyễn Trọng Thành, Nguyễn Đăng Dương (Khoa Kỹ thuật Điện, Trường Đại học Bách khoa Hà Nội) đã áp dụng phương pháp DL nghiên cứu nên một phần mềm dự báo BXMT. Phần mềm này bao gồm các mơ hình dự báo đa dạng và có khả năng lưu trữ kết quả cho các lần xem tiếp theo. Đề tài “Xây dựng ứng dụng dự báo BXMT dựa trên phương pháp DL” của nhóm sinh viên đạt giải nhì trong cuộc thi “Giải thưởng khoa học và công nghệ dành cho sinh viên trong các cơ sở giáo dục đại học năm 2021” [27].

TS. Nguyễn Quang Ninh và nhóm nghiên cứu Viện Khoa học Năng lượng [28] đã xây dựng cơng cụ dự đốn cơng suất phát đầu ra của nhà máy ĐMT ở Việt Nam dựa trên thuật toán LSTM. “Nghiên cứu phương pháp và xây dựng phần mềm dự báo công suất phát ngắn hạn của nhà máy ĐMT ứng dụng trí tuệ nhân tạo” được Hội đồng nghiệm thu cấp Viện Hàn lâm Khoa học và Công nghệ Việt Nam xếp loại A và được hy vọng sẽ trở thành công cụ hỗ trợ quan trọng cho các chủ sở hữu nhà máy ĐMT.

<i><b>1.5.2. Trên thế giới </b></i>

Nhiều nghiên cứu được triển khai nhằm so sánh độ chính xác giữa các thuật toán. Bharat Girdhani và Meena Agrawal [29] tiến hành nghiên cứu sử dụng 4 kỹ thuật ML: LR, SVM, RF và ANN để dự đoán BXMT cho 4 bang của Ấn Độ (Bhadla – Rajasthan, Rewa – Madhyabang, Amguri – Assam và Shillong – Meghalaya). Kết quả dự đoán được đánh giá dựa trên 7 chỉ số đánh giá (MBE, MAE, MSE, RMSE, Max Error, R<small>2</small> và MAPE). Kết quả cho thấy địa điểm nằm ở Bhadla – Rajasthan có tiềm năng rất lớn về BXMT và ANN là mơ hình dự đốn BXMT hoạt động tốt nhất.

<b>Bảng 1.2. Hiệu suất các mơ hình </b>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Md Shafiul Alam và cộng sự [30] xây dựng mô hình dự đốn BXMT ở Bangladesh dựa trên các thuật toán kết hợp bao gồm hồi quy Adaboost (Adaboost Regression), hồi quy tăng cường độ dốc (Gradient Boosting Regression), hồi quy rừng ngẫu nhiên (Random Forest Regression) và hồi quy đóng bao (Bagging Regression). Dữ liệu khí tượng được thu thập từ 32 trạm bao gồm nhiệt độ tối đa, nhiệt độ tối thiểu, tổng lượng mưa, độ ẩm, ánh nắng, tốc độ gió, độ che phủ của mây và bức xạ. Kết quả cho thấy hồi quy tăng cường độ dốc mang lại khả năng dự đốn tốt nhất (R<small>2</small> = 0.9995).

<b>Hình 1.4. Cấu trúc của thuật toán ML kết hợp được đề xuất [30] </b>

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>1.6. Những đóng góp của đề tài </b>

Dựa vào bộ dữ liệu có sẵn, đề tài xây dựng mơ hình XGBoost để dự đốn BXMT. XGBoost đã được chứng minh là một phương pháp hữu hiệu trong việc xử lý dữ liệu lớn và cho ra kết quả dự đốn chính xác. Trong q trình nghiên cứu tiền xử lý dữ liệu, nhận thấy các biến có mối quan hệ tuyến tính. Do đó, đề tài xây dựng thêm mơ hình LR . Mơ hình này được xây dựng nhằm so sánh và đánh giá hiệu suất với mơ hình XGBoost.

Từ 2 mơ hình dự đốn của đề tài, có thể tiến hành phân tích, rút kinh nghiệm và cải thiện cho việc xây dựng các mơ hình dự đốn tương tự (khi các thơng số đầu vào có thể thay đổi). Đây là nền tảng cho việc phát triển hệ thống dự đoán BXMT với độ chính xác cao hơn, dự đốn được nhiều yếu tố ảnh hưởng đến công suất phát của hệ thống ĐMT nhằm nâng cao hiệu suất, giảm chi phí sản xuất.

<b>1.7. Những hạn chế của đề tài </b>

Do thời gian thực hiện đề tài có giới hạn, số lượng mơ hình được sử dụng trong đề tài còn hạn chế. Đề tài chỉ ở mức độ xây dựng các mơ hình riêng lẻ, chưa xây dựng các mơ hình lai, kết hợp nhiều thuật tốn của học máy nhằm tăng độ chính xác của mơ hình dự đốn. Ngồi ra, độ chính xác của hai mơ hình dự đoán chưa thật sự đạt giá trị tối ưu.

Bộ dữ liệu được sử dụng trong đề tài là bộ dữ liệu có sẵn và đã được chia sẻ cơng khai miễn phí đối với mọi người dùng. Đây cũng là một trong những hạn chế của đề tài khi chưa thu thập và sử dụng các dữ liệu hồn tồn mới.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<b>CHƯƠNG 2. DỰ ĐỐN CƯỜNG ĐỘ BỨC XẠ MẶT TRỜI DỰA TRÊN THUẬT TOÁN HỒI QUY TUYẾN TÍNH </b>

<b>2.1. Cơ sở lý thuyết </b>

<i><b>2.1.1. Mơ hình hồi quy tuyến tính đơn giản </b></i>

Hồi quy tuyến tính (Linear Regression, LR) là thuật tốn học máy có giám sát phổ biến trong mơ hình dự đốn. Mục tiêu của LR là xác định một đường hồi quy (đường tuyến tính) phù hợp nhất để mơ hình hóa mối quan hệ giữa các biến phụ thuộc và các biến độc lập dựa trên bộ dữ liệu huấn luyện.

Mơ hình LR đơn giản có dạng:

𝑦<sub>𝑖</sub> = 𝛽<sub>0</sub>+ 𝛽<sub>1</sub>𝑥<sub>𝑖</sub> + 𝑒 Trong đó:

● 𝑦<sub>𝑖</sub>: giá trị biến phụ thuộc 𝑦 ● 𝑥<sub>𝑖</sub>: giá trị biến độc lập 𝑥

● 𝑒: sai số ngẫu nhiên hay còn gọi là phần dư ● <small>𝛽</small><sub>0</sub>: tung độ gốc thuộc đường hồi quy tổng thể ● <small>𝛽</small><sub>1</sub>: độ dốc thuộc đường hồi quy tổng thể

Có thể tính tốn các thơng số (<small>𝛽</small><sub>0</sub>, <small>𝛽</small><sub>1</sub>) của phương trình dựa trên số liệu của các mẫu ngẫu nhiên. Dựa vào số liệu của mẫu, tìm được phương trình LR của mẫu:

<small>̂</small>= 𝛽<sup>̂</sup><sub>0</sub>+ 𝛽<sup>̂</sup><sub>1</sub> 𝑥<sub>𝑖</sub>+ 𝑒 Trong đó:

● 𝑦<small>̂</small><sub>𝑖</sub>: dự đốn của giá trị trung bình của 𝑦 đối với biến 𝑥 đã biết ● <small>𝛽</small><sup>̂</sup><sub>0</sub>: dự đoán của <small>𝛽</small><sub>0</sub>

● <small>𝛽</small><sup>̂</sup><sub>1</sub>: dự đoán của <small>𝛽</small><sub>1</sub>

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

<b>Hình 2.1. Hàm hồi quy tuyến tính </b>

<i><b>2.1.2. Mơ hình hồi quy </b></i>

Hồi quy nghĩa là liên hệ biến phụ thuộc 𝑦 cho trước với nhiều biến độc lập 𝑥<sub>1</sub>, 𝑥<sub>2</sub>, 𝑥<sub>3</sub>, … , 𝑥<sub>𝑘</sub>

Mơ hình LR tổng quát:

𝑦<sub>𝑖</sub> = 𝛽<sub>0</sub>+ 𝛽<sub>1</sub>𝑥<sub>1𝑖</sub> + 𝛽<sub>2</sub>𝑥<sub>2𝑖</sub> + ⋯ + 𝛽<sub>𝑘</sub>𝑥<sub>𝑘𝑖</sub> + 𝑒 Trong đó:

● <small>𝛽</small><sub>0</sub>: tung độ gốc của đường hồi quy ● <small>𝛽</small><sub>𝑗</sub>: độ dốc của đường hồi quy ● 𝑒: phần dư

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Hàm hồi quy mẫu tổng quát: 𝑦<sub>𝑖</sub>

𝑒 = 𝑦<sub>𝑖</sub>− 𝑦̂ <sub>𝑖</sub>Trong đó

● 𝑒: phần dư hay còn gọi là sai số ngẫu nhiên ● 𝑦<sub>𝑖</sub>: giá trị của biến phụ thuộc 𝑦

● 𝑦<small>̂</small><sub>𝑖</sub>: giá trị hàm hồi quy mẫu

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Do đó, cực tiểu hố <small>𝛴</small>(𝑦<sub>𝑖</sub>− 𝑦<small>̂</small><sub>𝑖</sub>)<sup>2</sup> sẽ tương ứng với cực tiểu <small>𝛴</small>(𝑒<sub>𝑖</sub>)<sup>2</sup>.

<b>Bảng 2.1. Thu thập dữ liệu </b>

Thông số và đơn vị

BXMT (W/m<small>2</small>), nhiệt độ (° F), áp suất (inHg), độ ẩm (%), hướng gió (Degrees), tốc độ gió (Miles/h), Unix time (giây), Date (Ngày/Tháng/Năm Giờ/phút/giây), Thời gian (Giờ/phút/giây), Thời gian MT mọc (Giờ/phút/giây), Thời gian MT lặn (Giờ/phút/giây)

Số lượng mẫu của một thông số 32686

<i><b>Trực quan hóa giá trị đặc trưng </b></i>

Ở thuật tốn LR, đề tài chỉ chú trọng vào 6 thơng số: BXMT, nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió. Những thơng số này được biểu diễn lần lượt bằng biểu đồ. Trong đó, trục tung 𝑥 thể hiện số lượng giá trị, biết mỗi thông số có tổng số giá trị

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

là 32686. Trục hồnh 𝑦 thể hiện giá trị của thơng số: W/m<small>2</small> (BXMT), ° F (nhiệt độ), inHg (áp suất), % (độ ẩm), Degrees (hướng gió) và Miles/h (tốc độ gió).

<b>Hình 2.3. Biểu đồ biểu diễn giá trị BXMT. Giá trị tập trung 0 W/m</b><sup>2</sup> – 62.5 W/m<sup>2</sup>

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

<b>Hình 2.5. Biểu đồ biểu diễn giá trị áp suất, trong đó các giá trị dao động khơng đáng </b>

kể

<b>Hình 2.6. Biểu đồ biểu diễn giá trị độ ẩm</b>

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

<b>Hình 2.7. Biểu đồ biểu diễn giá trị hướng gió. Giá trị tập trung 130° – 200°</b>

<b>Hình 2.8. Biểu đồ biểu diễn giá trị tốc độ gió </b>

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

<i><b>2.2.2. Phân tích dữ liệu </b></i>

<b>Hình 2.9. Xây dựng, huấn luyện mơ hình LR </b>

Đề tài sử dụng 3 phương pháp phân tích dữ liệu nhằm tìm được phương pháp tương thích cho mơ hình.

<b>⮚ Phương pháp 1: Sử dụng tồn bộ dữ liệu </b>

⮚ Phương pháp 2: Sử dụng dữ liệu trong thời gian hoạt động của mặt trời 6h00 – 18h00. Sau khi phân tích, 16396 giá trị được lọc và sử dụng từ 32686 giá trị gốc. ⮚ Phương pháp 3: Sử dụng giá trị trung bình của các thông số

Ở phương pháp này, đề tài tính giá trị trung bình hằng ngày của BXMT và giá trị tối thiểu – tối đa trung bình hàng ngày của các thơng số cịn lại trong khoảng thời

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

gian 6h00 – 18h00 [31]. Như vậy, bộ dữ liệu có 118 giá trị/thơng số, tương ứng 1 giá trị/ngày.

Cơng thức tính giá trị trung bình hàng ngày của BXMT: 𝑦<sub>𝑛</sub> = 𝑦̅

Trong đó: 𝑦<sub>𝑛</sub>: bộ dữ liệu đã được chuẩn hóa 𝑦: bộ dữ liệu quan sát hiện tại

Công thức tính giá trị tối thiểu – tối đa trung bình hàng ngày của nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió:

𝑥<sub>𝑛</sub> =<sup>𝑥</sup><sup>𝑚𝑖𝑛</sup> <sup>+ 𝑥</sup><sup>𝑚𝑎𝑥</sup>2Trong đó:

𝑥<sub>𝑚𝑎𝑥</sub>: giá trị cao nhất trong bộ dữ liệu quan sát hiện tại 𝑥<sub>𝑚𝑖𝑛</sub>: giá trị thấp nhất trong bộ dữ liệu quan sát hiện tại

<b>Hình 2.10. Đồ thị thể hiện giá trị BXMT </b>

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

<b>Hình 2.11. Đồ thị thể hiện giá trị nhiệt độ </b>

<b>Hình 2.12. Đồ thị thể hiện giá trị áp suất </b>

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

<b>Hình 2.13. Đồ thị thể hiện giá trị độ ẩm </b>

<b>Hình 2.14. Đồ thị thể hiện giá trị hướng gió </b>

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

<b>Hình 2.15. Đồ thị thể hiện giá trị tốc độ gió </b>

<i><b>Đánh giá sai số </b></i>

<i><b>a) Tiêu chí dựa trên sai số tuyệt đối </b></i>

Cơng thức tính trung bình giá trị tuyệt đối của sai số: 𝑀𝐴𝐸 = <sup>1</sup>

𝑛∑|𝑦<sub>𝑖</sub>− 𝑦̂|<sub>𝑖</sub>

<i><b>b) Tiêu chí dựa vào bình phương sai số </b></i>

Cơng thức tính sai số bình phương trung bình: 𝑀𝑆𝐸 = <sup>1</sup>

𝑛∑(𝑦<sub>𝑖</sub>− 𝑦̂)<sub>𝑖</sub> <small>2𝑛</small>

Cơng thức tính sai số bình phương trung bình gốc:

𝑅𝑀𝑆𝐸 = √<sup>1</sup>

𝑛∑(𝑦<sub>𝑖</sub> − 𝑦̂)<sub>𝑖</sub> <small>2𝑛</small>

<small>𝑖=1</small>

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

<i><b>c) Tiêu chí dựa trên sai số tương đối </b></i>

𝑅<sup>2</sup> ≅ 0 kết quả của mơ hình khơng đạt yêu cầu.

<i><b>Kiểm tra mối tương quan giữa các biến </b></i>

⮚ Phương pháp 1

Hệ số tương quan Pearson biểu thị mức độ tương thích giữa các cặp biến. Hình 2.16 thể hiện mối tương thích giữa 6 cặp biến: BXMT – nhiệt độ, BXMT – áp suất, BXMT – độ ẩm, BXMT – hướng gió và BXMT – tốc độ gió.

Cơng thức tính hệ số tương quan Pearson:

𝑟 = <sup>∑</sup><sup>𝑛</sup><sub>𝑖=1</sub>(𝑥<sub>𝑖</sub> − x̅)(𝑦<sub>𝑖</sub>− y̅)√∑<sup>𝑛</sup> (𝑥<sub>𝑖</sub> − x̅)<small>2</small>

<small>𝑖=1</small> ∑<sup>𝑛</sup> (𝑦<sub>𝑖</sub> − y̅)<small>2𝑖=1</small>

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

Trong đó:

● 𝑟: hệ số tương quan Pearson

● 𝑥<sub>𝑖</sub>, 𝑦<sub>𝑖</sub>: giá trị thực của biến 𝑥, 𝑦 tại quan sát thứ 𝑖 ● 𝑥, 𝑦: giá trị trung bình của biến 𝑥, 𝑦

● <small>𝛴</small>: ký hiệu tổng của tất cả các quan sát −1 ≤ 𝑟 ≤ 1

𝑟 ≅ –1 hoặc r≅1 biểu thị sự tương quan mạnh giữa 2 biến được xét.

𝑟 = −1: thể hiện mối tương quan âm hoàn toàn (cực nghịch). Khi một biến giảm thì biến cịn lại tăng và ngược lại.

𝑟 = 1: thể hiện mối tương quan dương hoàn toàn (cực thuận). Khi một biến giảm thì biến cịn lại giảm đồng thời và ngược lại.

𝑟 ≅ 0: cho thấy mối tương quan yếu hoặc khơng có mối tương quan tuyến tính giữa 2 biến được xét.

Quan sát Hình 2.17, có thể rút ra nhận xét, có mối tương quan mạnh giữa BXMT và nhiệt độ (r = 0.73). Khi nhiệt độ tăng, BXMT tăng và ngược lại. Trong khi đó, mối tương quan giữa BXMT và độ ẩm, hướng gió được đánh giá là cực nghịch (r = – 0.23 cho cả 2 mối tương quan). Mối tương quan giữa BXMT và áp suất, giữa BXMT và tốc độ gió là mối tương quan yếu (r = 0.12, r = 0.074).

Ngoài sử dụng biểu đồ hệ số tương quan Pearson, đề tài còn sử dụng biểu đồ phân tán (Scatter Plot).

</div>

×