Tải bản đầy đủ (.pdf) (87 trang)

Nhóm 7 đồ án khoa học dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.98 MB, 87 trang )

<span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>BẢNG PHÂN CÔNG CÁC THÀNH VIÊN ... 10 </b>

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI

1.2 Giới thiệu đề tài: ... 14

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG <b>PHÁP SỬ DỤNG ... 15 </b>

2.1 Các phương pháp excel dùng để khai phá dữ liệu trong học phần: ... 15

2.1.1 Phương pháp thống kê mơ tả: ... 15

2.1.2 Phương pháp phân tích dự báo ... 22

2.1.3 Phương pháp phân tích tối ưu ... 29

2.4.3 Các phương pháp đánh giá phân cụm dữ liệu ... 61

<b>Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ ... 62 </b>

3.1 Phân tích dữ liệu ... 62 3.1.1. Ti n x lý d li u ... 62 ề ử ữ ệ

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH ... 85 </b>

<b>KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ... 86 </b>

<b>TÀI LIỆU THAM KHẢO ... 87 </b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>DANH M C HÌNH NH. </b>ỤẢ

<i>Hình 2.1: H p tho i Descriptive Statistics ... 15</i>ộ ạ

<i>Hình 2.2: Giao di n Descriptive Statistics ... 16</i>ệ

<i>Hình 2.3: Th ng kê mô t s </i>ố <i>ả ố lượng smartphone Samsung Galaxy S23 được bán trong tháng 3 c a c</i>ủ ửa hàng điệ<i>n tho i ABC ... 16</i>ạ

<i>Hình 2.4: </i>Kết quả ví dụ thống kê mơ tả<i> ... 17</i>

<i>Hình 2.5: Th ng kê t ng s ti n m</i>ố ổ ố ề ỗi nhân viên bán đượ<i>c trong tháng 3 c a c a hàng </i>ủ ử <i>điện thoại ABC ... 18</i>

<i>Hình 2.6: Hình 6: </i>Kết quả ví dụ<i> ... 18</i>

<i>Hình 2.7: H p tho i Consolidate ... 19</i>ộ ạ <i>Hình 2.8: </i>Giao diện Consolidate<i> ... 19</i>

<i>Hình 2.9: Th ng kê mơ t doanh thu 3 chi nhánh c a c</i>ố ả ủ ửa hàng điệ<i>n tho i ABC ... 20</i>ạ <i>Hình 2.10: </i>Kết quả ví dụ<i> ... 20</i>

<i>Hình 2.11: H p tho i Pivot Table ... 21</i>ộ ạ <i>Hình 2.12: </i>Thống kê bằng Pivot Table<i> ... 21</i>

<i>Hình 2.13: </i>Kết quả ví dụ<i> ... 22</i>

<i>Hình 2.14: </i>Lệnh<i> Data Analyst ... 22</i>

<i>Hình 2.15: L nh Moving Average ... 22</i>ệ <i>Hình 2.16: Khai báo các thơng s ... 23</i>ố <i>Hình 2.17: K t qu sau khi th</i>ế ả <i>ực hiện ... 23</i>

<i>Hình 2.18: </i>Lệnh<i> Exponential Smoothing ... 24</i>

<i>Hình 2.19: Khai báo các thơng s ... 24</i>ố <i>Hình 2.20: K t qu sau khi th</i>ế ả <i>ực hiện ... 25</i>

<i>Hình 2.21: V</i>ùng đị<i>a ch ch a l</i>ỉ ứ ần lượ<i>t X và Y ... 25</i>

<i>Hình 2.22: </i>Đồ thị dạng Scatter<i> ... 26</i>

<i>Hình 2.23: </i>Đồ ị<i> th sau khi Add Trendline ... 26</i>

<i>Hình 2.24: Ch n Regression ... 27</i>ọ <i>Hình 2.25: Khai báo các thơng s ... 28</i>ố <i>Hình 2.26: K t qu sau khi th</i>ế ả <i>ực hiện ... 28</i>

<i>Hình 2.27: B ng s li u ... 29</i>ả ố ệ <i>Hình 2.28: Thi t l p b ng tính ... 29</i>ế ậ ả <i>Hình 2.29: H p tho i Solver Parameters ... 30</i>ộ ạ <i>Hình 2.30: </i>Đưa các ràng buộ<i>c vào Add Constraint ... 30</i>

<i>Hình 2.31: H p tho i Solver Results ... 31</i>ộ ạ <i>Hình 2.32: K t qu ... 31</i>ế ả <i>Hình 2.33: Báo cáo kèm l i gi i ... 32</i>ờ ả <i>Hình 2.34: Các ti n ích trong nhóm Data ... 33</i>ệ <i>Hình 2.35: Giao di n ti</i>ệ ện ích “File”<i> ... 34</i>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<i>Hình 2. 36: Giao di n v ti</i>ệ ề ện ích “Dataset”<i> ... 35</i>

<i>Hình 2.37: Giao di n c a ti</i>ệ ủ ện ích “Data Table”<i> ... 36</i>

<i>Hình 2.38: Giao di n ti</i>ệ ện ích “Paint Data”<i> ... 37</i>

<i>Hình 2.39: Giao di n c a ti</i>ệ ủ ện ích “Data Sampler”<i> ... 38</i>

<i>Hình 2.40: Giao di n c a ti</i>ệ ủ ện ích “Preprocess”<i> ... 39</i>

<i>Hình 2.41: Các ti n ích c a nhóm Visualize ... 40</i>ệ ủ <i>Hình 2.42: Giao di n c a Tree Viewer ... 41</i>ệ ủ <i>Hình 2.43: Giao di n c a ti n ích Scatter Plot ... 42</i>ệ ủ ệ

<i>Hình 2.55: SVM (Support Vector Machine) ... 52</i>

<i>Hình 2.56: Các phương pháp đánh giá mơ hình phân lớp ... 53</i>

<i>Hình 2.57: Ma tr n nh</i>ậ <i>ầm lẫn ... 54</i>

<i>Hình 2.58: ROC ... 56</i>

<i>Hình 2.59: AUC ... 56</i>

<i>Hình 2.60: D li</i>ữ ệu trước và sau khi đượ<i>c phân c m ... 57</i>ụ <i>Hình 2.61: Mơ hình q trình phân c m d li u ... 58</i>ụ ữ ệ <i>Hình 2.62: </i>Phương pháp Agnes<i> ... 59</i>

<i>Hình 2.63: </i>Phương pháp Diana<i> ... 59</i>

<i>Hình 3.1: Giao diện các bước tiền x lý d li u ... 62</i>ử ữ ệ <i>Hình 3.2: Giao diện n p d li u vào ph n m m Orange ... 62</i>ạ ữ ệ ầ ề <i>Hình 3.3: D li u trong Data Table ... 63</i>ữ ệ <i>Hình 3.4: </i>Biểu đồ tỷ lệ các loại kho<i> ... 65</i>

<i>Hình 3.5: Biểu đồ ể ệ ỷ ệ các phương thứ th hi n t lc giao hàng ... 66</i>

<i>Hình 3.6: Bi</i>ểu đồ ể ệ ỷ ệ ố<i> th hi n t l s cuộc gọi chăm sóc khách hàng ... 67</i>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<i>Hình 3.12: Bi</i>ểu đồ ể ệ ỷ ệ<i> th hi n t l các m c khuy n mãi c</i>ứ ế ủa đơn hàng<i> ... 73</i>

<i>Hình 3.13: Bi</i>ểu đồ ể ệ ỷ ệ<i> th hi n t l theo kh</i>ối lượ<i>ng c</i>ủa đơn hàng<i> ... 74</i>

<i>Hình 3.14: </i>Lấy mẫu từ dữ liệu<i> ... 75</i>

<i>Hình 3.15: </i>Mẫu dữ liệu huấn luyện<i> ... 75</i>

<i>Hình 3.16: </i>Lấy mẫu từ dữ liệu<i> ... 76</i>

<i>Hình 3.17: </i>Mẫu dữ liệu huấn luyện<i> ... 76</i>

<i>Hình 3.18: </i>Tập dữ liệu huấn luyện<i> ... 77</i>

<i>Hình 3.19: </i>Mơ hình đánh giá các phương pháp dự<i> báo ... 78</i>

<i>Hình 3.20: </i>Bảng kết quả từ Test and Score<i> ... 78</i>

<i>Hình 3.21: </i>Mơ hình ma trận nhầm lẫn<i> ... 79</i>

<i>Hình 3.22: K t qu ma tr n nh m l n c</i>ế ả ậ ầ ẫ ủa phương pháp hồ<i>i quy Logistic ... 79</i>

<i>Hình 3.23: K t qu ma tr n nh m l n c</i>ế ả ậ ầ ẫ ủa phương pháp Tree<i> ... 80</i>

<i>Hình 3.24: K t qu ma tr n nh m l n c</i>ế ả ậ ầ ẫ ủa phương pháp SVM<i> ... 80</i>

<i>Hình 3.25: </i>Tập dữ liệu thử nghiệm<i> ... 81</i>

<i>Hình 3.26: </i>Giao diện Select Colunms<i> ... 82</i>

<i>Hình 3.27: </i>Lấy 100 mẫu dữ liệu để dự báo<i> ... 83</i>

<i>Hình 3.28: </i>Mơ hình dự báo 100 mẫu dữ liệu<i> ... 83</i>

<i>Hình 3.29: </i>Kết quả dự báo 100 mẫu dữ liệu<i> ... 84</i>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>DANH M C B NG BI U. </b>ỤẢỂ

<i>Bảng 2.1: Ưu và nhược điểm của mơ hình phân l p Tree ... 52</i>ớ

<i>Bảng 2.2: Ưu và nhược điểm của mơ hình phân l p SVM ... 53</i>ớ

<i>Bảng 2.3</i>: Các phương pháp đánh giá mơ hình phân lớ<i>p ... 54Bảng 3.10: B ng t l các m</i>ả ỷ ệ <i>ức khuyến mãi c</i>ủa đơn hàng<i> ... 72</i>

<i>Bảng 3.11: B ng t l theo kh</i>ả ỷ ệ ối lượ<i>ng c</i>ủa đơn hàng<i> ... 73</i>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>DANH M C T VI T T T. </b>ỤỪẾẮ

SVM: Support vector machine ROC: Receiver Operating Characteristic AUC: Receiver Operating Characteristic

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>Lời mở đầu. </b>

Trong thời đại thông tin và kỹ thuật số, dữ liệu là một tài nguyên quan trọng và trở thành một yếu tố chính trong q trình đưa ra quyết định trong khắp mọi lĩnh vực. Nhưng để hiểu rõ hơn về dữ liệu và để chuyển đổi nó thành thơng tin hữu ích, chúng ta cần sử dụng khoa học dữ liệu. Khoa học dữ liệu không chỉ đơn thuần là sử dụng các công cụ và phương pháp để xử lý dữ liệu, mà còn là quá trình khám phá và khai thác tri thức từ dữ liệu để giải quyết các vấn đề thực tiễn. Với việc ứng dụng các kỹ thuật và công nghệ mới nhất, khoa học dữ liệu có thể đem lại những giải pháp đột phá trong các lĩnh vực như y tế, tài chính, marketing và nhiều lĩnh vực khác.

Trong đồ án này, chúng ta sẽ tìm hiểu về các kỹ thuật và cơng cụ trong khoa học dữ liệu, áp dụng chúng để giải quyết các vấn đề thực tiễn và khám phá tri thức từ dữ liệu. Chúng ta sẽ tìm hiểu về các cơng cụ phân tích dữ liệu và xử lý bộ dữ liệu lớn, các thuật toán học máy và khai phá dữ liệu, cũng như các phương pháp trực quan hóa dữ liệu để hiểu rõ hơn về những thông tin ẩn trong dữ liệu.

Chúng em xin đặc biệt gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - TS. Nguyễn Quốc Hùng đã tận tâm giảng dạy cho chúng em những kiến thức đúng đắn về môn học trong suốt thời gian vừa qua. Lượng kiến thức này sẽ là tiền đề và hành trang cho toàn thể sinh viên nói chung và từng cá nhân nói riêng trên con đường sau này.

Một lần nữa xin chân thành cảm ơn thầy!

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>BẢNG PHÂN CÔNG CÁC THÀNH VIÊN </b>

STT Họ và tên Mã số sinh viên Phân công Mức độ

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI </b>

<b>THIỆU ĐỀ TÀI </b>

<b>1.1 Giới thiệu về khoa học dữ liệu: 1.1.1 Dữ liệu là gì ? </b>

Dữ liệu là một tập hợp các thông tin hoặc sự thực về các sự kiện, hiện tượng hoặc đối tượng được thu thập, ghi lại và lưu trữ để sử dụng trong quá trình phân tích, xử lý hoặc truyền tải. Dữ liệu có thể là các con số, chữ cái, hình ảnh, âm thanh hoặc bất kỳ loại thông tin nào khác có thể được biểu diễn và xử lý bởi máy tính. Trong khoa học dữ liệu, dữ liệu được dùng như một cách biểu diễn hình thức hố của thơng tin về các sự kiện, hiện tượng thích ứng với các yêu cầu truyền nhận, thể hiện và xử lí bằng máy tính. Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau, bao gồm các cuộc khảo sát, thí nghiệm, hệ thống cảm biến, hồ sơ bệnh nhân, giao dịch tài chính, dữ liệu truyền thông xã hội và nhiều nguồn khác. Dữ liệu có thể được tổ chức theo cấu trúc hoặc khơng có cấu trúc, tùy thuộc vào cách nó được sắp xếp và lưu trữ.

<b>1.1.2 Tổng quan về khoa học dữ liệu: </b>

Khoa học dữ liệu là khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. Khoa học dữ liệu (Data science) gồm ba phần chính: tạo và quản trị dữ liệu, phân tích dữ liệu, và áp dụng kết quả phân tích thành những hành động có giá trị. Việc phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống kê tốn học - Mathematical Statistics), cơng nghệ thông tin (máy học Machine Learning) và tri thức - của lĩnh vực ứng dụng cụ thể.

Quy trình phân tích khoa học dữ liệu gồm 5 bước:

<i>Bước 1: Đặt vấn đề và thu thập dữ liệu </i>

- Đầu tiên bạn cần xác định vấn đề hoặc câu hỏi mà bạn muốn giải quyết thông qua dữ liệu.

- Giai đoạn này tập trung vào việc thu thập dữ liệu từ các nguồn khác nhau, bao gồm cơ sở dữ liệu, tệp tin, hệ thống cảm biến, mạng xã hội và các nguồn khác. Dữ liệu có thể được thu thập bằng cách tiến hành cuộc khảo sát, sử dụng hệ thống cảm biến, thu thập dữ liệu trực tuyến hoặc thông qua các nguồn dữ liệu công cộng.

<i>Bước 2: Tiền xử lý dữ liệu </i>

- Kiểm tra và xử lý dữ liệu nhiễu, dữ liệu thiếu hoặc khơng chính xác. - Chuẩn hóa định dạng dữ liệu và đồng nhất các biến trong tập dữ liệu.

<i>Bước 3: Chuyển đổi dữ liệu </i>

- Trích xuất các đặc trưng (feature extraction) hoặc tạo ra các đặc trưng mới từ dữ liệu gốc.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

- Áp dụng các phép biến đổi hoặc mã hóa dữ liệu nếu cần thiết.

<i>Bước 4: Phân tích dữ liệu </i>

- Áp dụng các phương pháp và mơ hình phân tích dữ liệu để tìm kiếm mẫu, tương quan hoặc phát hiện thông tin quan trọng.

- Sử dụng các kỹ thuật thống kê, máy học và khai phá dữ liệu để xác định mơ hình và tìm ra câu trả lời cho câu hỏi được đặt ra ở bước 1.

<i>Bước 5: Trình bày kết quả phân tích </i>

- Trình bày kết quả phân tích một cách rõ ràng và dễ hiểu bằng cách sử dụng biểu đồ, đồ thị, bảng và báo cáo.

- Giải thích ý nghĩa của kết quả, đưa ra nhận định và khuyến nghị dựa trên phân tích dữ liệu.

1.1.3 Sự phát triển của khoa học dữ liệu: Quá trình phát triển của khoa học dữ liệu :

- Năm 1962, John W. Tukey đã viết bài báo "The Future of Data Analysis" và được coi là một cột mốc quan trọng đánh dấu sự công nhận toàn cầu đầu tiên về Khoa học Dữ liệu. Ơng có ảnh hưởng lớn đến lĩnh vực thống kê và cũng liên quan mật thiết đến khoa học máy tính. John Tukey cũng được biết đến với thuật ngữ "bit" để chỉ các chữ số nhị phân.

- Năm 1974, Peter Naur đã xuất bản một bài báo gọi là "Concise Survey of Computer Methods" (Khảo sát ngắn gọn về các phương pháp máy tính) nêu lên khái niệm "Khoa học Dữ liệu" và định nghĩa riêng của ông cho nó: "Khoa học xử lý dữ liệu, sau khi chúng đã được thiết lập, liên quan đến mối quan hệ của dữ liệu với những gì chúng đại diện cho trong các lĩnh vực và khoa học khác."

- Năm 1977, Hiệp hội Quốc tế về Máy tính thống kê (IASC) được thành lập, đánh dấu sự phát triển của các công cụ và phương pháp trong lĩnh vực Khoa học Dữ liệu. - Năm 1989, Gregory Piatetsky-Shapiro đã tổ chức Hội thảo Khám phá kiến thức trong

Cơ sở dữ liệu (KDD), mở đường cho việc nghiên cứu và phát triển các phương pháp khai phá dữ liệu.

- Năm 1994, tạp chí BusinessWeek xuất bản một số bài viết về "Tiếp thị cơ sở dữ liệu", tăng cường sự nhận thức về vai trò quan trọng của dữ liệu trong lĩnh vực kinh doanh.

- Năm 1996, Liên đoàn Quốc tế về Phân loại (IFCS) đã tổ chức hội nghị mang tiêu đề "Khoa học Dữ liệu, phân loại và các phương pháp liên quan", đánh dấu sự hiện diện chính thức của thuật ngữ "Khoa học Dữ liệu" trong tiêu đề hội

- Tháng 11 năm 1997, một nhà nghiên cứu có tên là Chien Fu Jeff Wu chính thức sử -dụng thuật ngữ "Khoa học dữ liệu" trong bài thuyết trình "Statistics = Data Science?" tại Đại học Michigan. Trong bài thuyết trình này, Wu đã lấy ví dụ về việc thống kê và nhà thống kê dành phần lớn thời gian để làm việc với dữ liệu, và do đó, ơng đề

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

xuất rằng thuật ngữ "thống kê" nên được thay đổi thành "khoa học dữ liệu" và "nhà thống kê" nên trở thành "nhà khoa học dữ liệu".

- Trong những năm 2000, sự phát triển mạnh mẽ của internet và công nghệ thông tin đã tạo ra một lượng lớn dữ liệu. Điều này đã thúc đẩy sự quan tâm đến Khoa học Dữ liệu và khai thác thông tin từ các nguồn dữ liệu phức tạp và lớn.

- Năm 2001, William S. Cleveland đã giới thiệu Khoa học Dữ liệu như một ngành độc lập trong một bài báo mang tên "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics".

- Năm 2008, DJ Patil và Jeff Hammerbacher đã sử dụng thuật ngữ "nhà Khoa học Dữ liệu" để miêu tả công việc của họ tại LinkedIn và Facebook. Đây là sự thừa nhận và công nhận rộng rãi cho vai trò và tầm quan trọng của Khoa học Dữ liệu trong công nghệ thông tin và công ty công nghệ.

- Năm 2012, tờ Harvard Business Review đã xem Khoa học Dữ liệu là "nghề hót nhất của thế kỷ 21". Điều này gợi ý sự tăng trưởng và sự lan rộng của lĩnh vực này trong các ngành công nghiệp và tổ chức.

- Năm 2013, IEEE (Hội Kỹ sư Điện và Điện tử) đã thành lập một Nhóm cơng tác về Khoa học Dữ liệu và Phân tích nâng cao. Đây là một bước quan trọng để đẩy mạnh nghiên cứu và phát triển trong lĩnh vực này.

- Năm 2014, IEEE đã tổ chức Hội nghị quốc tế đầu tiên về Khoa học Dữ liệu và Phân tích nâng cao (IEEE International Conference on Data Science and Advanced Analytics).

- Năm 2015, Springer đã thành lập Tạp chí Quốc tế về Khoa học Dữ liệu và Phân tích để xuất bản các tác phẩm ban đầu về lĩnh vực này và các cơng trình về phân tích dữ liệu lớn.

<b>1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu: </b>

- Amazon và Netflix: Cả Amazon và Netflix sử dụng khoa học dữ liệu để tạo ra gợi ý sản phẩm và nội dung cá nhân hóa dựa trên hành vi mua sắm và xem phim của khách hàng. Điều này giúp cải thiện trải nghiệm người dùng và tăng doanh số bán hàng. - Uber và Grab: Các dịch vụ gọi xe như Uber và Grab sử dụng khoa học dữ liệu để dự

đoán và tối ưu hóa thời gian đợi, tuyến đường và giá cước dựa trên thông tin giao thông thời gian thực và mơ hình học máy.

- Google Maps: Google Maps sử dụng khoa học dữ liệu và học máy để cung cấp thông tin lưu lượng giao thông thời gian thực, đề xuất tuyến đường tối ưu và dự báo thời gian đến đích.

- Spotify: Spotify sử dụng khoa học dữ liệu để tạo ra danh sách phát và gợi ý âm nhạc cá nhân dựa trên sở thích âm nhạc và lịch sử nghe nhạc của người dùng.

- IBM Watson: IBM Watson là một hệ thống trí tuệ nhân tạo dựa trên khoa học dữ liệu. Nó được sử dụng trong nhiều lĩnh vực, bao gồm y tế (phân tích hình ảnh y khoa,

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

chẩn đoán bệnh), quản lý tri thức doanh nghiệp, dịch vụ khách hàng và nhiều ứng dụng khác.

- Facebook: Facebook sử dụng khoa học dữ liệu để phân tích hành vi người dùng, gợi ý bạn bè, hiển thị nội dung và quảng cáo cá nhân hóa, và phát hiện hoạt động giả mạo và spam.

<b>1.2 Giới thiệu đề tài: </b>

- Với sự phát triển không ngừng của thương mại điện tử và mơ hình giao hàng trực tuyến, việc hiểu và nắm bắt các dữ liệu vận chuyển trong ngành này trở thành một yếu tố quan trọng để cung cấp những dự báo và phân tích thơng minh, góp phần tối ưu hóa hoạt động vận chuyển và cung ứng dịch vụ tốt hơn cho khách hàng. - Việc thu thập, nắm bắt dữ liệu giúp các doanh nghiệp và nhà quản lý hiểu rõ hơn về

quy trình vận chuyển và phân phối của họ. Bằng cách thu thập và phân tích dữ liệu từ các giao dịch mua bán trực tuyến, thông tin về thời gian giao hàng, địa điểm, hình thức vận chuyển, và các yếu tố khác có liên quan, chúng ta có thể tạo ra những dự báo và phân tích chi tiết về hoạt động vận chuyển.

- Vì vậy nhóm quyết định chọn đề tài “Dự báo dữ liệu E Commerce Shipping Data” -giúp dự đốn tình hình cung cấp và nhu cầu vận chuyển trong tương lai, từ đó đảm bảo khả năng cung ứng dịch vụ vượt qua những đỉnh cao thời gian như các ngày lễ hay các sự kiện mua sắm lớn. Ngoài ra, phân tích dữ liệu vận chuyển cung cấp thơng tin về hiệu suất vận chuyển, tỷ lệ hoàn thành đơn hàng, thời gian giao hàng trung bình và các chỉ số liên quan khác. Nhờ đó, các doanh nghiệp có thể xác định các điểm yếu trong chuỗi cung ứng và tìm ra những cải tiến để tăng cường hiệu quả và chất lượng dịch vụ giao hàng.

- Để thực hiện dự báo và phân tích dữ liệu e commerce shipping, các phương pháp và -cơng cụ phân tích dữ liệu tiên tiến được áp dụng. Machine learning, data mining, và các thuật tốn dự đốn có thể được sử dụng để xử lý dữ liệu lớn và tạo ra mơ hình dự báo chính xác. Các hệ thống quản lý dữ liệu và phân tích thơng minh cũng đóng vai trò quan trọng trong việc thu thập, xử lý và trực quan hóa

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Chương 2: TỔ<b>NG QUAN VỀ </b>CHƯƠNG TRÌNH SỬ<b> DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG</b>

<b>2.1 Các phương pháp excel dùng để khai phá dữ liệu trong học phần: 2.1.1 Phương pháp thống kê mô tả: </b>

<i>2.1.1.1 Thống kê bằng công cụ Descriptive Statistics : </i>

- Thống kê mô tả (Descriptive Statistics) là một phương pháp trong thống kê dùng để mô tả và tổng hợp các dữ liệu quan sát được. Thống kê mô tả cho phép bạn biết được giá trị trung bình, phương sai, độ lệch chuẩn, phân vị, min, max và các đặc tính khác của dữ liệu. Những thơng tin này giúp bạn có cái nhìn tổng quan về dữ liệu, giúp bạn hiểu rõ hơn về sự phân bố và tính chất của dữ liệu.

- Cách thực hiện :

+ Bước 1: Chuẩn bị bảng số liệu cần thống kê

+ Bước 2: Chọn lệnh <b>Data -> Data Analysis -> Descriptive Statistics</b>, sau đó hộp <b>thoại Descriptive Statistics </b>xuất hiện

<i>Hình 2.1: H p tho i Descriptive Statistics </i>ộ ạ + Bước 3: Khai báo các thơng số Input và Output Options

<i>Trong đó: </i>

<b>● Input Range : Vùng đưa dữ liệu cần thống kê vào ● Output Range : Vùng dữ liệu kết quả sau khi thống kê● Summary statistics : Thông số thống kê tổng hợp </b>

<b>● Confidence Level for Mean : Độ tin cậy của giá trị trung bình </b>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<i>Hình 2.2: Giao diện Descriptive Statistics + Ví dụ minh họa : </i>

<i>Hình 2.3: Th ng kê mơ t s</i>ố <i>ả ố lượng smartphone Samsung Galaxy S23 được bán trong tháng 3 c a c</i>ủ ửa hàng điệ<i>n tho i ABC </i>ạ

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<i>2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal </i>

- Chức năng: Cho phép người dùng nhóm dữ liệu theo một trường (hoặc nhiều trường) và tính tốn các tổng hợp cho mỗi nhóm. Tính năng này cho phép người dùng thực hiện phân tích dữ liệu dễ dàng và nhanh chóng, cung cấp cái nhìn tổng quan về phân phối của các giá trị trong dữ liệu.

- Cách thực hiện :

+ Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm + Bước 2: Chọn toàn bộ cơ sở dữ liệu

<b>+ Bước 3: Chọn Data ->Outline -> Subtotal, sau đó hộp thoại Subtotal xuất hiện </b>

+ Bước 4 : Chọn các thơng số

<i>Trong đó : </i>

<b>● At each change in : chọn cột gom nhóm </b>

<b>● Use function : chọn hàm thống kê dùng để tổng hợp dữ liệu (sum, count,..) ● Add subtotal to : chọn cột thống kê giá trị </b>

<b>● Replace current subtotals : chọn để thay thế kết quả thống kê trước đó ● Page break between groups : chọn để ngắt trang giữa các nhóm </b>

<i>Hình 2.4: </i>Kết quả ví dụ thống kê mô tả

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<b>● Summary below data : chọn để kết quả tổng hợp dưới mỗi nhóm</b>”

- Ví dụ minh họa :

<i>Hình 2.5: Th ng kê t ng s ti n m</i>ố ổ ố ề ỗi nhân viên bán đượ<i>c trong tháng 3 c a c a hàng </i>ủ ử

<i>điện thoại ABC </i>

<i>Hình 2.6: Hình 1: </i>Kết quả ví dụ

<i>2.1.1.3 Hợp nhất dữ liệu với Consolidate </i>

- Chức năng : cho phép tổng hợp nhiều dữ liệu từ các bảng khác nhau thành 1 bảng duy nhất, giúp người dùng có một cái nhìn tồn diện hơn

- Consolidate có thể hợp nhất dữ liệu theo 2 hình thức: + Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc

+ Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc.

- Cách thực hiện:

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

+ Bước 1: Chọn vùng chứa kết quả dữ liệu được hợp nhất

<b>+ Bước 2: Chọn Data -> Data Tools -> Consolidate, hộp thoại Consolidate xuất </b>

hiện

<i>Hình 2.7: H p tho i Consolidate </i>ộ ạ

<i>Trong đó: </i>

<b>● Function : chọn hàm tổng hợp </b>

<b>● Reference : để tham chiếu lần lượt các bảng dữ liệu nguồn </b>

<b>● All references: chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp </b>

nhất.

<b>● Top row: </b>chọn nếu muốn dùng tên cột của vùng nguồn

<b>● Left column: chọn nếu muốn dùng các giá trị của cột đầu tiên của vùng </b>

nguồn.

<i>Hình 2.8: </i>Giao diện Consolidate

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

- Ví dụ minh họa :

<i>Hình 2.10: </i>Kết quả ví dụ

<i>Hình 2.9: Th ng kê mô t doanh thu 3 chi nhánh c a c</i>ố ả ủ ửa hàng điệ<i>n tho i ABC </i>ạ

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<i>2.1.1.4 Tổng hợp đa chiều với Pivot Table </i>

- Chức năng : tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau

- Cách thực hiện :

+ Bước 1: Chọn vào ô bất kỳ trên cơ sở dữ liệu

+ Bước 2: Chọn lệnh<b> Insert -> PivotTable, </b>hộp thoại <b>Create PivotTable </b>xuất

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<i>Hình 2.13: </i>Kết quả ví dụ

<b>2.1.2 Phương pháp phân tích dự báo </b>

<i>2.1.2.1 Phương pháp trung bình trượt (Moving Average) </i>

- Khái niệm: Phương pháp trung bình trượt là một phương pháp được sử dụng để tính tốn trung bình của một tập hợp các giá trị theo thời gian. Có tác dụng dự đốn xu hướng thay đổi của thơng tin. Các giá trị này có thể là thơng tin tài chính, kinh doanh, y tế hoặc lưu lượng mạng, v.v.

<i>- Cách thực hiện trên Excel: </i>

+ Bước 1: Chuẩn bị bảng số liệu cần dự báo

<b>+ Bước 2: Chọn lệnh Data → Data Analysis → Moving Average</b>, xuất hiện hộp

<b>thoại Moving Average </b>

<i>Hình 2.14: </i>Lệnh<i> Data Analyst </i>

<i>Hình 2.15: L nh Moving Average </i>ệ

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<b>+ Bước 3: Khai báo các thông số Input và Output</b> Options Trong đó:

<b>● Input Range </b>: tham chiếu đến vùng dữ liệu thực tế.

<b>● Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề </b>

cột hay khơng.

<b>● Interval: số lượng các kỳ trước đó muốn tính (w). </b>

<b>● Output Range: tham chiếu đến vùng xuất kết quả. Những ô không đủ số </b>

lượng các giá trị trước đó để tính tốn sẽ nhận giá trị #N/A.

<b>● Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả. ● Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn. </b>

<i>Hình 2.16: Khai báo các thơng s </i>ố

<i>Hình 2.17: K t qu sau khi th</i>ế ả <i>ực hiện </i>

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<i>2.1.2.2 Phương pháp san bằng mũ (Exponential Smoothing) </i>

- Khái niệm: Là phương pháp ước tính giá trị trung bình của chuỗi thời gian và sử dụng nó để dự báo giá trị tương lai của chuỗi thời gian đó.

<i>- Cách thực hiện trên Excel: </i>

+ Bước 1: Chuẩn bị bảng số liệu cần dự báo

+ Bước 2: Chọn lệnh <b>Data </b>→ <b>Data Analysis → Exponential Smoothing</b>, xuất

<b>hiện hộp thoại Exponential Smoothing </b>

<i>Hình 2.18: </i>Lệnh<i> Exponential Smoothing </i>

<b>+ Bước 3: : Khai báo các thơng số Input và Output Options</b>

Trong đó:

<b>● Input Range : tham chiếu đến vùng dữ liệu thực tế. </b>

<b>● Damping factor: giá trị dùng làm hệ số san bằng. Đó là giá trị điều chỉnh sự </b>

bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a).

<b>● Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề </b>

hay khơng.

<i>Hình 2.19: Khai báo các thơng s </i>ố

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<i>Hình 2.20: K t qu sau khi th</i>ế ả <i>ực hiện 2.1.2.3 Phương pháp hồi quy (Regression) </i>

- Khái niệm: Phương pháp hồi quy là một phương pháp được sử dụng để phân tích mối quan hệ giữa một biến phụ thuộc và một hay nhiều biến độc lập.

<i>- Cách thực hiện trên Excel: </i>

❖ Cách thực hiện bằng đồ thị

+ Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

+ Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc , và vùng địa chỉ <b>Ychứa biến độc lập X </b>

<i>Hình 2.21: V</i>ùng đị<i>a ch ch a l</i>ỉ ứ ần lượ<i>t X và Y </i>

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>+ Bước 3: Vẽ đồ thị dạng Scatter </b>

<i>Hình 2.22: </i>Đồ thị dạng Scatter

+ Bước 4: Click chuột phải vào <b>data series</b>, chọn <b>Add Trendline </b>

<i>Hình 2.23: </i>Đồ ị<i> th sau khi Add Trendline </i>

<b>+ Bước 5: Tùy chọn hiển thị trong Trendline Options ● Linear: dạng đường thẳng </b>

<b>● Display Equation on chart ● Display R-squared value on chart </b>

❖ Cách thực hiện bằng công cụ Regression: + Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

+ Bước 2: Chọn lệnh <b>Data</b>→ <b>Data Analysis → Regression, xuất hiện hộp thoại Regression </b>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<i>Hình 2.24: Ch n Regression </i>ọ

<b>+ Bước 3: Khai báo các thông số Input</b> và <b>Output Options</b>

Trong đó:

<b>● Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y </b>

<b>● Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều </b>

biến X trong trường hợp hồi quy đa biến)

<b>● Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ </b>

liệu hồi quy

<b>● Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi </b>

quy tuyến tính a = 0

<b>● Confidence Level: Độ tin cậy của hồi quy (mặc định là 95%) bằng 1 α, với α </b> -là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng.

<b>● Output Range: Vùng hoặc ơ phía trên bên trái của vùng chứa kết quả ● New Worksheet Ply: In kết quả ra một sheet khác </b>

<b>● New Workbook: In kết quả ra một file Excel mới ● Residuals: Sai số do ngẫu nhiên </b>

<b>● Standardized Residuals: Chuẩn hóa sai số ● Residuals Plots: Đồ thị sai số </b>

<b>● Line Fit Plots: Đồ thị hàm hồi quy tuyến tính </b>

<b>● Normal Probability Plots: Đồ thị xác suất phân phối chuẩn </b>

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

<i>Hình 2.25: Khai báo các thơng s </i>ố

<i>Hình 2.26: K t qu sau khi th</i>ế ả <i>ực hiện </i>

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<b>2.1.3 Phương pháp phân tích tối ưu </b>

<i>2.1.3.1 Lập mơ hình tối ưu </i>

Tình huống: Một nhà quản lý dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:

<i>Hình 2.27: B ng s li u </i>ả ố ệ ● Các bước lập mơ hình

<b>Bước 1: Xác định biến quyết định. </b>

Gọi 𝑥<small>1</small> là lượng lúa gạo, 𝑥<small>2</small>là lượng lúa mì (tấn) cần sản xuất.

<b>Bước 2: Xác định hàm mục tiêu. </b>

Mục tiêu bài tốn là tối đa hóa lợi nhuận ta có: P = P (lúa gạo) + P (lúa mì) = 18𝑥<sub>1</sub> + 21𝑥<small>2</small>→ max

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Bước 2: Chọn lệnh <b>Data </b>→ <b>Analysis → Solver </b>

<i>Hình 2.29: H p tho i Solver Parameters </i>ộ ạ Khai báo các tham số của bài toán:

<b>- Set Objective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $E$5. - To: Chọn Max vì bài tốn này là tối đa hóa lợi nhuận. </b>

<b>- By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường </b>

hợp này là $C$4 :$D$4.

- Đưa các ràng buộc vào <b>Subject to the Constraints </b>bằng cách nhấn nút <b>Add. </b>

<i>Hình 2.30: Đưa các ràng buộc vào Add Constraint </i>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

Bước 3: Nhấn nút Solve để giải mơ hình.

Khai báo các lựa chọn trong hộp thoại Solver Results:

<b>- Keep Solver Solution: Giữ kết quả và in ra bảng tính. </b>

<b>- Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trạng </b>

ban đầu.

<b>- Save Scenario: Lưu kết quả vừa tìm được thành một tình huống để có thể xem </b>

lại sau này.

- Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity và Limits.

<i>Hình 2.31: H p tho i Solver Results </i>ộ ạ Bước 4: Nhấn nút OK để xem kết quả

<i>Hình 2.32: K t qu </i>ế ả

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Các báo cáo kèm theo lời giải:

<i>Hình 2.33: Báo cáo kèm l i gi i </i>ờ ả

<b>2.2 Phần mềm Orange: 2.2.1 Mô tả: </b>

Trong thế giới số hóa ngày nay, dữ liệu trở thành một tài nguyên vô cùng quý giá. Với một lượng lớn dữ liệu được tạo ra mỗi giây, việc xử lý và phân tích chúng trở nên tương đối phức tạp và đòi hỏi sự hỗ trợ từ các công cụ mạnh mẽ. Trong số các phần mềm xử lý dữ liệu, Orange nổi lên như một giải pháp đáng chú ý. Với giao diện người dùng thân thiện và tính năng mạnh mẽ, Orange là một cơng cụ hữu ích cho các nhà nghiên cứu, nhà khoa học dữ liệu và những người quan tâm đến phân tích dữ liệu mà khơng cần có kiến thức chuyên sâu về lập trình.

<b>2.2.2 Tính năng: </b>

Orange là một phần mềm mã nguồn mở, mang đến cho người dùng khả năng khám phá và tận dụng dữ liệu một cách trực quan và dễ dàng. Với giao diện người dùng đồ họa thân thiện, nó cho phép người dùng thực hiện các tác vụ như tiền xử lý dữ liệu, trích xuất đặc trưng, mơ hình hóa và đánh giá dữ liệu một cách hiệu quả.

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Orange cho phép người dùng kết hợp các thành phần xử lý dữ liệu trong quy trình làm việc, gọi là "workflows". Người dùng có thể xây dựng các workflows bằng cách kết nối các hộp công cụ và tham số của chúng để tạo ra một chuỗi xử lý dữ liệu hoàn chỉnh. Điều này giúp người dùng tiết kiệm thời gian và công sức trong việc xử lý dữ liệu và thực hiện phân tích.

Các cơng cụ (widgets) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng , lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học , trực quan hóa các phần tử dữ liệu, …

<i>2.2.2.1 Nhóm Data </i>

Nhóm data: Dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process)

<i>Hình 2.34: Các ti n ích trong nhóm Data </i>ệ Một số tiện ích thường sử dụng của nhóm Data

Tiện ích "<b>File</b>" đọc tệp dữ liệu đầu vào (bảng dữ liệu với các phiên bản dữ liệu) và gửi tập dữ liệu đến kênh đầu ra của nó. Lịch sử của các tệp được mở gần đây nhất được duy trì trong tiện ích. Tiện ích này cũng bao gồm một thư mục chứa các bộ dữ liệu mẫu được cài đặt sẵn với Orange.

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

<i>Hình 2.35: Giao di n ti</i>ệ ện ích “File”

1. Duyệt qua các tệp dữ liệu đã mở trước đó hoặc tải bất kỳ tệp mẫu nào. 2. Duyệt tìm tệp dữ liệu.

3. Tải lại tệp dữ liệu hiện được chọn.

4. Chèn dữ liệu từ các địa chỉ URL, bao gồm cả dữ liệu từ Google Trang tính. 5. Thơng tin về tập dữ liệu được tải: kích thước tập dữ liệu, số lượng và loại tính

năng dữ liệu.

6. Thơng tin bổ sung về các tính năng trong tập dữ liệu. Các tính năng có thể được chỉnh sửa bằng cách nhấp đúp vào chúng.

7. Duyệt bộ dữ liệu tài liệu. 8. Tạo báo cáo.”

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

<b>Tiện ích "Datasets" là một công cụ mạnh mẽ để truy cập và sử dụng các tập dữ </b>

liệu mẫu có sẵn. Tệp được tải xuống bộ nhớ cục bộ và do đó khả dụng ngay lập tức ngay cả khi không có kết nối internet. Mỗi bộ dữ liệu được cung cấp một mơ tả và thơng tin về kích thước dữ liệu, số lượng phiên bản, số lượng biến, mục tiêu và thẻ.

<i>Hình 2. 36: Giao di n v ti</i>ệ ề ện ích “Dataset” 1. Thơng tin về số lượng bộ dữ liệu có sẵn.

2. Nội dung của bộ dữ liệu có sẵn. Mỗi bộ dữ liệu được mơ tả với kích thước, số lượng phiên bản và biến, loại biến mục tiêu và thẻ.

3. Mơ tả chính thức của tập dữ liệu đã chọn.

4. Nếu Send data tự động được đánh dấu, tập dữ liệu đã chọn sẽ tự động được truyền đạt.

Tiện ích “Data Table” nhận một hoặc nhiều bộ dữ liệu trong đầu vào của nó và trình bày chúng dưới dạng bảng tính. Data Table là nơi lưu trữ và quản lý dữ liệu trong Orange và cho phép bạn có thể thêm, xóa, sắp xếp và chỉnh sửa dữ liệu trong bảng dữ liệu.

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

<i>Hình 2.37: Giao di n c a ti</i>ệ ủ ện ích “Data Table”

1. Tên của tập dữ liệu. Thể hiện dữ liệu nằm trong các hàng và các giá trị thuộc tính của chúng trong các cột.

2. Thơng tin về kích thước và số lượng tập dữ liệu hiện tại và các loại thuộc tính 3. Giá trị của các thuộc tính liên tục có thể được hiển thị bằng các thanh; màu sắc

có thể được quy cho các lớp khác nhau.

4. Các bản dữ liệu (hàng) có thể được chọn và gửi đến kênh đầu ra của tiện ích con. 5. Sử dụng nút Restore Original Order để sắp xếp lại các bản dữ liệu sau khi sắp

xếp dựa trên thuộc tính. 6. Tạo báo cáo.

7. Khi tính năng tự động gửi được bật, tất cả các thay đổi sẽ tự động được thông báo tới các tiện ích con khác. Nếu không, nhấn Send Selected Rows.

Tiện ích “<b>Paint Data</b>” hỗ trợ tạo tập dữ liệu mới bằng cách đặt trực quan các điểm dữ liệu trên mặt phẳng hai chiều. Các điểm dữ liệu có thể được đặt trên mặt phẳng riêng lẻ (Put) hoặc với số lượng lớn hơn bằng cách chải (Brush). Các điểm dữ liệu có thể thuộc về các lớp nếu dữ liệu được dự định sử dụng trong học có giám sát.

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

<i>Hình 2.38: Giao di n ti</i>ệ ện ích “Paint Data” 1. Đặt tên cho các trục và chọn một lớp để vẽ các thể hiện dữ liệu.

- Định vị lại các điểm dữ liệu với Jitter (lây lan) và Nam châm (tiêu điểm). 3. Đặt lại về Dữ liệu đầu vào.

4. Lưu hình ảnh vào máy tính của bạn ở định dạng .svg hoặc .png. 5. Tạo báo cáo.

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

6. Đánh dấu vào ô bên trái để tự động thực hiện các thay đổi đối với các tiện ích khác hoặc nhấn Gửi để áp dụng chúng.

Tiện ích “Data Sampler” thực hiện một số phương pháp lấy mẫu dữ liệu. Nó xuất ra một bộ dữ liệu được lấy mẫu và một bộ dữ liệu bổ sung (với các phiên bản từ bộ đầu vào khơng có trong bộ dữ liệu được lấy mẫu). Đầu ra được xử lý sau khi tập dữ liệu đầu vào được cung cấp và Sample Data được nhấn.

<i>Hình 2.39: Giao di n c a ti</i>ệ ủ ện ích “Data Sampler”

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

1. Thông tin về tập dữ liệu đầu vào và đầu ra. 2. Phương pháp lấy mẫu mong muốn:

- Fixed proportion of data trả về một tỷ lệ phần trăm đã chọn của toàn bộ dữ liệu - Fixed sample size trả về một số phiên bản dữ liệu đã chọn với cơ hội đặt Sample

with replacement, ln lấy mẫu từ tồn bộ tập dữ liệu. Với việc thay thế, bạn có thể tạo nhiều phiên bản hơn số lượng có sẵn trong tập dữ liệu đầu vào. - Cross Validation: phân vùng các phiên bản dữ liệu thành số tập hợp con bổ sung

được chỉ định. Theo lược đồ xác thực điển hình, tất cả các tập hợp con ngoại trừ tập hợp con do người dùng chọn đều được xuất dưới dạng Data Sample và tập hợp con đã chọn sẽ chuyển đến Remaining Data.

- Bootstrap suy ra mẫu từ thống kê dân số.

3. Replicable sampling duy trì lấy mẫu có thể được thực hiện giữa những người dùng, trong khi stratify sample bắt chước thành phần của tập dữ liệu đầu vào. 4. Nhấn Sample Data để xuất mẫu dữ liệu.

Tiện ích “Preprocess” là yếu tố quan trọng để đạt được kết quả phân tích chất lượng cao hơn. Tiện ích Preprocess cung cấp một số phương pháp tiền xử lý có thể được kết hợp trong một luồng xử lý tiền xử lý duy nhất. Một số phương pháp được cung cấp dưới dạng các tiện ích riêng biệt, cung cấp các kỹ thuật tiên tiến hơn và điều chỉnh tham số linh hoạt hơn.

<i>Hình 2.40: Giao di n c a ti</i>ệ ủ ện ích “Preprocess”

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

1. Danh sách các bộ tiền xử lý. Nhấp đúp vào bộ tiền xử lý mà bạn muốn sử dụng và xáo trộn thứ tự của chúng bằng cách kéo chúng lên hoặc xuống. Bạn cũng có thể thêm bộ tiền xử lý bằng cách kéo chúng từ menu bên trái sang bên phải.

Tiện ích “Tree Viewer” là một tiện ích linh hoạt với hình ảnh 2 chiều của cây phân loại và hồi quy.

</div>

×