Tải bản đầy đủ (.pdf) (54 trang)

Phân lớp bộ dữ liệu employee attrition qua ứng dụng orange

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.82 MB, 54 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC UEH</b>

<b>TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCMKHOA CÔNG NGHỆ THÔNG TIN KINH DOANH</b>

BỘ MÔN CÔNG NGHỆ THÔNG TIN Lê Bảo Trân – 31211026210

Bùi Phương Uyên – 31211026125 Đinh Hồ Phương Ngọc – 31211026485

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI...9</b>

<b>1.1Giới thiệu về khoa học dữ liệu...9</b>

<b>1.2Giới thiệu về đề tài...9</b>

<b>2.1 Các phương pháp của Excel dùng để khai thác dữ liệu...11</b>

<i>2.1.1 Phương pháp thống kê mơ tả</i>...11

<i>2.1.2 Phương pháp về phân tích dự báo...19</i>

<i>2.1.3 Phương pháp phân tích tối ưu...24</i>

<b>2.2. Phần mềm orange...26</b>

<i>2.2.1. Tổng quan về phần mềm orange...26</i>

<i>2.2.2. Phương pháp phân cụm dữ liệu...26</i>

<i>2.2.3. Phương pháp phân lớp dữ liệu...29</i>

<b>Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TỐN THỰC TẾ...37</b>

<b>3.1 Phân tích dữ liệu Employee Attrition...37</b>

3.1.1 Tiền xử lý dữ liệu Employee Attrition...37

3.1.2 Mô tả dữ liệu Employee Attrition...38

<b>3.2. Phân lớp dữ liệu...43</b>

3.2.1 Các phương pháp phân lớp...43

3.2.2 Các bước phân lớp dữ liệu...43

<b>Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH...55</b>

<b>KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN...56</b>

<b>4.1. Những cơng việc đã thực hiện...56</b>

4.1.1 Tóm tắt...56

<b>4.2 Hướng phát triển...56</b>

<b>4.3 Giải pháp...56</b>

2

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>TÀI LIỆU THAM KHẢO...57</b>

<b>DANH MỤC HÌNH ẢNH</b>

Hình ảnh 1:Hình 2.1 Hộp thoại Subtotal...14

Hình ảnh 2: Hình 2.2 Hộp thoại của Consolidate...16

Hình ảnh 3:Hình 2.3 Hộp thoại Create PivotTable...18

Hình ảnh 4:Hình 2.4 Minh họa phương pháp hồi quy...22

Hình ảnh 5:Hình 2.5 Bảng doanh thu chi phí năm 2022 và hộp thoại Regression...23

Hình ảnh 6:Hình 2.6 Hộp thoại Solver Parameters...25

Hình ảnh 7:Hình 2.7 Kết quả tính lợi nhuận tối đa...25

Hình ảnh 8:Hình 2.8 Minh họa quá trình phân cụm dữ liệu...27

Hình ảnh 9:Hình 2.9 Quá trình phân lớp dữ liệu – Xây dựng mơ hình phân lớp...29

Hình ảnh 10:Hình 2.10 Q trình phân lớp dữ liệu – Đánh giá mơ hình...30

Hình ảnh 11:Hình 2.11 Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới...31

Hình ảnh 12:Hình 2.12 Minh họa về phương pháp Hồi quy logistic...31

Hình ảnh 13:Hình 2.13 Minh họa mơ hình cây quyết định...32

Hình ảnh 14:Hình 2.14 Minh họa mơ hình SVM...32

Hình ảnh 15:Hình 2.15 Minh họa phương pháp đánh giá mơ hình phân lớp...33

Hình ảnh 16:Hình 2.16 Minh họa ma trận nhầm lẫn...33

Hình ảnh 17:Hình 2.17 Minh họa đường cong ROC...34

Hình ảnh 18:Hình 2.18 Minh họa đường AUC...35

Hình ảnh 19:Hình 3.1 Nạp dữ liệu Employee Attrition...37

Hình ảnh 20:Hình 3.2 Dữ liệu Employee Attrition...37

Hình ảnh 21:Hình 3.3 Quá trình tiền xử lý dữ liệu...37

Hình ảnh 22:Hình 3.4 Biểu đồ thể hiện mức độ hài lịng với cơng việc của nhân viên41 Hình ảnh 23:Hình 3.5 Biểu đồ thể hiện tình trạng hơn nhân của nhân viên...42

Hình ảnh 24:Hình 3.6 Biểu đồ thể hiện tình trạng tiêu hao nhân lực của cơng ty...42

Hình ảnh 25:Hình 3.7 Minh họa quá trình phân lớp dữ liệu...43

Hình ảnh 26:Hình 3.8 Mơ hình xây dựng dữ liệu (30%) từ mẫu đã được xử lý trước đó ... 44

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Hình ảnh 29:Hình 3.11 Mẫu dữ liệu huấn luyện...45

Hình ảnh 30:Hình 3.12 Mẫu dữ liệu từ file DuLieuThuNghiem_30%...45

Hình ảnh 31:Hình 3.13 100 mẫu dữ liệu thử nghiệm...46

Hình ảnh 32:Hình 3.14 Mẫu dữ liệu – Mơ hình...46

Hình ảnh 33:Hình 3.15 Tập dữ liệu huấn luyện DuLieuHuanLuyen 70%...47

Hình ảnh 34:Hình 3.16 Kết quả khi chia mẫu dữ liệu thành 5 phần...47

Hình ảnh 35:Hình 3.17 Kết quả khi chia mẫu dữ liệu thành 10 phần...48

Hình ảnh 36:Hình 3.18 Kết quả khi chia mẫu dữ liệu thành 10-40%...48

Hình ảnh 37:Hình 3.19 Kết quả khi chia mẫu dữ liệu thành 20-60%...49

Hình ảnh 38:Hình 3.20 Kết quả khi chia mẫu dữ liệu thành 50-90%...49

Hình ảnh 39:Hình 3.21 Ma trận nhầm lẫn phương pháp Hồi quy Logistic

Hình ảnh 42:Hình 3.25 Đường cong của ROC với biến y là Yes...52

Hình ảnh 43:Hình 3.26 Đánh giá mơ hình phân lớp 2...53

Hình ảnh 44:Hình 3.27 Chọn tập dữ liệu thử nghiệm...53

Hình ảnh 45:Hình 3.28 Mơ hình dự báo dữ liệu Employee-Attrition_Forecast...53

Hình ảnh 46:Hình 3.29 Kết quả dự báo...54

4

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH MỤC BẢNG BIỂU</b>

Bảng 1:Bảng 2.1 Số liệu bán hàng trong năm tại cửa hàng A và hộp thoại Descriptive

Statistics... 11

Bảng 2:Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistic...12

Bảng 3:Bảng 2.3 Bảng tổng hợp doanh thu 6 tháng cuối năm 2017...13

Bảng 4:Bảng 2.4 Bảng kết quả Thống kê tổng số lượng...14

Bảng 5:Bảng 2.5 Bảng doanh thu của ba cửa hàng...15

Bảng 6:Bảng 2.6 Bảng hợp nhất doanh thu của ba cửa hàng...17

Bảng 7:Bảng 2.7 Tổng hợp dữ liệu đa chiều với PivotTable...17

Bảng 8:Bảng 2.8 Kết quả tổng hợp đa chiều với PivotTable...18

Bảng 9:Bảng 2.9 Số liệu bán và hộp thoại Moving Average...19

Bảng 10:Bảng 2.10 Số liệu bán hoa và hộp thoại Exponential Smoothing...21

Bảng 11:Bảng 2.11 Bảng kết quả hồi quy...23

Bảng 12:Bảng 3.1 Tình trạng tiêu hao nhân lực của các phịng...42

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>BẢNG PHÂN CÔNG CÁC THÀNH VIÊN</b> PHÁP VÀO BÀI TỐN THỰC TẾ 3.1. Phân tích dữ liệu Employee

Chương 1: GIỚI THIỆU VỀ KHDL VÀ GIỚI THIỆU ĐỀ TÀI KHDL 1.1. Giới thiệu về khoa học dữ liệu 1.2. Giới thiệu về đề tài

6

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>LỜI MỞ ĐẦU</b>

Lời nói đầu tiên nhóm em (nhóm 10) xin gửi lời cảm ơn chân thành đến TS. Nguyễn Quốc Hùng, giảng viên bộ môn Khoa học dữ liệu - một môn khá mới mẻ và thú vị đối sinh viên chúng em. Trong thời gian làm dự án bộ mơn Khoa học dữ liệu nhóm em đã nhận được nhiều sự giúp đỡ, đóng góp ý kiến và sự chỉ bảo nhiệt tình của Thầy. Trong suốt quá trình học tập Thầy đã hỗ trợ và giúp đỡ chúng em rất tận tình.Thầy truyền đạt đến sinh viên một cách súc tích dễ hiểu và đầy tâm huyết đã giúp chúng em có cơ sở lý thuyết vững vàng, hay và bổ ích mở mang thêm hiểu biết về phần mềm Excel và Orange, càng hiểu rõ thêm về vai trò và tầm quan trọng của Khoa học dữ liệu trong đời sống cũng như sẽ giúp ích một phần vô cùng to lớn đến công việc của chúng em trong tương lai.

Thành viên nhóm 10 chúng em đã cố gắng trau dồi, cùng nhau đóng góp ý kiến, làm việc đầy tâm huyết và hiệu quả để hoàn thành dự án “Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange”. Thông qua dự án chúng em xin trình bày kiến thức và những kĩ năng được tích lũy trong q trình học tập. Với điều kiện thời gian cũng như kinh nghiệm còn hạn chế nhóm chúng em làm dự án sẽ khơng tránh khỏi những sai sót. Nhóm chúng em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của Thầy để có điều kiện bổ sung, sửa chữa và nâng cao ý thức phục vụ tốt hơn trong công việc trong tương lai.

Trong thời đại công nghệ số đang không ngừng phát triển như hiện nay, hệ thống thông tin dữ liệu đóng một phần rất quan trọng và lớn mạnh. Nó giúp các nhà doanh nghiệp xây dựng hệ thống thông tin một cách logic, đưa ra các dự đốn, phân tích tính rủi ro giúp doanh nghiệp dễ dàng đưa ra các quyết định. Trong thời buổi 4.0 hiện nay thì việc đẩy mạnh, chọn lọc những thơng tin có ích là một việc vơ cùng cần thiết nhằm phục vụ nhu cầu sống của con người nói chung và doanh nghiệp nói riệng.

Trong mơi trường làm việc, attrition diễn tả việc tiêu hao lực lượng lao động không được dự báo trước. Nguyên nhân của của sự sụt giảm này đều là những lý do không thể tránh được như nghỉ hưu, từ chức, nhân viên mất sức lao động hay đột ngột qua đời. Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp.Khoa học dữ liệu sẽ giúp chúng ta nắm bắt những tình hình trên một cách chi tiết, rõ ràng và hệ thống thông qua các phần mềm Excel và đưa ra những dự đốn thơng qua phần mềm Orange. Để giúp doanh nghiệp đưa ra những quyết định đúng đắn, những thông tin ấy nhóm chúng em sẽ trình bày qua dự án Phân lớp bộ dữ liệu Employee Attrition qua ứng dụng Orange sau đây.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI1.1 Giới thiệu về khoa học dữ liệu</b>

Ngày nay, khi sống trong thời đại mới - thời đại văn minh, khoa học mà điển hình là sự phát triển vượt bậc của ngành công nghệ thơng tin thì khoa học dữ liệu lại càng được chú trọng hơn bao giờ hết. Sự hình thành và phát triển của khoa học dữ liệu bắt nguồn từ nhu cầu tối ưu hố diện tích, thời gian, tốc độ lưu giữ và tra cứu thông tin. Cụ thể hơn đó là việc thay thế những chiếc máy tính bàn cồng kềnh, ổ cứng máy tính hay ổ đĩa CD xuất hiện cách đây khoảng một thập niên bằng một số phương tiện lưu trữ khác: điện đám mây, mạng xã hội, website, thiết bị di động và các thiết bị cảm biến.

Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu rất có ý nghĩa đối với hoạt động kinh doanh bởi lẽ đây là một phương thức tiếp cận đa ngành, được kết hợp hài hồ khơng chỉ giữa những ngun tắc mà cịn có phương pháp thực hành trong lĩnh vực tốn học, thống kê, trí tuệ nhân tạo, phân tích khối lượng lớn dữ liệu thơng qua kỹ thuật máy tính. Bằng vơ vàn thiết bị thu thập, lưu trữ dữ liệu tự động cùng với các công nghệ hiện đại khác, chúng ta có sẵn khối lượng đồ sộ dữ liệu về thương mại, điện tử, y tế, tài chính cũng như hầu hết mọi khía cạnh của đời sống dưới dạng văn bản, hình ảnh, âm thanh,…Trong tương lai, khoa học dữ liệu sẽ có những đột phá mới về trí tuệ nhân tạo và máy móc giúp hoạt động xử lý dữ liệu diễn ra một cách nhanh chóng hơn nhưng vẫn đảm bảo được độ chính xác và tính hiệu quả. Chính sự bùng nổ khoa học này mà không phải ngẫu nhiên mà người ta cho rằng khoa học dữ liệu có tầm ảnh hưởng và là một trong những ngàng chủ chốt có ưu thế đi đầu hiện nay.

Các lĩnh vực của khao học dữ liệu: khai thác dữ liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming).

<b>1.2 Giới thiệu về đề tài</b>

<i><b>1.2.1. Lý do chọn đề tài</b></i>

Hao mòn lao động trong kinh doanh được mô tả thông qua sự sụt giảm, tiêu hao dần số lượng nhân viên một cách không được dự báo trước, chủ yếu xảy ra khi nhân viên nghỉ hưu, từ chức, mất sức lao động hay đột ngột qua đời. Thuật ngữ này đôi khi cũng được sử dụng để mô tả sự mất mát của người mua hay khách hàng khi họ trưởng thành và vượt ra ngoài thị trường mục tiêu của sản phẩm hoặc công ty mà không được thay thế bởi một thế hệ trẻ khác. Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp. Những cơng ty có tỷ lệ lãng phí lao động cao thường phải đối mặt với nguy cơ lạm dụng nguồn lực nội bộ cũng như vẫn có thể phát sinh các tác dộng tiêu cực đến các nhân viên cịn lại của cơng ty. Đây là hiện trạng đã và đang xảy ra đối với đa số các công ty hiện nay và nhận được phần lớn sự quan tâm.

Để có thể phân tích được các dữ liệu một cách tự động, nhóm chúng em cần sự hỗ trợ của các phần mềm như: Excel, Power BI,… Cùng với những dữ liệu đã thu thập được, chúng em tiếp tục sử dụng Orange để xây dựng quy trình khai thác thác dữ liệu một cách hồn chỉnh hơn mà khơng mất quá nhiều thời gian để lập trình. Cuối cùng, sau khi phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích, đánh giá mức độ hiệu quả, đồng thời đề xuất một số hướng giải quyết, 8

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

phát triển dành cho chủ đề này. Và đó cũng là lý do nhóm em chọn đề tài “Phân tích bộ dữ liệu Employee Attrition qua các thuật toán trên Orange”

<i> <b>1.2.2 Mục tiêu nghiên cứu</b></i>

Khám phá, thu thập dữ liệu Chọn lọc, làm sạch dữ liệu Phân cụm, phân lớp dữ liệu

Dự đoán những yếu tố ảnh hưởng trực tiếp đến tỷ lệ nhân viên rời công ty Cung cấp cái nhìn tổng quan, trên nhiều phương diện về sự hao mòn lao động, từ đó nhận xét, đánh giá dựa trên dữ liệu đã phân tích

<i><b>1.2.3 Phương pháp thực hiện</b></i>

Tiến hành sử dụng phần mềm Orange để thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu. Tiếp đó dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp. Để thực hiện phân cụm bộ dữ liệu, nhóm đã sử dụng hai phương pháp chính là:

_ Hierarchical clustering và K-means.

+ Đối với phương pháp Hierarchical clustering: tính khoảng cách giữa các phần tử bằng Distance, quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot.

+ Đối với phương pháp K-means: quan sát chỉ số Silhouette trung bình khi phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot.

Bước tiếp theo đó là chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu. Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết dinh (Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic Rgression). Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNGPHÁP SỬ DỤNG</b>

<i><b>2.1 Các phương pháp của Excel dùng để khai thác dữ liệu</b></i>

Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office. Phần mềm giúp người dùng ghi lại dữ liệu, trình bày thơng tin dưới dạng bảng, tính tốn, xử lý thơng tin nhanh chóng và chính xác với một lượng dữ liệu lớn…và trong Khoa học dữ liệu, Excel được sử dụng để thống kê miêu tả, lưu các dữ liệu và phân tích các dự báo. Các trang tính của Excel được tạo nên từ các hàng và cột. Điểm giao nhau giữa 2 thành phần này sẽ được gọi là ô.

<i>2.1.1 Phương pháp thống kê mô tả</i>

<i>2.1.1.1 Thống kê bằng công cụ Descriptive Statistics</i>

Các bước thực hiện:

- Bước 1: Chuẩn bị bảng số liệu cần thống kê.

- Bước 2: Chọn lệnh Data => Data Analysis => Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics.

- Bước 3: Khai báo các thông số Input và lựa chọn các thơng số Output Options. - Ví dụ: Thống kê mơ tả cho số lượng máy tính bảng (đơn vị: chiếc) bán được

trong năm 2022 tại cửa hàng A

<i>Bảng 1:Bảng 2.1 Số liệu bán hàng trong năm tại cửa hàng A và hộp thoại DescriptiveStatistics</i>

10

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Trong hộp thoại Descriptive Statistics:

- Input Range: Nhập cột chứa dữ liệu máy tính bảng - Output Range: ô xuất hiện dữ liệu

- Confidence Level for Mean: 95%

Sau đó ta sẽ nhận được bảng kết quả gồm các giá trị trung bình (Mean), sai số chuẩn(SE),..

<i>Bảng 2:Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistic</i>

 <i>Mean: Giá trị trung bình</i>

 <i>Standard Error: Sai số </i>

Định nghĩa hàm Subtotal: Dùng để tính tốn một danh sách các chữ số theo nhiều cách tính khác nhau như tính trung bình, tính tổng, giá trị lớn nhất hoặc giá trị nhỏ nhất. Chức năng của Subtotal:

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

- Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm Các bước thực hiện:

- Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm.

- Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ơ bất kì trên dữ liệu.

- Bước 3: Chọn Data => Outline => Subtotal, xuất hiện hộp thoại Subtotal. - Ví dụ: Thống kê Tổng số lượng của bảng số liệu sau theo từng quận bằng công

cụ Subtotal.

<i>Bảng 3:Bảng 2.3 Bảng tổng hợp doanh thu 6 tháng cuối năm 2017</i>

<i>Hình ảnh 1:Hình 2.1 Hộp thoại Subtotal</i>

<i>- At each change in: chọn cột gom nhóm( Quận)</i>

<i>- Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu( Sum)- Add subtotal to : chọn cột thống kê giá trị(Doanh thu)</i>

<i>- Replace current subtotals: Chọn thay thế kết quả thống kê trước đó</i>

<i>- Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy thì</i>

mỗi nhóm một trang giấy

<i>- Summary below data</i><b>: chọn để kết quả tổng hợp dưới dạng mỗi nhóm</b>

<i>- Remove All</i><b>: để xóa bỏ các kết quả tổng hợp</b>

<i>Bảng 4:Bảng 2.4 Bảng kết quả Thống kê tổng số lượng</i>

12

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<i>2.1.1.3 Hợp nhất dữ liệu với Consolidate:</i>

 Định nghĩa: là hàm có chức năng hợp nhất các ơ,cột,các trang tính lại với nhau. Chức năng:

- Cho phép cập nhật dữ liệu từ những bảng dữ liệu khác nhau. - Consolidate có thể cập nhật dữ liệu theo hai hình thức:

o Tổng hợp theo vị trí: Các bảng dữ liệu giống nhau về cấu trúc. o Tổng hợp theo hạng mục( theo bảng và cột): Các bảng dữ liệu khác nhau

về cấu trúc.  Các bước thực hiện:

- Bước 1: Chọn vùng dữ liệu cần hợp nhất

- Bước 2: Trong cửa sổ Microsoft Excel chọn Data => Data Tools=> Consolidate, xuất hiện hộp thoại Consolidate

 Ví dụ: Hợp nhất doanh thu của 3 cửa hàng

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<i>Bảng 5:Bảng 2.5 Bảng doanh thu của ba cửa hàng</i>

<i>Hình ảnh 2: Hình 2.2 Hộp thoại của Consolidate</i>

<i>- Function</i><b>: Chọn hàm tổng hợp(Sum).</b>

<i>- Reference: Để tham chiếu lần lượt các bảng dữ liệu nguồn.</i>

14

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i>- All references: Chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất.</i>

(cửa hàng A,cửa hàng B, cửa hàng C)

<i>- Top row</i><b>: Chọn nếu muốn dùng tên cột của vùng nguồn.</b>

<i>- Left column:Chọn nếu muốn dùng các giá trị của cột đầu tiên của vùng nguồn.- Create links to source data: Chọn nếu muốn dữ liệu hợp nhất được cập nhật </i>

mỗi khi thay đổi ở vùng dữ liệu nguồn

<i>Bảng 6:Bảng 2.6 Bảng hợp nhất doanh thu của ba cửa hàng</i>

<i>2.1.1.4 Tổng hợp đa chiều với Pivot Table</i>

Định nghĩa: Pivot table là một trong những công cụ thống kê dữ liệu mạnh mẽ trong Excel, đặc biệt hiệu quả khi bạn cần thống kê nhanh để báo cáo với những lợi ích vượt trội như:

- Thống kê dữ liệu siêu tốc. - Thao tác đơn giản , dễ sử dụng.

- Kiểm soát được dữ liệu một cách chi tiết nhất.

Chức năng: Giúp phân tích dữ liệu ở nhiều góc độ và nhiều cấp độ khác nhau. Các bước thực hiện:

- Bước 1: Nhấp chuột vào ô bất kì trên cơ sở dữ liệu - Bước 2: Chọn Insert => Pivotable

- Bước 3: Xuất hiện hộp thoại Create Pivotable, chọn dữ liệu nguồn và nơi chứa Pivotable Table, nhấp vào nút OK.

- Bước 4: Drag các tên file từ PivoTable Fields vào 4 khu vực: FILTERS, ROWS, COLUMNS và VALUES.

Ví dụ:

<i>Bảng 7:Bảng 2.7 Tổng hợp dữ liệu đa chiều với PivotTable</i>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<i>Hình ảnh 3:Hình 2.3 Hộp thoại Create PivotTable</i>

<i>Bảng 8:Bảng 2.8 Kết quả tổng hợp đa chiều với PivotTable</i>

16

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<i>2.1.2 Phương pháp về phân tích dự báo</i>

<i>2.1.2.1 Phương pháp trung bình trượt (Moving Average)</i>

Định nghĩa: Trung bình trượt – một cơng cụ phân tích kĩ thuật cho thấy giá trung bình của một cơng cụ tại một thời gian nhất định, biến động giá giảm nhẹ, và do đó phản ánh xu hướng và sức mạnh của dụng cụ.

Các bước thực hiện:

- Bước 1: Chuẩn bị bảng số liệu cần dự báo

- Bước 2: Chọn lệnh Data => Data Analysis => Moving Average, xuất hiện hộp thoại Moving Average

- Bước 3: Khai báo các thông số Input và Output Options Ví dụ: Dự báo số liệu bán hoa của cửa hàng hoa AAA

<i>Bảng 9:Bảng 2.9 Số liệu bán và hộp thoại Moving Average</i>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

- Input Range: Tham chiếu vùng dữ liệu thực tế(C4:C18)

- Labels in First Row: Khai báo hàng đầu tiên của Input Range có chứa tiêu đề cột hay khơng.

- Interval: số lượng các kì trước đó muốn tính(w)

- Output Range: tham chiếu đến vùng xuất kết quả.Những ô không đủ số lượng các giá trị trước đó để tính toán sẽ nhận giá trị #N/A.

- Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

- Bước 1: Chuẩn bị bảng số liệu cần dự báo

- Bước 2: Chọn lệnh Data => Data Analysis=> Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing

- Bước 3: Khai báo các thơng số Input và Output Options

Ví dụ: Dự báo số liệu bán hoa tại cửa hàng bán hoa AAA có hệ số điều chỉnh bằng 0.3

<i>Bảng 10:Bảng 2.10 Số liệu bán hoa và hộp thoại Exponential Smoothing</i>

- Input Range: tham chiếu đến vùng dữ liệu thực tế

<i>- Damping factor: giá trị dùng làm hệ số san bằng. Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a) = 0,7- Labels: tùy chọn cho biết hàng/cột đầu tiên của Input Range có chứa tiêu</i>

đề hay khơng.

<i>- Kết quả trong hình trên là dự báo số hoa bán được tại của hàng AAA vào</i>

ngày 16 với hệ số điều chỉnh a=0.3( Damping factor =0.7). Vậy nên số hoa dự báo ngày 16 xấp xỉ là 33.24

<i>2.1.2.3 Phương pháp hồi quy (Regression)</i>

Định nghĩa: Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay cịn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay cịn gọi là biến giải thích).

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

- Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc lập X .

- Bước 3: Vẽ đồ thi dạng Scatter .

- Bước 4: Nhấp chuột phải vào data series, chọn Add Trendline . - Bước 5: Tuỳ chọn hiển thị trong Trendline Options như sau:

o Linear: dạng đường thẳng o .Display Equation on chart o Display R-squared value on chart.

<i>Hình ảnh 4:Hình 2.4 Minh họa phương pháp hồi quy</i>

Các bước thực hiện bằng phương pháp hồi quy (Regression): - Bước 1: Chọn bảng số liệu cần dự báo

- Bước 2: Chọn lệnh Data => Data Analysis => Regression. Xuất hiện hộp thoại Regression.

- Bước 3: Khai báo các thông số Input và Output Options. Ví dụ: Tác động của chi phí lên doanh thu

<i>Hình ảnh 5:Hình 2.5 Bảng doanh thu chi phí năm 2022 và hộp thoại Regression</i>

20

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<i>- Input Y Range</i><b>: Vùng địa chỉ chứa biến phụ thuộc Y</b>

<i>- Input X Ranger: Vùng địa chỉ chứa các biến độc lập X ( Có thể chọn nhiều biến</i>

X trong trường hợp hồi quy đa biến)

<i>- Labels: Tích vào mục này để khẳng định ô ( các ô) đầu tiên không chứa dữ liệu </i>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<i>2.1.3 Phương pháp phân tích tối ưu</i>

Ví dụ:

Một cơ sở hộ gia đình sản xuất hai loại kẹo: A và B. Các loại kẹo đều qua 3 công đoạn: chuẩn bị nguyên liệu, chế biến và hoàn tất. Để sản xuất một thùng kẹo A cần có 2 giờ cơng chuẩn bị, 1 giờ công chế biến và 1 giờ cơng hồn tất. Một thùng kẹo B cần 1 giờ công chuẩn bị, 1 giờ công chế biến và 2 giờ cơng hồn tất. Mỗi tuần, máy móc và nhân cơng của cơ sở này có sẵn 100 giờ công cho công đoạn chuẩn bị, 70 giờ công chế biến và 120 giờ cơng hồn tất.Mỗi thùng kẹo A và B có lợi nhuận là 30$ và 40$. Cơ sở phải quyết định sản xuất sao cho lợi nhất.

 Các bước lập mơ hình:

- Bước 1: Xác định biến quyết định

Gọi x1,x2 lần lượt là kẹo A, kẹo B cần sản xuất

- Bước 2: Xác định hàm mục tiêu. Mục tiêu của bài toán là cần tối đa hóa lợi nhuận.

Ta có: P=P(kẹo A)+P(kẹo B)=30x + 40x => Max<small>12</small> - Bước 3:Xác định hệ ràng buộc.Ràng buộc tài nguyên sử dụng.

Về chuẩn bị nguyên liệu: 2x + x <= 100<small>12</small> Về chế biến: x + x <= 70<small>12</small> Về hoàn tất: x + 2x <= 120 <small>12 </small>  Công cụ Solver để giải quyết mơ hình kinh tế

- Bước 1: Thiết lập bảng tính

- Bước 2: Chọn lệnh Data => Data Analysis => Solver

- Bước 3: Nhấn nút Solver để giải mơ hình, chọn Sensitivity và nhấn OK để xem kết quả mơ hình

<i>Bảng 2.12 Thiết lập bảng tính</i>

22

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Giả định x<small>1 , </small>x<small>2</small> bằng 1, nhập các hệ ràng buộc tương đương về chuẩn bị ngun liệu, chế biến, hồn tất. Sau đó, dùng hàm SUMPRODUCT để tính các giá trị vế trái theo biến khởi tạo.

<i>Hình ảnh 6:Hình 2.6 Hộp thoại Solver Parameters</i>

<i>Hình ảnh 7:Hình 2.7 Kết quả tính lợi nhuận tối đa</i>

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Ta được lợi nhuận tối đa là $2,600 để thỏa mãn các điều kiện ràng buộc

<b>2.2. Phần mềm orange.</b>

<i>2.2.1. Tổng quan về phần mềm orange</i>

Trong quá trình khám phá và nghiên cứu nhất là về khoa học thì khơng thể thiếu đi sự hỗ trợ đắc lực của của những phần mềm tiên tiến, hiện đại, trong đó bao gồm phần mềm Orange. Phần mềm Orange là một trong các công cụ dùng để tích hợp các dữ liệu và khai thác dữ liệu của mã nguồn mở, là một trong những phần mềm đơn giản, hiện đại, thơng minh được lập trình bằng Python với các giao diện trực quan giúp người dùng tương tác một cách dễ dàng . Đây còn là cơng cụ quan trọng cung cấp các thuật tốn để nghiên cứu và xử lý dữ liệu đầu vào một cách hiệu quả. Bên cạnh đó, cơng cụ orange cịn giúp khai thác dữ liệu mà khơng cần dùng tới dịch mã, từ đó, dù cho người dùng khơng giỏi về dịch mã cũng có thể sử dụng phần mềm Orange.

Hiện nay, phần mềm Orange được sử dụng và phổ biến rộng rãi vì cung cấp nhiều tiện ích một cách gọn nhất để người dùng có thể dễ dàng phân tích các dữ liệu, một số các tiện ích có thể nhắc đến như:

 Data: có chức năng rút trích, nạp và dễ dàng biến đổi dữ liệu

 Visualize: bao gồm các biểu đồ giúp dữ liệu được quan sát một cách tốt hơn.  Model: chứa các hàm máy học giúp phân lớp dữ liệu như SVM, Logistic

 Evaluate: một số các phương pháp đánh giá mơ hình dữ liệu

 Unsupervised: chứa các hàm máy học để phân cụm dữ liệu như Agnes, K-means,...

<i>2.2.2. Phương pháp phân cụm dữ liệu</i>

Phương pháp phân cụm dữ liệu được thực hiện khi có các bài tốn có dữ liệu chưa có cấu trúc rõ ràng về bảng dữ liệu và cần được phân thành cụm.

Phương pháp phân cụm dữ liệu không có biến phụ thuộc target y mà chỉ có biến phụ thuộc features x.

<i>2.2.2.1. Định nghĩa</i>

Phân cụm dữ liệu là q trình gom hay nhóm các dữ liệu/đối tượng có các đặc điểm, tính chất tương đồng với nhau thành một cụm.

Lưu ý: Dữ liệu của bài toán thường là dữ liệu chưa được gán nhãn. Đây là những dữ liệu tự nhiên thường thấy trong thực tế.

<i>Hình ảnh 8:Hình 2.8 Minh họa quá trình phân cụm dữ liệu</i>

24

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<i>2.2.2.2 Đặc điểm của phân cụm dữ liệu</i>

Nhiệm vụ chủ yếu là tìm ra và đo đạc được sự khác biệt giữa các đối tượng dữ liệu. Phân cụm thuộc phương pháp khơng giám sát vì số nhóm/cụm khơng được biết trước Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao

 Độ tương đồng bên trong cụm cao.

 Độ tương tự giữa các cụm thấp (có sự khác biệt cao)

<i>2.2.2.3 Các ứng dụng của phương pháp phân cụm</i>

- Một số ứng dụng điển hình:

 Cơng cụ phân cụm dữ liệu độc lập.

 Là giai đoạn tiền xử lý cho các thuật toán khác. - Ứng dụng trong lĩnh vực kinh tế:

 Dự báo các khách hàng tiềm năng.  Phân tích xu hướng hành vi của khách hàng.

 Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp.  Phân tích các đặc tính của các sản phẩm dịch vụ.

 Đánh giá được kết quả hoạt động kinh doanh.  Phân tích hành vi người dùng mạng xã hội.

<i>2.2.2.4 Một số các phương pháp phân cụm</i>

<i>2.2.2.4.1 Phân cụm phân cấp (Hierarchical clustering)</i>

- <b>Định nghĩa</b>: Đây là quá trình cây phân cấp các dữ liệu cần gom cụm được hình thành, bao gồm 2 tiêu chí:

Tạo khoảng cách giữa các phần tử ( similarity matrix – ma trận tương đồng hoặc dissimilarity matrix – ma trận không tương đồng)

Đo được khoảng cách giữa các cụm ( single link, complete link,..)

- <b>Đặc điểm</b>: không cần xác định trước số cụm nhưng lại cần xác định được điều kiện dừng.

- Các phương pháp điển hình phổ biến: Diana, Agnes,... và chúng được cài đặt vào các gói ứng dụng thống kê và có thứ tự trái ngược nhau.

- Một số phương pháp tính khoảnh cách khác nhau:

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Công thức: <b>dist(C ,C<small>ij</small>) = min ││p – p’││</b>

 <b>Complete link: là khoảng cách lớn nhất giữa 1 phần tử trong 1 cụm với 1 phần </b>

tử trong cụm khác.

Công thức: <b>dist(C ,C<small>ij</small>) = min ││p – p’││</b>

 <b>Average-link: là khoảng cách nhỏ trung bình giữa 1 phần tử trong 1 cụm với 1 </b>

phần tử trong cụm khác.

Công thức: <b>dist(C ,C<small>ij</small>) = min ││p – p’││</b>

 <b>Means: khoảng cách giữa các điểm trung bình của 2 cụm</b>

Cơng thức: <b>dist(C ,C<small>ij</small>) = │m - m │<small>ij</small></b>

Với m - m là trung bình giữa các phần tử trong cụm C<small>iji</small>,Cj.

- <b>Nhận xét</b>: Mặc dù phân cụm phân cấp là một giải thuật đơn giản và cho ra kết quả dễ hiểu mà không cần đến tham số đầu vào nhưng lại xử lý với tốc độ chậm và khơng thích hợp với dữ liệu lớn, nếu dự liệu bị thiếu và nhiễu sẽ không xử lý được.

<i>2.2.2.4.2 Phân cụm phân hoạch (Partitioning Clustering)</i>

- <b>Định nghĩa</b>: Quá trình phân tập dữ liệu có n phần tử cho trước trở thành k tập con (k <=n) và mỗi tập con được biểu diễn trên một cụm. Các cụm được hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (còn gọi là độ đo phân cụm) để cho:

 Mỗi đối tượng chỉ được thuộc duy nhất trong 1 cụm và các phần tử trong cụm phải có sự tương tự nhau.

 Mỗi cụm phải có ít nhất 1 phần tử.

- <b>Đặc điểm</b>: Các cụm được phân hoạch và xây dựng khác nhau và phải tối thiểu hóa giá trị của cụm và đánh giá một cách tồn diện.

- Một số thuật tốn tiêu biểu:

+ Thuật toán K-means: là một trong các thuật toán thuộc phân cụm và dựa trên phân hoạch, bao gồm 4 bước sau:

o <b>Bước 1: Chọn k điểm bất kỳ trong cụm làm trung tâm ban đầu</b>

o <b>Bước 2: mỗi điểm có trung tâm gần nó nhất thì phân vào một cụm, nếu việc </b>

phân chia không thay bị thay đổi so với đáp án thì ta dùng thuật toán.

o <b>Bước 3: Cập nhật lại trung tâm từng cụm, lấy trung bình cộng của tất cả các dữ </b>

liệu đã được gán vào cụm sau khi chia ở bước 2. o <b>Bước 4: quay lại bước 2.</b>

<b>Đánh giá thuật toán: Đây là một thuật toán phân cụm hiệu quả nhưng cần phải biết </b>

trước cụm k để tính tốn và phân cụm, khi gặp dữ liệu nhiễu và ngoại biên sẽ khó xử lý, khơng phù hợp với phân bổ dữ liệu không lồi. Nên áp dụng một số phương pháp tính số cụm kèm theo khi dùng phương pháp này và phải chạy thuật toán nhiều lần với nhiều trung tâm khác nhau để tìm giá trị cực tiểu.

<i>2.2.2.4.3 Một số phương pháp đánh giá phân cụm</i>

Việc đánh giá phân cụm dữ liệu là một trong phần khó khăn nhất của bài tốn phân cụm, khơng những cần sự chính xác, trung thực mà còn phải cần sự tỉ mỉ, đúng đắn.

26

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Để đánh giá một cách chính xác phân cụm dữ liệu thì cần có các tiêu chí sau đây:  Độ nén của các phần tử trong cụm phải “gần nhau” .

 Độ phân cách giữa các cụm nên “xa nhau” và phải phân cách rõ ràng, chi tiết. - Các phương pháp đánh giá phân cụm:

 Đánh giá ngoài (external validation): là việc đánh giá dựa vào kết quả phân cụm của cấu trúc hay xu hướng phân cụm đã được chỉ định trước đó cho tập dữ liệu. Các độ đo được sử dụng kèm theo: Rand Statistic,...

 Đánh giá nội bộ (internal validation): là việc đánh giá dựa vào kết quả phân cụm mà khơng có thơng tin từ bên ngồi, chủ yếu dựa trên các vector chính của các dữ liệu thơng qua ma trận xấp xỉ. Các độ đo được sử dụng theo phương pháp: Hubert’s statistic, Dunn’s index,...

 Đánh giá tương đối( relative validation): là phương pháp đánh giá kết quả gom cụm bằng việc dựa trên sự so sánh với kết quả gom cụm ứng với các bộ tri thông số khác nhau và kết quả gom cụm của các phương pháp khác.

<b>Nhận xét: Đây là phần khó khăn nhất trong bài tốn phân cụm nên cần sự chính xác, </b>

đúng đắn, sự tập trung và chi tiết, dễ hiểu. Càn áp dụng chính xác các thuật tốn để có được kết quả đánh giá đúng nhất.

<i>2.2.3. Phương pháp phân lớp dữ liệu2.2.3.1 Định nghĩa</i>

Phương pháp phân lớp dữ liệu là quá trình một đối tượng được phân vào một hay nhiều lớp đã được cho trước nhờ một mơ hình phân lớp. Khác với phân cụm dữ liệu thì phân lớp dữ liệu có mơ hình được xây dựng trên một tập dữ liệu mà đã được gán nhãn từ trước.( nghĩa là dữ liệu đã được có sẵn). Q trình gán nhãn cho đối tượng dữ liệu được gọi là quá trình phân lớp dữ liệu.

<i>2.2.3.2 Quá trình phân lớp dữ liệu</i>

Có 2 bước chính trong q trình phân lớp dữ liệu: Bước 1: Xây dựng mơ hình

Dữ liệu của đầu vào ở đây là một tập dữ liệu của một mẫu khác đã được gắn nhãn và tiền xử lý để tránh cho dữ liệu không xảy ra sai xót như bị nhiễu hay nhầm lẫn. Sau khi đưa dữ liệu vào và chạy các thuật toán liên quan như hồi quy logistic, cây quyết định,.. ta sẽ có được kết quả là mơ hình phân lớp đã được huấn luyện.

<i>Hình ảnh 9:Hình 2.9 Quá trình phân lớp dữ liệu – Xây dựng mơ hình phân lớp</i>

</div>

×