Môn học khoa học dữ liệu đề tài khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.65 MB, 13 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC UEH TRƯỜNG KINH DOANH </b>

<b>Môn học: KHOA HỌC DỮ LIỆU </b>

Giảng viên: Võ Hà Quang Định

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>PHÂN TÍCH NỘI DUNG </b>

<b>1.Định nghĩa </b>

-Khai phá dữ liệu (Data Mining) là quá trình sắp xếp và phân tích một tập hợp những dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiều vấn đề thơng qua việc phân tích dữ liệu. Các MCU khai phá dữ liệu giúp nhiều công ty và các tập đồn lớn dự đốn những xu thế của tương lai.

-Quá trình để khai thác dữ liệu là một q trình cực kỳ phức tạp vì nó u cầu sự đa dạng và đòi hỏi các dữ liệu chun sâu và nhiều các kỹ năng tính tốn. Hơn nữa quy trình khai phá dữ liệu khơng chỉ giới hạn ở việc trích xuất những dữ liệu mà còn được dùng cho việc làm sạch sẽ, thay đổi, tích hợp dữ liệu hay xử lý các mẫu.

- Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó .

-Kỹ thuật này dùng nhằm mục đích rút trích các thơng tin cần thiết từ kho dữ liệu có sẵn. Vì thế, chúng ta sẽ áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng đối với kỹ thuật này. Đồng thời kỹ thuật này có vai trị quan trọng trong việc dự báo các quy luật, xu hướng,… bằng cách mơ tả các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thể.

<i><b>1.2.1. Quy trình phân lớp dữ liệu </b></i>

- Quy trình phân lớp dữ liệu gồm hai bước như sau: Bước thứ nhất là xây dựng mơ hình phân lớp (Learning) và Bước thứ hai là ước lượng độ chính xác của mơ hình cùng với đó là phân lớp dữ liệu mới (Classification)

- Xây dựng mơ hình phân lớp (Learning): Ở bước xây dựng mơ hình dữ liệu nhằm tạo một mơ hình có thể miêu tả tập hợp của dữ liệu. Ban đầu một tập dữ liệu có cấu trúc, nó sẽ được mơ tả bởi những thuộc tính và được tạo ra từ các bộ giá trị có thuộc tính đó. Một bộ giá trị sẽ được xem là một phần tử của dữ liệu mẫu hay à dữ liệu mẫu hay đối tượng,... Trong tập dữ liệu này, các phần tử sẽ thuộc về một lớp xác định sẵn và lớp ở đây có nghĩa là mỗi giá trị của một thuộc tính có thể dùng như là thuộc tính gán nhãn hay thường hiểu là những thuộc tính khác. Sau đó, sử dụng những ngun tắc phân tích dưới dạng if – then, cây quyết định (Decision tree), hồi quy logistic (Regression Logistics), mạng lưới Neural (Neural Network),...

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<i>Hình 1.1. Q trình phân lớp dữ liệu – Xây dựng mơ hình phân lớp</i>

-Ước lượng độ chính xác của mơ hình và phân lớp dữ liệu mới (Classification): Ở bước tiếp theo, chúng ta sẽ dùng dữ liệu đã có ở các giai đoạn và phân tích dữ liệu mới. Đầu tiên, độ chính xác có tính dự báo của mơ hình phân lớp tạo được ước lượng. Độ chính xác của mơ hình trên tập dữ liệu thử nghiệm là tỷ lệ phần trăm của các mẫu trong tập dữ liệu kiểm tra được mơ hình tính tốn chính xác (phù hợp với thực tiễn). Nếu độ chính xác của mơ hình là ước tính dựa trên khối lượng mẫu đã qua đào tạo thì kết quả dự đoán thu về sẽ khả quan. Chúng ta cần phải có một bộ dữ liệu dự báo độc lập với bộ dữ liệu đã được huấn luyện. Nếu độ chính xác của mơ hình là có thể chấp nhận thì mơ hình được sử dụng để phân lớp những dữ liệu trong tương lai hoặc dữ liệu mà giá trị thuộc tính phân lớp là chưa biết.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<i>Hình 1.3: Quá trình trình phân lớp </i>- P<i>hân lớp dữ liệu mới</i>

1.2.2. <i><b>Các phương pháp phân lớp dữ liệu</b></i>

- Phương pháp 1: Hồi quy Logistic (Logistic Regression) - Phương pháp 2: SVM (Support Vector Machine) - Phương pháp 3: Cây quyết định (Decision Tree) - Phương pháp 4: Neural Network

- Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho trước: thuộc về phân lớp nhị phân nếu n = 2 và phân lớp đa lớp nếu n > 2. Bài toán là phân lớp đơn nhãn nếu mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất và phân lớp đa nhãn nếu thuộc về nhiều lớp khác nhau.

2. <b>Kết quả thực hiện dữ liệu qua O</b>range.

2.1<i><b>. Mơ tả bộ dữ liệu.</b></i>

-Chìa khóa thành cơng trong bất kỳ tổ chức nào là thu hút và giữ chân nhân tài hàng đầu, việc phân tích nhân sự tại 1 công ty gồm việc xác định yếu tố nào giữ chân nhân viên ở lại công ty và yếu tố nào khiến những người khác rời đi.

-Nhằm ứng dụng khai phá dữ liệu trong việc xem xét quyết định nghỉ việc hay không của nhân viên, bộ dữ liệu của bài nghiên cứu được lấy từ trang “kaggle.com” gồm một số chỉ số đo lường như: Age, Education, Job level,… là những biến độc lập và sự biến động của Attrition là biến phụ thuộc (như đã mô tả ở chương 3) của 1470 người trong 1 công ty. Để thuận tiện cho phần mềm học và dự báo, bộ dữ liệu được chia thành 2 phần như sau:

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

+ Dữ liệu huấn luyện:Atttrition của một số nhân viên dùng để Training được thể hiện qua một số biến độc lập nêu trên

<i>Hình 2.1.1: Bộ dữ liệu huấn luyện (minh họa MCK của 33 nhân viên đầu </i>tiên)

<i>Nguồn: Chụp từ phần mềm Orange </i>

+ Dữ liệu dự báo: Attrition của nhân viên trong bộ dữ liệu cũng được thể hiện qua một số biến độc lập như dữ liệu huấn luyện, riêng biến phụ thuộc sẽ không được chia 2 loại sẵn mà sẽ thông qua phần mềm Orange, sau khi đã Training bộ dữ liệu huấn luyện, sau đó lựa chọn phương pháp phân loại phù hợp nhất để tiến hành phân loại cho bộ dữ liệu dự báo.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<i>Hình 2.1.2: Bộ dữ liệu dự báo (minh họa MCK của </i>33 <i>nhân viên đầu tiên)Nguồn: Chụp từ phần mềm Orange </i>

2.2<i><b>. Kết quả của dữ liệu huấn luyện</b></i>

- Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào. Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện. Các thuộc tính của bộ dữ liệu huấn luyện được thiết kế như sau. Đối với các biến độc lập ví dụ như Age, Education, Distance from home,… sẽ được khai báo thuộc tính là “feature”, sau đó, chúng ta sẽ khai báo thuộc tính “target” cho biến phụ thuộc là Attrition (Attrition là kết quả huấn luyện cho kết quả nhân viên nghỉ viêc hay không). Attrition sẽ được chia ra thành hai loại “Yes– nghỉ” và “No – khơng).

<i>Hình 2.2.1. Khai báo thuộc tính cho các biến trong bộ dữ liệu huấn luyệnNguồn: Chụp từ phần mềm Orange </i>

-Sau đó, tơi lựa chọn 3 thuật tốn cho q trình huấn luyện mơ hình bao gồm: Decision Tree, SVM và Logistic Regression, khi có kết quả sẽ dùng các chỉ số đánh giá so sánh với nhau để tìm ra mơ hình phù hợp nhất với bài nghiên cứu này.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<i>Hình 2.2.2: Mơ tả tổng quan quá trình huấn luyện vào dự báo</i>

<i>Nguồn: Chụp từ phần mềm Orange </i>

Ở đây, bài nghiên cứu sử dụng phương pháp Cross validation: K fold với k = 5 để đánh -giá mơ hình nhờ những đặc tính vượt trội của nó so với phương pháp Hold-out như: mơ hình sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau, không trùng dữ liệu khi huấn luyện giúp mơ hình tăng độ chính xác.

<i>Hình 2.2.3: Kết quả đánh giá mơ hình bằng phương pháp K</i>-fold

<i>Nguồn: Chụp từ phần mềm Orange </i>

Kết quả cho thấy dùng phương pháp (CA, F1,và Recall) thì Logistic Regression chiếm lợi thế hơn hẳn so với thuật tốn cịn 2 lại, trong đó chỉ số F1- thường được sử dụng phổ biến để đánh giá mơ hình có giá trị đạt 0.865 hay 86,5%, phương pháp AUC thì Logistic

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Regression cũng có chỉ số cao nhất là 0.826. Bên cạnh đó thì giá trị Precision của phương pháp Logistic Regression là 0.867 cao nhất, trong phương pháp tạm thời Logistic Regression là phương pháp tốt nhất.

Tuy nhiên, độ phù hợp của của thuật toán SVM và Logistic Regression đối với bài nghiên cứu này cịn được chứng minh thơng qua phương pháp đánh giá bằng ma trận nhầm lẫn:

<i>Hình 2.2.4 : Đánh giá mơ hình lớp thơng qua Ma trận nhầm lẫn (SVM)</i>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<i>Hình 2.2.5 : Đánh giá mơ hình lớp thơng qua Ma trận nhầm lẫn (Tree) </i>

=>Vậy phương pháp Logistic Regression cho độ lỗi nhỏ nhất là 0.12, nên là phương pháp cho bộ phân lớp cho bộ dữ liệu này tốt nhất.

ROC:

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<i>Nguồn: Chụp từ phần mềm Orange </i>

Dựa vào đồ thị thì AUC của phương pháp Logistic Regression là lớn nhất và gần 1 nhất nên mơ hình này là phương pháp phân lớp tốt nhất cho bộ dữ liệu này tốt nhất. 2.3. <i><b>Kết quả của dự báo</b></i>

Ta trích 10% dữ liệu từ bộ dữ liệu này để tiến hành dự báo với phương pháp hồi quy logistic. Đầu tiên ta skip biến target là biến Attrition để tiến hành dự báo và xuất 10% (147 dữ liệu) từ bộ dữ liệu “dự báo nhân viên có nghỉ làm hay không” để dự báo vowisw phương pháp hồi quy.

<i>Hình 2.3.1: Sơ đồ Predictions </i>

<i>Nguồn: Chụp từ phần mềm Orange </i>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<i>Hình 2.3.2: Skip biến target </i>

<i>Nguồn: Chụp từ phần mềm Orange </i>

<i>Nguồn: Chụp từ phần mềm Orange </i>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<i>Hình 2.3.4. Kết quả của dự báo bằng Logistic regression </i>

<i>Nguồn: Chụp từ phần mềm Orange </i>

Hình 2.3.5: <i>Bảng kết quả dự báo excel</i>

<i>Nguồn: Chụp từ phần mềm Excel </i>

Với kết quả này ta có thể khẳng định được rằng: các nhân viên có dự định tiếp tục làm việc cho công ty chiếm đa số và nhiều hơn số lượng nhân viên có dự định nghỉ làm.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>3. Kết luận </b>

- Nhìn chung, đề tài đã cơ bản hoàn thành các mục tiêu nghiên cứu đề ra thông qua 2 phương diện:

+ Về lý thuyết, bài nghiên cứu đã trình bày được các cơ sở lý thuyết tổng quan về kỹ thuật KPDL, tập trung chủ yếu vào phương pháp phân lớp dữ liệu sử dụng thuật toán Logistics Regression.

+ Về thực nghiệm, áp dụng nền tảng lý thuyết nghiên cứu được vào bài toán ứng dụng dự báo việc nghỉ làm của nhân viên trong 1 công ty thông qua biến phụ thuộc là quyết định “Yes hay No” và biến độc lập gồm một số biến như: Age, Education, Gender,…. Bài nghiên cứu đã đề xuất xây dựng 3 mơ hình dự đốn dựa trên thuật toán Tree quyết định, SVM và Logistic Regression, từ đó so sánh các mơ hình với nhau và chọn ra mơ hình tối ưu nhất chính là Logistic Regression. Với bộ dữ liệu huấn luyện ban đầu gồm 1470 nhân viên, mơ hình cho phép phân tích các yếu tố ảnh hưởng đến việc ra quyết định nghỉ hay không và mức độ tác động của từng yếu tố.

-Hạn chế của đề tài:Mặc dù đã nỗ lực hết mình để hồn thành bài nghiên cứu, tuy nhiên, trong q trình làm bài, tơi không thể tránh khỏi một số hạn chế do các yếu tố chủ quan, cũng như khách quan:

+ Do hạn chế về mặt thời gian, làm bài cá nhân và khơng gian thực hiện, bài làm có thể khơng được chi tiết và sẽ có thiếu sót

+ Các biến được thu thập trong bài là thuộc năm 2017 nên độ chính xác có thể thay đổi khi áp dụng cho những năm sau.

</div>