Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.81 MB, 38 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>BỘ GIÁO DỤC & ĐÀO TẠO</b>
<b>ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH</b>
<b>KHOA CƠNG NGHỆ THƠNG TIN KINH DOANH</b>
<b>Đ! TÀI:“</b>
<i><b>TP. H Ch Minh 9 Thng 10 , 2022</b></i>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">Nhóm tự đánh giá dự án của mình có <b>khơng liên quan</b> đến chun ngành (Kế tốn)
Hình 1. Ví dụ mơ hình cây quyết định về lựa chọn làm việc một ngày cụ thể Hình 2. Biểu đồ thể hiện giá trị Margin và Support Vector
Hình 3. Mơ hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic Hình 4. Đường cong ROC
Hình 5. Diện tích đường cong ROC (độ đo AUC) Hình 6. Sơ đồ khai phá dữ liệu
Hình 7. Mơ hình bài tốn 1 Hình 8. Kết quả đánh giá bài tốn 1 Hình 9,10,11. Ma trận nhầm lẫn Hình 12. Kết quả dự báo Hình 13,14. Mơ hình bài tốn 2 Hình 15. Kết quả phân nhóm Hình 16-29. Đánh giá chung bộ dữ liệu Hình 30,31. Mơ hình bài tốn 3
Hình 32- 47. Thống kê bằng biểu đồ bài toán 3
Bảng 1. Ma trận nhầm lẫn
Bảng 2. Độ đo AUC với độ chính xác của mơ hình phân lớp
<b>1.1 Lý do ch?n đề tài:</b>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">Ngành hàng không bao gồm các chuỗi dịch vụ từ vận tải hàng không, cảng hàng không đến các dịch vụ phụ trợ. Trong đó, vận tải hàng khơng đóng vai trị quan trọng nhất trong chuỗi giá trị ngành; vận tải hàng khơng phát triển thì cảng hàng khơng và các dịch vụ phụ trợ sẽ hưởng lợi theo. Nếu xem vận tải hàng khơng là xương sống của ngành, thì cảng hàng không là lĩnh vực chịu trách nhiệm cung cấp CSHT cho hầu hết các hoạt động của các phân khúc kinh doanh khác trong chuỗi giá trị ngành, là nơi kết nối hệ thống hàng không của mỗi quốc gia với các phương thức vận chuyển khác. Công nghệ đang thay đổi mạnh mẽ cách các doanh nghiệp kết nối với khách hàng, đưa ra quyết định kinh doanh và xây dựng quy trình làm việc. Thế giới hàng không cũng bị ảnh hưởng: dữ liệu đang chuyển đổi các hãng hàng không từ hoạt động trước chuyến bay sang sau chuyến bay, bao gồm mua vé, chọn chỗ ngồi, hành lý, lên máy bay, vận chuyển mặt đất,... Do đó, dữ liệu cần thiết cho hàng chục các trường hợp sử dụng được ghi lại dọc theo các thành phần khác nhau của hành trình của hành khách. Chúng ta sẽ không đặt chuyến bay qua điện thoại nữa, chúng ta không đi đến các đại lý du lịch để tìm kiếm các ưu đãi tốt nhất. Thay vào đó, chúng ta có quyền truy cập theo thời gian thực vào dữ liệu, theo đó, cho phép các tổ chức thực hiện các bước sáng suốt nhằm hướng tới hiệu quả hoạt động và cải thiện trải nghiệm khách hàng.
<b>Lý do chính cho điều này có thể được giải thích là do bối cảnh cực kỳ phức tạp của</b>
ngành <b>và thực tế là các hãng hàng khơng hiện đại có nhiều vấn đề kinh doanhđang chờ xử lý, chẳng hạn như sân chơi không đồng đều trên toàn cầu, lỗ hổng doanh</b>
thu, đường chân trời lập kế hoạch cực kỳ thay đổi, tính chu kỳ và thời vụ cao, cạnh tranh khốc liệt và sự can thiệp quá mức của chính phủ.
Cạnh tranh trong ngành hàng không rất khốc liệt và hãng hàng không là một trong những doanh nghiệp phức tạp nhất để quản lý do nhiều biến số thị trường và các quy định của chính phủ có thể ảnh hưởng đến lợi nhuận của họ, cũng như mức độ khó đốn định cao của ngành. Ứng dụng khoa học dữ liệu có thể tăng doanh thu của hãng hàng khơng bằng cách cung cấp cho các công ty sự hiểu biết sâu sắc hơn về hành vi
<b>của khách hàng. “Giúp hãng hàng khơng phục vụ khách hàng tốt hơn từ đó giữchân khách hàng cũ, thu hút thêm khách hàng mới và tăng doanh thu”</b>
Vì đây là dự án đầu tiên chúng em thực hiê rn và cũng là lần đầu chúng em có cơ hơ ri hợp tác với nhau, vì thế dự án mà chúng em nghiên cứu sao đây không khsi tránh
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">được những sơ sót mong thầy bs qua vì những lỗi này. Qua đó, chúng em cũng cảm ơn thầy Trần Mạnh Tuấn đã hướng dẫn tâ rn tình, giải đáp các thắc mắc của chúng em để có thể thực hiê rn đề tài này mô rt cách tốt nhất.
1.1.1<small> </small>Mục tiêu nghiên cứu
Mục tiêu tổng quát của bài báo cáo là đưa ra các chiến lược kinh doanh hợp lý dựa vào việc dự báo và phân tích dữ liệu về hành vi của khách hàng.
1.1.2<small> </small>Đối tượng nghiên cứu
Nhóm đã sử dụng bộ dữ liệu nghiên cứu do một tổ chức hàng không đưa ra:
satisfaction? resource=download
Tập dữ liệu bao gồm thông tin chi tiết về những khách hàng đã bay với họ. Phản hồi của khách hàng về các bối cảnh khác nhau và dữ liệu chuyến bay của họ đã được tổng hợp. Mục đích chính của tập dữ liệu này là dự đốn liệu một khách hàng trong tương lai có hài lịng với dịch vụ của họ hay không khi cung cấp thông tin chi tiết về các giá trị tham số khác. Ngồi ra, các hãng hàng khơng cần biết khía cạnh nào của các dịch vụ mà họ cung cấp phải được nhấn mạnh hơn để tạo ra nhiều khách hàng hài lịng hơn.
<b>1.2 Mơ tả bài tốn:</b>
BT1: Dự đốn một khách hàng trong tương lai có hài lịng với dịch vụ của hãng hay khơng.
BT2: Phân cụm sự hài lịng của khách hàng theo loại hình du lịch là đi công tác. BT3: Đặc điểm của khách hàng trong bộ dữ liệu
<b>1.3 Mô tả phương pháp:</b>
1.3.1<small> </small>Phương pháp phân lớp (Classification)
Phương pháp phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mơ hình phân lớp. Mơ hình này đã được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó.
Quá trình phân lớp dữ liệu gồm 3 bước: - Bước 1: Xây dựng mơ hình
• Dữ liệu đầu vào là dữ liệu mẫu đã được gán nhãn và tiền xử lý. . • Các thuật tốn phân lớp: LR,NN, SVM,…
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">• Kết quả của bước này là mơ hình phân lớp đã được huấn luyện (trình phân lớp) - Bước 2: Đánh giá mơ hình (kiểm tra tính đúng đắn)
• Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gắn nhãn và tiền xử lý. Tuy nhiên lúc đưa vào mơ hình phân lớp, ta sẽ “lờ” đi thuộc tình đã được gắn nhãn. • Tính đúng đắn của mơ hình sẽ được xác định bằng cách so sánh thuộc tính gắn nhãn của dữ liệu đầu vào và kết quả phân lớp mô hình.
- Bước 3: Phân lớp dữ liệu mới phân loại bài toán phân lớp: Nhiệm vụ của bài toán phân lớp là phân loại đối tượng dữ liệu vào n lớp cho trước nếu:
• n = 2: Thuộc bài toán phân lớp nhị phân. 7 • n > 2: Thuộc bài toán phân lớp đa lớp. Các phương pháp phân lớp được sử dụng trong bài: - Cây quyết định (Decision Tree):
Cây quyết định là một hệ thống phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng có thể thuộc vào nhiều kiểu dữ liệu khác nhau (Binary, Norminal, Ordinal, Quantitative,…) và thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.
Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta mô tả, phân loại, tổng quan dữ liệu cho trước này. Cụ thể hơn, cây quyết định sẽ đưa ra các dự đoán cho từng đối tượng.
Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại. Cây hồi quy có ước tính mơ hình là các giá trị số thực và cây phân loại được dùng trong các mơ hình có giá trị cuối cùng nằm mục đích chính là phần loại.
Để hiểu rõ hơn về cây quyết định, ta xét ưu và nhược điểm như sau. Về ưu điểm, cây quyết định trình bày một cách đơn giản, dễ hiểu, khơng cần chuẩn hóa dữ liệu, có thể xử lý trên nhiều kiểu dữ liệu khác nhau và xử lý tốt một lượng lớn dữ liệu trong thời gian nhanh nhất. Mặc khác, cây quyết định cũng có một vài khuyết điểm cơ bản là khó giải quyết trong tình huống dữ liệu bị ảnh hưởng bởi thời gian hoặc chi phí để xây dựng các mơ hình về cây quyết định khá cao.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">
<b>Hình 1. Ví dụ mơ hình cây quyết định về lựa ch?n làm việc một ngày cụ thể</b>
- SVM (Support Vector Machine):
SVM là một thuật toán giám sát, nhưng hầu như nó được dùng cho phân loại. Ở thuật toán này, chúng ta sẽ vẽ đi đồ thị dữ liệu là các điểm trong chiều (ta xác định là các tính năng mà chúng ta có sẵn) với giá trị của mỗi tính năng sẽ là một phần liên kết. SVM nhận dữ liệu vào, xem các dữ liệu đầu vào là các vector khơng gian, sau đó chúng được phân loại vào các lớp khác nhau thông qua cơ chế xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.
Để chúng ta có thể tối ưu được kết quả phân lớp thì phải xác định siêu phẳng có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể. SVM có nhiều dạng phù hợp với nhiều bài tốn về phân loại. Để hiểu rõ sâu hơn, chúng ta đi tìm các khái niệm về Margin cũng như là Support Vector.
Margin là khoảng cách giữa siêu phẳng trong trường hợp không gian hai chiều là đường thẳng đến hai điểm dữ liệu gần nhất tương ứng với hai phân lớp. SVM tối ưu bằng cách tối đa hóa giá trị margin này, từ đó sẽ tìm ra một siêu phằng đẹp nhất và thích hợp nhất cho phân hai lớp dữ liệu. Vì thế, SVM có thể làm giảm thiếu việc phân lớp bị sai (misclassification) đối với dữ liệu điểm mới đưa vào.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">
<b>Hình 2. Biểu đồ thể hiện giá trị Margin và Support Vector</b>
- LR (Logistic regression):
Hồi quy Logistic cịn có tên gọi khác là hồi quy nhị thức. Hồi quy Logistic được sử dụng để dự đoán xác suất của quan sát vào các loại biến phụ thuộc dựa trên các loại biến phụ thuộc hay một hoặc nhiều biến độc lập có thể các biến này là liên tục hay được phân loại. Ngoài ra, nếu biến phụ thuộc là một số đếm thì phương pháp có thể dùng là hồi quy Poisson. Nếu chúng ta có nhiều hơn hai biến phụ thuộc thì khi đó là gọi là hồi quy Logistic đa thức.
Phương pháp hồi quy Logistic hay Logistic Regression là một mô hình xác suất dự đốn giá trị đầu ra rời rạc (discrete target variable) từ một tập các giá trị đầu vào (được thể hiện dưới dạng vector). Việc này khá tương đương với việc phân loại đầu vào vào các nhóm tương ứng.
Mơ hình hồi quy Logistic sử dụng để chúng ta dự đoán biến phân loại bởi một hay nhiều biến độc lập liên tục. Biến phụ thuộc của chúng ta có thể là thứ tự, rời rac,… Đối với biến độc lập có thể là một khoảng hay một tỉ lệ, rời rạc,… hay có thể hỗ hợp của tất cả. Chúng ta có thể biểu diễn cơng thức của phương pháp hồi quy Logistic như sau:
Trong đó:
d là số lượng thuộc tính của dữ liệu.
w là trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại cho phù hợp.
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">
<b>Hình 3. Mơ hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic</b>
1.3.2 Các phương pháp đánh giá mơ hình phân lớp
Trong các bài tốn phân loại, để chúng ta có thể đánh giá mơ hình tốt chúng ta có thể sử dụng như dựa vào ma trận nhầm lẫn để xác định độ chính xác (Accuracy); ROC, AUC, Precision/Recall và Cross Validation: Holdout và K-fold cross validation. Bây giờ chúng ta sẽ tìm hiểu chi tiết về mức độ đánh giá của chúng.
1.3.2.1 Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC, AUC, Precision/Recall
Ma trận nhầm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc về một lớp cụ thể và được dự đoán rơi vào lớp nào. Ma trận nhầm lẫn có kích thước với là số lượng của lớp dữ liệu. Ma trận nhầm lẫn bao gồm 4 loại giá trị chính như sau:
TP<small>[i]</small> (true positive) là số dự đốn chính xác của lớp .
FP<small>[i]</small> (false positive) là số lượng các mẫu không thuộc lớp , bị phân loại nhầm
Ma trận nhầm lẫn với bài toán cụ thể phân lớp với hai mẫu dữ liệu mang nhãn (+) và mang nhãn (–). Bảng 2.1 thể hiện rõ hơn ma trận nhầm lẫn:
<b>Bảng 1. Ma trận nh@m lKn</b>
<b>MKu dữ liệu<sup>Được phân lớp bởi mơ hình</sup></b><sub>+</sub> <sub>–</sub>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">– FP TN Nguồn: Phí Bá Chiến – Trường Đại học Cơng Nghệ (Đại học Quốc Gia Hà Nội) Từ bảng ma trận nhầm lẫn 2.1, ta có thể được các giá trị để đo độ chính xác của mơ hình. Độ chính xác (Precision) là tỷ lệ giữa số phân loại đúng là mẫu dương trên tổng số các mẫu được phân loại là mẫu dương. Ta có cơng thức của Precision được thể hiện như sau:
Độ bao phủ (Recall) được xác định số mẫu phân loại đúng là mẫu dương trên tổng số mẫu dương thực, được thể hiện bởi công thức sau đây:
Từ đó, ta có thể tính được chỉ số F – score và nó là tiêu chí đánh giá dựa trên<small>1</small> sự kết hợp của độ chính xác (Precision) và độ bao phủ (Recall). Cơng thức tính F –<small>1</small> score như sau:
Ngồi ra, ta cịn cơng thức về độ chính xác (Accuracy) như sau:
Vì ở trong bài, chúng ta không dùng nhiều về độ nhạy (Sensitivity) và độ đặc hiệu (Specificity) nhưng, chúng ta vẫn phân tích một vào chi tiết để có phân phân tích kỹ hơn ở phần ROC và AUC. Độ nhạy (Sentivity) là tỷ lệ số mẫu phân loại đúng là mẫu dương trên tổng số mẫu dương thực
Độ đặc hiệu (Specificity) là tỷ lệ số mẫu phân loại đúng là mẫu âm trên tổng số mẫu âm thực:
Ta có thể thấy trong bài toán phân loại hai mẫu dương và âm, kết quả lý tưởng là độ nhạy và độ đặc hiệu bằng 1. Tức mơ hình là phân lớp đúng 100%. Nhưng theo thực tế thì khơng có bất cứ một mơ hình phân lớp nào chính xác tuyệt đối 100%. Hầu hết, các mơ hình có độ nhạy cao thì độ đặc hiệu thấp và ngược lại vì vậy biểu đồ ROC (Receiver Operating Characteristic) là phương pháp phân tích để cân bằng hai độ đo này. Biểu đồ ROC gồm 2 trục và trục . Trục hoành biểu diễn cho giá trị False
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Positive Rate và trục tung biểu diễn cho giá trị True Positive Rate. Công thức của True Positive Rate và False Positive Rate như sau:
<b>Hình 4. Đường cong ROC</b>
Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội) ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mơ hình phân loại nhị phân. Hai giá trị True positive rate và False positive rate được biểu diễn bởi các điểm trên biểu đồ ROC. Hai chỉ số này biến thiên ngược chiều nhau và tạo thành đường cong ROC. Các điểm nằm phía bên trái của đường chéo sẽ cho kết quả tốt. AUC (Area Under the Curve) Là diện tích nằm dưới đường cong ROC. Giá trị này là một số dương nhs hơn hoặc bằng 1. Giá trị này càng lớn thì mơ hình càng tốt. (AUC trên 0.5 là mơ hình tốt).
<b>Hình 5. Diện tích đường cong ROC (độ đo AUC)</b>
Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
<b>Bảng 2. Độ đo AUC với độ chính xác của mơ hình phân lớp</b>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Nguồn: Phí Bá Chiến – Trường Đại học Cơng Nghệ (Đại học Quốc Gia Hà Nội) 1.3.2.2. Cross Validation: Holdout và K-fold cross validation
Trong phương pháp Holdout, dữ liệu được chia ngẫu nhiên thành 2 phần như sau là tập dữ liệu huấn luyện và tập dữ liệu dự báo. Thông thường dữ liệu cấp cho dữ liệu đào tạo, còn lại cho tập dữ dự báo. Ta có thể ví dụ rõ hơn như sau. Tồn bộ tập được chia thành 2 tập con không giao nhau. Tập là bộ dữ liệu đã được huấn luyện, tập dữ liệu dự báo để đánh giá hiệu năng của hệ thống đã học. Từ đó ta có kết quả như sau:
Chúng ta có các yêu cầu cho phần Holdout. Bất kỳ ví dụ nào thuộc tập dự báo đều khơng được sử dụng trong q trình huấn luyện hệ thống. Hay bất kỳ ví dụ nào được sử dụng trong q trình huấn luyện thì sẽ khơng được sử dụng trong quá trình dự báo. Một chi tiết nhs cần phải lưu ý là tập phải có kích thước lớn.
Đối với K-fold cross validation dùng với việc tránh trùng lặp giữa các tập kiểm thử (một số ví dụ thường xuất hiện trong các tập kiểm thử khác nhau). Tập dữ liệu A được chia thành tập con không giao nhau (chúng ta gọi là “fold”) có kích thước xấp xỉ nhau. Mỗi lần (trong số lần) lặp, một tập con sẽ sử dụng làm tập kiểm thử và tập con còn lại làm tập huấn luyện. giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trung bình cộng để thu được giá trị lỗi tổng thể. Các lựa chọn của thông thường sẽ là 10 hoặc 5, phù hợp với tập A vừa và nhs. Thông thường, mỗi tập con (fold) được lấy mẫu phân tầng (xấp xỉ phân bố lớp) trước khi áp dụng quá trình đánh giá Cross-validation.
1.3.3<small> </small>Phương pháp phân cụm (Clustering)
Phân cụm dữ liệu là q trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng. Trong đó:
- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau. - Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau.
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Đặc điểm:
- Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu. - Phân cụm thuộc nhóm phương pháp học khơng giám sát (unsupervised learning) vì khơng biết trước được số nhóm
- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao: • Độ tương đồng bên trong cụm cao 9
• Độ tương tự giữa các cụm thấp (khác biệt cao) - Các ứng dụng điển hình:
• Cơng cụ phân cụm dữ liệu độc lập.
• Là giai đoạn tiền xử lý cho các thuật toán khác. Độ đo phân cụm được sử dụng làm tiêu chí nhằm tính tốn sự tương đồng hoặc sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm. Một số độ đo phân cụm: Euclid, Cosin, Minkowski …
Thuật toán K-means:
- Thuộc nhóm thuật tốn phân cụm dựa trên phân hoạch.
- Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)
<b>1.4 Mơ tả thuộc tính:</b>
Giới tính: Nữ, Nam
Loại khách hàng: Khách hàng trung thành, khách hàng không trung thành Tuổi: Tuổi thực của hành khách
Loại hình du lịch: Du lịch cá nhân, Đi công tác Hạng: hạng Thương gia, hạng Eco, hạng Eco Plus Khoảng cách bay: Khoảng cách bay của hành trình
Dịch vụ wifi trên chuyến bay: Mức độ hài lòng đối với dịch vụ wifi trên chuyến Thời gian đi / đến thuận tiện: Mức độ hài lòng về Thời gian đi/đến thuận tiện Dễ dàng đặt phòng trực tuyến: Mức độ hài lòng khi đặt phòng trực tuyến Vị trí cổng: Mức độ hài lịng về vị trí cổng lên máy bay
Đồ ăn và thức uống: Mức độ hài lòng của đồ ăn và thức uống trên máy bay Nội trú trực tuyến: Mức độ hài lòng của nội trú trực tuyến
Sự thoải mái của chỗ ngồi: Mức độ hài lòng về sự thoải mái của chỗ ngồi
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Giải trí trên chuyến bay: Mức độ hài lịng của giải trí trên chuyến bay Dịch vụ trên tàu: Mức độ hài lòng của dịch vụ trên tàu
Dịch vụ phòng chân: Mức độ hài lòng của dịch vụ phòng chân Xử lý hành lý: Mức độ hài lòng của việc xếp dỡ hành lý Dịch vụ nhận phòng: Mức độ hài lòng về dịch vụ nhận phòng Dịch vụ trên chuyến bay: Mức độ hài lòng của dịch vụ trên chuyến bay Sạch sẽ: Mức độ hài lòng về sự sạch sẽ của máy bay
Khởi hành chậm trễ trong vài phút: Số phút bị trì hỗn khi khởi hành
Khai phá dữ liệu (Data Mining) là quá trình sắp xếp, phân loại một tập hợp các dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiều vấn đề thơng qua việc phân tích dữ liệu. Các MCU khai phá dữ liệu cho phép các công ty hay các doanh nghiệp có thể dự báo được xu hướng trong tương lại.
Quá trình để khai phá dữ liệu là một q trình rất phức tạp địi hsi dữ liệu cần phải chuyên sâu và yêu cầu nhiều kỹ năng tính tốn khác nhau. Hơn nữa, khai phá dữ liệu khơng chỉ giới hạn trong việc trích xuất các dữ liệu mà còn sử dụng để làm sạch, chuyển đổi, tích hợp dữ liệu và phân tích các mẫu.
<b>2.1.2. Các tính năng chính của khai phá dữ liệu</b>
Có nhiều các tham số quan trọng trong khai phá dữ liệu, ví dụ như các quy tắc về phân loại và phân cụm. Khai phá dữ liệu có 5 tính năng chính như sau:
Dự báo nhiều mẫu dựa trên bộ dữ liệu đã được huấn luyện.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Tính tốn và dự đốn các kết quả.
Tạo nhiều thơng tin để phản hồi và phân tích. Bộ dữ liệu khá lớn.
Phân cụm dữ liệu một cách trực quan, sinh động.
<b>2.1.3. Quy trình khai phá dữ liệu</b>
Quy trình khai phá dữ liệu bao gồm 7 bước như sau cùng với đó quy trình khai phá dữ liệu được trình bày dưới dạng sơ đồ hình vẽ thơng qua hình 6 như sau:
Bước 1: Làm sạch dữ liệu. Đây là bước đầu tiên trong quy trình khai phá dữ liệu. Bước này được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sử dụng trực tiếp trong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo ra các kết quả không được chính xác.
Bước 2 Tích hợp dữ liệu.: Ở bước này, có thể giúp cho dữ liệu của chúng ta cải thiện về độ chính xác cũng như tốc độ của quá trình khai phá dữ liệu.
Bước 3 Làm giảm dữ liệu. : Mục đích ở bước này là giúp kích thước của dữ liệu có khối lượng nhs hơn nhưng nó vẫn đảm bảo và vẫn duy trì về tính tồn vẹn.
Bước 4 Chuyển đổi dữ liệu. : Trong bước này, dữ liệu được chuyển thành một dạng phù hợp với quy trình khai phá dữ liệu. Dữ liệu được hợp nhất để quy trình khai phá dữ liệu có thể hiệu quả hơn và các mẫu dễ hiểu hơn.
Bước 5 Khai thác dữ liệu. : Ở bước này, chúng ta đi khai thác dữ liệu là để xác định các mẫu và một lượng lớn dữ liệu từ những suy luận.
Bước 6: Đánh giá mẫu. Bước này bao gồm việc xác định các mẫu đại diện cho nhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết, kiến thức nào là dư thừa và sẽ bị loại bs.
Bước 7: Trình bày thơng tin. Dữ liệu sẽ được diễn giải lại dưới các báo cáo, hoặc các báo cáo dạng bảng,… và sau đó gửi cho bên bộ phân xử lý thông tin này.
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">cre: insight.isb.edu.vn
<b>Hình 6. Sơ đồ khai phá dữ liệu</b>
<b>2.2 Phân tích và tiền xử lý dữ liệu </b>
2.2.1 Phân tích dữ liệu Phân tích dữ liệu của các đặc trưng có tính phân loại: - Mỗi hàng đại diện cho 1 khách hàng, mỗi cột chứa các thuộc tính của đối tượng. - Dữ liệu thô chứa 3.119 hàng (đối tượng) và 26 cột (đặc trưng).
- Trong cột dữ liệu về sự hài lịng có 2 thuộc tính là: hài lịng, trung tính hoặc khơng hài lịng, nhóm đã tiến hành xử lí 2 thuộc tính này về dạng là 1,0 (1 đại diện cho “hài lòng” và 0 là “trung tính hoặc khơng hài lịng”)
2.2.2 Tiền xử lý dữ liệu
Báo cáo sử dụng bộ dữ liệu được tổng hợp từ trang kaggle, đã được xác mình và xử lý cơ bản nên khơng có dữ liệu thiếu.
<b>2.3 Bài toán 1: Dự đoán liệu một khách hàng trong tương lai có hài lịng với dịchvụ của hãng hay khơng</b>
2.3.1 Qui trình thực hiện
-Bước 1: Chọn dữ liệu File Data.xlsx và chọn cột “Sastisfacion” làm Target. -Bước 2: Dùng 3 phương pháp: LR, SVM, Tree tiến hành phân loại loại khách hàng & đánh giá hiệu quả các phương pháp.
-Bước 3: Chọn phương pháp được đánh giá tốt nhất, dùng phương pháp đó dự báo cho dữ liệu
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Sai lầm loại 2: Dự báo là hài lịng nhưng thực tế là khơng hài lịng vì ảnh hưởng đến trải nghiệm của khách hàng.
Tree=LR=0 < SVM=1 => Sử dụng Test and Score
</div>