Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.68 MB, 26 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>MÔN HỌC: KHOA HỌC DỮ LIỆU</b>
<b>Giảng viên hướng dẫn: TS. Thái Kim PhụngNhóm sinh viên thực hiện:Trần Thanh Sơn - 31211021963Trương Nguyễn Phương Thy - 31211024776</b>
<b>Châu Tuyết Hoa - 31211024927Nguyễn Hoàng Bảo Lân - 87221020146Lớp học phần: 22C1INF50905918 – Chiều thứ 3</b>
<b>TP.HCM, ngày 28 tháng 10 năm 2022</b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>4. Đối tượng nghiên cứu...5</b>
<b>5. Cấu trúc của bài nghiên cứu...5</b>
<b>II. CƠ SỞ LÝ LUẬN...5</b>
<b>1. Giới thiệu về khai phá dữ liệu...5</b>
<b>1.1. Khai phá dữ liệu là gì?...6</b>
<b>1.2. Quy trình khai phá dữ liệu...6</b>
<b>1.3. Ứng dụng của khai phá dữ liệu...7</b>
<b>1.4. Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange. 72. Một số thuật toán sử dụng trong bài nghiên cứu...7</b>
<b>2.1. Phương pháp cây ra quyết định (Decision Tree)...7</b>
<b>2.2. Phương pháp hồi quy logistic (Logistic Regression)...8</b>
<b>2.3. Phương pháp Mạng Nơ ron nhân tạo (Neural Network)...9</b>
<b>III. MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT...10</b>
<b>3.8. Số tiền khách hàng chi tiêu trong 2 năm:...18</b>
<b>3.9. Thói quen mua hàng của khách:...19</b>
2
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>3.10. Phản hồi của khách hàng:...20</b>
<b>IV. KẾT QUẢ THỰC HIỆN...20</b>
<b>1.Phân tích kết quả dựa trên Orange...20</b>
<b>2.Đánh giá kết quả và mơ hình...24</b>
<b> V. KẾT LUẬN VÀ NHẬN XÉT...24</b>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">Trong thời đại công nghiệp 4.0 bùng nổ, hàng loạt các thiết bị máy móc hiện đại ra đời, và cùng với đó là sự xuất hiện đa dạng của các ngành nghề mới đang dẫn đầu trong công nghiệp. Và công nghệ thông tin tại Việt Nam ngày nay cũng dần phát triển và bùng nổ khiến cho việc thu thập một lượng lớn dữ liệu tăng lên nhanh chóng. Trước tình hình bùng nổ thơng tin đang diễn ra, những người ra quyết định trong các tổ chức tài chính, thương mại, khoa học,... khơng muốn bỏ sót bất cứ thông tin nào thu thập được. Họ muốn lưu trữ tất cả thơng tin vì cho rằng trong đó ẩn chứa những giá trị tiềm ẩn cần được phát hiện.
Những lí do trên đây chính là tiền đề cho sự ra đời kỹ thuật khai phá dữ liệu (KPDL) (Data Mining) khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích dữ liệu, … đòi hỏi kỹ thuật xử lý thông minh và hiệu quả hơn ngày một tăng cao. Nhờ đó, chúng ta có khả năng khai thác những tri thức hữu dụng và thật sự cần thiết từ kho dữ liệu khổng lồ. Việc chọn lọc đúng đắn không những giúp cải thiện kết quả đầu ra trong hiện tại mà còn hỗ trợ việc ra quyết định một cách chính xác hơn.
Phân tích tính cách khách hàng là một phân tích chi tiết về những khách hàng lý tưởng của một doanh nghiệp. Nó giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và giúp họ dễ dàng sửa đổi sản phẩm theo nhu cầu, hành vi và mối quan tâm cụ thể của các loại khách hàng khác nhau. Dựa vào đó, doanh nghiệp có thể sửa đổi sản phẩm của mình thơng qua những mục tiêu của khách hàng ở những phân khúc khác nhau. Nhằm tiết kiệm chi phí trong việc quảng cáo thơng tin sản phẩm cũng như đánh trọng tâm vào tâm lý người dùng, đem lại hiệu quả cao trong kinh doanh.
Bởi sự quan trọng tất yếu đó, sinh viên nghiên cứu quyết định thực hiện đề tài về phân tích về phân khúc khách hàng tiềm năng của ngành thực phẩm thơng qua biến tính cách khách hàng, để từ đó đưa ra được những chiến lược kinh doanh tốt nhất.
<b>2. Mục đích nghiên cứu</b>
<i><b>Với đề tài nghiên cứu “Ứng dụng mơ hình máy tính học vào việc xác định kháchhàng tiềm năng trong ngành thực phẩm” tập trung vào hai mục tiêu chính:</b></i>
4
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">- Khai phá được ứng dụng Data Mining, tìm ra được phương pháp chuẩn xác nhất và phù hợp trong việc sử dụng mơ hình máy tính học vào phân tích kinh tế.
- Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp dữ liệu (phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp các đối tượng). Nghiên cứu sẽ đưa các phương pháp phân lớp dữ liệu, và từ đó sẽ chọn ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu. Cụ thể là thuật tốn phân lớp dữ liệu bằng Neural Network.
- Dự báo các mơ hình hoạt động kinh doanh sẽ dựa vào bộ dữ liệu đã được huấn luyện, từ đó sẽ đưa ra những mơ hình hoạt động kinh doanh tốt nhất cho các doanh nghiệp.
<b>3. Phương pháp thực hiện </b>
Sử dụng công cụ khai phá dữ liệu Orange để xử lý dữ liệu, biểu diễn dữ liệu cũng như so sánh các mơ hình. Dùng phần mền Excel để phân tích mơ tả chi tiết từng biến dữ liệu.
<b>4. Đối tượng nghiên cứu </b>
Đối tượng nghiên cứu là những khách hàng mua sản phẩm lương thực thiết yếu của công ty. Bộ dữ liệu cho dự án này được cung cấp bởi Tiến sĩ Omar Romero-Hernandez, và được tải xuống từ web Kaggle.com. Tập dữ liệu bao gồm thông tin dữ liệu thô chứa 2240 hàng dữ liệu (khách hàng) và 29 cột (đặc tính).
<b>5. Cấu trúc của bài nghiên cứu</b>
<i><b>Gồm có 4 chương</b></i>
<b>Chương 1: GIỚI THIỆUChương 2: CƠ SỞ LÝ LUẬNChương 3: PHÂN TÍCH VÀ DỰ BÁOChương 4: KẾT LUẬN VÀ GIẢI PHÁP</b>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Khai phá dữ liệu (Data Mining) là quá trình sắp xếp, phân loại một tập hợp các dữ liệu lớn để xác định các mẫu và thành lập một mối quan hệ nhằm giải quyết nhiều vấn đề thông qua việc phân tích dữ liệu. Các MCU khai phá dữ liệu cho phép các công ty hay các doanh nghiệp có thể dự báo được xu hướng trong tương lai.
Quá trình để khai phá dữ liệu là một quá trình rất phức tạp đòi hỏi dữ liệu cần phải chuyên sâu và u cầu nhiều kỹ năng tính tốn khác nhau. Hơn nữa, khai phá dữ liệu không chỉ giới hạn trong việc trích xuất các dữ liệu mà cịn sử dụng để làm sạch, chuyển đổi, tích hợp dữ liệu và phân tích các mẫu.
<b>1.2. Quy trình khai phá dữ liệu</b>
Quy trình khai phá dữ liệu bao gồm 7 bước như sau:
<i>- Bước 1: Làm sạch dữ liệu. Đây là bước loại bỏ nhiễu và các dữ liệu không cần thiết</i>
và được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sử dụng trực tiếp trong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo ra các kết quả khơng được chính xác.
<i>- Bước 2 Tích hợp dữ liệu.</i>: Đây là quá trình hợp nhất dữ liệu thành những kho dữ liệu sau khi đã làm sạch và xử lý. Ở bước này, có thể giúp cho dữ liệu của chúng ta cải thiện về độ chính xác cũng như tốc độ của q trình khai phá dữ liệu.
<i>- Bước 3 Làm giảm dữ liệu. </i>: Trích chọn dữ liệu từ những kho dữ liệu sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), .v.v. Mục đích ở bước này là giúp kích thước của dữ liệu có khối lượng nhỏ hơn nhưng nó vẫn đảm bảo và vẫn duy trì về tính toàn vẹn.
<i>- Bước 4 Chuyển đổi dữ liệu. </i>: Trong bước này, dữ liệu được chuyển thành một dạng phù hợp với quy trình khai phá dữ liệu. Dữ liệu được hợp nhất để quy trình khai phá dữ liệu có thể hiệu quả hơn và các mẫu dễ hiểu hơn.
<i>- Bước 5 Khai thác dữ liệu. </i>: Đây là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thơng minh để chắt lọc ra những mẫu dữ liệu. Ở bước này, chúng ta đi khai thác dữ liệu là để xác định các mẫu và một lượng lớn dữ liệu từ những suy luận.
6
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><i>- Bước 6: Đánh giá mẫu. </i>Bước này bao gồm việc xác định các mẫu đại diện cho nhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết, kiến thức nào là dư thừa và sẽ bị loại bỏ. Các phương pháp trực quan hóa và tóm tắt dữ liệu được sử dụng để người dùng có thể hiểu được bộ dữ liệu của mình.
<i>- Bước 7: Trình bày thơng tin. Q trình này sử dụng các kỹ thuật để biểu diễn và thể</i>
hiện trực quan cho người dùng. Dữ liệu sẽ được diễn giải lại dưới các báo cáo, hoặc các báo cáo dạng bảng,…
<b>1.3. Ứng dụng của khai phá dữ liệu</b>
Khai phá dữ liệu được ứng dụng rất nhiều trong đời sống xã hội tiêu biểu ở một số những lĩnh vực như sau: phân tích thị trường – chứng khốn, phát hiện gian lận, quản trị rủi ro doanh nghiệp, bán lẻ, trí tuệ nhân tạo, thương mại điện tử, phòng chống tội phạm,… và còn rất nhiều các lĩnh vực khác.
Ở lĩnh vực thương mại điện tử nhiều công ty thương mại điện tử đang áp dụng ứng dụng của Data Mining để bán hàng qua nhiều nước thông qua các trang web của họ. Một trong những công ty nổi tiếng nhất ứng dụng điều này là Amazon. Họ sử dụng các kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đó cũng thích sản phẩm được giới thiệu này”.
<b>1.4. Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange </b> Orange là phần mềm dùng để khai thác dữ liệu theo phương diện mã nguồn mở. Orange giúp cho người dùng có một giao diện lập trình sinh động và trực, dễ theo dõi chi tiết để phân tích dữ một một cách nhân nhất, chính xác, cụ thể. Orange là gói phần mềm dựa trên những cơng cụ dùng để trực quan hóa dữ liệu, khai thác và phân tích dữ liệu chính xác thơng qua ngơn ngữ lập trình. Orange cũng là một phần mềm kết hợp công cụ khai phá dữ liệu và học máy, và cung cấp những trực quan tương tác, thẩm mỹ cho người dùng phần mềm, nó được viết bằng Python.
Orange là phần mềm hướng tới mục tiêu tự động hóa. Đây là một trong những phần mềm khai phá dữ liệu tiện dụng, dễ dàng trong việc sử dụng nhờ giao diện nhỏ gọn, các toolbox được sắp xếp một cách mạch lạc, hợp lý, bất kỳ ai cũng có thể sử dụng. Vì vậy, Orange là phần mềm mà nhóm tơi sẽ sử dụng trong bài nghiên cứu.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>2. Một số thuật toán sử dụng trong bài nghiên cứu2.1. Phương pháp cây ra quyết định (Decision Tree)</b>
Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), Định danh (Nominal),Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.
Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta mô tả, phân loại, tổng quan dữ liệu cho trước này. Cụ thể hơn, cây quyết định sẽ đưa ra các dự đoán cho từng đối tượng
<i><b>Hình 2.1: Minh họa thuật tốn phân lớp cây quyết định (Decision tree)</b></i>
<b>2.2. Phương pháp hồi quy logistic (Logistic Regression)</b>
Hồi quy logistic là một mơ hình thống kê ở dạng cơ bản sử dụng một hàm logistic để lập mơ hình một biến phụ thuộc nhị phân, mặc dù tồn tại nhiều phần mở rộng phức tạp hơn. Trong phân tích hồi quy, hồi quy logistic (hay hồi quy logit) là ước lượng các tham số của mô hình logistic (một dạng của hồi quy nhị phân). Về mặt tốn học, mơ hình logistic nhị phân có một biến phụ thuộc với hai giá trị có thể có, chẳng hạn như
8
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">đạt / không đạt được đại diện bởi một biến chỉ báo, trong đó hai giá trị được gắn nhãn "0" và "1".
<i><b>Hình 2.2: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression)</b></i>
Nguồn: ANALYTICS VIDHYA. Understanding Logistic Regression.
<b>2.3. Phương pháp Mạng Nơ ron nhân tạo (Neural Network)</b>
Mạng Nơ ron nhân tạo (hay Neural Network) là mạng sử dụng một loạt các thuật tốn phức tạp nhằm xác định, xử lý thơng tin và tìm ra các mối quan hệ cơ bản tiềm ẩn trong bộ dữ liệu. Lấy cảm hứng từ mô hình hoạt động của các tế bào thần kinh và khớp thần kinh trong não của con người, Neural Network là sự kết nối các nút đơn giản, còn được gọi là tế bào thần kinh. Và một tập hợp các nút như vậy tạo thành một mạng lưới các nút. Mỗi nút có một cấu trúc tương thích với hàm hồi quy tuyến tính đa biến. Chúng sẽ được sắp xếp với các lớp liên kết với nhau. Lớp đầu vào sẽ thu nhập các dữ liệu đầu vào và các lớp đầu ra sẽ nhận các phân loại hoặc tín hiệu đầu ra mà các mẫu đầu vào có thể phản ánh lại.
Thuật tốn này có khả năng thích ứng được với mọi thay đổi từ dữ liệu đầu vào và đưa ra được mọi kết quả chính xác nhất mà có thể giữ ngun những tiêu chí đầu ra.
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><i><b>Hình 2.3: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network)</b></i>
10
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Trong các cột dữ liệu, cột Response là mục tiêu của bài nghiên cứu, cho biết khách hàng có chấp nhận ưu đãi trong chiến dịch cuối cùng hay không. Sinh viên sử dụng 80% dữ liệu để huấn luyện và 20% để kiểm tra dữ liệu. Các biến bao
Marital Status Tình trạng hơn nhân của khách hàng
Income Thu nhập hộ gia đình hàng năm của khách hàng
Kid home Nhà có con trong độ tuổi trẻ em
Teen home Nhà có con trong độ tuổi thanh thiếu niên
Dt Customer Ngày khách hàng gia nhập
Recency Lần truy cập gần đây
Mnt Wines Số tiền chi cho rượu vang trong 2 năm qua
Mnt Fruits Số tiền chi cho trái cây trong 2 năm qua
Mnt Meat Products Số tiền chi cho thịt trong 2 năm qua
Mnt Fish Products Số tiền chi cho cá trong 2 năm qua
Mnt Sweet Products Số tiền chi cho đồ ngọt trong 2 năm qua
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Mnt Gold Prods Số tiền chi cho vàng trong 2 năm qua
Num Deals Purchases
Số lần mua hàng được giảm giá
Num Web Purchases Số lần mua hàng được thực hiện thông qua trang web của
Số lần mua hàng được thực hiện trực tiếp tại cửa hàng
Num Web Visits Month
Số lần truy cập vào trang web của công ty trong tháng trước
Accepted Cmp1 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch đầu tiên hay không
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Accepted Cmp5 Cho biết khách hàng chấp nhận ưu đãi trong chiến dịch thứ 5 hay khơng
(1 = có , 0 = khơng)
Complain Phản ánh của khách hàng (1 = có , 0 = khơng)
Z_Cost Contact Chi phí liên hệ
Z_Revenue Doanh thu
<b>ResponseKhách hàng có chấp nhận ưu đãi trong chiến dịch cuối cùng hay khơng</b>
<b>(1 = có , 0 = khơng)</b>
<b>2. Xử lý dữ liệu:</b>
Quan sát dữ liệu sinh viên nhận thấy dữ liệu của các cột ID, Dt Customer, Z_Cost Contact, Z_Revenue, Accepted Cmp 1,2,3,4,5 không ảnh hưởng đến việc đưa ra đánh giá, vì vậy sinh viên khơng sử dụng các đặc tính này vào q trình huấn luyện.
<b>3. Trực quan hóa dữ liệu:</b>
Sinh viên sử dụng cơng cụ Excel để trực quan hóa dữ liệu dưới dạng biểu đồ cho các biến như sau:
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><b>3.1. Năm sinh:</b>
<b>Hình 1: Trực quan hóa dữ liệu theo độ tuổi</b>
- Dựa vào năm sinh để phân loại khách hàng, những khách hàng có năm sinh từ 1962 trở về sau được xếp vào nhóm độ tuổi lao động. Từ 1962 trở về trước sẽ được xếp vào nhóm hết tuổi lao động.
- Kết quả trực quan cho thấy người trong độ tuổi lao động chiếm phần lớn trong dữ liệu vì thường là nguồn thu nhập chính trong gia đình. Tỷ lệ khơng đồng ý trong dữ liệu nhận được nhiều đánh giá hơn.
<b>3.2. Trình độ học vấn:</b>
<b>Hình 2: Trực quan hóa dữ liệu theo trình độ học vấn</b>
Khơng có khác biệt nhiều về trình độ của khách hàng đồng ý và khơng đồng ý. Khách hàng có bằng cấp đại học và tiến sĩ chiếm phần lớn dữ liệu. Khách hàng có phản hồi khơng đồng ý cao hơn khách hàng đồng ý.
14
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><b>3.3. Tình trạng hơn nhân:</b>
- Đối với biến này sinh viên sẽ phân loại khách hàng thành hai nhóm. Những người trong tình trạng alone, single, divorced, widow được xếp vào nhóm độc thân, những người trong tình trạng married, together được xếp vào nhóm đã lập gia đình.
<b>Hình 3: Trực quan hóa dữ liệu theo tình trạng hơn nhân</b>
- Nhóm khách hàng đã lập gia đình có nhiều đánh giá hơn đối với ngành hàng thực phẩm. Tỷ lệ không đồng ý cao hơn tỷ lệ đồng ý ở cả hai nhóm.
<b>3.4. Thu nhập hộ gia đình hàng năm:</b>
- Đối với biến này sinh viên phân nhóm khách hàng theo thu nhập trung bình nước Mỹ. Thu nhập hộ gia đình trung bình hằng năm (2021) khoảng 60.000 $. Vậy nhóm khách hàng có thu nhập dưới 60.000 $ sẽ xếp vào nhóm thu nhập dưới trung bình, nhóm có thu nhập trên 60.000 $ xếp vào nhóm thu nhập trên trung bình.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16"><b>Hình 4: Trực quan hóa dữ liệu theo thu nhập hộ gia đình</b>
- Số lượng đánh giá thuộc về nhóm khách hàng có thu nhập dưới trung bình vì họ có nhu cầu thực phẩm cao hơn dựa trên lý thuyết thang đo nhu cầu Maslow. Số lượng khách hàng không đồng ý cao hơn số lượng khách hàng đồng ý ở cả hai nhóm.
<b>3.5. Hộ gia đình có con:</b>
<b>Hình 5: Gia đình có con trong độ tuổi trẻ em</b>
16
</div>