Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.87 MB, 70 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>UNIVERSITY OF ECONOMICS AND LAWFACULTY OF INFORMATION SYSTEMS</b>
<b>BÁO CÁO ĐỒ ÁN CUỐI KỲ</b>
<b>MÔN PHƯƠNG PHÁP NGHIÊN CỨU LIÊN NGÀNHĐỀ TÀI RFM – GIẢI PHÁP HIỆU QUẢ ĐỂ PHÂN CỤM KHÁCH</b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>Thành viên </b>
<b>(Thang điểm 10) <sup>NHIỆM VỤ </sup></b>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>Lời cảm ơn</b>
Lời đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến thầy Hồ Trung Thành - giảng viên khoa Hệ thống thông tin trường Đại học Kinh tế - Luật đã tận tâm dạy bảo chúng em trong suốt kì học vừa qua. Thời gian qua là một khoảng thời gian không dài nhưng cũng chẳng phải ngắn, chúng em đã được tiếp cận với nhiều kiến thức bổ ích cũng như các kỹ năng liên quan đến RFM, K-means và cả những kỹ năng thực hành excel vơ cùng bổ ích. Tích lũy những kiến thức được thầy truyền đạt lại,
<i><b>nhóm chúng em xin được trình bày đến thầy báo cáo đồ án cuối kỳ “RFM– giải pháphiệu quả để phân cụm khách hàng trong lĩnh vực bán lẻ”. </b></i>
Mặc dù, cả nhóm chúng em đã nỗ lực tìm hiểu thêm về các kiến thức liên quan và cả các kỹ năng cần thiết để thực hiện đồ án nhưng chúng em cũng khơng thể hồn tồn tránh khỏi những thiếu sót trong q trình làm việc. Vì vậy, nhóm em rất mong nhận được những lời nhận xét và ý kiến từ thầy để có thể sửa đổi, bổ sung, nâng cao kỹ năng làm việc và kiến thức của chúng em, để phục vụ tốt hơn cho các cơng tác sau này. Nhóm em xin gửi lời cảm ơn đến thầy, chúc thầy và gia đình ln có thật nhiều sức khoẻ.
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>Lời cam kết</b>
Nhóm chúng em xin cam đoan đồ án “RFM– giải pháp hiệu quả để phân cụm khách hàng trong lĩnh vực bán lẻ” do chính nhóm chúng em thực hiện dưới sự hướng dẫn của thầy Hồ Trung Thành và có tham khảo các nguồn tài liệu có liên quan để phục vụ cho mục đích nghiên cứu. Nhóm chúng em xin chắc chắn rằng tồn bộ nội dung bài báo cáo là trung thực, duy nhất và không hề tồn tại sự gian lận. Đồng thời, tồn bộ các số liệu, thơng tin có trong bài báo cáo đều là kết quả của quá trình thực hành. Nếu có xuất hiện bất kỳ vấn đề gian dối, sai lệch, nhóm chúng em xin chịu mọi trách nhiệm.
1.4 Khoảng trống nghiên cứu và những điểm mới của nhóm 13
2.1.2 Vai trò của việc nghiên cứu hành vi khách hàng 15 2.1.3 Tại sao cần nghiên cứu hành vi khách hàng? 15
2.1.5 Các yếu tố ảnh hưởng đến hành vi khách hàng 16
2.2.2 Tầm quan trọng của việc phân khúc khách hàng 16
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">2.5.3 Các loại phân tích Cohort 23
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><b>Danh mục bảng biểuDanh mục hình ảnh và đồ thịBảng thuật ngữ viết tắt</b>
– Frequency – Monetary.
Recency Thời gian của lần cuối gần nhất mà khách hàng đã mua hàng.
Frequency Tần suất mua hàng của khách hàng
Monetary Tổng lượng tiền mà khách hàng đã chi tiêu cho toàn bộ hoạt động mua sắm.
K-means Một trong những thuật toán được sử dụng trong lĩnh vực Machine Learning thuộc mơ hình Học khơng giám sát. Machine Learning Phương pháp học máy.
Cluster Cụm hay nhóm, gồm các điểm dữ liệu trong phân tích cụm. Outlier Dữ liệu ngoại lai.
Bounce rate Tỉ lệ người dùng rời website khi vừa truy cập thay vì tiếp tục xem các trang khác thuộc một website. Retention rate Tỉ lệ người dùng quay lại sử dụng sản phẩm trong
một khoảng thời gian nhất định sau lần đầu sử dụng.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>Sơ đồ Gantt</b>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><b>Tổng quan đồ án</b>
<i>Lý do chọn đề tài:</i>
Ngày nay, yêu cầu cao về cạnh tranh chiến lược và chính sách bán hàng của từng cơng ty ngày càng phát triển một cách mạnh mẽ với một mục đích cuối cùng đó là tối đa hóa doanh thu đi kèm với giảm thiểu chi phí cho sản xuất, kinh doanh. các cơng ty/cơng ty khơng cịn áp dụng các chiến lược marketing một cách tổng thể như trước đây với việc gộp chung tất cả các khách hàng để phục vụ cùng một loại sản phẩm/dịch vụ. Điều này có thể làm giảm khả năng cạnh tranh của công ty/công ty so với các đối thủ cạnh tranh khác trên thị trường. Đã có rất nhiều giải pháp được đề ra trong đó có thể đề cập đến phương pháp RFM thông qua các dữ liệu từ công tác mua bán hàng của công ty đối với khách hàng trong mà ở đây chính là lĩnh vực bán lẻ. từ chính những dữ liệu này có thể giúp chúng ta tổng hợp được đặc điểm mua hàng của từng khách hàng sau đó phân cụm khách hàng rõ ràng để có những chính sách và hậu mãi riêng biệt để có thể tăng doanh thu và níu chân khách hàng biến họ trở thành tệp khách hàng trung thành cho công ty.
Tuy nhiên, việc phân cụm khách hàng địi hỏi một khối lượng lớn nguồn lực thì mới có thể thực hiện một cách đầy đủ và chính xác nhất để có thể trình bày một cách chi tiết về cụm khách để cơng ty có những phán đoán kịp thời và ra quyết định cho chiến lược kinh doanh của mình.
Việc áp dụng học máy vào trong phân khúc khách hàng giúp ta tiết kiệm đáng kể nguồn lực của cơng ty. Ngồi ra có thể kể đến độ chính xác và trực quan từ mơ hình RFM mang lại. Nếu như so với việc thực hiện RFM một cách thủ công từ bàn tay con người thì chắc chắn sẽ xảy ra những sai sót phần nào ảnh hưởng đến quyết định của công ty. Triển khai học máy RFM sẽ đòi hỏi một nguồn đầu tư lớn cho cơ sở vật chất, cơ sở hạ tầng về thiết bị, thu thập dữ liệu khách hàng,….Nếu như được đầu tư đúng mức thì cơng ty chỉ cần thiết lập những bước ban đầu cho cơng cụ này sau đó thì lợi ích mà nó mang đến hoàn toàn lớn hơn so với phần mà họ đã đầu tư.
<i>Mục tiêu nghiên cứu</i>
- Mục tiêu ngắn hạn:
+ Phân cụm từng tệp khách hàng nhằm có các chính sách bán hàng phù hợp, lọc ra các khách hàng chun biệt mang tính biệt lập như có số lần mua hàng ít tuy nhiên số lượng hàng và giá trị hàng hóa tương đối lớn hay các khách hàng có nguy cơ rời bỏ khỏi cơng ty sẽ được loại bỏ ngay từ bước đầu trong xử lí dữ liệu.
+ Thể hiện rõ ràng từng tệp khách hàng qua sơ đồ giúp cho công ty dễ dàng đưa ra quyết định và chính sách bán hàng phù hợp với từng tệp khách hàng cụ thể từ đó tối đa hóa doanh thu.
- Mục tiêu dài hạn:
+ Áp dụng học máy vào trong phân tích dữ liệu đối với khách hàng trong ngành bán lẻ. Từ đó, có thể tiết kiệm nguồn lực phục vụ cho việc phân tích trong lâu dài.
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">+ Tạo ra lợi thế cạnh tranh một cách rõ ràng nhằm vượt qua đối thủ và có nhiều chính sách thu hút lượng lớn khách hàng trên thị trường ngành hàng bán lẻ
<i>Đối tượng và phạm vị nghiên cứu</i>
Đối tượng: tệp dữ liệu khách hàng của công ty Adventureworks Cycles với nhiều dữ liệu mua hàng.
Phạm vi nghiên cứu: Phạm vi nghiên cứu là địa bàn các nước lớn như Mỹ, Canada, Đức, Pháp,….được thu thập dữ liệu và nghiên cứu trong vòng 2 tháng.
<i>Phương pháp nghiên cứu</i>
Bước đầu tiên, nhóm tiến hành xử lý dữ liệu thơng qua giải pháp EDA bằng ngơn ngữ Python, được biết đến chính là ngôn ngữ ở hữu lượng lớn các khối cơ sở dữ liệu, phục vụ hiệu quả cho các chương trình mang tính thương mại. Thơng qua phương pháp này giúp nhóm loại bỏ được các dữ liệu rỗng giúp cho quá trình phân cụm khách hàng trở nên nhanh chóng, xóa bỏ được nhiều dữ liệu ngoại lệ có giá trị quá thấp hoặc quá cao gây ảnh hưởng đến quá trình phân cụm. Mặt khác, các dữ liệu này sẽ được phân thành một cụm riêng biệt để dễ dàng quyết định hơn.
Sau khi các dữ liệu được lọc sạch sẽ được đưa vào và thể hiện lên trên biểu đồ thông qua thư viện matplotlib trong ngôn ngữ Python sau đó phương pháp Elbow được áp dụng nhằm xác định số lượng K-Cluster cụ thể để có thể cho chính xác số lượng cụm mà nhóm quyết định.
Việc thể hiện và áp dụng số cụm sẽ được so sánh giữa từng đại lượng bao gồm giữa Frequency, Monetary, và Recency sau đó được trực quan hóa liên trên biểu đồ 3D và cuối cùng sử dụng Silhouette nhằm xác định độ chính xác về việc phân cụm tệp khách hàng thành nhiều tệp riêng biệt.
Phương pháp nghiên cứu định lượng: thu thập thông tin từ các nguồn tư liệu khác nhau nhằm xây dựng các mơ hình lý thuyết hay thực nghiệm ban đầu của nhóm. Bên cạnh đó điều tra thực nghiệm có hệ thống các hiện tượng quan sát được qua số liệu thống kê nhóm thu thập được.
Phương pháp nghiên cứu định tính: Sau khi phân tích kết quả nghiên cứu, nhóm sẽ tiến hành diễn giải phân tích sau khi có được kết quả cuối cùng, nhóm sẽ nghiên cứu và xem xét lại những thành quả thực tiễn trong quá khứ để rút ra tóm lại bổ ích cho thực tiễn và khoa học
<i>Ý nghĩa thực tiễn của nghiên cứu:</i>
Nghiên cứu tập trung phân tích hành vi mua hàng của người tiêu dùng từ đó tìm ra những tệp khách hàng có cùng đặc điểm hành vi, tính cách, thói quen mua hàng, qua đó đề xuất các chiến lược marketing phù hợp với từng phân khúc khách hàng khác nhau. Tạo được nhiều cơ hội phát triển nông nghiệp Việt Nam và nền tảng thương mại bán lẻ trực tuyến phát triển bền vững.
Nghiên cứu đưa ra các đề xuất thơng qua việc thử nghiệm các mơ hình trên ba công cụ phổ biến dành cho các công ty trong lĩnh vực kinh doanh nói chung và các lĩnh vực liên quan. Từ đó, các cơng ty sẽ có thể chọn cho cho mình mơ hình hiệu quả,
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">tối ưu nhưng vẫn có thể tiết kiệm chi phí sao cho phù hợp với tình hình cơng ty. Hơn nữa, các cơng ty sẽ có thêm nhiều cái nhìn bao quát hơn về khách hàng và thị trường của họ để thúc đẩy các quá trình cải thiện hoạt động và hiệu suất sản phẩm dịch vụ của các công ty để cạnh tranh hiệu quả hơn trên thị trường.
<i>Keyword: Phân khúc khách hàng, RFM, học máy, Phân cụm K-means, CohortKết cấu đồ án: </i>
Đồ án được kết cấu gồm 5 chương như sau: Chương 1: Tổng quan về tình hình nghiên cứu Chương 2: Cơ sở lý luận
2.1 Hành vi khách hàng 2.2 Phân khúc khách hàng 2.3 Mơ hình RFM
2.4 Tổng quan về K-mean clustering 2.5 Cohort analysis - Phân tích theo nhóm Chương 3: Chuẩn bị dữ liệu
Chương 4: Mô tả bài tốn 4.1 Mơ hình RFM trên excel 4.2 Mơ hình RFM trên python 4.3 Mơ hình RFM trên K-means Chương 5: Phân tích thảo luận và đề xuất
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><b>Chương 1: Tổng quan về tình hình nghiên cứu</b>
<i>1.1Tổng quan tình hình nghiên cứu</i>
Trong lĩnh vực tiếp thị, quảng bá thương hiệu, sản phẩm đến người tiêu dùng hay đề xuất giải pháp cho các công ty, việc phân loại khách hàng mục tiêu luôn là một vấn đề quan trọng và cần được đầu tư phát triển. Phân tích dữ liệu lớn đóng một vai trị quan trọng trong việc ra quyết định bán lẻ, đặc biệt khi dữ liệu liên quan đến hành vi của khách hàng. Phân tích hành vi khách hàng giúp chủ cơng ty thực hiện các quyết định quan trọng ảnh hưởng đến các khía cạnh khác nhau của cửa hàng bán lẻ, nơi hành vi không chỉ giới hạn ở hành vi mua hàng của khách hàng. (Mussadiq Abdul Rahim và cộng sự, 2021)
Phân cụm khách hàng (customer segmentation) là quá trình phân chia khách hàng dựa trên các đặc điểm chung như hành vi, thói quen mua sắm và sử dụng dịch vụ của họ,… để các công ty, công ty có thể tiếp thị cho từng nhóm khách hàng một cách hiệu quả và phù hợp hơn. Với các đặc điểm của nhóm khách hàng, thì việc phân cụm theo điểm chi tiêu và thu nhập cho công ty thấy rõ ràng hơn cụm khách hàng mục tiêu, và theo thuật tốn K-Means thì việc phân thành 2 cụm khách hàng là tối ưu. (Phạm Kiên Trung và cộng sự, 2020)
Để đạt mục tiêu trên, có nhiều phương pháp đã được tiến hành trên nhiều lĩnh vực khác nhau để tiến hành phân cụm các khách hàng mục tiêu. Trong lĩnh vực dịch vụ viễn thông và dịch vụ tài chính, nghiên cứu của Arne Floh và cộng sự (2013) đã dựa trên mơ hình về khái niệm đa chiều để đánh giá các điểm không đồng nhất ở chính khách hàng đã ủng hộ mạnh mẽ lập luận rằng ảnh hưởng giá trị cảm nhận là ý định về mặt môi trường, nhưng các tác động đó cũng khác nhau về mức độ tùy thuộc vào phân khúc người tiêu dùng (Arne Floh và cộng sự, 2013). Trong lĩnh vực bảo hiểm, (Wafa Qadadeh và Sherief Abdallah, 2018) đã sử dụng 2 kỹ thuật khai thác dữ liệu là phân cụm K-Means và kỹ thuật SOM (dựa trên ANN). Thơng qua phân tích cụm và trực quan hóa dữ liệu đa chiều có thể biết được đặc điểm tính cách khách hàng trong CRM, từ đó có thể thiết kế một kế hoạch marketing riêng cho từng loại khách hàng của cơng ty. Cịn trong lĩnh vực kinh doanh mỹ phẩm, Sari Hartini và cộng sự (2020) đã thu được mơ hình phân tích hồ sơ và phân khúc khách hàng hiệu quả sử dụng thuật tốn phân nhóm và phân loại cho kết quả rằng mơ hình thuật tốn có thể cung cấp giải pháp cho những nhu cầu này là mơ hình thut toỏn K-Means + Naăve Bayes, vi giỏ tr chớnh xác cao là 65, 87%. Ở Việt Nam, trong lĩnh vực bán lẻ, Nguyễn Phúc Sơn và cộng sự (2021) đã tập hợp dữ liệu giao dịch bán lẻ từ một chuỗi siêu thị ở Thành phố Hồ Chí Minh, Việt Nam để thiết kế mơ hình phân đoạn mới dựa trên sự kết hợp của mạng nơ-ron sâu và kỹ thuật phân cụm xác suất tự giám sát. Mô hình mới linh hoạt hơn và thích ứng hơn với sự đa dạng của bộ dữ liệu khách hàng so với các thuật toán heuristic hiện tại trong CRM. Trong lĩnh vực du lịch và khách sạn, Arkadiusz T.Tomczyk và cộng sự (2022) đã thông qua WTP (so sánh về mức chi tiêu của khách hàng sẵn lòng chi tiêu) đi sâu về lĩnh vực cá nhân hóa cho chính khách hàng đồng thời kết hợp với CeoP để tìm ra mức phân khúc phù hợp cho những gì khách hàng chi tiêu và thứ họ nhận lại được từ đó đề xuất kiểu khách hàng để hỗ trợ chiến lược phân khúc và định giá
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Các nghiên cứu trước đây đã triển khai mơ hình hành vi mua hàng dựa trên hành vi thể chất của một đối tượng. Hiện nay, có nhiều phương pháp giúp công ty thực hiện việc phân cụm khách hàng mục tiêu dựa trên những hiểu biết về hành vi (behavior), thói quen (habits), sở thích (preferences) của khách hàng tiềm năng như KMeans, Mean-Shift, Density-Based Spatial, Expectation-Maximization, Agglomerative Hierarchical Clustering (Chen et al., 2012).
RFM là một trong những phương pháp phân tích được sử dụng rộng rãi nhất để phân tích khách hàng thơng qua phân khúc và lập hồ sơ khách hàng (Sari Hartini và cộng sự (2020). Mơ hình RFM cho hành vi mua hàng của khách hàng sử dụng thuật toán K-Means đã áp dụng trí tuệ kinh doanh trong việc xác định khách hàng tiềm năng bằng cách cung cấp dữ liệu phù hợp và kịp thời cho các đơn vị kinh doanh trong ngành Bán lẻ. Một loạt các cụm tập dữ liệu được xác nhận dựa trên việc tính tốn Hệ số Silhouette. Do đó, kết quả thu được liên quan đến giao dịch bán hàng được so sánh với các thông số khác nhau như lần truy cập bán hàng, tần suất bán hàng và khối lượng bán hàng. (P. Anitha, Malini và M.Patil, 2019). Mơ hình RFM và các kỹ thuật lập mơ hình dữ liệu được dùng để phát hiện các mẫu hành vi của khách hàng. Mỗi giao dịch được phân bổ cho khách hàng là một phần trong hành vi của một người và là một ví dụ của vectơ đặc điểm, nó được mơ hình hóa dựa trên một tập hợp các giao dịch để tạo thành hành vi mua lại. Phân tích thực nghiệm cho thấy tám giao dịch là đủ để phân loại khách hàng với độ chính xác cao (Mussadiq Abdul Rahim và cộng sự, 2021). Bên cạnh đó, mơ hình dữ liệu RFM sử dụng phương pháp Elbow với chỉ số kiểm định Silhouette để tối ưu số cụm khách hàng, hệ số chuẩn (Z- score) và Quy tắc kiểm chứng (Empirical Rule) được áp dụng để xử liệu các dữ liệu bất thường (Outlier) và phương pháp Cohort để phân tích tỷ lệ duy trì khách hàng kết hợp biểu đồ nhiệt trên phân phối ma trận. Mô hình này dựa trên dữ liệu giao dịch với những tham số đặc trưng và cấu trúc tương đồng có thể tìm thấy trên các hóa đơn bán hàng trong bất kỳ cửa hàng tại các nước trên thế giới cũng như tại Việt Nam và áp dụng phương pháp học máy khơng giám sát để phân tích phân khúc khách hàng và tìm ra những giá trị thật sự (insight) có khả năng tác động, ảnh hưởng tới hành vi và quyết định mua hàng của khách hàng. (Hồ Trung Thành và Nguyễn Đăng Sơn, 2021)
Ngồi mơ hình RFM truyền thống, nhiều nhóm tác giả đã phát triển nhiều mơ hình RFM sáng tạo kết hợp với nhiều kỹ thuật khác nhau để giải quyết các điểm yếu của mơ hình truyền thống. Một mơ hình mới liên kết mơ hình RFM với giá trị lâu dài của khách hàng (CLV) sử dụng đường cong giá trị đẳng cấp để tính tốn phân khúc khách hàng, nhóm các cá nhân lại với nhau, những người có hành vi mua sắm khác nhau nhưng có giá trị tương đương trong tương lai. (Peter S. Fader và cộng sự, 2005). Tính chu kỳ của nhu cầu sản phẩm ở mơ hình truyền thống chưa có thể được ước tính dựa trên hành vi mua của mỗi khách hàng, khiến cho khó đề xuất sản phẩm vào đúng thời điểm phù hợp với u cầu mua. Để đối phó với tính chu kỳ của sản phẩm, mơ hình TRFM có tính đến tính chất sản phẩm và tính chu kỳ mua hàng. Phương pháp này kết hợp đặc tính sản phẩm và chu kỳ mua hàng để đo lường lòng trung thành của khách hàng và phân tích hành vi mua hàng của khách hàng. (Li-Hua Li và cộng sự, 2006). Ngồi ra, cịn có mơ hình kết hợp giá trị định lượng của
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">các thuộc tính RFM và thuật tốn K-mean vào lý thuyết tập hợp thơ (lý thuyết RS), để trích xuất các quy tắc ý nghĩa và nó có thể cải thiện một cách hiệu quả mạng nơ-ron có thời gian đào tạo lâu và thuật toán di truyền trong CRM. (Ching-Hsue Cheng và You-Shyang Chen, 2009). Phân tích dữ liệu mua hàng của khách hàng trong lĩnh vực thương mại điện tử bằng 3 thuật toán phân cụm: K-means Clustering, Fuzzy C-means Clustering và Hierarchical Clustering được xây dựng trên ngơn ngữ lập trình R để hiểu rõ về hành vi và phân khúc khách hàng dựa trên mơ hình RFM. Chỉ số Dunn chỉ ra rằng mơ hình phân cấp hoạt động tốt hơn so với mơ hình K-means và mơ hình Fuzzy C-means về mặt tạo ra một cụm tốt. (Oluwasurefunmi Idowu và cộng sự, 2019). Mô hình RFM trên mỗi sản phẩm (RFM/P) được đề xuất để ước tính giá trị của khách hàng trên mỗi sản phẩm trước tiên và sau đó tổng hợp chúng lại để thu được giá trị tổng thể của khách hàng. Ngồi ra, khi có những thay đổi trong hành vi mua hàng của khách hàng liên quan đến lần truy cập gần đây trên mỗi sản phẩm và tần suất trên mỗi sản phẩm, thơng thường, độ chính xác của dự đoán RFM/P được nhận thấy là tốt hơn so với RFM truyền thống. (Rodrigo Heldta và cộng sự, 2021).
<i>1.2Sơ đồ mơ hình</i>
<i>Hình 1: Phương pháp, quy trình nghiên cứu1.3Đánh giá chung</i>
Trong một thập kỷ vừa qua chứng kiến những tiến bộ vượt bậc của khoa học kĩ thuật cùng với đó, cơng nghệ khoa học dữ liệu hiện nay cũng đã phát triển không ngừng giúp việc thu thập và xử lý dữ liệu khách hàng trở nên dễ dàng hơn, mang đến nguồn tài nguyên quý giá, giàu tiềm năng cho việc phân tích hành vi khách hàng trong kinh doanh. Việc phân tích phân khúc khách hàng đóng một vai trị quan trọng giúp cơng ty, cơng ty tập trung hóa, đề ra các chiến lược marketing hợp lý và chăm sóc tốt hơn các nhóm khách hàng, đồng thời duy trì và phát triển công ty, công ty trong bối cảnh thị trường cạnh tranh vô cùng khốc liệt.
<i>1.4Khoảng trống nghiên cứu và những điểm mới của nhóm</i>
Tổng quan các cơng trình trong nước và trên thế giới chỉ ra rằng phân khúc khách hàng bằng mơ hình RFM khơng phải là điều mới. Tuy nhiên, nhóm tác giả nhận thấy có một số khoảng trống sau:
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><i>Thứ nhất, các hệ thống quản lý khách hàng ngày càng được tự</i>
động hóa. Tuy nhiên, hệ thống chủ yếu là ghi nhận dữ liệu giao dịch và thực hiện những thống kê định kỳ theo phương pháp truyền thống dẫn đến kết quả chưa đảm bảo được tính khách quan, chính xác và khó phân tích được hành vi mua sắm của khách hàng để có cơ sở xây dựng chiến lược tiếp cận khách hàng và bán hàng hiệu quả hơn.
<i>Thứ hai, mơ hình đề xuất khơng xem xét đến sự cạnh tranh trên</i>
thị trường. Hơn nữa, mơ hình phân tách được đề xuất giả định sự độc lập giữa các loại sản phẩm. Đây có thể là một vấn đề khơng nhỏ tùy thuộc vào một số trường hợp.
Đây là một nghiên cứu mới để đi sâu vào phân tích dữ liệu cho một công ty cụ thể Adventureworks Cycles với mục đích phân khúc khách hàng thơng qua mơ hình RFM và phương pháp học máy, từ đó đề xuất giải pháp hiệu quả cho chiến lược kinh doanh hiệu quả. Bên cạnh đó, nghiên cứu cịn áp dụng thêm phương pháp học máy phân cụm K-means để tự động gom cụm nhóm khách hàng có cùng đặc điểm. Phương pháp học máy này sẽ tiết kiệm thời gian và chính xác hơn so với việc tính tốn mơ hình RFM truyền thống sử dụng excel hoặc python không dùng học máy.
Tổng kết lại, nhóm tác giả cho rằng có một khoảng trống trong nghiên cứu về mơ hình phân tích dữ liệu phân khúc khách hàng. Đây chính là
<i>căn cứ quan trọng để nhóm tác giả lựa chọn đề tài của nghiên cứu: “RFM –GIẢI PHÁP HIỆU QUẢ ĐỂ PHÂN CỤM KHÁCH HÀNG TRONG LĨNH VỰCBÁN LẺ” </i>
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16"><b>Chương 2: Cơ sở lý luận</b>
<i>2.1Hành vi khách hàng</i>
<i>2.1.1 Khái niệm hành vi khách hàng </i>
Hành vi khách hàng bao gồm những tâm lý của khách hàng như suy nghĩ, cảm nhận, các phản ứng đối với sản phẩm, dịch vụ và toàn bộ những hoạt động của khách hàng trong quá trình tiêu dùng như quyết định mua sắm, sử dụng hay ngừng sử dụng sản phẩm. Quá trình này chủ yếu liên quan đến sự biến đổi của các yếu tố tâm lý, động lực và hành vi.
Nghiên cứu hành vi khách hàng là việc phân tích hành vi khách hàng sẽ dựa trên suy nghĩ, hành động, cảm nhận và thói quen mua hàng đã có. Những thói quen này có thể được thay đổi nhờ sự tương tác qua lại của các yếu tố gây nên sự tị mị, kích thích và nhận thức của con người.
<i>2.1.2 Vai trò của việc nghiên cứu hành vi khách hàng</i>
- Định vị thương hiệu theo hướng “cá nhân hóa”: giúp cơng ty đánh thẳng vào nhu cầu của khách hàng, kích thích họ mua hàng.
- Lên mục tiêu và kế hoạch kinh doanh khả thi: từ việc thu thập dữ liệu về doanh thu, thời gian, tần suất mua hàng, đưa ra dự đoán về khách hàng tiềm năng có thể tiếp cần để đề ra các chiến lược kinh doanh hiệu quả.
- Tối ưu chiến lược Marketing: dựa trên phân tích diễn biến nhân thức, tâm lý của khách hàng về các sản phẩm, đề ra những giải pháp cải tiến, thay đổi chiến lược truyền thông, marketing sao cho phù hợp và tối ưu.
- Tăng mức độ trung thành của khách hàng đối với thương hiệu: từ việc thỏa mãn các nhu cầu của khách hàng biến họ thành đối tượng trung thành với các sản phẩm của thương hiệu.
- Tăng vị thế cạnh tranh với đối thủ: với hiểu biết về hành vi khách hàng giúp công ty tạo ra sản phẩm khác biệt thỏa mãn hoặc vượt trên mong muốn của khách hàng, đồng thời đề ra chiến lược kinh doanh, Marketing hiệu quả.
<i>2.1.3 Tại sao cần nghiên cứu hành vi khách hàng?</i>
- Xác định đúng khách hàng tiềm năng: đây là một hoạt động quan trọng, quyết định tính hiệu quả các chiến lược và hoạt động kinh doanh của công ty. Để đạt được điều đó, cần phải xác định được nhu cầu, hành vi, tính cách của khách hàng sao cho phù hợp với các sản phẩm và mục tiêu của cơng ty.
- Cá nhân hóa trải nghiệm của khách hàng: bằng việc sử dụng những dữ liệu thu thập được, công ty đề ra các chiến lược nhắm đến các đối tượng khách hàng cụ thể. Từ nghiên cứu hành vi khách hàng, công ty dễ dàng phân nhóm khách hàng dựa trên hành vi, nhu cầu và sở thích phù hợp để nâng cao trải nghiệm của từng nhóm đối tượng.
- Dự báo doanh thu và xu hướng mua sắm - Cảnh báo rủi ro kinh doanh
- Tối ưu hóa các chiến dịch - Giữ chân khách hàng hiệu quả
<i>2.1.4 Phân loại về hành vi khách hàng.</i>
Các hành vi của khách hàng có thể chia thành 2 nhóm:
- Nhóm hành vi có thể quan sát được: các hành vi liên quan đến số lượng, thời gian, địa điểm, xu hướng tiền kiếm, số tiền…
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">- Nhóm hành vi khơng thể quan sát được: cách khách hàng sử dụng sản phẩm, chia sẻ, đánh giá về sản phẩm…
<i>2.1.5 Các yếu tố ảnh hưởng đến hành vi khách hàng</i>
Hành vi tiêu dùng chịu ảnh của cả yếu tố bên trong và bên ngoài: - Yếu tố văn hóa:
+ Nền văn hóa: là yếu tố quan trọng cần được phân tích trong mọi chiến dịch thâm nhập thị trường chưa được xác định.Việc biết được những đặc trưng của từng nền văn hóa và lựa chọn phù hợp với mục tiêu của công ty giúp truyền tải đúng thông điệp của chiến dịch hiệu quả hơn. + Văn hóa cộng đồng: việc xác định những nhóm văn hóa giúp cơng ty
phân nhóm khách hàng và cá nhân hóa tốt hơn.
- Yếu tố xã hội: cộng đồng, mạng xã hội, tầng lớp xã hội, gia đình, địa vị… - Yếu tố cá nhân: tuổi tác, giới tính, nghề nghiệp, tính cách, phong cách sống… - Yếu tố tâm lý: Động cơ, nhận thức, lĩnh hội, niềm tin, thái độ…
<i>2.2Phân khúc khách hàng</i>
<i>2.2.1 Khái niệm phân khúc khách hàng </i>
Phân khúc khách hàng là nhóm các đối tượng khách hàng được phân chia theo từng đặc điểm cụ thể. Từng phân khúc khách hàng khác nhau sẽ có những đặc điểm, hành vi mua hàng khác nhau, ảnh hưởng đến chiến lược kinh doanh của công ty. Tùy vào phân khúc khách hàng khác nhau, công ty nên chuẩn bị nội dung, thông điệp, một chiến lược tiếp thị, bán hàng phù hợp với phân khúc, đối tượng khách hàng mục tiêu sẽ mang đến hiệu quả vượt trội trong hoạt động kinh doanh của công ty.
<i>2.2.2Tầm quan trọng của việc phân khúc khách hàng</i>
Phân khúc khách hàng giúp bạn dễ dàng hơn trong quá trình cá nhân hóa các hoạt động tiếp thị sau này.
+ Xác định khách hàng mục tiêu: giúp bạn khoanh vùng được đối tượng phù hợp, tập trung vào nhóm các đối tượng này và tiết kiệm tối đa chi phí cho các hoạt động tiếp thị.
+ Điều chỉnh thông điệp để tiếp cận nhanh chóng hơn với nhóm khách hàng mục tiêu: các nội dung khi đã xác định được mục tiêu, bám sát vào nhóm đối tượng này sẽ rút ngắn thời gian thực hiện chiến dịch, đồng thời mang lại hiệu quả cao nhất cho toàn bộ chiến dịch.
+ Đáp ứng một nhu cầu cụ thể từ đó giúp gia tăng tỷ lệ chuyển đổi: việc xác định chính xác mong muốn của một khách hàng tiềm năng sẽ gia tăng cơ hội biến họ thành khách hàng thực sự của công ty.
+ Xây dựng mối quan hệ bền chặt và có được sự trung thành từ khách hàng. + Mở rộng tệp khách hàng tiềm năng của bạn để đẩy nhanh chu kỳ bán hàng.
<i>2.2.3 Các phân khúc khách hàng phổ biến</i>
Các cơng ty thường nhóm đối tượng khách hàng theo các yếu tố như nhân khẩu học, hành vi, thu nhập và vị trí của họ trong hành trình mua hàng. Chiến lược được sử dụng để phân khúc khách hàng sẽ phụ thuộc vào sản phẩm hoặc dịch vụ mà công ty cung cấp.
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><b>điểm</b> giả định: Phân
=> Có thể sử dụng hai hoặc nhiều phương thức cùng một lúc để mở rộng phạm vi của mình. Một ví dụ cụ thể là gửi một thơng báo email cho khách hàng tại Hà Nội (nhân khẩu học), người mua các sản phẩm từ bạn một cách thường xun (hành vi).
<i>2.3Tổng quan về mơ hình RFM2.3.1 Khái niệm mơ hình RFM</i>
RFM (Recency-Frequency-Monetary): là một kỹ thuật phân tích được sử dụng để xác định lượng khách nào là khách hàng tốt nhất bằng cách kiểm tra mức độ gần đây thông qua các số liệu như khách hàng đã mua, tần suất họ mua và số tiền khách hàng chi tiêu.
Trong đó:
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">● R(Recency): lần tương tác, giao dịch, mua hàng gần nhất. Thời gian đã trôi qua bao lâu kể từ lần tương tác hoặc giao dịch cuối cùng của khách hàng với cơng ty? Các tương tác khơng chỉ ngồi việc mua hàng, lượt truy cập cuối cùng vào trang web hoặc sử dụng ứng dụng dành cho thiết bị di động. Trong hầu hết các trường hợp, khách hàng tương tác hoặc giao dịch với công ty càng gần với hiện tại thì khả năng khách hàng đó sẽ phản hồi với các thông tin từ công ty trong tương lai càng cao. Cơng thức tính: thời gian kể từ lúc khách hàng tương tác cuối cùng với công ty (ngày, tuần, tháng).
● F(Frequency): tần suất khách hàng giao dịch hay tương tác với công ty. Tần suất một khách hàng đã giao dịch hoặc tương tác với công ty trong một khoảng thời gian cụ thể như thế nào? Những khách hàng có sự tương tác thường xun thơng thường sẽ gắn bó hơn và trung thành hơn những khách hàng có tần suất thấp hơn. Cơng thức tính: tổng số lần giao dịch, tương tác của khách hàng
● M(Monetary): số tiền mà khách hàng đã chi tiêu cho các giao dịch với công ty trong khoảng thời gian cụ thể. Những khách hàng chi tiêu nhiều thường mang lại nhiều giá trị kinh doanh cho công ty hơn những khách hàng chi tiêu ít. Cơng thức tính: tổng số tiền đã chi tiêu hay trung bình số tiền khách hàng đã chi tiêu cho mỗi lần giao dịch.
<i>2.3.2 Vai trị</i>
Thơng qua các tiêu chí, mơ hình RFM giúp cơng ty xác định: ● Khách hàng tốt nhất và tiềm năng nhất của cơng ty ● Khách hàng có khả năng rời dịch vụ
● Khách hàng mang lại giá trị kinh doanh nhất ● Khách hàng trung thành với công ty
● Khách hàng sẽ tương tác, phản hồi trở lại với những chiến dịch marketing, quảng cáo của công ty
● Nhóm khách hàng có khả năng sẽ mua sản phẩm mới
<i>2.3.3 Các biến thể của RFM</i>
Ngồi ra RFM cịn có các biến thể khác dựa trên sự thay đổi thêm bớt các biến trong 3 biến Recency, Frequency và Monetary:
● RFD - Recency, Frequency, Duration (thời gian) là phiên bản đã được modified của phân tích RFM. Nhưng thay vì phân tích giá trị khách hàng, RFD được sử dụng để phân tích hành vi khách hàng theo các nhóm người xem/người đọc/người lướt web. ● RFE - Recency, Frequency, Engagement(mức độ cam kết) là
phiên bản mở rộng của phân tích RFD nhằm xác định mức độ gắn bó của khách hàng đối với một nền tảng web, app. Trường Engagement (mức độ cam kết) được xác định thông qua thời lượng truy cập, số trang trên mỗi lượt truy cập và các chiều dữ liệu khác tương tự. Mơ hình RFE có thể được sử dụng để phân tích hành vi khách hàng theo các nhóm người xem/người đọc/người lướt web.
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">● RFM-I - Recency, Frequency, Monetary Value – Interactions (Giá trị tiền tệ - Tương tác) là một phiên bản khác của RFM để đánh giá chi phí tương tác marketing trong tiếp cận khách hàng. ● RFMTC - Recency, Frequency, Monetary Value, Time (Thời
gian), Churn rate (Tỷ lệ rời bỏ) là một mơ hình RFM mở rộng được đề xuất bởi I-Cheng và cộng sự (2009). Mơ hình sử dụng chuỗi Bernoulli trong lý thuyết xác suất nhằm dự báo xác suất mua hàng tại những chiến dịch marketing tiếp theo.
<i>2.3.4 Ưu điểm và nhược điểm của RFM</i>
● Ưu điểm:
○ Có thể áp dụng cho nhiều loại hình kinh doanh khác nhau. ○ Có thể giảm chi phí tiếp thị bằng cách giúp nhắm mục tiêu
○ Phân tích RFM phụ thuộc vào dữ liệu lịch sử và khơng phải là triển vọng trong tương lai.
○ Phân tích này có thể khơng phù hợp nếu bạn chỉ bán một sản phẩm.
<i>2.4. Tổng quan về K-mean clustering2.4.1 Khái niệm </i>
Phân cụm là một phương pháp học tập không giám sát có nhiệm vụ phân tách tập hợp hoặc các điểm dữ liệu thành nhiều nhóm, sao cho các điểm dữ liệu trong một nhóm giống nhau hơn và khơng giống với các điểm dữ liệu của các nhóm khác. Nó khơng là gì ngồi một tập hợp các đối tượng dựa trên sự giống nhau và không giống nhau giữa chúng.
Phân cụm K-means là một thuật toán Học máy không giám sát thực hiện nhiệm vụ phân cụm. Trong phương pháp này, các quan sát 'n' được nhóm thành các cụm 'K' dựa trên khoảng cách. Thuật toán cố gắng giảm thiểu phương sai trong cụm (để các quan sát tương tự rơi vào cùng một cụm).
Phân cụm K-Means yêu cầu tất cả các biến phải liên tục vì nó sử dụng thước đo khoảng cách và thơng số kỹ thuật trước đó về số lượng cụm (K).
<i>2.4.2 Các bước cơ bản của thuật toán</i>
Khởi tạo k phần tử trung tâm một cách ngẫu nhiên (mỗi phần tử trung tâm đại diện cho một nhóm)
Thực hiện các bước cơ bản sau cho đến khi tất cả các đối tượng được phân loại và khơng cịn cịn sự thay đổi của các đối tượng đến các nhóm:
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được đại diện bằng các tâm của cụm.
2. Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)
3. Nhóm các đối tượng vào nhóm gần nhất 4. Xác định lại tâm mới cho các nhóm
5. Thực hiện lại bước 2 cho đến khi khơng có sự thay đổi nhóm nào của các đối tượng
<i>2.4.3 Đánh giá thuật toán K-Means</i>
- K-means là có độ phức tạp tính tốn O(tkn).
- K-means phân tích phân cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn.
- K-means không khắc phục được nhiễu và giá trị k phải được cho bởi người dùng.
- Chỉ thích hợp áp dụng với dữ liệu có thuộc tính số và khám ra các cụm có dạng hình cầu.
<i>2.4.4 Ứng dụng trong kinh doanh</i>
Thuật toán phân cụm K -means được sử dụng để tìm các nhóm chưa được gắn nhãn rõ ràng trong dữ liệu. Điều này có thể được sử dụng để xác nhận các giả định kinh doanh về loại nhóm tồn tại hoặc để xác định các nhóm chưa biết trong tập dữ liệu
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">phức tạp. Khi thuật tốn đã được chạy và các nhóm được xác định, bất kỳ dữ liệu mới nào cũng có thể dễ dàng được gán cho đúng nhóm.
Đây là một thuật tốn linh hoạt có thể được sử dụng cho bất kỳ loại nhóm nào. Một số ví dụ về các trường hợp sử dụng là:
Ngoài ra, việc theo dõi xem điểm dữ liệu được theo dõi có chuyển đổi giữa các nhóm theo thời gian hay khơng có thể được sử dụng để phát hiện những thay đổi có ý nghĩa trong dữ liệu.
<b>2.5 Cohort analysis - Phân tích theo nhóm </b>
<i>2.5.1 Khái niệm</i>
Cohort analysis (phân tích theo nhóm) là dạng phân tích hành vi khách hàng, lấy dữ liệu từ tập hợp con như kinh doanh dịch vụ theo mơ hình SaaS, game, các nền tảng thương mại điện tử hay từng nhóm khách hàng thành các tệp liên quan với nhau, thay vì theo dõi dữ liệu theo từng đơn vị đơn lẻ. Các nhóm này thường mang đặc điểm chung về thời gian hoặc quy mơ.
Các cơng ty sử dụng phân tích đồn hệ để phân tích hành vi của khách hàng trong suốt vòng đời của từng khách hàng. Trong trường hợp khơng có phân tích theo nhóm, các cơng ty có thể gặp khó khăn trong việc hiểu vịng đời mà mỗi khách hàng trải qua trong một khung thời gian nhất định. Các công ty sử dụng phân tích theo nhóm để hiểu xu hướng và mơ hình của khách hàng theo thời gian và để điều chỉnh việc cung cấp sản phẩm và dịch vụ của họ cho các nhóm đã xác định.
Phân tích Cohort có thể giúp cơng ty theo dõi được hiệu suất sản phẩm (product performance), so sánh các tệp khách hàng theo thời gian, đánh giá hiệu suất để tìm xem chiến dịch nào hiệu quả chiến dịch nào không. Đây là một công cụ giá trị cho các chiến dịch marketing nhắm đến một số đối tượng khách hàng nhất định, giúp việc điều chỉnh thông điệp và hoạt động phù hợp cho khách hàng trở nên khả thi.
<i>2.5.2 Lý do chọn phương pháp phân tích Cohort </i>
Kết quả phân tích Cohort:
1.Nắm bắt được bounce rate, retention rate theo thời gian của từng nhóm user. 2.Đối với lượt truy cập trang web, có thể nắm bắt được tần suất truy cập của user
cũng như thời gian user lưu lại trang web, sau bao nhiêu lâu thì user quay lại trang web của bạn, đánh giá được customer lifetime để tối ưu hóa conversion funnel.
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">3.Thơng qua những kết quả này bạn có thể chỉ số hóa mức độ tham gia của người dùng, từ đó làm nền tảng xây dựng các chiến dịch target marketing phù hợp.
Tóm lại, so với những chỉ số chung chung khác, kết quả phân tích Cohort sẽ có được insight tổng quan về pattern của từng tập hợp người dùng, từ đó dễ dàng thiết kế các chiến dịch target marketing cũng như các kênh quảng bá phù hợp với đặc tính, thói quen, hành vi của khách hàng, ngồi ra kết quả phân tích Cohort cịn có thể giúp sản phẩm thuyết phục hơn trước các nhà đầu phân chia người dùng dựa trên thời điểm họ có được hoặc đăng ký một sản phẩm.
Một cách để trực quan hóa thơng tin này là vẽ biểu đồ đường cong tỷ lệ giữ chân, cho thấy tỷ lệ giữ chân của các nhóm này theo thời gian.
Nhóm tổ hợp hành vi người dùng dựa trên các hoạt động mà họ thực hiện trong ứng dụng trong một khoảng thời gian nhất thông tin chi tiết hữu ích như để hiểu lý do tại sao họ rời đi
<i>2.5.4 Các loại nhóm Cohort để phân tích</i>
- Nhóm được phân loại dựa vào thời gian
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">Gồm các khách hàng đã đăng ký sử dụng sản phẩm hoặc dịch vụ của công ty trong khoảng thời gian nhất định (có thể tính theo tuần, tháng hay quý phụ thuộc vào vòng đời sản phẩm của mỗi cơng ty).
Phân tích, phân loại nhóm khách hàng dựa trên thời gian giúp giảm tỷ lệ Churn.
- Phân loại dựa trên phân khúc khách hàng
Là dạng phân loại dựa trên các khách hàng đã mua 1 sản phẩm cụ thể hoặc đã trả khoản tiền nhất định cho dịch vụ nào đó. Thơng thường, phân nhóm khách hàng theo phân khúc như này để hiểu rõ nhu cầu khác nhau của nhóm đối tượng, từ đó đưa ra chiến dịch giới thiệu các sản phẩm – dịch vụ phù hợp cho từng phân khúc.
- Phân nhóm dựa trên kích thước nhóm
Những khách hàng đã mua sản phẩm hay sử dụng dịch vụ của bạn có thể gom lại thành một nhóm. Nhóm này đối tượng chủ yếu là cơng ty nhỏ mới thành lập, công ty tầm trung hay cơng ty lớn dạng tập đồn,…
Với cách phân loại này, dễ dàng khảo sát và so sánh sức mua hàng dựa trên số lượng sản phẩm đã bán ra. Trong từng danh mục hàng hố, có thể xem xét coi đâu là sản phẩm khách hàng quan tâm và mua nhiều nhất để có các chương trình đẩy mạnh việc bán hàng.
Ở mơ hình kinh doanh SaaS, những công ty nhỏ hay mới khởi nghiệp thường có tỷ lệ churn cao hơn các cơng ty lớn. Bởi vì cơng ty nhỏ, mới mở thường có kinh phí thấp nên ban đầu cần phải thử nghiệm sản phẩm dịch vụ giá rẻ để chọn ra sản phẩm mũi nhọn cho mình. Các cơng ty lớn có nguồn vốn ổn hơn nên sẽ có xu hướng gắn bó với một sản phẩm trong thời gian dài.
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26"><i>2.5.5 Các ứng dụng của phân tích Cohort</i>
- Khi triển khai một dự án phát triển mới cần đo đạc hiệu quả của dự án so với thông thường.
- Khi triển khai các campaign/chiến dịch cần phân tích hiệu quả. - Khi hệ thống có rất nhiều khách hàng vào hàng tháng mà lưu lượng hàng tháng không giống đều nhau (đang tăng trưởng/đang giảm tốc).
- Cần phân tích được các mốc về sự gắn kết của khách hàng: sử dụng, sử dụng thường xuyên, gia hạn,…
- Tổng quát hóa: các hệ thống có đầu vào biến thiên và quá trình diễn ra theo 1 chu kỳ thời gian dài (tuần/tháng/quý,…) như các dự án phát triển/campaign/tăng trưởng/giảm tốc
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27"><b>Chương 3: Chuẩn bị dữ liệu 3.1Mô tả về dữ liệu</b>
<i>3.1.1 Dữ liệu nghiên cứu</i>
Nghiên cứu thực hiện trên dữ liệu AdventureWorks Sales. Đây là dữ liệu bán hàng của công ty Adventure Works Cycles trong lĩnh vực sản xuất và kinh doanh xe đạp. Tập dữ liệu chứa 121.253 giao dịch trong khoảng thời gian từ 7/2017 đến 6/2020.
<i>3.1.2 Mô tả các dữ liệu trong tập dữ liệu</i>
Tập dữ liệu bao gồm dữ liệu về các đơn hàng (Sales Order_data), vị trí khách hàng (Sales Territory_data), thông tin các giao dịch bán hàng (Sales_data), bán lại (Reseller_data), thời gian giao dịch (Date_data), thông tin khách hàng (Customer_data) và dữ liệu sản phẩm (Product_data).
<i><b>Sales Order_data:</b></i>
<i>Dữ liệu worksheet Sales Order_data</i>
Các đối tác kênh bán hàng trong dữ liệu gồm 2 loại: bán thông qua các kênh bán lại và bán hàng trực tuyến.
Dữ liệu khơng có giá trị rỗng. Các thông tin trong dữ liệu:
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">Tên cột Kiểu dữ liệu Mô tả
đơn hàng
tương từng sản phẩm
<i><b>Sales Territory_data:</b></i>
<i>Dữ liệu worksheet Sales Territory_data</i>
Thông tin về vị trí khách hàng được chia thành 4 nhóm: Bắc Mĩ, châu Âu, Thái Bình Dương và tại trụ sở chính của cơng ty. Trong đó có 6 nước: Mĩ, Canada, Pháp, Đức, Úc và Vương quốc Anh. Về phân vùng gồm có 10 vùng: Tây Bắc, Đơng Bắc, trung tâm, Tây Nam, Đông Nam nước Mỹ, Canada, Pháp, Đức, Úc, Vương quốc Anh và tại trụ sở chính cơng ty.
Các thông tin trong dữ liệu:
SalesTerritoryKey int64 Mã tương ứng từng vùng lãnh thổ
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">Region object Tên các vùng mà công ty hoạt động
<i>Dữ liệu worksheet Sales_data</i>
Dữ liệu về thông tin các giao dịch. Nghiên cứu sẽ tập trung các thuộc tính: Customer Key, Order Date Key, SalesOrderLineKey, Sales Amount
Mô tả về thông tin các cột quan trọng:
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30"><i>Dữ liệu worksheet Reseller_data</i>
Dữ liệu về các bên bán lại
<i><b>Date_data:</b></i>
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31"><i>Dữ liệu trong worksheet Date_data</i>
Dữ liệu về thời gian giao dịch.
<i>Dữ liệu trong worksheet Product_data</i>
Thông tin về các sản phẩm: mã sản phẩm, tên sản phẩm, mẫu mã, màu sắc,...
</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">Mô tả thông tin các cột quan trọng:
<i>Dữ liệu trong worksheet Customer_data</i>
Dữ liệu về thông tin khách hàng bao gồm: mã khách hàng, tên khách hàng và vị trí cụ thể của khách hàng.
</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">Mơ tả thông tin các cột quan trọng
</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34"><i>Product_data</i>
</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">Tiến hành xử lí các giá trị rỗng 2 cột Ship Date Key trong Sales_data và Color trong Product_data.
<i>3.2.2 Thu thập dữ liệu</i>
Trong nghiên cứu này sử dụng mơ hình RFM để phân tích phân khúc khách hàng vì vậy sẽ tập trung khai thác vào các thuộc tính:
- Customer Key: mã định danh tương ứng với mỗi khách hàng
- Order Date Key: cung cấp thông tin về ngày mua hàng của khách hàng - thuộc tính này dùng để tính giá trị Recency
- SalesOrderLineKey: mã tương ứng mỗi dòng trong đơn đơn hàng - thuộc tính này kết hợp với dữ liệu từ cột Sales Order dùng để tính giá trị Frequency - Sales Amount số tiền khách hàng đã mua sản phẩm - thuộc tính này để tính giá
trị Monetary.
Các dữ liệu nằm trong 2 worksheet Sales Order_data và Sales_data. Vì vậy, cần phải nối dữ liệu các thuộc tính trên theo SalesOrderLineKey
</div>