Tải bản đầy đủ (.docx) (17 trang)

PH N KHÚC KHÁCH HÀNG BẰNG PHÂN TÍCH RFM VÀ THUẬT TOÁN KMEANS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (956.83 KB, 17 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC

PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

PHÂN KHÚC KHÁCH HÀNG BẰNG PHÂN TÍCH RFM
VÀ THUẬT TỐN K-MEANS

Giảng viên hướng dẫn: TS. LÊ CHÍ NGỌC
Sinh viên thực hiện:

NGUYỄN HỮU ĐẠT

Lớp:

Toán – Tin K61

HÀ NỘI – 2019

MỤC LỤC


DSS

Lời nói đầu
CHƯƠNG I. KHẢO SÁT HỆ THỐNG
1. Khảo sát hiện trạng
2. Tổng quan về phân tích RFM và thuật tốn K-Means
3. Dữ liệu khảo sát

CHƯƠNG II: PHÂN TÍCH HỆ THỐNG


1. Các chức năng của hệ thống trợ giúp nhà quản lý
2. Sơ đồ luồng dữ liệu
2.1. Biểu đồ mức ngữ cảnh
2.2. Biểu đồ luồng dữ liệu mức 0

CHƯƠNG III: THIẾT KẾ GIAO DIỆN HỆ THỐNG
1. Ngôn ngữ viết chương trình
2. Thiết kế giao diện website

Kết luận
Nguồn tài liệu tham khảo

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
2


DSS

LỜI MỞ ĐẦU
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông
tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua
cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ
ngày một tích lũy nhiều lên. Một vấn đề đặt ra là làm thế nào để tổ chức, khai
thác những khối dữ liệu khổng lồ và đa dạng thành các tri thức có ích?. Các kĩ
thuật mới xuất hiện nhắm đáp ứng nhu cầu này. Các kết quả nghiên cứu đã rất
thành công với rất nhiều ứng dụng trong lĩnh vực đặc biệt từ việc phân cụm
khách hàng.
Trong kinh doanh, yếu tố khách hang quyết định đến sự thành bại của

doanh nghiệp, khi thông tin đang trở thành yếu tố quyết định trong kinh
doanh thì vấn đề tìm ra các thơng tin hữu ích trong CSDL khổng lồ ngày càng
trở thành mục tiêu quan trọng của các doanh nghiệp. Vì vậy, một trong những
giải pháp hữu hiệu nhất nhằm khắc phục các vấn đề nêu trên là tiến hành xây
dựng một hệ thống khai phá dữ liệu. khai thác quản lý nguồn khách hàng nêu
trên. Đó là một hệ thống được thiết kế giúp cho nhà quản lý nắm bắt được
nguồn thông tin khách hàng hữu ích và các chiết xuất từ CSDL trên. Qua đó,
giúp nhà quản lý đưa ra các quyết định trong chiến dịch Marketing. Chính vì
lý do đó, nên em đã chọn đề tài “ Phân khúc khách hàng bằng phân tích
RFM và thuật tốn K-Means”.

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
3


DSS

CHƯƠNG I. KHẢO SÁT HỆ THỐNG
CHƯƠNG I. KHẢO SÁT HIỆN TRẠNG
1.

Khảo sát hiện trạng
Phân khúc thị trường và khách hàng là một số nhiệm vụ quan trọng

nhất trong bất kỳ công ty nào. Việc phân khúc được thực hiện sẽ ảnh
hưởng đến các quyết định tiếp thị và bán hàng, và có khả năng là sự sống
cịn của một cơng ty.
Trước khi lên kế hoạch chi tiết cho một chương trình khuyến mãi và

chi phí, các nhà bán lẻ, cơng ty cần phải chú ý đến cách xác định khách
hàng tiềm năng của mình. Sẽ thật là lãng phí nếu một chiến dịch lại nhắm
đến nhiều nhóm khách hàng khác nhau. Điều này có thể sẽ khơng giúp
bạn bán được nhiều sản phẩm mà ngược lại, sẽ gây ‘thương đau’ cho
thương hiệu của bạn.
2.

Tổng quan về phân tích RFM và thuật toán K-Means
2.1.

RFM

Ngày nay, rất nhiều nhà bán lẻ đã áp dụng các phương thức phức tạp
để phân loại & xác định khách hàng tiềm năng của mình và RFM là
một trong những phương pháp ấy. Điểm mạnh của RFM là giúp các
nhà bán lẻ tối đa hóa lợi tức đầu tư và công sức họ đã bỏ vào chiến
dịch marketing.

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
4


DSS

Trong phương pháp phân tích RFM, mỗi khách hàng sẽ được đánh giá
dựa trên 3 tiêu chí với tên gọi lần lượt là Sự Gần Đây (Recency), Mức
Độ Thường Xuyên (Frequency) và Mức Độ Chi Tiền (Moneytary).
Phương pháp RFM có thể giúp nhà bán lẻ xác định khách hàng tiềm

năng có nhu cầu mua hay sử dụng sản phẩm/dịch vụ cao nhất. Hãy đi
sâu vào phân tích các tiêu chí này nhé.
Ma trận RFM
 Bước 1: Tính ma trận RFM cho mỗi khách hàng.

 Bước 2: Chuyển các chỉ số thành điểm xếp hạng.

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
5


DSS

 Bước 3: Sắp xếp bảng RFM để tiến hành phân khúc.

.
2.2.

Thuật tốn K-Means

2.2.1

Thuật tốn K-Means là gì?



Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu,



thuộc

lớp

các

phương

pháp Unsupervised

Learning trong Machine Learning. Có rất nhiều định nghĩa
khác nhau về kỹ thuật này, nhưng về bản chất ta có thể
hiểu phân cụm là các qui trình tìm cách nhóm các đối
tượng đã cho vào các cụm (clusters), sao cho các đối tượng
Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
6


DSS

trong cùng 1 cụm tương tự (similar) nhau và các đối tượng
khác cụm thì khơng tương tự (Dissimilar) nhau.


Mục đích của phân cụm là tìm ra bản chất bên trong các
nhóm của dữ liệu. Các thuật tốn phân cụm (Clustering
Algorithms) đều sinh ra các cụm (clusters). Tuy nhiên,

khơng có tiêu chí nào là được xem là tốt nhất để đánh hiệu
của của phân tích phân cụm, điều này phụ thuộc vào mục
đích của phân cụm như: data reduction, “natural clusters”,
“useful” clusters, outlier detection

2.2.2 Tại sao phải phân cụm?


Phân cụm khách hang đem lại các thơng số cụ thể, giúp
hình thành các nhóm rời nhau. Tuy nhiên, lại quá cụ thể dẫn
tới khó khăn hơn trong việc quyết định. ( Ví dụ trên thang 5
là có đến 125 nhóm, giả sử ta muốn chi tiết hơn trong đánh
giá điểm bằng thang 10 thì sẽ là 1000 nhóm!)



Phân cụm khách hang


Giảm số lượng nhóm cần phải xử lý



Tăng tính hiệu quả



Tìm ra ranh giới giữa các nhóm




Số lượng nhóm là tùy ý

2.2.3 Thuật toán phân cụm K-Means


Ý tưởng:
Chia dữ liệu thành các cụm là tập hợp các điểm gần nhau
trong một không gian nào đó. Mỗi cụm có một điểm đại

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
7


DSS

diện, với mỗi điểm của dữ liệu, nếu nó gần điểm đại diện
nào hơn thì thuộc về cụm của điểm đại diện đó.
Mơ tả thuật tốn:





Thuật tốn:


B1: Chọn K điểm bất kì làm các center ban đầu




B2: Phân mỗi điểm dữ liệu và cluster có center gần nó
nhất



B3: Nếu việc gán dữ liệu vào từng cluster ở bước 2
không thay đổi so với vịng lặp trước nó thì ta dừng
thuật toán.

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
8


DSS


B4: Cập nhập center cho từng cluster bằng cách lấy
trung bình cộng của tất cả các điểm dữ liệu đã được gán
vào cluster đó sau bước 2,





3.


B5: Quay lại B2

Định nghĩa khoảng cách với bài toán RFM

Dữ liệu khảo sát
Dữ liệu được sử dụng là bộ dữ liệu bán lẻ trực tuyến từ Kho lưu

trữ của UCI.
Bộ dữ liệu Bán lẻ trực tuyến này chứa tất cả các giao dịch xảy ra
cho một cửa hàng bán lẻ trực tuyến không có cửa hàng và có đăng
ký tại Vương quốc Anh trong khoảng thời gian từ 01/12/2009 đến
09/12/2011. Công ty chủ yếu bán các sản phẩm quà tặng độc đáo.
Nhiều khách hàng của công ty là người bán buôn.

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
9


DSS

Hình 1: Dữ liệu khảo sát bán lẻ trực tuyến



Chú thích dữ liệu



InvoiceNo: Một số ngun gồm 6 chữ số được gán duy nhất
cho mỗi giao dịch. Nếu mã này bắt đầu bằng chữ 'c', nó biểu
thị việc hủy bỏ.



StockCode: Mã sản phẩm (vật phẩm). Một số nguyên gồm 5
chữ số được gán riêng cho từng sản phẩm riêng biệt.



Description: Tên sản phẩm (vật phẩm).



Quantity: Số lượng của từng sản phẩm (mặt hàng) trên mỗi
giao dịch.



InvoiceDate: Thời gian khi một giao dịch được tạo ra.



UnitPrice: Đơn giá. Số. Giá sản phẩm trên mỗi đơn vị bằng
đồng bảng Anh.

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933

10


DSS


CustomerID: Một số nguyên gồm 5 chữ số được gán riêng cho
từng khách hàng.





Country: Tên của quốc gia nơi một khách hàng cư trú.

Link nguồn dữ liệu khảo sát:
/>
CHƯƠNG II. PHÂN TÍCH HỆ THỐNG

1.

Các chức năng của hệ thống trợ giúp nhà quản lý
Trên hệ thống thông tin với cơ sở dữ liệu bán hàng đã được thu

thập, lãnh đạo công ty cần ra các quyết định. Việc ra quyết định
chính là cơng tác quản lí của lãnh đạo, hay nhà quản lí.
Hệ thống trợ giúp quyết định cho phép thực hiện các trợ giúp
liệt kê dưới đây. Các trợ giúp có ý nghĩa cùng nhà quản lí, hay lãnh
đạo công ty đưa ra quyết định cuối cùng. Trong trường hợp này,
phần mềm máy tính là cơng cụ giúp cho con người ra quyết định

quản lí.

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
11


DSS

Hình 2. Biểu đồ phân cấp chức năng
Sơ đồ luồng dữ liệu

2.
2.1.

Biểu đồ mức ngữ cảnh

Hình 3: Biểu đồ mức ngữ cảnh

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
12


DSS

Biểu đồ luồng dữ liệu


2.2.

Hình 4: Biểu đồ luồng dữ liệu

CHƯƠNG III. THIẾT KẾ HỆ THỐNG
1.

Ngơn ngữ viết chương trình


HTML
HTML là từ viết tắt của HyperText Markup Language

(ngôn ngữ đánh dấu siêu văn bản) dùng mô tả cấu trúc của các
trang Web và tạo ra các loại tài liệu có thể xem được trong trình
duyệt.
HTML được tạo ra và phát triển bởi tổ chức W3C (World
Wide Web Consortium)Hiện nay phiên bản mới nhất của HTML
là HTML5 với nhiều tính năng ưu việt so với các phiên bản cũ.


CSS

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
13


DSS


CSS (viết tắt của Cascading Style Sheets) là một ngôn ngữ
định dạng được sử dụng để mơ tả trình bày các trang Web, bao
gồm màu sắc, cách bố trí và phông chữ. CSS cho phép chúng
hiển thị nội dung tương thích trên các loại thiết bị có kích thước
màn hình khác nhau, chẳng hạn như màn hình lớn, màn hình nhỏ
như điện thoại hay máy tính bản.
CSS là độc lập với HTML và có thể được sử dụng với bất
kỳ ngôn ngữ đánh dấu nào xây dựng dựa trên XML. CSS tuân
theo chuẩn chung do W3C quy định.


JavaScript
JavaScript là một ngôn ngữ nhỏ và nhẹ chạy trong môi

trường máy chủ lưu trữ (ví dụ: trình duyệt web), JavaScript có
thể được kết nối với các đối tượng của môi trường để cung cấp
kiểm sốt chương trình đối với chúng.
JavaScript cho phép bạn thực hiện những điều phức tạp trên
các trang web như bản đồ tương tác…
Javascript được hỗ trợ hầu như trên tất cả các trình duyệt
như Firefox, Chrome, … thậm chí các trình duyệt trên thiết bị di
động cũng có hỗ trợ.
Hiện nay nó được dùng rộng rãi cho các trang web (phía
người dùng) cũng như phía máy chủ (với Nodejs).

2.

Giao diện Website


Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
14


DSS

Hình 5: Giao diện bắt đầu

Hình 6: Giao diện phân tích và biểu đồ thống kê

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
15


DSS

Hình 7: Biểu đồ cơt, biểu đồ trịn đánh giá

Hình 8: Gợi ý Marketing

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
16



DSS

Nguồn tài liệu tham khảo:
1.

/>
2.

/>
3.

/>00814.pdf

Sinh viên thực hiện: Nguyễn Hữu Đạt

MSSV: 20160933
17



×