Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.65 MB, 44 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
TRƯỜNG ĐẠI HỌC KINH TẾ
<b>KHOA THƯƠNG MẠI ĐIỆN TỬ–––––––––––––––––––––––––––––––</b>
Sinh viên thực hiện: Trương Minh DuyNguyễn Văn Tuấn NghĩaNguyễn Phúc Vĩnh NguyễnTrà Phạm Ý Nhi
Giảng viên hướng dẫn: TS. Lê Diên Tuấn
<i><b>Đà Nẵng, tháng 10/2023</b></i>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
<b>MỤC LỤC</b>
MỤC LỤC...1
MỤC LỤC HÌNH ẢNH...3
MỤC LỤC BẢNG BIỂU...5
CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN...6
1.1. Giới thiệu về bài báo cáo...6
1.2. Mục tiêu của bài báo cáo...6
1.3. Đối tượng và phạm vi bài báo cáo...7
1.4. Phương pháp thực hiện bài báo cáo...7
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT...8
2.1. Quản trị quan hệ khách hàng (CRM)...8
2.2. RFM segmentation...8
2.3. K-means clustering...10
2.4. Hypothesis testing...10
2.5. Kiểm định Levene's test...11
CHƯƠNG 3. TRIỂN KHAI DỰ ÁN BẰNG PYTHON...14
VÀ KIỂM ĐỊNH GIẢ THUYẾT...14
3.1. Thu thập và tiền xử lý dữ liệu...14
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
3.2.1. Xu hướng bán hàng và doanh thu mỗi ngày...17
3.2.2. Số lượng và giá cả giữa những khách hàng tại từng quốc gia...19
3.2.3. Sản phẩm bán chạy nhất tại mỗi quốc gia...20
3.2.4. Tần suất mua hàng của khách hàng trên website...22
3.2.5. Quốc gia năng động nhất...23
3.2.6. Số lượng khách hàng mới vào mỗi tháng...26
3.2.7. Khách hàng có xu hướng mua sản phẩm khi nào?...27
3.3. Sử dụng K-means và RFM để phân khúc khách hàng...28
3.3.1. Phân khúc khách hàng bằng RFM...28
3.3.2. Phân cụm khách hàng bằng phương pháp Elbow...30
3.4. Kiểm định giả thuyết...34
3.4.1. Kiểm định Levene's test...34
3.4.2. Kiểm định Manova...35
CHƯƠNG 4. KẾT LUẬN...37
4.1. Kết quả nghiên cứu...37
4.2. Hạn chế của bài và hướng phát triển trong tương lai...38
TÀI LIỆU THAM KHẢO...40
2
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
Hình 3.6: Biểu đồ về doanh thu bán hàng mỗi tháng...18
Hình 3.7: Biểu đồ trung bình về số lượng và giá cả cho mỗi lần mua hàng với doanh thu tại từng quốc gia...19
Hình 3.8: Biểu đồ trung bình về tổng doanh thu tại từng quốc gia...20
Hình 3.9: Bảng biểu về sản phẩm bán chạy tại mỗi quốc gia...21
Hình 3.10: Bảng biểu về sản phẩm bán chạy chung trên tồn cầu...21
Hình 3.11: Biểu đồ về số lượng hàng hóa, giá và tổng trung bình tại mỗi quốc gia...22
Hình 3.12: Biểu đồ trung bình giao dịch của mỗi khách hàng khơng có Ireland..23
Hình 3.13: Biểu đồ doanh thu chung mỗi tháng tại mỗi quốc gia...24
Hình 3.14: Biểu đồ tổng doanh thu tại mỗi quốc gia ngoại trừ Anh...25
Hình 3.15: Biểu đồ thể hiện số lượng khách hàng mới cho mỗi tháng...26
Hình 3.16: Biểu đồ thể hiện mức độ giao dịch mỗi giờ...27
Hình 3.17: Biểu đồ thể hiện số lượng giao dịch theo từng khoảng trong ngày...27
Hình 3.18: Phân khúc cụ thể đối với từng nhóm đã quy ước bằng RFM...28
Hình 3.19: Bảng phân khúc sau khi thực hiện RFM...29
Hình 3.20: Biểu đồ phân bổ khách hàng theo phân khúc...29
Hình 3.21: Bảng phân khúc khách hàng theo 3 yếu tố...30
<i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
Hình 3.22: Phân cụm Elbow...31
Hình 3.23: Chỉ số R, F và M của từng cụm...31
Hình 3.24: Biểu đồ hộp 3 chiều về phân bổ khách hàng theo cụm...32
Hình 3.26: Đoạn mã xử lý dữ liệu để phục vụ kiểm định...34
Hình 3.27: Đoạn mã kiểm định Levene's test...35
Hình 3.28: Đoạn mã kiểm định Manova...36
Hình 3.29: Kết quả kiểm định Manova...36
4
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
<b>MỤC LỤC BẢNG BIỂU</b>
Bảng 3.1: Bảng xếp hạng các quốc gia năng động nhất...23Bảng 3.2: Bảng kết quả kiểm định Levene's test...35
5
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
<b>CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN</b>
1.1. Giới thiệu về bài báo cáo
Trong thời đại kinh doanh hiện nay, mơi trường có nhiều sự cạnh tranh gay gắt và thay đổi nhanh chóng, nhưng bên cạnh đó trước sự phát triển nhanh chóng của cơng nghệ thông tin và internet đã mở ra một thế giới kết nối rộng lớn, tạo điều kiện thuận lợi cho doanh nghiệp tiếp cận và tương tác với khách hàng gần gũi hơn. Từ đó mà việc hiểu rõ và tận dụng thông tin của từng khách hàng trong quy mô khách hàng đa dạng như hiện nay là một khía cạnh đóng vai trị vơ cùng quan trọng để nâng cao hiệu quả kinh doanh và tạo ra sự cạnh tranh bền vững cho doanh nghiệp. Khách hàng không đơn giản chỉ là người mua và sử dụng sản phẩm của doanh nghiệp, nhà cung cấp mà còn là nguồn tài nguyên quý giá, là nguồn cung cấp thông tin và phản hồi quan trọng cho doanh nghiệp như độ tuổi, giới tính, tính cách, chi tiêu và thu nhập. Nhờ vậy mà việc hiểu rõ hành vi mua hàng và các yếu tố ảnh hưởng đến quyết định mua hàng của khách hàng sẽ giúp doanh nghiệp xác định được chiến lược tiếp thị và quản lý mỗi khách hàng phù hợp. Thông qua việc áp dụng phương pháp phân khúc khách hàng như K-means và RFM, doanh nghiệp có thể chia nhỏ cơ sở khách hàng thành các nhóm có đặc điểm tương tự. Điều này cho phép doanh nghiệp tập trung tối ưu hóa chiến lược tiếp thị và tương tác với từng nhóm khách hàng một cách tốt nhất. Trong đó, phương pháp K-means giúp chúng tanhận ra các nhóm khách hàng có sự tương đồng với nhau dựa trên các đặc trưng khách hàng, trong khi phân tích RFM (Recency-Frequency-Monetary) đánh giá mức độ quan trọng của từng khách hàng dựa trên sự mới nhất, tần suất và giá trị tiềntệ mà họ mang lại cho doanh nghiệp.
1.2. Mục tiêu của bài báo cáo
- Hiểu được các khái niệm cơ bản về quản trị quan hệ khách hàng (CRM), thuật toán phân cụm K-means và cách để phân loại khách hàng dựa theo mô hình RFM
- Xử lý và trực quan hóa dữ liệu6
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
- Thực hiện phân khúc khách hàng giúp cho công ty hiểu rõ hơn về đặc điểm, hành vi khách hàng từ đó đưa ra được những chiến lược tiếp thị và bán hàng phù hợp cho mỗi phân khúc khách hàng dựa vào RFM và thuật toán K-means
- Thực hiện kiểm định phân cụm bằng các phương pháp kiểm định thống kê
1.3. Đối tượng và phạm vi bài báo cáoĐối tượng của bài báo cáo
- Tập dữ liệu khách hàng sử dụng của cửa hàng bán lẻ trực tuyến- Các phương pháp phân cụm
- Các phương pháp xác định số cụm tối ưu- Các phương pháp kiểm định
Phạm vi nghiên cứu của bài
- Đề tài được thực hiện trên phạm vi tập dữ liệu khách hàng của một cửa hàng bán lẻ trực tuyến khơng có cửa hàng đã đăng ký và có trụ sở tại Vương quốc Anh
- Các giải thuật phân cụm và xác định số cụm trong khai phá dữ liệu- Các phương pháp kiểm định giả thuyết phân cụm
1.4. Phương pháp thực hiện bài báo cáo
- Phương pháp nghiên cứu lý thuyết: sư tập kiến thức qua các văn bản học thuật, blog trên mạng để củng cố và cung cấp thông tin cần thiết làm nền tảng cho đề tài
- Phương pháp nghiên cứu thực nghiệm: liên tục thử nghiệm và điều chỉnh nhằm tạo ra phân khúc khách hàng phù hợp
- Lý thuyết kết hợp với thực nghiệm: cung cấp thông tin về các quy trình, để hiểu được phân khúc khách hàng, tiến hành kiểm định để đảm bảo chuẩn xáctrong việc phân chia cụm khách hàng.
7
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
<b>CHƯƠNG 2. CƠ SỞ LÝ THUYẾT</b>
2.1. Quản trị quan hệ khách hàng (CRM)
Quan hệ khách hàng trong doanh nghiệp (CRM – Customer Relationship Management) là một phương pháp giúp các doanh nghiệp thu thập, phân tích và quản lý các tương tác của khách hàng một cách có hệ thống và hiệu quả, các thơng tin của khách hàng như thông tin về tài khoản, nhu cầu, liên lạc… , từ đó hình thànhmối quan hệ trong kinh doanh.
Nhiệm vụ của quản lý quan hệ khách hàng (CRM) trong hệ thống doanh nghiệp:
● Đối với khách hàng:
CRM giúp doanh nghiệp nắm bắt thông tin về khách hàng như ngày sinh, sở thích, nhu cầu, để tạo ra trải nghiệm cá nhân hóa và quan tâm đến khách hàng, đồngthời hỗ trợ doanh nghiệp duy trì thơng tin về khách hàng và phân tích để tìm ra cơ hội kinh doanh mới từ khách hàng.
● Đối với doanh nghiệp:
CRM giúp doanh nghiệp quản lý, lắng nghe ý kiến và bảo mật thơng tin khách hàng, từ đó mà dễ dàng quản lý tình hình kinh doanh và phát triển của doanh nghiệp.
CRM giúp doanh nghiệp quảng bá sản phẩm, thương hiệu nhanh chóng, dễ dàng và tiết kiệm chi phí. Từ đó tăng doanh số bán hàng, giảm thiểu rủi ro, chi phí. Tối ưu hóa hiệu quả của nhân viên kinh doanh, tập trung vào việc quản lý khách hàng một cách hiệu quả nhất.
● Đối với nhà quản lý:
Quản lý hiệu suất và nguồn lực: giúp nhà quản lý đánh giá hiệu suất công việc của nhân viên; quản lý nhân viên, ngân sách, quy trình và tăng cường thông tin khách hàng giữa các văn phịng và các vị trí địa lý khác nhau.
8
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
2.2. RFM segmentation
RFM là một phương pháp được sử dụng để phân loại và quản lý khách hàng.Nó thường được sử dụng trong marketing cơ sở dữ liệu (kiểu như dựa vào dữ liệuvề khách hàng để tiếp thị sản phẩm) và marketing trực tiếp bằng cách sử dụng 3 yếutố dưới đây để chia khách hàng thành các nhóm riêng biệt, mà từ đó xác định đượcchiến lược tiếp thị phù hợp cho từng nhóm khách hàng. Và phương pháp này đãnhận được sự chú ý đặc biệt trong ngành bán lẻ và dịch vụ. Phân tích RFM thườngdựa trên câu ngạn ngữ tiếp thị: "80% hoạt động kinh doanh của bạn đến từ 20%khách hàng của bạn"
RFM định lượng giá trị của một khách hàng dựa trên 3 yếu tố chính:● Recency: Khoảng thời gian mua hàng gần đây nhất là bao lâu. Cho biết
khách hàng có đang thực sự hoạt động gần thời điểm đánh giá. Chỉ số nàycàng lớn càng cho thấy xu hướng rời bỏ của khách hàng càng cao. Đó là mộtcảnh báo cho doanh nghiệp nên thay đổi sản phẩm để đáp ứng thị hiếu kháchhàng hoặc thay đổi chính sách để nâng cao chất lượng phục vụ.
● Frequency: Tần suất mua hàng của khách hàng. Nếu khách hàng mua càngnhiều đơn thì giá trị về doanh số mang lại cho công ty càng cao và tất nhiêngiá trị của họ càng lớn. Tuy nhiên nếu chỉ xét dựa trên tần suất mua hàng thìcũng chưa đánh giá được đầy đủ mức độ tác động lên doanh thu bởi bên cạnhđó, giá trị đơn hàng cũng là yếu tố trực tiếp cho thấy khách hàng tiềm năngnhư thế nào.
● Monetary: Là số tiền chi tiêu của khách hàng. Đây là yếu tố trực quan nhấtảnh hưởng tới doanh số. Hay nói cách khác, doanh nghiệp quan tâm nhất làkhách hàng đã dành bao nhiêu tiền để mua sắm sản phẩm của công ty?Monetary sẽ tác động trực tiếp tới doanh thu và bị tác động gián tiếp thôngqua 2 yếu tố cịn lại là Recency và Frequency.
Phân tích RFM giúp xác định các nhóm khách hàng quan trọng bằng cáchphân loại khách hàng dựa trên hành vi và lịch sử giao dịch của họ. Thơng qua việcphân tích ba chỉ số chính là Recency, Frequency và Monetary Value, doanh nghiệp
9
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
có thể xác định các nhóm khách hàng mua hàng thường xuyên, chi tiêu nhiều hoặccác nhóm khách hàng có khả năng quay lại và tiếp tục mua hàng. Điều này mang lạihiệu quả tốt hơn trong việc tạo ra chiến lược tiếp thị và phục vụ khách hàng.
Với RFM, doanh nghiệp có thể phân loại khách hàng thành các nhóm nhưsau:
● Nhóm khách hàng có giá trị cao (High Value): là nhóm khách hàng có muahàng gần đây, số lượng đơn hàng nhiều và có giá trị tiền mua hàng cao.● Nhóm khách hàng có giá trị trung bình (Mid Value): là nhóm khách hàng có
ba chỉ số RFM trung bình, khơng cao cũng khơng thấp.
● Nhóm khách hàng có giá trị thấp (Low Value): là nhóm khách hàng có muahàng lâu nhất, số lượng đơn hàng ít và có giá trị tiền mua hàng thấp.
2.3. K-means clustering
Thuật toán K-means (K-means clustering) là một thuật tốn đơn giản của họckhơng giám sát, được sử dụng để chia tập dữ liệu thành các nhóm (cụm) dựa trên sựtương tự hoặc liên quan giữa các điểm dữ liệu. Trong phân cụm K-means, ta khơng biết tính chất của từng điểm dữ liệu. Thay vào đó, chúng tìm kiếm sự tương tự dựa trên một số đặc trưng hoặc thuộc tính của các điểm dữ liệu và sử dụng chúng để tạo ra các nhóm.
Mục đích là làm thế nào để phân dữ liệu thành các cụm (cluster) khác nhau sao cho dữ liệu trong cùng một cụm có những tính chất giống nhau.
Thuật tốn K-means có thể tóm tắt như sau:1. Chỉ định số lượng cụm k.
2. Chọn ngẫu nhiên k điểm từ tập dữ liệu làm trung tâm (centroids) cho k cụm.
3. Tính khoảng cách giữa các điểm đến k tâm (thường dùng khoảng cách Euclidean).
4. Nhóm các đối tượng vào nhóm gần nhất.
10
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
5. Xác định lại tâm mới cho các nhóm bằng cách tính giá trị trung bình cho các điểm dữ liệu trong các cụm tương ứng.
6. Thực hiện lại bước 3 cho đến khi khơng có sự thay đổi nhóm nào của các điểm dữ liệu
2.4. Hypothesis testing
Kiểm định giả thuyết là một phương pháp thống kê được sử dụng để rút ra những suy luận hoặc kết luận về một quần thể dựa trên dữ liệu mẫu. Phương pháp này liên quan đến việc xây dựng hai giả thuyết cạnh tranh, giả thuyết không (H0) vàgiả thuyết thay thế (H1) để kiểm tra tính hợp lý của dữ liệu mẫu.
Giả thuyết không (H0) thường được xem như là giả định mặc định, khơng cósự khác biệt đáng kể hoặc khơng có tác động của biến độc lập lên biến phụ thuộc trong quần thể. Giả thuyết thay thế (H1) đề cập đến sự khác biệt, tác động hoặc mối quan hệ giữa các biến.
Quá trình kiểm định giả thuyết bắt đầu bằng việc thu thập dữ liệu mẫu từ quần thể. Tiếp theo, một phân phối xác suất được xác định dựa trên giả thuyết không. Các thống kê mẫu được tính tốn từ dữ liệu mẫu và so sánh với phân phối xác suất đã xác định. Nếu các thống kê mẫu nằm trong khu vực chấp nhận của phân phối xác suất, chúng ta khơng có đủ bằng chứng để bác bỏ giả thuyết không và chấpnhận giả thuyết không. Ngược lại, nếu các thống kê mẫu nằm ngồi khu vực chấp nhận, chúng ta có đủ bằng chứng để bác bỏ giả thuyết không và chấp nhận giả thuyết thay thế.
Trong quá trình kiểm định giả thuyết, chúng ta đặt mức ý nghĩa (alpha) để xác định khu vực chấp nhận và khu vực từ chối. Mức ý nghĩa thường được chọn là 0,05 hoặc 0,01, tùy thuộc vào mức độ khắt khe của phân tích. Kết quả của kiểm định giả thuyết được biểu thị dưới dạng giá trị p, đại diện cho xác suất của việc quan sát được dữ liệu mẫu hoặc một hiện tượng tương tự nếu giả thuyết không đúng.
Qua q trình kiểm định giả thuyết, chúng ta có thể đưa ra kết luận về tính hợp lý của giả thuyết khơng dựa trên dữ liệu mẫu. Nếu có đủ bằng chứng để bác bỏ
11
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
giả thuyết khơng, chúng ta có thể chấp nhận giả thuyết thay thế và kết luận rằng có sự khác biệt, tác động hoặc mối quan hệ giữa các biến trong quần thể.
2.5. Kiểm định Levene's test
Kiểm định Levene's test là một phương pháp thống kê được sử dụng để kiểmtra tính đồng nhất của phương sai giữa các nhóm dữ liệu. Ý nghĩa của kiểm định này là xác định xem có sự khác biệt đáng kể về phương sai giữa các nhóm hay không. Khi giá trị p (p-value) của kiểm định này nhỏ hơn một ngưỡng xác định (thường là 0.05), chúng ta có căn cứ để bác bỏ giả thuyết khơng có sự khác biệt về phương sai giữa các nhóm. Ngược lại, khi giá trị p lớn hơn ngưỡng, chúng ta khơng có đủ bằng chứng để bác bỏ giả thuyết khơng có sự khác biệt về phương sai.
Nói cách khác, kiểm định Levene’s test tuy không phải là một bước trực tiếp trong MANOVA, nhưng nó có thể được sử dụng để kiểm tra giả định về sự đồng nhất của phương sai, một điều quan trọng khi thực hiện MANOVA.
2.6 Kiểm định Manova (Phân tích đa biến phương sai)
Kiểm định Manova (Multivariate Analysis of Variance) là một phương pháp kiểm định thống kê được sử dụng để so sánh sự khác biệt giữa các trung bình của hai hoặc nhiều nhóm trên nhiều biến phụ thuộc cùng một lúc.
Trong Manova, chúng ta đánh giá sự khác biệt giữa các nhóm trên tất cả các biến phụ thuộc cùng một lúc. Điều này giúp chúng ta hiểu được tác động tổng thể của biến độc lập lên các biến phụ thuộc. Ví dụ, giả sử chúng ta muốn so sánh trung bình của ba nhóm (A, B và C) trên ba biến phụ thuộc (X, Y và Z), Manova cho phép chúng ta kiểm tra xem có sự khác biệt ý nghĩa giữa các nhóm trên tất cả các biến phụ thuộc hay không.
Các bước thực hiện kiểm định Manova:1. Xây dựng giả thuyết
2. Lựa chọn mức ý nghĩa3. Lựa chọn và đo lường các biến4. Kiểm tra các giả định5. Thực hiện MANOVA
12
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
6. Giải thích kết quả7. Phân tích sâu Anova8. Báo cáo kết quả
Khi nào nên dùng kiểm định Manova?
● Phát hiện sự khác biệt toàn diện: Manova cho phép nghiên cứu sự khác biệt giữa các nhóm hoặc điều kiện trên nhiều biến phục thuộc đồng thời, tức là Manova cung cấp cái nhìn tổng quan về sự khác biệt tồn diện giữa các nhóm
● Kiểm tra giả thuyết: kiểm định Manova được dùng để kiểm tra giả thuyết về sự khác biệt giữa các nhóm hoặc điều kiện. Nếu giả thuyết (p-value) nhỏ hơnmột ngưỡng xác định, ta có thể bác bỏ giả thuyết khơng có sự khác biệt giữa các nhóm
● Thực hiện đánh giá, đo đạc các đa biến; ví dụ, nếu muốn nghiên cứu các tác động của chế độ ăn uống đến chỉ số khối cơ thể (BMI), mức độ cholesterol và huyết áp, MANOVA cho phép chúng ta đánh giá ba biến phụ thuộc này (BMI, mức độ cholesterol, huyết áp) cùng một lúc.
● Khám phá tác động đa biến: Trong một số trường hợp, khi xem xét riêng lẻ một biến độc lập có thể khơng có tác động đáng kể đến các biến phụ thuộc (phân tích đơn biến). Tuy nhiên, khi các biến này được phân tích cùng nhau bằng MANOVA, có thể phát hiện được các tác động đa biến đáng kể mà các kiểm định đơn biến (như ANOVA) không thể phát hiện.
● Biết rõ về mối quan hệ giữa các biến phụ thuộc: cung cấp thông tin về mối quan hệ giữa các biến phụ thuộc và các biến độc lập có mối quan hệ như thế nào với các biến phụ thuộc này. Ví dụ, nó có thể giúp hiểu cách chế độ ăn uống ảnh hưởng khác biệt đến BMI, mức độ cholesterol và huyết áp cùng nhau.
13
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
<b>CHƯƠNG 3. TRIỂN KHAI DỰ ÁN BẰNG PYTHON VÀ KIỂM ĐỊNH GIẢ THUYẾT</b>
3.1. Thu thập và tiền xử lý dữ liệu
3.1.1. Tổng quan dữ liệu
Là tập dữ liệu xuyên quốc gia chứa tất cả các giao dịch xảy ra từ ngày12/01/2010 đến ngày 09/12/2011 cho một cửa hàng bán lẻ trực tuyến không có cửahàng đã đăng ký và có trụ sở tại Vương quốc Anh. Công ty này chủ yếu bán quàtặng cho tất cả các ngày, dịp lễ.
Nguồn dữ liệu được lấy từ website: UC Irvine Machine Learning Repository
3.1.2. Mô tả dữ liệu
Dữ liệu gồm 541909 hàng và 8 cột. Trong đó:
● InVoiceNo: Số hóa đơn, một số Nguyên gồm 6 chữ số đại diện cho mỗi giao dịch, nếu nó bắt đầu bằng chữ “c” nghĩa là giao dịch đó đã được hủy bỏ.● StockCode: Mã sản phẩm (mặt hàng), một số Nguyên gồm 5 chữ số được chỉ
định cho mỗi mặt hàng riêng biệt.● Description: Tên mặt hàng.
● Quantity: Số lượng của từng sản phẩm (mặt hàng) trên mỗi giao dịch.● InvoiceDate: Số, ngày và giờ khi mỗi giao dịch được tạo.
● UnitPrice: Giá sản phẩm trên mỗi đơn vị bằng đồng bảng Anh.● CustomerID: Mã số cho mỗi khách hàng (một số nguyên gồm 5 chữ số).● Country: Tên quốc gia của mỗi khách hàng.
14
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
Hình 3.2: Đoạn mã xử lý dữ liệu
16
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
b. Xử lý outliers
Hình 3.3: Đoạn mã xử lý outliers
Hình 3.4: Biểu đồ outliersNhận xét:
- Có nhiều điểm dị biệt (outliers) trong biểu đồ boxplot của UnitPrice, chứng tỏ, có nhiều sự biến động mạnh đối với giá các sản phẩm tính bằng Bảng Anh, điều này có thể là do các sản phẩm được bán ở khắp các quốc gia đang phát triển, phát triển.
17
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
- Vài điểm dị biệt (outliers) trong biểu đồ Quantity và TotalPrice, cho thấy, vẫn có sự chênh lệch đối nghịch nhau trong quá trình mua hàng của khách hàng tại các quốc gia.
3.2. Trực quan hóa dữ liệu
3.2.1. Xu hướng bán hàng và doanh thu mỗi ngày
Đầu tiên, chúng em tiến hành trực quan bằng biểu đồ về xu hướng bán hàng và doanh thu mỗi ngày trong tháng để biết được xu hướng của công ty hiện nay trong việc bán hàng.
Hình 3.5: Biểu đồ về xu hướng bán hàng
18
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
Hình 3.6: Biểu đồ về doanh thu bán hàng mỗi thángNhận xét:
- Nhìn vào đồ thị của sự phát triển của xu hướng bán hàng chung, chúng ta thấy được từ tháng 12 năm 2010 đến đầu tháng 12 năm 2011, về tổng giá trên sản phẩm là khá ổn định, dù có tăng và giảm nhưng tăng dần đều vào các tháng cuối năm 2011.
- Nhìn vào đồ thị doanh số bán hàng chung cho từng tháng, ta thấy được, từ khoảng tháng 12 năm 2010 đến cuối tháng 7 năm 2011, xu hướng bán hàng đem lại doanh số bán hàng khá ổn định, mặc dù có tụt giảm vào các tháng đầu năm 2011, nhưng sau đó có tăng trưởng vượt bậc vào tháng 5 năm 2011 và khơng có sự thay đổi nhiều cho đến tháng 8 năm 2011.
- Doanh số bán hàng chung tăng mạnh và gần như là gấp 3. Mức tăng này cũng có thể liên quan đến thời điểm cuối năm lễ kỷ niệm, nơi mọi người có xu hướng mua nhiều sản phẩm hơn.
19
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
3.2.2. Số lượng và giá cả giữa những khách hàng tại từng quốc gia
Tiếp theo, chúng ta sẽ xem thử liệu có sự khác biệt về số lượng và giá cả trong việc mua hàng giữa những khách hàng tại từng quốc gia khi mua sản phẩm hay khơng.
Hình 3.7: Biểu đồ trung bình về số lượng và giá cả cho mỗi lần mua hàng vớidoanh thu tại từng quốc gia
Nhận xét:
- Nhìn vào biểu đồ trung bình về giá, số lượng cho một giao dịch và tổng doanh thu tại từng quốc gia, ta thấy được tổng doanh thu cao nhất lần lượt là Úc, Hà Lan, Nhật Bản và Thụy Điển. Nhưng giá trị trên từng sản phẩm cao nhất là Liban và các quốc gia nhỏ ở Trung Đơng.
- Và quốc gia có số lượng sản phẩm mua nhiều nhất cho mỗi giao dịch là Úc, Hà Lan, Nhật Bản và Thụy Điển.
20
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22"><i><b>TS. Lê Diên TuấnNhóm 12 – 46K29.2</b></i>
Hình 3.8: Biểu đồ trung bình về tổng doanh thu tại từng quốc giaNhận xét:
- Có 4 quốc gia có xu hướng mua hàng với giỏ hàng trung bình lớn hơn các quốc gia khác: Hà Lan, Úc, Nhật Bản và Thụy Điển.
- Dựa trên các biểu đồ về số lượng và tổng giá, ta thấy được khách hàng từ cácquốc gia đó sẽ mua số lượng nhiều hơn ở các quốc gia khác.
- Khách hàng Hồng Kơng và Singapore có xu hướng bị hấp dẫn hơn bởi các mặt hàng đắt tiền.
3.2.3. Sản phẩm bán chạy nhất tại mỗi quốc gia
Chúng ta sẽ tiến hành xem xét những sản phẩm bán chạy nhất tại mỗi quốc gia.
21
</div>