Tải bản đầy đủ (.pptx) (48 trang)

slide thuyết trình đề tài nghiên cứu thông tin chuyến bay trong vận chuyển hàng không và du lịch

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.56 MB, 48 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

KHDL – G05

ĐỀ TÀI: NGHIÊN CỨU THÔNG TIN CHUYẾN BAY TRONG VẬN CHUYỂN

HÀNG KHÔNG VÀ DU LỊCH

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>NGUYỄN VĂN TÚ31221025423Xử lý dữ liệu thơ ,Phân tích giải bài tốn, đưa ra kiến nghị giải pháp, phương pháp </small>

<small>phân cụm, tiểu luận, slides</small>

<small>PHAN THỊ HỒI THƯƠNG31221026956Tìm Mẫu, Tiền Xử lý dữ liệu, phân tích bài tốn, phương phân lớp, đưa kiến nghị dự </small>

<small>đoán, slides, tiểu luận</small>

<small>100%</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

NỘI DUNG THUYẾT

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

• Dữ liệu phục vụ cho việc nghiên cứu những thông tin chuyến bay trong ngành vận chuyển hàng không và vận chuyển trong du lịch. • Dữ liệu thơ chứa 271888 đối tượng (hàng) và 10 thuộc tính (cột)

NGUỒN:

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Mô tả cấu trúc của bộ dữ liệu về FLIGHT

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

hiểu khách hàng đó đi với giá cao hay thấp.

• Sử dụng cơng cụ Feature Statistics để mô tả thống kê các biến này với những giá trị như Mean, Median, Dispersion, Min, Max,... của 8932 kết quả khảo sát.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>AveragePrice: biến phụ thuộc.</small>

<small>priceType có giá trị là “Cao” : giá vé cao hơn so với giá trị trung bình. </small>

<small>priceType có giá trị là “Thấp”: giá vé thấp hơn so với giá trị trung bình. </small>

MƠ TẢ DỮ LIỆU

<b>Bởi vì</b>

<small></small> <sub>FlightType, Price, Time, Distance ảnh </sub>

<small>hưởng trực tiếp và gián tiếp theo chiều hướng tỉ lệ thuận với priceType. </small>

<small></small> <sub>Year, Month ảnh hưởng priceType </sub>

<small>theo chiều hướng tháng cao điểm hoặc thấp điểm của mùa bay thì sẽ ảnh hưởng tới Price và priceType tăng hoặc giảm. Mỗi năm sẽ bị ảnh hưởng theo biến động của nền kinh tế - xã hội. </small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

PHÂN TÍCH

02

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

BÀI TOÁN

Dự báo giá vé máy bay nhằm để hãng hàng không điều chỉnh giá vé thích hợp và khách hàng điều chỉnh hành vi tiêu dùng

Sử dụng các thuật toán phân cụm để định hình và hiểu rõ hơn hành vi đặt vé của các nhóm khách hàng

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

MƠ TẢ BÀI TỐN 1

Các hãng hàng khơng cần lên kế hoạch cũng như các nghiệp vụ phân tích và dự báo để tính tốn hợp lí các chi phí như chi phí bay của từng loại vé như thế nào để khách hàng tin tưởng đồng hành và sử dụng dịch vụ với

chất lượng và chi phí phù hợp ?

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

XÂY DỰNG MƠ HÌNH

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

KẾT QUẢ VÀ ĐÁNH GIÁ

Kết quả đánh giá bài toán 1 theo SVM

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

+ T = 0,0% < LR = 2,6% < SVM = 8,3%

→ Vậy nên chọn phương pháp T và LR để thực hiện Test & Core - Dựa vào Test & Core

+ AUC của T = NN = 1.000

→ Vậy 2 phương pháp trên đều có thể thích hợp thực hiện dự báo

dự báo là cao >< giá vé thấp vì lỗ vốn Giá thấp hơn >< tiềm năng lợi

nhuận

KẾT QUẢ VÀ ĐÁNH GIÁ

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Kết quả đánh giá bài toán 1 và quyết định chọn phương pháp nghiên cứu

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

KẾT QUẢ VÀ ĐÁNH GIÁ

Đường cong ROC

Quan sát bảng kết quá trên ta thấy đường màu cam của mơ hình Tree là mơ hình tiệm cận với điểm (0;1) nhất.

Còn đường màu xanh dương của mơ hình SVM và đường màu xanh lá của mô

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

KẾT QUẢ VÀ ĐÁNH GIÁ

Kết quả nghiên cứu bài toán 1

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

KẾT QUẢ VÀ ĐÁNH GIÁ

Kết quả đánh giá bài toán 1 theo Tree

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Phân tích:

• <sub>(Time) ≤ 0,72 có giá vé thấp 100% → nên </sub> tăng giá.

• (Time) ≥ 0,72 có tỉ lệ tăng đến 21% ( 73,2%) → nên giảm giá.

• Giá vé khơng được hơn 1166,1 BRL → Xét 2 premium) do tỷ lệ dự báo giá cao đến 71,2% → lợi nhuận cao, duy trì lâu → cạnh tranh → mất khách hàng.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

KIẾN NGHỊ

• Khách hàng có xu hướng đi bằng phương tiện hàng không nhiều hơn → tạo chương trình thưởng và ưu đãi dành riêng cho khách hàng thân thiết → thúc đẩy hành khách quen thuộc của bạn tiếp tục lựa chọn hãng của bạn khi đi lại.

• <sub>Xem xét giá vé của các đối thủ cạnh tranh trong cùng tuyến </sub>

đường và cùng phân đoạn thị trường → điều chỉnh giá → cân nhắc liệu nên cạnh tranh bằng giá thấp hơn / giá tương đương /giá cao hơn.

• Khách hàng sẵn sàng chi trả với mức giá cao → tạo ra các giá trị và trải nghiệm đáng giá , duy trì một dịch vụ xuất sắc để có thể cạnh tranh được với các đối thủ.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

MƠ TẢ BÀI TỐN 2

Các hãng hàng khơng cần làm gì để giúp cải thiện dịch vụ, tối ưu hóa quy trình đặt vé và tạo ra chiến lược tiếp

thị chính xác hơn cho từng nhóm khách hàng?

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Hierarchic al

Clustering

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

CHẠY MƠ HÌNH VÀ KẾT QUẢ

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

<small>Thực hiện phân cụm bằng bộ dữ liệu phân lớp để dự báo xu hướng đặt vé máy bay của </small>

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

 Do số lượng dự liệu lên đến 8932 kết quả khảo sát -> Dùng Data Sampler để lấy ngẫu nhiên dữ liệu để khảo sát để có thể làm việc hiệu quả hơn -> tránh mất thời gian tiến hành và khai thác

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

 Để tiến hành Hierarchical Clustering -> Cần tính khoảng cách ước tính (sử dụng Euclidean (normalized)) -> với cách tính khoảng cách Complete-link (khoảng cách lớn nhất). Cho kết quả chạy từ 2 đến 5 cụm.

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<b>Hộp thoại Hierarchical Clustering để chia dữ liệu thành các cụm từ 2 tới 5</b>

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

 Sau khi chia dữ liệu lần lượt thành 2, 3, 4, 5 cùng thì ta dùng Silhouette Plot để xem kết quả cơng cụ từ đó lựa chọn phương án tối ưu. Khi đó

Silhouette Plot sẽ được

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

<b>Silhouette score của cụm càng lớn thì độ tương đồng của từng điểm trong cum càng cao thì kết quả </b>

phân cụm đó càng tốt. Vì thế sau khi thử phân cụm bố dữ liệu thành 2, 3, 4 và 5 cụm thì kết quả khi chia dữ liệu thành hai cụm là tốt nhất.

=> Qua những giá trị này, có thể nói cách phân cụm chưa thật sự đáng tin cậy, sát với thực tế và cần thêm các chuyên gia có kinh nghiệm, chun mơn để đánh giá lại.

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

K-Means

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Tiến hành phân cụm với thuật tốn k-means ta có :

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

+ Silhouette index 0,5: sát thực tế.

+ 0,25 Silhouette index 0,5: cần đánh giá lại (kinh nghiệm của chuyên gia). + Silhouette index 0,25: không tin tưởng và cluster, tìm phương pháp đánh giá khác. Theo kết quả chạy từ 2 đến 5 cụm có những kết quả sau:

+ Phân thành 2 cụm: Score=0.282, cụm 1, 2 có sự phân tách. + Phân thành 3 cụm: Score=0.251, cụm 1, 2, 3 có sự phân tách. + Phân thành 4 cụm: Score=0.224, nhóm 1, 2, 3, 4 có sự phân tách. + Phân thành 5 cụm: Score=0.229, nhóm 1, 2, 3, 4, 5 có sự phân tách.

<b>Kết quả được phân ra các giá trị sau :</b>

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

Vì vậy đối với bộ dữ liệu của nhóm thì phân cụm theo phương pháp k-Means là tốt nhất

<b>Kết quả lựa chọn phương pháp phân cụm :</b>

Kết quả phân cụm bằng k-Means

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

Phân càng nhiều nhóm chỉ số score càng thấp, và sự phân tách trong các nhóm càng nhiều. Vì vậy, nhóm đã quyết định chọn phương án phân bộ dữ liệu thành hai nhóm:

Bảng Silhouette Plot cho 2 phân cụm phân hoạch

</div><span class="text_page_counter">Trang 41</span><div class="page_container" data-page="41">

<b>Chuỗi thao tác thực hiện phân cụm và phân tích cụm</b>

</div><span class="text_page_counter">Trang 42</span><div class="page_container" data-page="42">

Bảng thống kê mô tả cụm 1

</div><span class="text_page_counter">Trang 43</span><div class="page_container" data-page="43">

Bảng thống kê mô tả cụm 2

</div><span class="text_page_counter">Trang 44</span><div class="page_container" data-page="44">

Biểu đồ Bar Plot so sánh giá trị distance giữa 2 cụm

</div><span class="text_page_counter">Trang 45</span><div class="page_container" data-page="45">

Biểu đồ Box Plot so sánh giá trị distance giữa 2 cụm

</div><span class="text_page_counter">Trang 46</span><div class="page_container" data-page="46">

NHẬN XÉT

Qua 2 biểu đồ trên ta có thể nhận thấy rằng, với nhóm khách hàng cụm 1, với chặng bay ngắn hơn, người ta sẽ lựa chọn đa dạng các loại vé nhưng có nghiêng về về loại vé 3 là economy

Đây là một dạng vé máy có mức giá tiết kiệm. Cịn với nhóm khách hàng cụm 2 ta thấy :Với chặng bay dài hơn người ta thường lựa chọn loại vé 1 và 2, lần lượt là loại firstClass và premium, đây là những hàng vé có mức giá khá cao.

</div><span class="text_page_counter">Trang 47</span><div class="page_container" data-page="47">

KIẾN NGHỊ

+ Với nhóm khách hàng cụm 1 (chặng bay ngắn hơn), nên tiếp tục tối ưu hóa giá vé economy để thu hút họ. Cân nhắc cung cấp các ưu đãi giảm giá cho vé economy trên các chặng bay ngắn.

+ Dựa trên sự hiểu biết về hành vi lựa chọn loại vé của các nhóm khách hàng, tạo chiến dịch tiếp thị đặc trưng cho từng nhóm.

+ Chú ý những ngành hàng khơng và du lịch là nhũng ngành có tính cạnh tranh cao và thị trường thay đổi nhanh chóng. Do đó, việc duy trì sự linh hoạt và thích nghi là rất quan trọng để thành cơng

+ Đối với nhóm khách hàng cụm 2 (chặng bay dài), tiếp tục cung cấp các dịch vụ và tiện ích cao cấp cho hành khách như firstClass và premium

</div><span class="text_page_counter">Trang 48</span><div class="page_container" data-page="48">

THANKS FOR WATCHING

<small>NHÓM G05 – KHOA HỌC DỮ LIỆU </small>

</div>

×