Tải bản đầy đủ (.pdf) (43 trang)

đề tài airlines traffic passenger statistics thống kê lưu lượng hành khách hàng không

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.13 MB, 43 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA </b>

ĐỀ TÀI: Airlines Traffic Passenger Statistics

<b>Thống kê lưu lượng hành khách hàng không </b>

GVHD<b>: Cô Nguyễn Kiều</b> Dung

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>2 </small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

4.2. XÂY D NG MÔ HÌNH H I QUY TUY<b>ỰỒẾN TÍNH ĐƠN BIẾ</b>N ... 29

4.3 XÂY D NG MƠ HÌNH H I QUY TUY<b>ỰỒẾN TÍNH ĐA BIẾ</b>N ... 37 5.TÀI <b>LIỆ</b>U THAM <b>KHẢ ... 43</b>O

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<small>4 </small>

1. T NG QUAN V D <b>ỔỀ Ữ LIỆ</b>U 1.1. Ng c nh d u <b>ữ ảữ liệ</b>

Dữ liệu được sử dụng trong bài báo cáo này nói v ề lượng hành khách không lưu của các hãng hang không và nh ng y u t có th ữ ế ố ể ảnh hưởng đến lượng hành khách di chuy n c a m i hãng hàng không. V y nên vi c ti p c n các y u tể ủ ỗ ậ ệ ế ậ ế ố liên quan đên nhu cầu hành khách là điều cần thiết cho các hãng hàng không. Đây là vấn đề quan của s phát tri n chự ể ất lượng dịch vụ giao thông b ng máy bay và ằ ngu n kinh t c p qu c gia, khu vồ ế ở ấ ố ực và địa phương.

1.2. Ngu n d <b>ồữ liệu:</b>

B ng th ng kê v ả ố ề lượng khách hàng không lưu của các hang hàng không được lấy t từ ệp “Airlines Traffic Passenger Statistics” trên website Kaggle.

- C c bi n chính trong b d á ế ộ ữ liệu:

+ Activity Period: Th i gian hoờ ạt động c a các chuy n bay. ủ ế + Operating Airline: Hãng hàng không khai thác chuy n bay. ế

+ Operating Airline IATA Code: Mã IATA c a hãng hàng không khai thác ủ chuy n bay. ế

+ Published Airline: Hãng hàng không đã công bố giá vé cho chuy n bay. ế + Published Airline IATA Code: Mã IATA của hãng hàng không đã công bố giá vé cho chuy n bay. ế

+ GEO Summary: Tính ch t c a chuy n bay (nấ ủ ế ội địa, qu c tố ế). + GEO Region: Khu vực hoạt động c a chuy n bay. ủ ế

+ Activity Type Code: Lo i hoạ ạt động. + Price Category Code: Lo i giá vé. ạ + Terminal: Ga c a chuy n bay. ủ ế

+ Boarding Area: C ng lên máy bay c a chuy n bay. ổ ủ ế + Passenger Count: S ố lượng hành khách trên chuy n bay. ế

+ Adjusted Activity Type Code: Lo i hoạ ạt động (đã điều chỉnh cho d ữ liệu bị thi u). ế

+ Adjusted Passenger Count: S ố lượng hành khách trên chuyến bay (đã điều chỉnh cho d liệu bị thi u). ữ ế

+ Year: Năm hoạt động c a chuy n bay. ủ ế + Month: Tháng hoạt động c a chuy n bay. ủ ế

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

- B d u bao g m: 15007 quan sát c a 17 biộ ữ liệ ồ ủ ến.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<small>6 </small>

<b>2. KIẾN THỨC NỀN </b>

<b>2.1. Phân tích phương sai Analysis of Variance (ANOVA) </b>-

<b>2.1.1.Khái niệm: </b>

Phân tích phương sai - Analysis of Variance (ANOVA) là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các giá trị trung bình của các mẫu quan sát từ nhóm này thơng qua việc kiểm định giả thuyết của kết luận và sự bằng nhau của các trung bình tổng thể này. Đối với các quá trình nghiên cứu, phương pháp phân tích phương sai (ANOVA) được dùng để nghiên cứu các ảnh hưởng của biến nguyên nhân (định tính) lên biến kết quả (định lượng).

<i>Có hai loại ANOVA chính: </i>

Phân tích phương sai một yếu tố (One way ANOVA): So sánh trung bình của -hai hoặc nhiều nhóm dữ liệu.

Phân tích phương sai hai yếu tố (Two-way ANOVA): So sánh trung bình của hai hoặc nhiều nhóm dữ liệu, với mỗi nhóm được xác định bởi hai hoặc nhiều biến độc lập.

Biến phụ thuộc (Dependent variable): Biến phụ thuộc giúp ta kiểm tra được sự khác biệt giữa các nhóm dữ liệu. Đây là nhóm mà ta muốn dự đốn hoặc giải thích.

Biến độc lập (Independent variable): Biến độc lập là biến để chúng ta so sánh để xem sự khác biệt về biến phụ thuộc giữa các biến độc lập.

Hiểu một cách đơn giản, phân tích phương sai là một phương pháp giúp ta xác định được sự ảnh hưởng của biến phụ thuộc lên biến độc lập trong một nghiên cứu hồi quy. Nhưng thay vì chỉ so sánh các đối tượng trong một nhóm, phương pháp ANOVA sẽ giúp chúng ta so sánh trong một phạm vi rộng hơn như giữa hai hoặc nhiều nhóm đối tượng hơn nữa.

Phương pháp ANOVA sẽ phân chia một biến được tổng hợp từ một nhóm dữ liệu thành hai phần để phân tích:

-Yếu tố hệ thống: Là yếu tố sẽ ảnh hưởng thống kê đến tập dữ liệu đã cho. -Yếu tố ngẫu nhiên: Là yếu tố sẽ không ảnh hưởng đến tập dữ liệu đã có sẵn. 2.1. <b>2. Các phương pháp phân tích phương sai </b>

1. <b>Phân tích phương sai một yếu tố (One-way ANOVA) </b>

Phân tích phương sai một yếu tố - One way ANOVA là phân tích ảnh hưởng của m t y u t nguyên nhân (d ng biộ ế ố ạ ến định tính) ảnh hưởng đến m t y u t k t qu ộ ế ố ế ả (dạng biến định lượng) đang nghiên cứu. Ta đi vào lý thuyết như sau:

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

a) <b>Trường h p không t ng th có phân ph i chuợổểốẩn và phương sai </b>

b ng nhau: <b>ằ</b>

Giả s chúng ta mu n so sánh trung bình c a k t ng th (ví dử ố ủ ổ ể ụ ở phần 1.1 có k = 3) d a trên nhự ững m u ngẫ ẫu nhiên độ ậc l p gồm 𝑛<sub>1</sub>, 𝑛 , 𝑛 , ..., 𝑛<sub>2</sub> <sub>3</sub> <sub>𝑘</sub> quan sát từ k tổng th . C n ghi nh ba giể ầ ớ ả định sau đây về các nhóm t ng th c n phân tích ổ ể ầ ANOVA:

- Các t ng th này có phân phổ ể ối bình thường. - Các t ng th này có phân ph i b ng nhau. ổ ể ố ằ - Các t ng th này l y mổ ể ấ ẫu độ ậc l p nhau.

Nếu trung bình c a các t ng thủ ổ ể được kí hiệu là 𝜇<sub>1</sub>= 𝜇 = 𝜇 = ... = 𝜇<sub>2</sub> <sub>3</sub> <sub>𝑘</sub> thì các gi ả định trên được đáp ứng, mơ hình phân tích phương sai một y u t ế ố ảnh hưởng được mô t ả dướ ại d ng kiểm định gi thuyả ết như sau:

𝑯<sub>𝟎</sub> : 𝝁<sub>𝟏</sub>= 𝝁<sub>𝟐</sub> = 𝝁<sub>𝟑</sub> = ... = 𝝁<sub>𝒌</sub>

Giả thuyết 𝐻<sub>0</sub> cho r ng trung bình c a k tằ ủ ổng thể đều b ng nhau (v mằ ề ặt nghiên c u liên h ứ ệ giả thuyết này cho rằng y u t ế ố ngun nhân khơng có tác động gì đến vấn đề mà ta đang nghiên cứu). Và giả thuyết đối là: 𝑯<sub>𝟏</sub> : T n t i ít nh t m<b>ồạấột cặp trung bình t ng thổể khác nhau. Hai giả</b> định đầu tiên để ti n hành phân tích ế phương sai được mơ tả như hình dưới đây, bạn thấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, những ba vị trí chênh lệch của chúng ta cho thấy rằng ba giá tr trung bình khác nhau. Rõ ràng là nị ếu b n thạ ực sự có các giá tr c a ba t ng th và bi u diị ủ ổ ể ể ễn được phân ph i cố ủa chúng như hình dưới đây thì bạn khơng cần ph i làm gì n a mà kả ữ ết luận được ngay là b n s bác bạ ẽ ỏ giả thuyết 𝐻<sub>0</sub> hay 3 t ng th này có giá tr trung bình khác nhau. ổ ể ị

Nhưng bạn chỉ có mẫu đại diện được quan sát, nên để ểm đị ki nh giả thuyết này, ta th c hiự ện các bước sau:

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>8 </small>

<b>Bước 1: Tính các trung bình m u c</b>ẫ ủa các nhóm (xem như là đại diện của các tổng thể). Trước h t ta xem cách tính các trung bình m u tế ẫ ừ những quan sát c a k ủ m u ngẫ ẫu nhiên độc l p (ký hiậ ệu 𝑥, 𝑥<sub>1</sub> <sub>2</sub>, 𝑥<sub>3</sub>, ..., 𝑥<sub>𝑘</sub>) và trung bình c a k m u quan sát ủ ẫ (ký hiệu 𝑥 ) t ừ trường hợp quan sát như sau:

Tính trung bình m u c a t ng nhóm ẫ ủ ừ , 𝑥𝑥<sub>1</sub><sub>2</sub>, 𝑥<sub>3</sub>, ..., 𝑥<sub>𝑘</sub> theo cơng thức:

Dĩ nhiên bạn có thể tính trung bình chung của mẫu k theo cách khác là: cộng tất cả các 𝑥<sub>𝑖𝑗</sub> trên b ng t ng th trên rả ổ ể ồi đem chia cho ∑ 𝑛<sub>𝑖</sub> v i ( = 1,2,3...,k). Kớ 𝑖 ết quả s ẽ như nhau.

<b>Bước 2: Tính các t ng các chênh l</b>ổ ệch bình phương (hay gọi tắt là tổng bình phương). Tính tổng các chênh lệch bình phương trong nộ ội b nhóm SSW và tổng cách chênh lệch bình phương giữa các nhóm SSG.

Tổng các chênh lệch bình phương trong nộ ộ nhóm (SSW) đượi b c tính bằng cộng các chênh lệch bình phương giữa các giá tr quan sát v i trung bình m u cị ớ ẫ ủa

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

phải do y u tế ố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các tổng

Tương tự như vậy ta tính cho đến nhóm th ứ k được 𝑆𝑆<sub>𝑘</sub>. V y t ng chênh l ch ậ ổ ệ bình phương trong nội bộ các nhóm được tính như sau:

SSW = 𝑺𝑺<sub>𝟏</sub>+ 𝑺𝑺<sub>𝟐</sub>+ 𝑺𝑺<sub>𝟑</sub> + ... + 𝑺𝑺<sub>𝒌</sub>= ∑ ∑<small>𝒏𝒊</small> (𝒙 − 𝒙<sub>𝒊𝒋</sub> <sub>𝑰</sub>)<small>𝟐𝒋=𝟏</small>

<small>𝒌𝒊=𝟏</small>

Tổng chênh lệch bình phương giữa các nhóm (SSG) được tính b ng các chênh ằ lệch đượ ấy bình phương giữc l a các trung bình mẫu của từng nhóm với trung bình chung c a k nhóm (các chênh lủ ệch này đều được nhân thêm v i sớ ố quan sát tương ứng c a t ng nhóm). SSG ph n ánh ph n bi n thiên c a y u t k t qu do ủ ừ ả ầ ế ủ ế ố ế ả ảnh hưởng của yếu t ố nguyên nhân đang nghiên cứu.

SSG = ∑<small>𝒌</small> 𝒏<sub>𝒊</sub>(𝒙<small>𝒊</small>− 𝒙 )<small>𝟐𝒊=𝟏</small>

Có th d dàng ch ng minh là t ng các chênh lể ễ ứ ổ ệch bình phương tồn bộ (SST) bằng cách cộng tổng các chênh lệch bình phương trong nộ ộ các nhóm (SSW) và i b tổng các chênh lệch bình phương giữa các nhóm (SSG).

SST = SSW + SSG

Như vậy, t cơng th c trên cho th y, SST là tồn b ừ ứ ấ ộ biến thiên c a y u t kủ ế ố ết quả đã được phân tích thành hai phần: phần biến thiên do y u tế ố đang nghiên cứu tạo ra (SSG) và ph n bi n thiên còn l i do các y u t khác không nghiên cầ ế ạ ế ố ứu ở đây tạo ra (SSW). N u ph n bi n thiên do y u t ế ầ ế ế ố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần biến thiên do các yếu tố khác ta khơng xét tạo ra, thì chúng ta càng có cơ sở để bác bỏ 𝐻<sub>0</sub> và k t lu n r ng y u tế ậ ằ ế ố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố k t qu .ế ả

<b>Bước 3: Tính phương sai (là trung bình của các chênh lệch bình phương). Các </b>

phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự do tương ứng.

Tính phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng cách chênh lệch bình phương nội bộ các nhóm (SSW chia cho bậc tự do tương ứng là 𝑛 − 𝑘 (𝑛 là s quan sát, ố 𝑘 là s ố nhóm so sánh). MSW là ước lượng ph n bi n thiên c a yầ ế ủ ếu tố k t qu do các y u t khác gây ra. ế ả ế ố

<small>𝒏− 𝒌 </small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>10 </small>

Tính phương sai giữa các nhóm (MSG) b ng cách l y t ng các chênh l ch ằ ấ ổ ệ bình phương giữa các nhóm chia cho bậc tự do tương ứng là 𝑘 − 1. MSG là ước lượng ph n bi n thiên cầ ế ủa y u tế ố k t quế ả do y u t nguyên nhân đang nghiên cứu ế ố gây ra.

MSG = <small>𝑺𝑺𝑮𝒌− 𝟏 </small>

<b>Bước 4: Kiểm định gi thuy </b>ả ết:

Giả thuy t v s b ng nhau c a k trung bình t ng thế ề ự ằ ủ ổ ể được quyết định dựa trên t s cỉ ố ủa hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm (MSW). T s ỉ ố này được g i là t s ọ ỉ ố F vì nó tn theo định luật Fisher –

F > 𝐹<small>(𝑘−1; 𝑛− 𝑘 );𝛼</small> là giá tr ị giới h n t b ng s 8 v i b c t do theo cạ ừ ả ố ớ ậ ự ột (𝑘 − 1) và hàng (𝑛 − 𝑘), nh ớ chọn b ng có mả ức ý nghĩa phù hợp. Sau đây là dạng b ng kả ết quả t ng quát c a ANOVA khi phân tích bổ ủ ằng chương trình Excel hay SPSS.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị. Histogram là phương pháp tốt nhất để kiểm tra giả định v phân phề ối bình thường c a dủ ữ liệu nhưng nó địi hỏi một s ố lượng quan sát khá l n. Biớ ểu đồ thân lá hay biểu đồ ộ h p và râu là m t thay th t t trong tình hu ng sộ ế ố ố ố quan sát ít hơn. Nếu cơng cụ đồ thị cho thấ ậy t p d liệu màu khác phù h p v i phân phữ ợ ớ ối bình thường thì ta có th xem gi ể ả định phân phối bình thường đã thỏa mãn. Hình dưới mơ tả biểu đồ hộp râu cho t p ậ dữ liệu m u v ba nhóm có th i gian t h c trung bình có hình dáng phân phẫ ề ờ ự ọ ối của dữ liệu hơi lệch sang trái, cịn hai nhóm cịn lại có phân phối khác cân đối. Với số quan sát không nhi u thi bi u hiề ể ện như thế này của d ữ liệu là khả quan và ch p nhấ ận được.

Để khảo sát giả nh b ng nhau cđị ằ ủa các phương sai, biểu đồ ộp và râu cũng h cho c m nhả ận ban đầu nhanh chóng, v i ba biớ ểu đồ này, mức độ phân tán c a d ủ ữ liệu trong m i t p d ỗ ậ ữ liệu m u không khác bi t nhiẫ ệ ều.

Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Levene về phương sai của các t ng th . Kiổ ể ểm định được phát ra t ừ giả thuy t sau: ế

𝑯<sub>𝟎</sub> = 𝝈<sub>𝟏</sub> = 𝝈<sub>𝟐</sub> = 𝝈<sub>𝟑</sub> = ... = 𝝈<sub>𝒌</sub>

𝑯<sub>𝟏</sub><b> : Không phải các phương sai đều bằng nhau. </b>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Trong đó 𝒔<sub>𝒎𝒂𝒙</sub><small>𝟐</small> là phương sai lớn nhất trong các nhóm nghiên cứu và 𝒔<small>𝟐</small> là <sub>𝒎𝒊𝒏</sub> phương sai nhỏ nhất trong các nhóm nghiên cứu.

Giá tr ị F tính được sẽ đem so sánh với giá tr ị 𝑭<sub>(𝒌; </sub><sub>𝒅𝒇 );𝜶</sub>tra đượ ừ ảc t b ng phân phối Hartley 𝑭<sub>𝒎𝒂𝒙</sub> (là b ng s 5 trong ph n ph lả ố ầ ụ ục). Trong đó k là số nhóm so sánh, bậc tự do df được tính theo cơng thức df = n 1<b>–</b> . Trong tình hu ng các nhóm ố 𝑛<sub>𝑖</sub>

Nếu chúng ta không ch c ch n v các giắ ắ ề ả định ho c n u k t quặ ế ế ả kiểm định cho th y các gi ấ ả định không được th a mãn thì mỏ ột phương pháp kiểm định thay th ế cho ANOVA là phương pháp kiểm định phi tham số Kruskal Wallis s– ẽ được áp dụng.

<b>2. Phân tích phương sai hai yếu tố (Two-way ANOVA) </b>

Two way Anova có th– ể được coi là một phần m r ng c a phân tích One ở ộ ủ – way Anova. Phân tích phương sai 2 yếu t ố nhằm xem xét cùng lúc hai y u t nguyên ế ố nhân (dưới d ng d ạ ữ liệu định tính) ảnh hưởng đến yếu t k t qu ố ế ả (dưới dạng d ữ liệu định lượng) đang nghiên cứu.

Phân loại:

+ Phân tích phương sai hai yếu t không lố ặp. + Phân tích phương sai hai yếu t lố ặp.

<b>2.2. Phương pháp hồi quy </b>

<b>Định nghĩa hồi quy: Hàm h i quy c a Y theo X là k v</b>ồ ủ ỳ ọng có điều ki n cệ ủa Y đối với X, tức là E(Y|X).

Xét hàm h i quy tuyồ ến tính đơn có dạng: 𝑓<sub>𝑌</sub>(𝑋) = 𝐸(𝑌|𝑋) = <sub>0</sub>+ <sub>1</sub>𝑋

Giả s ta có m t mử ộ ẫu ngẫu nhiên có kích thước n thu được khi quan sát (Y,X) là:

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

(𝑌<sub>𝑖</sub>, 𝑋<sub>𝑖</sub>) = (𝑌<sub>1</sub>, 𝑋<sub>1</sub>) (, 𝑌<small>2</small>, 𝑋<small>2</small>), … , (𝑌<sub>𝑛</sub>, 𝑋<small>𝑛</small>)

𝑓<sub>𝑌𝑖</sub>(𝑋<sub>𝑖</sub>) = 𝐸(𝑌<sub>𝑖</sub>|𝑋<sub>𝑖</sub>) = <sub>0</sub>+ <sub>1</sub>𝑋<sub>𝑖</sub>

Hay: 𝑌<sub>𝑖</sub>= <small>0</small>+ <sub>1</sub>𝑋<sub>𝑖</sub>+ 𝜀<sub>𝑖</sub> 𝑖 = 1, 𝑛

Đây là tổng qt c a mơ hình h i quy tuyủ ồ ến tính đơn, trong đó 𝜀<sub>𝑖</sub> là các sai s ố ngẫu nhiên và gi thi t rả ế ằng chúng độ ậc l p v i nhau, cùng tuân theo quy lu t phân ớ ậ

SST( Sum of Squares Total) đo mức biến động các giá trị quan sát y xung <small>i</small>

quanh giá tr trung bình c a chính mị ủ ẫu.

SSE( Sum of Squares for Error | Sum of Squares Residual) là t ng bình ổ phương sai số ước lượng đo sự chênh lệch giữa từng giá trị quan sát với giá trị dự

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<small>14 </small>

đoán (ước lượng). SSE được xem như sai số đo những y u t khác ngoài X ho c do ế ố ặ lấy m u ng u nhiên. ẫ ẫ

SSR( Sum of Squares in Regression) là sai s do khác bi t giố ệ ữa đường h i quy ồ m u và trung bình c a Y. S khác biẫ ủ ự ệt này được gi i thích b i sả ở ự biến động c a X. ủ SSR đo sự phân tán c a d ủ ữ liệu do mô hình h i quy gây ra. ồ

H s <b>ệ ố xác đị</b>nh R : <small>2</small> 𝑅<small>2</small>=<sup>𝑆𝑆𝑅</sup><sub>𝑆𝑆𝑇</sub> ℎ𝑎𝑦 𝑅<small>2</small>= (1 −<sup>𝑆𝑆𝐸</sup><sub>𝑆𝑆𝑇</sub>)

Hệ s Rố <small>2</small> giải thích trong 100% sự biến động của Y so với trung bình của nó thì có bao nhiêu % là do bi n X gây ra. R có mế <small>2</small> ức dao động trong đoạ ừ 0 đến t n 1. Nếu R<small>2</small> càng ti n v 1, các biế ề ến độ ậc l p gi i thích càng nhi u cho bi n ph thu c, và ả ề ế ụ ộ ngượ ạc l i, R càng ti n v 0, các bi<small>2</small> ế ề ến độ ậc l p gi i thích càng ít cho bi n ph thu c ả ế ụ ộ

Khơng có tiêu chu n chính xác cho vi c Rẩ ệ <small>2</small> nằm ở ứ m c bao nhiêu thì mơ hình sẽ t yêu c u trong các nghiên cđạ ầ ứu, nhưng chúng ta thường ch n mọ ức 005 để phân biệt 2 nhánh ý nghĩa mạnh/ ý nghĩa yếu và kỳ vọng từ 0,5 đến 1 thì mơ hình là tốt, bé hơn 0.5 đến 1 thì mơ hình chưa đủ tốt.

Trong mơ hình h i quy tuyồ ến tính đơn, 𝑅<small>2</small>= 𝑟<small>2</small><sub>𝑥𝑦</sub> ,

trong đó 𝑟<sub>𝑥𝑦</sub> 𝑙à ℎệ 𝑠ố 𝑡ươ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑚ẫ𝑢 𝑐ó 𝑐ơ𝑛𝑔 𝑡ℎứ𝑐 𝑟<sub>𝑥𝑦</sub>=<sup>𝑥𝑦</sup><sub>𝑠𝑥.𝑠𝑦</sub><sup>−𝑥 .𝑦</sup>

<b>Ước lượng độ lệch chuẩn : 𝜎</b><small>2</small> 𝑐ó ướ𝑐 𝑙ượ𝑛𝑔 𝑘ℎơ𝑛𝑔 𝑐ℎệ𝑐ℎ 𝑐ủ𝑎 𝑛ó 𝑙à 𝜎<sup>2</sup>

𝑛 − 2 ⇒ 𝜎 = √<sup>𝑆𝑆𝐸</sup> 𝑛 − 2

<b>Ước lượng các hệ s h i quy vố ồới độ tin cậy 1-α: </b>

• Khoảng ước lượng cho tung độ gốc <small>0</small> là ( <sub>0</sub>− 𝜀 ,<sub>0</sub> <sub>0</sub>+ 𝜀 <sub>0</sub>), với:

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>Kiểm định sự phù hợp c a hàm h i quy tuyủồến tính đơn: </b>

<b>Dự báo giá trị trung bình c a Y khi X = x ủ</b> <small>0</small>

( Khoảng ước lượng của 𝑓<sub>𝑌</sub>(𝑥<sub>0</sub>) với độ tin c y 1- ậ α) ➢ Đọc d liệu t tữ ừ ập tin Air_Traffic_Passenger_Statistics.csv và lưu nó vào dataframe Hanh_khach.

➢ check.names=FALSE: N u tên cế ột để trống sẽ không tr v giá tr , cho ả ề ị phép các tên cột đượ c trùng lặp nhau.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

+Passenger<- na.omit(Passenger): Dùng để xóa d u NA ữ liệ +apply(is.na(Passenger),2,which): Ki m tra còn d u NA không ể ữ liệ - Nhận xét:

+ D a vào k t quự ế ả kiểm tra dữ liệu khuyết trong dataframe “Passenger”, ta không th y các giá tr trong các bi n có dấ ị ế ữ liệu khuy t. Vì v y, không c n s dế ậ ầ ử ụng dataframe m i (HK) ch a các biớ ứ ến được lọc theo biến “Middle East”.

+ PassengerAna <- PassengerAna %>% select(-c(“…”)): Chuyển dữ liệu và lọc các biến không s d ng t ử ụ ừ dataframe “HK” cũ sang dataframe “HK” mới.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

➢ %>%>: Chuy n d ể ữ liệu t ừ dataframe bên trái(“HK” cũ) sang dataframe bên phải(“HK” mới).

➢ select(-c(“…”)): bỏ các biến nằm trong dấu (“…”).

3.2.1. Làm rõ d u: <b>ữ liệ</b>

- Thống kê mô t các bi n liên tả ế ục:

+describe(PassengerAna[,c("Adjusted_Passenger_Count","Year","Month")], fast=T): Hàm describe dùng để tính các giá tr ị thống kê mơ t c a các bi n có trong ả ủ ế dataframe đang xét và xuất ra kết quả dưới dạng b ng. ả

"Adjusted_Passenger_Count" trên tr c x c a histogram. ụ ủ

➢ main="Histogram of Adjusted_Passenger_Count": Tiêu đề của histogram.

➢ labels=T:

➢ ylim=c(0,100)): Gi i h n giá tr cớ ạ ị ột y t ừ 0 đến 100.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<small>18 </small>

- <i>Nhận xét</i>:

+ Phân ph i c a biố ủ ến “Adjusted_Passenger_Count” tập trung nhi u nh t trong ề ấ kho ng (6000,10000). T ả ừ đây, ta thấy r ng s ằ ố lượng hành khách ph ổ biến là t 6000 ừ - 10000(người).

+ Điểm cao nh t c a biấ ủ ểu đồ có giá tr là 85 t i khoị ạ ảng (8000,10000) và điểm thấp nh t của biấ ểu đồ có giá tr là 4 t i kho ng (>14000). ị ạ ả

- Biểu đồ Boxplot: th ể hiện phân phối c a biủ ến “Adjusted_Passenger_Count” theo t ng hãng hàng không trong khu v c Middle East( EY, EK). ừ ự

- Giải thích code: +

“Operating_Airline_IATA_Code” trong dataframe “PassengerAna”.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<i>- Nhận xét: Có rất nhi u giá tr ngo i lai </i>ề ị ạ ở “Operating_Airline_IATA_Code” (EK), điều này ảnh hưởng nhiều đến kết quả phía sau.Tương tự đối với “Operating_Airline_IATA_Code” (EY) thì ngược lại. Ta xác định tần suất hành khách c a mủ ỗi hãng hàng không dao động khác nhau, cụ thể:

- Khoảng dao động trong s ố lượng hành khách c a hãng EY là th p nh t ủ ấ ấ - Khoảng dao động trong s ố lượng hành khách c a hãng EK là cao nhủ ất. 4. Th ng kê mô t <b>ốả</b>

4.1. D u sau tóm t t <b>ữ liệắ</b>

Sau khi th c hi n quá trình d n d p, hi n tự ệ ọ ẹ ệ ại chúng ta đã có mộ ộ ữ liệt b d u rõ ràng và sạch s trong newdata. Tóm t t b ng cách cách s d ng hàm summary ẽ ắ ằ ử ụ

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<small>20 </small>

Hình 4: phân b c<i>ố ủa s lượng hàng khách ố</i>

- Nhận xét: đồ thị không tuân theo phân ph i chu n, có phân b lố ẩ ố ệch ph i, ả chứng tỏ có m t s hãng bay ti p nh n khách hàng trong tháng cao bộ ố ế ậ ất thường. Đồ thị Boxplot th ể hiện phân phố ủi c a s lượng hàng khách theo các biến phân loại ố

Hình 5: phân ph i s <i>ố ố lượng hàng khách theo hãng bay </i>

- Nhận xét:

o H u hầ ết các hãng bay đều có giá tr ngo i lai ị ạ

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Hình 6: phân ph i s <i>ố ố lượng hàng khách theo nhu cầu đi trong nướ</i>c và qu<i>ốc </i>

<i>tế </i>

o D u có giá tr ngo i biên ữ liệ ị ạ

o Domestic có phân phối hàng khách khơng đều trong khi International thì ngược lại

o Domestic có phân ph i b l ch ph i, có ố ị ệ ả nghĩa có các chuyến bay có lượng hàng khách cao bất thường.

o Domestic có hộp cao hơn International, chứng t ỏ lượng hàng khách cao vượt trội.

Hình 7: phân ph i s <i>ố ố lượng hàng khách theo vùng địa lý </i>

o các khu vực đều có đường trung vị b ng nhau ằ

o khu v c US có hự ộp cao hơn so với các khu v c khác. Cho th y khu ự ấ vực này có lượng hàng khách vượt trội hơn các khu vực.

</div>

×