Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.41 MB, 47 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
---🙞🙜🕮🙞🙜---
<b>Giáo viên hướng dẫn: Nguyễn Thị Mộng Ngọc </b>
<b>phân công <sup>Ghi chú </sup></b>
1 2113312 Lê Thị Bảo Hân - Tổng hợp PowerPoint
2 2111292 Huỳnh Nguyễn Đức Huy - Hoạt động 1 <sup>Nhóm </sup> trưởng 3 2113861 Nguyễn Phúc Minh Kỳ - Hoạt động 2
4 2114563 Nguyễn Thị Thu Quế - Tổng hợp word 5 2114454 Nguyễn Khả Trâm - Hoạt động 1
<b>TP. HỒ CHÍ MINH, 2022 </b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>phân công </b>
<b>Đánh giá phần trăm </b>
1 2113312 Lê Thị Bảo Hân - Tổng hợp PowerPoint <sub>80% </sub>
2 2111292 Huỳnh Nguyễn Đức Huy
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>I. Phân tích hồi quy ... 5</b>
<b>1.1. Định nghĩa ... 5</b>
<b>1.2. Bản chất ... 5</b>
<b>1.3. Ý nghĩa của hồi quy tuyến tính ... 6</b>
<b>II. Mơ hình hồi quy bội ... 6</b>
<b>2.1. Định nghĩa ... 6</b>
<b>2.2. Các giả thiết của mơ hình hồi quy bội... 7</b>
<b>2.3. Phương pháp ước lượng mơ hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS)... 7</b>
<b>2.4. Đánh giá mức độ phù hợp của mơ hình hồi quy bội ... 9</b>
<b>I. Đọc dữ liệu (Import data): gia_nha.csv ... 12</b>
<b>II. Làm sạch dữ liệu (Data cleaning): NA dữ liệu khuyết ... 12</b>
<b>III. Làm rõ dữ liệu: (Data visualization) ... 13</b>
<b>3.1. Chuyển đổi biến ... 13</b>
<b>3.2. Thống kê mô tả: dùng thống kê mẫu và đồ thị. ... 14</b>
<b>IV. Xây dựng mơ hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở quận King... 20</b>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>V. Thực hiện dự báo cho giá nhà quận King ... 25</b>
<b>I. Mô tả dữ liệu ... 27</b>
<b>II. Phương pháp phân tích dữ liệu ... 27</b>
<b>2.1. Đọc dữ liệu và làm rõ dữ liệu ... 27</b>
<b>2.2. Xây dựng mơ hình hồi quy tuyến tính: ... 27</b>
<b>III. Phân tích dữ liệu ... 28</b>
<b>3.1. Đọc dữ liệu và làm rõ dữ liệu ... 28</b>
<b>3.2. Xây dựng các mơ hình hồi quy tuyến tính ... 32</b>
<b>3.3 Dự báo ... 34</b>
Ở hoạt động 1, bản báo cáo trình bày việc áp dụng phương pháp phân tích hồi quy tuyến tính bội vào việc phân tích mẫu dữ liệu là tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015. Từ kết quả thu được rút ra những nhận xét về tác động của các thuộc tính đó đối với sự thay đổi về giá bán ra của thị trường. Để thu được kết quả phân tích, nhóm đã sử dụng các hàm cơ bản của ngơn ngữ lập trình R và vận dụng linh hoạt giải quyết từng nhiệm vụ cụ thể đặt ra. Kết quả được trình bày dưới dạng bảng số liệu tính tốn hoặc đồ thị cung cấp một cái nhìn trực quan về khảo sát nhằm so sánh, đối chiếu giữa ảnh hưởng của các điều kiện của ngôi nhà (số tầng, diện tích ngơi nhà, khn viên, phong cảnh xung quanh,...) lên giá nhà bán ra thị trường. Trong bài báo cáo này, trước hết nhóm sẽ nêu cơ sở lý thuyết và tính tốn các giá trị thống kê mơ tả để có một cái nhìn sơ lược, sau đó áp dụng các phương pháp phân tích hồi quy tuyến tính bội.
Ở hoạt động 2, bản báo cáo trình bày việc áp dụng phương pháp phân tích hồi quy tuyến tính vào việc phân tích, làm rõ dữ liệu và thơng số môi trường xung quanh hàng giờ và sản lượng điện ròng hàng giờ của Nhà máy điện chu trình hỡn hợp.
Cụ thể, bài báo cáo gồm có:
<b>Phần 1: Cơ sở lý thuyết. </b>
<b>Phần 2: Xử lý số liệu gồm: Tính tốn các giá trị thống kê mơ tả giá nhà bán ra thị trường. Phần 3: Phân tích dữ liệu: Phân tích mẫu dữ liệu PE_data. </b>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Xác suất thống kê là một môn học đại cương có tầm quan trọng đối với sinh viên nói chung và sinh viên nhóm ngành Khoa học Kỹ thuật nói riêng. Do đó, việc dành cho môn học này một khối lượng thời gian nhất định và thực hành là điều tất yếu để giúp sinh viên có cơ sở vững chắc về kiến thức và kỹ năng cần thiết cho các môn học chuyên ngành cũng như công việc sau này. Sự phát triển và ra đời của tốn tin nói chung và phần mềm R Studio, ngôn ngữ R nói riêng đã hỡ trợ rất nhiều trong q trình học tập và nghiên cứu bộ môn Xác suất thống kê. Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn. Vì vậy mà việc tìm hiểu R Studio và ngôn ngữ R trong việc thực hành môn học Xác suất thống kê rất quan trọng và có tính cấp thiết. Ở bài tập lớn này, nhóm thực hiện nội dung: Ứng dụng hồi quy tuyến tính bội để xử lý và phân tích dữ liệu. Trong suốt q trình thực hiện bài tập, nhóm đã nhận được rất nhiều sự quan tâm, ủng hộ và giúp đỡ tận tình của thầy cơ và bạn bè.
Ngồi ra, nhóm cũng xin gửi lời tri ân chân thành nhất đến cô Nguyễn Thị Mộng Ngọc – giảng viên giảng dạy bộ môn Xác suất thống kê của nhóm và là người hướng dẫn cho đề tài này. Nhờ sự hết lịng chỉ bảo mà nhóm đã hoàn thành bài tập đúng tiến độ và giải quyết tốt những vướng mắc gặp phải. Sự hướng dẫn của cô đã là kim chỉ nam cho mọi hành động của nhóm và phát huy được tối đa mối quan hệ hỡ trợ giữa cơ và trị trong môi trường giáo dục. Lời cuối, xin một lần nữa gửi lời biết ơn sâu sắc đến các cá nhân, các thầy cô đã dành thời gian chỉ dẫn cho nhóm. Đây chính là niềm tin, là động lực to lớn để nhóm có thể hồn thành đề tài này.
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015. Bên cạnh giá nhà, dữ liệu cịn bao gồm các thuộc tính mơ tả chất lượng ngôi nhà. Dữ liệu gốc được cung cấp tại:
Các biến chính trong bộ dữ liệu:
<b>• price: Giá nhà được bán ra. </b>
<b>• floors: Số tầng của ngôi nhà được phân loại từ 1-3.5. </b>
<b>• condition: Điều kiện kiến trúc của ngơi nhà từ 1 - 5, 1: rất tệ và 5: rất tốt. • view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4. • sqft_above: Diện tích ngơi nhà. </b>
<b>• sqft_living: Diện tích khn viên nhà. • sqft_basement: Diện tích tầng hầm. </b>
Các bước thực hiện:
1. Đọc dữ liệu (Import data): GN.csv (Đổi tên tập tin gia_nha thành GN) 2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization) a) Chuyển đổi biến (nếu cần thiết).
b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. Xây dựng mơ hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở quận King.
5. Thực hiện dự báo cho giá nhà quận King.
<b>HOẠT ĐỘNG 2: </b>
• Sinh viên tự tìm một bộ dữ liệu thuộc về chun ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">chuyên ngành của mình. Ngồi ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting).
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Hồi quy (regression) là phương pháp thống kê toán học để ước lượng và kiểm định các quan hệ giữa các biến ngẫu nhiên, và có thể từ đó đưa ra các dự báo. Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình.
Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số F(X<sub>1</sub>, . . . , X<sub>S</sub>) của các biến ngẫu nhiên X<sub>1</sub>, . . . , X<sub>S</sub> khác (control variables), hay còn gọi là biến tự do, trong khi Y được gọi là biến phụ thuộc, tức là khi ta có các giá trị của X<sub>1</sub>, . . . , X<sub>S</sub> , thì ta muốn từ đó ước lượng được giá trị của Y . Hàm số F này có thể phụ thuộc vào một số tham số β = (β<sub>1</sub>, . . . , β<sub>S</sub>) nào đó. Ta có thể viết Y như sau:
Y = F(X<sub>1</sub>, . . . , X<sub>S</sub>) + ϵ
trong đó ϵ là phần sai số (cũng là một biến ngẫu nhiên). Ta muốn chọn hàm F một cách thích hợp nhất có thể, và các tham số β, sao cho sai số ϵ là nhỏ nhất có thể.
Đại lượng √𝔼(|𝜖|<small>2</small> được gọi là sai số chuẩn (standard error) của mô hình hồi quy. Mơ hình nào mà có sai số chuẩn càng thấp thì được coi là càng chính xác
<b>1.2. Bản chất </b>
<i>❖ Bản chất của biến phụ thuộc Y </i>
Y nói chung được giả định là một biến ngẫu nhiên, và có thể được đo lường bằng một trong bốn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang đo thứ bậc, và thang đo danh nghĩa.
Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có 3 tính chất: (1) tỷ số của hai biến, (2) khoảng cách giữa hai biến, và (3) xếp hạng các biến. Với thang đo tỷ lệ, ví dụ Y có hai giá trị, 𝑌<sub>1</sub> và 𝑌<sub>2</sub> thì tỷ số 𝑌<sub>1</sub>/𝑌<sub>2</sub> và khoảng cách (𝑌<sub>2</sub> - 𝑌<sub>1</sub>) là các đại lượng có ý nghĩa; và có thể so sánh hoặc xếp thứ tự.
Thang đo khoảng (interval scale): Thang đo khoảng khơng thỏa mãn tính chất đầu tiên của các biến có thang đo tỷ lệ.
Thang đo thứ bậc (ordinal scale): Các biến chỉ thỏa mãn tính chất xếp hạng của thang đo tỷ lệ, chứ việc lập tỷ số hay tính khoảng cách giữa hai giá trị khơng có ý nghĩa.
Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm này khơng thỏa mãn bất kỳ tính chất nào của các biến theo thang đo tỷ lệ. (như giới tính, tôn giáo,..).
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><i>❖ Bản chất của biến ngẫu nhiên X</i>
Các biến ngẫu nhiên có thể được đo theo bất kỳ một trong bốn thang đo vừa nêu trên, mặc dù trong nhiều ứng dụng thực tế thì các biến giải thích được đo theo thang đo tỷ số và thang đo khoảng.
<i>❖ Bản chất của sai số ngẫu nhiên (nhiễu) 𝜖 </i>
Sai số ngẫu nhiên đại diện cho tất cả các biến khơng được đưa vào mơ hình vì những lý do như khơng có sẵn dữ liệu, các lỡi đo lường trong dữ liệu. Và cho dù nguồn tạo nhiễu 𝜖 là gì đi nữa, thì người ta giả định rằng ảnh hưởng trung bình của sai số ngẫu nhiên lên Y là không đáng kể.
Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình bằng 0 và phương sai khơng đổi là 𝜎<small>2</small>: 𝜖~N(0; 𝜎<small>2</small>)
<i>❖ Bản chất của tham số hồi quy 𝛽</i><sub>𝑆</sub><i> </i>
Tham số hồi quy (tổng thể), β<sub>S</sub>, là những con số cố định (fixed numbers) và khơng ngẫu nhiên (not random), mặc dù mình không thể biết giá trị thực của các Bs là bao nhiêu.
<b>1.3. Ý nghĩa của hồi quy tuyến tính </b>
Thuật ngữ tuyến tính (linear) trong mơ hình hồi quy tuyến tính nghĩa là tuyến tính ở các hệ số hồi quy (linearity in the regression coefficients), β<sub>S</sub>, và khơng phải tuyến tính ở các biến Y và X.
Mơ hình hồi quy bội là mơ hình hồi quy trong đó: biến phụ thuộc Y phụ thuộc vào (k – 1) biến độc lập X<small>2</small>,X<small>3</small>, X<small>kk</small> có dạng như sau:
Hàm hồi quy tổng thể: E(Y| X<small>2</small>,X<small>3</small>, X<small>k</small>) = <small>1</small> + <small>2</small> X<small>2</small> + <small>3</small> X<small>3</small> + … + <small>k</small>X<small>k</small> Mơ hình hồi quy tổng thể: Y = <small>1</small> + <small>2</small> X<small>2</small> + <small>3</small> X<small>3</small> + … + <small>k</small>X<small>k</small> + 𝜖
Trong đó:
• 𝜖 là sai số ngẫu nhiên.
• <small></small><sub>1 </sub>là hệ số tự do (hệ số chặn), bằng giá trị trung bình của Y khi X<small>j</small>=0.
• <small>j </small>là hệ số hồi quy riêng (hay hệ số góc), thể hiện ảnh hưởng của riêng từng biến độc lập X<small>j </small>lên trung bình của Y khi các biến khác được giữ không đổi. Cụ thể, khi X<small>j</small> tăng hoặc giảm 1 đơn vị, trong điều kiện các biến độc lập khác khơng đổi, thì Y trung bình sẽ thay đổi đơn vị. Có thể nhận thấy ba khả năng có thể xảy ra đối với các hệ số
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">* Hệ số <small></small><sub>j</sub> > 0: khi đó mối quan hệ giữa Y và X<small>j</small> là thuận chiều, nghĩa là khi X<small>j</small> tăng (hoặc giảm) trong điều kiện các biến độc lập khác khơng đổi thì Y cũng sẽ tăng (hoặc giảm).
* Hệ số <small>j</small> < 0: khi đó mối quan hệ giữa Y và X<small>j</small> là ngược chiều, nghĩa là khi X<small>j</small> tăng (hoặc giảm) trong điều kiện các biến độc lập khác khơng đổi thì Y sẽ giảm (hoặc tăng).
* Hệ số <small>j</small> = 0: có thể cho rằng giữa Y và X<small>j</small> khơng có tương quan với nhau, cụ thể là Y có thể khơng phụ thuộc vào X<small>j</small> hay là X<small>j</small> không thực sự ảnh hưởng tới Y.
Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mơ hình một cách tương đối.
Dù mơ hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác động đến biến phụ thuộc nhưng khơng đưa vào mơ hình vì nhiều lý do (khơng có số liệu hoặc khơng muốn đưa vào). Do đó trong mơ hình vẫn tồn tại sai số ngẫu nhiên 𝜖 đại diện cho các yếu tố khác ngoài các biến X<small>j</small> (j = 2,3, ,k) có tác động đến Y nhưng khơng đưa vào mơ hình như là biến số.
<b>2.2. Các giả thiết của mơ hình hồi quy bội </b>
<i>Giả thiết 1</i>: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên.
<i>Giả thiết 2: Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (X</i><small>2i</small>, X<small>3i</small>, X<small>ki</small>) bằng 0: E(𝜖| X<small>2i</small>, X<small>3i</small>, …, X<small>ki</small>) = 0
<i>Giả thiết 3: Phương sai của sai số ngẫu nhiên tại các giá trị (X</i><small>2i</small>, X<small>3i</small>, …, X<small>ki</small>) đều bằng nhau.
➢ Từ giả thiết 2 và 3 ta có thể nói sai số ngẫu nhiên (u) tuân theo phân phối chuẩn.
<i>Giả thiết 4: Giữa các biến độc lập X</i><small>j</small> khơng có quan hệ cộng tuyến hoàn hảo, nghĩa là không tồn tại hằng số λ<small>2</small>, λ<small>3</small>,, λ<small>k</small> không đồng thời bằng 0 sao cho:
λ<small>2</small>X<small>2</small> + λ<small>3</small>X<small>3</small> +… + λ<small>k</small>X<small>k</small> = 0.
➢ Có thể nhận thấy nếu giữa các biến X<small>j </small>(j = 2,3,,k) có quan hệ cộng tuyến hồn hảo thì sẽ có ít nhất một trong các biến này sẽ suy ra được từ các biến cịn lại. Do đó, giả thiết 4 được đưa ra để loại trừ tình huống này.
<b>2.3. Phương pháp ước lượng mơ hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS) </b>
Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số hồi quy trong mơ hình, vấn đề tiếp theo ta quan tâm là làm sao để có được các ước lượng đáng tin cậy cho các hệ số <small>j</small> này.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Cũng như với mơ hình hồi quy hai biến, ta sẽ sử dụng phương pháp bình phương nhỏ nhất (OLS) để ước lượng các hệ số trong mơ hình hồi quy k biến.
Xét mơ hình k biến: Y = <small>1</small> + <small>2</small>X<small>2</small> + <small>3</small>X<small>3</small> + … + <small>k</small>X<small>k</small> + 𝜖
Giả sử có một mẫu quan sát với giá trị thực tế là (Y<small>i</small>, X<small>2i</small>, …, X<small>ki</small>) với (i = 1, 2, …, n). Ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số <small>j </small>(j = 1, 2, …, k), ký hiệu là ̂<sub>j </sub>(j = 1, 2, …, k). Từ các giá trị ước lượng này có thể viết thành hàm hồi quy mẫu như sau:
Tương tự như mơ hình hồi quy hai biến, phương pháp OLS nhằm xác định các giá trị ̂<sub>j</sub><sub> (j = 1, 2, …, k) sao cho tổng bình phương các phần dư là bé nhất: </sub>
Với điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng và giả thiết 4 được thỏa mãn thì hệ phương trình trên sẽ có nghiệm duy nhất. Việc giải hệ phương trình khá dễ dàng qua các phầm mềm thống kê nếu số biến không quá lớn. Các giá trị ước
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">lượng bằng phương pháp OLS dựa trên số liệu mẫu cụ thể được xem như là các ước lượng điểm của các hệ số trong tổng thể.
Với mơ hình hồi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình để tìm các ước lượng hệ số ̂<small>j </small><i>(j = 1, 2, 3…k) sẽ trở nên khó khăn hơn so với mơ hình hồi quy 2 biến </i>
do đó ta sẽ có được các kết quả này với sự giúp của các phần mềm thống kê.
Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số hồi quy.
Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từ phương pháp OLS là ước lượng tuyến tính, khơng chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính khơng chệch. Hay nói một cách khác, nếu giả thiết từ 1 đến 4 được thỏa mãn thì ước lượng OLS là ước lượng tốt nhất trong lớp các ước lượng tuyến tính khơng chệch.
<b>2.4. Đánh giá mức độ phù hợp của mô hình hồi quy bội </b>
Khi đánh giá một mơ hình dựa trên số liệu mẫu, nếu chỉ quan tâm đến các ước lượng hệ số và độ lệch chuẩn của nó thì chưa đầy đủ. Có một con số cũng góp phần khơng nhỏ khi đánh giá chất lượng mơ hình đó là hệ số xác định.
Sau khi ước lượng được mơ hình hồi quy trong một khoảng tin cậy, ta muốn biết hàm hồi quy mẫu phù hợp với số liệu mẫu đến mức nào. Có thể đánh giá điều đó qua hệ số xác
TSS (total sum of square): Tổng bình phương độ lệch tồn phần.
ESS (Explained sum of square): Tổng bình phương độ lệch phần hồi quy. RSS (Residual sum of square): Tổng bình phương phần dư.
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Giá trị R<small>2</small> gắn liền với mẫu do đó nó đo sự phù hợp của mơ hình (hàm hồi quy) với số liệu mẫu. Ta kỳ vọng rằng nếu mơ hình có độ phù hợp cao với số liệu mẫu thì nó cũng phù hợp trong tổng thể.
<i>Ý nghĩa của hệ số xác định bội </i>
Với mơ hình hồi quy k biến, R<sup>2</sup> có ý nghĩa như sau:
R<small>2 </small>là tỷ lệ (hay tỷ lệ phần trăm) sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mơ hình.
Với điều kiện 0 ≤ R<small>2</small> ≤ 1, ta có hai trường hợp đặc biệt đó là:
➢ R<small>2</small> = 1 nghĩa là 100% sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mơ hình.
➢ R<small>2</small> = 0 nghĩa là các biến độc lập khơng giải thích được một chút nào đối với sự thay đổi của biến phụ thuộc.
Rõ ràng, trong thực tế, khi xem xét các mối quan hệ giữa các biến thông qua các mơ hình hồi quy thì R<sup>2</sup> thường nằm trong khoảng (0,1) nhiều hơn.
Một tính chất quan trọng của R<sup>2</sup> là nó sẽ tăng khi ta đưa thêm biến độc lập vào mơ hình.
<i>Dễ dàng thấy rằng TSS khơng phụ thuộc vào số biến giải thích trong mơ hình nhưng RSS </i>
lại giảm. Do đó, nếu tăng số biến biến độc lập trong mơ hình thì R<small>2 </small>cũng tăng. Như vậy, việc đưa thêm một biến số bất kỳ vào mơ hình nói chung sẽ làm gia tăng R<small>2</small>, khơng kể nó có giúp giải thích thêm cho biến phụ thuộc hay khơng. Điều này ngụ ý rằng R<sup>2</sup> chưa phải là thước đo tốt khi muốn so sánh các mơ hình với số biến khác nhau.
Để giải quyết vấn đề thiếu sót này, ta xem xét khái niệm R<small>2</small> hiệu chỉnh, ký hiệu là 𝑅̅<small>2 </small>và được định nghĩa như sau:
𝑅̅<small>2 </small>= 1 - (1 – R<small>2</small>)<sup>(𝑛−1)</sup> <small>(𝑛−𝑘)</small>
Ta thấy rằng khi số biến độc lập (k – 1) tăng lên thì 𝑅̅<small>2</small> cũng tăng lên nhưng tăng chậm hơn so với R<small>2</small>.
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Giá trị 𝑅̅<small>2 </small>thường được sử dụng thay R<small>2 </small>khi so sánh hai mơ hình có cùng biến phụ thuộc nhưng số lượng biến độc lập khác nhau.
Trong thực tế, khi muốn đánh giá sự phù hợp của mô hình thì 𝑅̅<small>2</small> hơn vì R<small>2</small> rất dể đưa ra một kết quả lạc quan quá mức cho sự phù hợp của mơ hình hồi quy khi số lượng biến giải thích lớn hơn nhiều số lượng biến ta quan sát. Tuy nhiên, ta khơng thể nói trong mọi bài toán 𝑅̅<small>2</small> đều đưa ra mức độ phù hợp của mơ hình hồi quy một cách chính xác nhất mà phải dựa vào đặc trưng của từng bài tốn cụ thể mà thực hiện tính tốn sao cho phù hợp.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Đọc dữ liệu trong tệp tin và gán vào R với tên gia_nha.
Kết quả khi đọc dữ liệu và xem 6 dòng đầu tiên của dữ liệu
<b>Tạo một dữ liệu mới chỉ bao gồm các biến chính cần quan tâm, lưu với tên new_DF. </b>
<b> </b>
Kết quả tạo dữ liệu mới chỉ bao gồm các biến chính
<b>Kiểm tra dữ liệu khuyết trong new_DF. </b>
<b>Dựa vào kết quả kiểm tra dữ liệu khuyết trong new_DF, nhận thấy có 20 dữ liệu khuyết của biến price tại các hàng 26, 54, 151,... Vì số lượng dữ liệu khuyết là rất ít so với tổng </b>
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">số hàng dữ liệu (20 hàng trong tổng 21613 hàng) nên có thể bỏ qua dữ liệu này. Sử dụng lệnh lưới đây để xóa các hàng chứa dữ liệu khuyết:
Kiểm tra dữ liệu khuyết còn hay không.
Dựa vào kết quả trên, nhận thấy dữ liệu đã bị xóa.
<b>Tạo một data mới là new_DF2 (gồm các biến new_DF đã được làm sạch), thay các giá trị trong biến sqft_basement là 0 thành 0.0000001 và chuyển đổi các biến price, sqft_above, sqft_living, sqft_basement lần lượt thành log(price), log(sqft_above), log(sqft_living), log(sqft_basement). </b>
<i><b>Giải thích thay các giá trị biến sqft_basement </b></i>
- Dựa vào bảng số liệu, có 2 loại biến cần phân tích: biến phân loại (floors, condition, view) và biến liên tục (price, sqft_above, sqft_living, sqft_basement).
- Khi chuyển đổi các biến liên tục thành dạng log, dữ liệu biến sqft_basement có giá trị 0, khi lấy log sẽ trở thành -INF. Vì vậy cần chuyển các giá trị biến sqft_basement thành 0,0000001 để khi lấy log không bị lỗi và giá trị log là giá trị 0.
<i><b>Giải thích chuyển đổi các biến thành dạng log(x) </b></i>
- Cải thiện sự phù hợp của mơ hình: giả định khi xây dựng mơ hình hồi quy thì các sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp sai số hồi quy (phần dư) khơng có phân phối chuẩn thì việc lấy log của một biến giúp thay đổi tỉ lệ và làm cho biến đó có phân phối chuẩn. Ngồi ra, trong trường hợp phần dư (phương sai thay đổi) do các biến độc lập gây ra, cũng có thể chuyển đổi các biến đó sang dạng log.
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">- Đây là lý do giúp giải thích mối quan hệ giữa 2 biến thuận tiện hơn. Nếu lấy log của biến phụ thuộc Y và biến độc lập X, khi đó hệ số hồi quy β sẽ là hệ số co giãn và giải thích như sau: X tăng 1% sẽ dẫn đến tăng việc kỳ vọng Y tăng lên β% (về mặt trung bình của Y),...
- Ước lượng mơ hình phi tuyến tính: việc lấy log cho phép ta ước lượng các mơ hình này bằng hồi quy tuyến tính.
<b>3.2. Thống kê mơ tả: dùng thống kê mẫu và đồ thị. </b>
- Đối với các biến liên tục, cần tính các giá trị thống kê mơ tả: trung bình (mean), trung vị (median), độ lệch chuẩn (sd), giá trị nhỏ nhất (min), giá trị lớn nhất (max). Xuất kết quả dưới dạng bảng.
<b> Kết quả khi tính các biến price, sqft_above, sqft_living, sqft_basement </b>
<b>Kết quả khi tính các biến price, sqft_above, sqft_living, sqft_basement ở lạng log </b>
- Đối với biến phân loại, cần thống kê các giá trị và tần số của từng giá trị dưới dạng bảng.
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><b>Kết quả thống kê các giá trị biến floors, condition, view </b>
<i><b>Vẽ biểu đồ histogram thể hiện phân phối của biến price và log(price) </b></i>
<b>Kết quả vẽ biểu đồ histogram thể hiện phân phối biến price </b>
<b>Kết quả vẽ biểu đồ histogram của biến log(price) </b>
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><b>Nhận xét: Dựa trên biểu đồ histogram của biến price, nhận thấy phân phối biến price có </b>
xu hướng lệch phải, phần lớn ngơi nhà có giá tiền gần như nhau và một số ít ngơi nhà có
<b>giá trị cao hơn. Biểu đồ của biến log(price) có hình dạng phân phối chuẩn. </b>
<i><b>Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log(price) theo từng loại của biến floors </b></i>
<b>Kết quả biểu đồ boxplot của biến price theo biến floors </b>
<b>Kết quả vẽ biểu đồ boxplot của biến log(price) theo biến floors </b>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21"><i><b>Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log(price) theo từng loại của biến condition </b></i>
<b>Kết quả biểu đồ boxplot của biến price theo biến condition </b>
<b>Kết quả biểu đồ boxplot của biến log(price) theo biến condition </b>
<i><b>Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log(price) theo từng loại của biến view </b></i>
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22"><b>Kết quả vẽ biểu đồ boxplot của biến price theo biến view </b>
<b>Kết quả vẽ biểu đồ boxplot của biến log(price) theo biến price </b>
<i><b>Vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_above trước và sau khi chuyển thành dạng log(x) </b></i>
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23"><b>Kết quả vẽ biểu đồ thể hiện phân tán của biến price theo biến sqft_above trước và sau khi chuyển sang dạng log(x) </b>
<i><b>Vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_living trước và sau khi chuyển thành dạng log(x) </b></i>
<b>Kết quả vẽ biểu đồ thể hiện phân tán của biến price theo biến sqft_living trước và sau khi chuyển sang dạng log(x) </b>
</div>