Tải bản đầy đủ (.docx) (33 trang)

xác suất thống kê ứng dụng dữ liệu phân tích thái độ và hành vi của sinh viên student attitude and behavior

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (587.88 KB, 33 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

<b>TRƯỜNG ĐẠI HỌC THĂNG LONG</b>

<b>Bài tập lớn:</b>

<b>XÁC SUẤT THỐNG KÊ ỨNG DỤNG</b>

<b>DỮ LIỆU:</b>

<b>PHÂN TÍCH THÁI ĐỘ VÀ HÀNH VI CỦA SINH VIÊN(Student Attitude and Behavior) </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>DANH SÁCH CÁC THÀNH VIÊN CỦA NHÓM</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>PHẦN 2. PHÂN TÍCH CÁC ĐẠI LƯỢNG THỐNG KÊ MƠ TẢ...3</b>

<b>2.1. Các đại lượng thống kê mô tả (chọn biến college mark):...3</b>

<i>2.1.1. Số đo hướng tâm...3</i>

<i>2.3.1. Biến college mark...10</i>

<i>2.3.2. Biến Salary Expectation...18</i>

<b>PHẦN 3. THỐNG KÊ SUY DIỄN...23</b>

<b>3.1. Ước lượng điểm:...23</b>

<b>3.2. Ước lượng khoảng:...23</b>

<b>3.3. Kiểm định tham số một tổng thể:...23</b>

<i>3.3.1. Kiểm định trung bình tổng thể-cỡ mẫu lớn...23</i>

<i>3.3.2. Kiểm định tỷ lệ 1 tổng thể-cỡ mẫu nhỏ...24</i>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>3.4. Kiểm định giả thuyết tham số hai tổng thể:...25</b>

<i>3.4.1. Kiểm định giả thuyết trung bình hai tổng thể, cỡ mẫu lớn, hai mẫu độc lập 253.4.2. Kiểm định giả thuyết trung bình hai tổng thể, cỡ mẫu nhỏ, phương sai haitổng thể bằng nhau...25</i>

<i>3.4.3. Kiểm định trung bình hai tổng thể, mẫu theo cặp...26</i>

<i>3.4.4. Kiểm định giả thuyết hai tỷ lệ tổng thể...27</i>

<b>3.5. Kiểm định phương sai:...28</b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>PHẦN 1.</b>

<b>MÔ TẢ DỮ LIỆU </b>

<b>1.1.</b>

<b>Tổng quan</b>

Tập dữ liệu này chứa thông tin được thu thập từ sinh viên đại học thông qua biểu mẫuGoogle, bao gồm các chi tiết như các khóa học cấp chứng chỉ, giới tính, khoa, chiều cao(tính bằng cm), cân nặng (tính bằng kg), điểm lớp 10 và 12, điểm đại học, sở thích, thờigian học hàng ngày, mơi trường học tập ưa thích, kỳ vọng về lương, sự hài lịng với cơngviệc của họ. bằng cấp, sự sẵn sàng theo đuổi nghề nghiệp liên quan đến bằng cấp của họ,việc sử dụng mạng xã hội và video, thời gian đi lại, mức độ căng thẳng và tình trạng tàichính.

Tập dữ liệu này chứa thông tin về nhân khẩu học, kết quả học tập, sở thích, thói quenhọc tập, nguyện vọng nghề nghiệp của sinh viên đại học và các yếu tố khác để phân tíchthái độ và hành vi. 📊📊✏️

<b>1.2.</b>

<b>Dữ liệu tìm kiếm</b>

 Bài phân tích sử dụng tập dữ liệu:

1W3WibX4OirTupAZSwd2TwGHNpEdwN0DRGGQcUk0joNL-Pw_aem_ASvhhqn1HUGjtRi2Jsh_bQP1jPw9RlF0ZvXLJkvXRLoq6fvz_Djmhkfmkr1FisrC2CnFjuIomnytUdi65ewAWjiJ

 Tập dữ liệu được lấy từ trang web kaggle.com mô tả về thái độ và hành vi củasinh viên.

<b>1.3.</b>

<b>Phân tích biến</b>

<i><b>1.3.1.Biến định tính </b></i>

 Certification Course: Cho biết học viên đã hồn thành khóa học cấp chứng chỉnào hay chưa. ✅

 Gender: Giới tính của học sinh. 📊

 Department: Khoa hoặc lĩnh vực học tập mà sinh viên đang theo học. 📊 Hobbies: Sở thích hoặc đam mê của học sinh. 📊

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

 Prefer to Study in: Môi trường học tập hoặc địa điểm ưa thích của sinh viên. 📊📊 Do you like your degree?: Ý kiến của sinh viên về việc họ có thích bằng cấp của

 Stress Level: Mức độ căng thẳng cảm nhận được của học sinh. 😓

 Financial Status: Tình trạng tài chính hoặc nền tảng kinh tế của sinh viên. 📊 Part-time Job: Liệu sinh viên có tham gia vào cơng việc bán thời gian hay không.

<i><b>1.3.2.Biến định lượng</b></i>

 Height (CM): Chiều cao của học sinh tính bằng centimet. 📊 Weight (KG): Cân nặng của học sinh tính bằng kilogam. ⚖️ 10th Mark: Điểm của học sinh đạt được vào lớp 10. 📊

 12th Mark: Điểm của học sinh đạt được vào năm lớp 12. 📊

 College Mark: Điểm của sinh viên đạt được ở trường cao đẳng hoặc đại học. 📊 Daily Studying Time: Lượng thời gian học sinh dành cho việc học hàng ngày. 📊 Salary Expectation: Kỳ vọng của sinh viên về mức lương tương lai của họ. 📊 Traveling Time: Thời gian để học sinh đi lại hoặc di chuyển đến cơ sở giáo dục

của mình. 📊

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>PHẦN 2. PHÂN TÍCH CÁC ĐẠI LƯỢNG THỐNG KÊ MƠ TẢ</b>

<b>2.1.Các đại lượng thống kê mô tả (chọn biến college mark):</b>

<i><b>2.1.1.Số đo hướng tâm</b></i>

 <b>Trung bình cộng: </b>

x=Student_Attitude_and_Behavior$`college mark`> mean(x)

[1] 70.66055

Nhận xét: Điểm trung bình sinh viên của trường đạt được là 70.66055  <b>Trung vị:</b>

> median(x)[1] 70

Nhận xét: Có khơng q 50% số sinh viên trong trường đạt dưới 70 điểm và không quá50% số sinh viên trong trược đạt trên 70 điểm

 <b>Mode: </b>

> which(table(x)==max(table(x)))70

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

dưới 60 điểm, không quá 50% số sinh viên đạt dưới 70 điểm và không quá 75% số sinhviên đạt dưới 80 điểm

 <b>Phân vị:</b>

> quantile(x,0.9)90%

Nhận xét:

 <b>Độ trải giữa:</b>

Q3 - Q1 = 80 - 60 = 20 <b>Phương sai:</b>

> var(x)[1] 247.3526

 <b>Độ lệnh chuẩn:</b>

> sd(x)[1] 15.72745

<b>2.2.Biến định tính: Gender, Stress level</b>

<i><b>2.2.1.Lập bảng</b></i>

 <b>Bảng đơn:</b>

 <b>Gender:</b>

> table(Student_Attitude_and_Behavior$Gender)

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

19 68 11 137

<small></small> <b>Stress level</b>

trọng hơn.

 <b>Bảng đôi:</b>

Awful Bad Fabulous Good

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

pie(b,paste(names(b),":",tyle*100,"%"))

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Nhận xét: Tỷ lệ SV nam nhiều hơn tỷ lệ SV nữ

<small></small> <b>Biểu đồ thanh:</b>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

> b=table(Student_Attitude_and_Behavior$`Stress Level`)> tyle=round(prop.table(b),2)

19 68 11 137

> barplot(table(Student_Attitude_and_Behavior$`Stress Level`)

Nhận xét: Số lượng sinh viên stress level: good là nhiều nhất

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Số lượng sinh viên stress level: fabulous là ít nhất

<small></small> <b>Biểu đờ kết hợp:</b>

Awful Bad Fabulous Good

>barplot(table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior$`Stress Level`))

Nhận xét: Trong 4 mức độ stress level thì good chiếm tỉ trọng lớn nhất, tiếp đến là bad,awful và chiếm tỉ lệ nhỏ nhất là fabulous, qua biểu đồ ta còn thấy tỉ lệ nam giới trong mỗilevel đều chiếm lớn hơn tỉ lệ nữ giới, phần màu xám trắng luôn chiếm tỉ lệ lớn hơn so vớimàu đen.

<i><b>2.2.3.Kiểm định Chi-square:</b></i>

> table(Student_Attitude_and_Behavior$Gender,Student_Attitude_and_Behavior$`StressLevel`)

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Awful Bad Fabulous Good Female 5 23 3 48 Male 14 45 8 89> x=c(5,14,23,45,3,8,48,89)

> A=matrix(x,nrow = 2,ncol = 4)> A

[,1] [,2] [,3] [,4][1,] 5 23 3 48[2,] 14 45 8 89> chisq.test(A)

Pearson's Chi-squared test

So sánh p với mức độ ý nghĩa thống kê thường được đặt là 0.05

Ta thấy p-value = 0.8549 > 0.05 nên ta chấp nhận H0 kết luận khơng có mối liên hệthống kê giữa hai biến.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>2.3.</b>

<b>Biến định lượng </b>

>x=Student_Attitude_and_Behavior$`college mark`> min(x)

[1] 1> max(x)[1] 100

> PhanDiem=cut(x,breaks = seq(0,100,10),right=T) <b>Tính tần số các khoảng điểm</b>

> table(PhanDiem)PhanDiem

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 4 1 2 1 16 36 60 66 40 9

 <b>Tính tần suất các khoảng điểm</b>

> round(prop.table(table(PhanDiem)),digits = 4)PhanDiem

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 0.0170 0.0043 0.0085 0.0043 0.0681 0.1532 0.2553 0.2809 0.1702 0.0383 > DSNam=subset(Student_Attitude_and_Behavior,Gender=="Male")

> y=DSNam$`college mark`

> PhanDiemNam=cut(y,breaks = seq(0,100,10),right=T) <b>tính tần số các khoảng điểm của sinh viên nam</b>

> table(PhanDiemNam)PhanDiemNam

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100]

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

4 0 2 1 14 29 44 43 16 3 > DSNu=subset(Student_Attitude_and_Behavior,Gender=="Female")

> z=DSNu$`college mark`

> PhanDiemNu=cut(z,breaks = seq(0,100,10),right=T) <b>tính tần số các khoảng điểm của sinh viên nữ</b>

> table(PhanDiemNu)PhanDiemNu

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 0 1 0 0 2 7 16 23 24 6 > hist(x,main = " Histogram of College Mark",xlab = "College Mark")

> hist(y,main = " Histogram of College Mark (Male)",xlab = "College Mark")> hist(z,main = " Histogram of College Mark (Female)",xlab = "College Mark")> boxplot(x,main = " Boxplot of College Mark",ylab = "College Mark")

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 4 5 7 8 24 60 120 186 226 235 >cumsum(round(prop.table(table(PhanDiem)),digits = 4))

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 0.0170 0.0213 0.0298 0.0341 0.1022 0.2554 0.5107 0.7916 0.9618 1.0001 >cumsum(table(PhanDiemNam))

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 4 4 6 7 21 50 94 137 153 156 >cumsum(round(prop.table(table(PhanDiemNu)),digits = 4))

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 0.0000 0.0127 0.0127 0.0127 0.0380 0.1266 0.3291 0.6202 0.9240 0.9999

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 0.0256 0.0256 0.0384 0.0448 0.1345 0.3204 0.6025 0.8781 0.9807 0.9999 >cumsum(table(PhanDiemNu))

(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] 0 1 1 1 3 10 26 49 73 79

<b>Toàn bộ sinh viên</b>

<b>Khoảng điểm Tần số Tần suất Tần số tíchluỹ</b>

<b>Tần suất tích luỹ</b>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

 Khoảng điểm (10,20] được điều tra ít nhất là 1 người , chiếm khoảng 0,43%trong tổng số

 Khoảng điểm (0,10] và (10,20] có tổng số người được điều tra là 5 người , chiếmkhoảng 2,13%

<b>Sinh viên nam</b>

<b>Khoảng điểm Tần số Tần suất Tần số tíchluỹ</b>

<b>Tần suất tích luỹ</b>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

>boxplot(y,z,ylab="Điểm số",names =c("Female","Male"))

 Sinh viên nữ có điểm số tốt hơn sinh viên nam vì xu hướng tập trung điểm số củasinh viên nữ (trung vị) ở mức cao hơn so với sinh viên nam

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<i><b>2.3.2.Biến Salary Expectation</b></i>

<b>Khoảng lương kỳ vọng Tần số Tần suất Tần số tích luỹ Tần suất tích luỹ</b>

 <b>tính tần số của mức lương kỳ vọng</b>

> table(MucLuongKyVong)MucLuongKyVong

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

[0,2e+04) [2e+04,4e+04) [4e+04,6e+04) [6e+04,8e+04) [8e+04,1.1e+05) 109 102 16 1 3

[1.1e+05,2e+05) [2e+05,8.5e+05) [8.5e+05,1.5e+06] 1 2 1

 <b>tính tần suất của mức lương kỳ vọng</b>

> round(prop.table(table(MucLuongKyVong)),digits = 3)MucLuongKyVong

[0,2e+04) [2e+04,4e+04) [4e+04,6e+04) [6e+04,8e+04) [8e+04,1.1e+05) 0.464 0.434 0.068 0.004 0.013

[1.1e+05,2e+05) [2e+05,8.5e+05) [8.5e+05,1.5e+06] 0.004 0.009 0.004

 <b>tính tần số tích lũy của mức lương kỳ vọng</b>

0.987 0.996 1.000 > a=Student_Attitude_and_Behavior$`10th Mark`> b=Student_Attitude_and_Behavior$`12th Mark`> c=Student_Attitude_and_Behavior$`college mark`

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

>hist(x,main="Histogram of Salary Expectation")

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max. 0 15000 20000 32482 25000 1500000 Nhận xét:

 mức lương kỳ vọng thấp nhất: 0, cao nhất 1.500.000 Các tứ phận vị: 15000, 20000, 25000

 Mức lương kỳ vọng có giá trị ngoại biên lớn Hình dáng: đều

 Phân phối của tập dữ liệu: không đều

>boxplot(a,b,c,names=c("10th Mark","12th Mark","College Mark"),main="Boxplot",ylab="Điểm số")

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Nhận xét:

 Điểm số cao nhất trong 3 năm học: 100, thấp nhất: 1 đều thuộc biến college mark điểm số năm lớp 10 và đại học có giá trị ngoại biên nhỏ, điểm số năm lớp 12

khơng có giá trị ngoại biên

 Nhìn chung Điểm số năm lớp 10 tốt hơn lớp 12 và đại học vì xu hướng tập trungđiểm số năm lớp 10 là cao nhất, thứ hai là điểm năm lớp 11 và cuối cùng là điểmtại đại học

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<b>PHẦN 3. THỐNG KÊ SUY DIỄN</b>

<b>3.1.Ước lượng điểm:</b>

Dùng dữ liệu Student_Attitude_and_Behavior.csv

<b>Bài tốn: Tìm ước lượng điểm cho chỉ số salary expectation trung bình của các sinhviên</b>

Vậy ước lượng điểm cho mức lương kỳ vọng trung bình của các sinh viên là $32481.68

<b>3.2.Ước lượng khoảng:</b>

Ước lượng khoảng 95% cho mức lương kỳ vọng trung bình của các sinh viên.

<b>3.3.Kiểm định tham số một tổng thể:</b>

<i><b>3.3.1.Kiểm định trung bình tổng thể-cỡ mẫu lớn</b></i>

<b>Bài toán: Dùng dữ liệu tập Student_Attitude_and_Behavior.csv, hãy kiểm địnhgiả thuyết mức lương kỳ vọng trung bình của các sinh viên khơng ít hơn 40.000$, sửdụng mức ý nghĩa 5%</b>

Gọi m là mức lương kỳ vọng trung bình của sinh viên trong tương lai.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

H0: m >= 40,000H1: m < 40,000

<i><b>3.3.2.Kiểm định tỷ lệ 1 tổng thể-cỡ mẫu nhỏ</b></i>

<b>Bài tốn: Trường đại học cơng bố rằng 80% số sinh viên có điểm thi đại họckhơng dưới 40 điểm. Một mẫu ngẫu nhiên gồm 235 sv của trường đại học này chothấy có 8 sinh viên nói rằng họ có điểm đại học dưới 40 điểm. Dùng mức ý nghĩa 5%có thể bác bỏ khẳng định trên của trường đại học khơng?</b>

Gọi p là tỷ lệ sinh viên có điểm thi đại học không dưới 40 điểmH0: p = 0.8

H1: p ≠ 0.8

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Kết luận: Công bố của trường đại học là không đúng

<b>3.4.Kiểm định giả thuyết tham số hai tổng thể:</b>

<i><b>3.4.1.Kiểm định giả thuyết trung bình hai tổng thể, cỡ mẫu lớn, hai mẫu độc lập</b></i>

<b>Bài toán: Nhiều người cho rằng, khi lên cấp 3 con trai sẽ thường học tốt hơn congái, vì vậy điểm thi đại học của những sinh viên nam sẽ thường cao hơn những sinhviên nữ. Để kiểm định giả thuyết trên, người ta tiến hành chọn ngẫu nhiên 30 sinhviên nam, 30 sinh viên nữ với số điểm thi đại học họ đạt được. Sử dụng mức ý nghĩa5%, xác định tính đúng sai của giả thuyết.</b>

Gọi m1, m2 lần lượt là điểm thi đại học trung bình của sinh viên nam và nữ.H0: m1-m2 <=0

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

<b>sở thích đọc sách có điểm lớp 12 cao hơn những sinh viên có sở thích chơi game haykhơng? Dùng mức ý nghĩa 5%, cho biết điểm lớp 12 của hai nhóm sinh viên tuântheo phân phối chuẩn cùng phương sai.</b>

Gọi m1, m2 lần lượt là điểm trung bình lớp 12 của sinh viên có sở thích đọc sách và chơigame.

H0: m1- m2 <=0H1: m1- m2 >0

<i><b>3.4.3.Kiểm định trung bình hai tổng thể, mẫu theo cặp</b></i>

<b>Bài tốn: Nhà trường chú trọng vào việc thi đại học của các học sinh trongtrường nên trong hai năm qua đã thay đổi những phương pháp dạy kiểu mới. Đểkhẳng định rằng phương pháp đó thật sự tốt cho các e thì trường chọn ra 10 họcsinh với điểm thi lớp 10 (trước khi áp dụng phương pháp) và điểm lớp 12 (sau khiáp dụng phương pháp). Tại mức ý nghĩa 5%, hãy kiểm định xem việc áp dụngphương pháp dạy kiểu mới có làm điểm các e học sinh tăng lên không, biết rằngđiểm thi lớp 10,12 tuân theo phân phối chuẩn.</b>

Gọi m1,m2 lần lượt là trung bình điểm thi lớp 10, 12 của các học sinh

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

H1: m1-m2 > 0

<i><b>3.4.4.Kiểm định giả thuyết hai tỷ lệ tổng thể</b></i>

<b>Bài toán: Trường đại học muốn kiểm tra xem liệu rằng các sinh viên khi học tạiđây có cảm thấy stress hay khơng. Nếu tỷ lệ sinh viên cảm thấy stress nhiều hơn thìtrường sẽ mở tọa đàm tham vấn tâm lý. Sau khi khảo sát các sinh viên trong trườngthì họ chia thành hai nhóm. Nhóm 1 gờm những sinh viên có trạng thái tinh thần tốt(good, fabulous), nhóm 2 gờm những sinh viên có trạng thái tinh thần khơng tốt(bad,awful).</b>

<b>Vậy trường có cần phải mở buổi tọa đàm ấy không nếu mức ý nghĩa là 5%.</b>

Gọi p1, p2 lần lượt là tỷ lệ sinh viên cảm thấy stress và không thấy stress.H0: p1-p2 >= 0

H1: p1-p2 < 0

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Kết luận: Nhà trường không cần mở tọa đàm tham vấn tâm lý

<b>3.5.Kiểm định phương sai: </b>

<b>Bài toán: Nhà trường đã thực hiện một khảo sát trên 3 nhóm sinh viên xem liệurằng sở thích có ảnh hưởng nhiều đến điểm thi đại học của các sinh viên khơng.Nhóm 1 gờm các sinh viên có sở thích đi xem phim, Nhóm 2 gờm các sinh viên có sởthích chơi thể thao, Nhóm 3 gờm các sinh viên có sở thích đọc sách. Trong đó mỗinhóm chọn ra 10 bạn sinh viên tương ứng. </b>

</div>

×