CHƯƠNG 5
XỬ LÝ DỮ LIỆU
Xử lý dữ liệu
5.1. Hiệu chỉnh dữ liệu
5.2. Mã hóa dữ liệu
5.3. Nhập dữ liệu
5.4. Làm sạch dữ liệu
5.1. Hiệu chỉnh dữ liệu
Đây là bước kiểm tra chất lượng bảng câu hỏi nhằm đảm bảo
không có bảng hỏi nào thiếu thông tin cần thiết theo yêu cầu
thiết kế ban đầu
- Tính logic của các câu trả lời slide\1.ppt
- Tính đầy đủ của một câu trả lời và của một bảng hỏi slide\2.ppt
- Tính hợp lý và xác thực của các câu trả lời
5.1. Hiệu chỉnh dữ liệu
Các phương pháp xử lý, hiệu chỉnh dữ liệu:
- Suy luận từ các câu trả lời khác
- Trả về cho bộ phận thu thập dữ liệu để làm sáng tỏ lại vấn đề
- Loại bỏ toàn bộ bảng câu hỏi
5.2. Mã hóa dữ liệu
Khái niệm:
Mã hóa dữ liệu là chuyển đổi thông tin nghiên cứu đã thu
thập thành dạng ký hiệu thích hợp cho việc phân tích trên
máy tính
Nguyên tắc mã hóa dữ liệu:
Phù hợp với vấn đề nghiên cứu và mục tiêu
nghiên cứu
Thống nhất
Toàn diện
Không trùng lắp
5.2. Mã hóa dữ liệu
Giới
thiệu cửa sổ làm việc của SPSS:
Cửa sổ dữ liệu: có 2 loại kiểu nhìn (view)
- Data View: kiểu nhìn dùng để nhập liệu và thể hiện dữ liệu
đã nhập
- Variable View: kiểu nhìn dùng để khai báo biến
Cửa sổ Output: hiển thị các kết quả khi thực hiện các
lệnh xử lý
về
chuyển
Hiện dòng Gồm
trạngcác
thái,
hiện
thị
Tạolệnh
các
biểu
đồ vàđổi
đồ thị…
Giúp
khởi
tạo
file
mới,
biến,
toán
giá
trị của biến,
các
thanh
công
cụ,liệu
chọn
font
Gồm các lựa
chọn
như
undo,
Gồm
các
lựa
chọn
vềtính
dữ
như
chèn
mở
filesao
có chép,
sẵn,
lưu
mãnhập
hóa
lạibiến,
các
chữ,
hiện
giá trị
vào
haybiến…
cắtcác
dán,
tìmtìm
kiếm,
thêm
biến,
theo
giá
trị
của
sẵp
file, in
ấn,xác
thoát…
nhãn
của
các
giá
trị
nhập
vào
…
thay
thế,
lập
mặc
định
xếp thứ tự các quan sát, định dạng các
Thực
các thủ
phân tích thống
biếnhiện
có nhiều
lựatục
chọn…
kê như tóm tắt dữ liệu, lập bảng tổng
hợp, tiến hành các kiểm định so sánh về
giá trị trung bình, kiểm định tham số và
phi tham số, phân tích tương quan và
hồi quy, phân tích nhân tố…
5.2. Mã hóa dữ liệu
Mã hóa tên biến (name):
Tên biến cần đặt không có ký tự đặc biệt và không
bắt đầu bằng ký số
Thông thường, ta hay đặt tên biến gần với câu hỏi hay
theo số thứ tự câu hỏi mà biến đó mô tả. Ví dụ, câu
hỏi thứ ba thì khai báo tên biến là q3 hay là c3
Cách mã trong SPSS: nhập trực tiếp tên biến dự
kiến vào từng ô trong cột đầu tiên (Name) của bảng
tính Variable View
5.2. Mã hóa dữ liệu
Mã
hóa kiểu biến (Type):
Có nhiều kiểu hiện thị khác nhau của biến để lựa chọn (đồng
thời với độ rộng và phần thập phân của biến)
5.2. Mã hóa dữ liệu
Nhãn
biến (Label):
Là lời giải thích cho tên biến. Đặt nhãn biến phải
ngắn gọn nhưng có tính giải thích cao. Nhãn này có
thể dài bao nhiều tùy ý và sẽ xuất hiện thay cho tên
biến trong phần bảng kết quả
Cách mã trong SPSS: nhập trực tiếp (gõ không dấu)
vào từng ô trong cột Label, mỗi nhãn tương ứng với
tên biến trong cùng một dòng
5.2. Mã hóa dữ liệu
Mã
hóa các giá trị (Values):
Là giai đoạn quan trọng nhất trong việc mã hóa dữ
liệu bằng cách gán cho các dữ liệu thu thập được bởi
những con số thích hợp
Đối với câu hỏi đóng: Nhập các con số tương ứng
với các câu trả lời đã được liệt kê sẵn
5.2. Mã hóa dữ liệu
Cách mã trong SPSS: Mở hộp thoại Value Label và
nhập nội dung cần khai báo. Ví dụ:
5.2. Mã hóa dữ liệu
Mã
hóa các giá trị (Values):
Đối với câu hỏi mở:
- Nhóm các câu trả lời có cùng ý nghĩa (không nên quá 10
nhóm)
- Gán các con số cho từng nhóm trả lời
Ví dụ: Khách du lịch quốc tế đến với Huế trong những năm
qua:
1 = Châu Á
2 = Châu Âu
3 = Châu Mỹ
5.2. Mã hóa dữ liệu
Có hai cách mã đối với câu hỏi mở:
- Mã hóa trước: dự kiến được các tình huống mà người trả
lời sẽ đưa ra dựa vào lý thuyết và kinh nghiệm của các lần
nghiên cứu trước để nhóm các câu trả lời thành các nhóm
tương đồng
- Mã hóa sau: sau khi điều tra toàn bộ mẫu, đọc trước
khoảng 30% các bảng hỏi để tính toán các tình huống và
tìm cách nhóm các câu trả lời có ý nghĩa tương đồng
5.2. Mã hóa dữ liệu
Mã hóa các giá trị khuyết (Missing):
Trong trường hợp câu hỏi không được trả lời hay
không có ý kiến đối với câu hỏi thì cũng phải được
mã hóa
Cách mã trong SPSS:
Mã hóa giá trị khuyết trong hộp thoại Value Labels, sau đó
khai báo chính giá trị đã mã hóa đó trong hộp thoại
Missing Value
Ngoài ra, trong SPSS còn có một giá trị khuyết nữa, được
gọi là giá trị khuyết hệ thống và được chương trình tự động
đặt dấu chấm (.) ở những vị trí không được nhập giá trị
5.2. Mã hóa dữ liệu
Mã hóa các giá trị khuyết (Missing):
- Là công cụ mô tả quy luật của các giá trị khuyết: các giá trị khuyết nằm
ở đâu, có nhiều giá trị khuyết không, các dữ liệu quá lớn hay quá nhỏ hay
các giá trị bị thiếu một cách ngẫu nhiên
- Ước lượng trung bình, phương sai và độ lệch chuẩn bằng các phương
pháp listwise, pairwise, regression, EM (expectation maximization).
Listwise bỏ qua các trường hợp có giá trị khuyết ở bất kỳ biến nào.
Pairwise bỏ qua các trường hợp có giá trị khuyết ở cặp biến đang xử lý.
Regression ước lượng các giá trị khuyết bằng thuật toán hồi quy. EM ước
lượng các giá trị khuyết bằng quá trình lặp. Trong đó, ở mỗi bước lặp có
một bước E tính giá trị trung bình của các tham số và một bước M tính
các ước lượng hợp lý nhất
- Điền các giá trị khuyết bằng phương pháp regression hoặc EM
5.2. Mã hóa dữ liệu
Columns: Khai báo độ rộng của cột biến khi ta nhập dữ liệu.
Mặc định của chương trình là 8
Align: xác định vị trí dữ liệu được nhập trong cột. Mặc định của
chương trình là Right
Measure: chọn loại thang đo thể hiện dữ liệu với 3 loại chính là
Nominal (thang đo định danh), Ordinal (thang đo thứ bậc) và
Scale (bao gồm cả thang đo khoảng và thang đo tỷ lệ)
5.2. Mã hóa dữ liệu
Lưu
ý:
Đối với những câu hỏi đa lựa chọn (multiple
answer), ta nên khai báo hai hay nhiều biến hơn
trong bảng mã hóa Variable View để thuận tiện hơn
trong việc nhập dữ liệu sau này
Ví dụ: slide\3.ppt
5.2. Mã hóa dữ liệu
Bảng mã dữ liệu:
Đây là danh mục chi tiết các mã số/ký tự đã được
quy định cho các thông tin phân tích
Chức năng:
- Giảm khả năng sai sót trong khâu nhập dữ liệu
- Giúp xác định được vị trí của các biến trong quá
trình phân tích