Lý thuyết Ứng đáp Câu hỏi
Mục lục
1
Sốe
1.1
Lịch sử . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Ứng dụng
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2.1
Bài toán lãi suất kép . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2.2
Phép thử Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2.3
Derangement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Số e trong giải tích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3.1
2
1.3
1.4
Các đặc điểm khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tính chất
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4.1
Hàm tựa-mũ
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4.2
Lý thuyết số
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4.3
Số phức . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Biểu diễn của số e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.5.1
Biểu diễn số e dưới dạng liên phân số
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.5.2
Số chữ số thập phân đã biết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.6
Số e trong văn hóa máy tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.7
Xem thêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.8
Ghi chú
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.9
am khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.10 Liên kết ngoài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Lý thuyết Ứng đáp Câu hỏi
4
2.1
Việc ứng đáp câu hỏi nhị phân đối với mô hình đơn chiều . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Về mô hình Rasch và vai trò của nó . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.3
Điểm thực và đường cong đặc trưng đề trắc nghiệm . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.4
Hàm thông tin của câu hỏi và của đề trắc nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.5
Về việc ước lượng năng lực thí sinh và tham số câu hỏi . . . . . . . . . . . . . . . . . . . . . . .
8
2.6
So bằng và kết nối các đề trắc nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.7
Về trắc nghiệm đa phân và trắc nghiệm đa chiều . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.8
Tài liệu dẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.9
Liên kết ngoài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.10 Nguồn, người đóng góp, và giấy phép cho văn bản và hình ảnh . . . . . . . . . . . . . . . . . . .
13
2.10.1 Văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
1.5
2
1
i
ii
MỤC LỤC
2.10.2 Hình ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.10.3 Giấy phép nội dung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Chương 1
Sốe
Hằng số toán học e là cơ số của logarit tự nhiên. ỉnh
thoảng nó được gọi là số Euler, đặt theo tên nhà toán
học ụy Sĩ Leonhard Euler, hoặc hằng số Napier để
ghi công nhà toán học Scotland John Napier người đã
phát minh ra logarit. (e không được nhầm lẫn với γ hằng số Euler-Mascheroni, đôi khi được gọi đơn giản là
hằng số Euler). Số e là một trong những số quan trọng
nhất trong toán học [1] . Nó có một số định nghĩa tương
đương, một số trong chúng sẽ được đưa ra dưới đây.
Lý do chính xác cho việc sử dụng chữ cái e vẫn chưa
được biết, nhưng có thể đó là chữ cái đầu tiên của từ
exponential (tiếng Anh: nghĩa thông thường là tăng
nhanh chóng, nghĩa trong toán học là hàm mũ). Một
khả năng khác đó là Euler sử dụng nó bởi vì nó là
nguyên âm đầu tiên sau a, chữ cái mà ông đã sử dụng
cho một số khác, nhưng tại sao ông lại sử dụng nguyên
âm thì vẫn chưa rõ. Dường như không phải Euler sử
dụng chữ cái đó bởi vì nó là chữ cái đầu trong tên của
ông, do ông là một người rất khiêm tốn, luôn cố gắng
tuyên dương đúng đắn công trình của người khác.[2]
Số này có tham gia vào đẳng thức Euler.
Do e là số siêu việt, và do đó là số vô tỉ, giá trị của nó
không thể được đưa ra một cách chính xác dưới dạng số
thập phân hữu hạn hoặc vô hạn tuần hoàn hoặc phân
1.2 Ứng dụng
số liên tục hữu hạn hay tuần hoàn. Nó là một số thực
và do đó có thể được biểu diễn bởi một phân số liên tục
vô hạn không tuần hoàn. Giá trị số của e tới 20 chữ số 1.2.1 Bài toán lãi suất kép
thập phân là:
Jacob Bernoulli đã khám phá ra hằng số này khi nghiên
cứu vấn đề về lãi suất kép
2,71828 18284 59045 23536…
Một ví dụ đơn giản là một tài khoản bắt đầu với $1.00
và trả 100% lợi nhuận mỗi năm. Nếu lãi suất được trả
một lần, thì đến cuối năm giá trị là $2.00; nhưng nều lãi
1.1 Lịch sử
suất được tính và cộng hai lần trong năm, thì $1 được
2
= $2.25. Lãi kép
Chỉ dẫn tham khảo đầu tiên tới hằng số này được xuất nhân với 1.5 hai lần, ta được $1.00×1.5
4
hàng
quý
ta
được
$1.00×1.25
=
$2.4414…,
và lãi kép
bản vào 1618 trong bảng phụ lục của một công trình
12
hàng
tháng
ta
được
$1.00×(1.0833…)
=
$2.613035….
về logarit của John Napier. ế nhưng, công trình này
không chứa hằng số e, mà đơn giản chỉ là một danh Bernoulli để ý thấy dãy này tiến tới một giới hạn với
sách các logarit tự nhiên được tính toán từ hằng số e. kì lãi kép càng ngày nhỏ dần. Lãi kép hàng tuần ta
Có thể là bảng này được soạn bởi William Oughtred. được $2.692597… trong khi lãi kép hàng ngày ta được
Chỉ dẫn đầu tiên cho biết về hằng số e được phát hiện $2.714567…, chỉ thêm được hai cent. Gọi n là số kì lãi
bởi Jacob Bernoulli, trong khi tìm giá trị của biểu thức: kép, với lãi suất 1/n trong mỗi kì, giới hạn của n rất
lớn là một số mà bây giờ ta gọi là số e; với lãi kép liên
tục, giá trị tài khoản sẽ tiến tới $2.7182818…. Tổng quát
)n
(
hơn, một tài khoản mà bắt đầu bằng $1, và nhận được
1
lim 1 +
(1+R) đô-la lãi đơn, sẽ nhận được eR đô-la với lãi kép
n→∞
n
liên tục.
Việc sử dụng đầu tiên ta từng biết của hằng số, biểu
diễn bởi chữ cái b, là trong liên lạc thư từ giữa Gofried
Leibniz và Christiaan Huygens giữa 1690 và 1691. 1.2.2 Phép thử Bernoulli
Leonhard Euler bắt đầu sử dụng chữ cái e cho hằng số
vào 1727, và việc sử dụng e lần đầu tiên trong một ấn Số e cũng có ứng dụng trong lý thuyết xác suất, trong
bản là cuốn Mechanica của Euler (1736). Trong những đó nó phát triển theo cách mà không hiển nhiên liên
năm sau đó một số nhà nghiên cứu sử dụng chữ cái c, quan đến độ tăng hàm mũ. Giả sử rằng một con bạc
e trở nên phổ biến và cuối cùng trở thành tiêu chuẩn. chơi slot machine, một triệu lần, kỳ vọng được thắng
1
2
CHƯƠNG 1. SỐE
một lần. Khi đó xác suất mà con bạc không thắng được
gì là (xấp xỉ) 1/e.
d
1
Đây là một ví dụ về phép thử Bernoulli. Mỗi lần con dx loge x = x .
bạc chơi một lượt, có thêm một trong một triệu cơ hội
thắng. Việc chơi một triệu lần được mô hình hóa qua Logarit trong trường hợp đặc biệt này được gọi là
phân phối nhị thức, có liên hệ mật thiết với định lý nhị logarit tự nhiên (thường được ký hiệu là “ln”), và nó
cũng dễ dàng lấy vi phân vì không có giới hạn chưa
thức. Xác suất thằng k lần và thua các lần còn lại là
xác định nào phải thực hiện trong khi tính toán.
( 6)
6
10 ( −6 )k
10
(1 − 10−6 )10 −k .
k
Do đó có hai cách để chọn một số đặc biệt a=e. Một
cách là đặt sao cho đạo hàm của hàm số ax là ax . Một
cách khác là đặt sao cho đạo hàm của logarit cơ số a
là 1/x. Mỗi trường hợp đều đi đến một lựa chọn thuận
tiện để làm giải tích. ực tế là, hai cơ số có vẻ rất khác
nhau này lại chỉ là một, số e.
Đặc biệt, xác suất không thắng lần nào (k=0) là
(
)106
1
1− 6
.
10
1.3.1 Các đặc điểm khác
Số này rất gần với giới hạn sau ho 1/e
Một số đặc điểm khác của số e: một là về giới hạn dãy,
một cái khác là về chuỗi vô hạn, và vẫn còn một số khác
về tích phân. Trên đây ta đã giới thiệu hai tính chất:
(
)n
1
1
= lim 1 −
.
e n→∞
n
1.2.3
1. Số e là số thực dương duy nhất mà
Derangement
= et . : Đạo hàm của hàm số mũ cơ số e
chính là hàm số đó
d t
dt e
1.3 Số e trong giải tích
Lý do chính để đưa ra số e, đặc biệt trong giải tích, là
để lấy vi phân và tích phân của hàm mũ và logarit.[3]
Một hàm mũ tổng quát y=ax có đạo hàm dưới dạng giới
hạn:
d x
ax+h − ax
ax ah − ax
a = lim
= lim
= ax
h→0
h→0
dx
h
h
(
2. Số e là số thực dương duy nhất mà
d
1
loge t = .
dt
t
Các tính
) chất khác sau đây cũng được chứng minh là
h
atương
− 1đương:
lim
.
h→0
h e là giới hạn
3. Số
Giới hạn ở bên phải độc lập với biến x: nó chỉ phụ thuộc
vào cơ số a. Khi cơ số là e, giới hạn này tiến tới một, và
do đó e được định nghĩa bởi phương trình:
(
e = lim
n→∞
d x
e = ex .
dx
1
1+
n
)n
4. Số e là tổng của chuỗi vô hạn
Do đó, hàm mũ với cơ số e trong một số trường hợp
∞
∑
phù hợp để làm giải tích. Chọn e, không như một số số
1
1
1
1
1
1
=
+ + + + + ···
khác, là cơ số của hàm mũ làm cho tính toán chủ yếu e =
n!
0!
1!
2!
3!
4!
n=0
về đạo hàm đơn giản hơn rất nhiều.
Một lý do khác đến từ việc xét cơ số logarit a.[4] Xét trong đó n! là giai thừa của n.
định nghĩa của đạo hàm của logₐx bởi giới hạn:
5. Số e là số thực dương duy nhất mà
)
1 ∫ e
lim loga (11+ u) .
u→0 u
dt = 1
1 t
Một lần nữa, có một giới hạn chưa xác định mà chỉ phụ
thuộc vào cơ số a, và nếu cơ số đó là e, giới hạn là một. (nghĩa là, số e là số mà diện tích dưới hyperbol f (t) =
1/t từ 1 tới e là bằng một)
Vậy
loga (x + h) − loga (x)
1
d
loga x = lim
=
h→0
dx
h
x
(
1.7. XEM THÊM
3
1.4 Tính chất
1.7 Xem thêm
1.4.1
Hàm tựa-mũ
Số Pi
1.4.2
Lý thuyết số
1.8 Ghi chú
Chứng minh e là số vô tỉ.
Giả sử e là số hữu tỉ, suy ra
[1] Howard Whitley Eves (1969). An Introduction to the
History of Mathematics. Holt, Rinehart & Winston.
p
e=
q
[2] O'Connor, J.J., and Roberson, E.F.; e MacTutor History
of Mathematics archive: “e number e"; University of
St Andrews Scotland (2001)
Dựa vào công thức:
e=
[3] See, for instance, Kline, M. (1998) Calculus: An intuitive
and physical approach, Dover, section 12.3 “e Derived
Functions of Logarithmic Functions.”
∞
∑
1
1
1
1
1
1
=
+ + + + + ···
n!
0! 1! 2! 3! 4!
n=0
[4] is is the approach taken by Klein (1998).
[5] New Scientist, 21-7-2007, tr. 40.
1 1 1
1 1 1
1
1
1
1
e.q! = ( + + +· · · ).q! = ( + + +· · ·+ ).q!+[6] Byte
+ Magazine, yển+6, số 6 (tháng 6 năm 1981) tr.
+·392)
··
0! 1! 2!
0! 1! 2!
q!
q +“e
1 (q
+ 1)(q +
2) (q
+ 1)(q +e 2)(q
+ 3) places
Impossible
Dream:
Computing
to 116,000
1
1
+ (q+1)(q+2)
+
e.q! là số nguyên dương, suy ra: q+1
1
(q+1)(q+2)(q+3) + · · · là số nguyên dương.
1
1
1
Mặt khác: q+1
+ (q+1)(q+2)
+ (q+1)(q+2)(q+3)
+··· <
1
1
1
1
2
1
+
−
+
−
+
...
≤
≤
1.
q+1
q+1
q+2
q+2
q+3
q+1
Suy ra điều mâu thuẫn.
Vậy e là số vô tỉ.
1.4.3
1.9 Tham khảo
Số phức
Biểu diễn số e dưới dạng liên phân số
e = [[2; 1, 2, 1, 1, 4, 1, 1, 6, 1, 1, 8, 1, . . . , 1, 2n, 1, . . .]],
1
e=2+
1
2+
1
1+
1+
1.10 Liên kết ngoài
• Số e tới 1 triệu chữ số thập phân và 2 và 5 triệu
chữ số thập phân
• Những cách sử dụng ban đầu cho ký hiệu của các
hằng số
• e the EXPONENTIAL - the Magic Number
of GROWTH - Keith Tognei, University of
Wollongong, NSW, Australia
1
1+
• An Intuitive Guide To Exponential Functions & e
1
4+
1
..
.
Như vây mặc dù e là số vô tỉ nhưng trong biểu diễn liên
phân số lại phân phối theo quy luật tuyến tính: 2;1-21;1-4-1;1-6-1;1-8-1;…
1.5.2
[7] Notable Large Computations: E Alexander J. Yee. Cập
nhật 7/3/2011
• Maor, Eli; e: e Story of a Number, ISBN 0-69105854-7
1.5 Biểu diễn của số e
1.5.1
with a Personal Computer”
Số chữ số thập phân đã biết
1.6 Số e trong văn hóa máy tính
• Euler’s constant trên PlanetMath
• E trên MathWorld
• e Approximations: giá trị gần đúng của số e
Chương 2
Lý thuyết Ứng đáp Câu hỏi
Lý thuyết Ứng đáp Câu hỏi (Item Response eory IRT) là một lý thuyết của khoa học về đo lường trong
giáo dục, ra đời từ nửa sau của thế kỷ 20 và phát
triển mạnh mẽ cho đến nay. Trước đó, Lý thuyết Trắc
nghiệm cổ điển (Clasical Test eory – CTT), ra đời từ
khoảng cuối thế kỷ 19 và hoàn thiện vào khoảng thập
niên 1970, đã có nhiều đóng góp quan trọng cho hoạt
động đánh giá trong giáo dục, nhưng cũng thể hiện một
số hạn chế. Các nhà tâm trắc học (psychometricians)
cố gắng xây dựng một lý thuyết hiện đại sao cho khắc
phục được các hạn chế đó. Lý thuyết trắc nghiệm hiện
đại được xây dựng dựa trên mô hình toán học, đòi hỏi
nhiều tính toán, nhưng nhờ sự tiến bộ vượt bậc của
công nghệ tính toán bằng máy tính điện tử vào cuối
thế kỷ 20 – đầu thế kỷ 21 nên nó đã phát triển nhanh
chóng và đạt được những thành tựu quan trọng.
giữa các biến không quan sát được (năng lực của TS)
và các biến quan sát được (việc trả lời CH). Đồ thị biểu
diễn hàm đó được gọi là đường cong đặc trưng câu hỏi
(Đường cong ĐTCH - Item Characteristic Curve).
Đối với các cặp TS – CH, cần xây dựng một cái thang
chung để biểu diễn các mối tương tác giữa chúng. Trước
hết giả sử ta có thể biểu diễn năng lực tiềm ẩn của các
TS bằng một biến liên tục θ dọc theo một trục, từ –∞
đến +∞. Khi xét phân bố năng lực của một tập hợp TS
nào đó, ta gán giá trị trung bình của phân bố năng lực
của tập hợp TS đó bằng không (0), làm gốc của thang
đo năng lực, và độ lệch tiêu chuẩn của phân bố năng
lực bằng 1. Tiếp đến, chọn một thuộc tính của CH để
đối sánh với năng lực: tham số biểu diễn thuộc tính
quan trọng nhất đó là độ khó b của CH (cần lưu ý là
đại lượng độ khó ở đây sẽ được xác định khác với trong
CTT). Cũng theo cách tương tự có thể biểu diễn độ khó
của các CH bằng một biến liên tục dọc theo một trục,
từ –∞ đến +∞. Khi xét phân bố độ khó của một tập hợp
CH nào đó, ta chọn giá trị trung bình của phân bố độ
khó đó bằng không (0), làm gốc của thang đo độ khó,
và độ lệch tiêu chuẩn của phân bố độ khó CH bằng 1.
Để đánh giá đối tượng nào đó CTT tiếp cận ở cấp độ
một đề kiểm tra, còn lý thuyết trắc nghiệm hiện đại tiếp
cận ở cấp độ từng câu hỏi, do đó lý thuyết này thường
được gọi là Lý thuyết Ứng đáp Câu hỏi. Trong số các nhà
nghiên cứu có nhiều đóng góp ban đầu cho IRT có thể
kể các tên Lord, F.M.[1] ; Rasch, G.[2] , Wright, B.D.[3] .v.v..
Chúng ta sẽ bắt đầu bằng cách xây dựng một hàm đáp
ứng CH cho một CH nhị phân, tức là CH mà câu trả lời
chỉ có 2 mức: 0 (sai) và 1 (đúng). Giả thiết cơ bản sau
đây của George Rasch, nhà toán học Đan Mạch, được
đưa ra làm cơ sở để xây dựng mô hình hàm đáp ứng CH
một tham số:
2.1 Việc ứng đáp câu hỏi nhị phân
đối với mô hình đơn chiều
Chúng ta sẽ quy ước gọi một con người có thuộc tính
cần đo lường là thí sinh (person -TS) và một đơn vị của
công cụ để đo lường (test) là câu hỏi (item –CH). Để
đơn giản hóa cho mô hình nghiên cứu xuất phát có thể
đưa ra các giả thiết sau đây:
Một người có năng lực cao hơn một người khác thì xác
suất để người đó trả lời đúng một câu hỏi bất kì phải lớn
hơn xác suất của người sau; cũng tương tự như vậy, một
câu hỏi khó hơn một câu hỏi khác có nghĩa là xác suất để
một người bất kì trả lời đúng câu hỏi đó phải bé hơn xác
[2]
- Năng lực tiềm ẩn (latent trait) cần đo chỉ có một chiều suất để trả lời đúng câu hỏi sau (Rasch, 1960, tr. 117) .
(unidimensionality), hoặc ta chỉ đo một chiều của năng Với giả thiết nêu trên, có thể thấy xác suất để một TS
lực đó.
trả lời đúng một CH nào đó phụ thuộc vào tương quan
- Các CH là độc lập địa phương (local independence), giữa năng lực của TS và độ khó của CH. Chọn Θ để biểu
tức là việc trả lời một CH không ảnh hưởng đến các diễn năng lực của TS, và β để biểu diễn độ khó của CH.
Gọi P là xác suất trả lời đúng CH, xác suất đó sẽ phụ
CH khác.
thuộc vào tương quan giữa Θ và β theo một cách nào
Khi thỏa mãn hai giả thiết nêu trên thì không gian năng đó, do vậy ta có thể biểu diễn:
lực tiềm ẩn đầy đủ chỉ chứa một năng lực. Khi ấy, người
ta giả định là có một hàm đặc trưng câu hỏi (Hàm ĐTCH
(1)
f (P ) = Θ
- Item Characteristic Function) phản ánh mối quan hệ
β
4
2.1. VIỆC ỨNG ĐÁP CÂU HỎI NHỊ PHÂN ĐỐI VỚI MÔ HÌNH ĐƠN CHIỀU
trong đó f là một hàm nào đó của xác suất trả lời đúng.
Lấy logarit tự nhiên của (1):
5
(5) chính là hàm ĐTCH 2 tham số. Hệ số a biểu diễn độ
dốc của đường cong ĐTCH tại điểm có hoành độ θ= b
và tung độ P(θ) = 0,5.
Hàm ĐTCH 2 tham số trình bày trên đây và hàm ĐTCH
1 tham số theo mô hình Rasch có cùng dạng thức, chỉ
khác nhau ở giá trị tham số a (đối với mô hình 1 tham
số a = 1). Hình 2 biểu diễn các đường cong ĐTCH theo
Tiếp đến, để đơn giản, khi xét mô hình trắc nghiệm nhị mô hình 2 tham số với b=0, và a lần lượt bằng 0,5; 1,0;
phân, Rasch chọn hàm f chính là mức được thua (odds) 1,5; 2,0; 3,0 nên độ dốc của các đường cong ở đoạn giữa
O, hoặc khả năng thực hiện đúng (likelyhood ratio), tức tăng dần.
P
O = (1−P
) , biểu diễn tỉ số của khả năng trả lời đúng
và khả năng trả lời sai.
ln f (P ) = ln( Θ
β ) = ln Θ − ln β = (θ − b)
(2)
Như vậy:
P
ln (1−P
) =θ−b
(3) ,
P
ln (1−P
) được gọi là logit (log odds unit).
Từ đó:
ln
P
= e(θ−b)
(1 − P )
Hình 2. Các đường cong ĐTCH hai tham số với các giá trị a
khác nhau (b = 0)
và:
P (θ) =
e(θ−b)
1+e(θ−b)
(4)
Có thể thấy rằng tung độ tiệm cận trái của các đường
Biểu thức (4) chính là hàm đặc trưng của mô hình ứng cong ĐTCH 1 và 2 tham số đều có giá trị bằng 0, điều
đáp CH 1 tham số, hay còn gọi là mô hình Rasch, có thể đó có nghĩa là nếu TS có năng lực rất thấp, tức là Θ →
0 và θ = ln Θ → -∞, thì xác suất P(θ) trả lời đúng CH
biểu diễn bằng đồ thị dưới đây (khi cho b = 0):
cũng bằng 0. Tuy nhiên, trong thực tế triển khai trắc
nghiệm, chúng ta đều biết có khi năng lực của TS rất
thấp nhưng do đoán mò hoặc trả lời hú hoạ một CH
nên TS vẫn có một khả năng nào đó trả lời đúng CH.
Trong trường hợp đã nêu thì tung độ tiệm cận trái của
đường cong không phải bằng 0 mà bằng một giá trị xác
định c nào đó, với 0 < c < 1. Từ thực tế nêu trên, người
ta có thể đưa thêm tham số c phản ánh hiện tượng đoán
mò vào hàm ứng đáp CH để tung độ tiệm cận trái của
đường cong khác 0. Kết quả sẽ thu được biểu thức:
a(θ−b)
e
P (θ) = c + (1 − c) 1+e
a(θ−b)
(6)
Hình 1. Đường cong ĐTCH một tham số
Tuy nhiên, như đã biết, trong CTT, người ta còn sử
dụng một tham số quan trọng thứ hai đặc trưng cho CH
là độ phân biệt, từ đó nhiều nhà nghiên cứu mong muốn
đưa đặc trưng đó vào mô hình đường cong ĐTCH.
Muốn vậy, có thể đưa thêm tham số a liên quan đến
đặc trưng phân biệt của CH vào hệ số ở số mũ của hàm
e, kết quả sẽ có biểu thức:
P (θ) =
ea(θ−b)
1+ea(θ−b)
(5)
(6) chính là hàm ĐTCH 3 tham số. Rõ ràng khi θ → -∞,
hàm P(θ)→ c. Trong trường hợp hàm ĐTCH 3 tham số
khi θ = b sẽ có P(θ) = (1+c)/2.
Hình 3 biểu diễn các đường cong ĐTCH theo mô hình
3 tham số với a = 2 và các tham số c có giá trị bằng 0,1
và 0,2.
Mô hình đường cong ĐTCH 2 và 3 tham số do Allan
Birnbaum đề xuất đầu tiên [4] , nên đôi khi được gọi là
các mô hình Birnbaum.
6
CHƯƠNG 2. LÝ THUYẾT ỨNG ĐÁP CÂU HỎI
trong nhiều thập niên, vì nhiều nhà tâm trắc học từ các
nghiên cứu của mình đã khẳng định rằng chỉ có độ khó
là có thể ước lượng được một cách ổn định và đầy đủ
qua số liệu quan sát đối với loại CH trắc nghiệm nhị
phân. Do đó, hiện nay, tuy là mô hình ĐTCH đơn giản
nhất trong các mô hình IRT, và có lẽ cũng chính vì tính
đơn giản nhưng đầy đủ của nó, mô hình Rasch đã được
sử dụng nhiều nhất trong các nghiên cứu tâm lý và giáo
dục. Cũng theo Wright, mô hình Rasch là mô hình duy
nhất thoả mãn các yêu cầu để xây dựng các phép đo
lường khách quan trong khoa học xã hội nói chung, và
Wright có ý kiến khá cực đoan rằng không nên sử dụng
các mô hình khác trong các phép đo lường khách quan.
Hình 3: Các đường cong ĐTCH 3 tham số với a = 2, c = 0,1 và
0,2.
2.2 Về mô hình Rasch và vai trò
của nó
Chúng ta đã chọn mô hình một tham số, mô hình
Rasch, làm mô hình trình bày đầu tiên trong các mô
hình đường cong ĐTCH vì mô hình này đơn giản nhất
và phản ánh tường minh nhất mối quan hệ giữa TS và
CH. Tuy nhiên, như đã nói trên đây, trong tiến trình
lịch sử hình thành IRT, không phải mô hình Rasch xuất
hiện trước các mô hình khác. Nhà toán học và tâm lý
học người Đan Mạch, George Rasch, đã có ý tưởng xây
dựng “một mô hình cấu trúc cho các CH trong một
đề trắc nghiệm” từ thập niên 1950, đề xuất mô hình
xác suất logistic đó từ 1953, nhưng ở Mỹ, người ta biết
đến công trình của ông từ khi ông công bố chính thức
trong một cuốn sách xuất bản năm 1960 [2] . Động cơ
của Rasch muốn thể hiện qua mô hình của mình là hạn
chế việc dựa vào tổng thể TS khi phân tích các đề trắc
nghiệm (ĐTN). eo ông, phân tích trắc nghiệm chỉ
đáng giá khi dựa vào từng cá nhân TS, với các thuộc
tính của TS và CH được tách riêng. Để biện minh cho
quan điểm của mình, ông thường dẫn lời nhà tâm lý học
Skinner, người rất ghét việc căn cứ vào thống kê dựa
trên tổng thể để kết luận và thường triển khai nghiên
cứu thực nghiệm trên từng cá thể. an điểm của Rasch
đã đánh dấu sự chuyển tiếp từ CTT, dựa trên tổng thể
với việc nhấn mạnh đến biện pháp tiêu chuẩn hoá và
ngẫu nhiên hoá, sang IRT với mô hình xác suất tương
tác giữa một TS và một CH. Sự tồn tại của các số liệu
thống kê đầy đủ của các tham số của CH trong mô
hình Rasch có thể được sử dụng vào việc điều chỉnh
ước lượng các tham số năng lực theo một cách thức đặc
biệt.
Một trong những ưu điểm lớn của mô hình Rasch là
tách biệt được năng lực của TS và đặc trưng của CH
(độ khó) trong phép đo lường. ật vậy, nếu có hai TS
có năng lực θ1 và θ2 cùng ứng đáp một CH thì từ biểu
thức (3) có thể thu được ln (O1 /O2 ) = (θ1 – θ2 ), tức là
có thể xác định các năng lực của TS không phụ thuộc
độ khó CH. Vì tính đối xứng của biểu thức, cũng dễ
thấy rằng, ngược lại, có thể xác định các độ khó của
CH không phụ thuộc năng lực TS. Chính vì tính chất
cơ bản này nên có thể đặt năng lực của các TS và độ khó
của các CH trên cùng một thang đo để so sánh chúng
với nhau.
Tuy nhiên, một số nhà nghiên cứu khác cho rằng về lý
thuyết thì dạng toán học của mô hình Rasch có nhiều
lợi thế, nhưng khi nói đến mô hình toán học, tức là
nói đến một sự giả định, tiêu chuẩn để đánh giá hiệu
quả của mô hình là sự phù hợp của chúng với số liệu
thực nghiệm chứ không chỉ thuần túy ở dạng toán học.
Người ta thường gọi quan điểm của Wright là quan
điểm “dựa trên mô hình” (model–based), còn quan điểm
ngược lại là quan điểm “dựa trên dữ liệu” (data–based).
2.3 Điểm thực và đường cong đặc
trưng đề trắc nghiệm
Trong các phép đo lường, để xác định chính xác giá
trị được đo và sai số của một phép đo người ta thường
thực hiện phép đo đó nhiều lần. Trong trắc nghiệm,
thực tế không làm được như vậy, nhưng có thể quy ước
định nghĩa về điểm trung bình của một TS qua hàng
loạt phép đo bằng một ĐTN. Điểm quan sát X của một
ĐTN qua hàng loạt phép đo được xem là một biến ngẫu
nhiên với một phân bố tần suất nào đó thường là không
biết. Giá trị trung bình (kì vọng toán học) của phân bố
đó được gọi là điểm thực τ của TS, có quan hệ như sau
với các điểm quan sát X và sai số ε:
Cùng trong khoảng thời gian công bố công trình của
mình, Rasch được mời sang cộng tác nghiên cứu 3
ε = X – τ.
(7)
tháng tại Viện Đại học Chicago. Tại đây, B. Wright
đã có rất nhiều đóng góp để nâng cao và phát triển
mô hình Rasch. eo Wright, ý tưởng của Rasch về Trong CTT, điểm thực được định nghĩa trên đây là một
việc chọn mô hình logistic với chỉ một tham số là độ sự trừu tượng toán học, không có quy trình nào để xác
khó đã giải phóng được bế tắc của việc phát triển IRT định. Cũng do đó, sai số của phép đo ε là một đại lượng
2.4. HÀM THÔNG TIN CỦA CÂU HỎI VÀ CỦA ĐỀ TRẮC NGHIỆM
có tính chất trung bình đối với toàn bộ dải năng lực của
TS. Tuy nhiên trong IRT, có thể chứng minh được rằng
điểm thực được xác định bởi một ĐTN gồm n CH có
thể tính theo biểu thức sau đây:
τ=
∑n
j=1
P (θj )
(8)
Tức là: điểm thực của một TS có năng lực θ là tổng của
các xác suất trả lời đúng của mọi CH của ĐTN tại giá
trị θ. Như vậy, đối với mọi giá trị θ, nếu chúng ta tiến
hành cộng tất cả mọi đường cong ĐTCH trong ĐTN,
sẽ thu được đường cong đặc trưng của ĐTN, hoặc cũng
gọi là đường cong điểm thực. Đường cong đặc trưng
của ĐTN là quan hệ hàm số giữa điểm thực và thang
năng lực: cho trước một mức năng lực bất kì có thể tìm
điểm thực tương ứng qua đường cong đặc trưng ĐTN.
Minh họa trên Hình 4 cho thấy một đường cong đặc
trưng ĐTN thu được bằng cách cộng 5 đường cong
ĐTCH. Vì là chồng chất của các đường cong ĐTCH
nên đường cong đặc trưng ĐTN cũng có dạng một hàm
đồng biến. Tiệm cận phải của đường cong khi θ → +∞
bằng điểm thực tối đa, n, tức là bằng tổng số CH trong
ĐTN. Tung độ tiệm cận trái của đường cong khi θ tiến
đến θ → -∞ bằng 0 đối với các mô hình 1 và 2 tham số,
và bằng giá trị tổng cộng các tham số đoán mò Σc của
toàn bộ n CH trong ĐTN đối với mô hình 3 tham số.
Độ nghiêng của phần giữa đường cong đặc trưng ĐTN
liên quan đến độ phân biệt của ĐTN. Mức năng lực ứng
với trung điểm của thang điểm thực (n/2) xác định vị
trí của ĐTN trên thang năng lực. Hoành độ của điểm
đó xác định độ khó của ĐTN. Hai yếu tố độ dốc và mức
năng lực ở trung điểm thang điểm thực mô tả khá rõ
đặc tính của một ĐTN.
7
2.4 Hàm thông tin của câu hỏi và
của đề trắc nghiệm
Mỗi một CH trắc nghiệm cung cấp một lượng thông
tin nào đó về năng lực cần đo của các TS. Birnbaum A.
đã đề xuất biểu thức hàm hàm thông tin của CH (item
information function) được biểu diễn như sau:
Ii (θ) =
[Pi′ (θ)]2
Pi (θ)Qi (θ)
(9)
trong đó I(θ) là thông tin cung cấp bởi CH thứ i ở mức
năng lực θ, Q(θ)=1- P(θ), P'(θ)là đạo hàm của P(θ) theo
θ.
Từ biểu thức (9) có thể suy ra các biểu thức hàm thông
tin tương ứng với các mô hình ứng đáp CH khác nhau.
Đối với mô hình tổng quát 3 tham số, ta có:
2
i (θ)−ci )
Ii (θ) = a2i (P(1−c
2
i)
Qi (θ)
Pi (θ)
(10)
Vì tính độc lập địa phương của các CH trắc nghiệm,
'hàm thông tin của ĐTN' (Test information Function)
là tổng các hàm thông tin của các CH có trong ĐTN:
I(θ) =
∑n
i=1 Ii (θ)
(11)
Ở Hình 5, đường cong nét đậm biểu diễn hàm thông
tin của ĐTN, còn các đường cong nét nhạt là các hàm
thông tin của các CH trắc nghiệm. Mức thông tin chung
của ĐTN cao hơn nhiều so với mức thông tin của từng
CH riêng rẽ, tức là một ĐTN sẽ đo năng lực chính xác
hơn nhiều so với chỉ một CH trắc nghiệm. Từ định
nghĩa hàm thông tin theo công thức (11) có thể thấy
rõ: ĐTN càng có nhiều CH thì giá trị của hàm thông
tin càng cao, tức là một ĐTN dài thường đo năng lực
chính xác hơn một ĐTN ngắn.
Hình 4. Đường cong đặc trưng của ĐTN gồm 5 CH và 5 đường
cong ĐTCH tương ứng.
Một điều khá lý thú là, khi biết năng lực θ của một TS,
nhờ đường cong điểm thực của một ĐTN cụ thể có thể
xác định được điểm thực của TS thu được từ ĐTN đó
mà TS không cần phải làm ĐTN. Từ đó có thể tiên đoán
điểm thực của TS hoặc tình trạng TS đạt hay không đạt
điểm cần thiết đối với một ĐTN mới.
Hình 5: Các đồ thị hàm thông tin của 5 CH trắc nghiệm và của
ĐTN do 5 CH đó hợp thành
Tùy theo tính chất của các CH tạo nên ĐTN mà hàm
thông tin sẽ có giá trị lớn (tức là đo chính xác) ở các
8
CHƯƠNG 2. LÝ THUYẾT ỨNG ĐÁP CÂU HỎI
khoảng năng lực xác định nào đó và giá trị bé (tức là đo
kém chính xác) ở các khoảng năng lực khác. Do những
đặc điểm nêu trên, hàm thông tin là một công cụ cực
kì quan trọng của IRT, nó giúp thiết kế các ĐTN cho
các phép đo theo các mục tiêu xác định. Hàm thông tin
lý tưởng của một ĐTN là một đường nằm ngang, tức là
phép đo có độ chính xác như nhau ở mọi khoảng năng
lực. Tuy nhiên, một ĐTN như vậy có thể không phải
là tốt nhất đối với các mục tiêu cụ thể. Chẳng hạn, nếu
muốn thiết kế một ĐTN để cấp học bổng, cần một ĐTN
đo rất chính xác trong một khoảng hẹp ở mức năng lực
là ranh giới giữa những TS được và không được học
bổng, tức là hàm thông tin có đỉnh cực đại ở điểm cắt
(cut–off score), vì rằng một sai số lớn trong phép đo ở
khoảng năng lực này có thể chuyển một TS từ loại được
sang loại không được học bổng hoặc ngược lại.
Hàm thông tin của ĐTN có một số ứng dụng quan
trọng. Trước hết, qua hàm thông tin có thể biết mức độ
chính xác của phép đo bằng ĐTN: Giá trị hàm thông
tin càng lớn ở khoảng năng lực nào thì độ chính xác
của phép đo ở khoảng năng lực đó càng cao, và ngược
lại. Một ứng dụng khác rất quan trọng của hàm thông
tin là giúp thiết kế các ĐTN có mức tương đương cao.
eo IRT, các ĐTN tương đương phải thoả mãn hai điều
kiện: 1) điều kiện về nội dung và mục tiêu, thể hiện ở
sự trùng hợp của các ma trận đặc trưng ĐTN (số lượng
câu hỏi trong các ô ứng với nội dung và mục tiêu học
tập cụ thể phải trùng nhau); 2) điều kiện về thống kê:
các đường cong hàm thông tin của các ĐTN phải trùng
khớp nhau trong một phạm vi sai số chấp nhận nào đó.
Sai số tiêu chuẩn của ĐTN
2.5 Về việc ước lượng năng lực thí
sinh và tham số câu hỏi
Sai số tiêu chuẩn của việc ước lượng năng lực ở vị trí θ
bằng:
σ(θ) = √ 1
I(θ)
.
(12)
Biểu thức (12) cho thấy hai đường cong hàm thông tin
và sai số tiêu chuẩn của một ĐTN có hình dạng gần
như đối xứng với nhau qua một đường nằm ngang. Sự
phụ thuộc của sai số tiêu chuẩn vào năng lực θ có một
ý nghĩa quan trọng, chỉ rõ một trong những khác biệt
giữa CTT và IRT. Biểu thức (7) cho thấy trong CTT sai
số ε của phép đo là một đại lượng không đổi chung cho
ĐTN đối với mọi TS có năng lực khác nhau. Trong khi
đó, đối với IRT, sai số của phép đo bằng ĐTN thay đổi
theo các mức năng lực. Đây cũng là một biểu hiện của
việc “cá thể hoá" phép đo lường của IRT mà chúng ta
đã đề cập khi bàn về mô hình Rasch trên đây.
Sai số tiêu chuẩn (θ) của việc ước lượng năng lực θ
là độ lệch tiêu chuẩn của phân bố gần chuẩn khi ước
lượng giá trị năng lực theo biến cố hợp lý cực đại ở
một giá trị năng lực θ nào đó. Phân bố sẽ tiến đến dạng
chuẩn khi ĐTN đủ dài. Tuy nhiên, nhiều nghiên cứu
cho thấy rằng thậm chí các ĐTN ngắn cỡ 10 – 20 CH,
sự phân bố gần chuẩn cũng thoả mãn đối với một số
mục đích.
Biên độ của hàm sai số tiêu chuẩn nói chung phụ thuộc
vào: 1) số CH trong ĐTN (số CH càng lớn sai số tiêu
chuẩn càng bé); 2) chất lượng các CH của ĐTN (nói
chung các CH càng có độ phân biệt cao và khả năng
đoán mò thấp sẽ tạo sai số tiêu chuẩn bé); 3) độ khó CH
gần với giá trị năng lực được đo (tức là ĐTN không quá
khó và không quá dễ). Việc tăng số CH trong ĐTN hoặc
chọn các CH với giá trị hàm thông tin lớn sẽ làm tăng
giá trị thông tin của ĐTN và giảm sai số tiêu chuẩn; tuy
nhiên khi hàm thông tin vượt quá một giá trị nào đó thì
sai số tiêu chuẩn sẽ trở nên ổn định và sự tăng tiếp tục
của hàm thông tin sẽ có tác động không lớn lên giá trị
của sai số tiêu chuẩn.
Áp dụng hàm thông tin vào việc khảo sát và thiết kế ĐTN
Như đã biết, các mô hình IRT xét mối tương tác của một
TS có năng lực θ với một CH có các tham số a, b, c. Tuy
nhiên, trong hoạt động đánh giá thực tế, cái mà chúng
ta có thể thu được trực tiếp từ số liệu kiểm tra là việc
trả lời các CH của các TS qua bài trắc nghiệm. Từ các số
liệu thu được trực tiếp đó làm sao xác định các tham số
a, b, c' của các CH và năng lực θ của các TS? Đó là bài
toán cơ bản và quan trọng nhất của IRT, vì năng lực của
TS là cái cuối cùng mà ta muốn biết, còn các tham số
của CH là cần thiết để chúng ta có thể sử dụng các CH
nhằm thiết kế các công cụ thích hợp để đo lường chính
xác năng lực của TS. Bài toán quan trọng đó được giải
quyết bằng các thuật toán ước lượng năng lực TS và
tham số CH, việc tìm ra các thuật toán tốt nhất để giải
bài toán này là một trong các mục tiêu quan trọng của
IRT, và có thể nói quyết định thành công của việc áp
dụng IRT vào thực tế hoạt động đánh giá. Tuy nhiên,
muốn trình bày đầy đủ thuật toán đã nêu cần nhiều
kiến thức về toán học và thống kê học. Bạn đọc muốn
đi sâu vào những vấn đề đó có thể tìm hiểu sơ bộ ở [5] ,
và đầy đủ hơn trong [6] . Ở đây chỉ xin giới thiệu khái
quát bản chất của các thuật toán ước lượng nói trên, và
để dễ hiểu, phải hy sinh một phần tính chính xác khi
trình bày.
Giả sử chúng ta cần dùng một ĐTN gồm 100 CH để
xác định năng lực tiếng Anh của 200 TS. Khi cho 200
TS làm ĐTN, chúng ta sẽ thu được các bài làm chứa
ứng đáp của mọi TS đối với mọi CH, kết quả đó được
gọi là số liệu thực nghiệm. Giả sử là các ứng đáp của TS
tuân theo quy luật được xác định bởi mô hình Rasch,
biểu hiện ở công thức (5). Các giá trị năng lực θν của
mỗi TS và độ khó b của mỗi CH trong (5) là cái mà
chúng ta muốn ước lượng. Đầu tiên chúng ta chưa biết
chúng, nhưng bằng đoán nhận, hãy gán cho chúng các
giá trị nào đó gọi là giá trị tiên nghiệm (a priori), và
tính 100x200=20.000 giá trị xác suất P theo công thức
(5); tập hợp các xác suất đó được gọi là số liệu lý thuyết.
Bằng các cách thức trong giải tích phiếm hàm, người
2.6. SO BẰNG VÀ KẾT NỐI CÁC ĐỀ TRẮC NGHIỆM
9
ta tìm một con số đại diện cho số liệu thực nghiệm và
một con số tương ứng đại diện cho số liệu lý thuyết để
so sánh các con số này với nhau. Với các giá trị được
gán đầu tiên cho số liệu lý thuyết, độ chênh giữa (con
số đại diện cho) số liệu lý thuyết và (con số đại diện
cho) số liệu thực nghiệm thường rất lớn. uật toán
sẽ chỉ ra phương hướng điều chỉnh các giá trị θν và b
trong (5) sao cho sau lần tính lặp độ chênh giữa số liệu
lý thuyết và số liệu thực nghiệm bé hơn. Nếu độ chênh
còn lớn, người ta lại điều chỉnh các giá trị θν và b trong
(5) và tính lặp lần thứ hai. Có thể quy ước xem số liệu
lý thuyết là trùng hợp với số liệu thực nghiệm khi độ
chênh giữa chúng bé hơn một giới hạn nào đó, chẳng
hạn bé hơn một phần nghìn giá trị của chúng. Khi độ
chênh chưa bé hơn giới hạn đó, người ta tiếp tục quá
trình tính lặp. Việc tính lặp có thể thực hiện lần thứ ba,
thứ tư,… cho đến lần thứ hàng trăm, hàng nghìn sao
cho đạt được giới hạn quy định. Khi đạt được giới hạn
quy định về độ chênh, chương trình sẽ ra lệnh dừng
tính, và các giá trị θν và b thu được ở lần tính lặp cuối
cùng chính là giá trị lý thuyết trùng hợp với giá trị thực
nghiệm theo mô hình Rasch.
việc thiết kế các ĐTN theo ý muốn, đặc biệt là thiết kế
các ĐTN tương đương. Với IRT, có thể chứng minh từ
lý thuyết và kiểm chứng qua thực nghiệm rằng nhược
điểm đó được khắc phục, có nghĩa là không có sự phụ
thuộc của tham số CH vào mẫu TS được dùng để xác
định chúng (sample–free) cũng như không có sự phụ
thuộc của năng lực xác định được của TS vào ĐTN cụ
thể được dùng để đo năng lực ấy (item–free). Tổng quát
hơn, người ta có thể nói rằng các tham số của CH và giá
trị năng lực của TS là các bất biến (invariant).
Với các mô hình IRT 2 và 3 tham số, quá trình ước lượng
cũng được thực hiện theo nguyên tắc tương tự như đã
mô tả trên đây, tuy số tham số tính toán nhiều hơn. Một
trong các thuật toán thường được sử dụng cho quy trình
ước lượng nói trên là thuật toán biến cố hợp lý cực đại
và nhiều thuật toán khác được trình bày trong [6] .
Cũng cần lưu ý rằng tính bất biến nói trên chỉ được
tuân thủ khi có sự phù hợp giữa số liệu thực nghiệm và
mô hình; muốn vậy, các điều kiện được đề ra khi xây
dựng mô hình cũng phải được thoả mãn (chẳng hạn,
tính đơn chiều của năng lực, tính độc lập địa phương
của các CH). Khi sự phù hợp giữa số liệu thực nghiệm
và mô hình bị vi phạm thì tính bất biến đó cũng không
còn. Hơn nữa, tính bất biến là đặc điểm của mô hình
trên cả tổng thể được nghiên cứu (bởi vì nó có liên quan
đến phép hồi quy thống kê trên toàn bộ tổng thể chứ
không phải trên từng mẫu thử (có thể tìm hiểu ở [5] ),
do đó trên các mẫu thử khác nhau, tính bất biến có thể
bị vi phạm ở các mức độ khác nhau.
Cần hiểu rõ tính bất biến ở đây là bất biến đối với các
phép đo để xác định các tham số đó. Có thể nêu một ví
dụ đơn giản để minh họa: dùng một thước đo dài 1 mét
(1 mét là thuộc tính của thước đo) để đo một cái bàn dài
6 mét (6 mét là thuộc tính của cái bàn). uộc tính của
thước đo và thuộc tính của cái bàn là các bất biến của
chúng, không được thay đổi khi thực hiện phép đo, tức
là khi áp cái thước vào để đo cái bàn.
Hiển nhiên là năng lực của TS sẽ thay đổi qua một quá
trình học tập; hiện tượng đó không liên quan đến tính
bất biến được khẳng định trên đây.
Vì việc thực hiện bài toán ước lượng giá trị năng lực của
TS và các tham số của CH khá phức tạp nên đa số bạn
đọc thông thường không cần phải bận tâm nhiều đến
các thuật toán cụ thể, bởi vì ngày nay đã có nhiều phần
mềm chuyên dụng được các chuyên gia tâm trắc học
xây dựng phục vụ các bài toán ước lượng đó. Chẳng hạn
sau đây là một số phần mềm được sử dụng tương đối
phổ biến hiện nay: CONQUEST của Úc và WINSTEPS
của Mỹ cho mô hình Rasch (một tham số) nhị phân và
2.6 So bằng và kết nối các đề trắc
đa phân, BILOG–MG3 của Mỹ cho mô hình 1, 2, 3 tham
số nhị phân, PARSCALS, MULTILOG cho mô hình đa
nghiệm
phân,… Ở Việt Nam phần mềm đầu tiên phục vụ cho
bài toán này là VITESTA, cho các mô hình 1, 2, 3 tham eo IRT, về nguyên tắc, các tham số CH xác định được
số nhị phân và đa phân, được công ty EDTECH–VN không phụ thuộc vào mẫu TS, và năng lực TS đo được
xây dựng từ năm 2007 [7] .
không phụ thuộc vào ĐTN cụ thể. Tuy nhiên đó là các
Tính bất biến của năng lực thí sinh và tham số câu hỏi tính chất lý tưởng, chỉ tuyệt đối đúng trong cả tổng thể
khảo sát khi số liệu thực tế hoàn toàn phù hợp với mô
Một trong các nhược điểm của CTT là có sự phụ thuộc
hình giả định, và các giả thiết khác về mô hình được
của tham số CH vào mẫu TS được sử dụng để xác định
tuân thủ. Khi các điều kiện đã nói phần nào bị vi phạm
chúng, cũng như sự phụ thuộc của năng lực đo được của
thì sẽ không có sự bất biến tuyệt đối của năng lực TS
TS vào các CH, tức là vào ĐTN cụ thể được sử dụng để
và tham số CH nữa, do đó người ta phải có thao tác
đo lường năng lực ấy. Một minh họa rõ ràng nhất là nếu
đưa các giá trị tham số CH cũng như năng lực TS về
đưa cùng một CH trắc nghiệm cho hai nhóm TS làm,
một thang đo chung để có thể so sánh chúng với nhau.
một nhóm có nhiều TS giỏi hơn nhóm kia, thì độ khó
ao tác đưa tham số của các CH cũng như năng lực
của CH xác định theo Lý thuyết trắc nghiệm cổ điển
TS về thang đo chung gọi là so bằng (equating).
(tỷ số TS làm đúng trên tổng số TS tham gia) tất yếu
sẽ khác nhau, tức là giá trị độ khó phụ thuộc vào mẫu So bằng là yêu cầu rất quan trọng trong thực tiễn đánh
TS được dựa vào để xác định độ khó. Nhược điểm này giá. Chẳng hạn, có hai mẫu TS khác nhau được đánh
của Lý thuyết Trắc nghiệm cổ điển gây khó khăn cho giá bằng hai ĐTN khác nhau, năng lực của mỗi mẫu
TS được một ĐTN đo lường và thu được một bộ điểm.
10
CHƯƠNG 2. LÝ THUYẾT ỨNG ĐÁP CÂU HỎI
Muốn hai bộ điểm của hai mẫu TS thu được từ hai ĐTN
có thể so sánh được với nhau, người ta phải chuyển
chúng về một thang đo chung, tức là so bằng. Sau khi
so bằng, năng lực của mọi TS của hai mẫu được đặt trên
cùng một thang đo nên có thể so sánh được với nhau,
và từ các giá trị năng lực đó có thể chuyển thành điểm
trên một thang điểm chung mong muốn nào đó.
mô hình đa phân sớm nhất có lẽ là Samejima F., người
đã đưa vào mô hình ứng đáp đa cấp (graded response
model) [9] . Sau đó có hàng loạt mô hình được đề xuất,
nhưng tổng quát nhất có lẽ là mô hình định giá từng
phần (Partial Credit Model – PCM) của Master, G.N.[10] .
Các mô hình này cho phép thu được nhiều thông tin
hơn về năng lực của TS từ một CH so với mô hình nhị
Cũng vậy, nếu hai ĐTN được triển khai trên hai nhóm phân.
TS khác nhau để định cỡ (calibration) các CH trắc Vì PCM được ứng dụng nhiều nhất trong thực tế, và
nghiệm, tức xác định các tham số của chúng, từ mỗi một số mô hình khác chỉ là trường hợp riêng của PCM
ĐTN sẽ thu được một bộ tham số của các CH. Muốn nên ở đây chỉ giới thiệu sơ lược về PCM. Để thiết lập
tham số của các CH của ĐTN thu được từ hai mẫu TS PCM, Masters xét một CH có nhiều hạng (category)
có thể so sánh được với nhau người ta cũng phải dùng điểm để TS đạt được, và giả định rằng xác suất để TS
thủ thuật so bằng nhằm chuyển các tham số của CH về đạt hai hạng điểm kế tiếp nhau tuân theo quy luật của
một thang đo chung. Sau khi so bằng, mỗi giá trị tham mô hình Rasch nhị phân. Dựa vào giả định nêu trên,
số của CH từ hai ĐTN được đặt trên cùng một thang khi CH thứ i là đa phân với các hạng điểm 0, 1, 2,…, m
đo nên có thể so sánh với nhau, chẳng hạn để lựa chọn thì Masters thu được xác suất để TS n đạt điểm x của
CH có tham số thích hợp nhằm thiết kế một ĐTN theo CH thứ i sẽ là:
yêu cầu xác định.
∑
exp x (θn −δik )
∑h
P r(Xni = x) = ∑mi expk=0
Có nhiều thủ tục so bằng khác nhau. Bạn đọc muốn tìm
(θ −δ )
hiểu có thể tham khảo trong
[8]
[5]
, hoặc tỉ mỉ hơn trong
h=0
k=0
n
ik
(12)
trong
để tiện trong việc ký hiệu, chúng ta quy định
∑đó,
0
exp k=0 (θn − δik ) = 1 .
2.7 Về trắc nghiệm đa phân và trắc
nghiệm đa chiều
Khi đặt vấn đề xây dựng mô hình toán phản ánh sự ứng
đáp CH ở phần đầu bài viết, để đơn giản cho mô hình,
chúng ta đã giả thiết là việc ứng đáp kiểu nhị phân (0,1).
Hơn nữa, đối với TS ta cũng giả thiết là năng lực có tính
đơn chiều (hoặc chỉ xét một chiều năng lực của TS).
Tuy nhiên, trong thực tế đánh giá người ta còn sử dụng
loại CH với kiểu ứng đáp đa phân (polytomous) hoặc
đánh giá một năng lực đa chiều (multidimentionality)
hay đánh giá đồng thời nhiều chiều của năng lực. Dưới
đây sẽ giới thiệu khái quát về trắc nghiệm đa phân và
đa chiều.
Lưu ý rằng trong biểu thức (13), δ đóng vai trò như
b trong mô hình Rasch nhị phân. Với quan niệm của
Masters, chúng ta có thể mô tả diễn biến của xác suất
trả lời đúng CH (đạt hạng điểm 1) theo năng lực θ của
mô hình Rasch nhị phân ứng bởi biểu thức (4) bằng
đường cong P(X = 1) và xác suất trả lời sai CH (đạt hạng
điểm 0) bằng đường cong P(X = 0) trên cùng một đồ thị
ở Hình 6.
Về mô hình trắc nghiệm đa phân
Ngoài các loại trắc nghiệm nhiều lựa chọn mà trả lời
theo hai trạng thái nhị phân (0,1), người ta còn sử dụng
các loại bảng hỏi (questionaire) với kiểu trả lời theo
thang Likert: ‘’rất không đồng ý, không đồng ý, đồng
ý, rất đồng ý’’ trong các điều tra giáo dục hoặc xã hội
học nói chung, hoặc các câu hỏi tự luận bao gồm nhiều Hình 6. Các đường cong ĐTCH trắc nghiệm nhị phân ứng với
xác suất trả lời sai P(X = 0) và xác suất trả lời đúng P(X = 1)
phần, mỗi phần được định các mức điểm khác nhau,
có thể gọi chung là các câu hỏi với ứng đáp đa phân
Tương tự, trong trường hợp CH có 3 hạng điểm 0, 1 và
(polytomous).
2 các đường biểu diễn ứng với 3 hạng điểm có dạng như
Trong thập niên 1970, các nghiên cứu về trắc nghiệm Hình 7.
chủ yếu tập trung vào việc triển khai ứng dụng mô
hình nhị phân, các số liệu liên quan đến tính đa phân Về mô hình trắc nghiệm đa chiều
được nhị phân hoá để phân tích. Tuy nhiên, một số nhà Khi xây dựng các mô hình ứng đáp CH, để đơn giản
nghiên cứu cũng đã lưu ý đến mô hình trắc nghiệm hoá, chúng ta đã đặt điều kiện về tính đơn chiều
đa phân từ cuối thập niên 1960 và tập trung mạnh mẽ (unidimentionality) của CH, tức là CH chỉ đo một thứ
từ đầu thập niên 1980. Nhà nghiên cứu quan tâm đến năng lực tiềm ẩn, hoặc ta chỉ đo một chiều (dimension)
2.8. TÀI LIỆU DẪN
11
từng CH, trong đó 4 CH 1, 5, 8, 9 chỉ đo một chiều năng
lực, còn các CH khác đo đồng thời 2 hoặc 3 chiều năng
lực.
Hình 7. Các đường cong ĐTCH của một CH PCM có 3 hạng
điểm (với δ1 <δ2 .
của năng lực tiềm ẩn đa chiều (multidimentionality).
Tuy nhiên, trong thực tế, để thực hiện một ứng đáp
nào đó, TS thường phải có các chiều khác nhau của
năng lực, chẳng hạn để giải một bài toán, TS cần cả kĩ
năng đọc hiểu đề toán và các kĩ năng toán học. Do đó
cần xây dựng mô hình trắc nghiệm với đa chiều năng
lực. Ở đây chúng ta chỉ làm quen với một cách mở rộng
trắc nghiệm đơn chiều thành đa chiều đơn giản nhất.
Reskase, M.D. đã dựa vào trắc nghiệm nhị phân (0,1)
đơn chiều mở rộng ra mô hình trắc nghiệm nhị phân
đa chiều.[11] Với trường hợp TS có hai chiều năng lực
θ1 và θ2 , có thể vẽ được mặt cong đặc trưng CH như ở
Hình 8.
Hình 9. Hai kiểu biểu hiện tính đa chiều của các câu hỏi trắc
nghiệm.
Bạn đọc có thể tìm hiểu sâu hơn về Lý thuyết Ứng đáp
Câu hỏi trong các sách giáo khoa [1] , [5] ,[12] và sách tổng
hợp [13] .
2.8 Tài liệu dẫn
[1] Lord, F.M (1980). Applications of Item Response eory
to Practical Testing Problems. Lawrence Erbaum
Associates, Publishers.
[2] Rasch, G. (1960) Probablistic Models for Some
Intelligence and Aainment Tests. Copenhagen,
Denmark: Danish Institute for Educational Research,
[3] Wright, B. D.; Mark H.S.(1979) Best Test Design,
University of Chicago, MESA PRESS.
Hình 8. Mặt ĐTCH với 2 chiều năng lực θ1 ,θ2
Về cách biểu hiện tính đa chiều, nhiều nhà nghiên cứu
đưa vào khái niệm tính đa chiều giữa các CH và trong
từng CH. Một bài trắc nghiệm là đa chiều giữa các CH
nếu nó bao gồm nhiều bài trắc nghiệm con đơn chiều.
Một bài trắc nghiệm là đa chiều trong từng CH nếu
mỗi CH đòi hỏi nhiều chiều năng lực tiềm ẩn để trả lời.
Hai kiểu đa chiều của bài trắc nghiệm được minh hoạ
ở Hình 9. Ở nửa bên trái Hình 9 mô tả bài trắc nghiệm
3 chiều gồm 9 CH theo kiểu đa chiều giữa các CH, mỗi
chiều được đánh giá riêng biệt bởi 3 CH. Nửa bên phải
của Hình 9 mô tả bài trắc nghiệm 3 chiều gồm 9 CH
với cả hai kiểu đa chiều giữa các CH và đa chiều trong
[4] Birnbaum, A.(1968) Some latent trade models and their
use in inferring an examinee’s ability. Trong F.M. Lord
and M.R. Novick (Eds), Statistical eories of Mental
Test Scores. Reading, M.A: Addison-Wesley.
[5] Lâm ang iệp (2011). Đo lường trong Giáo dục – Lý
thuyết và ứng dụng. Nhà xuất bản Đại học ốc gia Hà
Nội
[6] Barker, F.B.(1992)Item Response eory - Parameter
Estimation Techniques, Marcel Dekker, Inc.
[7] Lâm ang iệp, Lâm Ngọc Minh, Lê Mạnh Tấn, Vũ
Đình Bổng (2007) - Phần mềm VITESTA và việc phân
tích số liệu trắc nghiệm. Tạp chí Giáo dục, số 176,
11/2007.
[8] Kolen M.J., Brennan R.L.(2004) Test Equating, Scaling,
and Linking - Methods and Practices, 2nd edision,
Springer.
12
[9] Samejima (1969) F. Estimation of latent ability using
response paern of graded scores. Psychometric
Monograph, No 17.
[10] Master, G.N. (1982) A Rasch model for partial credit
scoring. Psychometrica 47.
[11] Van der Linden, W. J.; Hambleton, R.K. (editors)(1997).
Handbook of Modern Item Response eory. Springer.
[12] Lâm ang iệp (1012) Đo lường và đánh giá hoạt
động học tập trong nhà trường. Nhà xuất bản Đại học
Sư phạm Hà Nội.
[13] Brenman R.L. (2006) Educational Measurement, 4th
edition, ACE/PRAEGER series on Higher Education.
2.9 Liên kết ngoài
• Lý thuyết Trắc nghiệm cổ điển
• Lý thuyết Ứng đáp Câu hỏi
CHƯƠNG 2. LÝ THUYẾT ỨNG ĐÁP CÂU HỎI
2.10. NGUỒN, NGƯỜI ĐÓNG GÓP, VÀ GIẤY PHÉP CHO VĂN BẢN VÀ HÌNH ẢNH
13
2.10 Nguồn, người đóng góp, và giấy phép cho văn bản và hình ảnh
2.10.1
Văn bản
• Số e Nguồn: Người đóng góp: aisk, Newone, JAnDbot, Nguyễn Kim
Vỹ, VolkovBot, TXiKiBoT, Hoang448, Synthebot, SieBot, TVT-bot, Loveless, OKBot, PixelBot, Alexbot, Meotrangden, ieungu1nam,
Luckas-bot, Future ahead, Ptbotgourou, Hihahihuc, Darkicebot, Xqbot, TobeBot, Tnt1984, TuHan-Bot, Wild Lion, DSisyphBot, FoxBot,
Mjbmrbot, Cheers!-bot, MerlIwBot, Greenknight dv, GrouchoBot, AlphamaBot, Rotlink, Hugopako, Addbot, OctraBot, Tuanminh01,
TuanminhBot, Én bạc AWB và 9 người vô danh
• Lý thuyết Ứng đáp Câu hỏi Nguồn: />C%C3%A2u_h%E1%BB%8Fi?oldid=26629938 Người đóng góp: Lâm ang iện An, AlphamaBot, AlphamaBot2 và TuanminhBot
2.10.2
Hình ảnh
• Tập_tin:IRT1.jpg Nguồn: Giấy phép: CC BY-SA 3.0 Người đóng góp:
Tác phẩm do chính người tải lên tạo ra Nghệ sĩ đầu tiên: Lâm ang iện An
• Tập_tin:IRT2.jpg Nguồn: Giấy phép: CC BY-SA 3.0 Người đóng góp:
Tác phẩm do chính người tải lên tạo ra Nghệ sĩ đầu tiên: Lâm ang iện An
• Tập_tin:IRT3.jpg Nguồn: Giấy phép: CC BY-SA 3.0 Người đóng góp:
Tác phẩm do chính người tải lên tạo ra Nghệ sĩ đầu tiên: Lâm ang iện An
• Tập_tin:IRT4.jpg Nguồn: Giấy phép: CC BY-SA 3.0 Người đóng góp:
Tác phẩm do chính người tải lên tạo ra Nghệ sĩ đầu tiên: Lâm ang iện An
• Tập_tin:IRT5.jpg Nguồn: Giấy phép: CC BY-SA 3.0 Người đóng góp:
Tác phẩm do chính người tải lên tạo ra Nghệ sĩ đầu tiên: Lâm ang iện An
• Tập_tin:IRT6.jpg Nguồn: Giấy phép: CC BY-SA 3.0 Người đóng góp:
Tác phẩm do chính người tải lên tạo ra Nghệ sĩ đầu tiên: Lâm ang iện An
• Tập_tin:IRT7.jpg Nguồn: Giấy phép: CC-BY-SA 3.0 Người đóng góp:
Tôi sáng tạo ra toàn bộ tác phẩm
Nghệ sĩ đầu tiên:
Lâm ang iện An (thảo luận)
• Tập_tin:IRT8.jpg Nguồn: Giấy phép: CC BY-SA 3.0 Người đóng góp:
Tác phẩm do chính người tải lên tạo ra Nghệ sĩ đầu tiên: Lâm ang iện An
• Tập_tin:IRT9.png Nguồn: Giấy phép: CC BY-SA 3.0 Người đóng góp:
Tác phẩm do chính người tải lên tạo ra Nghệ sĩ đầu tiên: Lâm ang iện An
2.10.3
Giấy phép nội dung
• Creative Commons Aribution-Share Alike 3.0