Correspondence Analysis- CA
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP. HCM
KHOA CÔNG NGHỆ THỰC PHẨM
MÔN XỬ LÍ SỐ LIỆU THỰC NGHIỆM
TIỂU LUẬN
PHƯƠNG PHÁP CORRESPONDENCE ANALYSIS
(CA)
GVHD: Trần Thị Hồng Cẩm
Nhóm: Nhóm 6
-
Phạm Văn Đơng
Phạm Văn Ln
Hà Trung Phương
Hoàng Anh Đức
Lớp: 05DHDB2
2022140345
2022140331
2022140357
2022140322
Buổi: Thứ 4 – tiết 9+10 – phòng B107
TP. HCM, tháng 4 năm 2016
Nhó m 9
Page 1
Correspondence Analysis- CA
Danh sách nhóm và bảng phân công nhiệm vụ.
-
-
-
Nhó m 9
Page 2
Correspondence Analysis- CA
MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU CHUNG ................................................................................... 4
CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH ...................................... 6
2.1. Một số khái niệm cơ bản ............................................................................................... 6
2.2. Đặc điểm dữ liệu đầu vào (input) .................................................................................. 6
CHƯƠNG 3: CÁCH BỚ TRÍ DỮ LIỆU TRONG DATA .................................................. 8
3.1. Cách bớ trí dữ liệu đầu vào trong bảng dự phòng ......................................................... 8
3.2. Tiền xử lí dữ liệu đầu vào .............................................................................................. 9
3.2.1. χ2 Tính tốn ................................................................................................................ 9
3.2.2. χ2 Khoảng cách ...................................................................................................... 10
CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ .................................. 12
4.1. Giới thiệu một số phần mền thông dụng ..................................................................... 12
4.2. Phần mềm XLSTAT...................................................................................................... 12
4.2.1. Rows and Column Profile ........................................................................................ 14
4.2.2. Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency
Table
15
4.2.3. Xác định số chiều của không gian dùng để biểu diễn các điểm ............................... 16
4.2.4. Giải thích các chiều (các trục - axis) ........................................................................ 17
4.2.5. Biểu diễn trực quan bằng bản đồ kết quả CA ........................................................... 18
4.2.6. Đánh giá chất lượng của bản đồ ............................................................................... 21
KẾT LUẬN .......................................................................................................................... 22
Nhó m 9
Page 3
Correspondence Analysis- CA
CHƯƠNG 1: GIỚI THIỆU CHUNG
Trong việc nghiên cứu các đặc tính khác nhau của cùng một sản phẩm hay của các
sản phẩm khác nhau để đưa ra kết luận, đánh giá về sự tương quan ảnh hưởng lẫn nhau
giữa các yếu tố trên hay sự ảnh hưởng của chúng đến một giá trị khác… Người phân tích
sản phẩm gặp khá nhiều khó khăn trong việc thu thập và xử lí số liệu ban đầu. Bởi với
từng sản phẩm khác nhau và từng người thử – phép thử khác nhau sẽ cho ra rất nhiều kết
quả đánh giá khác nhau.
Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thực
hiện đánh giá với 50 người thử,cho ra một số kết quả đánh giá như sau:
-
Về màu sắc: vàng cam, cam, vàng.
-
Về mùi hương: hương cam, hương chanh, hương thơm.
-
Về vị ngọt: thấp, trung bình, cao.
-
……
Mỗi tính chất có số người cùng đánh giá khác nhau.
Với một loạt những kết quả đánh giá trên rất khó để đưa ra kết luận chính xác về đặc
tính của sản phẩm. Do đó những dữ liệu ban đầu trên - “bộ dữ liệu thô” cần được xử lí,
tóm tắt, mã hóa, phân tích…thành dạng đơn giản và khoa học hơn, giúp ta dễ dàng tiếp
cận và có thể rút ra kết luận từ các kết quả đã được xử lí và phân tích. Một trong số những
phương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứng
Correspondence Analysis- CA.
Correspondence Analysis- CA là một phân tích thành phần chính tổng quát phù hợp
cho việc phân tích dữ liệu định tính. Ban đầu, CA được tạo ra để phân tích “bảng dự
phòng”, nhưng về sau nó được sử dụng linh hoạt hơn cho nhiều bảng dữ liệu khác.có thể
hiểu đơn giản Correspondence Analysis- CA là phương pháp trực quan để phân tích dữ
liệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table) hay đa chiều, giúp
đơn giản hình thức phân tích trong nghiên cứu.
Nhó m 9
Page 4
Correspondence Analysis- CA
Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai
bộ yếu tố điểm: Một cho các hàng và một cho các cột. Điểm yếu tố phải là điểm đại diện
tốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng. Ngoài ra, yếu tố điểm
có thể được vẽ trên bản đồ, hiển thị các thông tin cần thiết của bảng dữ liệu gốc. Trong
các bản đồ này, tọa độ của các điểm hiển thị các yếu tố tương tự như các hàng và các cột
trong bảng dữ liệu. Điều đặc biệt là các điểm yếu tố của các hàng và các cột có cùng
phương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên cùng một bản
đồ duy nhất.
Như vậy kết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm
biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Sự hiển thị các hàng và cột
của một bảng như là các điểm trong một bản đồ không gian, với một giải thích hình học
cụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm tương đồng
và khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên kết giữa các
hàng và cột. Các kết quả cung cấp thông tin tương tự như trong thực tiễn sản xuất, giúp
chúng ta phát hiện được mối quan hệ tìm ẩn ảnh hưởng lẫn nhau của các yếu tố được
phân tích trong bảng.
Nhó m 9
Page 5
Correspondence Analysis- CA
CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH
2.1. Một số khái niệm cơ bản
Profile: Tần suất tương đối trong bảng dữ liệu thống kê (Row and column profiles).
Dùng để xác định tọa độ của các điểm trong bản đồ
Masses (marginal distribution): Đo lường độ quan trọng của các điểm.
Centroid (tâm): Trọng số trung bình của các vị trí
Projection: Phép chiếu lên không gian con.
Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid.
2.2.
Đặc điểm dữ liệu đầu vào (input)
Như đã giới thiệu ở phần trên, các dữ liệu thu thập ban đầu là “tập các dữ liệu thô”,
chủ yếu là các dữ liệu dạng văn bản (các nhận định và đánh giá ). Do đó, những dữ liệu
này cần được xử lí và tóm tắt lại để thuận tiện và dễ dàng cho quá trình phân tích.
Các dữ liệu dạng văn bản này cần được đồng nhất về mặt ngữ nghĩa. Do các dữ liệu
dạng văn bản thường rất đa dạng và phong phú về mặt ngữ nghĩa (nghĩa của từ).
Như ở ví dụ trên, khi khảo sát đặc tính của một loại nước giải khát…do cách cảm
nhận của những người khác nhau và cách kết luận tự do nên sẽ dẫn đến những đánh giá có
sự khác nhau về mặt từ ngữ nhưng lại cùng diễn tả một tính chất chung như: “vàng”,
“vàng vàng”, “vàng nhạt”,…cùng mang một ý nghĩa khá giống nhau là “vàng”; hay “ngòn
ngọt”, “ngọt dịu”, “hơi ngọt”… cùng diễn đạt tính chất trung bình của vị ngọt…hơn thế
nữa, nhận xét và đánh giá của một người hoàn toàn có thể bị chi phối bởi yếu tố tâm lí,
được xem là các dữ liệu ngẫu nhiên – tự phát. Do đó, việc đồng nhất dữ liệu dạng văn bản
là việc làm cần thiết giúp giảm mức độ phức tạp của dữ liệu đầu vào.
Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây:
-
Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giản
không thể tiết lộ cấu trúc của nó
Nhó m 9
Page 6
Correspondence Analysis- CA
-
Các biến là đồng nhất, do đó nó làm cho cảm giác để tính toán khoảng cách thống
kê giữa các hàng hoặc cột.
-
Ma trận dữ liệu là một ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là không
biết hoặc chưa được hiểu rõ.
Nhó m 9
Page 7
Correspondence Analysis- CA
CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA
3.1.
Cách bố trí dữ liệu đầu vào trong bảng dự phòng
Trong phương pháp phân tích tương ứng này, “bộ dữ liệu thô” ban đầu cần được
tóm tắt và hệ thống hóa vào một bảng dữ liệu thống kê (bảng ngẫu nhiên). Ở bảng thống
kê này chúng ta quan tâm đến hai biến: một là biến tương ứng với lời đánh giá của những
người được khảo sát (biến đặc tính), biến thứ hai tương ứng với sản phẩm được đánh giá.
Các biến dữ liệu trên được bố trí trong bảng như sau:
-
Các hàng i (rows): chứa dữ liệu tương ứng với các sản phẩm được đánh giá.
-
Các cột j (colums): chứa các dữ liệu tương ứng với từ ngữ dùng để mô tả đặc tính
của sản phẩm.
-
Các điểm giao nhau giữa hàng i và cột j: chứa dữ liệu ghi nhận tần số tương quan
giữa i và j, tức số lần đánh giá được lập lại đối với một đặc tính của từng sản phẩm.
Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánh răng
(Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3)
được điều tra ngẫu nhiên từ 120 người như sau:
Region 1
Region 2
Region 3
Total
Brand A
5
5
30
40
Brand B
5
25
5
35
Brand C
15
5
5
25
Brand D
15
5
0
20
Total
40
40
40
120
Nhó m 9
Page 8
Correspondence Analysis- CA
3.2.
Tiền xử lí dữ liệu đầu vào
3.2.1. χ2 Tính tốn
Câu hỏi đặt ra là liệu bạn có chắc chắn các dữ liệu trong bảng dự phòng độc lập với
nhau? Để khắng định điều đó chúng ta cần kiểm tra χ2 , để xem các tab chéo có lệch nhau
đáng kể giữa các hàng và các cột.
Việc kiểm tra được mô tả chính thức bởi các ma trận (i x j), F =[fij] . Chúng ta nhận
được các ma trận tương ứng P từ F bằng cách chia các mục của nó:
P = [ pij] =[
𝑓(𝑖𝑗)
𝑛
], where n = ∑𝐼𝑖=1 ∑𝐽𝐽=1 𝑓(𝑖𝑗)
(1)
Tiếp theo, xác định hàng và cột tổng:
p(i+) = ∑𝐽𝑗=1 pij
(2)
𝐼
p(+j) = ∑ pij
𝑖=1
Các χ2 Thống kê, X2 được tính:
𝑠𝑞𝑢𝑎𝑟𝑒 (X) = n ∑𝐼𝑖=1 ∑𝐽𝐽=1
𝑠𝑞𝑢𝑎𝑟𝑒[𝑝(𝑖𝑗)−µ(ij)]
µ(ij)
(3)
µij là ước tính giá trị giả định đợc lập của đầu ra:
µij = pi+ p+j
(4)
Nếu các hàng và cột thực sự là độc lập (tức là, "theo giả thuyết
null"), X2 nên theo một χ2 phân phối với (I-1)x(J-1) bậc tự do. Chúng ta có thể
Nhó m 9
Page 9
Correspondence Analysis- CA
so sánh giá trị thực tế tính tốn cho các ví dụ tab chéo với phân phới của mình
theo giả thuyết.
3.2.2. χ2 Khoảng cách
Theo mục đích của phân tích tương ứng, sự khác biệt giữa các bản phân phối của các
biến hàng ngang của bảng chéo (bảng dự phòng) được đo bằng χ2 khoảng cách, trong đó
có trọng lượng khoảng cách Euclide giữa các hàng bình, với trọng lượng tỉ lệ nghịch với
căn bậc hai của tổng số cột. Trong các biểu tượng, các χ2 khoảng cách giữa các hàng i và
hàng k được cho bởi biểu thức:
(5)
χ2 khoảng cách giữa các mẫu văn bản sử dụng ma trận tương ứng và hiển thị chúng
trong một bảng nhỏ gọn hợp lý (sau khi nhân rộng lên 100 và làm trịn sớ).
Từ phương trình (5) kể từ khi tởng hàng cho các trọng tâm là 1 (theo định nghĩa của P ),
các χ2
khoảng cách hàng i với trọng tâm là:
(7)
Bây giờ với µij như được định nghĩa trong (4):
(8)
Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng xác
định quán tính của một hàng như sản phẩm của tổng hàng (được gọi là khối lượng của
hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz2. So sánh biểu
Nhó m 9
Page 10
Correspondence Analysis- CA
thức diz2 trong (5) với định nghĩa của χ2 . Thống kê trong (3), nó sau đó tổng quán tính
của tất cả các hàng trong một ma trận ngẫu nhiên bằng các χ2 . Thống kê chia n , Một số
lượng được gọi là mean-square contingency Pearson, ký hiệu ɸ2 :
(9)
Tổng quán tính của một bảng được sử dụng để đánh giá chất lượng của đại diện đồ
họa của nó trong phân tích tương ứng. Để tham khảo trong tương lai, chúng ta có thể tính
toán ɸ2 cho dữ liệu của chúng ta.
Nhó m 9
Page 11
Correspondence Analysis- CA
CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ
4.1.
Giới thiệu một số phần mền thông dụng
Trong phương pháp phân tích tương ứng CA có khá nhiều phần mềm hỗ trợ nhằm
giảm bớt các công đoạn tính toán và giúp hiện thị kết quả thuận tiện hơn cho người phân
tích. Sau đây là một số phần mềm hỗ trợ phân tích:
-
Phần mềm SPSS (viết tắt của Statistical Package for the Social Sciences) là
một chương trình máy tính phục vụ công tác thống kê. Phần mềm SPSS hỗ trợ xử
lý và phân tích dữ liệu sơ cấp - là các thông tin được thu thập trực tiếp từ đối tượng
nghiên cứu, thường được sử dụng rộng rãi trong các nghiên cứu điều tra xã hội
học và kinh tế lượng.
-
Phần mền R: là mợt ngơn ngữ lập trình và mơi trường phần mềm dành cho tính
toán và đồ họa thống kê. Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ
nghĩa khới từ vựng lấy cảm hứng từ Scheme. R do Ross Ihaka và Robert
Gentleman tạo ra tại Đại học Auckland, New Zealand.
-
Phần mềm XLSTAT: là phần mềm ứng dụng dùng trong Excel, giúp hỗ trợ tính
toán và đồ họa thống kê như CA, PCAvà MCA,…
4.2.
Phần mềm XLSTAT
Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánh
răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và
Region 3) được điều tra ngẫu nhiên từ 120 người như sau:
Nhó m 9
Page 12
Correspondence Analysis- CA
Region 1
Region 2
Region 3
Total
Brand A
5
5
30
40
Brand B
5
25
5
35
Brand C
15
5
5
25
Brand D
15
5
0
20
Total
40
40
40
120
Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis
Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA.
Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu ích
ẩn chứa trong dữ liệu.
Khai phá tri thức từ kết quả CA
Sau đây giải thích từng bước các kết quả sinh ra bởi CA nhằm giúp các bạn có thể
phát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu.
Nhó m 9
Page 13
Correspondence Analysis- CA
4.2.1. Rows and Column Profile
Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng
(row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ. Profile được tính là
tần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trong
Contingency table. Profile của các dòng và cột được dùng để xác định tọa độ của các
điểm trong bản đồ. Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ được đặt
gần nhau trong bản đồ. Sau đây là Profile của các dòng và các cột được CA sinh ra từ
bảng dự phòng (Contingency Table).
Row Profile
Region 1
Region 2
Region 3
Sum
Brand A
12.5%
12.5%
75.0%
100%
Brand B
14.3%
71.4%
14.3%
100%
Brand C
60.0%
20.0%
20.0%
100%
Brand D
75.0%
25.0%
0.0%
100%
Mean
40.4%
33.2%
27.3%
100%
Region 1 Region 2 Region 3
Mean
Colum Profile
Brand A
12.5%
12.5%
75.0%
33.3%
Brand B
12.5%
62.5%
12.5%
29.2%
Brand C
37.5%
12.5%
12.5%
20.8%
Brand D
37.5%
12.5%
0.0%
16.7%
Nhó m 9
Page 14
Correspondence Analysis- CA
Sum
100%
100%
100%
100%
4.2.2. Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong
Contingency Table
Bước đầu tiên trong phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa các
dòng và các cột trong bảng dữ liệu ban đầu.
CA tự động kiểm tra mối qua hệ này. Với dữ liệu trong ví dụ trên, kết quả kiểm định
giả thuyết được CA sinh ra như sau:
Test of independence between the rows and the
columns:
Chi-square (Observed value)
79.607
Chi-square (Critical value)
12.592
DF
6
p-value
< 0.0001
alpha
0.05
Test interpretation:
H0: The rows and the columns of the table are independent.
Ha: There is a link between the rows and the columns of the
table.
As the computed p-value is lower than the significance level α=0.05,
one should reject the null hypothesis H0,
and accept the alternative hypothesis H1.
The risk to reject the null hypothesis H0 while it is true is lower than
0.01%.
Giả thuyết H0 (Null hypothesis): Các dòng và các cột trong bảng dự phòng là độc
lập nhau. (Nói cách khác là không có sự phụ thuộc giữa các dòng và cột trong bảng).
Nhó m 9
Page 15
Correspondence Analysis- CA
Giả thuyết H1 (giả thuyết đối): Có mối liên hệ giữa dòng và cột trong bản.
Kết quả kiểm định cho thấy P-value <0.0001 nhỏ hơn mức ý nghĩa α= 0.05 nên ta bác
bỏ H0 và chấp nhận H1. Sai lầm mắc phải khi bác bỏ H0 trong khi H0 đúng nhỏ hơn 0.1%.
Như vậy qua kiểm định giả thuyết ta kết luận rằng giữa các dòng và các cột trong
Contingency Table có mối quan hệ với nhau.
4.2.3. Xác định số chiều của không gian dùng để biểu diễn các điểm
Thực chất của phần này là thực hiện các phép chiếu (projection) lên các trục và phép
quay (rotation) các trục để tìm ra không gian tốt nhất để biểu diễn các điểm dữ liệu.
Với kết quả sinh ra từ CA, việc xác này được thực hiện bằng việc kiểm tra giá
trị vecto riêng (eigenvalue) và phần trăm của quán tính (inertia).
Trong ví dụ này, các giá trị eigenvalue và phần trăm của inertia được sinh ra như
bảng sau:
Eigenvalues and percentages of
inertia:
F1
F2
Eigenvalue
0.410
0.253
Inertia (%)
61.843
38.157
Cumulative %
61.843
100.000
Trong ví dụ này, 2 chiều (F1 và F2) đã giải thích 100% của inertia. Vì vậy sử dụng
khơng gian 2 chiều đủ giải thích tồn bợ inertia
Nhó m 9
Page 16
Correspondence Analysis- CA
Scree plot
0.45
100
0.4
80
0.3
60
0.25
0.2
40
Inertia (%)
Eigenvalue
0.35
0.15
0.1
20
0.05
0
0
F1
F2
axis
4.2.4. Giải thích các chiều (các trục - axis)
Phần này phân tích sự đóng góp của các dòng và cột và việc xác định các chiều của
không gian biểu diễn.
Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng). Kết quả
sinh ra bởi CA như sau:
Contributions (rows):
Weight (relative)
F1
F2
Brand A
0.333 0.626 0.015
Brand B
0.292 0.072 0.636
Brand C
0.208 0.058 0.169
Brand D
0.167 0.244 0.181
Nhó m 9
Page 17
Correspondence Analysis- CA
Trong ví dụ này có 4 nhãn hiệu kem đánh răng, vì vậy bất cứ nhãn hiệu nào đóng
góp từ 25% (=100/4) được coi là đóng góp có ý nghĩa trong việc xác định các chiều để
biểu diễn các điểm. Ta thấy rằng Brand A đóng góp 62.6% trong việc xác định trục thứ
nhất (F1) và Brand B đóng góp 63.6% để xác định trục thứ 2 (F2). Vì vậy có thể nói rằng
trục F1 được xác định chủ yếu dựa vào Brand A và trục F2 được xác định chủ yếu do
Brand B
Đóng góp của các cột (trong trường hợp này là 3 khu vực). Kết quả như sau
Contributions (columns):
Weight (relative)
F1
F2
Region 1
0.333
0.240
0.427
Region 2
0.333
0.103
0.563
Region 3
0.333
0.657
0.009
Tương tự, ta thấy trục F1 được xác định bởi Region 3 và trục F2 được xác định bởi
Region 2 (Bởi vì các cột này đóng góp > 100/3 =33.3%)
Chú ý rằng, Theo đóng góp của các dòng (Brands) thì Brand A xác định F1 và theo
đóng góp của cột (các Regions) thì F1 được xác định bởi Region 3, vì vậy rõ ràng rằng
Brand A kết hợp mạnh mẽ với Region 3. Hay nói cách khác nhãn hiệu kem đánh răng
Brand A được sử dụng nhiều nhất ở Region 3 (xem dữ hiệu trong Contingency Table và
bản đồ phần sau)
4.2.5. Biểu diễn trực quan bằng bản đồ kết quả CA
Ví trí của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng Brand
A,B,C,D).
Nhó m 9
Page 18
Correspondence Analysis- CA
Row Profile
Region 1
Region 2
Region 3
Sum
Brand A
12.5%
12.5%
75.0%
100%
Brand B
14.3%
71.4%
14.3%
100%
Brand C
60.0%
20.0%
20.0%
100%
Brand D
75.0%
25.0%
0.0%
100%
Mean
40.4%
33.2%
27.3%
100%
Những nhãn hiệu có profile càng giớng nhau thì được đặt càng gần nhau và các nhãn
hiệu có profile càng khác nhau thì được đặt càng xa nhau trong đồ thị
Symmetric row plot
(axes F1 and F2: 100.00 %)
1
Brand D
F2 (38.16 %)
0.5
Brand C
Brand A
0
-0.5
Brand B
-1
-2
-1.5
-1
-0.5
0
0.5
1
1.5
F1 (61.84 %)
Rows
Nhó m 9
Page 19
Correspondence Analysis- CA
Trong ví dụ này ta thấy Brand C và D được đặt gần nhau vì profile của chúng gần
giống nhau (60%, 75%) và Brand A được đặt khá xa Brand C và D vì Profile của Brand A
(12.5%) khác xa so với Profile của Brand C và. Trục F1 được xác định bởi Brand A nên
vị trí của Brand A rất gần trục F1 trên đồ thị.
Thêm vào đó, nếu profile của một brand càng khác biệt so với tâm (centroid – trung
bình của các profile) thì nó sẻ nằm càng xa gốc tọa độ (origin).
Tương tự, ví trí của các cột (trong trường hợp này là các Regions) được biểu diễn
như sau
Symmetric column plot
(axes F1 and F2: 100.00 %)
1
Region 1
F2 (38.16 %)
0.5
Region 3
0
-0.5
Region 2
-1
-2
-1.5
-1
-0.5
0
0.5
1
1.5
F1 (61.84 %)
Rows
Phát hiện các kết hợp giữa các hàng và cột (trong ví dụ này là giữa các nhãn hiệu kem
đánh răng và các khu vực).
Nhắc lại rằng, kết quả của CA là bản đồ các điểm (Map of Points). Trong đó các
điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Vị trí của các điểm
cho biết sự tương tự (similarities) giữa các dòng, sự tương tự giữa các cột và sự kết hợp
(association) giữa dòng và cột trong bảng.
Nhó m 9
Page 20
Correspondence Analysis- CA
Bản đồ sau đây cho ta biết sự tương tự giữa các Brands với nhau cũng như sự tương
tự giữa các Regions với nhau và sự kết hợp giữa các Brands và các Regions.
Asymmetric row plot
(axes F1 and F2: 100.00 %)
2
Region 1
F2 (38.16 %)
1
Brand
D C
Brand
3
BrandRegion
A
0
Brand B
-1
Region 2
-2
-4
-3
-2
-1
0
1
2
3
F1 (61.84 %)
Rows
Columns
Trong ví dụ này, bản đồ mà CA sinh ra cho thấy rằng Brand A và Region 3 được đặt
rất gần nhau trong bản đồ và gần trục F1, điều đó cho biết rằng có một sự kết hợp mạnh
mẽ giữa Brand A với Region 3. Nói cách khác rằng Region 3 sử dụng chủ yếu kem đánh
răng Brand A. (Điều này rõ ràng vì trong Contingency table 75% người sử dụng kem
đánh răng Brand A thuộc Region 3)
Tương tự, Brand B được đặt gần Region 2 cũng như Brand C và D được đặt gần
Region 1 nói rằng Brand B được tiêu thụ chủ yếu ở Region 2 cũng như Brand C và D
được tiêu thụ chủ yếu ở Region 1
4.2.6. Đánh giá chất lượng của bản đồ
Để đánh giá chất lượng của việc biểu diễn trực quan bằng bản đồ các điểm, người ta
dựa vào phần trăm inertia mà các trục giải thích được. Tiêu chí để đánh giá là: Tổng tích
Nhó m 9
Page 21
Correspondence Analysis- CA
lũy của 2 (hay n chiều đầu tiên) giải thích được phần trăm của inertia càng cao thì chất
lượng biểu diễn càng cao.
Scree plot
0.45
100
0.4
80
0.3
60
0.25
0.2
40
Inertia (%)
Eigenvalue
0.35
0.15
0.1
20
0.05
0
0
F1
F2
axis
Trong ví dụ này, 2 trục giải thích 100% inertia (trục thứ nhất giải thích 61.8% và
trục thứ 2 giải thích 38.2% của inertia). Xem hình trên.
KẾT LUẬN
Phân tích tương ứng được áp dụng rất rộng rãi trong rất nhiều lĩnh vực như phân tích
dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,…. CA cho phép phát hiện các tri
thức tiềm ẩn trong khối lượng dữ liệu lớn một cách dễ dàng thơng qua phương pháp trực
quan hóa (sử dụng bản đồ các điểm). Một điều quan trọng nữa là các tri thức phát hiện
được rất dễ hiểu và dễ sử dụng. Có rất nhiều cơng cụ cho phép triển khai CA như SPSS,
XLMINER, … nhưng XLSTAT triển khai CA trực tiếp từ các Spreadsheet của Excel và
hỗ trợ cho việc biểu diễn trực quan kết quả phân tích CA bằng bản đồ rất mạnh giúp dễ
dàng phát hiện các tri thức hữu ích từ dữ liệu
Nhó m 9
Page 22