Tải bản đầy đủ (.docx) (66 trang)

0081 ứng dụng tóm tắt dữ liệu cho bài toán phân lớp và dự báo luận văn tốt nghiệp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 66 trang )

BỘGIÁODỤCVÀĐÀOTẠO
TRƯỜNGĐẠIHỌCQUYNHƠN

TRẦNC Ơ N G S Ự

ỨNGDỤNGTĨMTẮTDỮLIỆUCHO
BÀITỐNPHÂNLỚPVÀDỰBÁO

LUẬNVĂNTHẠCSĨKHOAHỌCMÁYTÍNH

BìnhĐ ị n h - N ă m 2 0 2 1


TRẦNC Ơ N G S Ự

ỨNGDỤNGTĨMTẮTDỮLIỆUCHO
BÀITỐNPHÂNLỚPVÀDỰBÁO

Chunn gành :Khoah ọcmá yt ính
Mãs ố : 6 0 . 4 8 . 0 1 . 0 1

Ngườihướngdẫn:TS.LÊXUÂNVIỆT

BìnhĐ ị n h - N ă m 2 0 2 1


LỜICAM ĐOAN
Tôi là Trần Công Sự, học viên lớp cao học Khoa học máy tính K22.
Tơixincamđoanrằngnhữngnghiênvớiđềtài"Ứngdụngtómtắtdữliệuchobàit o á
n p h â n l ớ p v à d ự b á o " đ ư ợ c t r ì n h b à y t r o n g l u ậ n v ă n n à y l à c ơ n g trìnhn g
h i ê n c ứ u c ủ a r i ê n g t ô i d ư ớ i s ự h ư ớ n g d ẫ n c ủ a t h ầ y g i á o T S . L ê XnV


iệt,khơngsaochéplạicủangườikhác.Tấtcảcácnguồntàiliệuthamkhảo,
cáccơngtrìnhnghiêncứuliênquanđềuđượctríchdẫncụthể.
Tơixinchịuhồntồntráchnhiệmnếu cóbấtkỳpháthiệnnàovềsự saoch
épmàkhơngcótríchdẫntrongtàiliệuthamkhảo.


2

LỜICẢMƠN
Luận văn được hoàn thành dưới sự hướng dẫn khoa học của TS.
LêXuân Việt, Khoa CNTT - Trường Đại học Quy Nhơn. Tác giả xin bày
tỏlòngb i ế t ơ n c h â n t h à n h v à s ự k í n h t r ọ n g s â u s ắ c n h ấ t đ ế n T h ầ y h ư
ớ n g dẫn; Thầy đã tận tình giúp đỡ và truyền đạt cho tác giả những kiến
thứcqbáuvàkinhnghiệmtrongqtrìnhnghiêncứukhoahọc,đểtácgiảcóthể hồn
thành luận văn một cách tốt nhất. Tác giả cũng xin chân thànhcảm ơn quý thầy cô trong khoa
Công nghệ thông tin, phịng Sau đại học,Trường Đại học Quy Nhơn,
cùng
q
thầy

tham
gia
giảng
dạy
cho
lớpCaoh ọ c K h o a h ọ c m á y t í n h k h o á 2 2 đ ã t ạ o đ i ề u k i ệ n c h o t á c g i ả t ro
n g qtrìnhhọctậpvànghiêncứu.Nhânđâytácgiảcũngxincảmơngiađình, bạnbè đã quantâm,
động
viên


giúp
đỡ
tác
giả
trong
q
trìnhhọctậpvàhồnthànhluậnvănnày.
Tác giả hy vọng luận văn sẽ đóng góp một tài liệu tham khảo hữu
íchcho các bạn sinh viên, học viên cao học đang tìm tịi nghiên cứu về
bàitốntómtắtdữliệutrongdựbáo.
Mặc dù đã cố gắng hết sức, song do điều kiện thời gian và kinh
nghiệmthực tế của bản thân cịn ít, cho nên đề tài khơng thể tránh khỏi
thiếu sót.Vì vậy, rất mong nhận được sự đóng góp ý kiến của quý thầy cô
và cácbạn.
Tôixinchânthànhcảmơn!


Mụcl ụ c
Lờicamđoan

i

Lờic ả m ơ n

ii

Danhmụcthuậtngữ,cáctừviếttắt

v


Danhsáchhìnhvẽ
Danhsáchbảng
Mởđầu

vi
vii
1

1 CÁCKIẾNTHỨCCƠSỞ
4
1.1 Khámphátrithứcvàkhaiphádữliệu...........................................4
1.2 Quát r ì n h k h á m p h á t r i t h ứ c ......................................................7
1.3 Cácphươngpháp,kỹthuậtchínhtrongkhaiphádữliệu.............9
1.3.1 Phânlớpvàdựđốn(Classification&Prediction) . 9
1.3.2 MạngBayesian(Bayesian networks)................................10
1.4 Bàitốndựbáo............................................................................11
1.4.1 Kháiniệmvềdựbáo..........................................................11
1.4.2 Đặcđiểmcủadựbáo.........................................................11
1.4.3 Chứcnăngvàvaitrịcủadựbáo........................................12
1.5 Kếtl u ậ n C h ư ơ n g 1 .......................................................................12
2 PHƯƠNG PHÁP DỰ BÁO SỬ DỤNG KỸ THUẬT
PHÂNLỚPD ỮL IỆ U N A IV E B A Y ES

13


2.1
2.2
2.3
2.4


Tổngquanvềphânloạidữliệu......................................................13
PhânloạidữliệuvớimạngBayesian.............................................15
Cácbướcgiảibàitốndựbáo sử dụng kỹ thuật phân
lớpNaiveBayes............................................................................20
Mộtsốvídụminhhọa...................................................................24
2.4.1

Trườngh ợ p m ẫ u d ự đ o á n x u ấ t h i ệ n t r o n g d ữ l i ệ u
huấnluyện.......................................................................24
2.4.2 Trườnghợpmẫudựđốnkhơngxuấthiệntrongdữ
liệuhuấnluyện.................................................................28
2.4.3 SửdụngkỹthuậtlàmmịndữliệuLaplaceSmoothing3 2
2.5 MộtsốưuđiểmcủaphươngphápNaiveBayes...............................36
2.6 Kếtl u ậ n C h ư ơ n g 2 .......................................................................37
3 THỬ NGHIỆMVÀĐÁNHGIÁ
38
3.1 Mơtảbàitốn...........................................................................39
3.1.1 Bàit o á n ..........................................................................39
3.1.2 Làmsạch,tiềnxửlýdữliệu................................................39
3.2 Phântíchbàitốn.....................................................................42
3.2.1 Tómtắt dữ liệu.............................................................42
3.2.2 Phânlớpchodữliệu..........................................................46
3.2.3 Dựđốnkếtquả...............................................................46
3.3 Giaod i ệ n c h í n h c ủ a c h ư ơ n g t r ì n h ...........................................47
3.4 Đánhgiákếtquả..........................................................................47
3.5 Kếtl u ậ n C h ư ơ n g 3 .......................................................................48
KẾTL U Ậ N

51


TÀILIỆUTHAMKHẢO

52


DANHMỤCTHUẬTNGỮ,CÁCTỪVIẾTTẮT

STT TiếngA n h / V i ế t t ắ t TiếngV i ệ t / N g h ĩ a
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

THPT
NB
CSDL

KPDL
NBC
M
TX1
TX2
TX3
GK
CK
Trainingdata
Testdata
Noise
Missingvalue
Frequencytable
Likehood

TRUNGHỌCPHỔTHÔNG
NaiveBayes
Cơsởdữliệu
Khaiphádữliệu
NaiveBayes Classif ier
Điểmm i ệng
Điểmthườngxuyên1
Điểmthườngxuyên2
Điểmthườngxuyên3
Điểmgiữakỳ
Điểmcuốikỳ
Dữliệuđàotạo
Dữliệukiểmtra
Dữliệulỗi
Giátrịthiếu

Bảngtầnsố
Khảnăngxảyra


Danhsáchhìnhvẽ
1.1 Qtrìnhkhámphátrithức..........................................................7
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8

Bướchọc/huấnluyện.................................................................14
Bướcphânloạidữliệu.....................................................................14
Phânloạidữliệudạnghọccógiámsát.........................................15
CSDLkháchhàngAllElectronicsdùngchobướchọc..................16
Vídụvềdữliệuđầuvào....................................................................23
Sốlầnxuấthiệncủatừngtừtrongtừngemail..............................33
LớpSpamtrướcvàsauSmoothing.............................................33
LớpNotSpamtrướcvàsauSmoothing.......................................34

3.1
3.2
3.3
3.4
3.5
3.6

3.7

Dữliệuthơbảngđiểmhọcsinh....................................................39
Dữliệusaukhitổnghợp..............................................................41
Dữliệusaukhiđãlàmsạch..........................................................42
Giaodiệnchínhcủaứngdụng.....................................................47
Giaodiệnnhậpliệuvàkếtquảdựbáo...........................................48
KếtquảTest100bảnghidữliệu......................................................49
KếtquảTest100bảnghidữliệu(tiếptheo).................................50


Danhs á c h b ả n g
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11

Tầnsuấtđặctrưngbuys_computer...........................................18
Tầnsuất đặctrưngage...............................................................18
Tầnsuấtđặctrưngincome.........................................................19
Tầnsuấtđặctrưngstudent........................................................19
Tầnsuấtđặctrưngstudent........................................................19
Kếtquảxéttuyểnvào10..............................................................24

Xácsuấtcácthuộctínhnơiở,điểmvào10,kinhtế,giớitính2 5
Dữliệuviệcđihọcmuộncủahọcsinh.............................................28
Dữliệuviệcđihọcmuộncủahọcsinh.............................................28
TầnsuấtđặctrưngSứckhỏe........................................................29
TầnsuấtđặctrưngThờitiết.......................................................29


1

MỞĐ Ầ U
1. Lý do chọn đề tàiTrong quá trình hoạt động, con người tạo ra
nhiềudữ liệu nghiệp vụ. Các tập dữ liệu được tích lũy có kích thước ngàycàng lớn, và có thể
chứa nhiều thơng tin ẩn dạng những quy luật chưađược khám phá.
Chính vì vậy, một nhu cầu đặt ra là cần tìm cách tríchrúttừtậpdữliệuđócác
luật
về
phân
lớp
dữ
liệu
hay
dự
đốn
nhữngxuhướngdữliệutươnglai.Nhữngquytắcnghiệpvụthơngminhđượctạo ra sẽ
phụcvụđắclựcchocáchoạtđộngthựctiễn,cũngnhưphụcvụ đắc lực cho q trình nghiên
cứu
khoa
học.
Cơng
nghệ

phân
lớp
vàdựđốndữliệurađờiđểđápứngmongmuốnđó[1].
Cơng nghệ phân lớp dữ liệu đã, đang và sẽ phát triển mạnh mẽ
trướcnhững khao khát tri thức của con người. Trong những năm qua,
phânlớpd ữ l i ệ u đ ã t h u h ú t s ự q u a n t â m c á c n h à n g h i ê n c ứ u t r o n g n
h i ề u lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia(expert systems),
thống kê (statistics),...Công nghệ này cũng ứng dụngtrongnhiềulĩnhvựcthựctế
như:
thương
mại,
nhà
băng,
maketing,nghiêncứuthịtrường,bảohiểm,ytế,giáodục...[1].
Có nhiều phương pháp dự báo khác nhau. Hiện nay, việc sử dụng
cácphương pháp học máy ứng dụng cho các bài tốn dự báo trở nên
rấtphổbiến.Trongđó,dựbáosửdụngphânlớpBayesđượcứngdụn
grất rộng rãi, là công cụ dễ cài đặt, học nhanh, kết quả dễ hiểu..Ví
dụ,dựbáogiácảcácloạimặthàng,dự báotỉlệtăngdânsố,...khibiết
cácthơngtintrongqkhứvàmộtsốđiềukiệnchotrước[2].
Luậnvănđãnghiêncứutổngquanvềkỹthuậtphânlớpdữliệutrong


khai phá dữ liệu phục vụ cho việc dự báo tương lai nói chung và
phânlớp dữ liệu dựa trên kỹ thuật phân lớp Naive Bayes nói riêng. Từ
đótập trung áp dụng bài toán phân lớp khai phá dữ liệu số để đưa ra
cácdựđốn,dựbáocógiátrịkhoahọcvàýnghĩathựctiễn.Triểnkhai
càiđặtvàthửnghiệmmơhìnhphânlớpdữliệuNaiveBayestrênthựctếtạiđơnvịnơitácgiảđangcơngtác,tiến
tớiứngdụngvàotrongcáchoạtđộngthựctiễntrongcuộcsốnghàngngày,màtrướctiênlàcáchoạt động
phân tích, nghiên cứu, hoạch định, đánh giá là dựa trên dữliệu trong

quá khứ. Quá trình làm luận văn cũng đã chạy thử nghiệmmơ hình
phân lớp Naive Bayes trên tập dữ liệu điểm thực tế của
họcsinhtạitrường T HPT TrầnCaoVânnơi tácgiảđangcơng tác. Q
uađó tiếp thu được các kỹ thuật triển khai, áp dụng một mơ hình phânlớp dữ liệu vào hoạt
động thực tiễn. Việc thử nghiệm này cũng đã thuđược các kết quả dự
đốn
khả
quan
với
độ
tin
cậy
cao

nhiều
tiềmnăngứngdụngchobàitốndựbáo.
2. Mụctiêucủaluậnvăn
Trongluậnvănnày,chúngtơiđặtrahaimụctiêuchính:
- Nghiêncứucơsởlýthuyếtvềkhámphátrithức,khaiphádữliệu,phươ
ngphápdựbáosửdụngkỹthuậtphânlớpdữliệu.
- Càiđặtthựcnghiệmdựbáokếtquảhọctậpcủahọcsinh.
3. Phươngphápvàđốitượngnghiêncfíu
- Phươngphápnghiêncứutàiliệu;
- Phươngphápphântích,tổnghợp;
- Phươngphápthựcnghiệm.
- Đốitượngnghiêncứucủađềtàilàkỹthuậtphânlớpvàbàitốndựbáokết
quảhọctậpcủahọcsinh.
4. Bốc ụ c c ủ a l u ậ n v ă n
Luậnv ă n n à y g ồ m 3 c h ư ơ n g v ớ i n ộ i d u n g c h í n h n h ư s a u :
Chương1.Cáckiếnthfíccơsở.ChươngnàygiớithiệutổngquanvềKh

ámphátrithứcvàkhaiphádữliệu;cungcấpcáckiếnthứcvề


quá trình khám phá tri thức và các kỹ thuật chính trong khai phá
dữliệu. Sau đó trình bày về kỹ thuật phân lớp Bayesian và bài toán
dựbáo. Để làm tiền đề cho việc triển khai bài toán dự báo sử dụng
kỹthuậtphânlớpdữliệuNBtrongChương2.
Chương2.Phương phápdựbáosửdụngkỹ thuậtphânlớpdữ
liệuNaive Bayes.Phần đầu chương trình bày về phân loại dữ
liệuvàphânloạidữliệuvớimạngBayesian.Phầntrọngtâmcủachươ
nglàxâydựngcácbướcgiảibàitốndựbáosửdụngkỹthuậtphânlớpdữ liệu NB. Tiếp đến là
một
số

dụ
về
tập
dữ
liệu
mẫu
training
bàitốndựbáotheophươngphápđãnêu.
Chương3.Thửnghiệmvàđánhgiá.Trongchươngnàytácgiảsử
dụng bộ dữ liệu là bảng điểm học sinh tồn trường THPT Trần
CaoVân,họckỳ2nămhọc2019-2020đểxâydựngứngdụngvàtừngbướcphân bài
tốn đặt ra. Chương trình được cài đặt bằng ngơn ngữ lậptrình Python trong mơi trường
Jupyter Notebook (anaconda 3). Cuốichương là phần trình bày giao
diện của chương trình và đánh giá kếtquảthựcnghiệm.
Kếtluận.Phầnnàytổngkếtcácđónggópvàkếtquảđạtđượctrong
qt r ì n h n g h i ê n c ứ u v à t h ự c h i ệ n l u ậ n v ă n , c h ỉ r a n h ữ n g h ạ

n c h ế trongviệcsửdụngkếtquảnghiêncứuđềtài,cũngnhưđềxuấtcácphương án giải quyết,
hướng phát triển trong tương lai để hoàn thiệnhơnkếtquảnghiêncứu.


Chương1

CÁCK IẾ NT HỨ C CƠ S Ở
1.1

Khámp h á t r i t h f í c v à k h a i p h á d ữ l i ệ u

"Khám phá tri thức là quá trình tìm ra những tri thức, đó là
nhữngmẫu tìm ẩn, trước đó chưa biết và là thơng tin hữu ích đáng tin
cậy". Cònkhai phá dữ liệu (KPDL) là một bước quan trọng trong q
trình khámphá tri thức, sử dụng các thuật tốn KPDL chun dùng với
một
số
quiđịnhvềhiệuquảtínhtốnchấpnhậnđượcđểchiếtxuấtracácmẫuhoặccácmơhình
cóíchtrongdữliệu.Nóimộtcáchkhác,mụcđíchcủakhámphátrithứcvàKPDLchínhlà
tìmracácmẫuhoặcmơhìnhđangtồntạitrongcáccơsởdữliệu(CSDL)nhưngvẫncịn
bịchekhuấtbởihàngnúidữliệu.
KhámphátrithứctừCSDLlàmộtqtrìnhsửdụngcácphươngphápvàcơn
gcụtinhọc,trongđóconngườilàtrungtâmcủaqtrình.Dođó,conngườicầnp
hảicókiếnthứccơbảnvềlĩnhvựccầnkhámpháđểcóthểchọnđượctậpcondữliệut
ốt,từđópháthiệncácmẫuphùhợpvớimụctiêuđềra.Đóchínhlàtrithức,đư
ợcrútratừCSDL,thườngđểphụcvụchoviệcgiảiquyếtmộtloạtnhiệmvụ
nhấtđịnhtrongmộtlĩnhvựcnhất định.Tuyvậy,qtrìnhkhámphátrithứ
cmangtínhchấthướngnhiệmvụvìkhơngphảilàmọitrithứctìmđượcđề
pdụngvàothựctếđược.Đểcóđượcnhữngthơngtinqbáuchúngtap
hảitìmracácmẫucótrongtậpCSDLtrước.Việcđánhgiácácmẫuđượctìm

thấycũnglàmộtđiềuthúvịvàtấtyếucótínhchấtquyếtđịnhđếnsựsửdụng
haykhơng


sử dụng chúng. Đầu ra của một chương trình là khám phá những mẫu
cóíchđượcgọilàtrithức.Trithứcđượckhámphácócácđặcđiểmchính:
Kiến thức cao cấp: Ngày càng có nhiều câu hỏi mang tính chất
địnhtính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã
có.Quá trình để tìm ra kiến thức như vậy khơng phải từ những
phươngphápthốngkêcổđiểnmàmànóđượcđượcđúckếttừcáckinhnghiệmđã có,
đượcthểhiệntrongdữliệu,nhữngkếtquảđócóthểlĩnhhộiđược.

ˆ

ˆĐộ

chính

xác:



cho

những

mẫu

khai


phá

thật

sự



trong

CSDL

khơngthìviệcđolườngtrịgiácủachúnglàbắtbuộcphảicó.Chúngtasẽchỉsửdụng
nhữngmẫunàocóđộchínhxáccàngcaothìhiệuquảcơngviệcđạtđượccànglớn,nhữngmẫucóđộ
chínhxácchưađượcxácđịnhrõrànghoặckhơngcaothìkhơngnênsửdụngchúng.
hay

hấpdẫn:Khámphátrithứcđượccoilàlýthúvìnócóthểvạchra các xu hướng một
cách
hồn
thiện.
Đó

những
điều
mới
lạ
haynhữngquytrìnhtìmnăng,hữchẩnchứatừtrongdữliệutrướcđó.

ˆTính


Tính hiệu quả: thời gian chạy của thuật tốn khám phá tri thức
trênCSDLlớncóthểdựtínhvàchấpnhậnđược.

ˆ

Dữ liệu là tập hợp những bộ thơng tin chính xác và quá trình khám
phátri thức được xem là sự lọc bỏ các dư thừa, được rút gọn tới mức tối
thiểuchỉ để lại các đặc trưng cơ bản cho dữ liệu. Tri thức được tìm thấy là
cácthơng tin tích hợp, bao gồm các sự kiện và các mối quan hệ trong
chúng.Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện,
hoặc cóthểđượchọc.
Nếu khám phá tri thức là tồn bộ quá trình chiết xuất tri thức từ
cácCSDL thì KPDL là giai đoạn chủ yếu của q trình đó. KPDL là một
quátrình phát hiện các mẫu mới, thường bao gồm việc thử tìm mơ hình
phùhợpvớitậpdữliệuvàtìmkiếmcácmẫutừtậpdữliệutheomơhìnhđó.Sử
dụng các kỹ thuật và các khái niệm của các lĩnh vực đã được
nghiêncứutừtrướcnhư:họcmáy,nhậndạng,thốngkê,hồiquy,xếploại,ph
ân


nhóm, các mơ hình đồ thị, các mạng Bayes,... Hầu hết các CSDL đều
chứarấtnhiềucácmẫumớivàcóích,tuynhiênmẫucógiátrịvớimụctiêuđặtra phải là những mẫu
khơng tầm thường. Để các mẫu trở nên không tầmthường, hệ thống phải
làm nhiều hơn là chỉ mị mẫm thống kê vì kết quảcủa việc tính tốn trực
tiếp qua cơng tác thống kê là đã có đối với ngườidùng. Một hệ thống tìm
kiếm
cần
phải


khả
năng
quyết
định
cần
thựchiệnt í n h t o á n n à o v à k ế t q u ả l à c ó đ á n g q u a n t â m đ ể t ạ o n ê n t r
i t h ứ c trongngữcảnhhiệntạihaykhông.
KPDLđ ư ợ c s ử d ụ n g đ ể t ạ o r a g i ả t h u y ế t . V í d ụ nh ư đ ể x á c đ ị n h c á c y
ếut ố r ủ i r o k h i c h o v a y t í n d ụ n g , k ỹ t h u ậ t K P D L p h ả i p h á t h i ệ n đ ư ợ c n
hữngngườicóthunhậpthấpvànợnhiềulànhữngngườisẽcómứcrủirocao.
Ngồirakỹthuậtcũngcóthểpháthiệnranhữngquyluậtmànhàphântíchcóthể
chưatìmravídụnhưtỷlệgiữathunhậptrênnợvàtuổicũnglàcácyếutốxácđịn
hmứcrủiro.Đểlàmđượcđiềunày,KPDLsửdụngc á c t h ơ n g t i n t r o n gq u á
k h ứ đ ể h ọ c . N ó s ẽ t ì m k i ế m c á c t h ô n g ti n nàytrongcácCSDLvàsửdụngc
húngđểtìmracácmẫuđángquantâm.Nếuxétvềmặtýtưởngvàmụcđíchứn
gdụng,KPDLlàmộtnhucầutấtyếu,mộtsựnhạycảmđáplạisựmongmỏic
ủagiớikinhdoanhthìvềmặtkỹthuật,đóthựcsựlàmộtkhókhănvàlàcảsựt
háchthứcđốivới nhữngnhàkhoahọc.KPDLđượcxâydựngdựatrênviệcsửdụn
gcácgiảithuậtmới,đượcđịnhhướngtheonhưcầukinhdoanhđểcóthểgiảiquyết
tựđộngcácbàitốnkinhdoanhbằngcáckỹthuậtdễdùngvàcóthểhiểuđược.Các
kỹthuậtđangđượcnghiên cứuvàsửdụnghiệnnaybaogồmcâyquyếtđị
nh(CART,CHAID, AID),mạng neuron,phươngphápláng
giềnggầnnhất,cácluậtsuydiễn,...
KPDL khơng thuộc một ngành cơng nghiệp nào. Nó sử dụng các
kỹthuậtt h ơn g m i n h đ ể k h a i p h á c á c t r i t h ứ c t i ề m ẩ n t ro n g dữ l i ệ u . C ó t
h ể coiKPDLngàynayđangởtrạngtháigiốngnhưviệcquảntrịdữliệuvàonhững năm 60, khi mà
các ứng dụng quản trị dữ liệu đều khơng tn theomột ngun tắc chung
nào
cho
đến

khi

hình
dữ
liệu
quan
hệ
ra
đờicùngvớisứcmạnhcủangơnngữvấnđápđãthúcđẩyviệcpháttriểncác


ứng dụng quản trị dữ liệu lên nhanh chóng. Tuy vậy, hiện nay trên thế
giớiđãc ó r ấ t n h i ề u n g à n h c ô n g n g h i ệ p s ử d ụ n g k ỹ t h u ậ t K P D L đ ể p h ụ
c v ụ chohoạtđộngkinhdoanhcủamìnhvàđãbướcđầuthànhcơngnhưngànhtàichính,yhọc,hóahọc,bảohiểm,
sản xuất, giao thơng, hàng khơng,..Các kết quả đạt được cho thấy mặc dù kỹ thuật
KPDL hiện nay vẫn cònnhiều vấn đề nổi cộm, nhưng với những tri thức

chun
gia
con
ngườicũngchưacu ng cấp đư ợ cth ì KPDLcó một tiề mn ăng to lớntro ng
vi ệctạoranhữnglợinhuậnđángkểtrongnềnkinhtế.
1.2

Qtrìnhkhámphátrithfíc

Hình1.1:Qtrìnhkhámphátrithức
Qt r ì n h k h á m p h á t r i t h ứ c t ừ C S D L l à m ộ t q u á t r ì n h c ó s ử d
ụ n g nhiềuphươngphápvàcơngcụtinhọcnhưngvẫnlàmộtqtrìnhmàtrong đó con người là
trung

tâm.
Do
đó,

khơng
phải

một
hệ
thốngphânt í c h t ự đ ộ n g m à l à m ộ t h ệ t h ố n g b a o g ồ m n h i ề u h o ạ t đ ộ n g
t ư ơ n g tácthườngxuyêngiữaconngườivàCSDL,tấtnhiênlàvớisựhỗtrợcủacác công cụ tin học.
Người sử dụng hệ thống ở đây phải là người có kiếnthức cơ bản về lĩnh
vực cần phát hiện tri thức để có thể chọn được
đúngcáctậpcondữliệu,cáclớpmẫuphùhợpvàđạttiêuchuẩnquantâms
o


vớimụcđích.TrithứcmàtanóiởđâylàcáctrithứcrútratừcácCSDL,thườngđểphụcvụ
choviệcgiảiquyếtmộtloạtnhiệmvụnhấtđịnhtrongmộtlĩnhvựcnhấtđịnh.Dođó,qtrìnhphát
hiệntrithứccũngmangtính chất hướng nhiệm vụ, khơng phải là phát hiện mọi
tri thức bất kỳmàlàpháthiệntrithứcnhằmgiảiquyếttốtnhiệmvụđềra.
QtrìnhkhámphátrithứctừCSDLgồmcácbướcsau:
dữliệu(Gathering):Tậphợpdữliệulàbướcđầutiêntrongqtrìnhkhaiphádữli
ệu.ĐâylàbướcđượckhaitháctrongmộtCSDL,mộtkhodữliệuvàthậmchícác
dữliệutừcácnguồnứngdụngWeb.

ˆG o m

Tríchlọcdữliệu(Selection):Ởgiaiđoạnnàylựachọnnhữngdữliệuphùhợpvới
nhiệmvụphântíchtríchrúttừCSDL.


ˆ

sạch,tiềnxửlývàchuẩnbịtrướcdữliệu(Cleansing,PreprocessingandPreparation):G i a i đoạnthứbanàylàgiaiđoạnhaybịsa
olãng,nhưngt h ự c t ế n ó l à m ộ t b ư ớ c r ấ t q u a n t r ọ n g t r o n g q u á t r
ì n h k h a i phádữliệu.Mộtsốlỗithườngmắcphảitrongkhigomdữliệulàtín
hkhơngđủchặtchẻ, logic.Vìvậy,dữliệuthườngchứa cácgiátrịvơn
ghĩavàkhơngcókhảnăngkếtnốidữliệu,vídụ:điểm=−1.Giaiđoạn
nàysẽtiếnhànhxửlý nhữngdạngdữliệukhơngchặt chẽnóitrên.Nh
ữngdữliệudạngnàyđượcxemnhưthơngtindưthừa,khơngcógiátrị.Bởivậy
,đâylàmộtqtrìnhrấtquantrọngvìdữliệunàynếukhơng được“làm
sạch”sẽgây nênnhững kếtquảsailệchnghiêmtrọng.

ˆLàm

Chuyển đổi dữ liệu (Transformation):Tiếp theo là giai đoạn
chuyểnđổi dữ liệu, dữ liệu được chuyển đổi hay được hợp nhất về dạng
thíchhợpchoviệckhaiphá.

ˆ

phádữliệu(DataMining):Đâylàmộttiếntrìnhcốtyếu.Ởgiaiđoạnnàynhiềuth
uậttốnkhácnhauđãđượcsửdụngmộtcáchphùhợpđểtríchxuấtthơngtin
cóíchhoặccámẫuđiểnhìnhtrongdữliệu.

ˆK h a i


Đánh giá kết quả mẫu (Evaluation of Result):Đây là giai đoạn
cuốitrong quá trình khai phá dữ liệu. Ở giai đoạn này, các mẫu dữ

liệuđược chiết xuất, không phải bất cứ mẫu dữ liệu nào cũng đều hữu
ích,đơikhinócịnbịsailệch.Vìvậy,cầnphảiưutiênnhữngtiêuchuẩnđánhgiáđ
ểchiếtxuấtracáctrithứccầnthiết.

ˆ

Từq u á t r ì n h k h á m p h á t r i t h ứ c t r ê n c h ú n g t a t h ấ y đ ư ợ c s ự k h á c b i
ệ t giữakhámphátrithứcvàkhaiphádữliệu.Trongkhikhámphátrithứclà
nóiđếnqtrìnhtổngthểpháthiệntrithứchữchtừdữliệu.CịnKPDL chỉ là một bước trong q
trình khám phá tri thức, các cơng việcchủ yếu là xác định được bài tốn
khai
phá,
tiến
hành
lựa
chọn
phươngphápKPDLphùhợpvớidữliệucóđượcvàtáchracáctrithứccầnthiế
t.
1.3

Cácphươngpháp,kỹthuậtchínhtrongkhaiphádữliệu

CáckỹthuậtKPDLđượccóthểchialàm2nhómchính
thuậtKPDLmơtả:cónhiệmvụmơtảvềcáctínhchấthoặccácđặctínhchung
củadữliệutrongCSDLhiệncó.Nhómkỹthuậtnàygồmcácphươngpháp:p
hânnhóm(Clustering),tổnghợphóa(Summerization),pháthiệnsựbiếnđổivàđộlệch(Changeanddeviationdetection),phântí
chluậtkếthợp(AssociationRules),...

ˆKỹ


ˆKỹ

thuật

KPDL

dự

đốn:



nhiệm

vụ

đưa

ra

các

dự

đốn

dựa

vào


suydiễntrêndữliệuhiệnthời.Nhómkỹthuậtnàygồmcácphươngpháp:phâ
nlớp(Classification),hồiquy(Regression),...
các

1.3.1

Phânlớp và dự đốn( Cla ss i fic a tion & P re d i c t i o n )

Phân lớp là đặt các mẫu vào các lớp được xác định trước. Nhiệm
vụchính là tìm các hàm ánh xạ các mẫu dữ liệu một cách chính xác vào
trongcáclớp.Vídụmộtngânhàngmuốnphânloạicáckháchhànhcủahọvàotrong hai nhóm có nợ
hay khơng nợ, từ đó giúp họ ra quyết định cho vayhay khơng cho vay.
Q
trình
phân
lớp
dữ
liệu
thường
gồm
2
bước:
xâydựngmơhìnhvàsửdụngmơhìnhđểphânlớpdữliệu.


Bước 1:một mơ hình sẽ được xây dựng dựa trên việc phân tích cácmẫu

ˆ

dữ liệu sẵn có. Mỗi mẫu tương ứng với một lớp, được quyết

địnhbởim ộ t t h u ộ c t í n h g ọ i l à t h u ộ c t í n h l ớ p . C á c m ẫ u d ữ l i ệ u n à
y c ò n đượcg ọil àt ập d ữli ệu hu ấnluy ện ( t ra in in g d ata s e t) . C ác nh
ãn lớ p củatậpdữliệuhuấnluyệnđềuphảiđượcxácđịnhtrướckhixâydựngmơhình,vìvậyphươngpháp
nàycịnđượcgọilàhọccógiámsát(supervised learning) khác với phân nhóm dữ
liệu là học khơng cógiámsát(unsupervisedlearning).
Bước 2:sử dụng mơ hình để phân lớp dữ liệu. Trước hết chúng

ˆ

taphải tính độ chính xác của mơ hình. Nếu độ chính xác là chấp
nhậnđược,mơhìnhsẽđượcsửdụngđểdựđốnnhãnlớpchocácmẫudữliệukháctr
ongtươnglai.Trongkỹthuậtphânlớpchúngtacóthểsửdụng các phương pháp như: Cây
quyết định (Decision Tree), K-Lánggiềng gần nhất (k-Nearest Neighbor), Mạng
Nơron
(Neural
networks),Giảithuậtditruyền(Geneticalgorithms),MạngBayesian(Ba
yesiannetworks),Tậpmờvàtậpthô(RoughandFuzzySets).
1.3.2

MạngBa yesi an (B ayes ia nn etwo rks)

Trong mạng Bayesian sử dụng các đồ thị có hướng, khơng có chu
trìnhđể miêu tả sự phân lớp có thể được. Các đồ thị này cũng có thể được
sửdụng để miêu tả các tri thức chuyên gia. Các nút miêu tả các biến
thuộctínhv à c á c t r ạ n g t h á i ( s ự k i ệ n ) v à m ỗ i m ộ t c ạ n h m i ê u t ả k h ả
n ă n g s ự phụt hu ộ c g i ữ a c h ún g . K ế t h ợ p v ới m ỗ i n ú t l à c á c l ớ p c ụ c b ộ c
ó t h ể v à cáccungđượcvẽtừnútnguyênnhânđếnnútbịảnhhưởng.KPDLtrongmạng Bayesian bao
gồm việc sử dụng đầu vào các tri thức chuyên gia vàsau đó sử dụng một
CSDL để cập nhật, lọc và cải tiến tri thức đó trongmạng. Các đồ thị mới
có thể là kết quả từ các cải tiến này và nguyên nhâncủa các mối quan hệ

giữa các nút kết quả có thể được giải thích một cáchdễ dàng. Lợi thế của
mạng Bayesian là thường đưa ra các kết quả dễ hiểu,nhưng bất lợi của nó
là cần thu thập được các tri thức chuyên gia truyềnthống.


1.4
1.4.1

Bàitoándựbáo
Kháiniệmvềdựbáo

Dựbáolàmộtkhoahọcvềnghệthuậttiênđoánnhữngsựviệcsẽxảyrat r
o n g t ư ơ n g l a i , t r ê n c ơ s ở p h â n t í c h k h o a h ọ c v ề c á c d ữ l i ệ u đ ã t h u thậ
pđượ c. Kh it iếnh ành dựb áo cần c ă n cứ v ào v iệct hu th ập ,x ử lý số liệu
trongqkhứvàhiệntạiđểxácđịnhxuhướngvậnđộngcủacáchiệntượngtrongtươnglainhờvàomộtsốmơhình
tốn học (Định lượng). Tuynhiên dự báo cũng có thể là một dự đốn chủ quan hoặc trực giác về
tươnglai( Đ ị n h t í n h ) v à đ ể d ự b á o đ ị n h t í n h đ ư ợ c c h í n h x á c h ơ n , n g ư ờ i t
a c ố loạitrừnhữngtínhchủquancủangườidựbáo.Dùđịnhnghĩacósựkhácbiệt nào đó, nhưng đều
thống
nhất
về

bản

dự
báo
bàn
về
tương
lai,nóivềtươnglai.Dựbáotrướchếtlàmộtthuộctínhkhơngthểthiếucủa

tư duy con người, con người ln nghĩ đến ngày mai, hướng về tương
lai.Trongthờiđạicơngnghệthơngtinvàtồncầuhóa,dựbáolại đóngvaitr
ịquantrọng hơnkhi nhu cầuvề thơng tinthị trường, tình hình pháttriển tại
thời điểm nào đó trong tương lai càng cao. Dự báo được sử dụngtrong
nhiều lĩnh vực khác nhau, mỗi lĩnh vực có một yêu cầu về dự
báoriêngnênphươngphápsửdụngcũngkhácnhau[3].
1.4.2

Đặcđiểmcủadựbáo

Khơng có cách nào để xác định tương lai là gì một cách chắc chắn
(tínhkhơng chính xác của dự báo). Dù phương pháp chúng ta sử dụng là
gì thìlntồntạiyếutốkhơngchắcchắnchođếnkhithựctếdiễnra.
Ln có điểm mù trong các dự báo. Chúng ta không thể dự báo
mộtcách chính xác hồn tồn điều gì sẽ xảy ra trong tương lai. Hay nói
cáchkhác, khơng phải cái gì cũng có thể dự báo được nếu chúng ta thiếu
hiểubiếtvềvấnđềcầndựbáo.
Dự báo cung cấp kết quả đầu vào cho các nhà hoạch định chính
sáchtrongv i ệ c đ ề x u ấ t c á c c h í n h s á c h p h á t t r i ể n k i n h t ế , x ã h ộ i . C h í n
h s á c h mớisẽảnhhưởngđếntươnglai,vìthếcũngsẽảnhhưởngđếnđộch
ính



×