Tải bản đầy đủ (.pdf) (20 trang)

Bài giảng Khai phá dữ liệu: Chương 2 - TS. Võ Thị Ngọc Châu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (274.14 KB, 20 trang )

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

1


<b>Ch</b>



<b>Ch</b>

<b>ươ</b>

<b>ươ</b>

<b>ng</b>

<b>ng</b>

<b>2: </b>

<b>2: </b>

<b>Các</b>

<b>Các</b>

<b>v</b>

<b>vấn</b>

<b>ấ</b>

<b>n</b>

<b>đ</b>

<b>đ</b>

<b>ề</b>

<b>ề</b>

<b>ti</b>

<b>tiền</b>

<b>ề</b>

<b>n</b>

<b>x</b>

<b>xử</b>

<b>ử</b>

<b>lý</b>

<b>lý</b>

<b>d</b>

<b>dữ</b>

<b>ữ</b>

<b>li</b>

<b>liệu</b>

<b>ệ</b>

<b>u</b>



Học kỳ 1 – 2011-2012


Cao



Cao

H

H

c

c

Ngành

Ngành

Khoa

Khoa

H

H

c

c

Máy

Máy

Tính

Tính


Giáo



Giáo

trình

trình

đ

đ

i

i

n

n

t

t



Biên



Biên

so

so

n

n

b

b

i

i

: TS.

: TS.

Th

Th

Ng

Ng

c

c

Châu

Châu


(



</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>

[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.


‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data


Mining”, MIT Press, 2001.


‡ [3] David L. Olson, Dursun Delen, “Advanced Data Mining


Techniques”, Springer-Verlag, 2008.



‡ [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,


Methodology, Techniques, and Applications”, Springer-Verlag, 2006.


‡ [5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and


Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009.


‡ [6] Daniel T. Larose, “Data mining methods and models”, John Wiley


& Sons, Inc, 2006.


‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine


learning tools and techniques”, Second Edition, Elsevier Inc, 2005.


‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,


“Successes and new directions in data mining”, IGI Global, 2008.


‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge


</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

3

‡

Ch

ươ

ng 1: T

ng quan v

khai phá d

li

u



‡

<b>Ch</b>

<b>ươ</b>

<b>ng 2: Các v</b>

<b>ấ</b>

<b>n</b>

<b>đề</b>

<b>ti</b>

<b>ề</b>

<b>n x</b>

<b>ử</b>

<b>lý d</b>

<b>ữ</b>

<b>li</b>

<b>ệ</b>

<b>u</b>


‡

Ch

ươ

ng 3: H

i qui d

li

u



‡

Ch

ươ

ng 4: Phân lo

i d

li

u



‡

Ch

ươ

ng 5: Gom c

m d

li

u


‡

Ch

ươ

ng 6: Lu

t k

ế

t h

p



‡

Ch

ươ

ng 7: Khai phá d

li

u v

à công ngh

c

ơ

s



d

li

u



‡

Ch

ươ

ng 8:

ng d

ng

khai phá d

li

u



‡

Ch

ươ

ng 9: Các

đề

tài nghiên c

u trong khai phá



d

li

u



</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

‡

2.1. T

ng quan v

giai

đ

o

n ti

n x

lý d

li

u



‡

2.2. Tóm t

t mô t

v

d

li

u



‡

2.3. Làm s

ch d

li

u



‡

2.4. Tích h

p d

li

u


‡

2.5. Bi

ế

n

đổ

i d

li

u



‡

2.6. Thu gi

m d

li

u



‡

2.7. R

i r

c hóa d

li

u



‡

2.8. T

o cây phân c

p ý ni

m



</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

5



‡

Giai

đ

o

n ti

n x

lý d

li

u



„

Quá trình x

lý d

li

u thơ/g

c (raw/original



data) nh

m c

i thi

n ch

t l

ượ

ng d

li

u



(quality of the data) và do

đ

ó, c

i thi

n ch

t


l

ượ

ng c

a k

ế

t qu

khai phá.



‡

D

li

u thơ/g

c



ƒ

Có c

u trúc, bán c

u trúc, phi c

u trúc



ƒ

Đượ

c

đư

a vào t

các ngu

n d

li

u trong các h

th

ng


x

lý t

p tin (file processing systems) và/hay các h



th

ng c

ơ

s

d

li

u (database systems)



‡

Ch

t l

ượ

ng d

li

u (data quality): t

ính chính xác,



</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

‡

Ch

t l

ượ

ng d

li

u (data quality)



„

tính chính xác (accuracy): giá tr

ị đượ

c ghi nh

n



đ

úng v

i giá tr

th

c.



„

tính hi

n hành (currency/timeliness): giá tr



đượ

c ghi nh

n không b

l

i th

i.




„

tính tồn v

n (completeness): t

t c

các giá tr



dành cho m

t bi

ế

n/thu

c tính

đề

u

đượ

c ghi



nh

n.



„

tính nh

t quán (consistency): t

t c

giá tr

d



li

u

đề

u

đượ

c bi

u di

n nh

ư

nhau trong t

t c



</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

7


<b>Data </b>



<b>Data </b>



<b>Cleaning</b>



<b>Cleaning</b>



<b>Data Integration</b>



<b>Data Integration</b>


<b>Data Sources</b>



<b>Data Warehouse</b>



<b>Task-relevant Data</b>



<b>Selection/Transformation</b>




<b>Selection/Transformation</b>



<b>Data Mining</b>



<b>Pattern Evaluation/</b>


<b>Presentation</b>



</div>
<span class='text_page_counter'>(8)</span><div class='page_container' data-page=8></div>
<span class='text_page_counter'>(9)</span><div class='page_container' data-page=9>

9
‡

Các k

thu

t ti

n x

lý d

li

u



„

Làm s

ch d

li

u (data cleaning/cleansing): lo

i b

nhi

u



(remove noise), hi

u ch

nh nh

ng ph

n d

li

u không


nh

t quán (correct data inconsistencies)



„

Tích h

p d

li

u (data integration): tr

n d

li

u (merge



data) t

nhi

u ngu

n khác nhau vào m

t kho d

li

u



„

Bi

ế

n

đổ

i d

li

u (data transformation): chu

n hoá d

li

u



(data normalization)



„

Thu gi

m d

li

u (data reduction): thu gi

m kích th

ướ

c d



</div>
<span class='text_page_counter'>(10)</span><div class='page_container' data-page=10>

‡

Các k

thu

t ti

n x

lý d

li

u



„

Làm s

ch d

li

u (data cleaning/cleansing)




‡ Tóm tắt hố dữ liệu: nhận diện đặc điểm chung của dữ liệu


và sự hiện diện của nhiễu hoặc các phần tử kì dị (outliers)


‡ Xử lý dữ liệu bị thiếu (missing data)
‡ Xử lý dữ liệu bị nhiễu (noisy data)


„

Tích h

p d

li

u (data integration)



‡ Tích hợp lược đồ (schema integration) và so trùng đối tượng


(object matching)


‡ Vấn đề dư thừa (redundancy)


‡ Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and


</div>
<span class='text_page_counter'>(11)</span><div class='page_container' data-page=11>

11


‡

Các k

thu

t ti

n x

lý d

li

u



„ Biến đổi dữ liệu (data transformation)


‡ Làm trơn dữ liệu (smoothing)


‡ Kết hợp dữ liệu (aggregation)


‡ Tổng quát hóa dữ liệu (generalization)


‡ Chuẩn hóa dữ liệu (normalization)



‡ Xây dựng thuộc tích (attribute/feature construction)


„ Thu giảm dữ liệu (data reduction)


‡ Kết hợp khối dữ liệu (data cube aggregation)


‡ Chọn tập con các thuộc tính (attribute subset selection)


‡ Thu giảm chiều (dimensionality reduction)


‡ Thu giảm lượng (numerosity reduction)


‡ Tạo phân cấp ý niệm (concept hierarchy generation) và rời rạc hóa


</div>
<span class='text_page_counter'>(12)</span><div class='page_container' data-page=12>

‡

Xác

đị

nh các thu

c tính (properties) tiêu



bi

u c

a d

li

u v

xu h

ướ

ng chính (central


tendency) và s

phân tán (dispersion) c

a


d

li

u



„

Các

độ đ

o v

xu h

ướ

ng chính: mean, median,



mode, midrange



„

Các

độ đ

o v

s

phân tán: quartiles, interquartile



range (IQR), variance



‡

Làm n

i b

t các giá tr

d

li

u nên

đượ

c




xem nh

ư

nhi

u (noise) ho

c ph

n t

biên


(outliers), cung c

p cái nhìn t

ng quan v



</div>
<span class='text_page_counter'>(13)</span><div class='page_container' data-page=13>

13


‡

D

li

u m

u v

ề đơ

n giá c

a các m

t hàng

đ

ã

đượ

c



</div>
<span class='text_page_counter'>(14)</span><div class='page_container' data-page=14>

‡

Các

độ đ

o v

xu h

ướ

ng chính c

a d

li

u



„

Mean



„

Weighted arithmetic mean



„

Median



„

Mode: giá tr

xu

t hi

n th

ườ

ng xuyên nh

t trong



t

p d

li

u



„

Midrange: giá tr

trung bình c

a các giá tr

l

n



 



+
=


+ <i>if</i> <i>N</i> <i>even</i>



<i>x</i>
<i>x</i>
<i>odd</i>
<i>N</i>
<i>if</i>
<i>x</i>
<i>Median</i>
<i>N</i>
<i>N</i>
<i>N</i>
2
/
)
( <sub>/</sub><sub>2</sub> <sub>/</sub><sub>2</sub> <sub>1</sub>


</div>
<span class='text_page_counter'>(15)</span><div class='page_container' data-page=15>

15


‡

Các

độ đ

o v

xu h

ướ

ng chính c

a d

li

u



„

Mean =

Σ

(count[i]*price[i])/

Σ

(count[i])



„

Weighted arithmetic mean



„

Median



„

Mode = price[i] n

ế

u count[i] l

n nh

t



„

Midrange = (

Σ

(count[i]*price[i]) +




Σ

(count[j]*price[j]))/(

Σ

(count[i]) +

Σ

(count[j]))



</div>
<span class='text_page_counter'>(16)</span><div class='page_container' data-page=16>

‡

Các

độ đ

o v

s

phân tán c

a d

li

u



„

Quartiles



‡

The first quartile (Q1): the 25

th

percentile



‡

The second quartile (Q2): the 50

th

percentile (median)


‡

The third quartile (Q3): the 75

th

percentile



„

Interquartile Range (IQR) = Q3 – Q1



‡

Outliers (the most extreme observations): giá tr

n

m



cách trên Q3 hay d

ướ

i Q1 m

t kho

ng 1.5xIQR



</div>
<span class='text_page_counter'>(17)</span><div class='page_container' data-page=17>

17


Q1 Q2 Q3


Tóm tắt mơ tả về sự phân bố dữ liệu gồm năm trị số quan trọng:
median, Q1, Q3, trị lớn nhất, và trị nhỏ nhất (theo thứ tự:


</div>
<span class='text_page_counter'>(18)</span><div class='page_container' data-page=18>

‡

X

lý d

li

u b

thi

ế

u (missing data)



‡

Nh

n di

n ph

n t

biên (outliers) và gi

m



thi

u nhi

u (noisy data)




‡

X

lý d

li

u không nh

t quán (inconsistent



</div>
<span class='text_page_counter'>(19)</span><div class='page_container' data-page=19>

19


‡

X

lý d

li

u b

thi

ế

u (missing data)



„

Đị

nh ngh

ĩ

a c

a d

li

u b

thi

ế

u



‡ Dữ liệu khơng có sẵn khi cần được sử dụng


„

Nguyên nhân gây ra d

li

u b

thi

ế

u



‡ Khách quan (không tồn tại lúc được nhập liệu, sự cố, …)
‡ Chủ quan (tác nhân con người)


„

Gi

i pháp cho d

li

u b

thi

ế

u



‡ Bỏ qua


‡ Xử lý tay (không tự động, bán tự động)


‡ Dùng giá trị thay thế (tự động): hằng số toàn cục, tr

ph

bi

ế

n



nh

t,

trung bình tồn cục, trung bình cục bộ, trị dự đoán, …


‡ Ngăn chặn dữ liệu bị thiếu: thiết kế tốt CSDL và các thủ tục


</div>
<span class='text_page_counter'>(20)</span><div class='page_container' data-page=20>

‡

Nh

n di

n ph

n t

biên (outliers) và gi

m



thi

u nhi

u (noisy data)




„

Đị

nh ngh

ĩ

a



‡

Outliers: nh

ng d

li

u (

đố

i t

ượ

ng) khơng tn theo

đặ

c



tính/hành vi chung c

a t

p d

li

u (

đố

i t

ượ

ng).



‡

Noisy data: outliers b

lo

i b

(rejected/discarded



outliers) nh

ư

là nh

ng tr

ườ

ng h

p ngo

i l

(exceptions).



„

Nguyên nhân



‡

Khách quan (công c

thu th

p d

li

u, l

i trên

đườ

ng



truy

n, gi

i h

n công ngh

, …)



</div>

<!--links-->

×