--
TRƯỜNG ĐẠI HỌC QUẢNG NAM
KHOA CÔNG NGHỆ THÔNG TIN
----------
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
NGHIÊN CỨU PHÂN CỤM DỮ LIỆU
VỚI MƠ HÌNH SOM VÀ ỨNG DỤNG
TRONG TƯ VẤN TUYỂN SINH ĐẠI HỌC
Sinh viên thực hiện
NGÔ TRUNG HIỆU
MSSV: 2112011006
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
KHÓA HỌC: 2012 – 2016
Giảng viên hướng dẫn
ThS. ĐỖ QUANG KHÔI
Quảng Nam, tháng 04 năm 2016
--
LỜI CẢM ƠN
Trước hết em xin gởi lời cảm ơn sâu sắc đến ThS. Đỗ Quang Khôi –
Giám đốc Trung tâm học liệu và công nghệ thông tin, giảng viên Trường Đại
học Quảng Nam, người đã tận tình hướng dẫn, giúp đỡ, định hướng và đóng
góp ý kiến cho em trong suốt thời gian làm bài để em có thể hồn thành bài
khóa luận tốt nghiệp này.
Em xin chân thành cảm ơn tất cả các thầy, cô trường Đại học Quảng
Nam. Đặc biệt là các thầy, cô trong Khoa Cơng nghệ thơng tin của trường đã
tận tình dạy dỗ, truyền đạt kiến thức cho em trong suốt quá trình học tập,
nghiên cứu tại trường và tạo điều kiện thuận lợi cho em trong thời gian cuối
khóa để hồn thành chương trình tốt nghiệp.
Em cũng gởi lời cảm ơn đến Trung tâm học liệu và công nghệ thông
tin trường Đại học Quảng Nam đã tạo điều kiện giúp đỡ cho em trong quá
trình thực tập tốt nghiệp và những kinh nghiệm trong thực tế.
Đồng thời, em cũng gởi lời cảm ơn đến gia đình, bạn bè đã động viên,
giúp đỡ em lúc khó khăn trong học tập và trong cuộc sống.
--
MỤC LỤC
DANH MỤC TỪ VIẾT TẮT......................................................................IV
DANH MỤC HÌNH VẼ............................................................................... V
DANH MỤC BẢNG ................................................................................... VI
MỞ ĐẦU....................................................................................................... 1
1. Lý do chọn đề tài ....................................................................................... 1
2. Mục đích nghiên cứu................................................................................. 2
3. Đối tượng và phạm vi nghiên cứu............................................................. 2
4. Phương pháp nghiên cứu........................................................................... 2
5. Lịch sử nghiên cứu .................................................................................... 2
6. Đóng góp của đề tài................................................................................... 3
7. Cấu trúc khóa luận .................................................................................... 3
NỘI DUNG NGHIÊN CỨU ......................................................................... 4
CHƯƠNG 1: TỔNG QUAN VỀ MẠNG NƠRON...................................... 4
1.1 mạng nơron sinh học ............................................................................... 4
1.1.1. Cấu trúc của mạng nơron sinh học...................................................... 4
1.1.2. Hoạt động của nơron sinh học ............................................................ 4
1.2. Mạng nơron nhân tạo ............................................................................. 5
1.2.1. Cấu trúc và mơ hình của một nơron nhân tạo ..................................... 5
1.2.2. Mơ hình của mạng nơron nhân tạo ..................................................... 9
1.3. Mạng nơron trong khai phá dữ liệu...................................................... 11
1.4. Các phương pháp học sử dụng mạng nơron nhân tạo.......................... 14
1.4.1. Quy tắc học mạng nơron nhân tạo .................................................... 14
1.4.2. Học có giám sát ................................................................................. 14
1.4.3. Học khơng giám sát........................................................................... 15
1.4.4. Học tăng cường ................................................................................. 16
1.5. Tổng kết chương 1 ............................................................................... 16
CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VỚI MƠ HÌNH SOM.................... 17
- i -
--
2.1. Phân cụm dữ liệu.................................................................................. 17
2.1.1. Khái niệm .......................................................................................... 17
2.1.2. Phân cụm và các thành phần trong phân cụm dữ liệu....................... 18
2.1.3. Một số kỹ thuật phân cụm dữ liệu..................................................... 19
2.1.3.1. Phân cụm phân hoạch (partitionnal clustering) ............................. 19
2.1.3.2. Phân cụm phân cấp (hierarchical clustering) ................................. 21
2.1.3.3. Phân cụm dựa trên mật độ (density - based clustering) ................. 23
2.1.3.4. Phân cụm dựa trên lưới (grid - based clustering)........................... 23
2.1.3.5. Phân cụm dựa trên mơ hình (model - based clustering) ................ 24
2.1.3.6. Phân cụm dữ liệu mờ (fuzzy clustering) ........................................ 25
2.1.4. Ứng dụng của phân cụm dữ liệu ....................................................... 26
2.2. Mạng nơron kohonen (som) ................................................................. 27
2.2.1. Giới thiệu về mạng kohonen (som)................................................... 27
2.2.2. Cấu trúc của som ............................................................................... 28
2.2.3. Khởi tạo som ..................................................................................... 29
2.2.4. Huấn luyện som................................................................................. 29
2.3. Sử dụng som trong phân cụm dữ liệu .................................................. 30
2.3.1. Som với bài toán phân cụm............................................................... 32
2.3.2. Som phân cụm với bản đồ một chiều 1............................................. 37
2.3.3. Som phân cụm với bản đồ hai chiều ................................................. 37
2.3.3.1. Phân cụm trong không gian bản đồ................................................ 37
2.3.3.2. Phân cụm trong không gian trọng số ............................................. 38
2.4. Một vài ứng dụng của som................................................................... 38
2.5. Kết luận chương 2 ................................................................................ 39
CHƯƠNG 3: ỨNG DỤNG MƠ HÌNH SOM TRONG CƠNG TÁC TƯ
VẤN TUYỂN SINH ĐẠI HỌC.................................................................. 40
3.1. Giới thiệu chương trình ........................................................................ 40
3.2. Giới thiệu công cụ som toolbox ........................................................... 40
- ii -
--
3.3. Chương trình thử nghiệm ..................................................................... 41
3.3.1. Cấu trúc chương trình ....................................................................... 41
3.3.2. Xây dựng tập dữ liệu ......................................................................... 41
3.3.3. Xử lý dữ liệu trước huấn luyện ......................................................... 44
3.3.4. Khởi tạo som và huấn luyện.............................................................. 44
3.3.5. Mô phỏng (trực quan hóa)................................................................. 47
3.3.6. Kết quả chạy chương trình ................................................................ 51
3.4. Phân tích kết quả .................................................................................. 54
KẾT LUẬN ................................................................................................. 60
TÀI LIỆU THAM KHẢO........................................................................... 61
- iii -
--
DANH MỤC TỪ VIẾT TẮT
Tên viết tắt Tến đầy đủ
CSDL Cơ sở dữ liệu
PCDL Phân cụm dữ liệu
BMU Best Matching Unit
SOM Self-Organizing Map
KPDL Khai phá dữ liệu
- iv -
--
DANH MỤC HÌNH VẼ
Hình 1.1. Mơ hình nơron sinh học ............................................................... 4
Hình 1.2. Mơ hình một nơron nhân tạo ........................................................ 6
Hình 1.3. Đồ thị các dạng hàm truyền.......................................................... 9
Hình 1.4. Mạng nơron ba lớp ..................................................................... 10
Hình 1.5. Học có giám sát .......................................................................... 15
Hình 1.6. Học khơng giám sát .................................................................... 16
Hình 2.1. Mơ hình phân cụm dữ liệu ......................................................... 17
Hình 2.2. Ví dụ về phân cụm phân hoạch với k=3 (a) và k=4 (b) ............. 20
Hình 2.3. Một số kỹ thuật phân cụm phân cấp........................................... 22
Hình 2.4. Mơ hình cấu trúc dữ liệu lưới ..................................................... 24
Hình 2.5. Cấu trúc của mạng som .............................................................. 28
Hình 2.6. Cập nhật bmu và lân cận của nó với mẫu đầu vào ..................... 30
Hình 2.7. Vectơ chiến thắng liên tục đối với som có 30x40 nơron cho dữ
liệu hỗn hợp gauxơ ...................................................................................... 35
Hình 2.8. U-matrix của som trong hình 2.11 trên ...................................... 37
Hình 3.1. Trực quan mạng sử dụng u-matrix ............................................. 53
Hình 3.2. Kết quả phân cụm sử dụng phương pháp trực quan các thành
phần bản đồ ................................................................................................. 54
- v -
--
DANH MỤC BẢNG
Bảng 3.1. Thông tin về một số trường đại học ở miền trung việt nam ...... 43
Bảng 3.2. Kết quả các cụm sau khi huấn luyện som .................................. 54
- vi -
MỞ ĐẦU
1. Lý do chọn đề tài
Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không
ngừng của ngành công nghệ thơng tin nói chung và trong các ngành cơng
nghệ phần cứng, phần mềm, truyền thông và hệ thống các dữ liệu phục vụ
trong các lĩnh vực kinh tế-xã hội nói riêng thì việc thu thập thơng tin cũng
như nhu cầu lưu trữ thông tin càng ngày càng lớn. Bên cạnh đó việc tin học
hố một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng
như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu
lưu trữ khổng lồ. Hàng triệu CSDL đã được sử dụng trong các hoạt động sản
xuất, kinh doanh, quản lí,... trong đó có nhiều CSDL cực lớn cỡ Gigabyte,
thậm chí là Terabyte. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần
có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng
lồ kia thành các tri thức có ích. Từ đó, các kĩ thuật KPDL đã trở thành một
lĩnh vực thời sự của nền Công nghệ thông tin thế giới hiện nay. Một vấn đề
được đặt ra là phải làm sao trích chọn được những thơng tin có ý nghĩa từ
tập dữ liệu lớn để từ đó có thể giải quyết được các yêu cầu của thực tế như
trợ giúp ra quyết định, dự đoán,... và KPDL (Data mining) đã ra đời nhằm
giải quyết các yêu cầu đó.
Mặc khác, hiện nay công tác tuyển sinh đại học, cao đẳng là một trong
những vấn đề hàng đầu của các cơ sở giáo dục đại học trên cả nước. Công
tác tư vấn tuyển sinh cũng đã thực hiện với nhiều hình thức đa dạng, phong
phú để giúp thí sinh định hướng được ngành học phù hợp với bản thân. Tuy
nhiên, trên thực tế thí sinh vẫn cịn mơ hồ, chưa nắm rõ được các thông tin
- 1 -
--
tuyển sinh của các trường. Điều này làm ảnh hưởng không nhỏ đến việc định
hướng nghề nghiệp của thí sinh.
Chính vì những lý do trên, em đã chọn đề tài “Nghiên cứu phân
cụm dữ liệu với mơ hình SOM và ứng dụng trong tư vấn tuyển sinh đại
học” để làm khóa luận tốt nghiệp.
2. Mục đích nghiên cứu
Nắm vững những kiến thức cơ bản về mạng nơron nhân tạo, PCDL,
mạng SOM và ứng dụng của SOM trong phân cụm dữ liệu.
Áp dụng vào tư vấn tuyển sinh đại học.
3. Đối tượng và phạm vi nghiên cứu
Các thuật toán phân cụm dữ liệu theo mơ hình SOM.
Cơng cụ SOM Toolbox.
Từ kết quả đạt được, ứng dụng vào trong bài toán tư vấn tuyển sinh.
4. Phương pháp nghiên cứu
Đọc tài liệu, phân tích, tổng hợp.
Thống kê, phân tích dữ liệu.
Thực nghiệm.
5. Lịch sử nghiên cứu
Với vấn đề KPDL, đặc biệt là PCDL cũng đã được nhiều tác giả phân
tích và nghiên cứu theo nhiều hướng khác nhau.
Phần lớn các tác giả đều cho thấy một cách tổng quan về KPDL, các
kiến thức về PCDL và các ứng dụng trong một số lĩnh vực khác nhau. Bên
cạnh đó vẫn cịn một số vấn đề ít được đề cập là việc phân tích, đánh giá tính
tối ưu trong các thuật tốn PCDL, từ đó lựa chọn thuật toán tốt nhất đưa vào
ứng dụng.
- 2 -
--
Hơn nữa, với nguồn thơng tin khổng lồ việc tìm kiếm những dữ liệu cần
thiết nhất đang là nhu cầu lớn cho người sử dụng, vì thế PCDL trong KPDL là
rất cần thiết.
6. Đóng góp của đề tài
Đề tài nghiên cứu nhằm trình bày những kiến thức cơ bản về mạng
noron, tổng quan về KPDL, PCDL và một số thuật toán trong PCDL.
Nội dung đề tài cịn trình bày tổng quan về mạng noron và các hướng
PCDL, ứng dụng được mơ hình SOM vào trong phân cụm dữ liệu.
7. Cấu trúc khóa luận
Lời cảm ơn
Mục lục
Danh mục các ký hiệu, các chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ, đồ thị
MỞ ĐẦU
1. Lý do chọn đề tài
2. Mục đích nghiên cứu
3. Đối tượng và phạm vi nghiên cứu
4. Phương pháp nghiên cứu
5. Lịch sử nghiên cứu
6. Đóng góp của đề tài
NỘI DUNG
Chương 1: Tổng quan về mạng nơron
Chương 2: Phân cụm dữ liệu với mơ hình SOM
Chương 3: Ứng dụng mơ hình SOM trong cơng tác tư vấn tuyển
sinh đại học
KẾT LUẬN
TÀI LIỆU THAM KHẢO
- 3 -
--
NỘI DUNG NGHIÊN CỨU
Chương 1: TỔNG QUAN VỀ MẠNG NƠRON
1.1 Mạng nơron sinh học
1.1.1. Cấu trúc của mạng nơron sinh học
Bộ não con người chứa khoảng 1011 nơron thần kinh. Cấu trúc của một
nơron thần kinh gồm các phần:
- Myelin là lớp cách nhiệt được bao quanh những Axons của dây thần
kinh. Nhiệm vụ của lớp vỏ Myelin này là giúp việc dẫn truyền các tín hiệu
của các dây thần kinh được nhanh chóng và hiệu quả.
- Axon của một nơron là một sợi dây đơn giản mang tín hiệu từ Soma
của một nơron này tới Dendrite hay Soma của một nơron khác.
- Dendrite của một nơron là những nhánh ngắn chạy từ thân nơron ra,
nhiệm vụ của chúng là tiếp nhận những tín hiệu từ những nơron khác đưa
đến qua những Axons.
- Khoảng giữa những sợi Myelin được gọi là nút Ranvier.
- Soma hay thân tế bào nơron gồm một nhân và những cấu trúc khác của
một tế bào.
- Synapse là nơi hai nơron tiếp xúc nhau. Những thơng tin hố điện giữa
các nơron xảy ra tại đây.
Hình 1.1. Mơ hình nơron sinh học
1.1.2. Hoạt động của nơron sinh học
Các tín hiệu đưa ra bởi một khớp nối và được nhận bởi các dây thần
- 4 -
--
kinh vào là kích thích điện tử. Việc truyền tín hiệu như trên liên quan đến
một quá trình hóa học phức tạp mà trong đó các chất truyền đặc trưng được
giải phóng từ phía gửi của nơi tiếp nối. Điều này làm tăng hay giảm điện
thế bên trong thân của nơron nhận. Nơron nhận tín hiệu sẽ kích hoạt nếu
điện thế vượt ngưỡng nào đó. Và một điện thế hoạt động với cường độ cùng
thời gian tồn tại cố định được gửi ra ngồi thơng qua đầu dây thần kinh tới
phần dây thần kinh vào rồi tới chỗ khớp nối để đến nơron khác. Sau khi
kích hoạt, nơron sẽ chờ trong một khoảng thời gian được gọi là chu kỳ cho
đến khi nó có thể được kích hoạt lại.
Có 2 loại khớp nối là khớp nối kích thích và khớp nối ức chế. Khớp
nối kích thích sẽ cho tín hiệu qua nó để tới nơron, cịn khớp nối ức chế có
tác dụng làm cản tín hiệu của nơron.
Cấu trúc mạng nơron luôn thay đổi và phát triển, các thay đổi có khuynh
hướng chủ yếu là làm tăng hay giảm độ mạnh các mối liên kết thơng qua các
khớp nối. Các khớp nối đóng vai trị rất quan trọng trong sự học tập. Khi
chúng ta học tập thì hoạt động của các khớp nối được tăng cường, tạo lên
nhiều liên kết mạnh giữa các nơron. Có thể nói rằng người nào học càng giỏi
thì càng có nhiều khớp nối và các khớp nối ấy càng mạnh mẽ, hay nói cách
khác thì liên kết giữa các nơron càng nhiều càng nhạy bén.
1.2. Mạng nơron nhân tạo
1.2.1. Cấu trúc và mơ hình của một nơron nhân tạo
Mơ hình tốn học của mạng nơron sinh học được đề xuất bởi
McCulloch và Pitts, thường được gọi là nơron M-P, ngồi ra nó cịn được
gọi là phần tử xử lý và được ký hiệu là PE. Mơ hình nơron có m đầu vào x1,
x2, ..., xm, và một đầu ra yi như sau:
- 5 -
--
Hình 1.2. Mơ hình một nơron nhân tạo
Giải thích các thành phần cơ
bản:
- Tập các đầu vào: Là các tín hiệu vào của nơron, các tín hiệu này
thường được đưa vào dưới dạng một vectơ m chiều.
- Tập các liên kết (các trọng số): Mỗi liên kết được thể hiện bởi một
trọng số liên kết. Trọng số liên kết giữa tín hiệu vào thứ j cho nơron i thường
được ký hiệu là wij. Thông thường các trọng số này được khởi tạo ngẫu
nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình
học mạng.
- Bộ tổng (hàm tổng): Thường dùng để tính tổng của tích các đầu vào
với trọng số liên kết của nó.
- Ngưỡng: Ngưỡng này thường được đưa vào như một thành phần của
hàm truyền.
- Hàm truyền: Hàm này dùng để giới hạn phạm vi đầu ra của mỗi nơron.
Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho. Thông thường,
phạm vi đầu ra của mỗi nơron được giới hạn trong đoạn [0, 1] hoặc [-1, 1].
Các hàm truyền rất đa dạng, có thể là các hàm tuyến tính hoặc phi tuyến.
Việc lựa chọn hàm truyền tùy thuộc vào từng bài toán và kinh nghiệm của
người thiết kế mạng.
- 6 -
--
- Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa
một đầu ra
Về mặt tốn học, cấu trúc của một nơron I được mơ ta bằng cặp biểu thức sau:
y = f ( n e t i - θ i ) và n et i = W ijX i
Trong đó:
x1, x2,… , xm là các tín hiệu đầu vào.
Wi1, wi2, … , wim là các trọng số kết nối của nơron thứ I.
neti là hàm tổng, f là hàm truyền.
i Là một ngưỡng.
yi là tín hiệu đầu ra của nơron.
Như vậy, tương tự như nơron sinh học, nơron nhân tạo cũng nhận tín
hiệu đầu vào, xử lý (nhân các tín hiệu này với trọng số liên kết, tính tổng các
tích thu được rồi gởi kết quả đến hàm truyền), và cho một tín hiệu đầu ra
(là kết quả hàm truyền).
Hàm truyền có thể có các dạng sau:
1 khi x 0
Hàm bước y=
0 khi x < 0
1 k hi x 0
Hàm giới hạn chặt (hay còn gọi là hàm bước) y sg n ( x )
1 khi x<0
1 khi x 0
Hàm bậc thang y = sgn(x) = x khi 0 x 1
1 khi x < 0
Hàm ngưỡng đơn cực y 1 ex 1
Hàm ngưỡng hai cực y 1 ex 2 1
- 7 -
--
Đồ thị các dạng hàm truyền có thể được biểu diễn như sau:
y
1 x
0
a. Hàm bước
y
------------------------- x
1
0
-----------------------------------------------------
-1
d. Hàm ngưỡng đơn cực
y
1
x
0
-1
Ab. Hàm giới hạn chặt
- 8 -
--
y
1 ------- x-------
0 1
c. Hàm bậc thang
y
1 x
0
-1
d. Hàm ngưỡng hai cực
Hình 1.3. Đồ thị các dạng hàm truyền
1.2.2. Mơ hình của mạng nơron nhân tạo
Dựa trên những phương pháp xây dựng nơron đã trình bày ở mục trên,
ta có thể hình dung mạng nơron như là một hệ truyền đạt và xử lý tín hiệu.
Đặc tính truyền đạt của nơron phần lớn là đặc tính truyền đạt tĩnh.
Khi liên kết các đầu vào, ra của nhiều nơron với nhau, ta thu được một
mạng nơron, việc ghép nối các nơron trong mạng với nhau có thể là theo
một nguyên tắc bất kỳ. Vì mạng nơron là một hệ truyền đạt và xử lý tín hiệu,
nên có thể phân biệt các loại nơron khác nhau, các nơron có đầu vào nhận
thơng tin từ mơi trường bên ngồi khác với các nơron có đầu vào được nối
với các nơron khác trong mạng, chúng được phân biệt với nhau qua vectơ
trọng số ở đầu vào w.
- 9 -
--
Nguyên lý cấu tạo của mạng nơron bao gồm nhiều lớp, mỗi lớp bao
gồm nhiều nơron có cùng chức năng trong mạng. Hình 1.4 là mơ hình hoạt
động của một mạng nơron 3 lớp với 8 phần tử nơron. Mạng có ba đầu vào
là x1, x2, x3 và hai đầu ra y1, y2. Các tín hiệu đầu vào được đưa đến 3 nơron
đầu vào, 3 nơron này làm thành lớp đầu vào của mạng. Các nơron trong lớp
này được gọi là nơron đầu vào. Đầu ra của các nơron này được đưa đến đầu
vào của 3 nơron tiếp theo, 3 nơron này khơng trực tiếp tiếp xúc với mơi
trường bên ngồi mà làm thành lớp ẩn, hay còn gọi là lớp trung gian. Các
nơron trong lớp này có tên là nơron nội hay nơron ẩn. Đầu ra của các nơron
này được đưa đến 2 nơron đưa tín hiệu ra mơi trường bên ngoài. Các nơron
trong lớp đầu ra này được gọi là nơron đầu ra.
Hình 1.4. Mạng nơron ba lớp
Mạng nơron được xây dựng như trên là mạng gồm 3 lớp mắc nối tiếp
nhau đi từ đầu vào đến đầu ra. Trong mạng không tồn tại bất kỳ một mạch
hồi tiếp nào. Một mạng nơron có cấu trúc như vậy gọi là mạng một hướng
hay mạng truyền thẳng một hướng và có cấu trúc mạng ghép nối hồn tồn
(vì bất cứ một nơron nào trong mạng cũng được nối với một hoặc vài nơron
khác). Mạng nơron bao gồm một hay nhiều lớp trung gian được gọi là mạng
Multilayer Perceptrons (MLP-Network).
Mạng nơron khi mới được hình thành thì chưa có tri thức, tri thức của
mạng sẽ được hình thành dần dần sau một quá trình học. Mạng nơron được
học bằng cách đưa vào những kích thích, và mạng hình thành những đáp
- 10 -
--
ứng tương ứng, những đáp ứng tương ứng phù hợp với từng loại kích thích
sẽ được lưu trữ. Giai đoạn này được gọi là giai đoạn học của mạng. Khi đã
hình thành tri thức mạng, mạng có thể giải quyết các vấn đề một cách đúng
đắn. Đó có thể là vấn đề ứng dụng rất khác nhau, được giải quyết chủ yếu
dựa trên sự tổ chức hợp nhất giữa các thông tin đầu vào của mạng và các
đáp ứng đầu ra.
Nếu nhiệm vụ của một mạng là hoàn chỉnh hoặc hiệu chỉnh các thông
tin thu được không đầy đủ hoặc bị tác động của nhiễu. Mạng nơron kiểu này
được ứng dụng trong lĩnh vực hồn thiện mẫu, trong đó có một ứng dụng cụ
thể là nhận dạng chữ viết.
Nhiệm vụ tổng quát của một mạng nơron là lưu giữ động các thông tin.
Dạng thông tin lưu giữ này chính là quan hệ giữa các thơng tin đầu vào và
các đáp ứng đầu ra tương ứng, để khi có một kích thích bất kỳ tác động vào
mạng, mạng có khả năng suy diễn và đưa ra một đáp ứng phù hợp. Đây chính
là chức năng nhận dạng theo mẫu của mạng nơron. Để thực hiện chức năng
này, mạng nơron đóng vai trị như một bộ phận tổ chức các nhóm thơng tin
đầu vào, và tương ứng với mỗi nhóm là một đáp ứng đầu ra phù hợp. Như
vậy, một nhóm bao gồm một loại thơng tin đầu vào và một đáp ứng đầu ra.
Các nhóm có thể được hình thành trong quá trình học, và cũng có thể khơng
hình thành trong q trình học.
1.3. Mạng nơron trong khai phá dữ liệu
Mục đích quan trọng của cơng việc khai phá dữ liệu là để hiểu được ý
nghĩa về nội dung sâu sắc bên trong các bộ dữ liệu lớn. Thông thường, các
giải pháp phổ biến đạt được mục đích này đều liên quan đến phương pháp
học máy để xây dựng một cách quy nạp các mơ hình dữ liệu trong tương lai.
Mạng nơron được áp dụng trong hàng loạt các ứng dụng KPDL trong tài chính
ngân hàng, dự đốn tỷ giá quy đổi, lập lịch cho tàu con thoi, ... Các thuật tốn
học mạng nơron đã được ứng dụng thành cơng trong một số lĩnh vực liên quan
đến học có giám sát và không giám sát. Hướng phát triển mới học mạng nơron
- 11 -
--
là cải tiến quá trình học cho dễ hiểu hơn và thời gian học nhanh hơn, mà đây
là vấn đề thường xuyên được đề đến cập đầu tiên trong KPDL.
Học quy nạp là một trong những phương pháp phổ biến trong khai phá
dữ liệu bởi vì nó xây dựng được các mơ hình diễn tả việc thu thập dữ liệu cho
phép hiểu thấu đáo bên trong dữ liệu đó. Tuỳ theo cơng việc cụ thể mà có thể
sử dụng phương pháp học có giám sát hoặc học khơng giám sát các mơ hình.
Trong cả hai trường hợp học có giám sát và khơng giám sát, các thuật tốn
học là khác nhau thơng qua cách thể hiện các mơ hình khác nhau. Các phương
pháp học mạng nơron thể hiện các giải pháp học dùng tham số thực trong một
mạng gồm các đơn vị xử lý đơn giản. Các kết quả nghiên cứu chứng tỏ rằng
mạng nơron là công cụ khá hiệu quả trong khai phá dữ liệu, đặc biệt đối với
khuynh hướng học theo quy nạp.
Chúng ta lướt qua nội dung sơ bộ về thuật toán có khuynh hướng quy
nạp trong KPDL, mà cụ thể là thuật toán học theo quy nạp. Cho một tập cố
định các ví dụ huấn luyện, thuật tốn học có khuynh hướng quy nạp quyết
định các thông số của một mô hình bằng cách tính tốn lặp đi lặp lại theo
dạng của mơ hình đó. Có hai xu hướng xác định hướng ưu tiên của thuật
tốn. Khơng gian giả thuyết giới hạn đề cập đến ràng buộc thuật toán học
thay cho giả thuyết mà nó có thể tạo ra. Ví dụ, không gian giả thuyết của một
bộ cảm ứng được giới hạn bởi các hàm tuyến tính đặc biệt. Hướng ưu tiên
của thuật toán đề cập đến việc sắp xếp ưu tiên thay cho các mơ hình kết hợp
trong khơng gian giả thuyết. Ví dụ, phần lớn các thuật tốn học ban đầu cố
gắng đáp ứng một giả thuyết đơn giản để đưa ra một tập huấn luyện sau đó
khảo sát dần các giả thuyết phức tạp cho đến khi thuật tốn tìm được hướng
có thể chấp nhận được.
Mạng nơron là phương pháp học khá phổ biến khơng chỉ vì lớp các giả
thuyết do chúng có thể đại diện, mà đơn giản là vì chúng đem lại giả thuyết
khái quát hơn so với các thuật tốn cạnh tranh khác. Một số cơng trình nghiên
- 12 -