ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NINH THỊ THU HÀ
CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ
TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT
CỦA HỆ THỐNG FSCANNER
Ngành:
Cơng nghệ thơng tin
Chuyên ngành:
Kỹ thuật phần mềm
Mã số:
60480103
LUẬN VĂN THẠC SĨ
Hà Nội - 2014
LUAN VAN CHAT LUONG download : add
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NINH THỊ THU HÀ
CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ
TRONG SỐ HĨA VĂN BẢN TIẾNG VIỆT
CỦA HỆ THỐNG FSCANNER
Ngành:
Cơng nghệ thơng tin
Chuyên ngành:
Công nghệ phần mềm
Mã số:
60480103
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ QUANG MINH
Hà Nội - 2014
LUAN VAN CHAT LUONG download : add
LỜI CAM ĐOAN
Tôi là Ninh Thị Thu Hà, học viên cao học K19, chun ngành Cơng nghệ
phần mềm, khóa 2012-2014. Tôi xin cam đoan luận văn thạc sĩ “Các kỹ thuật xử
lý ngơn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER” là cơng
trình nghiên cứu của riêng tôi cùng với sự hướng dẫn của TS. Lê Quang Minh.
Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ cơng trình nào khác.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn
gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận
văn, khơng có việc sao chép tài liệu, cơng trình nghiên cứu của người khác mà
không chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 28 tháng 10 năm 2014
Tác giả
Ninh Thị Thu Hà
LUAN VAN CHAT LUONG download : add
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới TS. Lê Quang Minh – Viện Công nghệ
thông tin, Đại học Quốc gia Hà Nội, người thầy đã hướng dẫn, chỉ bảo tận tình
cho tơi trong suốt q trình nghiên cứu và hồn thành luận văn tốt nghiệp.
Tơi xin gửi lời cảm ơn chân thành tới các thầy cô đã và đang tham gia
giảng dạy tại trường Đại học Công nghệ - Đại học Quốc gia Hà nội. Các thầy cơ
đã nhiệt tình giảng dạy và tạo mọi điều kiện thuận lợi cho tơi hồn thành khóa
học tại trường.
Tơi xin bày tỏ lòng biết ơn tới tất cả bạn bè, đồng nghiệp và người thân đã
động viên, giúp đỡ tơi trong suốt q trình học tập và nghiên cứu, hồn thành
luận văn.
Tơi xin được gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo
trình, những cơng trình khoa học và những bài báo khoa học mà tơi tham khảo
để hồn thiện luận văn này.
Tác giả
LUAN VAN CHAT LUONG download : add
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................... 1
DANH MỤC BẢNG BIỂU ........................................................................................ 2
DANH MỤC HÌNH VẼ ............................................................................................. 4
MỞ ĐẦU .................................................................................................................... 6
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGƠN NGỮ TRONG SỐ
HĨA VĂN BẢN TIẾNG VIỆT ................................................................................. 9
1.1
Giới thiệu về xử lý ngôn ngữ tự nhiên ......................................................... 9
1.2
Giới thiệu một số cơng nghệ trong số hóa tài liệu ...................................... 10
1.2.1
Công nghệ nhận dạng tiếng Việt ......................................................... 10
1.2.2
Công nghệ sốt lỗi chính tả tiếng Việt................................................. 11
1.2.3
Cơng nghệ tách bộ và lập chỉ mục....................................................... 12
1.3
Bài tốn xử lý ngơn ngữ trong số hóa văn bản tiếng Việt ........................... 13
Tổng kết chương 1.................................................................................................. 15
CHƯƠNG 2. CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN
BẢN .......................................................................................................................... 16
2.1.
Một số kỹ thuật nhận dạng OCR................................................................ 16
2.1.1.
Giới thiệu............................................................................................ 16
2.1.2.
Kỹ thuật nhận dạng dựa trên mơ hình máy vectơ hỗ trợ (SVM) .......... 18
2.1.3.
Kỹ thuật nhận dạng dựa trên mơ hình Markov ẩn (HMM) .................. 20
2.1.4.
Kỹ thuật nhận dạng dựa trên mơ hình mạng nơ ron (ANN) ................. 22
2.1.5.
Cách tiếp cận nhận dạng OCR của FSCANNER ................................. 24
2.2.
Kỹ thuật sốt lỗi chính tả tiếng Việt dựa trên mơ hình n-gram ................... 25
2.2.1.
Giới thiệu bài tốn sốt lỗi chính tả tiếng Việt .................................... 25
2.2.2.
Mơ hình ngơn ngữ N-gram ................................................................. 27
2.2.3.
Kỹ thuật sốt lỗi dựa trên mơ hình n-gram của hệ thống FSCANNER 29
2.3.
Trích rút metadata ..................................................................................... 30
2.3.1.
Giới thiệu về metadata và chuẩn Dublin Core ..................................... 30
2.3.2.
Bài tốn trích rút metadata .................................................................. 32
2.3.3.
Đề xuất metadata cho văn bản được số hóa ......................................... 34
LUAN VAN CHAT LUONG download : add
Tổng kết chương 2.................................................................................................. 45
CHƯƠNG 3. THỰC NGHIỆM, ĐÁNH GIÁ ......................................................... 46
3.1.
Các bước thực hiện chương trình của hệ thống .......................................... 46
3.2.
Xây dựng bộ dữ liệu thực nghiệm cho ảnh quét ......................................... 48
3.3.
Tiến hành thực nghiệm .............................................................................. 49
3.3.1.
Mục tiêu ............................................................................................. 49
3.3.2.
Cách thực hiện .................................................................................... 49
3.4.
Kết quả thực nghiệm ................................................................................. 50
3.5.
Đánh giá kết quả........................................................................................ 52
Tổng kết chương 3.................................................................................................. 52
KẾT LUẬN .............................................................................................................. 53
TÀI LIỆU THAM KHẢO ....................................................................................... 54
LUAN VAN CHAT LUONG download : add
1
DANH MỤC CÁC TỪ VIẾT TẮT
STT
Từ viết
tắt
Từ đầy đủ
Tiếng Việt
1
ANN
Artificial Neural Network
Mạng nơ-ron nhân tạo
2
API
Application Programming Interface
Giao diện lập trình ứng
dụng
3
DPI
Dots Per Inch
Số chấm trên 1 inch
4
HMM
Hiden Markov Model
Mơ hình Markov ẩn
5
MLP
Multi Layer Perceptron
Mạng nhiều lớp truyền
thẳng Perceptron
6
NLP
Natural Language Processing
Xử lý ngơn ngữ tự nhiên
7
OCR
Optical Character Recognition
Nhận dạng kí tự quang
học
8
OVO
One Versus One
Một với một
9
OVR
One Versus The Rest
Một với phần còn lại
10
SVM
Support Vector Machine
Máy Véc tơ Hỗ trợ
LUAN VAN CHAT LUONG download : add
2
DANH MỤC BẢNG BIỂU
Bảng 1.1. So sánh một số phần mềm nhận dạng chữ in tiếng Việt
Bảng 1.2. Một số phần mềm sốt lỗi chính tả tiếng Việt và kết quả đánh giá độ
nhận biết lỗi chính tả tiếng Việt đối với các phần mềm đó.
Bảng 2.1. Tổng hợp kết quả nhận dạng OCR mơ hình HMM, ANN, SVM với
các đặc trưng khác nhau
Bảng 2.2. Cấu trúc âm tiết 3 thành phần
Bảng 2.3. Cấu trúc âm tiết 4 thành phần
Bảng 2.4. Cấu trúc âm tiết 5 thành phần
Bảng 2.5. Các thành phần âm tiết của cấu trúc âm tiết 4 thành phần
Bảng 2.6. Một ví dụ trích rút metadata
Bảng 2.7. 15 yếu tố của Dublin Core Metadata.
Bảng 2.8. Đề xuất xây dựng các yếu tố metadata cho số hóa văn bản
Bảng 2.9. Tiêu đề (Title)
Bảng 2.10. Người tạo (Creator)
Bảng 2.11. Ngày tháng (Date)
Bảng 2.12. Nhà xuất bản (Publisher)
Bảng 2.13. Mô tả (Description)
Bảng 2.14. Định danh (Identifier)
Bảng 2.15. Ngôn ngữ (Language)
Bảng 2.16. Nguồn (Source)
Bảng 2.17. Người cộng tác (Contributor)
LUAN VAN CHAT LUONG download : add
3
Bảng 2.18. Chủ đề (Subject)
Bảng 2.19. Phạm vi (Coverage)
Bảng 2.20. Kiểu /Loại (Type)
Bảng 2.21. Khổ mẫu (Format)
Bảng 2.22. Liên kết (Relation)
Bảng 2.23. Bản quyền (Right)
Bảng 2.24. Cơ quan lưu trữ (Archive)
Bảng 2.25. Phông lưu trữ (Archive fond)
Bảng 2.26. Mục lục số (List number)
Bảng 2.27. Hộp số (Folder number)
Bảng 2.28. Hồ sơ số (Record number)
Bảng 2.29. Tờ số (Page number)
Bảng 2.30. Ngày số hóa (Digitizing date)
Bảng 2.31. Người số hóa (Digitizing person)
Bảng 2.32. Tổ chức số hóa (Digitizing organization)
Bảng 2.33. Thiết bị số hóa (Digitizing equipment)
Bảng 2.34. Bảng Cơ sở dữ liệu của 25 yếu tố metadata xây dựng cho văn bản
được số hóa
Bảng 3.1. Số từ nhận dạng đúng với các mức DPI khác nhau của ảnh quét
Bảng 3.2. Số từ nhận dạng đúng với các góc xoay (lệch trái so với ảnh quét gốc)
của ảnh quét
Bảng 3.3. Số từ nhận dạng đúng với các góc xoay (lệch phải so với ảnh quét
gốc) của ảnh quét
LUAN VAN CHAT LUONG download : add
4
DANH MỤC HÌNH VẼ
Hình 1.1. Một ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro
Hình 1.2.a. Một phần ảnh văn bản
Hình 1.2.b. Phần văn bản đã được nhận
Hình 1.3.a. Phần văn bản đã được nhận
Hình 1.3.b. Phần văn bản nhận dạng đã sửa lỗi chính tả tiếng Việt
Hình 1.4. Một ví dụ về trích rút thơng tin
Hình 1.5. Sơ đồ hoạt động của việc số hóa văn bản tiếng Việt của hệ thống
FSCANNER
Hình 2.1. Sơ đồ tổng quát của một hệ thống nhận dạng OCR
Hình 2.2.a. Các lớp phân tách tuyến tính.
Hình 2.2.b. Siêu phẳng tối ưu và biên lề tương ứng, các vectơ hỗ trợ.
Hình 2.3.a: Siêu phẳng phân tách 2 lớp (Liu, 2006)
Hình 2.3.b: Siêu phẳng phân tách có lề cực đại (Liu, 2006)
Hình 2.4. Lưới các chuỗi trạng thái, các tiến trình Markov với dãy quan sát O1,
..., OT.
Hình 2.5. Mơ hình một nơron nhân tạo
Hình 2.6. Mạng MLP trong nhận dạng kí tự quang học.
Hình 2.7. Mơ hình Markov bậc 2
Hình 3.1. Giao diện chương trình FSCANNER
Hình 3.2. Upload văn bản trong hệ thống FSCANNER
Hình 3.3. Hệ thống FSCANNER đang nhận dạng OCR 1 file ảnh
Hình 3.4. Hệ thống FSCANNER đã xử lý văn bản xong và kết quả trích rút
metadata của văn bản đó.
LUAN VAN CHAT LUONG download : add
5
Hình 3.5. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở 7 mức DPI
Hình 3.6. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái
Hình 3.7. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái
LUAN VAN CHAT LUONG download : add
6
MỞ ĐẦU
1. Tính cấp thiết
Cơng tác lưu trữ có vai trò đặc biệt quan trọng đối với các lĩnh vực của
đời sống xã hội bởi thông tin trong tài liệu lưu trữ là loại thơng tin có độ tin cậy
cao do nguồn gốc hình thành, do đặc trưng pháp lý của văn bản lưu trữ quy định.
Ngày nay văn bản lưu trữ đang dần được số hóa – đó là nhu cầu cần thiết giúp
giảm chi phí và tăng năng suất trong việc quản lý.
Thực tế tại Việt Nam có rất nhiều tổ chức và doanh nghiệp đang phải lưu
trữ một lượng lớn các loại văn bản tài liệu tiếng Việt (bản cứng) do đó có nhu
cầu số hóa tài liệu, tức là chuyển các tài liệu bản cứng đó vào trong máy tính để
lưu trữ, tìm kiếm, chỉnh sửa khi cần.
Hiện nay chúng ta đã có các máy quét với tốc độ cao, có thể đáp ứng cho
việc quét các tài liệu bản cứng thành file ảnh để lưu trữ lâu dài trên máy tính.
Việc sử dụng máy quét sẽ tiết kiệm thời gian, chi phí gấp hàng trăm lần so với
việc nhập bằng tay các tài liệu bản cứng vào máy tính. Tuy nhiên, nếu quét các
tài liệu bản cứng thành các file ảnh để lưu trữ thì sẽ khơng thể chỉnh sửa các văn
bản đó khi cần thiết, việc tìm kiếm từ khóa hay nội dung trong văn bản qt
cũng khơng thể thực hiện được. Vì vậy, file ảnh thu được sau khi quét cần được
nhận dạng để thu được file văn bản có thể chỉnh sửa được trên máy tính.
Khi số lượng văn bản tài liệu rất lớn cần lưu trữ một cách thông minh để
phục vụ cho việc tìm kiếm nhanh, độ chính xác của việc tìm kiếm sẽ phụ thuộc
nhiều vào bước nhận dạng văn bản số hóa và bước trích rút metadata. Đã có
những cơng cụ được phát triển để giải quyết vấn đề trên và mang lại kết quả rất
khả quan. Tuy nhiên, nhằm nâng cao hiệu quả của công cụ này chúng ta cần có
những cải tiến tốt hơn nữa, giúp cho độ chính xác trong cơng việc nhận dạng,
tìm kiếm là tốt và nhanh hơn. Nhóm nghiên cứu của Viện Công nghệ thông tinĐại học Quốc gia Hà Nội đưa ra giải pháp là xây dựng hệ thống FSCANNER để
số hóa văn bản tiếng Việt.
LUAN VAN CHAT LUONG download : add
7
2. Mục tiêu của luận văn
· Tổng quan về bài tốn xử lý ngơn ngữ trong số hóa văn bản tiếng Việt,
quy trình làm việc của hệ thống số hóa văn bản FSCANNER.
· Tìm hiểu về các kỹ thuật nhận dạng OCR, kỹ thuật sốt lỗi chính tả tiếng
Việt, trích rút metadata trong số hóa văn bản tiếng Việt.
· Nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho
văn bản được số hóa.
3. Nhiệm vụ nghiên cứu
Mục đích của luận văn đề cập được đến hai phần:
· Phần lý thuyết: Trình bày tổng quan về bài tốn xử lý ngơn ngữ và sơ
đồ hoạt động của việc số hóa văn bản của hệ thống FSCANNER. Sau
đó trình bày về các kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả
tiếng Việt dựa trên mơ hình n-gram; Với bài tốn trích rút metadata,
tìm hiểu về metadata và chuẩn Dublin Core, nghiên cứu về các đặc
trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số
hóa.
· Phần phát triển ứng dụng: Thực nghiệm chọn ngưỡng góc xoay và chỉ
số DPI thích hợp nâng cao chất lượng nhận dạng OCR.
4. Phạm vi nghiên cứu
Hệ thống FSCANNER được nhóm nghiên cứu của Viện Công nghệ thông
tin- Đại học Quốc Gia Hà Nội xây dựng với mục đích quản lý và tự động số hóa
tài liệu. Đây thực sự là một bài tốn lớn. Chính vì thế trong phạm vi của luận
văn chỉ tìm hiểu về quy trình thực hiện của hệ thống, tìm hiểu về một số kỹ thuật
nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mơ hình ngôn ngữ
n-gram của hệ thống, nghiên cứu về các đặc trưng lưu trữ và đề xuất xây dựng
metadata cho văn bản được số hóa để phục vụ cho q trình trích rút metadata.
5. Những đóng góp mới
Đề xuất chọn ngưỡng góc xoay và chỉ số DPI thích hợp đối với ảnh đầu
vào để nâng cao chất lượng nhận dạng OCR.
LUAN VAN CHAT LUONG download : add
8
Đề xuất xây dựng metadata cho văn bản được số hóa, góp phần xác định
các thuộc tính cần thiết của metadata cho việc xây dựng hệ thống FSCANNER.
6. Bố cục luận văn
Ngoài phần mở đầu, kết luận và danh mục tài liệu tham khảo, luận văn gồm 3
chương như sau:
Chương 1: Tổng quan về bài tốn xử lý ngơn ngữ trong số hóa văn bản
tiếng Việt.
Nội dung giới thiệu về bài tốn xử lý ngơn ngữ tự nhiên và sơ đồ hoạt
động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER.
Chương 2: Các kỹ thuật xử lý ngơn ngữ trong số hóa văn bản tiếng Việt
Nội dung chương 2 gồm 3 phần: giới thiệu một số kỹ thuật nhận dạng
OCR; kỹ thuật sốt lỗi chính tả dựa trên mơ hình ngơn ngữ n-gram; kỹ thuật
trích rút metadata, trong đó đề xuất xây dựng metadata cho văn bản được số hóa.
Chương 3: Thực nghiệm – đánh giá:
Chạy chương trình với bộ dữ liệu thực nghiệm đưa ra để chọn ngưỡng chỉ
số DPI và góc xoay thích hợp đối với ảnh quét đầu vào trước khi nhận dạng
OCR, nhằm nâng cao hiệu quả nhận dạng.
LUAN VAN CHAT LUONG download : add
9
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TỐN XỬ LÝ NGƠN NGỮ
TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT
1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing) là một
lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý được
ngôn ngữ của con người (ngôn ngữ nói –viết). NLP là lĩnh vực thuộc ngành
Khoa học máy tính, là một nhánh của Trí tuệ nhân tạo. Lĩnh vực xử lý ngôn ngữ
tự nhiên ra đời đã lâu, trải qua nhiều nghiên cứu và ứng dụng, ngày nay được
hiểu như là lĩnh vực giúp máy tính xử lý các vấn đề về ngôn ngữ tự nhiên để
việc giao tiếp giữa người và máy tính thuận tiện và thân thiện hơn. Dưới đây là
một số bài toán tiêu biểu của xử lý ngôn ngữ với các mức độ khác nhau về xử lý
và sử dụng ngôn ngữ tự nhiên của con người [1].
· Nhận dạng tiếng nói: Từ tiếng nói của con người nhận biết và chuyển
chúng thành dữ liệu văn bản tương ứng, ví dụ như tìm kiếm thơng tin
bằng tiếng nói (search voice),...
· Tổng hợp tiếng nói: Từ dữ liệu văn bản, phân tích và chuyển thành tiếng
người nói, ví dụ thay vì đọc nội dung trên web, nó tự đọc cho chúng ta,...
· Nhận dạng chữ viết: Từ văn bản trên giấy, nhận biết từng chữ cái và
chuyển chúng thành một tệp văn bản trên máy tính. Có hai kiểu nhận
dạng: nhận dạng chữ in ví dụ như nhận dạng chữ trên sách giáo khoa rồi
chuyển nó thành văn bản như định dạng *.doc lưu trên máy tính; và nhận
dạng chữ viết tay ví dụ như nhận dạng chữ ký,...
· Dịch tự động: Từ một tệp dữ liệu văn bản trong một ngơn ngữ (ví dụ tiếng
Anh), máy tính dịch và chuyển thành một tệp văn bản trong một ngơn ngữ
khác (ví dụ tiếng Việt).
· Tóm tắt văn bản: Từ một văn bản dài máy tóm tắt thành một văn bản ngắn
gọn với những nội dung cơ bản.
· Tìm kiếm thơng tin: Từ một nguồn rất nhiều tệp văn bản hay tiếng nói,
tìm ra những tệp có nội dung liên quan đến một vấn đề ta cần biết, ví dụ
điển hình như Google Search có thể tìm kiếm văn bản hay tiếng nói.
LUAN VAN CHAT LUONG download : add
10
· Trích chọn thơng tin: Từ một nguồn rất nhiều tệp văn bản hay tiếng nói,
tìm ra một số đoạn bên trong một số tệp liên quan đến một vấn đề ta cần
biết
· Phát hiện tri thức và khai phá dữ liệu văn bản: Từ những nguồn rất nhiều
văn bản thậm chí hầu như khơng có quan hệ với nhau tìm ra được những
tri thức trước đấy chưa ai biết, đây là một vấn đề rất phức tạp và đang ở
giai đoạn đầu nghiên cứu trên thế giới.
1.2 Giới thiệu một số cơng nghệ trong số hóa tài liệu
1.2.1 Cơng nghệ nhận dạng tiếng Việt
Hiện nay trên thế giới cũng như Việt Nam đã có những sản phẩm nhận
dạng tiếng Việt như ABBYY FineReader, VietOCR, VnDOCR… Trong đó sản
phẩm tính phí là ABBYY FineReader và VnDOCR; cịn VietOCR là phần mềm
mã nguồn mở sử dụng công cụ Tesseract được phát triển tại công ty Google.
Phần mềm VnDOCR là sản phẩm của Viện công nghệ thông tin dùng để
nhận dạng chữ Việt in. Phần mềm này có từ phiên bản 1.0 và đến nay là phiên
bản VnDOCR 4.0. Có thể download dùng thử tại trang web
. Khi chạy phần mềm
cho phép tiền xử lý ảnh đầu vào trước khi nhận dạng như xoay ảnh, chỉnh độ
nghiêng, xóa nhiễu. Tuy nhiên bản dùng thử không cho phép lưu lại văn bản đã
nhận dạng.
VietOCR là một chương trình mã nguồn mở do người Việt phát triển.
Chương trình sử dụng bộ nhận dạng Tesseract. Có khả năng nhận diện ký tự từ
các loại dạng ảnh phổ thơng. Độ chính xác nhận dạng tùy thuộc phần lớn vào
chất lượng của ảnh quét. Vì đây phần mềm mã nguồn mở nên việc phát triển nó
để nâng cao chất lượng nhận dạng là rất khả thi. Download phần mềm VietOCR
tại trang web và chọn download.
Sau đó cài đặt VietOCR theo hướng dẫn tại trang web
/>FineReader là một sản phẩm OCR của ABBYY – một hãng công nghệ
hàng đầu trên thế giới về lĩnh vực nhận dạng kí tự quang học; hãng này đã tiến
hành nghiên cứu và triển khai công nghệ nhận dạng tiếng Việt vào tháng 4/2009.
Với cơng nghệ này, độ chính xác trong việc nhận dạng chữ in tiếng Việt lên tới
LUAN VAN CHAT LUONG download : add
11
99%. Tuy nhiên, sản phẩm này là sản phẩm thương mại hóa, tính phí cho mỗi
trang scan. Hiện tại, FineReader đang ở phiên bản thứ 12. ABBYY FineReader
là phần mềm mất phí, dùng thử có thể download ABBYY FineReader 12 tại
trang web , sau khi download xong,
tiến hành cài đặt chương trình theo hướng dẫn có sẵn của chương trình.
Bảng 1.1. So sánh một số phần mềm nhận dạng chữ in tiếng Việt
VnDOCR
Trang web
http:// www.vndocr.com/
Đặc
điểm
Ưu
điểm
Hạn
chế
Là sản phẩm thương mại
Có thể nhận dạng trực tiếp
tài liệu từ máy quét.
Tự động phân vùng nhận
dạng.
Là phần mềm của người
Việt.
Giá thành phù hợp.
Nhận dạng tương đối tốt
bảng biểu, giữ nguyên
định dạng văn bản.
Không nhận dạng được
đầu vào là ảnh màu, ảnh
định dạng PDF.
Ảnh có cấu trúc phức tạp,
kết quả nhận dạng chưa
cao.
Khơng nhận dạng được
chữ cái to đầu đoạn (Drop
Cap), chỉ số trên của các
cơng thức tốn học.
VietOCR
Trang
web:
rceforge.n
et/
Là chương trình mã nguồn
mở do người Việt phát
triển.
Việc phát triển phần mềm
này để nâng cao chất
lượng nhận dạng là rất khả
thi.
Miễn phí.
Nhận dạng được ảnh đầu
vào dạng PDF.
Nhận dạng được các trang
có nhiều loại font, kiểu
font hoặc nền là ảnh màu.
Không phân vùng được
(chỉ nhận dạng được một
vùng).
Chất lượng nhận dạng
chưa cao.
Không nhận dạng được
chữ cái to đầu đoạn, các
cơng thức tốn học, bảng
biểu.
ABBYY FineReader
web:
Trang
m/
Là sản phẩm thương mại.
Là phần mềm của Nga.
Cho phép kết nối và nhận
dạng trực tiếp ảnh từ
Camera.
Nhận dạng được nhiều
định dạng ảnh đầu vào.
Phân vùng đúng, giữ
nguyên bố cục và định
dạng ban đầu.
Nhận dạng tốt bảng biểu,
chữ to đầu đoạn, cơng
thức tốn học,...
Giá thành cao.
Là sản phẩm khơng phải
của người Việt, có thể bị
mất thơng tin vì chúng ta
khơng nắm được quy
trình.
1.2.2 Cơng nghệ sốt lỗi chính tả tiếng Việt
Lỗi chính tả gồm hai loại là lỗi thực từ và lỗi phi từ. Hầu hết các phần
mềm sốt lỗi chính tả phát hiện được lỗi phi từ. Tuy nhiên lỗi thực từ tiếng Việt
LUAN VAN CHAT LUONG download : add
12
rất khó phát hiện. Do đó những cơng ty sản xuất các sản phẩm này đã ngừng đầu
tư phát triển.
Vào tháng 6/2010, tại buổi họp báo [9] của Viện Công nghệ thông tin-Đại
học Quốc gia Hà Nội đã công bố bản Báo cáo về tình hình chính tả trong văn
bản tiếng Việt, đợt đánh giá tháng 6/2010. Trong đó các phần mềm sốt lỗi và
sửa lỗi chính tả trên thị trường có tỉ lệ sốt lỗi như sau: BÚT ĐỎ 92,5%; CÚ
MÈO 62,65%; VIETSPELL 62,76%. Trên cơ sở đó, chúng tơi giới thiệu một số
phần mềm sốt lỗi chính tả tiếng Việt [8] và kết quả đánh giá độ nhận biết lỗi
chính tả tiếng Việt của một số phần mềm [7] thể hiện ở bảng 1.2
Bảng 1.2. Một số phần mềm sốt lỗi chính tả tiếng Việt và kết quả đánh giá độ
nhận biết lỗi chính tả tiếng Việt đối với các phần mềm đó.
Sản phẩm
Cơng Cụ Việt 1.4
Cọp Con 3.1
VCatSpell
Kết quả
đánh giá
VIEGRID
JSC
-
Đang phát triển.
Thương mại, cho dùng thử.
www.viegrid.com
92,5%
Ths. Mai
Tuấn Khơi và
cộng sự
-
Ngừng phát triển
Miễn phí, ngừng cung cấp
www.chinhta.bacthangban.com
67,77%
SOBIC
-
Ngừng phát triển
Thương mại, ngừng cung cấp
www.sobic.com.vn
62,65%
-
Ngừng phát triển.
Thương mại, dùng thử hạn chế
-
Ngừng phát triển.
Miễn phí, cho tải
www.vietcatholic.net
Cú Mèo Pro 2.0.2
VietSpell
Tình trạng, tính chất, site
Nhà phát
triển
Lưu Hà
Xun
Thơng tấn xã
Cơng giáo
Việt Nam
62,76%
26,52%
1.2.3 Cơng nghệ tách bộ và lập chỉ mục
Hiện tại có phần mềm Kodak Capture [20] là 1 phần mềm cho phép số
hóa tài liệu và lập chỉ mục tách bộ tự động, tuy nhiên phần mềm làm việc khơng
chính xác với các tài liệu tiếng Việt, việc lập chỉ mục cũng cần phải dựa vào các
LUAN VAN CHAT LUONG download : add
13
form mẫu được tạo bởi người sử dụng (đánh dấu vị trí cần nhận dạng và lập chỉ
mục). Sản phẩm chỉ làm việc với các biểu mẫu có cùng 1 dạng và có vị trí cần
nhận dạng chính xác với vị trí đã đánh dấu. Kodak Capture cho phép người dùng
chỉ định vùng OCR bằng thao tác kéo thả vùng cần nhận dạng (drag & drop
OCR) để trích rút thơng tin cần thiết hỗ trợ cho việc tạo chỉ mục. Dưới đây ở
hình 1.1 là một ví dụ kéo thả vùng nhận dạng để trích rút thơng tin.
Hình 1.1. M ột ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro
1.3 Bài tốn xử lý ngơn ngữ trong số hóa văn bản tiếng Việt
Với một khối lượng khổng lồ các tài liệu văn bản giấy, máy quét có thể
chuyển chúng thành các file ảnh văn bản lưu trữ được trong máy tính. Tuy
nhiên, các file ảnh văn bản sau khi qt thì khơng thể chỉnh sửa được trên máy
tính hay tìm kiếm theo từ khóa hay nội dung trong ảnh văn bản đó. Vì vậy, các
ảnh văn bản thu được sau khi quét cần đươc nhận dạng thành thành văn bản có
thể chỉnh sửa được (hình 1.2.a và hình 1.2.b).
Hình 1.2.a. Một phần ảnh văn bản
Trong cuộc tiếp trợ lý Tổng thống Mỹ T.Đai-nai-lơn tới
trao thư của Tổng thống B.ô-ba-ma, Tổng thống Nga
V.Pu-tin cho biết, sẽ nghiên cứu đề xuất của Mỹ về
tăng cường đối thoại và hợp tác song phương. Ơng
Đai-nai-lơn trước đó đã hội đàm với Bộ trưởng Ngoại
giao Nga X.La-vrốp. ■ Theo Tân Hoa xã, phát biểu ý
kiến tại Viện Công nghệ Nhật Bản, Bộ trưởng Ngoại
giao Mỹ G.Ke-ri nêu bốn nguyên tắc chính sách cua
Mỹ nhằm giúp các nước khu vực châu Á - Thái Bình
Dương đối phó các thách thức, gồm: tăng trưởng
mạnh, công bằng, nhanh và hợp lý. ■ Tại cuộc hội
thảo về kinh tế, Thủ tướng Trung Quốc Lý Khắc
Cường nhấn mạnh tầm quan trọng của cơng tác dự
báo chính sách kinh'tế, đồng thời kêu gọi tập trung
chuyển đổi và cập nhật kinh tể thòng qua cải cách
sâu rộng. (XEM TIẾP TRANG 7)
Hình 1.2.b. Phần văn bản đã được nhận dạng
Kết quả nhận dạng phụ thuộc rất nhiều vào chất lượng ảnh quét. Khi hệ
thống không nhận dạng được một kí tự, sẽ gây ra một lỗi chính tả tiếng Việt ở
đầu ra. Việc sửa lỗi chính tả tiếng Việt sau khi nhận dạng sẽ làm tăng độ chính
xác nhận dạng (hình 1.3.a và hình1.3.b).
LUAN VAN CHAT LUONG download : add
14
Trong cuộc tiếp trợ lý Tổng thống Mỹ T.Đai-nai-lơn tới
trao thư của Tổng thống B.ô-ba-ma, Tổng thống Nga
V.Pu-tin cho biết, sẽ nghiên cứu đề xuất của Mỹ về
tăng cường đối thoại và hợp tác song phương. Ơng
Đai-nai-lơn trước đó đã hội đàm với Bộ trưởng Ngoại
giao Nga X.La-vrốp. ■ Theo Tân Hoa xã, phát biểu ý
kiến tại Viện Công nghệ Nhật Bản, Bộ trưởng Ngoại
giao Mỹ G.Ke-ri nêu bốn nguyên tắc chính sách cua Mỹ
nhằm giúp các nước khu vực châu Á - Thái Bình
Dương đối phó các thách thức, gồm: tăng trưởng
mạnh, công bằng, nhanh và hợp lý. ■ Tại cuộc hội thảo
về kinh tế, Thủ tướng Trung Quốc Lý Khắc Cường
nhấn mạnh tầm quan trọng của công tác dự báo chính
sách kinh'tế, đồng thời kêu gọi tập trung chuyển đổi và
cập nhật kinh tể thòng qua cải cách sâu rộng. (XEM
TIẾP TRANG 7)
Trong cuộc tiếp trợ lý Tổng thống Mỹ T.Đai-nai-lơn tới
trao thư của Tổng thống B.ô-ba-ma, Tổng thống Nga
V.Pu-tin cho biết, sẽ nghiên cứu đề xuất của Mỹ về
tăng cường đối thoại và hợp tác song phương. Ông
Đai-nai-lơn trước đó đã hội đàm với Bộ trưởng Ngoại
giao Nga X.La-vrốp. ■ Theo Tân Hoa xã, phát biểu ý
kiến tại Viện Công nghệ Nhật Bản, Bộ trưởng Ngoại
giao Mỹ G.Ke-ri nêu bốn nguyên tắc chính sách của Mỹ
nhằm giúp các nước khu vực châu Á - Thái Bình
Dương đối phó các thách thức, gồm: tăng trưởng
mạnh, cơng bằng, nhanh và hợp lý. ■ Tại cuộc hội thảo
về kinh tế, Thủ tướng Trung Quốc Lý Khắc Cường
nhấn mạnh tầm quan trọng của cơng tác dự báo chính
sách kinh tế, đồng thời kêu gọi tập trung chuyển đổi và
cập nhật kinh tế thơng qua cải cách sâu rộng. (XEM
TIẾP TRANG 7)
Hình 1.3.a. Phần văn bản
đã được nhận dạng
Hình 1.3.b. Phần văn bản nhận
dạng đã sửa lỗi chính tả tiếng Việt
Với mỗi văn bản sau khi đã nhận dạng và sửa lỗi sẽ được trích rút thơng
tin theo mẫu phục vụ cho việc lưu trữ thông minh và hỗ trợ người dùng tìm kiếm
tài liệu một cách dễ dàng. Ở hình 1.4 là một ví dụ về trích rút metadata.
Cơ quan ban hành: Bộ Khoa học và Công nghệ
Số hiệu: 3390/QĐ-BKHCN
Ngày ban hành: 11/12/2012
Trích yếu nội dung: Quyết định về việc cơng bố thủ
tục hành chính mới ban hành thuộc phạm vi chức năng
quản lý của Bộ Khoa học và Công nghệ
Tác giả: Thứ trưởng Trần Việt Thanh
Hình 1.4. Một ví dụ về trích rút metadata
Đã có những cơng cụ được phát triển để giải quyết bài tốn số hóa văn
bản và mang lại kết quả rất khả quan. Tuy nhiên để nâng cao hiệu quả của công
cụ này chúng ta cần có những cải tiến tốt hơn nữa, giúp cho độ chính xác trong
cơng việc nhận dạng, tìm kiếm là tốt và nhanh hơn. Giải pháp đưa ra là một quy
trình (hình 1.6 ) gồm các bước sau:
1. Người dùng quét các văn bản từ máy Scan hoặc import các văn bản đã
được quét từ trước. Kết quả của bước này là các văn bản được số hóa mức
1 dưới dạng các ảnh.
2. Hệ thống sẽ kích hoạt chương trình nhận dạng OCR thơng qua các giao
diện lập trình ứng dụng (API) để nhận dạng các văn bản dưới dạng ảnh và
thu về văn bản ở dạng text.
LUAN VAN CHAT LUONG download : add
15
3. Văn bản dạng text sau quá trình nhận dạng OCR sẽ được sốt lỗi chính tả
tiếng Việt để nâng cao độ chính xác của kết quả nhận dạng.
4. Trích rút thông tin theo mẫu đã được thiết lập tương ứng (mẫu tương ứng
nằm trong danh mục tài liệu mẫu đã được thiết kế, nếu khơng tìm thấy
mẫu nào tương ứng trong danh mục tài liệu mẫu, hệ thống sẽ yêu cầu
người dùng tạo một tài liệu mẫu mới và đưa thêm vào danh mục tài liệu
mẫu). Sau đó là khâu đặt tên file, lập chỉ mục tự động theo cấu trúc đã
được thiết lập, và lưu vào cơ sở dữ liệu của hệ thống.
Ảnh quét
Nhận dạng OCR
Hình 1.5. Sơ đồ hoạt động của việc số hóa văn bản
tiếng Việt của hệ thống FSCANNER
Sốt lỗi chính tả
Trích rút metadata
và lập chỉ mục
Trong quy trình ở hình 1.5, các bước: nhận dạng OCR, sốt lỗi chính tả,
trích rút metadata là những bài tốn thuộc lĩnh vực xử lý ngơn ngữ tự nhiên (dữ
liệu văn bản).
Tổng kết chương 1
Trên đây chúng tôi đã giới thiệu về xử lý ngôn ngữ tự nhiên như khái
niệm và một số bài toán NLP; giới thiệu khái niệm số hóa văn bản, giới thiệu
một số cơng nghệ số hóa tài liệu như cơng nghệ nhận dạng OCR, cơng nghệ sốt
lỗi chính tả tiếng Việt, cơng nghệ tách bộ và lập chỉ mục. Trên cơ sở đó, luận
văn đưa ra giải pháp là xây dựng một hệ thống số hóa văn bản tiếng Việt với tên
là FSCANNER. Mỗi bước trong quy trình số hóa của hệ thống liên quan mật
thiết với mỗi bài toán trong xử lý ngơn ngữ, cụ thể là bài tốn nhận dạng chữ
OCR, bài tốn sốt lỗi chính tả tiếng Việt, bài tốn trích chọn thơng tin với bài
tốn con là trích chọn metadata.
LUAN VAN CHAT LUONG download : add
16
CHƯƠNG 2. CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ
HĨA VĂN BẢN
Bài tốn số hóa văn bản tiếng Việt là bài tốn lớn, vì vậy trong phạm vi
luận văn tập trung vào một số kỹ thuật nhận dạng OCR, kỹ thuật sốt lỗi chính
tả tiếng Việt dựa trên mơ hình ngơn ngữ n-gram, kỹ thuật trích rút metadata tập
trung vào nghiên cứu các đặc trưng lưu trữ để xây dựng metadata cho văn bản
được số hóa.
2.1.
Một số kỹ thuật nhận dạng OCR
2.1.1. Giới thiệu
Nhận dạng ký tự quang học (Optical Character Recognition – OCR) là
loại phần mềm máy tính có chức năng chuyển các hình ảnh của chữ viết tay
hoặc chữ đánh máy (thường được quét bằng máy scanner, chụp ảnh) thành các
văn bản tài liệu. Giả sử ta có một văn bản tài liệu bản cứng, sau khi quét bằng
máy scanner thành file ảnh, phần mềm OCR sẽ nhận dạng file ảnh đã quét đó
thành file văn bản lưu trữ trên máy tính có thể chỉnh sửa được trên máy tính.
Lịch sử của OCR đã có từ hơn nửa thế kỷ, nó xuất hiện đầu tiên để giải quyết
bài tốn đọc mã số trong bưu điện, tiếp đó phát triển để tự động đọc các địa chỉ
và đọc các thông tin trong các mẫu đơn, văn bản. Ngày nay với sự phát triển
mạnh mẽ, OCR trở nên phổ biến và thường được ứng dụng như một phần mềm
cài đặt trên máy tính hoặc tích hợp kèm với phần cứng như tích hợp trong máy
scan. Hiện nay trên thế giới cũng như ở Việt Nam đã có những sản phẩm nhận
dạng chữ in có giá trị thực tế cao, có thể kể đến như: sản phẩm ABBYY
FineReader (hiện nay là phiên bản FineReader 12) có thể nhận dạng được 190
ngôn ngữ trên thế giới [19]; sản phẩm OmniPage của Nuance nhận dạng được
trên 119 ngôn ngữ khác nhau [21]; sản phẩm VnDOCR nhận dạng chữ Việt in
của Viện Công nghệ thông tin-Viện Khoa học và Công nghệ Việt Nam; sản
phẩm VietOCR nhận dạng chữ in tiếng Việt là chương trình mã nguồn mở do
người Việt phát triển sử dụng bộ nhận dạng Tessecract,...
LUAN VAN CHAT LUONG download : add
17
Mơ hình tổng qt của một hệ nhận dạng chữ [26] như hình 2.1
Ảnh qt
Tiền xử lý
Phân đoạn
Trích chọn
đặc trưng
Văn bản đã
nhận dạng
Hậu xử lý
Phân lớp
Hình 2.1. Sơ đồ tổng quát của một hệ thống nhận dạng OCR
Các tài liệu giấy (chữ in hoặc chữ viết tay) được chuyển thành các file ảnh
bằng máy quét. Các ảnh quét đó là đầu vào cho quá trình nhận dạng OCR. Tiếp
theo là bước tiền xử lý ảnh quét, bước tiền xử lý thực hiện một số chức năng
như: nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kích thước ảnh, làm trơn biên chữ,
làm đầy chữ, điều chỉnh độ nghiêng văn bản. Bước phân đoạn thực hiện việc
việc tách từng ký tự ra khỏi ảnh văn bản như tách dòng, tách từ, tách kí tự. Với
mỗi ảnh ký tự, khâu trích chọn đặc trưng phân tích ảnh ký tự tìm ra đặc trưng
riêng của ký tự đó. Các đặc trưng đã được lựa chọn trong bước trích chọn đặc
trưng được sử dụng cho việc huấn luyện và nhận dạng ở bước tiếp theo. Đầu ra
của q trình nhận dạng có thể bị lỗi, bước hậu xử lý sẽ thực hiện việc ghép nối
các kí tự đã nhận dạng thành các từ, các câu, các đoạn văn để tái hiện lại văn
bản, đồng thời sửa lỗi đảm bảo kết quả nhận dạng tốt nhất. Tất cả các bước thực
hiện trên đều quan trọng, nhưng bước quan trọng nhất quyết định độ chính xác
của nhận dạng là trích chọn đặc trưng và phân lớp. Thuật tốn phân lớp là yếu tố
có vai trị quyết định đến chất lượng của một hệ thống nhận dạng.
Các phương pháp nhận dạng truyền thống như đối sánh mẫu, nhận dạng
cấu trúc đã được ứng dụng khá phổ biến trong các hệ thống nhận dạng và cũng
đã thu được những thành công nhất định. Tuy vậy, với những trường hợp văn
bản đầu vào có chất lượng khơng tốt (nhiễu, đứt nét, dính nét...) thì các thuật
tốn này tỏ ra khơng hiệu quả. Để khắc phục điều này, trong những năm gần đây
nhiều nhóm nghiên cứu đã sử dụng các thuật tốn phân lớp dựa trên mơ hình
LUAN VAN CHAT LUONG download : add
18
SVM [12] , mơ hình Markov ẩn HMM [11], mơ hình mạng nơron ANN [13] cho
các bài tốn nhận dạng nói chung và nhận dạng chữ nói riêng.
2.1.2. Kỹ thuật nhận dạng dựa trên mơ hình máy vectơ hỗ trợ (SVM)
Máy vectơ hỗ trợ (Support vector machine – SVM) là một phương pháp
phân lớp dựa trên lý thuyết học thống kê, được đề xuất bởi V.Vapnik và các
đồng nghiệp của ông [15] vào những năm 1970 ở Nga, và sau đó đã trở nên nổi
tiếng và phổ biến vào những năm 1990. SVM là một phương pháp phân lớp
tuyến tính với mục đích xác định một siêu phẳng để phân tách hai lớp của dữ
liệu, ví dụ lớp các ví dụ có nhãn dương và lớp các ví dụ có nhãn âm. Có thể mơ
tả một cách đơn giản về bộ phân lớp SVM như sau: cho trước 2 tập dữ liệu học,
mỗi tập thuộc về một lớp cho trước, bộ phân lớp SVM sẽ xây dựng mơ hình
phân lớp dựa trên 2 tập dữ liệu này. Khi có một mẫu mới được đưa vào, bộ phân
lớp sẽ đưa ra dự đoán xem mẫu này thuộc lớp nào trong 2 lớp đã định. Các hàm
nhân (kernel functions)-cũng được gọi là các hàm biến đổi, được dùng cho
trường hợp phân lớp phi tuyến.
Hình 2.2.a. Các lớp phân
Hình 2.2.b. Siêu phẳng tối ưu và biên
tách tuyến tính.
lề tương ứng, các vectơ hỗ trợ.
Nếu biểu diễn tập D gồm r các ví dụ huấn luyện như sau D={(x1,y1),
(x2,y2),...(xr, yr)} thì mỗi xi chính là một vectơ đầu vào được biểu diễn trong
không gian XÍRn và yi là một nhãn lớp (giá trị đầu ra) chỉ nhận 2 giá trị là -1
hoặc 1 (lớp âm hoặc lớp dương). Khi đó SVM xác định một hàm phân tách
tuyến tính f(x)=<w.x>+b, trong đó w là vectơ trọng số các thuộc tính, b là một
giá trị số thực. Mặt siêu phẳng phân tách các ví dụ huấn luyện lớp dương và các
ví dụ huấn luyện lớp âm là <w.x>+b=0 được thể hiện ở hình 2.3.a.
LUAN VAN CHAT LUONG download : add
19
H0 : <w.x> + b
=0
y
=1
d+
d-
y
=1
x+
lề(margin)
-
x
H+ : <w.x> + b
=1
H- : <w.x> + b
= -1
<w.x> + b = 0
y =1
y =1
Hình 2.3.a: Siêu phẳng phân tách 2 lớp
(Liu, 2006)
Hình 2.3.b: Siêu phẳng phân tách
có lề cực đại (Liu, 2006)
Tuy nhiên trên thực tế có thể tìm được vơ số những mặt siêu phẳng phân
tách trên cùng một tập dữ liệu thì khi đó ta chọn mặt siêu phẳng phân tách có lề
cực đại (Hình 2.3.b). Quá trình học SVM nhằm cực đại hóa mức lề.
Trong hình 2.6.b, giả sử rằng tập các ví dụ huấn luyện có thể phân tách
được một cách tuyến tính. Xét một ví dụ của lớp dương (x+,1) và một ví dụ của
lớp âm (x-,1) gần nhất đối với siêu phẳng phân tách H0 (<w.x>+b=0). Mức lề
(margin) là khoảng cách giữa 2 siêu phẳng lề H+ (<w.x>+b=1) và H-(<w.x>+b=1) trong đó H+ đi qua x+ và song song với H0, H- đi qua x- và song song với H0,
d+ là khoảng cách giữa H+ và H0; d- là khoảng cách giữa H- và H0, thì (d+ + d-)
chính là lề (margin). Theo lý thuyết đại số vectơ, khoảng cách từ một điểm xi
đến mặt siêu phẳng <w.x>+b=0 là
w .xi + b
(1)
w
Trong đó ||w|| là độ dài của w :
w
2
1
+ w
2
2
+ ... + w
2
n
Áp dụng biểu thức (1) tính d+ là khoảng cách từ x+ đến <w.x>+b=0 ta có:
d+ =
w .x + + b
w
=
w .x - + b
1
1
=
w
w
-1
=
1
w
Như vậy, tính tốn mức lề = d+ + d- =
1
w
Tương tự:
d- =
w
=
w
+
1
w
=
2
w
LUAN VAN CHAT LUONG download : add