Tải bản đầy đủ (.pdf) (8 trang)

Đề cương chi tiết luận văn Thạc sĩ: Nhận dạng văn bản một số ngôn ngữ La Tinh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (474.95 KB, 8 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐỀ CƯƠNG CHI TIẾT LUẬN VĂN THẠC SĨ

TÊN ĐỀ TÀI

NHẬN DẠNG VĂN BẢN MỘT SỐ NGÔN NGỮ LA TINH
Giáo viên hướng dẫn: TS. Hồ Văn Canh
Học viên thực hiện : Lê Mạnh Đoan
Lớp

: CK14H

Thái Nguyên, tháng 5 năm 2016


LỜI CẢM ƠN

Trước hết cho phép em chân thành cảm  ơn các Thầy giáo, Cô giáo trong  
khoa Công nghệ  thông tin và các cán bộ, nhân viên phòng Đào tạo Sau đại học, 
Trường Đại học Công nghệ Thông tin và Truyền thông ­  Đại học Thái Nguyên 
đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình  
học tập tại trường.
Xin chân thành cảm  ơn các anh, các chị  và các bạn học viên lớp Cao học 
CK14H ­ Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái  
Nguyên đã luôn động viên, giúp đỡ  và nhiệt tình chia sẻ  với em những kinh  
nghiệm học tập, công tác trong suốt khoá học.
Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến TS. Hồ Văn Canh, người đã  
tận tình giúp đỡ em hình thành và hoàn chỉnh luận văn.
Mặc dù đã có nhiều cố  gắng, song do sự  hạn hẹp về  thời gian, điều kiện  


nghiên cứu và trình độ, luận văn không tránh khỏi những khiếm khuyết. Em  
chân thành mong nhận được sự  đóng góp ý kiến của các Thầy giáo, Cô giáo và 
đồng nghiệp.
Một lần nữa em xin cảm ơn!
Thái Nguyên, tháng 05 năm 2016
Người thực hiện luận văn

Lê Mạnh Đoan


ĐỀ CƯƠNG CHI TIẾT LUẬN VĂN THẠC SĨ

Tên đề tài:“Nhận dạng văn bản một số ngôn ngữ La tinh”.
Giáo viên hướng dẫn: TS. Hồ Văn Canh
Học viên thực hiện: Lê Mạnh Đoan 
Lớp: CK14H
Cơ  sở đào tạo: Trương Đai hoc Công nghê thông tin va Truyên thông/Đ
̀
̣
̣
̣
̀
̀
ại  
học Thái Nguyên.
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 60 48 01
1. Đặt vấn đề
1.1. Sự cần thiết lựa chọn đề tài
Nhận dạng là một lý thuyết toán học có nhiều  ứng dụng trong thực tiễn,  

như  nhận dạng tiếng nói, nhận dạng hình  ảnh, nhận dạng chữ  ký, phân loại  
ngôn ngữ  , xây dựng tiêu chuẩn bản rõ  ứng dụng trong phân tích các bản mã 
v.v..Trên thế  giới cũng như  trong nước đã có nhiều nhà nghiên cứu vấn đề  này  
và đã có những phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm  
nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E­
mail trên hệ thống Internet… 
Nhận dạng chữ  là bài toán rất hữu ích, quen thuộc được  ứng dụng nhiều 
trong thực tế đặc biệt là trong lĩnh vực nhận dạng và phân loại văn bản vì thế 


đã thu hút nhiều tác giả quan tâm nghiên cứu bằng các phương  pháp nhận dạng  
khác nhau: logic mờ, giải thuật di truyền, mô hình xác suất thống kê, mô hình 
mạng nơ ron. Đã có rất nhiều công trình nghiên cứu thực hiện việc nhận dạng,  
phân loại văn bản La Tinh đã đạt tỷ lệ chính xác cao, tuy nhiên các ứng dụng đó  
cũng chưa thể đáp ứng hoàn toàn nhu cầu của người sử dụng vậy nên ngày nay  
người   ta  vẫn  tiếp  tục  nghiên  cứu  những  phương     pháp  nhận  dạng  tốt  hơn 
hướng đến dùng cho các thiết bị di động, và các bài toán thời gian thực. Sau khi 
tìm hiểu về sự tiến bộ của công nghệ nhận dạng chữ La Tinh cũng như các tính  
năng cơ bản của các phần mềm nhận dạng chữ, được sự  tư  vấn của giáo viên 
hướng dẫn, tôi đã lựa chọn được một hướng nghiên cứu thiết thực với đề  tài:  
"Nhận dạng văn bản một số ngôn ngữ La tinh". 
Trong khuôn khổ của luận văn, tôi tập trung nghiên cứu, giải quyết bài toán 
nhận dạng ngôn ngữ  tự nhiên dựa vào phân hoạch không gian (nhận dạng theo 
thống kê toán học), trong đó một lớp ngôn ngữ tiêu biểu được nghiên cứu đó là 
ngôn ngữ La Tinh như tiếng Anh, tiếng Pháp, v.v.
1.2. Mục tiêu nghiên cứu của đề tài
­ Nghiên cứu và xây dựng chương trình nhận dạng văn bản  ứng với các ngôn  
ngữ tự nhiên như : Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha.
2. Đối tượng và phạm vi nghiên cứu
2.1. Đối tượng

­ Ngôn ngữ tự nhiên là đối tượng nghiên cứu chính của đề tài
2.2. Phạm vi nghiên cứu
­ Tìm hiểu tổng quan về nhận dạng;
­ Tìm hiểu các đặc trưng của ngôn ngữ La tinh.
­ Xây dựng, cài đặt một số kỹ thuật nhận dạng ngôn ngữ La tinh.
3.3. Hướng nghiên cứu của đề tài 
­ Nghiên cứu quá trình Markov hữu hạn trạng thái.


­ Nghiên cứu và xây dựng mô hình Markov ứng với các ngôn ngữ tự nhiên như :  
Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha.
4. Cấu trúc của luận văn
Dự kiến luận văn gồm: Phần mở đầu, ba chương chính, kết luận và 
tài liệu tham khảo cụ thể:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục của luận văn
Chương 1: TỔNG QUAN VỀ NHẬN DẠNG
 Chương này trình bày tổng quan về các hướng nghiên cứu hiện nay  
về nhận dạng.
Chương 2:   TÌM HIỂU KỸ  THUẬT NHẬN DẠNG BẰNG THỐNG  
KÊ 

Chương này trình bày các ứng dụng kỹ thuật thống kê Toán học để 

nhận dạng các ngôn ngữ tự nhiên và tìm hiểu đặc trưng của một số ngôn ngữ tự 
nhiên tiêu biểu.
Chương 3: THỰC NGHIỆM
Nội dung trong phần này là trình bày thuật toán nhận dạng văn bản La  
Tinh và đưa ra kết quả với một số mẫu ngắn ngôn ngữ cho trước .
Phần kết luận: Nhận xét, kết luận và hướng phát triển 
5. Phương pháp nghiên cứu

­ Tìm hiểu và cập nhật các kiến thức và phương pháp cơ  bản về  nhận dạng  
ngôn ngữ tự nhiên, trí tuệ nhân tạo, khảo sát lý thuyết các mô hình, công cụ toán  
học, thiết kế và xây dựng thuật toán, kỹ thuật tổ chức dữ liệu và ngôn ngữ  lập  
trình.
­ Tìm hiểu và xây dựng các đặc trưng ngôn ngữ mà đề tài quan tâm.
­  Tìm đọc các bài báo, các công trình nghiên cứu khoa học liên quan đến chủ đề 
nghiên cứu trong nước và trên thế giới. Cụ thể là các tài liệu kỹ thuật thống kê 
toán học các quá trình Markov; các quy luật ngôn ngữ như là một quá trình ngẫu  
nhiên dừng, không hậu quả; các kỹ  thuật nhận dạng ngôn ngữ  tự  nhiên. Hình 


thành được tổng quan tương đối đầy đủ  về  tình hình nghiên cứu liên quan đến 
chủ đề hiện nay trên thế giới.
­  Lập trình cài đặt một số  kỹ  thuật nhận dạng ngôn ngữ  La Tinh và đánh giá  
kết quả.
6. Ý Nghĩa khoa học của đề tài
­ Kết quả nghiên cứu, tìm hiểu của đề  tài góp phần nhận dạng được các 
loại ngôn ngữ  tự  nhiên, có khả  năng mở  rộng  ứng dụng trong việc xây dựng  
chương trình kiểm soát E­mail đặc biệt là chương trình phân tích bản mã tự 
động. Vấn đề   ở  đây không phải là công nghệ  mà là phương pháp nhận dạng 
ngôn ngữ  tự  nhiên vì vậy khả  năng  ứng dụng sẽ  rất cao trong thực tiễn, đặc 
biệt đối với ANQP hoặc các xí nghiệp vừa và nhỏ  có nhu cầu nhận dạng các 
loại ngôn ngữ tự nhiên. Đó là ý nghĩa khoa học và thực tiễn của đề tài luận văn.
7. Dự kiến kế hoạch đề tài 
Trên   cơ   sở   kế   hoạch   của   Trường   Đại   học   Công   nghệ   Thông   tin   và 
Truyền Thông/Đại học Thái Nguyên gửi tới các học viên, em dự kiến kế hoạch 
hoàn thành luận văn của mình như sau:
Thời gian

T

T
1
2
3
4
5
6

2016

4 5 6 7 8 9 10 11
Công việc thực hiện
Chuẩn bị đề tài, đăng ký đề tài  X
nghiên cứu
Chuẩn   bị   đề   cương,   nộp   và 
X X
bảo vệ đề cương
Tìm   hiểu   tổng   quan   về   nhận 
X X
dạng
­   Hoàn   thành   tìm   hiểu   tổng 
quan về nhận dạng
X X
­ Báo cáo tiến độ lần 1.
­ Tìm hiểu đặc trưng của các 
loại ngôn ngữ tự nhiên 
X
­ Báo cáo tiến độ lần 2.
Hoàn thành cài đặt thử nghiệm


7 ­ Hoàn chỉnh viết báo cáo toàn 
văn.

2017
12

1

2

X

X

3

4

X

X

X

5

6


­ Nộp luận văn.

8

­ Hoàn chỉnh báo cáo, làm slide
­ Bảo vệ luận văn

X

9 Chỉnh   sửa,   hoàn   chỉnh   nộp 
quyển

8. Tài liệu tham khảo
[1]. Nguyễn Viết Thế, Hồ Văn Canh ( 2010), Nhập môn Phân tích thông tin có 
bảo mật, NXB Thông tin và Truyền thông.
[2]. Hồ  Văn Canh, Phạm Quốc Doanh (2002), Thuật toán nhận dạng các ngôn  
ngữ tự nhiên, tr. 3­20.
[3]. Lương Mạnh Bá, Nguyễn Thanh Thuỷ (1999), Nhập môn xử lý ảnh số, Nhà 
xuất bản khoa học và kỹ thuật, tr.154­170.
[4]. Trần Duy Hưng, Nguyễn Ngọc Cường (2002),  Nhận dạng tự  động ngôn  
ngữ  tiếng Anh, Tạp chí "Tin học và điều khiển học", Trung tâm Khoa học 
tự nhiên và Công nghệ Quốc gia số 3/2002.
[5]. Hoàng Minh Tuấn, Một số vấn đề trong xây dựng siêu máy tính chi phí thay  
cho các ứng dụng xử lý thông tin và tính toán khoa học kỹ thuật , Luận văn 
Tiến sĩ kỹ thuật, Mã số 62.52.70.01. tr. 35­55.
[6]. AndrewR.Web.2002.   John   Wiley   &   Sons,   Ltd.  Statistical   Pattern  
Recognition, Second Edition. 
[7]. Richard O Duda, Peter E Hart, David G Stork . Wiley­interscience. “Bayesian 
decision theory”, Pattern Classification, Second Edition: 39­78.

X



[8]. Wilks,   S.   S.   1962.  Mathematical   Statitics.   New   York:   John   Wiley.   Mark 
Stam, Richar M.Low ( 2007 ): Applied Cryptanalysis Breaking ciphers in the 
Real World. A John wiley & sons, Inc, publication 2007. 

Chứng nhận của giáo viên hướng dẫn                               Học viên

                   Hồ Văn Canh                                                   Lê Mạnh Đoan



×