Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (157.95 KB, 7 trang )
<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>
ĐẠI HỌC THÁI NGUYÊN
<b>TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG</b>
<b>ĐỀ CƯƠNG CHI TIẾT LUẬN VĂN THẠC SĨ</b>
TÊN ĐỀ TÀI
<b>NHẬN DẠNG VĂN BẢN MỘT SỐ NGÔN NGỮ LA TINH</b>
Giáo viên hướng dẫn : TS. Hồ Văn Canh
Học viên thực hiện : Lê Mạnh Đoan
Lớp : CK14H
<b>LỜI CẢM ƠN</b>
Trước hết cho phép em chân thành cảm ơn các Thầy giáo, Cô giáo trong khoa
Công nghệ thông tin và các cán bộ, nhân viên phịng Đào tạo Sau đại học, Trường
Đại học Cơng nghệ Thông tin và Truyền thông - Đại học Thái Ngun đã ln
nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập tại
trường.
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học
CK14H - Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái
Nguyên đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với em những kinh
nghiệm học tập, cơng tác trong suốt khoá học.
Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến TS. Hồ Văn Canh, người đã tận
tình giúp đỡ em hình thành và hồn chỉnh luận văn.
Mặc dù đã có nhiều cố gắng, song do sự hạn hẹp về thời gian, điều kiện nghiên
cứu và trình độ, luận văn khơng tránh khỏi những khiếm khuyết. Em chân thành
mong nhận được sự đóng góp ý kiến của các Thầy giáo, Cô giáo và đồng nghiệp.
<i>Một lần nữa em xin cảm ơn!</i>
<i>Thái Nguyên, tháng 05 năm 2016</i>
<b>Người thực hiện luận văn</b>
<b>ĐỀ CƯƠNG CHI TIẾT LUẬN VĂN THẠC SĨ</b>
Tên đề tài:“Nhận dạng văn bản một số ngôn ngữ La tinh”.
Giáo viên hướng dẫn: TS. Hồ Văn Canh
Học viên thực hiện: Lê Mạnh Đoan
Lớp: CK14H
Cơ sở đào tạo: Trường Đại học Công nghệ thông tin và Truyền thông/Đại
học Thái Nguyên.
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 60 48 01
<b>1. Đặt vấn đề</b>
<i><b>1.1. Sự cần thiết lựa chọn đề tài</b></i>
Nhận dạng là một lý thuyết tốn học có nhiều ứng dụng trong thực tiễn, như
nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ ,
xây dựng tiêu chuẩn bản rõ ứng dụng trong phân tích các bản mã v.v..Trên thế giới
cũng như trong nước đã có nhiều nhà nghiên cứu vấn đề này và đã có những phần
nhận dạng chữ, được sự tư vấn của giáo viên hướng dẫn, tôi đã lựa chọn được một
hướng nghiên cứu thiết thực với đề tài: "Nhận dạng văn bản một số ngôn ngữ La
<i>tinh"</i>.
Trong khuôn khổ của luận văn, tôi tập trung nghiên cứu, giải quyết bài tốn
nhận dạng ngơn ngữ tự nhiên dựa vào phân hoạch khơng gian (nhận dạng theo
thống kê tốn học), trong đó một lớp ngơn ngữ tiêu biểu được nghiên cứu đó là
ngôn ngữ La Tinh như tiếng Anh, tiếng Pháp, v.v.
<i><b>1.2. Mục tiêu nghiên cứu của đề tài</b></i>
- Nghiên cứu và xây dựng chương trình nhận dạng văn bản ứng với các ngôn ngữ
tự nhiên như : Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha.
<i><b>2. Đối tượng và phạm vi nghiên cứu</b></i>
<i><b>2.1. Đối tượng</b></i>
- Ngôn ngữ tự nhiên là đối tượng nghiên cứu chính của đề tài
<i><b>2.2. Phạm vi nghiên cứu</b></i>
- Tìm hiểu tổng quan về nhận dạng;
- Tìm hiểu các đặc trưng của ngôn ngữ La tinh.
- Xây dựng, cài đặt một số kỹ thuật nhận dạng ngôn ngữ La tinh.
<b>3.3. Hướng nghiên cứu của đề tài </b>
- Nghiên cứu quá trình Markov hữu hạn trạng thái.
- Nghiên cứu và xây dựng mơ hình Markov ứng với các ngôn ngữ tự nhiên như :
Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha.
<b>4. Cấu trúc của luận văn</b>
Dự kiến luận văn gồm: Phần mở đầu, ba chương chính, kết luận và tài
liệu tham khảo cụ thể:
<i><b>Phần mở đầu: Nêu lý do chọn đề tài và bố cục của luận văn</b></i>
<b>Chương 1: TỔNG QUAN VỀ NHẬN DẠNG</b>
<b>Chương 2: TÌM HIỂU KỸ THUẬT NHẬN DẠNG BẰNG THỐNG KÊ</b>
Chương này trình bày các ứng dụng kỹ thuật thống kê Tốn học để
nhận dạng các ngơn ngữ tự nhiên và tìm hiểu đặc trưng của một số ngơn ngữ tự
nhiên tiêu biểu.
<b>Chương 3: THỰC NGHIỆM</b>
Nội dung trong phần này là trình bày thuật tốn nhận dạng văn bản La Tinh
và đưa ra kết quả với một số mẫu ngắn ngôn ngữ cho trước .
Phần kết luận: Nhận xét, kết luận và hướng phát triển
<b>5. Phương pháp nghiên cứu</b>
- Tìm hiểu và cập nhật các kiến thức và phương pháp cơ bản về nhận dạng ngôn
ngữ tự nhiên, trí tuệ nhân tạo, khảo sát lý thuyết các mơ hình, cơng cụ tốn học,
thiết kế và xây dựng thuật tốn, kỹ thuật tổ chức dữ liệu và ngơn ngữ lập trình.
- Tìm hiểu và xây dựng các đặc trưng ngơn ngữ mà đề tài quan tâm.
- Tìm đọc các bài báo, các cơng trình nghiên cứu khoa học liên quan đến chủ đề
nghiên cứu trong nước và trên thế giới. Cụ thể là các tài liệu kỹ thuật thống kê tốn
học các q trình Markov; các quy luật ngơn ngữ như là một q trình ngẫu nhiên
dừng, khơng hậu quả; các kỹ thuật nhận dạng ngôn ngữ tự nhiên. Hình thành được
tổng quan tương đối đầy đủ về tình hình nghiên cứu liên quan đến chủ đề hiện nay
trên thế giới.
- Lập trình cài đặt một số kỹ thuật nhận dạng ngôn ngữ La Tinh và đánh giá kết
quả.
<b>6. Ý Nghĩa khoa học của đề tài</b>
- Kết quả nghiên cứu, tìm hiểu của đề tài góp phần nhận dạng được các loại
ngơn ngữ tự nhiên, có khả năng mở rộng ứng dụng trong việc xây dựng chương
trình kiểm sốt E-mail đặc biệt là chương trình phân tích bản mã tự động. Vấn đề ở
đây không phải là công nghệ mà là phương pháp nhận dạng ngôn ngữ tự nhiên vì
vậy khả năng ứng dụng sẽ rất cao trong thực tiễn, đặc biệt đối với ANQP hoặc các
xí nghiệp vừa và nhỏ có nhu cầu nhận dạng các loại ngơn ngữ tự nhiên. Đó là ý
nghĩa khoa học và thực tiễn của đề tài luận văn.
<b>7. Dự kiến kế hoạch đề tài </b>
Thông/Đại h c Thái Nguyên g i t i các h c viên, em d ki n k ho ch ho nọ ử ớ ọ ự ế ế ạ à
th nh lu n v n c a mình nh sau:à ậ ă ủ ư
<b>T</b>
<b>T</b>
<b>Thời gian</b>
<b>2016</b> <b>2017</b>
<b>4 5 6 7 8 9 10 11 12</b> <b>1</b> <b>2</b> <b>3</b> <b>4</b> <b>5 6</b>
<b>1</b> Chuẩn bị đề tài, đăng ký đề tài<sub>nghiên cứu</sub> X
2 Chuẩn bị đề cương, nộp và bảo<sub>vệ đề cương</sub> X X
3 Tìm hiểu tổng quan về nhận<sub>dạng</sub> X X
4 - Hồn thành tìm hiểu tổng quanvề nhận dạng
- Báo cáo tiến độ lần 1. X X
5 - Tìm hiểu đặc trưng của cácloại ngôn ngữ tự nhiên
- Báo cáo tiến độ lần 2. X X
6 Hoàn thành cài đặt thử nghiệm X X
7
- Hoàn chỉnh viết báo cáo toàn
văn.
- Nộp luận văn. X X
8
- Hoàn chỉnh báo cáo, làm slide
- Bảo vệ luận văn X
9 Chỉnh sửa, hoàn chỉnh nộp
quyển X
<b>8. Tài liệu tham khảo</b>
<i>[1].</i> Nguyễn Viết Thế, Hồ Văn Canh ( 2010), Nhập môn Phân tích thơng tin có
bảo mật, NXB Thơng tin và Truyền thông.
<i>[2].</i> Hồ Văn Canh, Phạm Quốc Doanh (2002), Thuật tốn nhận dạng các ngơn
<i>ngữ tự nhiên, tr. 3-20.</i>
<i>[4].</i> Trần Duy Hưng, Nguyễn Ngọc Cường (2002), Nhận dạng tự động ngơn ngữ
<i>tiếng Anh, Tạp chí "Tin học và điều khiển học", Trung tâm Khoa học tự nhiên</i>
và Cơng nghệ Quốc gia số 3/2002.
<i>[5].</i> Hồng Minh Tuấn, Một số vấn đề trong xây dựng siêu máy tính chi phí thay
<i>cho các ứng dụng xử lý thơng tin và tính tốn khoa học kỹ thuật</i>, Luận văn
Tiến sĩ kỹ thuật, Mã số 62.52.70.01. tr. 35-55.
<i>[6].</i> AndrewR.Web.2002. John Wiley & Sons, Ltd. Statistical Pattern
<i>Recognition, Second Edition. </i>
<i>[7].</i> Richard O Duda, Peter E Hart, David G Stork . Wiley-interscience. “Bayesian
decision theory”, Pattern Classification, Second Edition: 39-78.
<i>[8].</i> Wilks, S. S. 1962. Mathematical Statitics. New York: John Wiley. Mark
<b>Chứng nhận của giáo viên hướng dẫn Học viên</b>