BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
BÁO CÁO TÓM TẮT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ
NGHIÊN CỨU ĐỀ XUẤT GIẢI PHÁP TỰ ĐỘNG CHUYỂN BẢN TIN
THỜI SỰ ĐÀI TRUYỀN HÌNH SANG NGÔN NGỮ DẤU HIỆU DÀNH
CHO NGƯỜI KHIẾM THÍNH
Mã số: B2013-16-31
Chủ nhiệm đề tài: PGS. TS. NGUYỄN CHÍ NGÔN
Cần Thơ, 12/2015
Thành viên nghiên cứu và thực hiện đề tài:
PGS. TS. Nguyễn Chí Ngôn
MSCB: 1062
Bộ môn Tự Động Hóa, Khoa Công Nghệ, Trường Đại Học Cần Thơ.
KS. Quách Luyn Đa
Trường Đại học Tây Đô
ThS. Trương Thị Thanh Tuyền
MSCB: 1068
Bộ môn Kỹ thuật phần mềm, Khoa Công nghệ Thông tin và Truyền Thông, Trường
Đại Học Cần Thơ.
PGS. TS. Nguyễn Thái Nghe
MSCB: 1352
Bộ môn Hệ thống thông tin, Khoa Công nghệ Thông tin và Truyền Thông, Trường
Đại Học Cần Thơ.
Những sinh viên sau đại học được đào tạo:
1. Trần Bá Duy
Chuyên ngành Thạc sĩ Hệ thống thông tin K17, Khoa Công nghệ thông tin và
Truyền Thông, trường Đại học Cần Thơ.
2. Quách Luyn Đa
Chuyên ngành Thạc sĩ Hệ thống thông tin K19, Khoa Công nghệ thông tin và
Truyền Thông, trường Đại học Cần Thơ.
Đơn vị phối hợp chính:
Trung tâm Nghiên cứu Giáo dục Người khiếm thính (CED) 96/14A Duy
Tân, Phường 15, Q. Phú Nhuận, TP. Hồ Chí Minh.
2
MỤC LỤC
DANH MỤC VIẾT TẮT ..................................................................................................... 4
THÔNG TIN KẾT QUẢ NGHIÊN CỨU ........................................................................... 5
1 Tổng quan tình hình nghiên cứu ....................................................................................... 7
2 Tính cấp thiết .................................................................................................................... 7
3 Mục tiêu ............................................................................................................................ 8
4 Nội dung nghiên cứu ......................................................................................................... 8
5 Kết quả nghiên cứu ........................................................................................................... 8
5.1 Qui trình xây dựng bộ từ điển NNDH ....................................................................... 8
5.2 Chuyển đổi câu tiếng Việt sang cấu trúc NNDH .................................................... 10
5.3 Xây dựng cơ sở dữ liệu............................................................................................ 10
5.4 Cây quyết định ID3 trong chuyển đổi cú pháp ........................................................ 12
5.5 EBMT trong chuyển trật tự từ trong NNDH ........................................................... 13
5.6 Giới thiệu chương trình ........................................................................................... 14
5.7 Thực nghiệm và đánh giá tại cơ sở .......................................................................... 15
6 KẾT LUẬN ..................................................................................................................... 17
7 ĐỀ NGHỊ ........................................................................................................................ 18
TÀI LIỆU THAM KHẢO ................................................................................................. 18
3
DANH MỤC VIẾT TẮT
NNDH
:
Ngôn ngữ dấu hiệu
HamNoSys
:
The Hamburg Sign Language Notation System
CED
:
Trung tâm nghiên cứu giáo dục người khiếm thính Tp.HCM
EBMT
:
Example-based machine translation
TER
:
Translation Error Rate
4
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung
- Tên đề tài: Nghiên cứu đề xuất giải pháp tự động chuyển bản tin thời sự đài
truyền hình sang NNDH dành cho người khiếm thính.
- Mã số: B2013-16-31
- Chủ nhiệm: PGS. TS. Nguyễn Chí Ngôn
- Cơ quan chủ trì: Trường Đại Học Cần Thơ
- Thời gian thực hiện: 2013 – 2015
2. Mục tiêu
Đề xuất giải pháp hỗ trợ biên soạn dựng hình ảnh NNDH Việt từ văn bản tiếng
Việt, ứng dụng trong xây dựng các chương trình thời sự hỗ trợ NNDH dành cho người
khiếm thính.
3. Tính mới và sáng tạo
Nghiên cứu tiên phong trong việc xây dựng công cụ tự động chuyển đổi văn bản
tiếng Việt sang video mô tả NNDH dành cho người Việt khiếm thính, chưa từng được
cộng đồng khoa học trong nước thực hiện. Nghiên cứu đã đóng góp những điểm mới sau:
- Xây dựng mô hình ứng dụng dịch máy vào việc chuyển đổi cấu trúc câu tiếng Việt
sang cấu trúc câu rút gọn của NNDH, với độ chính xác đạt 97,464%.
- Xây dựng được quy trình diễn đạt NNDH Việt trong phần mềm mô tả nhân vật ảo
HamNoSys, với bộ từ điển gồm 2.352 từ, đủ lớn để sử dụng trong thực tế và có công cụ
cho người sử dụng bổ sung từ điển để mở rộng.
- Xây dựng được phần mềm ứng dụng để chuyển văn bản tiếng Việt sang video diễn
đạt NNDH.
4. Kết quả nghiên cứu
Kết quả nghiên cứu cso thể tóm tắt như sau:
- Xây dựng được bộ từ điển NNDH Việt gồm 2.352 từ (đăng ký 1000 từ);
- Xây dựng được quy trình diễn đạt NNDH Việt trong phần mềm mô tả nhân vật ảo
HamNoSys với các động tác chuyển động tay, vai và biểu cảm trên gương mặt gồm cưr
chỉ miệng, mắt…;
- Xây dựng mô hình ứng dụng dịch máy vào việc chuyển đổi cấu trúc câu tiếng Việt
sang cấu trúc câu rút gọn của NNDH, với độ chính xác đạt 97,464%;
- Xây dựng được qui trình và công cụ cho phép biên tập, bổ sung từ điển NNDH
Việt;
- Xây dựng được phần mềm ứng dụng để chuyển văn bản tiếng Việt sang video diễn
đạt NNDH, có thể tích hợp vào việc biên tập bản tin thời sự truyền hình.
- Đã viết được các báo cáo khoa học gồm: báo cáo tổng kết đề tài và bài báo khoa
học đăng trên tạp chí khoa học trong nước.
5
5. Sản phẩm
TT
Tên sản phẩm
1 Bộ dữ liệu chuyển
đổi từ và cụm từ
tiếng Việt mẫu sang
NNDH.
2 Phần mềm chuyển
đổi bản tin thời sự
đài truyền hình sang
NNDH dành cho
người khiếm thính
3 Bài báo khoa học
đăng trên tạp chí
trong nước
Thực tế đạt được
Yêu cầu khoa học
Khoảng 1.000 từ và cụm từ
thông dụng, đảm bảo người
khiếm thính hiểu được nội
dung hơn 95%.
Đảm bảo người khiếm thính
hiểu được nội dung cần
truyền đạt với độ chính xác
hơn 95%
SL đăng ký
1
1
1
(độ chính xác
97,06%)
Dự kiến chủ đề: “Một giải
pháp XD phần mềm chuyển
đổi bản tin thời sự truyền
hình sang NNDH dành cho
người khiếm thính”.
Dự kiến tạp chí: Tin học và
Điều khiển học – ISSN:
1813-9663.
1
1
(T.B. Duy và N. C.
1
(2.352 từ, độ chính
xác 97,464%;)
Ngôn, “Bước đầu NC
xây dựng HT chuyển
đổi văn bản tiếng Việt
sang NNDH,” Tạp chí
KH ĐHĐN, số 1(62),
trang 47-53. ISSN:
1859-1531)
4
Bài báo khoa học
đăng trên kỷ yếu hội
nghị khoa học quốc
tế (tổ chức tại Việt
nam)
Dự kiến chủ đề: “Bước đầu
thực hiện việc chuyển đổi
văn bản tiếng Việt sang đồ
họa NNDH”.
1
5
Đào tạo thạc sĩ
ngành Hệ thống
thông tin
Bảo vệ thành công luận văn
tốt nghiệp thạc sĩ.
1
0
(đã viết và sẽ tham
gia 2016, vì kết quả
đạt được vào cuối
năm nên hết hội
nghị 2015)
2
(1 sẽ bảo vệ
2/2016)
6. Hiệu quả, phương thức chuyển giao kết quả và khả năng áp dụng
- Hiệu quả khoa học: Cung cấp cho ngành Khoa học máy tính và thông tin một giải
pháp để chuyển đổi văn bản tiếng Việt sang đồ họa vi tính NNDH.
- Hiệu quả đào tạo: Bổ sung vào chương trình đào tạo bậc đại học và sau đại học các
ngành Hệ thống thông tin, Công nghệ phần mềm, Điện tử… tại Trường Đại Học Cần Thơ
một công cụ hữu ích, có thể triển khai thực tập các học phần: Xử lý ảnh, Nhận dạng, AudioVideo, thực hiện đồ án môn học, luận văn tốt nghiệp… trên nền tảng của nghiên cứu này.
Ngoài ta, thông qua nghiên cứu này, năng lực nhóm sẽ được nâng lên một bước đáng kể
trong kỹ năng phát triển phần mềm ứng dụng, năng lực giảng dạy cũng được tích lũy qua quá
trình trao đổi trong nhóm.
- Hiệu quả kinh tế: Cung cấp một giải pháp khả thi để tự động dựng đồ họa vi tính
NNDH cho đài truyền hình, giúp giảm thiểu thời gian và chi phí dựng phim bằng người thật.
- Hiệu quả xã hội: Góp phần cụ thể hóa chính sách của Đảng và nhà nước trong việc hỗ
trợ người khiếm thính hòa nhập tốt hơn vào cộng đồng.
- Phương thức chuyển giao: Chuyển giao cho Trung tâm nghiên cứu Giáo Dục người
khiếm thính – CED triển thử nghiệm trong công tác giảng dạy. Sau khi nhận được góp ý và
hoàn thiện sản phẩm, nhóm sẽ chuyển giao cho các đài truyền hình địa phương.
6
1 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
Cộng đồng người khiếm thính mỗi nước tự phát triển một hệ thống NNDH riêng theo
điều kiện lịch sử, văn hóa và ngôn ngữ của họ. Việc chuyển đổi từ văn bản sang NNDH
được nhiều nhóm nghiên cứu trên thế giới quan tâm, chẳng hạn dự án xây dựng công cụ
ViSiCast (ViSiCast, 2012), phần mềm SiSi – Say it Sign it System của IBM (Al-Ohali,
2010), phần mềm Vcom3D – Sign Smith Studio (Jason Stewart, 2012), công cụ Sign to
me của (Waterfall Rainbows, 2005),… Theo Stewart (2012), với việc ứng dụng các công
cụ Computer Character Annimation hay Virtual Signer là một cách tiếp cận tốt, mềm dẽo
và thuận tiện trong giải quyết vấn đề xây dựng đồ họa vi tính cho NNDH.
Liên quan đến vấn đề nghiên cứu về ngôn ngữ tiếng Việt nhiều nhóm tác giả trong
nước đã quan tâm trong những năm qua, chẳng hạn nhóm Hồ Tường Vinh và ctv (2008),
nhóm Nguyễn Quốc Thể và cộng sự (2009), … Nổi bậc hơn hết, có thể kể đến đề tài
KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và
văn bản tiếng Việt" thuộc Chương trình Khoa học Công nghệ cấp Nhà nước KC01/06-10
đã rất thành công trong việc "Xử lí văn bản tiếng Việt" (VLSP, 2012; Hồ Tú Bảo,
KC01.01/06-10). Tuy nhiên, qua tìm hiểu chúng tôi thấy rằng trong và ngoài nước hiện
tại chưa có công trình nghiên cứu hay sản phẩm nào liên quan đến việc chuyển đổi văn
bản Tiếng Việt sang NNDH Việt. Các sản phẩm hiện có chỉ dừng lại ở việc xây dựng các
bộ từ điển, DVD dạy NNDH Việt dưới dạng video (Cao Thị Xuân Mỹ 2004, 2007;
Nguyễn Thị Hoàng Yến, 2006), kể cả việc dạy NNDH trên đài truyền hình Việt Nam
trong thời gian gần đây.
Có thể nói, việc tự động chuyển đổi văn bản tiếng Việt sang NNDH cho người
khiếm thính Việt Nam là một hướng nghiên cứu ứng dụng còn rất mới mẽ ở trong nước,
mà hiện tại nhóm nghiên cứu chưa tìm thấy được công bố nào thực hiện nhiệm vụ này.
Mục đích của nghiên cứu này nhằm chuyển đổi văn bản Tiếng Việt sang động tác tương
ứng của NNDH tiếng Việt. Các động tác của NNDH sẽ được một nhân vật ảo dạng 3D
(virtual signer) thể hiện một cách mềm mại, sống động. Kết quả của nghiên cứu là nền
tảng để phát triển các ứng dụng liên quan như: xây dựng phần mềm hỗ trợ biên soạn các
đoạn video thể hiện tin tức thời sự, clip giải trí dành cho người khiếm thính từ các văn
bản tiếng Việt dùng trong truyền hình; xây dựng website cho phép thực hiện chuyển đổi
trực tuyến; hay xây dựng phần mềm hỗ trợ học NNDH,…
2 TÍNH CẤP THIẾT
Theo số liệu của Tổng cục Thống kê năm 2009, Việt Nam có khoảng 6,7 triệu người
khuyết tật, trong đó hơn 1 triệu người khiếm thính, chiếm khoảng 6,3% dân số. Như vậy,
dạng khuyết tật về thính lực chiếm tỉ lệ khá lớn trong các dạng khuyết tật nói chung của
người Việt. Đảng và nhà nước ta đã và đang ban hành các chủ trương, chính sách nhằm
giúp người tàn tật hòa nhập cộng đồng. Theo đó, Hội Người khuyết tật thành phố Hà Nội
phối hợp với Viện Khoa học Giáo dục Việt Nam, Ban Khoa giáo Đài THVN đang tích
cực phát triển chương trình "Dạy ngôn ngữ ký hiệu trên truyền hình" (Bảo Minh, 2012 –
Báo Giáo dục và Thời đại).
Mặc dù bản tin thời sự Truyền hình Việt nam VTV2 có thông tin bằng NNDH. Tuy
nhiên, việc xây dựng bản tin truyền hình NNDH bằng người thật sẽ mất nhiều thời gian
và chi phí. Vì vậy, một nhu cầu cấp thiết đặt ra là phải nghiên cứu và sử dụng nhân vật ảo
cho mục đích này để khắc phục những hạn chế của việc dựng phim, giảm thiểu chi phí và
7
thời gian sản xuất phim bằng người thật mà vẫn đáp ứng được yêu cầu truyền đạt thông
tin đến đối tượng là người khiếm thính, giúp họ hòa nhập cộng đồng tốt hơn.
3 MỤC TIÊU
Nghiên cứu nhằm đề xuất giải pháp hỗ trợ biên soạn dựng hình ảnh NNDH Việt từ văn
bản tiếng Việt, ứng dụng trong xây dựng các chương trình thời sự hỗ trợ NNDH dành cho
người khiếm thính.
4 NỘI DUNG NGHIÊN CỨU
Các nội dung nghiên cứu mà đề tài đã đăng ký gồm có:
-
Nội dung 1: Xây dựng công cụ ánh xạ 1:1 giữa bộ từ vựng tiếng Việt khoảng
1.000 từ, cụm từ thường dùng trong các bản tin thời sự địa phương và NNDH
tương ứng.
-
Nội dung 2: Xây dựng giao diện người dùng để nhập bản tin thời sự và hiển thị đồ
họa nhân vật ảo.
-
Nội dung 3: Phân tích ngữ nghĩa bản tin thời sự tiếng Việt và chuyển đổi sang
“ngôn ngữ trung gian” – cấu trúc rút gọn của NNDH.
-
Nội dung 4: Xây dựng nhân vật ảo và thư viện đồ họa NNDH cho nhân vật ảo.
-
Nội dung 5: Dựng đồ họa NNDH cho nhân vật ảo tương ứng với bản tin thời sự
truyền hình được nhập vào cửa sổ văn bản của giao diện người dùng.
-
Nội dung 6: Thử nghiệm với bản tin thời sự truyền hình và đánh giá phần mềm.
5 KẾT QUẢ NGHIÊN CỨU
5.1 Qui trình xây dựng bộ từ điển NNDH
Như trình bày ở chương 2, từ trong NNDH được cấu thành dựa trên 5 yếu tố: (i)Vị trí làm
kí hiệu, (ii)Hình dạng bàn tay, (iii)Chuyển động của bàn tay, (iv)Chiều hướng lòng bàn
tay, và (v)Sự diễn đạt không bằng tay.
HamNoSys đã cung cấp 200 biểu tượng bao gồm hình dạng, vị trí, cấu hình và
chuyển động của bàn tay. Thứ tự của các biểu tượng trong một chuỗi cố định, nhưng vẫn
có thể viết ra một dấu hiệu ở nhiều cách khác nhau. Một từ trong NNDH gồm 1 chuỗi
liên tiếp các hành động, chính vì vậy các trạng thái hình dạng, phương hướng và vị trí
bàn tay so với các vị trí khác trên cơ thể tại một thời điểm này sẽ được chuyển đến hành
động tương ứng ở một thời điểm khác sẽ sử dụng sự chuyển hướng bàn tay để thay đổi
trạng thái, tạo sự liền mạch trong quá trình chuyển trạng thái của một từ. Bên cạnh đó,
Hamnosys còn cho phép sử dụng các dạng ký hiệu không bằng tay như:
- Khẩu hình miệng: Cung cấp 2 kiểu gán hành động:
o Dựa trên từ được đưa vào: Sử dụng 1 đơn vị từ được đưa vào và HamNoSys sẽ
xây dựng hành động tương ứng với từ đó. Tuy nhiên, hành động này trong
tiếng Việt có độ chính xác tương đối thấp vì chương trình mới hỗ trợ cho tiếng
Anh.
8
-
-
-
-
-
-
o Dựa trên hành động đã được HamNoSys xây dựng: HamNoSys cung cấp 71
hành động được chia làm 5 nhóm, được mã hóa theo chữ cái viết hoa và 2 số
xác định đối với mỗi di chuyển.
Cử động cơ thể: là dấu mốc cho sự thay đổi trạng thái, có 10 mã cử động cụ thể
với các hành động tương ứng như: quay trái, quay phải, … Ví dụ: để diễn đạt từ
cám ơn, cần phải gập người.
Cử động đầu: các hành động gật đầu, lắc đầu,…thể hiện một trạng thái kèm theo
một từ trong NNDH để diễn đạt được đầy đủ ý nghĩa của từ. HamNoSys cung
cấp 11 cử động để kèm theo quá trình diễn đạt từ trong NNDH.
Cử động vai: Nhìn chung, vai là một hành động ít được chú ý trong ngôn ngữ nói
và ngôn ngữ kí hiệu cũng vậy. Tuy nhiên, một số từ thể hiện sự đồng ý hay
không đồng ý cũng cần sự hỗ trợ của vai và cách di chuyển vai để thể hiện đầy
đủ nghĩa của từ. HamNoSys cung cấp 9 mã cử động vai cụ thể.
Trạng thái mắt: Mắt đóng vai trò quan trọng trong việc diễn đạt ngôn ngữ, thể
hiện tình cảm mà người dùng muốn truyền đạt như: trố mắt để thể hiện sự kinh
ngạc,…HamNoSys cung cấp 11 mã cử động vai.
Trạng thái chân mày: giận dỗi, cau có, … đều được thể hiện trên chân mày. Tuy
nhiên, trong NNDH được diễn đạt trên truyền hình này không cần thiết.
HamNoSys cung cấp 4 mà chuyển động.
Trạng thái của mi mắt: Ít được quan tâm đối với nhân vật diễn đạt là người thật,
nhưng đối với nhân vật ảo cần tạo nét sinh động cho nhân vậy nên cần sự hỗ trợ
của trạng thái này. HamNoSys cung cấp 13 mã hành động cho trạng thái mi mắt.
Qui trình xây dựng NNDH trên một tay, được xác định như sau:
- Bước 1: Xác định hình dạng bàn tay, bao gồm các hình dạng cơ bản và kết hợp
với vị trí ngón cái, vị trí mở rộng, kết nối với ngón cái và độ mở của ngón cái và
các kí hiệu mở rộng. Bên cạnh đó, độ mở của các ngón tay có thể thay đổi và
thêm ngón. Cuối cùng, muốn thể hiện ý nghĩa trung gian giữa 2 ký tự HamNoSys
thì có thể sử dụng dấu “\”.
- Bước 2: Lựa chọn phương hướng bàn tay, bao gồm 2 thông soosL hướng ngón
tay và hướng lòng bàn tay. Có 2 bước thực hiện: (i) đầu tiên, xác định hướng của
trục bàn tay, (ii) tiếp theo, xác định việc định hướng bàn thay dọc theo trục thân
người, và (iii) ký hiệu “\” được dùng để mô tả ký hiệu trung gian.
- Bước 3: Xác định vị trí, tổng cộng có 41 biểu tượng, trong đó 17 biểu tượng tham
chiếu bàn tay và ngón tay, 6 ký hiệu mô tả khoảng cách không gian. Và ký hiệu
“\” được dùng để diễn tả sự trung gian giữa 2 vị trí.
- Bước 4: Để chuyển đổi trạng thái, vị trí làm kí hiệu. Các cách di chuyển gồm trực
tiếp, gián tiếp, di chuyển thay thế, di chuyển theo đường thẳng, đường cong,
đường vòng hay lặp lại. Và quay lại bước 1.
Ngoài ra, HamNoSys còn được thiết kế để sử dụng cho cả 2 tay với các kí hiệu trục
đứng hay trục ngang, tay chiếm thế chủ động hay khác nhau, chuyển động đối xứng hay
bất đối xứng. Cuối cùng là sự lựa chọn các ký hiệu diễn đạt không bằng tay, như miệng,
thân, vai, mắt, …
Nghiên cứu đã xây dựng được một tập dữ liệu gồm có 2.352 từ diễn tả NNDH.
9
5.2 Chuyển đổi câu tiếng Việt sang cấu trúc NNDH
Trật tự từ trong NNDH gắn liền với các trật tự từ trong cụm danh từ, cụm động từ và các
câu. Với các câu được chia ra làm 3 loại:
- Trật tự từ trong câu khẳng định: với vị trí các cụm động từ, cụm danh từ và bổ
ngữ được thể hiện ở các vị trí khác nhau.
- Trật tự từ trong câu nghi vấn: được xác định dựa trên từ để hỏi nằm ở cụm danh
từ hay bổ ngữ để sắp xếp vị trí của từ trong câu.
- Các loại trật tự từ trong ngữ trạng từ.
Nhìn chung, các trật tự từ gắn liền với cụm từ và loại từ để xác định vị trí và loại
câu. Để phân tích được loại câu, chương trình dựa trên từ loại để xác định câu thuộc loại
nào? Qua thống kê, kết quả nghiên cứu trong chương trình nghiên cứu JVnTagger phiên
bản 1.6 được xây dựng trong khuông khổ đề tài cấp nhà nước VLSP của nhóm Hồ Tú
Bảo và ctv (2006) với 9.229 câu với 15.2076 từ loại và 70.180 cụm từ (đã loại bỏ số cụm
được xác định là dấu câu).
Cấu trúc câu của NNDH khác biệt lớn và hầu như không có quy luật, do vậy, nghiên
cứu áp dụng 2 thuật toán: Khai phá dữ liệu cây quyết định ID3 và EBMT trong chuyển
đổi cú pháp.
5.3 Xây dựng cơ sở dữ liệu
Nghiên cứu tiến hành quá trình xử lý văn bản đối với 740 các câu đầu vào được định
dạng như sau:
STT
01
02
03
…
Câu
giáo viên thích nho.
giáo viên thích những quả nho xanh.
giáo viên ăn quả cóc xanh.
…
Quá trình tiền xử lý văn bản, được thực hiện như sau:
Tách từ: Thực hiện bởi chương trình VnTokenizer, với kết quả có được dạng sau:
STT
Câu
01
Giáo_viên thích nho.
02
Giáo_viên thích những quả nho xanh.
03
Giáo_viên ăn quả cóc xanh.
…
…
Gán nhãn từ loại tiếng Việt: thực hiện bởi chương trình JvnTagger, kết quả dạng sau:
TT
Câu
01
giáo_viên/N thích/V nho/N ./.
02
giáo_viên/N thích/V những/L quả/Nc nho/N xanh/A ./.
03
giáo_viên/N ăn/V quả/Nc cóc/N xanh/A ./.
…
…
10
Đánh số thứ tự của từ loại theo thứ tự từ loại, với định dạng như sau:
Word1/type1Index1 Word2/type2Index2 Word3/type3Index3…. WordN/ typeNIndexN
TT
01
02
03
…
Câu
giáo_viên/N1 thích/V2 nho/N3 ./.
giáo_viên/N1 thích/V2 những/L3 quả/Nc4 nho/N5 xanh/A6 ./.
giáo_viên/N1 ăn/V2 quả/Nc3 cóc/N4 xanh/A5 ./.
…
Kết hợp với kết quả được chuyển đổi theo trật tự từ của NNDH và được kiểm tra bởi các
thành viên trong Trung tâm nghiên cứu giáo dục người khiếm thính (CED) - thành phố
Hồ Chí Minh, ta có kết quả chuyển đổi dạng sau:
TT
01
02
03
…
Câu
giáo_viên/N1 thích/V2 nho/N3 ./.
giáo_viên/N1 thích/V2 những/L3
quả/Nc4 nho/N5 xanh/A6 ./.
giáo_viên/N1 ăn/V2 quả/Nc3 cóc/N4
xanh/A5 ./.
…
Câu chuyển đổi
giáo_viên/N1 nho/N3 thích/V2 ./.
giáo_viên/N1 nho/N5 xanh/A6
thích/V2 ./.
giáo_viên/N1 cóc/N4 xanh/A5 ăn/V2
./.
Quá trình chọn lọc kết quả từ loại, được kết quả như sau:
Type1 type2 type3 type4 …
typeN
classifier
N1
N2
P3
E2
N3
…
True True True False False …
…
C25 Classifier
False N2 P3 N1 .
Tóm lại, quá trình xây dựng cơ sở dữ liệu được mô tả tóm tắt trên Hình 1.
Hình 1: Quá trình xây dựng dữ liệu
11
5.4 cây quyết định ID3 trong chuyển đổi cú pháp
5.4.1 Huấn luyện
Lấy danh sách các từ loại:
- Đầu vào: Dữ liệu sau quá trình tiền xử lý văn bản
- Đầu ra: Danh sách các thuộc tính
- Giải thuật:
GetListAttribute (Tập_dữ_liệu)
Khai báo tập_thuộc_tính
While tập_dữ_liệu ≠
Lấy danh_sách_từ_loại trong câu ra xét
While danh_sách_từ_loại ≠
If từ_loại đang được xét không nằm trong
danh_sách_tập_thuộc_tính
Thêm từ_loại vào danh_sách_tập_thuộc_tính
End If
End
End
Tạo tập dữ liệu huấn luyện:
- Đầu vào: Tập dữ liệu và tập thuộc tính
- Đầu ra: Tập dữ liệu huấn luyện được định dạng:
Type1
T/F
T/F
…
T/F
Type2
T/F
T/F
Type3
T/F
T/F
…
…
…
TypeN
T/F
T/F
classifier
Class1
Class2
T/F
T/F
…
T/F
ClassN
Quá trình học:
Hệ thống được huấn luyện trên tập dữ liệu huấn luyện để nhận mô hình phân lớp cây
quyết định ID3, có được tập luật gồm có 695 luật, với kết quả như sau:
1. N1 P3
N2
N2 P3 N1.
2. N1 P3
N2
A4
N1 N2 P3 A4.
…
695. V1
N3
L2
N5
V1 N3 N5.
5.4.2 Nhận dạng và phân lớp
Nhận dạng được thực hiện trên tập dữ liệu nhận dạng. Nghiên cứu tiến hành kiểm tra tỉ lệ
lỗi trong quá trình chuyển đổi trật tự cú pháp của câu tiếng Việt sang trật tự từ theo
NNDH.
Nghiên cứu tiến hành kiểm tra độ chính xác của câu dựa trên tỉ lệ lỗi bằng công cụ
TER, với câu được chuyển đổi sẽ được đánh mã tương ứng làm 2 tập dữ liệu:
- File chứa các văn bản tham khảo, được định dạng như sau:
12
Sentence1 (SignVNTP1)
….
SentenceN (SignVNTPN)
- Hyp_file: là file chứa các văn bản giả thuyết.
Sentence1 (SignVNTP1)
….
SentenceN (SignVNTPN)
- Output_prefix: file chứa đầu ra sau khi chạy lệnh. Kết quả thực hiện đối với tập
dữ liệu 740 câu có tỉ lệ lỗi 26.461%, và nội dung file output_prefix có dạng sau:
Sent Id
| Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER
------------------------------------------------------------------------------------SignVNTP1:1
| 0 | 0 | 0 | 0 | 0 | 0.0 | 4.000 | 0.000
SignVNTP2:1
| 0 | 0 | 0 | 0 | 0 | 0.0 | 4.000 | 0.000
SignVNTP3:1
| 0 | 0 | 0 | 0 | 0 | 0.0 | 4.000 | 0.000
…
SignVNTP738:1
| 0 | 10 | 0 | 0 | 0 | 10.0 | 14.000 | 71.429
SignVNTP739:1
| 0 | 32 | 1 | 0 | 0 | 33.0 | 35.000 | 94.286
SignVNTP740:1
| 0 | 18 | 1 | 1 | 1 | 20.0 | 21.000 | 95.238
------------------------------------------------------------------------------------TOTAL
| 19 | 940 | 113 | 128 | 134 | 1200.0 | 4535.000 | 26.461
5.5 EBMT trong chuyển trật tự từ trong NNDH
Áp dụng mô hình EBMT (Example-based machine translation), với quá trình so khớp sử
dụng độ đo theo tỉ lệ:
Tổng số từ có trong câu
=
Tổng số từ trong câu
Trong đó, quan tâm nhiều đến dấu kết thúc của câu, với quá trình thực hiện được
nhận diện như sau:
- Đầu vào: Câu, Tập_dữ_liệu
- Đầu ra: Câu sau khi chuyển đổi
- Giải thuật:
Khai báo giá trị max và luật (nhận được khi nhận diện)
While tập_dữ_liệu ≠
Khai báo biến đếm count=0;
Nhận diện câu trong luật đang được kiểm tra và trả kết quả so khớp
là count;
Khai bao biến tile = count/tổng_số_từ_trong_câu;
If tile > max
max = tile;
luật = luật đang xét;
End if
End
End
13
Với quá trình tái tổ hợp đối với tập dữ liệu 740 câu, bằng cách sử dụng công cụ
TER với định dạng tương tự như đối với dữ liệu nhận diện cây quyết định, kết quả thu
được với tỉ lệ lỗi là 2.536%, và tập kết quả output_prefix lúc này có nội dung dạng sau:
Sent Id
| Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER
------------------------------------------------------------------------------------SignVNTP1:1
| 0 | 0 | 0 | 0 | 0 | 0.0 | 4.000 | 0.000
SignVNTP2:1
| 0 | 0 | 0 | 0 | 0 | 0.0 | 4.000 | 0.000
SignVNTP3:1
| 0 | 0 | 0 | 0 | 0 | 0.0 | 4.000 | 0.000
…
SignVNTP738:1
| 0 | 0 | 0 | 0 | 0 | 0.0 | 14.000 | 0.000
SignVNTP739:1
| 0 | 0 | 1 | 0 | 0 | 1.0 | 35.000 | 2.857
SignVNTP740:1
| 0 | 0 | 0 | 0 | 0 | 0.0 | 21.000 | 0.000
------------------------------------------------------------------------------------TOTAL
| 9 | 59 | 20 | 27 | 28 | 115.0 | 4535.000 | 2.536
Tóm lại, cách tiếp cận sử dụng phương pháp EBMT có độ chính xác 97.464%, cao
hơn so với phương pháp tiếp cận sử dụng máy học cây quyết định ID3 (73.539%).
Nguyên nhân dẫn đến kết quả chênh lệch là do tập dữ liệu huấn luyện với số câu còn ít.
5.6 Giới thiệu chương trình
Giao diện chương trình như Hình 2, gồm 7 vùng, với các chức năng như sau:
- Vùng 1: Thanh menu chức năng.
- Vùng 2: Vùng nhập văn bản
- Vùng 3: Nút chức năng thực hiện việc chuyển đổi: tách từ tiếng Việt, gán
nhãn cú pháp và số thứ tự, chuyển đổi trật tự từ và hiển thị kết quả ra vùng 4.
- Vùng 4: Hiển thị kết quả sau khi thực hiện việc chuyển đổi.
- Vùng 5: Nút lệnh gửi dữ liệu qua vùng 6 diễn đạt.
- Vùng 6: Avata diễn đạt NNKH.
- Vùng 7: Thanh điều chỉnh tốc độ diễn đạt của avata..
Hình 2: Giao diện chính của chương trình
14
5.7 Thực nghiệm và đánh giá tại cơ sở
5.7.1 Nội dung thực nghiệm
Nghiên cứu đã trích chọn từ 3 bản tin thời sự đã phát của Đài truyền hình TP. Cần
Thơ. Từ đó, tiến hành biên dịch, cho chuyên gia NNDH kiểm tra, kết xuất và lồng ghép
các video mô tả NNDH tương ứng vào bản tin thời sự.
Đoạn tin thời sự số 1 (Hình 3):
Tin gốc: Tết 2016, TT QL và điều hành vận tải khách công cộng Tp.HCM sẽ tăng
868 tuyến xe buýt để phục vụ cho nhân dân. Có 15 tuyến tăng chuyến tập trung cho các
chuyến có điểm đi đến các điểm vui chơi, du lịch và bến xe đi các tỉnh. Chuyến xe đi
Đồng Nai và Bình Dương cũng được tăng tuyến do lượng khách tăng. Bến Thành tới Đại
học Quốc Tế và Bến Thành tới Đại học Tôn Đức Thắng ngưng hoạt động do sinh viên
nghỉ lễ.
Bản dịch: Tết - 2016 - TT - QL - và - điều hành - vận tải - khách - công cộng TP.HCM - tăng 868 - xe buýt - tuyến - sẽ - để -phục vụ - nhân dân. 15 – tuyến – có –
chuyến – tăng – tập trung – chuyến – đến – nơi – vui chơi – du lịch – bến xe – các tỉnh.
Đồng Nai – tới – Bình Dương – tuyến – tăng – do – khách hàng – tăng. Bến Thành – tới –
đại học – quốc tế – và – bến thành – tới – đại học – tôn đức thắng – chạy – luôn – do –
sinh viên – lễ - nghỉ.
Hình 3: Bản tin thời sự số 1
Đoạn tin thời sự số 2 (Hình 4):
Tin gốc: Kiểm tra chính sách dân tộc tại quận Ô Môn năm 2015. Quận có 7 dân tộc
thiểu số với trên 7 ngàn người, chủ yếu là Khme và Hoa. 2015, quận hỗ trợ xây dựng 4
căn nhà đại đoàn kết và hỗ trợ vay vốn cho người dân tộc trên 2 tỷ 8 trăm triệu đồng. Đầu
2015 hộ nghèo có 210 giảm còn 118, hộ sử dụng nước sạch chiếm 99,3%. Công tác nâng
cao dân trí được thực hiện tốt. Qua kiểm tra, ông Lương Văn Trừ - Trưởng ban dân tộc
thành phố yêu cầu quận: khai thác chức năng của khu văn hóa – thể dục thể thao của
quận phục vụ cho người dân, hoàn thành 2 hạng mục điện nước ở phường Trường Lạc.
Bản dịch: Chính sách - dân tộc - tại - quận - Ô Môn - Kiểm tra - năm - 2015. Quận
- dân tộc thiểu số - 7 - có - với - người - 7 ngàn - hơn, Khơ me - và – Hoa - chủ yếu. 2015
- quận - xây dựng - hỗ trợ - nhà - đại đoàn kết - và - hỗ trợ - người dân tộc - vốn - vay – 2
- tỷ - 8 - trăm - triệu - đồng- hơn. Đầu - 2015 – gia đình - nghèo - 210 - giảm - 118, gia
đình - 99,3%. - nước - sạch – sử dụng. Công tác - dân trí - nâng cao - thực hiện - tốt. Khi
- kiểm tra, Lương - Văn - Trừ - ban - dân tộc - thành phố - Trưởng - yêu cầu - quận: khai
15
thác - chức năng - khu - văn hóa - của – thể dục thể thao - quận - của - phục vụ - người
dân - hoàn thành - hạng mục - 2 - điện - nước - ở - phường - Trường - Lạc.
Hình 4: Bản tin thời sự số 2
Đoạn tin thời sự số 3 (Hình 5):
Tin gốc: Hôm nay, ban ATGT quận Ninh Kiều tiến hành tháo dỡ và thu nhỏ lại
phần vòng xoay Võ Văn Kiệt và Nguyễn Văn Cừ bán kính từ 13 mét xuống còn 9 mét.
Đây là điểm đen về ùn tắc giao thông vào giờ cao điểm. 2015 ban ATGT đầu tư 9 trăm
triệu đồng để lắp đặt hệ thống đèn đường giao thông. Từ 7 tháng 12 năm 2015 việc lưu
thông qua tuyến đường này được điều tiết qua tín hiệu đèn nhưng không hiệu quả do
vòng xoay lấn phần mặt đường. Việc thu nhỏ vòng xoay là biện pháp để giải quyết vấn
đề. Sau đó, quận sẽ nâng cấp lại mặt đường, kẻ lại biển báo và vạch đường.
Bản dịch: Hôm nay - sáng, ban - ATGT - quận - Ninh - Kiều - tiến hành - tháo dỡ và - thu nhỏ - Võ Văn Kiệt - và - Nguyễn Văn Cừ - vòng xoay - bán kính - 13 mét – giảm
- 9 mét. Đây - đen - điểm - giao thông - ùn tắc - cao điểm - giờ. 2015 - ban - ATGT - đầu
tư – 9 - trăm - triệu - đồng - hệ thống - đèn - đường - giao thông - lắp. 7 - tháng - 12 năm - 2015 - xe - lưu thông - tuyến đường – này - được - tín hiệu - đèn - điều tiết - nhưng
- hiệu quả - không – vì - vòng xoay - đường - mặt - lấn - thu nhỏ - vòng xoay - là - biện
pháp - giải quyết - vấn đề. Sau đó - quận - nâng cấp đường - mặt - lại - sẽ , biển báo - và vạch - đường - kẻ - lại.
Hình 5: Bản tin thời sự số 3
16
5.7.2 Khảo sát mức độ hiểu nội dung các bản tin trên người khiếm thính
Sau khi hoàn tất 3 đoạn clips trên, nhóm nghiên cứu tiến hành khảo sát khoảng 98 người
khiếm thính thuộc: Câu lạc bộ NNDH Thành phố Cần Thơ, CED và Câu lạc bộ NNDH
Thành phố Hồ Chí Minh. Bản khảo sát được trình bày ở Phục lục A.
Kết quả khảo sát như sau:
- Bản tin thời sự số 1:
o Tổng số câu khảo sát: 98 người x 5 câu/người = 490 câu
o Số câu trả lời đúng: 476 (tỉ lệ 97,14%).
- Bản tin thời sự số 2:
o Tổng số câu khảo sát: 98 người x 6 câu/người = 588 câu
o Số câu trả lời đúng: 562 (tỉ lệ 95,58%).
- Bản tin thời sự số 3:
o Tổng số câu khảo sát: 98 người x 2 câu/người = 196 câu
o Số câu trả lời đúng: 193 (tỉ lệ 98,47%).
- Có 95/98 người (tỉ lệ 96,94%) người nhận xét nhân vật ảo mô tả chính xác
NNDH từ mức trung bình trở lên.
- Có 100% người khiếm thính “Rất quan tâm” đến chương trình;
- Có 100% người khiếm thính đánh giá chương trình là “Rất cần thiết” đối
với họ.
Từ kết quả khảo sát, thống kê cho thấy mức độ hiểu nội dung của người khiếm thính
được khảo sát trung bình là 97.06% và họ rất kỳ vọng vào việc ứng dụng phần mềm này.
6 KẾT LUẬN
Qua thời gian thực hiện, nghiên cứu đã gặp không ít khó khan, nhất là việc ứng
dụng máy dịch, do dữ liệu huấn luyện còn giới hạn. Thêm vào đó, dịch máy hỗ trợ việc
dịch chuyển đổi từ ngôn ngữ này sang ngôn ngữ khác, nhưng chưa còn hạn chế về dịch
chuyển đổi cấu trúc trong cùng một ngôn ngữ. Ngoài ra, tài liệu nghiên cứu về NNDH
Việt còn nhiều hạn chế, chưa được chuẩn hóa và công bố chính thống. Với mong muốn
tạo được một bước tiền đề cho sự phát triển và thống nhất NNDH Việt Nam, nghiên cứu
đã đạt được một số kết quả sau:
- Đã nắm được mô hình ứng dụng dịch máy vào việc dịch chuyển đổi cấu trúc câu
tiếng Việt sang cấu trúc rút gọn của NNDH Việt.
- Đã thiết lập được công cụ và qui trình xây dựng NNDH trong HamNoSys, với bộ
từ điển 2.352 từ và có khả năng mở rộng trong quá trình sử dụng.
- Đã xây dựng được chương trình máy tính cho phép chuyển đổi bản tin thời sự
truyền hình sang video diễn tả NNDH, với cơ chế cho phép biên tập, sửa đổi, bổ sung
nhằm nâng cao cao chính xác và cơ sở dữ liệu.
Tuy vậy, chương trình chuyển đổi còn vài hạn chế như sau:
- Việc thiết lập cơ sở dữ liệu phục vụ quá trình chuyển đổi ngữ pháp tiếng Việt sang
ngữ pháp NNDH còn hạn chế, nhất là những nội dung liên quan đến chính trị - xã hội,
dẫn đến độ chính xác quá trình dịch máy còn cần tiếp tục cải thiện, thông qua việc bổ
sung cơ sở dữ liệu và huấn luyện lại công cụ nhận dạng.
- Sử dụng NNDH để diễn đạt một nội dung văn bản dấu hiệu luôn chậm hơn so
nhiều so với sử dụng tiếng nói, vì vậy, việc chuyển tải nội dung bản tin thời sự truyền
hình sang NNDH đòi hỏi phải tóm tắt văn bản trước khi tiến hành biên dịch bằng phần
mềm.
17
7 ĐỀ NGHỊ
Từ những hạn chế nêu trên, nghiên cứu này đề xuất tiếp tục phát triển hệ thống theo
hướng tích hợp lên website để cộng đồng tham gia biên tập, bổ sung từ điển đồ họa
NNDH. Khi cơ sở dữ liệu đủ lớn, việc áp dụng các phương pháp máy dịch thống kê sẽ trở
nên dễ dàng hơn, giúp cho việc lựa chọn một phương pháp có độ chính xác cao và tốc độ
xử lý nhanh trở nên dễ dàng hơn.
TÀI LIỆU THAM KHẢO
Brown, P. F., Pietra, V. J. D., Pietra, S. A. D., and Mercer, R. L., 1993. “The mathematics of statistical
machine translation: parameter estimation, ”. Computational Linguistics, No. 19(2), pp. 263–311.
Cao Thị Xuân Mỹ, 2014. “Tìm hiểu quy luật diễn đạt bằng kí hiệu giao tiếp của người khiếm thính Việt
Nam,” Đề tài NCKH cấp Bộ, ĐH Sư phạm TP. Hồ Chí Minh.
Cao Thị Xuân Mỹ, 2004. “Từ điển NNDH Việt VsDic,” ĐH Sư phạm Tp. HCM.
Cao Thị Xuân Mỹ, 2007. “CD Hỗ trợ trẻ khiểm thính bậc tiểu học,” ĐH Sư phạm Tp. HCM.
Chai, X., G., Li, 2013. “Sign Language Recognition and Translation with Kinect,” Microsoft Research
Asia, the FiDiPro Program of Tekes and Natural Science Foundation of China under contracts Nos.
61001193 and 60973067.
Chéragui, M.A., 2012. “Theoretical Overview of Machine translation,” Proc. ICWIT 2012, p.160-169.
Cranias, L., H. Papageorgiou and S. Piperidis, 1994. “A Matching Technique in Example-Based Machine
Translation,” in Coling, pp. 100–104.
Cranias, L., H. Papageorgiou and S. Piperidis, 1997. “Example Retrieval from a Translation Memory,”
Natural Language Engineering 3, pp. 255–277.
Diệp Quang Ban, 2009. “Ngữ pháp tiếng Việt,” NXB Giáo dục Việt Nam.
Đỗ Thanh Nghị, Lê Thanh Vân, 2012. “Giáo trình Các hệ tri thức và khai thác dữ liệu,” NXB Đại học
Cần Thơ.
Đỗ Thị Hiên và cộng sự, 2012. “Ngôn ngữ kí hiệu của cộng đồng người khiếm thính Việt Nam: thực
trạng và giải pháp,” Đề tài NCKH cấp Bộ, Viện Khoa học xã hội Việt Nam.
Đỗ Thị Hiên, 2014. “Lựa chọn ngôn ngữ cho hoạt động dạy học trong cac trung tâm khiếm thính ở Việt
Nam, Ngôn ngữ học Việt Nam trong bối cảnh đổi mới và hội nhập (The linguistics of Vietnam in
the context of renovation and intergration),” Kỷ yếu Hội thảo KH quốc tế, tr25- 33, NXB KHXH.
Gales, M., S. Young, 2007. “The Application of Hidden Markov Models in Speech Recognition,”
Foundations and TrendsR in Signal Processing Vol. 1, No. 3, p.195–304.
Hanke, T., 2001a. “Interface Definitions, Virtual Signing: Capture, Animation, Storage and
Transmission,” Deliverable D5-1.
Hanke, T., H. Popescu, 2003. "Intelligent Sign Editor, ESIGN D2.3 Report,” Institute ofGermanSign
Language and Deaf Communication, Univ. of Hamburg, 9/2003.
Hanke, T., I. Marshall, E. Safar, C. Schmaling, G. Langer, C. Metzger, 2001b. "Interface Definitions",
ViSiCAST Report D5.1.
Hồ Tú Bảo, Lương Chi Mai. “Về xử lý tiếng Việt trong công nghệ thông tin,” Viện NTT, Viện KH và
Công nghệ Tiên tiến Nhật bản. VLSP - KC01.01/06-10.
Hồ Tú Bảo và Lương Chi, 2006. “Về xử lý tiếng Việt trong công nghệ thông tin,” Viện Khoa học và
Công nghệ Tiên tiến Nhật Bản.
Hutchins, W. J. and Somers, H. L., 1992. “An introduction to machine translation,” Academic Press,
London.
Hutchins, W.J., 1995. “Machine translation: a brief history, Concise history of the language sciences:
from the Sumerians to the cognitivists,” Oxford: Pergamon Press, p.431-445.
Jason Stewart, 2012. VCom3D - Sign Smith studio.
Kala, R. et.al., 2010. “Offline Handwriting Recognition using Genetic Algorithm,” IJCSI Inter. J. of
Computer Science Issues, Vol.7, Issue 2, No.1, p.16-25.
Kennaway., R. "Experience with and requirements for a gesture description language for synthetic
animation," (accessed 12/2015).
18
Lafferty, J., A. McCallum, and F. Pereira, 2001. “Conditional random fields: Probabilistic models for
segmenting and labeling sequence data,” Proc. ICML, pp.282-289.
Lê Hồng Phương, Nguyễn Thị Minh and Hồ Tường Vinh, 2008. “Vietnam a Hybrid Approach to Word
Segmentation of Vietnamese Texts,” 2nd Inter. Conf. on Language and Automata Theory and
Applications - LATA 2008, 5196 (2008), pp. 240-249.
Michael Kipp, Alexis Heloir and Quan Nguyen, 2008. “Sign Language Avatars: Animation and
Comprehensibility”. DFKI - Embodied Agents Research Group, Saarbruecken.
Michael Kipp, Alexis Heloir and Quan Nguyen, 2011. “Signing Avatars: a Feasibility Study,” DFKI –
Embodied Agents Research Group, Saarbruecken, Germany.
Nicolas Courty and Sylvie Gibet, 2010. “Why is the Creation of a Virtual Signer Challenging Computer
Animation,” Motion in Games 2010, Netherlands.
Nigam, K., A. McCallum, S. Thrun and T. Mitchell, 1999. “Text classification from labeled and
unlabeled documents using EM. Machine Learning”.
Nguyễn Chí Hòa, 2004. “Ngữ pháp tiếng Việt thực hành,” NXB ĐHQG Hà Nội.
Nguyễn Hữu Quỳnh, 2007. “Ngữ pháp Tiếng Việt,” NXB Từ điển bách khoa.
Nguyễn Thị Hoàng Yến, 2006. “Phương pháp giao tiếp trẻ khiếm thính (Phần 3: Thực hành sử dụng
NNDH),” Trường ĐH Sư phạm Hà Nội.
Nguyễn Thị Phương và Nguyễn Đức Tồn, 2012. “Mấy vấn đề về cú pháp của ngôn ngữ kí hiệu ở Việt
Nam,” Tạp chí Ngôn ngữ, số 4, trang 17-31.
Nguyễn Quốc Thể và Lê Thanh Hương, 2009. “Phân tích cú pháp tiếng Việt sử dụng văn phạm phi ngữ
cảnh từ vựng hoá, kết hợp xác suất,” Khoa Công nghệ Thông tin - Trường ĐH Bách khoa Hà Nội.
Phan, X.H., M.L. Nguyen, C.T. Nguyen, 2005. “FlexCRFs: Flexible Conditional Random Field Toolkit”.
Phuong, L.H., N.T.M.Huyen, R.Azim, H.T. Vinh, 2008. “A hybrid approach to word segmentation of
Vietnamese texts,” Proc.of the 2nd Inter. Conf. on Language and Automata Theory and
Applications, LATA 2008, Springer, Spain.
Pradeep, J., E. Srinivasan and S. Himavathi, 2011. “Diagonal based feature extraction for hand witten
alphabets recognition system using neural network,” Inter. J. of Computer Science & Info. Tech.
(IJCSIT), Vol. 3, No. 1, Feb 2011,p.27-38.
Quinlan, J., 1993. “C4.5: Programs for Machine Learning,” Morgan Kaufmann Publishers.
Somers H., 2001. “Review Article: Example-based Machine Translation,” Machine Translation 14, pp.
113–157.
Shannon C-E., 1948. “A mathematical theory of communication,” Bell System Technological Journal
(27), pp. 379-423, pp. 623-656.
Sharon M. Walter, 1990. “Natural language processing: A tutorial,” Rome Air Development Center, Air
Force Systems Command, Air Force Griffiss Base, NY 13441-5700.
Snover M., B. Dorr, R. Schwartz, L. Micciulla and J. Makhoul, 2006. "A Study of Translation Edit Rate
with Targeted Human Annotation," Proc. of Association for Machine Translation in the America.
Tripathi, S. and J.K. Sarkhel, 2010. “Approaches to machine translation,” Annals of Library and
Information Studies, Vol 57, pp. 388-393.
UEA, 2015b. (accessed Dec 2015).
UEA, 2015a. (accessed Dec 2015).
Vauquois, B.. 1968. “A Survey of Formal Grammars and Algorithms for Recognition and Transformation
in Machine Translation,” Proc. of the IFIP Congress-6, pp. 254–260.
ViSiCast, 2012. “ViSiCAST Project”.
VLSP, 2012. “Tài nguyên cho tiếng Việt,” Nhánh đề tài xử lý văn bản trong chương trình KC01/06-10,
do GS. Hồ Tú Bảo chủ trì.
Waterfall Rainbows, 2005. “Sign to Me (BSL) - User Guide”.
Yousef Al-Ohali, 2010. “Identification of Most Desirable Parameters in SIGN Language Tools: A
Comparative Study,” Global Journal of Computer Science and Technology, Vol. 10, Issue 6,
Ver.1.0, pp. 23-29.
Zhao et. al., 2000. “A Machine Translation System from English to American Sign Language,”
Association for Machine Translation in the America.
19