Đ Ạ I H Ọ C Q U Ó C GIA HÀ NỌI
-------------------- ****
PHÁT HIỆN SAO CHÉP GIỮA CÁC VĂN BẢN T1ÉNG VIỆT
Mã số: Q C .08.17
C hú nhiệm đề tài: Phạm Bao Son
Đ A I H Ọ C Q U Ố C G IA h a
n õ
,
T R U N G t ầ m t h ô n g t i n t h u V ịỆ N
Ọ O O ỊO O O O O ^Ậ
I la Noi
2009
M Ụ C LỤ C
B ÁO C ÁO TỐNG K É T ................................................................................................
I .Giới th iệ u ..............................................................................................................................
2.Thách th ứ c............................................................................................................................
3.Tông quan các vấn đê nghiên c ứ u ....................................................................................
3 .1.Các phương pháp phổ b iế n .........................................................................................
3.2.Kiến thức nền tàng.......................................................................................................
4.
Xây dựng Corpus văn bản tiếng V iệ t........................................................................
5.Phương pháp xác định sao chép giữa các văn bàn với một cơ sị' dữ liệu lớ n .............
5 .1.Mơ hình phát hiện những văn ban gần trùim lặp nhau với một cơ sở dữ liệu lớn
5.2.Lựa chọn đặc trư ng......................................................................................................
5.3.Tính Fingerprint cho văn b a n .....................................................................................
5.4.Xác định cluster cho văn bán......................................................................................
.3
.3
.4
ì
.5
6
6.2.Ket qua....................................................................................................................................
8
9
9
0
]
I
~>
2
7
7.Kết luận................................................................................................................................
Tài liệu tham kh á o ..................................................................................................................
5
6
6.Thực
n g h iệ m ..............................................................................................................................
6 .1.Xây dựng phưưnu pháp thí nghiệm và phương pháp đánh giá..............................
Danh sách n h ũ n g người tham gia thực hiện đề tài (học h àm , học
v ị , CO’
quan cơn g tác)
Chú tr ì để tà i:
•
TS. Phạm Bảo Sơn
Những n g ư ờ i thự c hiện:
H ọ và tên
TT
H ọc v ị
Cơ quan cône tác
1
B ù i Thê D u y
TS
Trườ ng Đ H C N
?
Lê A n h Cường
TS
Trườ ng Đ H C N
3
Trư ơng C ông Thành
CN
Trường Đ H C N
4
N guyễn Q uốc Đ ạt
CN
T rườ ng Đ H C N
5
N guyễn Q uốc Đại
CN
T rườ ng Đ H C N
6
Tràn Bình G ianu
CN
Trường Đ H C N
Danh m ụ c các b ảng số liệu
Bàng I . Kết quả F-measure khi tiến hành thí nghiệm theo hướng tiếp cận thử nhất (chi sứ dụng
những đặc trưng mặc định (âm tiết) và không sử dụng các đặc trưng riê n g qua xừ lý tiêng Việt).... 13
Bảng 2. Kết quả F-measure khi thí nghiệm với mơ hình phát hiện sự trùng lặp cua văn ban tiếng Việt
đề xuất............................................................................................................................................................... 13
|\
Danh m ụ c các hình
Hình I . M ơ hình phương pháp phát hiện sao chép giữa các văn ban tiếng V iệ t.................................... 9
Hình 2. Biêu đồ thể hiện kết quả thí nghiệm theo hướng tiếp cận thứ n h ấ t.............................................13
Hình 3. Biểu đồ kết quả (F-measure) khi sừ dụng mơ hình đề xuất.......................................................... 14
\
OVERVTEW
1. O bjective
P la g ia rism D e te ctio n is one o f the m ost im p o rta n t p ro b le m s a ffe c tin g o u r life and
it is a c tiv e ly studied by m any research groups in the vvorld. T a c k lin g th is task can b rin g
m any advantages to the society, e specially to academ ic. since there are m any researches
as w e ll as study m aterials pu b lish e d in the In te rn e t vvidely. M o re o v e r. s o lv in g the
Plagiarism D etection problem g re a tly contributes to Search eneines períorm ance.
T h is p ro je ct is to b u ild up an e ffe ctive m ethod to ta ckle the task o f P lagiarism
D etection. A d d itio n a lly , the task o f P lagiarism
D e te ctio n fo r Vietnam ese c u rre n tly
receives v e ry little studies so that in this p ro je ct w e w o u ld lik e to pay m ore attention to
solving the Vietnam ese P lagiarism .
2. Research
•
Research com m on P lagiarism D etection m ethods o ve r the w o rld such as D SC . 1M atch. L A S H , Sim hash, C harikar.
•
•
B u ild up a V ietnam ese docum ents corpus.
C onstruct a fra m e w o rk fo r V ietnam ese P laeiarism D etection in a very laree
database.
3. Result
2 publications in the International Conferences pubỉished by IEEE c s
•
Cong Thanh Truong, lh e D uy B u i, Son Bao Pham. "N ea r-d u p lica te s detection f o r
Vietnamese Docum ents
in
L a rg e
D a t a b a s e 7lh IE E E
International
Conference
on
Advanced Language Processing and W eb In íb rm a tio n T e ch n o lo g y". C hina. 2008.
•
Dai Ọuoc N guyen. D at Quoc N guyen. Son Bao Pham. The D u v B ui. "A
Tem pìate-based A p p ro a c h to A u to m a tic a ìỉy Identiýỵ P rim a ry
Text C ontent o f a
Fast
Web
P a g e ” , In The l st IE E E International Conterence on K no\vledee and Systems Engineerine.
Hanoi. Vietnam . 2009.
Application
The Vietnam ese P laaiarism D etection fra m e \vo rk is c u rre n tly applied in the X a lo .vn
Search engine o f T in h v a n M e d ia C om pany.
Academic resuíl
U n d e r-iỊru J i(a iiu n theses
•
C ong Thanh T ru o n g . “ N e a r-d u p ìic a te d D e te c tio n f o r Vietnamese D ocum ents in
La rge D atubase ", U nd e r-g ra d u a tio n Thesis, C o lle g e o í I e c h n o lo g y, 2008.
•
Trần B ìn h G iang, “ Vietnamese B lo g P r o f ilin g ’\ U n d e r-g ra d u a tio n Thesis, C ollege
o f T ech n o lo g y. 2009.
•
Phạm
Đ ức
Đ ăng,
" Vietnamese
W o rd Segm entation
m e th o d using P a rt-O f-
S peech". U nd e r-g ra d u a tio n Thesis. C o lle g e o f T e ch n o lo g y. 2009.
Scientifìc coníribution
Enhance knovvledge as \ve ll as s k ills fo r m em bers o t'th e la b o ra to ry in N a tu ra l
Language Processing.
ỉ
Tóm tắt các kết quả nghiên cứu chính của đề tài
Ket qua vể khoa học (những đóng góp cua đê tài, các cơng trìn h khoa học đã cơng bơ)
2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)
•
Cong Thanh T ruong. The D u y B ui. Son Bao Pham. "Near-dupHcates detection f o r
Vietnamese D ocum ents in L a rg e Database ” , 7lh IE E E International Conference on Advanced
Language Processing and W cb In íb n n a tio n T ech n o lo g y". China. 2008.
Bài báo ứng dụng phươna pháp phát hiện sao chép giữa các văn ban tiếng V iệ t trong m ột cơ sơ
dữ liệu lớn đề ứng dụng vào phát hiện các tin tức có nội dung gần giố n g nhau giúp tăng hiệu quả
cùa hệ thống tim kiếm thơng tin. Phương pháp có tác dụna làm tăng hiệu qua về mặt thời gian
tim kiêm nội dung trên m ạng internet và tiết kiệm được tài nguyên vê bộ nhớ lưu trữ.
•
Dai Ọuoc N guyen. Dat Ọuoc N guyen. Son Bao Phani. The D uy Bui. "A Fast Tem pỉate-
hasecì A p p m a c h to A u to m a tic a llỵ ld e n lifi' P rim a rv Text C o n le n i o f a Weh P a g e ". In The r '
IHHH International C ontèrence on K now ledge and Systems Hngineering. Hanoi. V ietnam . 2009.
Bài háo ứnn dụng phươnạ pháp phát hiện sao chép giữa các văn ban tiếng V iệ t úng dụng trong
việc nhanh chóng tìm ra các tem plate cúa các vvebsite đê xác định các phan nội duníi chính.
Két qua p h ụ c vụ thực tê (các san phàm công nghệ, kha năn g áp d ụng thực tê)
Phươna pháp đè xuàt giái quyêt bài toán phát hiện sao chép - hay phát hiện sự trùne lặp
giữa các văn ban tiẻna V iệ t đã được áp dụne vào hệ thơne tim kiê m thịne tin X a lo .v n cua
côna t\ T in h Vàn.
K ê/ qua đào tạo (sô lư ợ n g sin h viên, sô lư ợ n g học viên cao học, nẹhiên cú n sin h tham g ia
thực hiện lùm việc tro n iỊ đê là i. sơ khóa luận, lu ậ n văn đ ã hoàn th à n h và hao vệ)
.ỉ klióa luận tốt nghiệp C:\TT:
•
C ong Thanh T ru o n ti. "X e u r-i/iip ltc a te c / D e tc c tio n fo r Vietnamesc D ocum ents in L a rạ c
D a ta h a s c ". U n d e r-a ra d u a tio n Thesis. C o lle a e o f T c c h n o lo 2 N. 2008.
•
T rần B ìn h G iang. "V ietnam ese B lo g P r o fd in g " . U n d e r-g ra d u a tio n Thesis. C o lle g e o l'
l e c h n o lo g ). 2009.
•
Phạm Đ ức Đ ăng, "P h ư ơ n g p h á p p h â n đoạn từ tiế n g Việt sử dụn g g á n nhãn từ lo ạ i
Khóa luận tố t nghiệp đại học, Đ ạ i học C ông N ghệ. 2009.
K êt quả nân g cao tiêm lự c khoa học (nâng cao trìn h độ cán bộ và tra n g th iê t b ị hạc p h â n
mêm đã x â y dựng được g ia o nộp đưa vào sử dụng tạ i đơn v ị):
N âng cao năng lực chuyên m ôn cùa cán bộ phịne thí n g hiệm về các lĩn h vực xứ lý nsơn ngừ
tự nhiên và trí tuệ nhân tạo.
BÁO C Á O T Ỏ N G K É T
1. G iới thiệu
Vấn đề xác đ ịn h sự g iố n g nhau giữa các văn bản là m ộ t vân đê quan trọ n g vớ i nhiêu
tác động tới nhiều lĩn h vực tro n g cuộc sông. H iệ n việ c g iả i quyết vân đê xác định hai hay
nhiều văn bàn có tương đồng nhau đang được tích cực nghiên cứu. G ia i qut được bài tốn
này có thể ứng dụng tro n g nhiều mặt cua xã hội và m ột ứng dụng cua bài toán này là phát
hiện việc "đ ạ o v ă n " k h i mà các tài liệ u và các nghiên cứu được đưa lên trên m ạng Internet
m ột cách rộng rãi và phố biến. C ùng vớ i sự phát triể n vớ i tốc độ chóng mặt cùa Internet và
cơng nghệ tìm k iế m , g iả i quyết đươc bài toán xác đ ịnh được sự tươna đồng giữa các văn bản
mang lại nhiêu ý nghĩa tích cực tro n g việc xâ y dựng các cỗ m áy tim k iê m cũng như tăng hiệu
năng hoạt động của tồn hệ th ố n g tìm kiếm .
T ro n g các hệ th ố n g tim kiê m thô n a tin . m ột tro n g những m ục tiêu tiên quvêt là trình
bày những trang thích hợp tới naười dùng nhanh nhất có thê. Đẽ đạt được m ục tiêu này. hộ
thống tìm k iế m cần phai phát hiện những trang trù n g lặp hoặc gằn trù n ạ lập bơi chúng sẽ
khiến việc tìm k iế m chậm đi đồng thời tăn 2 thêm chi phí bộ nhớ cho việc tìm kiếm . V iệ c
phát hiện những trang nội dung trùng lặp nhau hồn lồn thì có thê thực hiện khá dề dàn tí
nhờ phươne pháp checksum . tu y nhiên phát hiện nội dune gàn trù n e lặp nhau thì lại phức tạp
hơn rất nhiều. C húng ta có thê sứ dụng m ột cách đơn íìian là so sánh từne cặp văn ban m ột
với nhau dè kiê m tra độ a.iôna, nhau nhưne vớ i sò lượne các văn ban cực lớn như tro iiíi các
cỗ máy tìm kiê m thì điều này khơng kha th i v ì độ phức tạp q lởn. G ia i quyết vấn đề này có
m ột sơ thuật tốn như Nearest N e ig h b o r Search [3 ]. L o c a lity S ensitive H ashing [1J. DSS.
DSC-SS [4 ]. Sim hash o íC h a rik a r [2 ] hay I-m a tch [5 j.
T ro n a m ô i trườna In te rn e t ớ V iệ t N am . tliỏ n a kè từ 25 trang tin phò biến nhất như
V ietna m n e t.co m . D a n tri.c o m . N aoisao.net. Y.v. cho thây khoane 2 0% sô các tin giữa các báo
là trùna lặp hoặc san trù n a lặp nhau m ỗi nsàỵ. D o vậ y việc phát hiện dược nlũrna tin đó sè
đóng vai trị quan trọ n s kh ô n g những cho những hệ thơ n a tim kiê m mà cịn cho nhũ nu
nghiên cứu tio n iì xứ ỉý n °ị n naữ như phàn nhóm văn ban. phát hiện chu dê. tru \ vết nội
duníỊ cũna như nhièu lìn h vực khác.
Trôn thế a iớ i hiện dà cỏ nhiêu nhóm tập UIII 1>1 n tihiên cứu vê xác định sự ” 1011” nhau
niũa các văn han. Cũn ti dã cỏ nhiêu ửnsỉ d ụ iiíí được rộn Li rãi SU' d ụ im như tro n ” các hệ thõnu
tim k iế m th ô n s tin hay tó m tăt da văn ban. I L1\ nhiên, các nííhiẽn cứu và ửnu đ ụ n ” tronu lĩnh
vực này c lio tiế n a V iệ t còn ràt mới 1110. Do vậỵ. dè tài n à \ tập tru n a lớ i nuhicn cửu \a xà\
dựng írna d ụna về \ àn đê nàv \ ới nuỏn nuữ tiê n s V iệ t.
2. Thách thức
Có những thách thức m à phải vượt qua đế giai quyết được bài toán này:
s
T iế n g V iệ t m ang nhiều đặc trưng ngôn naữ riê n g khiến nó trở nên phức tạp so vớ i
tiếng A n h và m ộ t số ngơn ngũ' khác. N hữ na khó khăn đó xuất phát từ m ột trong những đặc
điểm sau:
o
Phân biệt các từ kh ô n g xác địn h bang dấu cách bơi m ột từ có thê bao gơm nhiêu
âm tiế t và chi m ỗ i âm tiế t m ới phân cách nhau bới dâu cách. Đ iều này dần dên
nhập nhang tro n g phân đoạn từ tiế n e V iệ t. V í dụ: "H ọ c sinh học sinh học ” có thê
được phân đoạn từ thành "H ọ c_ sin h học s in h _ họ c“ hoặc cũne có thê là "H ọ c_ sin h
học_s in h học
o
N gữ pháp V iệ t N am phức tạp cùng với hiện tượns đồng âm khác nghĩa, từ tlô im
nghĩa hay đao trật tự câu và các phép tu từ dẫn đèn nhập nhăna tro n a xác định ý
nghĩa cua càu. từ.
S
Chưa có corpus (tập cơ sơ dữ liệu íián nhãn tiê n g V iệ t) cơna bị với kích
thước du lớn
dê tiến hành thí n ghiệm và đánh 2,iá hiệu năng cua phương pháp.
s
C hua có nhiều nahièn cứu tiên đề về vấn đề phát hiện sự trù n ” lặp văn ban tiênu V iệ t.
■S
Đặc thù tiế n g V iệ t khó có thê áp dụng ngav những kêt qua im hièn cửu
trên thế aiứ i
với tiế n g A n h . A -R ặ p đê đạt được kêt quá cao.
4
3. T ống quan các vấn đề nghiên cứu
3.1. C ác p h u o n g p háp phổ biến
C ó rất nhiều phương pháp đã được triể n kh a i đề xác đ ịn h "đ ạ o v ă n " tro na học thuật,
trùng lặp trang tin hay trù n g lặp các ban ehi tro n g cơ sờ dù' liệu. B rin et al. [3 ][4 ][5 Ị đã đề
xuất hệ th ố n g COPS (C o p y P rotection S ystem ) để đảm bao ban quyền các văn ban số hóa.
S hivakum ar et al. [4 ][5 ][6 ] đã đề xuất hệ th ố n e S C A M (Stand C o p ỵ A n a lysis M echanism )
đế kiế m tra m úc độ sao chép tro n g thư viện điền tứ đại học S tantord. Hai hệ th ố n s nà> đều
hoạt độne trên nguyên lý cơ ban sau:
s
Tạo tìn g e rp rin t (hay còn eọi là "dâu v â n ") cho các văn ban \ à lưu chím lí vào tro im CƯ
sớ dữ liệu.
s
H ai văn ban có phần chune nếu có ít nhất m ột phần ỉìn g e ip rin t trùng nhau, độ trùnu
lặp tí lệ với độ trù n e lặp eiữa íìn e e rp rin t của chúim .
MỘI phương pháp khác là phươne pháp tính DSC 17 ]ỊI 1 ịdựa vào việc tinh loan các
shingles (phàn đặc trư iiíi
CO'
ban. hay còn aọi là "n h à n ") cua tồn hộ tập các vãn ban rịi sau
dó lọc ra những phân chung nhât dê so sánh 2 văn ban thỏm ; qua kĩ tluiật tính C osinc
|7 || I 1I I 12I I 151 hoặc Resemblance [ 7 ] | l l | | 1 2 | . N lù m u k ì thuật tính ná\ hồn tồn kha thi
với kho dữ liệ u lớn bơi độ phức tạp cua cluìne là C)(n2). Cai tiên lu m so với DSC là phương
pháp D SC -SS [7Jf 11 I cho phép tính tốn các super shinule (siêu "n h à n ” ) trên dơn \ ị \ ăn han
với m ỗi super sh inale là tập vài shinale uliép lại. M ộ t văn ban sẽ dưựe dặc tn rn ti hóa bơi m ột
sị lượna nho các super s h iim le và việc tính tốn độ trù n ” lặp íiiữa các v ăn ban sị dựa vào
các super shiníìle k h i dỏ D SC -SS sẽ m ane lại hiệu năna cao hơn DSC.
Phương pháp l-M a tc h [8 J [1 1J xây dựna các sisnature (chừ k ý ) riêng cho m ồi \ă n han
dựa trên các từ và tạo ra m ột càu trúc dữ liệu. I-M a tc h kh ơ n g dựa vào phân tích cú pháp
nhirnu lh a \ \ủ o dỏ phưcmt; pháp nà> sư dụ n íi th ị iiii kè Ucn tồn dữ liệu nhăm xác định
nhừim tù' quan trọ n a (có trọ n s sô cao theo m ột hàm thông kê) đê so sánh tinh tốn mức dụ
tn ìiiíi lặp íiiĩra cliúna. I-M a tc h tin h toán trợnsi sô cho các từ bãntỉ ] DI (Inverse D ocum cnt
F rc q u c n c \). P liirơ na pháp nà\ tliụ c tlii với dộ phức tạp \â p \ I ()(dlo< id) tro im Irirớ n ii hợp xâu
nhắt túc lá toàn hộ các văn ban là trù n íi lặp lan nhau, t r o n g những trường hợp con lại. 110
thực th i v ớ i độ p h írc lạ p ( ) ( d ) (đ là số các Mìn han tro n g tập dữ liệ u )
L A S H [2 ] là m ộ t thuật toán áp dụng N ear N e ig h b o r Search tro n a khôna aian đa chiêu.
Ý tường của L A S H là giám số lượne chiều cùa dữ liệu và sư dụne hàm băm L đè giam thờ i
gian chạy thuật toán.
Sim hash chiếu m ỗ i đặc trưng vào khône gian b-chiêu băna cách chọn ngẫu nhiên b
giá trị từ {-1. 1}. Phép chiếu này là đồng nhất đối với toàn bộ các văn ban. V ớ i m ồ i văn ban.
m ột vector b chiêu được xâv dựng lên bang cách chiêu toàn bộ các đặc tn rn e lên chuỗi dặc
trưng của nó.
B ài tốn M e ree/P urge (X á c nhập/ Sàn 2 lọc) được đề xuất bơi H ernandez et al. nhăm
xác định những bản g h i trù n g lặp ttừ nhiều nguồn cơ sớ dữ liệ u [9 ][ 10][ 13]T oàn bộ các ban
2,hi từ những cư sơ dữ liệ u khác nhau được săp xêp dựa theo m ột thuộc tính khóa nhài định
nào đó. M o i lân các ban ghi được săp xếp theo khóa đó. các ban ehi vớ i số lirợ ne lán” íiiênti
nho dưực so sánh với những ban ghi khác và từ dó xác định các ban ghi trùng lặp hoặc nân
trùng lặp.
3.2. Kiến th ú c nền tảng
A. Các phương plíáp tính tốn độ đo sự giống nhau (Similarity metrics)
Chú nu ta sứ dụna vài hệ đo tương tụ' dè xác (.lịnh SỤ' liiõ n a nhau uiữa 2 vãn han bơi
việc xác ctịnh m ột mức cô đ ịnh nào đỏ làm ranh iiiớ i aiùa sụ- trù n ii lặp va khơníí tru n íi lặp
giữa 2 văn han là khó khăn. Hơn thế nữa nêu 2 văn ban có chứa nội đuníi ngữ niíhũi líân
tương tự nhau th i nó là trù n g lặp cho dù cú pháp cua nó có thê kh ơ n g khớp nhau. Do vậy cân
có độ đo th ích hợp đê đo sự e iố n g nhau giữa 2 văn ban.
Đ ộ đo R esem blance là m ột trong nhữne độ đo sự a iô n s nhau phô bièt nhất hiện na>.
Theo dó vớ i nm rỡim t đè xác địn h độ íỉiơ n íỉ nhau. 2 văn ban được coi là aiơna nhau nêu như
dộ do sụ' iìi 0 nu nhau R esem blance aiữa cluìna vượt quá t. Đ ộ đo Rcsemhle tiiừa 2 Năn han
dược tính như sau:
1-x
R ese m b lĩu ice iD i. D i ) =
Si Di)
- r,'.
r
S iD i i
■'
. -
S(D j I L Si Di
T ro im đó S (D i). S (D ị) là các dặc tn rn g cua \ă n ban D i. D ị.
D ộ do thử 2 thư ờnti dược SU' dụnti dỏ tính tốn sự líiị im nhau tỉiữa 2 \ ăn han la dộ do
C osinc tin h toán dựa trẽn k lio a im cách íiiữa 2 \ ector tu irn u ưng cua 2 \ã n han tló. K h i C osinc
tính đuưc «iữa 2 \ă n han tic n c à iiíi nằn tới Líiá trị 1. hai \ã n han cang dirọc coi là líiõ n íi nhan.
Í D i.T D i
Cosine (D i. D i) =
-— ————
|1Di|. |TDj|
T ro ng đó. | D là v e cto r biếu diễn cua văn bản D
Cũng như vớ i độ đo Resemblance. sứ dụng giá trị C osine vớ i m ột ngưỡne t nào đó có thê
đùng đê xác đ ịnh sự gần tư ơns tự nhau giữa các văn bàn.
li. Thuật toán Charikar
Thuật toán C h a rik a r sư dụng k ỹ thuật aiam chiều cua dừ liệu. Nó ánh xạ uiữa một
vccto r nhiêu chiêu với m ột lìn a e rp rin t với kích tlnrớc nho hơn rất nhiều. K ỹ thuật lùn dược
áp dụng cho các văn ban như sau: đàu tiên, ch ú n s la sư d ụ im các phưưnii pháp trích chọn dặc
trưng đê chuyên m ột văn ban thành m ột tập các đặc trư im cho nó. ví dụ các âm tiẽt. từ. \ . \
với các trọ n g sô iư ư im ứ n ti. l ập các dặc trưna và iiiá trị tirư im ứníi dỏ tạo thành m ột vector
đa chiêu, và băng phép băm Sim hash vc c to r đa chiêu dó dược chuyên thành một lin iie rp rin t
có 1'bit với í' là m ột sơ nho. S im hasli có thê dam hao dược nhữníi dặc diêm :
o
Mỗ i t ì n e e r p r i n t c u a m ộ t v ã n b a n là h à m b ă m c ác tlặc I r ưn u c u a v ã n han do.
o
N h ữ n e v ă n b a n s i ố r m n h a u c ó !2 Ìá trị b ă m a i ị n u nhau.
V ó i m oi dặc trưng cua vãn ban dược chiêu lèn k h ơ n ” íỉian chiêu băne việc chọn niíẫu
nhi ên b a i á trị t r o n a 1-1. 1 Ị với b là m ộ t h ă n g sô c h o t r ước . P h é p c h i ê u n à y á p dụníi với tất
ca các vãn han. V ớ i m ỗ i văn ban. I vector f chiêu sẽ đuợc tạo nõn bơi cộrm các phép c h i ế u
cua toàn bộ các dặc trưne, tro n a chuỗi đặc trư na cua nỏ. C uòi cùna. các ííiá trị (.lươn tí tro n ”
v e ct o r c u a m ỗ i v ă n b an đ ư ợ c e á n bănsi 1 \ á các e i á trị k h ò n t i d ư o n u d ư ợ c a án lại băn Li 0. Với
các veetor n à \. độ siô n a nhau ai lìa 2 văn ban ti lệ với sỏ hit iiiơ n ii nhau cua 2 \ cctnr tiRynti
ửni> vớ i chúnti.
S a u p h é p b ă m . t hu ậ t toán C h a r i k a r s ư d ụ n g k h o a n g c á c h H a m m i n g dè linh toán
k h o a n ti cách u iừ a các \ ăn ban và tă iiíi dàn k h o u n u cách đõ ch ọ n ra tiiá trị k lliíc h hợp n liâ l.
Thuật tốn phụ thuộc \ ào kì thuật trích chọn dặc trưng cùng nhu sỏ lượng các dặc trirns> c ù n ”
n h ư
p ln rơ n u
p h á p
tin h
d irợ c
liiá
t rị
CU Í1
dặc
trư iiíi
c h o
t Ú n li
vãn
han.
N tio à i
ra.
tliu ậ t
lo a n
sư
d ụ n g \ iộc so s á n h t ừ i m c ặ p c á c vă n han dc tìm SỤ' i m n g lặp h a \ g à n t r uny lặp nhau. C h í n h \ i
nhĩrne lý do trên k h i làm việc với số lượiiíì cac văn han qua lớn. C h a rika r sò gặp nhữnu kho
khàn \ề liiỘLi Iiăna hoạt d ộ im ha\ thời gian chạ) lơn.
4. X ây d ự n g C o rp u s văn bản tiếng Việt
M ộ t tro n g những khó khăn đê g ia i quyết bài tốn đó là th iế u nhữne kho dữ liệu văn
bán tiế n g V iệ t được gán nhãn (corpus) vớ i kích cỡ đu lớn đè có thể tiến hành khao sát.
nghiên cứu cũng như tiế n hành thí nghiệm đánh giá kết qua. D o vậy. cơna việc quan trọ n e
trong thực hiện đê tài xâ y dựne được m ột corpus văn bản tiê n e V iệ t được aán nhãn sẵn về sự
(gần) g iố n g nhau giữa chúng.
í ơi chọn nguồn dừ liệu tiến hành xâv dựng corpus là từ các trane báo điện tir tiếna
V iệ t bơi nó dáp ứng được những yêu cầu:
o
De llu i thập dữ liệ u bới có rất nhiều trang báo diện tư tiếna V iệ t hiện nay
o
Các bàn tin giữa các trang báo điện tư thường có xay ra sự trù n a lập
Dữ liệu cho còng đoạn xây dựng Corpus văn ban tiếnsì V iệ t được thu thập từ các trano
báo diện tư tiê n u V iệ t với sỏ lượng imười dục nhiều nhất. B ầim các bộ thu thập dữ liệu
(cravvler). các ban tin tức dược lấy vè tù' nhiều các tranu báo diện tư khác nhau tro n ” khoaní>
thời gian 2 năm trớ lại d à ). l)ê dam bao tính chính xác cua C orpus văn ban tiếnu V iệ t can
cho nghiên cửu này. Các ban tin được qua các bước xư lý thu cơníi dưới dây:
•
Phân loại các ban tin thành các nhóm có nội duníi iìà iv ư ìin ” lặp nhan. Cônu \ iộc dược
t iế n
hành bănu cách
t h u c ỏ n a s ã p n h ữ n e b a n t i n c ỏ Iiíiá _ \
đ ã n í i u iìn s á t n h a u
\ ÌU ) m ộ t
n h ỏ m . T r o n u mồ i n h ỏ m , săp xê p c ác b a n tin íiiam d ã n t he o dunii lượn tỉ c ua hun tin \ á
đọc và kiê m tra tính íỉàn trùna lặp cua các nhóm ban tin na\
•
X â y dựna tập các ban tin có nội đune hồn tồn trù n ii lặp nhau tro n ” corpus hãnu
cách chọn từ tập ban tin thu dược nà} m ột sô lượna ban tin rmầu nhiên n lum Sì dam
bao tính khôns. trù n a lặp nhau vớ i số đoạn tro n ” m ồi ban tin lớn hơn 2. và hoán v ị các
đoạn nhàm tạo ra n liữ n a ban tin trù n a lặp \ ói nhữim ban tin dó.
K ế t q u á : c o rp u s h a o %ồi)i 1 0 .0 0 0 h a n t in 4 .0 0 0 .0 0 0 âm tiẽ t. 2 .3 0 0 .0 0 0 l i r va I (J .2110.0(11) h i-
grain.s.
X
5. P h ư ơ n g p háp xác đ ịnh sao chép giữa các văn bản vó'i m ột c ơ sỏ' d ữ liệu lón
5.1. M ơ hình phát hiện n h ữ n g văn bán gần trùng lặp nhau vói một CO' só' d ữ liệu ló'n
Các văn ban cùn í:
m ột cluster sẽ à íiân
lìiơ n iì nhau
H ìn h 1. M ơ h ìn h p h ư o n g p h á p p h á t hiện sao chép g iũ a các vă n ban tiế n g V iệt
H ình 1 là m ị hình q trìn h xư lý việc phát hiện các văn ban gán trùng lặp nhau trong một cơ
sơ dữ liệ u 1ỚI1. M ụ c đích cua phưưnii pháp dị xt lá phân hoạch tât ca các văn han trong
m ột cơ sơ dữ liệ u lớn dó vào các clu stcr và dam hao răng tàt ca các \ã n han trong cùng một
<■>
cluster sẽ là gần trù n g lặp nhau. M ô hình gồm 3 thành phần ch in h : lựa chọn đặc trirn e . tính
F in g e rp rin t cho văn ban đang xét, và Xác định cluster cho vãn ban đầu vào. K ết qua xác dịnh
sao chép, hay xác đ ịnh sự g iố n g nhau giữa các văn ban tro n g cơ sơ dữ liệu nằm ơ các cluster
nghĩa là các văn ban tro n g cùng m ột cluster sẽ được coi là 2 ần e iố n g hoặc giố n a nhau.
5.2. Lựa chọn đặc tr u n g
Thành phân Lựa chọn đặc trư ng trong m ô hỉnh phương pháp xác đ ịn h sao chép vãn
bán nhằm m ục đích đặc trư ng hóa văn bản đầu vào. g iữ lại những tliỏ n e tin quan trọ n ii nhất
của văn ban đó. Đ iề u này kh ô n g nhữns làm tăna lốc độ cho q trình xứ K mà cịn iiiú p tãna
dộ ch ín h xác bư i \ iệc là m g ia m " n h iề u " tro n íi quá trin h XU’ K .
I hành phan lựa chọ n dặc
trưng dam đương những công việc XU’ lý tmơn ne LÌ như phân đoạn tù' 11011» tiếnu V iệ t, tính
tốn tân số xt hiện cua dặc trirn s . dánh trọng sỏ cho các dặc trưnu. trích ra các ãm tiết. ngrams tro n g văn ban. nhàn từ loại cho từ.
T ro n g tiê n g V iệ t, có thè nói từ đ ó n ii vai trị là một tron tỉ những dặc tnrrm quan trọnu
nhât Iro n a văn ban bơi nội du n s cua v ăn han dược ihê hiện tliỏ n u qua \ imhìa cua các từ và
khi các lừ dược đặt tro n ụ m ột văn canh. N iio à i yêu tò từ. các vêu tị nlnr âm tiêt. các n-iiram s
cũ I11Ì là m ột tro n g nhữ im dặc irư n ti cua vãn ban dỏ. T ro n iì phươim pháp tơi dè xt. các dặc
trư iiíi cấn aiữ lại cho m ột \ ăn ban là: từ, âm tiẽ t và các n-nram . nhàn từ loại.
•
I'uy nhiên k h ò n ti p lia i các dặc trư im dẽu m aim \ nuhĩa Iilu r nhau, có nlũm n dặc trư im
m ang nhiều th ị n g tin ve nội duna chính cua văn ban trong khi có n lù rn iỉ từ m ans rât ít th ơ n ii
tin. Ví dự " M á y v i lin h là m ộ t p h á t m in h lớ n c im lo à i n g ư ờ i" thi tù' "M á y VI t in h " m a i m
nhiều thònsi tin h ư n t ừ " la
Ni ioài ra. t hử ụr c u a dặ c t r ư n g CŨI1 ÍỊ d ó n g \ ai trò q u a n I i ọn u hơi
nó thê hiện được phần nào văn canh mà các đặc trưntí thê hiện. I)o \ ặ \ . nuoai \ iệc uiừ lại
các dặc tn rn a m ột cách thuãn tú>. tò i còn danh trọng sô cho các dặc trưng - dặc trirm> maim
íiiá trị Irọna số cao hơn sè thè hiện mansì nhiêu > nghĩa hon những dặc tnrng khác. V iệc tinh
toán trọ im số cho dặc trim u dược dựa trịn thơng kẽ tàn sỏ xiiã t hiện 11)1 cua dặc tru n g dó
I rọne số cua dặc trirn a 1 dược tính như sau:
•
•
F (t) là l ằ n sổ xu á t h i ệ n (11)1) cua dặc trưiiỊỊ I t n m g lậ p d ừ liệu
F n i a \ là tần
N ồ
cua dặc tiLinu xuất hi ện nhiòu nhãt t r ony lậ p d ữ liệu
•
F m in là tần số cua đặc trư ng xuất hiện ít nhất trona tập dữ liệ u
•
P(t) là v ị trí cùa đặc trư ng t trong văn ban
•
||t||: số lượng các âm tiế t trong đặc trưng
V iệc loại bo những đặc trư ng vớ i m ục đích làm eiám "n h iễ u " và giam thiểu số lượng cỏrm
việc cần xứ lý cho toàn hệ thố n g được thực hiện bầns việc loại di tất ca các đặc trưng mà tần
sô xuât hiện quá cao hoặc quá thấp ví dụ như cua nhĩrne từ dửns.
\
.V .
5.3. Tính F in gerp rin t cho văn bản
M ồ i văn ban có m ột tập các đặc trưng, m ồi đặc trưne tươna ứne với nó là một trọnu số.
P ingerprint cho văn bán được xác địn h như sau:
•
K h ơ i tạo vector f c h ic ii V với giá trị các trường banii 0
•
M ỗ i đặc tru n g dược băm vào m ột báne băm 1'hit
•
X ét bang aiá trị hãm t b it trẽn, nếu hit thứ i có eiá trị băm la 1 thi thanh phán
thứ i cua
V lăna lên m ột aiá trị băn li Irọ n ii sơ của đặc tn n iíi danti xót. neirực lại nõu Siiá trị băm là
1 thì
thành ph ân t hử i c u a V tì iam di m ộ t íiiá trị băn li trọiiii sỏ c ua d ặ c t r ưi m danti XĨI.
•
V e cto r cuối cùne (fin g e rp rin t) được x ã \ dựna từ V bíìniì cách liíin lạ i/ih ữ n a trườn”
aiá trị dươniì tro n u V bănii 1 và các trườne íiiá trị k liò n a duưno cho băna iiiá trị 0.
5.4. X á c định clu ster cho văn bản
T h à n h p h ầ n 1Ù1\ iíiừ \ ai trò x ác d i n h x e m m ộ t vãn ba n sò đ ư ợ c x è p và o c l u s t e r nào.
V iệc xác địn h được thực hiện theo nhữne n a u \ ên tăc sau:
•
Nếu khoaim cách H a m m in s từ văn ban đano xét tới m ột cluster náo dó dà có nho lum
hoặc bầ nu han tí sổ k c h o tn rớ c thì phàn \ ăn ban \ à u c lu s tc r
dó.
•
Nốu k h ơ n íi tỉm dirực eluster nào thoa mãn. phàn vãn ban nà} vào một cluster mới
•
V iệ c tính kh o a n ” cách Liiữa \ ăn han tới cluster dược thục
cách H a m m iiiíi iiiữ a lu m c rp rin t cua \ă n ban dó \ớ i các
cluster nà\ m i cặp nhật giá trị lớn nhài.
hiện qua \ iệc tinh khoanu
\ă n han dà co săn iro n ií
6. Thực nghiệm
6.1. X ây d ự n g p h ư ơ n g p háp thí nghiệm và p h ư ơ n g pháp đánh giá
Để k iể m tra h iệu quả của m ơ hình tơ i đã đề xuất, tỏi tiến hành thí nghiệm chia theo 2
cách tiếp cận. C ách tiế p cận thứ nhất tơ i sừ dụng thuật tốn C h a rik a rr với đặc trưng mặc định
- âm tiế t, những âm tiế t này được xác định bới các dấu cách tro n g văn ban. Các tiếp cận thứ
hai tô i sử dụng kết hợp nhiều loại đặc trưng bao gồm âm tiế t. từ. nhãn từ loại cùng với kỳ
thuật đánh trọ n g số cho các đặc trưng đó.
Kèm theo vớ i 2 hướng tiế p cận tiến hành thí nghiệm trẽn, tơ i cũ ne tiến hành
thi
nghiệm đê tìm ra g iá trị tơ l nhãt cho nhũng tham số sau:
•
F: C hiều dài cua íìn g e rp rin t
•
k: g iớ i hạn kh o a n g cách giữa 2 văn ban được coi là Hằn trùng lặp nhau.
G iá trị k được tiến hành th í nehiệm trong khốna 1 đến 10 và liiá trị Inhận lá
I troim các uiá
trị sau: 32. 64 và 128. T ô i lây mau ngẫu nhiên các cặp (ìn íie rp rin t vớ i khoang cách I lu m m in iỉ
nhỏ hơn hoặc bang k. Đ ộ do được sư dụng là r-m easure dè dành uiá kèt qua thí nííhiộni.
2 • ■or eci s i o í ỉ - e c a ì !
F-measure = ~
7
'
777
P r e c e ỉ i c n +reCGĨ!
T rong đó:
.Re‘riered đoc ỹữirs
P r e c is io n =
!
R ecall -
'ì co rríct
dĩi pairs
. . .i. .cùJ u õ. (.. . .uc.il
. . . . -’ . c. .T. '. !c
MếỉVíi dcc VGiĩS: ị. Cữỉ ĩ (?Ci CỈOc pcĩưs
io rra rrd c íĩK lirí
- R e trieve c/ cioc p ư ir s : so c á c c ặ p văn ha n m ù p h ư ơ n g p h á p tr a w
- Correct c/oc pairs: so các cặp văn hau Ịiiìn irims: lụp ctiniỊỉ
6.2. Kct quả
B in " 1 d u '1 t"i kct qua lính theo dộ do I'-n ica su rc khi tiên hanh thí nghiệm theo cuch
tiếp cận thử nhất (c h i sư ciụne những dặc trưng mặc dịnh (âm tic t) \ á không sư dụng eac dặc
12
trưng riêng qua xứ lý tiế n g V iệ t). K ế t qua cao nhất đạt được là 54.2% Với aiá tr ị k = 2 và F =
Bảng 1. Kết quả F -m e asu r e khi tiến hành thí nghiệm th e o hng tiếp cận thú nhất
(chỉ sử dụng n hữ n g đặc tru n g mặc định (âm tiết) và k hôn g su dụng các đặc trung riêng
qua xử lý tiếng Việt)
1
2
3
4
5
6
44.11%
54.25%
43.87%
36.87%
30.15%
13.51%
30.94%
46.59%
52.95%
42.93%
32.21 %
20.27° 0
25.83%
33.7%
41.3%
49.75%
31.80%
32
64
r
128
ri
í |( I (')() ‘
:>0 í)0
•10.00".
[
30.0 0 -.
ì
.H K .tr,
,
,
lõ no .
0 ŨO
Hình 2. Biêu đồ thê hiện kết qua thi nghiệm theo huớng tiếp cận thu nhất
Kết qua k h i tiến hành thí nghiệm
vớ i m ơ
hình tịi dị xuất với các dặc trưng mang dặc diC-m
cua tiếntì V iệ t dược trích chọn qua \ iệe xu 1> nuon ngữ tiã iíỊ V iệ t dược cho trong hang 2.
Bàng 2 Kết quá F -m e asu r e khi thí nghiệm vói mơ hình phát hiện sụ trùng lặp cua văn ban
tiếng Việt đề xuất
1
^
4
5
()
32
64
128
43.24%
63.16%
45.96%
29.09%
16.4%
7.76%
36.22%
62.82%
83.56 %
46.68%
33.1%
22.79%
35.29%
59.4%
73.07%
78.32%
48.4%
30.8%
‘J U . U U ' \ .
8 0 . 0 0 "..
7 0 .0 0 ° !,
0 0 . 0 0 '
s o
4(1
.
0 0 ” ..
>.• .
-’.í I f iri".
2 0 .0 0 ..
I (I o r»
!'
0 0
.
Hình 3. Bieu đò kết quá (F-nieasure) khi su dụng mỏ hình đề xuất
K ết qua sư dụna m ỏ hình đề xuất (hưứnsi tiếp cận thử 2) cho kết qua cao nhất I measure đạt 83.56° 0 k h i vớ i k = 3 và F = 64. Đ ièu ná} cho thã\ m ị hình dè xuất cho két qiKi
cao hơn nhiều so với phươns pháp mặc định. Độ chính xác tan” lẻn 29.31% so Nơi dộ chinh
xác mà thí nghiệm theo hướna tiếp cận thử nhất mang lại. D ièu do cùng cho thâ> với những
dặc trưng m ang nhiều đặc diêm hơn cho nuòn naữ liê n g \ iột kêt qua mang lại lá kha quan
cho việc aiai q u yế l bài toán phát hiện văn ban trùng lặp - ha> lá phát hiện sao chóp trong Năn
ban tiế n e V iệ t.
Quá trin h tiến hành thí rm liiệm chi ra \(Vi giá trị I cổ dịnh trước \ ã k tăng từ 1 dền 6
thì d ộ P r e c i s i o n uinti lên nlurnti d ộ Recall thì sa u khi t ă n g lẽn dc n mộ t giói hạn n a o d o lặp lức
e i ả m x u ố i m n h a n h . D o dó. tlộ c h í n h xác I -mcaMii v dat Lĩiá trị c a o Iiliãt với k (T giá li; (K
khống íiiừa.
V í dụ:
14
•
F = 32,
F-m easure đạt giá tr ị lớ n nhất k h i k = 2.
•
F = 64,
F-m easure đạt giá tr ị lớn nhất k h i k = 3.
K h i tăng F lên. khoáng cách H a m m in g giữa 2 văn ban sẽ tăns lên khiến độ Precission
tăng nhưng độ R ecall g iả m đ i. hay việ c nhận ra số các cặp văn han aần trùne lặp nhau tăna
lên nhưng đồng thờ i
tăng
việ c nhận đoán sai cũng lớn hơn. Nếu tăne
eiá trị cho k. dộ Recall sẽ
nhanh nhưng độ P recision thì giam mạnh. D o vậy. eiá trị cua F và k
cần được chọn dam
bao được việ c cân băng tò t nhât giữa độ Precision và Recall. K ẻ l qua CLIƠÍ cùna cho thà\ ỉ =
64 với k = 3 m ans lại hiệu quá cao nhât thí nghiệm .
Hiệu năng cua phương pháp tơ i đề xuất đã m ang lại kêt kha quan.
7. Kết luận
Phương pháp chúng tô i dê xuất dê tỉia i quyẽt bài toán phát hiện sự sao chép trong \ă n
bán ti ếng V i ệ t là s ự k ết h ợ p n h ữ i m thế m ạ n h c ua thuật toán C h a r i k a r \ ơ i tận d ụ n g n h ữ n g d ặc
trưng riêng cua tiế n íỉ V iệ t so với các imỏn niiù' khác. C hính sự kõt hợp nà\ dã mang lại liiộu
quá cao cho g ià i quvết bài toán vớ i đặc thù riêna là ngon ngữ tiC'ng V iệt.
Tài liệu tham khảo
[ 1] Charikar, “ S im ila rity E stim a tio n Techniques lrorn R o u n din g A lg o rith m s ". in Proceedinas
o f the th iry -fo u rth annual A C M sym posium on Theory o f c o m p u tin s. A C M Press. 2002
[2] A lexandr A n d o n i and P io tr In d y k . "N e a r-O p tim a l H ashina A la o rith m s to r Near N e ish b o r
Problem in H ig h
D im e n sio n s"
in Proceedings o f the S ym posiuin on Foundations o f
Computer Science (F 0 c s'0 6 ), 2006.
[3]
s. B rin ,
J. D avis, H. G a rc ia -M o lin a . C opy detection mechanisms fo r d ie ita l documents.
In Proceedings o f the A C M S IG M O D A n n u a l Conference. San Francisco. C A . M ay 1995.
[4] N. S hivakum ar. H. G a rc ia -M o lin a . S C A M : A copv detection mechanism ío r d ie ita l
International C oníerence in T h e o ry and Practice o f documents. in Proceediniis o f 2nd D ig ita l
Libraries, A u s tin , Texas. June 1995.
[5]
c.
L yo n . R. B arrett. J. M a lc o lin . A theoretical basis to the automateol detcction ol
copying betvveen texts. and its practical im plem entation
in thc le rre t plasúm sm
and
collusion detector. P laeiarism : Prevention. Practicc and P olicics C onleience. .lunc 2004.
[6] c . í. von. R Barrel l. .1 M a l c o l m . P l a u i ar i sm is c a s \ . but also cas\ lo cletect. 1’lauiarv:
C ro s s -D is c ip lin a n S tudics in P lagiarism . l abricaiion. and I a lsilic a tio n .
17] Broder. A . "O n the resem blance and containm ent o f docum ents” . In SI ỌS: Sequcnccs
91.
18] Kol cz. A. . A. C h o w d h u r y . et al. (2 0 0 4 ) . " I m p r o \ c d stabi 1it> o f l - Ma t c h si gn a t u r c s \ iiì
lexicon ra n d o m iza tio n . A O L . 1998.
|9) M anku. .lain. Sarma: D e te ctiim N ear-D uplicates ib r \Veh C ru u lin g . in Proccedings oi thc
16th in ternational coníerence on W o rld W ide VVeb. A C M Press. 2007
[10]
H enzin»er:
F in d in a
N e a r-D u p lica te
W eb
Pages:
A
Large-Scale
n xa lu atio n
oi'
A lg o rith m s . in P roceedines o f the 29th annuaỉ international A C M S K ilR co nlcrcncc 1)11
Research and d e velopm ent in in to rm a tio n retriex al. AC VI Press. 2006
|l l|
Broder. A . . On the rcscm blancc and conuiinm ent o f documcnts. In S I.ỤS: SeqncnccN
91. 1098.
11 2 1
B r o d c r A.. s . ( ỉ l a s s m a n . ct al. Sv n t a c t i c c l us t cr i ng ol thc \Vcb. In P i o c c c d i n g s ( ) f t h c
6th In te rn a tio n a l W eb C o n ícrcn cc. 1997.
[13]
H eintze. N. S calahlc docum cnt lìn g e rp rin tin g .
In l’ roc. I SI N IX
\V ork-shop on
E le ctro n ic C om m erce. ] 996.
1141
Ạ
(J
Y a o and
1. 1. V ao . D ic tio n a iẠ
lo o k -u p
u i l l i onc oiTor. .1 ()!' A liỊo n th m s .
25(1): 194202. 1997.
U)
B Á O CÁO TÓ M TẤT ĐÈ TÀI
1. Mục tiêu nghiên cứu
Vân đê xác đ in h sự g iô n g nhau giữa các văn ban là m ột vấn đè quan trọng với
nhiêu tác động tớ i nh iê u lĩn h vực tro n g cuộc sông. H iện việc g iả i quyết vấn đề xác dịnh
hai hay nhiêu văn bản có tương đơng nhau đana được tích cực nahiẽn cứu. G ia i quyết
được bài tốn này có thẻ ứng dụng trong nhiều mặt cùa xã hội và m ột ứng dụne cua bài
toán này là phát hiện v iệ c “ đạo văn
khi mà các tài liệu và các nehiên cứu được dưa lèn
trẽn mạng Internet m ột cách rộng rãi và phô biến. C ùng vớ i sự phát triên với tốc độ
chóng mặt cua Internet và cơng nghệ tim kiếm , giai quyết dươc bài toán xác định được sự
tương đồng giữa các văn ban mang lại nhiều ý nghĩa tích cực trong việc \â v dựng các cồ
máy tìm kiế m cũng như tăng hiệu năng hoạt động cua toàn hệ thống tim kiếm.
H iện có rất nhiều nghiên cứu giai quyết vấn đề này trên thế g iớ i. tu> nhiên với
tiếng V iệ t thì vẫn cịn m ới mẻ. D o vậy. mục tiêu cua đề tài là tìm ra phương pháp phát
hiện sao chép giữa các vãn ban tiêng V iệ t, dặc biệt là trong cơ sơ dừ liệu lớn.
2. Nội dung nghiên cúu
•
Các phương pháp phò biến trona việc phát hiện sao chép giữa các vãn ban: DSC.
I-M a tc h , L A S H . Sim hash. C harikar.
•
•
X ây dựne C orpus văn bán tiếne V iệ t phục vụ nghiên cứu.
P h ư ơ n g p h á p p h á t h i ệ n s a o c h é p liiừa các vãn b an ti ếng Việt t r on g mộ t c ơ SƯ d ữ
liệu lớn.
3. K et q u ả c ủ a đ ề tài
2 bài báo đăng tại các lìội nghị quốc tế chuyên ngànlĩ (đãng bơi IEEE CS)
•
Cong Thanh T ruona. The D uy Bui. Son Bao Pliam. "S car-duplicates detection ù>v
Vielnamese D uciuiiưnts
in
LciriỉS Dofuhci.se ■ 7
IH L h
International
Contercncc
OI1
Advanced Laneuage Processing and W eb Inio n n a tio n I eehnology". China. 2008.
•
Dai Quoc N auyen. Dat Ọuoc Nguyên. Son Bao 1’ ham. The Du> Bui.
husi
Tempìate-based Approach to AutoimUiccillv hỉcnutr Prunưry ĩcxi Conieni ọt a li'ch
Page". In The 1"' IE E E International C onlcrcncc 011 K m m le tlg o and S\stems linginccring.
Hanoi. V ietnam . 2009.
Kết qua p h ụ c vụ thực tế (cúc san pliá m công HỊỉhc. kha n ă m up
tlụ rc l á
Phương pháp đề xuất g iả i quyết bài toán phát hiện sao chép - hay phát hiện sự trùne
lặp giữa các văn bản tiếng Việt đã được áp dụng vào hệ thống tìm kiếm thịne tin Xalo.vn
của cơng ty T in h Vân.
Kết quá đào tạo (số lư ợ n g sinh viên, số hrợ ng học viên cao học, nghiên c in i sinh tham ạiơ
thực hiện làm việc tro n g đê tài, sơ khóa luận, lu ậ n văn đã hồn thành và bào vệ)
3 khóa luận tốt nghiệp CNTT:
•
Cong Thanh T ru o n g , “ N ear-dupH cated D etection fo r Vietnamese Documents in
Large D atabase ” , U n d e r-g ra d u a tio n Thesis. C olleae o f T echnology. 2008.
• Trần B ìn h G iang, " Vietnamese B lo g P r o filin g " . U nder-graduation Thesis. C olleuc
o f Technology. 2009.
•
Phạm Đức Đ ă iiíí. "P h ư ơ n g p h á p phá n đoạn từ tiên% Việt sư dim% gán nhãn íừ
lo ạ i", Khóa luận tố t nghiệp đại học. Đ ại học C ông Nghệ. 2009.
Kết quả nâng cao tiềm lự c khoa học (nâng cao trìn h độ cán bộ và tra n g thiẽt b ị liự c phân
mềm đã x â y d ự n g đ ư ợ c g ia o n ộ p đ ư a vào sư d ụ n g tạ i đ ơ n v ị):
N âng cao năng lực chuyên m ôn cua cán bộ phịng thí nghiệm vê các lĩnh \ ực \ư l\
ngơn ngữ tự nhiên và trí tuệ nhân tạo.