Tải bản đầy đủ (.pdf) (40 trang)

Phát hiện sao chép giữa các văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (14.12 MB, 40 trang )

Đ Ạ I H Ọ C Q U Ó C GIA HÀ NỌI

-------------------- ****

PHÁT HIỆN SAO CHÉP GIỮA CÁC VĂN BẢN T1ÉNG VIỆT

Mã số: Q C .08.17

C hú nhiệm đề tài: Phạm Bao Son

Đ A I H Ọ C Q U Ố C G IA h a

n õ

,

T R U N G t ầ m t h ô n g t i n t h u V ịỆ N

Ọ O O ỊO O O O O ^Ậ

I la Noi

2009


M Ụ C LỤ C
B ÁO C ÁO TỐNG K É T ................................................................................................
I .Giới th iệ u ..............................................................................................................................
2.Thách th ứ c............................................................................................................................
3.Tông quan các vấn đê nghiên c ứ u ....................................................................................
3 .1.Các phương pháp phổ b iế n .........................................................................................


3.2.Kiến thức nền tàng.......................................................................................................
4.
Xây dựng Corpus văn bản tiếng V iệ t........................................................................
5.Phương pháp xác định sao chép giữa các văn bàn với một cơ sị' dữ liệu lớ n .............
5 .1.Mơ hình phát hiện những văn ban gần trùim lặp nhau với một cơ sở dữ liệu lớn
5.2.Lựa chọn đặc trư ng......................................................................................................
5.3.Tính Fingerprint cho văn b a n .....................................................................................
5.4.Xác định cluster cho văn bán......................................................................................

.3
.3
.4
ì
.5

6

6.2.Ket qua....................................................................................................................................

8
9
9
0
]
I
~>
2
7

7.Kết luận................................................................................................................................

Tài liệu tham kh á o ..................................................................................................................

5
6

6.Thực

n g h iệ m ..............................................................................................................................

6 .1.Xây dựng phưưnu pháp thí nghiệm và phương pháp đánh giá..............................


Danh sách n h ũ n g người tham gia thực hiện đề tài (học h àm , học

v ị , CO’

quan cơn g tác)

Chú tr ì để tà i:


TS. Phạm Bảo Sơn

Những n g ư ờ i thự c hiện:
H ọ và tên

TT

H ọc v ị


Cơ quan cône tác

1

B ù i Thê D u y

TS

Trườ ng Đ H C N

?

Lê A n h Cường

TS

Trườ ng Đ H C N

3

Trư ơng C ông Thành

CN

Trường Đ H C N

4

N guyễn Q uốc Đ ạt


CN

T rườ ng Đ H C N

5

N guyễn Q uốc Đại

CN

T rườ ng Đ H C N

6

Tràn Bình G ianu

CN

Trường Đ H C N


Danh m ụ c các b ảng số liệu
Bàng I . Kết quả F-measure khi tiến hành thí nghiệm theo hướng tiếp cận thử nhất (chi sứ dụng
những đặc trưng mặc định (âm tiết) và không sử dụng các đặc trưng riê n g qua xừ lý tiêng Việt).... 13
Bảng 2. Kết quả F-measure khi thí nghiệm với mơ hình phát hiện sự trùng lặp cua văn ban tiếng Việt
đề xuất............................................................................................................................................................... 13

|\



Danh m ụ c các hình
Hình I . M ơ hình phương pháp phát hiện sao chép giữa các văn ban tiếng V iệ t.................................... 9
Hình 2. Biêu đồ thể hiện kết quả thí nghiệm theo hướng tiếp cận thứ n h ấ t.............................................13
Hình 3. Biểu đồ kết quả (F-measure) khi sừ dụng mơ hình đề xuất.......................................................... 14

\


OVERVTEW

1. O bjective
P la g ia rism D e te ctio n is one o f the m ost im p o rta n t p ro b le m s a ffe c tin g o u r life and
it is a c tiv e ly studied by m any research groups in the vvorld. T a c k lin g th is task can b rin g
m any advantages to the society, e specially to academ ic. since there are m any researches
as w e ll as study m aterials pu b lish e d in the In te rn e t vvidely. M o re o v e r. s o lv in g the
Plagiarism D etection problem g re a tly contributes to Search eneines períorm ance.
T h is p ro je ct is to b u ild up an e ffe ctive m ethod to ta ckle the task o f P lagiarism
D etection. A d d itio n a lly , the task o f P lagiarism

D e te ctio n fo r Vietnam ese c u rre n tly

receives v e ry little studies so that in this p ro je ct w e w o u ld lik e to pay m ore attention to
solving the Vietnam ese P lagiarism .

2. Research


Research com m on P lagiarism D etection m ethods o ve r the w o rld such as D SC . 1M atch. L A S H , Sim hash, C harikar.





B u ild up a V ietnam ese docum ents corpus.
C onstruct a fra m e w o rk fo r V ietnam ese P laeiarism D etection in a very laree
database.

3. Result
2 publications in the International Conferences pubỉished by IEEE c s


Cong Thanh Truong, lh e D uy B u i, Son Bao Pham. "N ea r-d u p lica te s detection f o r

Vietnamese Docum ents

in

L a rg e

D a t a b a s e 7lh IE E E

International

Conference

on

Advanced Language Processing and W eb In íb rm a tio n T e ch n o lo g y". C hina. 2008.


Dai Ọuoc N guyen. D at Quoc N guyen. Son Bao Pham. The D u v B ui. "A


Tem pìate-based A p p ro a c h to A u to m a tic a ìỉy Identiýỵ P rim a ry

Text C ontent o f a

Fast
Web

P a g e ” , In The l st IE E E International Conterence on K no\vledee and Systems Engineerine.
Hanoi. Vietnam . 2009.

Application
The Vietnam ese P laaiarism D etection fra m e \vo rk is c u rre n tly applied in the X a lo .vn
Search engine o f T in h v a n M e d ia C om pany.

Academic resuíl
U n d e r-iỊru J i(a iiu n theses




C ong Thanh T ru o n g . “ N e a r-d u p ìic a te d D e te c tio n f o r Vietnamese D ocum ents in

La rge D atubase ", U nd e r-g ra d u a tio n Thesis, C o lle g e o í I e c h n o lo g y, 2008.


Trần B ìn h G iang, “ Vietnamese B lo g P r o f ilin g ’\ U n d e r-g ra d u a tio n Thesis, C ollege

o f T ech n o lo g y. 2009.



Phạm

Đ ức

Đ ăng,

" Vietnamese

W o rd Segm entation

m e th o d using P a rt-O f-

S peech". U nd e r-g ra d u a tio n Thesis. C o lle g e o f T e ch n o lo g y. 2009.

Scientifìc coníribution
Enhance knovvledge as \ve ll as s k ills fo r m em bers o t'th e la b o ra to ry in N a tu ra l
Language Processing.




Tóm tắt các kết quả nghiên cứu chính của đề tài

Ket qua vể khoa học (những đóng góp cua đê tài, các cơng trìn h khoa học đã cơng bơ)

2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)


Cong Thanh T ruong. The D u y B ui. Son Bao Pham. "Near-dupHcates detection f o r


Vietnamese D ocum ents in L a rg e Database ” , 7lh IE E E International Conference on Advanced
Language Processing and W cb In íb n n a tio n T ech n o lo g y". China. 2008.

Bài báo ứng dụng phươna pháp phát hiện sao chép giữa các văn ban tiếng V iệ t trong m ột cơ sơ
dữ liệu lớn đề ứng dụng vào phát hiện các tin tức có nội dung gần giố n g nhau giúp tăng hiệu quả
cùa hệ thống tim kiếm thơng tin. Phương pháp có tác dụna làm tăng hiệu qua về mặt thời gian
tim kiêm nội dung trên m ạng internet và tiết kiệm được tài nguyên vê bộ nhớ lưu trữ.



Dai Ọuoc N guyen. Dat Ọuoc N guyen. Son Bao Phani. The D uy Bui. "A Fast Tem pỉate-

hasecì A p p m a c h to A u to m a tic a llỵ ld e n lifi' P rim a rv Text C o n le n i o f a Weh P a g e ". In The r '
IHHH International C ontèrence on K now ledge and Systems Hngineering. Hanoi. V ietnam . 2009.

Bài háo ứnn dụng phươnạ pháp phát hiện sao chép giữa các văn ban tiếng V iệ t úng dụng trong
việc nhanh chóng tìm ra các tem plate cúa các vvebsite đê xác định các phan nội duníi chính.

Két qua p h ụ c vụ thực tê (các san phàm công nghệ, kha năn g áp d ụng thực tê)
Phươna pháp đè xuàt giái quyêt bài toán phát hiện sao chép - hay phát hiện sự trùne lặp
giữa các văn ban tiẻna V iệ t đã được áp dụne vào hệ thơne tim kiê m thịne tin X a lo .v n cua
côna t\ T in h Vàn.
K ê/ qua đào tạo (sô lư ợ n g sin h viên, sô lư ợ n g học viên cao học, nẹhiên cú n sin h tham g ia
thực hiện lùm việc tro n iỊ đê là i. sơ khóa luận, lu ậ n văn đ ã hoàn th à n h và hao vệ)

.ỉ klióa luận tốt nghiệp C:\TT:


C ong Thanh T ru o n ti. "X e u r-i/iip ltc a te c / D e tc c tio n fo r Vietnamesc D ocum ents in L a rạ c


D a ta h a s c ". U n d e r-a ra d u a tio n Thesis. C o lle a e o f T c c h n o lo 2 N. 2008.


T rần B ìn h G iang. "V ietnam ese B lo g P r o fd in g " . U n d e r-g ra d u a tio n Thesis. C o lle g e o l'

l e c h n o lo g ). 2009.




Phạm Đ ức Đ ăng, "P h ư ơ n g p h á p p h â n đoạn từ tiế n g Việt sử dụn g g á n nhãn từ lo ạ i

Khóa luận tố t nghiệp đại học, Đ ạ i học C ông N ghệ. 2009.
K êt quả nân g cao tiêm lự c khoa học (nâng cao trìn h độ cán bộ và tra n g th iê t b ị hạc p h â n
mêm đã x â y dựng được g ia o nộp đưa vào sử dụng tạ i đơn v ị):
N âng cao năng lực chuyên m ôn cùa cán bộ phịne thí n g hiệm về các lĩn h vực xứ lý nsơn ngừ
tự nhiên và trí tuệ nhân tạo.


BÁO C Á O T Ỏ N G K É T
1. G iới thiệu
Vấn đề xác đ ịn h sự g iố n g nhau giữa các văn bản là m ộ t vân đê quan trọ n g vớ i nhiêu
tác động tới nhiều lĩn h vực tro n g cuộc sông. H iệ n việ c g iả i quyết vân đê xác định hai hay
nhiều văn bàn có tương đồng nhau đang được tích cực nghiên cứu. G ia i qut được bài tốn
này có thể ứng dụng tro n g nhiều mặt cua xã hội và m ột ứng dụng cua bài toán này là phát
hiện việc "đ ạ o v ă n " k h i mà các tài liệ u và các nghiên cứu được đưa lên trên m ạng Internet
m ột cách rộng rãi và phố biến. C ùng vớ i sự phát triể n vớ i tốc độ chóng mặt cùa Internet và
cơng nghệ tìm k iế m , g iả i quyết đươc bài toán xác đ ịnh được sự tươna đồng giữa các văn bản
mang lại nhiêu ý nghĩa tích cực tro n g việc xâ y dựng các cỗ m áy tim k iê m cũng như tăng hiệu

năng hoạt động của tồn hệ th ố n g tìm kiếm .
T ro n g các hệ th ố n g tim kiê m thô n a tin . m ột tro n g những m ục tiêu tiên quvêt là trình
bày những trang thích hợp tới naười dùng nhanh nhất có thê. Đẽ đạt được m ục tiêu này. hộ
thống tìm k iế m cần phai phát hiện những trang trù n g lặp hoặc gằn trù n ạ lập bơi chúng sẽ
khiến việc tìm k iế m chậm đi đồng thời tăn 2 thêm chi phí bộ nhớ cho việc tìm kiếm . V iệ c
phát hiện những trang nội dung trùng lặp nhau hồn lồn thì có thê thực hiện khá dề dàn tí
nhờ phươne pháp checksum . tu y nhiên phát hiện nội dune gàn trù n e lặp nhau thì lại phức tạp
hơn rất nhiều. C húng ta có thê sứ dụng m ột cách đơn íìian là so sánh từne cặp văn ban m ột
với nhau dè kiê m tra độ a.iôna, nhau nhưne vớ i sò lượne các văn ban cực lớn như tro iiíi các
cỗ máy tìm kiê m thì điều này khơng kha th i v ì độ phức tạp q lởn. G ia i quyết vấn đề này có
m ột sơ thuật tốn như Nearest N e ig h b o r Search [3 ]. L o c a lity S ensitive H ashing [1J. DSS.
DSC-SS [4 ]. Sim hash o íC h a rik a r [2 ] hay I-m a tch [5 j.
T ro n a m ô i trườna In te rn e t ớ V iệ t N am . tliỏ n a kè từ 25 trang tin phò biến nhất như
V ietna m n e t.co m . D a n tri.c o m . N aoisao.net. Y.v. cho thây khoane 2 0% sô các tin giữa các báo
là trùna lặp hoặc san trù n a lặp nhau m ỗi nsàỵ. D o vậ y việc phát hiện dược nlũrna tin đó sè
đóng vai trị quan trọ n s kh ô n g những cho những hệ thơ n a tim kiê m mà cịn cho nhũ nu
nghiên cứu tio n iì xứ ỉý n °ị n naữ như phàn nhóm văn ban. phát hiện chu dê. tru \ vết nội
duníỊ cũna như nhièu lìn h vực khác.
Trôn thế a iớ i hiện dà cỏ nhiêu nhóm tập UIII 1>1 n tihiên cứu vê xác định sự ” 1011” nhau
niũa các văn han. Cũn ti dã cỏ nhiêu ửnsỉ d ụ iiíí được rộn Li rãi SU' d ụ im như tro n ” các hệ thõnu
tim k iế m th ô n s tin hay tó m tăt da văn ban. I L1\ nhiên, các nííhiẽn cứu và ửnu đ ụ n ” tronu lĩnh
vực này c lio tiế n a V iệ t còn ràt mới 1110. Do vậỵ. dè tài n à \ tập tru n a lớ i nuhicn cửu \a xà\
dựng írna d ụna về \ àn đê nàv \ ới nuỏn nuữ tiê n s V iệ t.


2. Thách thức
Có những thách thức m à phải vượt qua đế giai quyết được bài toán này:
s

T iế n g V iệ t m ang nhiều đặc trưng ngôn naữ riê n g khiến nó trở nên phức tạp so vớ i


tiếng A n h và m ộ t số ngơn ngũ' khác. N hữ na khó khăn đó xuất phát từ m ột trong những đặc
điểm sau:
o

Phân biệt các từ kh ô n g xác địn h bang dấu cách bơi m ột từ có thê bao gơm nhiêu
âm tiế t và chi m ỗ i âm tiế t m ới phân cách nhau bới dâu cách. Đ iều này dần dên
nhập nhang tro n g phân đoạn từ tiế n e V iệ t. V í dụ: "H ọ c sinh học sinh học ” có thê
được phân đoạn từ thành "H ọ c_ sin h học s in h _ họ c“ hoặc cũne có thê là "H ọ c_ sin h
học_s in h học

o

N gữ pháp V iệ t N am phức tạp cùng với hiện tượns đồng âm khác nghĩa, từ tlô im
nghĩa hay đao trật tự câu và các phép tu từ dẫn đèn nhập nhăna tro n a xác định ý
nghĩa cua càu. từ.

S

Chưa có corpus (tập cơ sơ dữ liệu íián nhãn tiê n g V iệ t) cơna bị với kích

thước du lớn

dê tiến hành thí n ghiệm và đánh 2,iá hiệu năng cua phương pháp.
s

C hua có nhiều nahièn cứu tiên đề về vấn đề phát hiện sự trù n ” lặp văn ban tiênu V iệ t.

■S


Đặc thù tiế n g V iệ t khó có thê áp dụng ngav những kêt qua im hièn cửu

trên thế aiứ i

với tiế n g A n h . A -R ặ p đê đạt được kêt quá cao.

4


3. T ống quan các vấn đề nghiên cứu
3.1. C ác p h u o n g p háp phổ biến
C ó rất nhiều phương pháp đã được triể n kh a i đề xác đ ịn h "đ ạ o v ă n " tro na học thuật,
trùng lặp trang tin hay trù n g lặp các ban ehi tro n g cơ sờ dù' liệu. B rin et al. [3 ][4 ][5 Ị đã đề
xuất hệ th ố n g COPS (C o p y P rotection S ystem ) để đảm bao ban quyền các văn ban số hóa.
S hivakum ar et al. [4 ][5 ][6 ] đã đề xuất hệ th ố n e S C A M (Stand C o p ỵ A n a lysis M echanism )
đế kiế m tra m úc độ sao chép tro n g thư viện điền tứ đại học S tantord. Hai hệ th ố n s nà> đều
hoạt độne trên nguyên lý cơ ban sau:
s

Tạo tìn g e rp rin t (hay còn eọi là "dâu v â n ") cho các văn ban \ à lưu chím lí vào tro im CƯ

sớ dữ liệu.
s

H ai văn ban có phần chune nếu có ít nhất m ột phần ỉìn g e ip rin t trùng nhau, độ trùnu

lặp tí lệ với độ trù n e lặp eiữa íìn e e rp rin t của chúim .

MỘI phương pháp khác là phươne pháp tính DSC 17 ]ỊI 1 ịdựa vào việc tinh loan các
shingles (phàn đặc trư iiíi


CO'

ban. hay còn aọi là "n h à n ") cua tồn hộ tập các vãn ban rịi sau

dó lọc ra những phân chung nhât dê so sánh 2 văn ban thỏm ; qua kĩ tluiật tính C osinc
|7 || I 1I I 12I I 151 hoặc Resemblance [ 7 ] | l l | | 1 2 | . N lù m u k ì thuật tính ná\ hồn tồn kha thi
với kho dữ liệ u lớn bơi độ phức tạp cua cluìne là C)(n2). Cai tiên lu m so với DSC là phương
pháp D SC -SS [7Jf 11 I cho phép tính tốn các super shinule (siêu "n h à n ” ) trên dơn \ ị \ ăn han
với m ỗi super sh inale là tập vài shinale uliép lại. M ộ t văn ban sẽ dưựe dặc tn rn ti hóa bơi m ột
sị lượna nho các super s h iim le và việc tính tốn độ trù n ” lặp íiiữa các v ăn ban sị dựa vào
các super shiníìle k h i dỏ D SC -SS sẽ m ane lại hiệu năna cao hơn DSC.
Phương pháp l-M a tc h [8 J [1 1J xây dựna các sisnature (chừ k ý ) riêng cho m ồi \ă n han
dựa trên các từ và tạo ra m ột càu trúc dữ liệu. I-M a tc h kh ơ n g dựa vào phân tích cú pháp
nhirnu lh a \ \ủ o dỏ phưcmt; pháp nà> sư dụ n íi th ị iiii kè Ucn tồn dữ liệu nhăm xác định
nhừim tù' quan trọ n a (có trọ n s sô cao theo m ột hàm thông kê) đê so sánh tinh tốn mức dụ
tn ìiiíi lặp íiiĩra cliúna. I-M a tc h tin h toán trợnsi sô cho các từ bãntỉ ] DI (Inverse D ocum cnt
F rc q u c n c \). P liirơ na pháp nà\ tliụ c tlii với dộ phức tạp \â p \ I ()(dlo< id) tro im Irirớ n ii hợp xâu
nhắt túc lá toàn hộ các văn ban là trù n íi lặp lan nhau, t r o n g những trường hợp con lại. 110
thực th i v ớ i độ p h írc lạ p ( ) ( d ) (đ là số các Mìn han tro n g tập dữ liệ u )


L A S H [2 ] là m ộ t thuật toán áp dụng N ear N e ig h b o r Search tro n a khôna aian đa chiêu.
Ý tường của L A S H là giám số lượne chiều cùa dữ liệu và sư dụne hàm băm L đè giam thờ i
gian chạy thuật toán.
Sim hash chiếu m ỗ i đặc trưng vào khône gian b-chiêu băna cách chọn ngẫu nhiên b
giá trị từ {-1. 1}. Phép chiếu này là đồng nhất đối với toàn bộ các văn ban. V ớ i m ồ i văn ban.
m ột vector b chiêu được xâv dựng lên bang cách chiêu toàn bộ các đặc tn rn e lên chuỗi dặc
trưng của nó.
B ài tốn M e ree/P urge (X á c nhập/ Sàn 2 lọc) được đề xuất bơi H ernandez et al. nhăm

xác định những bản g h i trù n g lặp ttừ nhiều nguồn cơ sớ dữ liệ u [9 ][ 10][ 13]T oàn bộ các ban

2,hi từ những cư sơ dữ liệ u khác nhau được săp xêp dựa theo m ột thuộc tính khóa nhài định
nào đó. M o i lân các ban ghi được săp xếp theo khóa đó. các ban ehi vớ i số lirợ ne lán” íiiênti
nho dưực so sánh với những ban ghi khác và từ dó xác định các ban ghi trùng lặp hoặc nân
trùng lặp.

3.2. Kiến th ú c nền tảng

A. Các phương plíáp tính tốn độ đo sự giống nhau (Similarity metrics)
Chú nu ta sứ dụna vài hệ đo tương tụ' dè xác (.lịnh SỤ' liiõ n a nhau uiữa 2 vãn han bơi
việc xác ctịnh m ột mức cô đ ịnh nào đỏ làm ranh iiiớ i aiùa sụ- trù n ii lặp va khơníí tru n íi lặp
giữa 2 văn han là khó khăn. Hơn thế nữa nêu 2 văn ban có chứa nội đuníi ngữ niíhũi líân
tương tự nhau th i nó là trù n g lặp cho dù cú pháp cua nó có thê kh ơ n g khớp nhau. Do vậy cân
có độ đo th ích hợp đê đo sự e iố n g nhau giữa 2 văn ban.
Đ ộ đo R esem blance là m ột trong nhữne độ đo sự a iô n s nhau phô bièt nhất hiện na>.
Theo dó vớ i nm rỡim t đè xác địn h độ íỉiơ n íỉ nhau. 2 văn ban được coi là aiơna nhau nêu như
dộ do sụ' iìi 0 nu nhau R esem blance aiữa cluìna vượt quá t. Đ ộ đo Rcsemhle tiiừa 2 Năn han
dược tính như sau:
1-x

R ese m b lĩu ice iD i. D i ) =

Si Di)

- r,'.

r

S iD i i


■'

. -

S(D j I L Si Di

T ro im đó S (D i). S (D ị) là các dặc tn rn g cua \ă n ban D i. D ị.

D ộ do thử 2 thư ờnti dược SU' dụnti dỏ tính tốn sự líiị im nhau tỉiữa 2 \ ăn han la dộ do
C osinc tin h toán dựa trẽn k lio a im cách íiiữa 2 \ ector tu irn u ưng cua 2 \ã n han tló. K h i C osinc
tính đuưc «iữa 2 \ă n han tic n c à iiíi nằn tới Líiá trị 1. hai \ã n han cang dirọc coi là líiõ n íi nhan.


Í D i.T D i

Cosine (D i. D i) =

-— ————
|1Di|. |TDj|

T ro ng đó. | D là v e cto r biếu diễn cua văn bản D

Cũng như vớ i độ đo Resemblance. sứ dụng giá trị C osine vớ i m ột ngưỡne t nào đó có thê
đùng đê xác đ ịnh sự gần tư ơns tự nhau giữa các văn bàn.

li. Thuật toán Charikar
Thuật toán C h a rik a r sư dụng k ỹ thuật aiam chiều cua dừ liệu. Nó ánh xạ uiữa một
vccto r nhiêu chiêu với m ột lìn a e rp rin t với kích tlnrớc nho hơn rất nhiều. K ỹ thuật lùn dược
áp dụng cho các văn ban như sau: đàu tiên, ch ú n s la sư d ụ im các phưưnii pháp trích chọn dặc

trưng đê chuyên m ột văn ban thành m ột tập các đặc trư im cho nó. ví dụ các âm tiẽt. từ. \ . \
với các trọ n g sô iư ư im ứ n ti. l ập các dặc trưna và iiiá trị tirư im ứníi dỏ tạo thành m ột vector
đa chiêu, và băng phép băm Sim hash vc c to r đa chiêu dó dược chuyên thành một lin iie rp rin t
có 1'bit với í' là m ột sơ nho. S im hasli có thê dam hao dược nhữníi dặc diêm :
o

Mỗ i t ì n e e r p r i n t c u a m ộ t v ã n b a n là h à m b ă m c ác tlặc I r ưn u c u a v ã n han do.

o

N h ữ n e v ă n b a n s i ố r m n h a u c ó !2 Ìá trị b ă m a i ị n u nhau.

V ó i m oi dặc trưng cua vãn ban dược chiêu lèn k h ơ n ” íỉian chiêu băne việc chọn niíẫu
nhi ên b a i á trị t r o n a 1-1. 1 Ị với b là m ộ t h ă n g sô c h o t r ước . P h é p c h i ê u n à y á p dụníi với tất
ca các vãn han. V ớ i m ỗ i văn ban. I vector f chiêu sẽ đuợc tạo nõn bơi cộrm các phép c h i ế u
cua toàn bộ các dặc trưne, tro n a chuỗi đặc trư na cua nỏ. C uòi cùna. các ííiá trị (.lươn tí tro n ”
v e ct o r c u a m ỗ i v ă n b an đ ư ợ c e á n bănsi 1 \ á các e i á trị k h ò n t i d ư o n u d ư ợ c a án lại băn Li 0. Với
các veetor n à \. độ siô n a nhau ai lìa 2 văn ban ti lệ với sỏ hit iiiơ n ii nhau cua 2 \ cctnr tiRynti
ửni> vớ i chúnti.
S a u p h é p b ă m . t hu ậ t toán C h a r i k a r s ư d ụ n g k h o a n g c á c h H a m m i n g dè linh toán
k h o a n ti cách u iừ a các \ ăn ban và tă iiíi dàn k h o u n u cách đõ ch ọ n ra tiiá trị k lliíc h hợp n liâ l.

Thuật tốn phụ thuộc \ ào kì thuật trích chọn dặc trưng cùng nhu sỏ lượng các dặc trirns> c ù n ”
n h ư

p ln rơ n u

p h á p

tin h


d irợ c

liiá

t rị

CU Í1

dặc

trư iiíi

c h o

t Ú n li

vãn

han.

N tio à i

ra.

tliu ậ t

lo a n




d ụ n g \ iộc so s á n h t ừ i m c ặ p c á c vă n han dc tìm SỤ' i m n g lặp h a \ g à n t r uny lặp nhau. C h í n h \ i
nhĩrne lý do trên k h i làm việc với số lượiiíì cac văn han qua lớn. C h a rika r sò gặp nhữnu kho
khàn \ề liiỘLi Iiăna hoạt d ộ im ha\ thời gian chạ) lơn.


4. X ây d ự n g C o rp u s văn bản tiếng Việt
M ộ t tro n g những khó khăn đê g ia i quyết bài tốn đó là th iế u nhữne kho dữ liệu văn
bán tiế n g V iệ t được gán nhãn (corpus) vớ i kích cỡ đu lớn đè có thể tiến hành khao sát.
nghiên cứu cũng như tiế n hành thí nghiệm đánh giá kết qua. D o vậy. cơna việc quan trọ n e
trong thực hiện đê tài xâ y dựne được m ột corpus văn bản tiê n e V iệ t được aán nhãn sẵn về sự
(gần) g iố n g nhau giữa chúng.
í ơi chọn nguồn dừ liệu tiến hành xâv dựng corpus là từ các trane báo điện tir tiếna
V iệ t bơi nó dáp ứng được những yêu cầu:
o

De llu i thập dữ liệ u bới có rất nhiều trang báo diện tư tiếna V iệ t hiện nay

o

Các bàn tin giữa các trang báo điện tư thường có xay ra sự trù n a lập

Dữ liệu cho còng đoạn xây dựng Corpus văn ban tiếnsì V iệ t được thu thập từ các trano
báo diện tư tiê n u V iệ t với sỏ lượng imười dục nhiều nhất. B ầim các bộ thu thập dữ liệu
(cravvler). các ban tin tức dược lấy vè tù' nhiều các tranu báo diện tư khác nhau tro n ” khoaní>
thời gian 2 năm trớ lại d à ). l)ê dam bao tính chính xác cua C orpus văn ban tiếnu V iệ t can
cho nghiên cửu này. Các ban tin được qua các bước xư lý thu cơníi dưới dây:


Phân loại các ban tin thành các nhóm có nội duníi iìà iv ư ìin ” lặp nhan. Cônu \ iộc dược

t iế n

hành bănu cách

t h u c ỏ n a s ã p n h ữ n e b a n t i n c ỏ Iiíiá _ \

đ ã n í i u iìn s á t n h a u

\ ÌU ) m ộ t

n h ỏ m . T r o n u mồ i n h ỏ m , săp xê p c ác b a n tin íiiam d ã n t he o dunii lượn tỉ c ua hun tin \ á
đọc và kiê m tra tính íỉàn trùna lặp cua các nhóm ban tin na\


X â y dựna tập các ban tin có nội đune hồn tồn trù n ii lặp nhau tro n ” corpus hãnu
cách chọn từ tập ban tin thu dược nà} m ột sô lượna ban tin rmầu nhiên n lum Sì dam
bao tính khôns. trù n a lặp nhau vớ i số đoạn tro n ” m ồi ban tin lớn hơn 2. và hoán v ị các
đoạn nhàm tạo ra n liữ n a ban tin trù n a lặp \ ói nhữim ban tin dó.

K ế t q u á : c o rp u s h a o %ồi)i 1 0 .0 0 0 h a n t in 4 .0 0 0 .0 0 0 âm tiẽ t. 2 .3 0 0 .0 0 0 l i r va I (J .2110.0(11) h i-

grain.s.

X


5. P h ư ơ n g p háp xác đ ịnh sao chép giữa các văn bản vó'i m ột c ơ sỏ' d ữ liệu lón
5.1. M ơ hình phát hiện n h ữ n g văn bán gần trùng lặp nhau vói một CO' só' d ữ liệu ló'n

Các văn ban cùn í:

m ột cluster sẽ à íiân
lìiơ n iì nhau

H ìn h 1. M ơ h ìn h p h ư o n g p h á p p h á t hiện sao chép g iũ a các vă n ban tiế n g V iệt

H ình 1 là m ị hình q trìn h xư lý việc phát hiện các văn ban gán trùng lặp nhau trong một cơ
sơ dữ liệ u 1ỚI1. M ụ c đích cua phưưnii pháp dị xt lá phân hoạch tât ca các văn han trong
m ột cơ sơ dữ liệ u lớn dó vào các clu stcr và dam hao răng tàt ca các \ã n han trong cùng một
<■>


cluster sẽ là gần trù n g lặp nhau. M ô hình gồm 3 thành phần ch in h : lựa chọn đặc trirn e . tính
F in g e rp rin t cho văn ban đang xét, và Xác định cluster cho vãn ban đầu vào. K ết qua xác dịnh
sao chép, hay xác đ ịnh sự g iố n g nhau giữa các văn ban tro n g cơ sơ dữ liệu nằm ơ các cluster
nghĩa là các văn ban tro n g cùng m ột cluster sẽ được coi là 2 ần e iố n g hoặc giố n a nhau.

5.2. Lựa chọn đặc tr u n g
Thành phân Lựa chọn đặc trư ng trong m ô hỉnh phương pháp xác đ ịn h sao chép vãn
bán nhằm m ục đích đặc trư ng hóa văn bản đầu vào. g iữ lại những tliỏ n e tin quan trọ n ii nhất
của văn ban đó. Đ iề u này kh ô n g nhữns làm tăna lốc độ cho q trình xứ K mà cịn iiiú p tãna
dộ ch ín h xác bư i \ iệc là m g ia m " n h iề u " tro n íi quá trin h XU’ K .

I hành phan lựa chọ n dặc

trưng dam đương những công việc XU’ lý tmơn ne LÌ như phân đoạn tù' 11011» tiếnu V iệ t, tính
tốn tân số xt hiện cua dặc trirn s . dánh trọng sỏ cho các dặc trưnu. trích ra các ãm tiết. ngrams tro n g văn ban. nhàn từ loại cho từ.
T ro n g tiê n g V iệ t, có thè nói từ đ ó n ii vai trị là một tron tỉ những dặc tnrrm quan trọnu
nhât Iro n a văn ban bơi nội du n s cua v ăn han dược ihê hiện tliỏ n u qua \ imhìa cua các từ và
khi các lừ dược đặt tro n ụ m ột văn canh. N iio à i yêu tò từ. các vêu tị nlnr âm tiêt. các n-iiram s
cũ I11Ì là m ột tro n g nhữ im dặc irư n ti cua vãn ban dỏ. T ro n iì phươim pháp tơi dè xt. các dặc

trư iiíi cấn aiữ lại cho m ột \ ăn ban là: từ, âm tiẽ t và các n-nram . nhàn từ loại.



I'uy nhiên k h ò n ti p lia i các dặc trư im dẽu m aim \ nuhĩa Iilu r nhau, có nlũm n dặc trư im
m ang nhiều th ị n g tin ve nội duna chính cua văn ban trong khi có n lù rn iỉ từ m ans rât ít th ơ n ii
tin. Ví dự " M á y v i lin h là m ộ t p h á t m in h lớ n c im lo à i n g ư ờ i" thi tù' "M á y VI t in h " m a i m
nhiều thònsi tin h ư n t ừ " la

Ni ioài ra. t hử ụr c u a dặ c t r ư n g CŨI1 ÍỊ d ó n g \ ai trò q u a n I i ọn u hơi

nó thê hiện được phần nào văn canh mà các đặc trưntí thê hiện. I)o \ ặ \ . nuoai \ iệc uiừ lại
các dặc tn rn a m ột cách thuãn tú>. tò i còn danh trọng sô cho các dặc trưng - dặc trirm> maim
íiiá trị Irọna số cao hơn sè thè hiện mansì nhiêu > nghĩa hon những dặc tnrng khác. V iệc tinh
toán trọ im số cho dặc trim u dược dựa trịn thơng kẽ tàn sỏ xiiã t hiện 11)1 cua dặc tru n g dó
I rọne số cua dặc trirn a 1 dược tính như sau:




F (t) là l ằ n sổ xu á t h i ệ n (11)1) cua dặc trưiiỊỊ I t n m g lậ p d ừ liệu
F n i a \ là tần

N ồ

cua dặc tiLinu xuất hi ện nhiòu nhãt t r ony lậ p d ữ liệu





F m in là tần số cua đặc trư ng xuất hiện ít nhất trona tập dữ liệ u



P(t) là v ị trí cùa đặc trư ng t trong văn ban



||t||: số lượng các âm tiế t trong đặc trưng

V iệc loại bo những đặc trư ng vớ i m ục đích làm eiám "n h iễ u " và giam thiểu số lượng cỏrm
việc cần xứ lý cho toàn hệ thố n g được thực hiện bầns việc loại di tất ca các đặc trưng mà tần
sô xuât hiện quá cao hoặc quá thấp ví dụ như cua nhĩrne từ dửns.

\

.V .

5.3. Tính F in gerp rin t cho văn bản
M ồ i văn ban có m ột tập các đặc trưng, m ồi đặc trưne tươna ứne với nó là một trọnu số.
P ingerprint cho văn bán được xác địn h như sau:


K h ơ i tạo vector f c h ic ii V với giá trị các trường banii 0



M ỗ i đặc tru n g dược băm vào m ột báne băm 1'hit




X ét bang aiá trị hãm t b it trẽn, nếu hit thứ i có eiá trị băm la 1 thi thanh phán

thứ i cua

V lăna lên m ột aiá trị băn li Irọ n ii sơ của đặc tn n iíi danti xót. neirực lại nõu Siiá trị băm là

1 thì

thành ph ân t hử i c u a V tì iam di m ộ t íiiá trị băn li trọiiii sỏ c ua d ặ c t r ưi m danti XĨI.


V e cto r cuối cùne (fin g e rp rin t) được x ã \ dựna từ V bíìniì cách liíin lạ i/ih ữ n a trườn”

aiá trị dươniì tro n u V bănii 1 và các trườne íiiá trị k liò n a duưno cho băna iiiá trị 0.

5.4. X á c định clu ster cho văn bản
T h à n h p h ầ n 1Ù1\ iíiừ \ ai trò x ác d i n h x e m m ộ t vãn ba n sò đ ư ợ c x è p và o c l u s t e r nào.
V iệc xác địn h được thực hiện theo nhữne n a u \ ên tăc sau:


Nếu khoaim cách H a m m in s từ văn ban đano xét tới m ột cluster náo dó dà có nho lum
hoặc bầ nu han tí sổ k c h o tn rớ c thì phàn \ ăn ban \ à u c lu s tc r

dó.



Nốu k h ơ n íi tỉm dirực eluster nào thoa mãn. phàn vãn ban nà} vào một cluster mới




V iệ c tính kh o a n ” cách Liiữa \ ăn han tới cluster dược thục
cách H a m m iiiíi iiiữ a lu m c rp rin t cua \ă n ban dó \ớ i các
cluster nà\ m i cặp nhật giá trị lớn nhài.

hiện qua \ iệc tinh khoanu
\ă n han dà co săn iro n ií


6. Thực nghiệm
6.1. X ây d ự n g p h ư ơ n g p háp thí nghiệm và p h ư ơ n g pháp đánh giá
Để k iể m tra h iệu quả của m ơ hình tơ i đã đề xuất, tỏi tiến hành thí nghiệm chia theo 2
cách tiếp cận. C ách tiế p cận thứ nhất tơ i sừ dụng thuật tốn C h a rik a rr với đặc trưng mặc định
- âm tiế t, những âm tiế t này được xác định bới các dấu cách tro n g văn ban. Các tiếp cận thứ
hai tô i sử dụng kết hợp nhiều loại đặc trưng bao gồm âm tiế t. từ. nhãn từ loại cùng với kỳ
thuật đánh trọ n g số cho các đặc trưng đó.
Kèm theo vớ i 2 hướng tiế p cận tiến hành thí nghiệm trẽn, tơ i cũ ne tiến hành

thi

nghiệm đê tìm ra g iá trị tơ l nhãt cho nhũng tham số sau:


F: C hiều dài cua íìn g e rp rin t



k: g iớ i hạn kh o a n g cách giữa 2 văn ban được coi là Hằn trùng lặp nhau.


G iá trị k được tiến hành th í nehiệm trong khốna 1 đến 10 và liiá trị Inhận lá

I troim các uiá

trị sau: 32. 64 và 128. T ô i lây mau ngẫu nhiên các cặp (ìn íie rp rin t vớ i khoang cách I lu m m in iỉ
nhỏ hơn hoặc bang k. Đ ộ do được sư dụng là r-m easure dè dành uiá kèt qua thí nííhiộni.

2 • ■or eci s i o í ỉ - e c a ì !

F-measure = ~

7

'

777

P r e c e ỉ i c n +reCGĨ!

T rong đó:

.Re‘riered đoc ỹữirs
P r e c is io n =

!
R ecall -

'ì co rríct

dĩi pairs


. . .i. .cùJ u õ. (.. . .uc.il
. . . . -’ . c. .T. '. !c

MếỉVíi dcc VGiĩS: ị. Cữỉ ĩ (?Ci CỈOc pcĩưs
io rra rrd c íĩK lirí

- R e trieve c/ cioc p ư ir s : so c á c c ặ p văn ha n m ù p h ư ơ n g p h á p tr a w

- Correct c/oc pairs: so các cặp văn hau Ịiiìn irims: lụp ctiniỊỉ
6.2. Kct quả
B in " 1 d u '1 t"i kct qua lính theo dộ do I'-n ica su rc khi tiên hanh thí nghiệm theo cuch
tiếp cận thử nhất (c h i sư ciụne những dặc trưng mặc dịnh (âm tic t) \ á không sư dụng eac dặc

12


trưng riêng qua xứ lý tiế n g V iệ t). K ế t qua cao nhất đạt được là 54.2% Với aiá tr ị k = 2 và F =

Bảng 1. Kết quả F -m e asu r e khi tiến hành thí nghiệm th e o hng tiếp cận thú nhất
(chỉ sử dụng n hữ n g đặc tru n g mặc định (âm tiết) và k hôn g su dụng các đặc trung riêng
qua xử lý tiếng Việt)
1

2

3

4


5

6

44.11%

54.25%

43.87%

36.87%

30.15%

13.51%

30.94%

46.59%

52.95%

42.93%

32.21 %

20.27° 0

25.83%


33.7%

41.3%

49.75%

31.80%

32

64

r

128
ri

í |( I (')() ‘
:>0 í)0
•10.00".
[
30.0 0 -.
ì
.H K .tr,

,

,

lõ no .


0 ŨO

Hình 2. Biêu đồ thê hiện kết qua thi nghiệm theo huớng tiếp cận thu nhất

Kết qua k h i tiến hành thí nghiệm

vớ i m ơ

hình tịi dị xuất với các dặc trưng mang dặc diC-m

cua tiếntì V iệ t dược trích chọn qua \ iệe xu 1> nuon ngữ tiã iíỊ V iệ t dược cho trong hang 2.

Bàng 2 Kết quá F -m e asu r e khi thí nghiệm vói mơ hình phát hiện sụ trùng lặp cua văn ban
tiếng Việt đề xuất
1

^

4

5

()


32

64
128


43.24%

63.16%

45.96%

29.09%

16.4%

7.76%

36.22%

62.82%

83.56 %

46.68%

33.1%

22.79%

35.29%

59.4%

73.07%


78.32%

48.4%

30.8%

‘J U . U U ' \ .

8 0 . 0 0 "..
7 0 .0 0 ° !,
0 0 . 0 0 '

s o

4(1

.

0 0 ” ..

>.• .

-’.í I f iri".
2 0 .0 0 ..
I (I o r»
!'

0 0


.

Hình 3. Bieu đò kết quá (F-nieasure) khi su dụng mỏ hình đề xuất

K ết qua sư dụna m ỏ hình đề xuất (hưứnsi tiếp cận thử 2) cho kết qua cao nhất I measure đạt 83.56° 0 k h i vớ i k = 3 và F = 64. Đ ièu ná} cho thã\ m ị hình dè xuất cho két qiKi
cao hơn nhiều so với phươns pháp mặc định. Độ chính xác tan” lẻn 29.31% so Nơi dộ chinh
xác mà thí nghiệm theo hướna tiếp cận thử nhất mang lại. D ièu do cùng cho thâ> với những
dặc trưng m ang nhiều đặc diêm hơn cho nuòn naữ liê n g \ iột kêt qua mang lại lá kha quan
cho việc aiai q u yế l bài toán phát hiện văn ban trùng lặp - ha> lá phát hiện sao chóp trong Năn
ban tiế n e V iệ t.
Quá trin h tiến hành thí rm liiệm chi ra \(Vi giá trị I cổ dịnh trước \ ã k tăng từ 1 dền 6
thì d ộ P r e c i s i o n uinti lên nlurnti d ộ Recall thì sa u khi t ă n g lẽn dc n mộ t giói hạn n a o d o lặp lức
e i ả m x u ố i m n h a n h . D o dó. tlộ c h í n h xác I -mcaMii v dat Lĩiá trị c a o Iiliãt với k (T giá li; (K
khống íiiừa.
V í dụ:

14




F = 32,

F-m easure đạt giá tr ị lớ n nhất k h i k = 2.



F = 64,

F-m easure đạt giá tr ị lớn nhất k h i k = 3.


K h i tăng F lên. khoáng cách H a m m in g giữa 2 văn ban sẽ tăns lên khiến độ Precission
tăng nhưng độ R ecall g iả m đ i. hay việ c nhận ra số các cặp văn han aần trùne lặp nhau tăna
lên nhưng đồng thờ i
tăng

việ c nhận đoán sai cũng lớn hơn. Nếu tăne

eiá trị cho k. dộ Recall sẽ

nhanh nhưng độ P recision thì giam mạnh. D o vậy. eiá trị cua F và k

cần được chọn dam

bao được việ c cân băng tò t nhât giữa độ Precision và Recall. K ẻ l qua CLIƠÍ cùna cho thà\ ỉ =
64 với k = 3 m ans lại hiệu quá cao nhât thí nghiệm .
Hiệu năng cua phương pháp tơ i đề xuất đã m ang lại kêt kha quan.

7. Kết luận
Phương pháp chúng tô i dê xuất dê tỉia i quyẽt bài toán phát hiện sự sao chép trong \ă n
bán ti ếng V i ệ t là s ự k ết h ợ p n h ữ i m thế m ạ n h c ua thuật toán C h a r i k a r \ ơ i tận d ụ n g n h ữ n g d ặc
trưng riêng cua tiế n íỉ V iệ t so với các imỏn niiù' khác. C hính sự kõt hợp nà\ dã mang lại liiộu
quá cao cho g ià i quvết bài toán vớ i đặc thù riêna là ngon ngữ tiC'ng V iệt.


Tài liệu tham khảo
[ 1] Charikar, “ S im ila rity E stim a tio n Techniques lrorn R o u n din g A lg o rith m s ". in Proceedinas
o f the th iry -fo u rth annual A C M sym posium on Theory o f c o m p u tin s. A C M Press. 2002
[2] A lexandr A n d o n i and P io tr In d y k . "N e a r-O p tim a l H ashina A la o rith m s to r Near N e ish b o r
Problem in H ig h


D im e n sio n s"

in Proceedings o f the S ym posiuin on Foundations o f

Computer Science (F 0 c s'0 6 ), 2006.
[3]

s. B rin ,

J. D avis, H. G a rc ia -M o lin a . C opy detection mechanisms fo r d ie ita l documents.

In Proceedings o f the A C M S IG M O D A n n u a l Conference. San Francisco. C A . M ay 1995.
[4] N. S hivakum ar. H. G a rc ia -M o lin a . S C A M : A copv detection mechanism ío r d ie ita l
International C oníerence in T h e o ry and Practice o f documents. in Proceediniis o f 2nd D ig ita l
Libraries, A u s tin , Texas. June 1995.
[5]

c.

L yo n . R. B arrett. J. M a lc o lin . A theoretical basis to the automateol detcction ol

copying betvveen texts. and its practical im plem entation

in thc le rre t plasúm sm

and

collusion detector. P laeiarism : Prevention. Practicc and P olicics C onleience. .lunc 2004.
[6] c . í. von. R Barrel l. .1 M a l c o l m . P l a u i ar i sm is c a s \ . but also cas\ lo cletect. 1’lauiarv:

C ro s s -D is c ip lin a n S tudics in P lagiarism . l abricaiion. and I a lsilic a tio n .
17] Broder. A . "O n the resem blance and containm ent o f docum ents” . In SI ỌS: Sequcnccs
91.
18] Kol cz. A. . A. C h o w d h u r y . et al. (2 0 0 4 ) . " I m p r o \ c d stabi 1it> o f l - Ma t c h si gn a t u r c s \ iiì
lexicon ra n d o m iza tio n . A O L . 1998.
|9) M anku. .lain. Sarma: D e te ctiim N ear-D uplicates ib r \Veh C ru u lin g . in Proccedings oi thc
16th in ternational coníerence on W o rld W ide VVeb. A C M Press. 2007
[10]

H enzin»er:

F in d in a

N e a r-D u p lica te

W eb

Pages:

A

Large-Scale

n xa lu atio n

oi'

A lg o rith m s . in P roceedines o f the 29th annuaỉ international A C M S K ilR co nlcrcncc 1)11
Research and d e velopm ent in in to rm a tio n retriex al. AC VI Press. 2006
|l l|


Broder. A . . On the rcscm blancc and conuiinm ent o f documcnts. In S I.ỤS: SeqncnccN

91. 1098.
11 2 1

B r o d c r A.. s . ( ỉ l a s s m a n . ct al. Sv n t a c t i c c l us t cr i ng ol thc \Vcb. In P i o c c c d i n g s ( ) f t h c

6th In te rn a tio n a l W eb C o n ícrcn cc. 1997.
[13]

H eintze. N. S calahlc docum cnt lìn g e rp rin tin g .

In l’ roc. I SI N IX

\V ork-shop on

E le ctro n ic C om m erce. ] 996.

1141



(J

Y a o and

1. 1. V ao . D ic tio n a iẠ

lo o k -u p


u i l l i onc oiTor. .1 ()!' A liỊo n th m s .

25(1): 194202. 1997.

U)


B Á O CÁO TÓ M TẤT ĐÈ TÀI
1. Mục tiêu nghiên cứu
Vân đê xác đ in h sự g iô n g nhau giữa các văn ban là m ột vấn đè quan trọng với
nhiêu tác động tớ i nh iê u lĩn h vực tro n g cuộc sông. H iện việc g iả i quyết vấn đề xác dịnh
hai hay nhiêu văn bản có tương đơng nhau đana được tích cực nahiẽn cứu. G ia i quyết
được bài tốn này có thẻ ứng dụng trong nhiều mặt cùa xã hội và m ột ứng dụne cua bài
toán này là phát hiện v iệ c “ đạo văn

khi mà các tài liệu và các nehiên cứu được dưa lèn

trẽn mạng Internet m ột cách rộng rãi và phô biến. C ùng vớ i sự phát triên với tốc độ
chóng mặt cua Internet và cơng nghệ tim kiếm , giai quyết dươc bài toán xác định được sự
tương đồng giữa các văn ban mang lại nhiều ý nghĩa tích cực trong việc \â v dựng các cồ
máy tìm kiế m cũng như tăng hiệu năng hoạt động cua toàn hệ thống tim kiếm.
H iện có rất nhiều nghiên cứu giai quyết vấn đề này trên thế g iớ i. tu> nhiên với
tiếng V iệ t thì vẫn cịn m ới mẻ. D o vậy. mục tiêu cua đề tài là tìm ra phương pháp phát
hiện sao chép giữa các vãn ban tiêng V iệ t, dặc biệt là trong cơ sơ dừ liệu lớn.

2. Nội dung nghiên cúu


Các phương pháp phò biến trona việc phát hiện sao chép giữa các vãn ban: DSC.

I-M a tc h , L A S H . Sim hash. C harikar.




X ây dựne C orpus văn bán tiếne V iệ t phục vụ nghiên cứu.
P h ư ơ n g p h á p p h á t h i ệ n s a o c h é p liiừa các vãn b an ti ếng Việt t r on g mộ t c ơ SƯ d ữ
liệu lớn.

3. K et q u ả c ủ a đ ề tài

2 bài báo đăng tại các lìội nghị quốc tế chuyên ngànlĩ (đãng bơi IEEE CS)


Cong Thanh T ruona. The D uy Bui. Son Bao Pliam. "S car-duplicates detection ù>v

Vielnamese D uciuiiưnts

in

LciriỉS Dofuhci.se ■ 7

IH L h

International

Contercncc

OI1


Advanced Laneuage Processing and W eb Inio n n a tio n I eehnology". China. 2008.


Dai Quoc N auyen. Dat Ọuoc Nguyên. Son Bao 1’ ham. The Du> Bui.

husi

Tempìate-based Approach to AutoimUiccillv hỉcnutr Prunưry ĩcxi Conieni ọt a li'ch
Page". In The 1"' IE E E International C onlcrcncc 011 K m m le tlg o and S\stems linginccring.
Hanoi. V ietnam . 2009.
Kết qua p h ụ c vụ thực tế (cúc san pliá m công HỊỉhc. kha n ă m up

tlụ rc l á


Phương pháp đề xuất g iả i quyết bài toán phát hiện sao chép - hay phát hiện sự trùne

lặp giữa các văn bản tiếng Việt đã được áp dụng vào hệ thống tìm kiếm thịne tin Xalo.vn
của cơng ty T in h Vân.
Kết quá đào tạo (số lư ợ n g sinh viên, số hrợ ng học viên cao học, nghiên c in i sinh tham ạiơ
thực hiện làm việc tro n g đê tài, sơ khóa luận, lu ậ n văn đã hồn thành và bào vệ)

3 khóa luận tốt nghiệp CNTT:


Cong Thanh T ru o n g , “ N ear-dupH cated D etection fo r Vietnamese Documents in

Large D atabase ” , U n d e r-g ra d u a tio n Thesis. C olleae o f T echnology. 2008.
• Trần B ìn h G iang, " Vietnamese B lo g P r o filin g " . U nder-graduation Thesis. C olleuc
o f Technology. 2009.



Phạm Đức Đ ă iiíí. "P h ư ơ n g p h á p phá n đoạn từ tiên% Việt sư dim% gán nhãn íừ

lo ạ i", Khóa luận tố t nghiệp đại học. Đ ại học C ông Nghệ. 2009.
Kết quả nâng cao tiềm lự c khoa học (nâng cao trìn h độ cán bộ và tra n g thiẽt b ị liự c phân
mềm đã x â y d ự n g đ ư ợ c g ia o n ộ p đ ư a vào sư d ụ n g tạ i đ ơ n v ị):

N âng cao năng lực chuyên m ôn cua cán bộ phịng thí nghiệm vê các lĩnh \ ực \ư l\
ngơn ngữ tự nhiên và trí tuệ nhân tạo.


×