Tải bản đầy đủ (.pdf) (67 trang)

Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (13.59 MB, 67 trang )

TR◊ÕNG ĐI H≈C CƠNG NGHõ
ĐI H≈C QU»C GIA HÀ NÀI

Nguyπn Hồng Anh

Phát tri∫n mơ hình hÂc sâu cho bài tốn phỏt hiên bÊng
v nhn dĐng còu trỳc ca bÊng trong £nh v´n b£n

LN VãN THĐC Sû
Ngành: Khoa hÂc máy tính

Hà NỴi - 2021


TR◊ÕNG ĐI H≈C CƠNG NGHõ
ĐI H≈C QU»C GIA HÀ NÀI

Nguyπn Hồng Anh

Phát tri∫n mơ hình hÂc sâu cho bài tốn phỏt hiên bÊng
v nhn dĐng còu trỳc ca bÊng trong £nh v´n b£n

LN VãN THĐC Sû
Ngành: Khoa hÂc máy tính
Gi£ng viờn hểng dđn: TS. Nguyn Th Ngc Diêp

H Nẻi - 2021


Tóm t≠t
SË hóa ang là xu h˜Ĩng cıa th∏ giĨi. Mẻt vớ d rừ nhòt th hiên cho xu hểng


sậ húa l viêc s dng cỏc nh dĐng vn bÊn sË nh˜ £nh v´n b£n ang d¶n thay
th∏ cho các nh dĐng vn bÊn vt l nhè sá tiên dng và an tồn cıa chúng. i
kèm vĨi s¸ bùng nÍ ca cụng nghê thụng tin, lềng vn bÊn cản x l l ròt lển v
khụng th giÊi quyt băng phẽng phỏp th cụng m cản cỏc phẽng phỏp trớch
xuòt thụng tin tá ẻng. Trờn vn bÊn cú nhiu dĐng biu din thụng tin m bÊng l
mẻt trong nhng dĐng cha nhi∑u thơng tin và phÍ bi∏n nhßt. Trong b£ng, các d
liêu thèng ềc t chc theo hng cẻt ròt c tr˜ng. Vì v™y, ∫ trích xt thơng
tin trong b£ng, b˜Ĩc ¶u tiên c¶n xác ‡nh và tách ˜Òc b£ng ra kh‰i v´n b£n.
Áng thÌi, b£ng có cßu trúc rßt a dĐng nờn viêc s dng cỏc thut toỏn x l Ênh
truyn thậng phỏt hiên l ròt khú khn.
Tn dng s˘c m§nh cıa hÂc sâu, trên th∏ giĨi ã có nhi∑u nghiên c˘u ˘ng dˆng
các mơ hình hÂc sâu ∫ giÊi quyt bi toỏn phỏt hiên v nhn dĐng còu trúc b£ng
trong £nh v´n b£n. Trong ó, phát hiªn b£ng là nhiªm vˆ tìm v‡ trí và tách ˜Ịc
b£ng ra khi vn bÊn cũn nhn dĐng còu trỳc l nhiêm v xỏc nh còu trỳc biu
din d liêu trong bÊng. M∞c dù ã có nhi∑u nghiên c˘u liên quan nh˜ng các
nghiên c˘u ã cơng bË ch˜a t™p trung vào d§ng d˙ liªu £nh v´n b£n thu ˜Ịc t¯
viªc chˆp các vn bÊn vt l băng cỏc thit b ghi hỡnh. Trong thác th, lềng d
liêu Ênh chp vn bÊn l ròt lển vỡ chp Ênh l mẻt trong nhng cỏch nhanh nhßt
∫ sË hóa v´n b£n. Vì v™y, trong khóa lu™n này, tơi s≥ ˘ng dˆng cơng nghª hÂc sâu
∫ giÊi quyt bi toỏn phỏt hiên v nhn dĐng còu trúc b£ng trên £nh chˆp v´n b£n.
∫ gi£i quy∏t bài tốn ∞t ra, tơi ã phát tri∫n các ph˜Ïng pháp phỏt hiên v
nhn dĐng còu trỳc bÊng dáa trờn cỏc mơ hình hÂc sâu. Ph˜Ïng pháp phát hiªn
b£ng s≥ bao gm cỏc mụ hỡnh hc sõu ềc huòn luyên phát hiªn v‡ trí cıa
b£ng trong £nh v´n b£n và mỴt b˜Ĩc h™u x˚ l˛ ∫ làm phØng b£ng. Mˆc ích cıa
ph˜Ïng pháp là tách ˜Òc t¯ng b£ng ra kh‰i £nh v´n b£n ban ¶u. Sau ó, các £nh
b£ng này ềc a vo phẽng phỏp nhn dĐng còu trỳc bÊng. Phẽng phỏp nhn
dĐng còu trỳc s s dng cỏc mụ hỡnh hc sõu ềc huòn luyên nhn dĐng còu
i



trúc cıa b£ng thơng qua viªc phát hiªn các ơ trong bÊng. huòn luyên cỏc mụ
hỡnh hc sõu xuòt, tụi ó xõy dáng mẻt phẽng phỏp tá ẻng tĐo Ênh mụ phng
Ênh chp vn bÊn do cỏc bẻ d liêu sặn cú v Ênh chp vn bÊn l rßt ít. Ph˜Ïng
pháp này s˚ dˆng các tính tốn ∫ mụ phng v thờm cỏc hiêu ng chứ xuòt hiên
khi chˆp v´n b£n (bi∏n d§ng 3D và bóng) lên các £nh v´n b£n chuy∫n Íi t¯ các
‡nh d§ng sË (PDF, Word...). S˚ dˆng ph˜Ïng pháp này, tơi ã xây ¸ng ềc bẻ
d liêu bao gm 22000 Ênh mụ phng Ênh chˆp v´n b£n ( ˜Ịc gán nhãn v‡ trí
b£ng) và 42028 £nh b£ng ( ˜Ịc gán nhãn v‡ trí các ơ trong b£ng). Ngồi ra, ∫
ánh giá Ỵ chính xác ca cỏc phẽng phỏp phỏt hiên v nhn dĐng còu trúc b£ng,
tơi ã gán nhãn thı cơng mỴt bỴ d˙ liêu thác t gm 100 Ênh chp vn bÊn v 100
£nh b£ng. K∏t qu£ ci cùng tơi §t ˜Ịc khá tËt và cao hÏn các nghiên c˘u liên
quan ã công bậ khi ỏnh giỏ trờn bẻ d liêu thác t ã gán nhãn. Cˆ th∫, ph˜Ïng
pháp phát hiªn b£ng cıa tôi cho k∏t qu£ IoU i∫m £nh lên ∏n 0.96 và chø sË F1 là
0.83 (khi xét các b£ng d¸ ốn có IoU > 0.9 ˜Ịc tính là chính xác). VĨi ph˜Ïng
pháp làm phØng b£ng, nghiên c˘u cıa tơi cho tø lª c≠t và làm phØng b£ng thành
cơng lên ∏n 95%. Vểi phẽng phỏp nhn dĐng còu trỳc bÊng thụng qua phát hiªn
các ơ trong b£ng, mơ hình cıa tơi cho chø sË F1 khi phát hiªn các ơ là 0.76.

ii


LÌi c£m Ïn
Tơi xin c£m Ïn sâu s≠c ∏n TS. Nguyn Th Ngc Diêp ó tip nhn, hểng
dđn, tn tỡnh chø b£o cÙng nh˜ Ëc thúc tơi hồn thành nghiên c˘u trong st thÌi
gian làm lu™n v´n.
Tơi xin g˚i lÌi c£m Ïn ∏n các gi£ng viên d§y các lĨp cao hc ca trèng Đi
hc Cụng nghê - Đi hc Quậc gia H Nẻi ó truyn Đt kin thc cho tụi trong
st 2 n´m tơi làm hÂc viên cao hÂc t§i tr˜Ìng.
Và ci cùng, tơi xin g˚i lÌi c£m Ïn sâu sc nhòt n bậ mà - nhng ngèi ó
luụn ng hành và Ỵng viên tơi trên con ˜Ìng hÂc t™p.


iii


LÌi cam oan
Tơi xin cam oan lu™n v´n này do bÊn thõn tụi tá thác hiên dểi sá hểng dđn
ca TS. Nguyπn Th‡ NgÂc Diªp. MÂi thơng tin tham kh£o ˜Ịc s˚ dˆng trong lu™n
v´n ∑u ˜Ịc tơi trích d®n ¶y ı trong ph¶n tài liªu tham kh£o.
Tơi xin hồn tồn ch‡u trách nhiªm vĨi lÌi cam oan cıa mình và xin ch‡u mÂi
hình th˘c kø lu™t theo quy ‡nh n∏u sai ph§m.

iv


Mˆc lˆc
Tóm t≠t

i

LÌi c£m Ïn

iii

LÌi cam k∏t

iv

Mˆc Lˆc

v


Danh sách b£ng

vii

Danh sách hình v≥

viii

1

TÍng quan
1.1
∞t vßn ∑ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Mơ t£ bài tốn . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Ph§m vi cıa lu™n v´n . . . . . . . . . . . . . . . . . . . . . . . .

1
1
2
4

2

Các nghiên c˘u liên quan
2.1 Cỏc nghiờn cu v phỏt hiên v nhn dĐng cßu trúc b£ng trong £nh
v´n b£n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Các nghiên c˘u v∑ làm phØng £nh v´n b£n b‡ bi∏n d§ng . . . . . .

6


Ph˜Ïng pháp ∑ xußt
3.1 Ph˜Ïng pháp tá ẻng tĐo d liêu tng cèng . . . . . . . . . . . .
3.1.1 Ph˜Ïng pháp t§o bóng trên £nh v´n b£n . . . . . . . . . .
3.1.2 Ph˜Ïng pháp t§o £nh v´n b£n b‡ bi∏n d§ng . . . . . . . . .
3.2 Ph˜Ïng pháp phát hiªn b£ng trên £nh chˆp v´n b£n . . . . . . . .
3.2.1 Các ki∏n trúc hÂc sâu cho viªc phát hiªn b£ng . . . . . . .
3.2.2 Các m§ng cÏ b£n ˜Ịc s˚ dˆng trong lu™n v´n . . . . . .
3.2.3 Các ph˜Ïng pháp làm phØng £nh chˆp v´n b£n b‡ bi∏n d§ng

12
12
14
15
18
19
24
31

3

v

6
9


3.3
3.4


3.5
4

Phẽng phỏp nhn dĐng còu trỳc bÊng . . . . . . . . . . . . . . .
Ph˜Ïng pháp ánh giá . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Ph˜Ïng phỏp ỏnh giỏ ẻ chớnh xỏc ca phẽng phỏp phỏt
hiên v phẽng phỏp nhn dĐng còu trỳc bÊng . . . . . . .
3.4.2 Ph˜Ïng pháp ánh giá Ỵ chính xác cıa ph˜Ïng pháp làm
phØng £nh v´n b£n . . . . . . . . . . . . . . . . . . . . .
Các framework và th˜ viªn s˚ dˆng . . . . . . . . . . . . . . . .

Thác nghiêm
4.1 Bẻ d liêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 D˙ liªu cho nhiªm vˆ phát hiªn b£ng . . . . . . . . . . .
4.1.2 D˙ liªu cho nhiªm vˆ nhn dĐng còu trỳc bÊng . . . . . .
4.2 Kt quÊ huòn luyên mụ hỡnh hc sõu phỏt hiªn b£ng trên £nh v´n
b£n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 K∏t qu£ làm phØng b£ng trong £nh v´n b£n . . . . . . . . . . . . .
4.4 Kt quÊ huòn luyên mụ hỡnh hc sõu nhn dĐng còu trỳc bÊng . . .

32
35
35
36
37
39
39
39
40
41

46
49

Kt lun

51

Ti liêu tham kh£o

53

vi


Danh sách b£ng
2.1
2.2
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9

ThËng kê các t™p d˙ liªu £nh v´n bÊn cho bi toỏn phỏt hiên v
nhn dĐng còu trỳc b£ng. . . . . . . . . . . . . . . . . . . . . . .
H˜Óng ti∏p c™n cıa các nghiên c˘u s˚ dˆng hÂc sâu cho bài tốn

phát hiªn b£ng trên £nh v´n b£n. . . . . . . . . . . . . . . . . . .
BỴ d˙ liªu t´ng c˜Ìng cho nhiªm vˆ phát hiªn b£ng. . . . . . . . .
Bẻ d liêu tng cèng cho nhiêm v nhn dĐng còu trỳc bÊng. . .
Thụng sậ huòn luyên ca cỏc mụ hỡnh. . . . . . . . . . . . . . . .
Kt quÊ huòn luyên mĐng phỏt hiên b£ng theo IoU. . . . . . . . .
Kt quÊ huòn luyên mĐng phỏt hiên bÊng theo Precision, Recall và
F1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ThËng kê k∏t qu£ ti∏p c™n theo h˜Ĩng th˘ nhßt. . . . . . . . . . .
ThËng kê k∏t qu£ ti∏p c™n theo h˜Óng th˘ hai. . . . . . . . . . . .
ThËng kê k∏t qu£ k∏t hÒp gi˙a hai h˜Óng. . . . . . . . . . . . . .
Kt quÊ huòn luyên cỏc mụ hỡnh nhn dĐng còu trỳc bÊng. . . . . .

vii

7
8
39
41
42
42
43
46
47
47
49


Danh sách hình v≥
1.1
2.1

3.1

3.2
3.3
3.4
3.5
3.6

3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19

Minh hÂa £nh v´n b£n. T¯ trái sang ph£i: £nh chuy∫n Íi t¯ PDF,
£nh scan và £nh chp băng mỏy Ênh iên thoĐi. . . . . . . . . . .

3

Hình £nh minh hÂa cách thu thp d liêu 3D ca Ênh vn bÊn bin
dĐng. Trích t¯ [7]. . . . . . . . . . . . . . . . . . . . . . . . . . .


10

Minh hÂa quỏ trỡnh tĐo d liêu. T hỡnh Ênh vn bÊn gËc bên trái,
thơng qua các b˜Ĩc bi∏n Íi, tơi thu ˜Ịc hình £nh v´n b£n mơ
ph‰ng khi ˜Ịc chˆp trong th¸c t∏. . . . . . . . . . . . . . . . .
MỴt sË hình Ênh trong bẻ d liêu TableBank. . . . . . . . . . . .
Minh hÂa cho hª màu HSV. . . . . . . . . . . . . . . . . . . . . .
Minh hÂa cho q trình thêm bóng vào £nh. . . . . . . . . . . . .
Minh hÂa cho thu™t tốn t§o £nh v´n b£n b‡ bi∏n d§ng. Trích t¯ [16].
Minh hÂa £nh h˜ng ca a n sá bin dĐng. Trớch t [16]. Hỡnh
(a) và (b) mơ t£ bi∏n d§ng g™p khi a nh‰ và a lĨn. Hình (c) và (d)
mơ t£ bi∏n d§ng b¥ cong khi a nh‰ và a lĨn. . . . . . . . . . . . .
Énh mụ phng hỡnh nn trong bẻ d liêu DTD. . . . . . . . . . .
H˜Óng ti∏p c™n th˘ nhßt. . . . . . . . . . . . . . . . . . . . . . .
H˜Óng ti∏p c™n th˘ hai. . . . . . . . . . . . . . . . . . . . . . . .
Ki∏n trúc tÍng quan cıa DeepLabv3+. . . . . . . . . . . . . . . .
So sánh tích ch™p thơng th˜Ìng (trái) và tích ch™p m rỴng (ph£i).
Minh hÂa cho tích ch™p phân tách theo chi∑u sâu. . . . . . . . . .
Ki∏n trúc UperNet. . . . . . . . . . . . . . . . . . . . . . . . . .
Ki∏n trúc cıa Mask R-CNN. Trích [11]. . . . . . . . . . . . . . .
Ki∏n trúc cıa Cascade Mask R-CNN. Trích [19]. . . . . . . . . .
KhËi d˜ trong m§ng ResNet. Trích [12]. . . . . . . . . . . . . . .
Ki∏n trúc cıa ResNet. Trích [12]. . . . . . . . . . . . . . . . . . .
Ki∏n trúc tÍng quan cıa HRNetv2. Trích [24]. . . . . . . . . . . .
Ki∏n trúc chi ti∏t cıa HRNetv2. Trích [24]. . . . . . . . . . . . .
viii

13
14
15

15
16

17
17
18
19
20
21
22
23
24
24
25
26
26
27


3.20
3.21
3.22
3.23

3.24
3.25
3.26
3.27
3.28
3.29

3.30
3.31
3.32
3.33
3.34

KhËi MSA trong ki∏n trúc Transformer. Trích [28]. . . . . . . . .
Ki∏n trúc m§ng Swin Transformer. Trích [15]. . . . . . . . . . . .
Ki∏n trúc các khËi Swin Transformer. Trích [15]. . . . . . . . . .
Mô t£ s¸ thay Íi cıa vùng khơng chÁng chéo t¯ khËi W.MSA
sang khËi SW.MSA. Trích [15]. Các ơ vng nh‰ là các ph¶n 4x4
cıa £nh. Các ơ vng to màu ‰ là các vùng không chÁng chéo . .
K∏t qu£ so sánh cıa Swin Transformer trên các t™p d˙ liªu cơng
khai. Trích [15]. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ki∏n trúc các phiên b£n Swin Transformer. Trích [15]. . . . . . .
Ki∏n trúc DewarpNet. Trích [7]. . . . . . . . . . . . . . . . . . .
Làm phØng b£ng nhÌ ˜Ìng vi∑n. Trích [7]. . . . . . . . . . . . .
Hình £nh b£ng ã ˜Ịc x˚ l˛. . . . . . . . . . . . . . . . . . . . .
Hình £nh b£ng trong bỴ TableBank. . . . . . . . . . . . . . . . .
Énh b£ng và ‡nh d§ng nhãn trong TableBank. . . . . . . . . . . .
Minh hÂa ánh nhãn t¯ng ơ trong b£ng. Trích [26]. . . . . . . . .
Cách tính chø sË IoU. . . . . . . . . . . . . . . . . . . . . . . . .
MỴt sË ví dˆ tính IoU. . . . . . . . . . . . . . . . . . . . . . . . .
MỴt sË ví dˆ tính MS-SSIM. . . . . . . . . . . . . . . . . . . . .

4.1
4.2
4.3
4.4
4.5

4.6

Mẻt sậ mđu d liêu ó tĐo. . . . . . . . . . . . . . . . . . . . . .
Mẻt sậ mđu Ênh chp vn b£n và nhãn cıa b£ng. . . . . . . . . .
Mẻt sậ mđu Ênh bÊng v nhón cıa các ô trong b£ng. . . . . . . . .
Mẻt sậ trèng hềp phỏt hiên bÊng tật. . . . . . . . . . . . . . . .
Các tr˜Ìng hỊp phát hiªn th¯a b£ng cıa các m§ng phân o§n cá th∫.
Các tr˜Ìng hỊp phỏt hiên khụng n nh v dớnh bÊng ca cỏc
mĐng phân o§n ng˙ nghỉa. . . . . . . . . . . . . . . . . . . . . .
4.7 Các b£ng khơng có ˜Ìng vin cha ềc phỏt hiên chớnh xỏc. . .
4.8 Mẻt sË tr˜Ìng hỊp b£ng ã ˜Ịc làm phØng (£nh k∏t qu£ và £nh
chuy∫n t¯ ‡nh d§ng Word). . . . . . . . . . . . . . . . . . . . . .
4.9 MỴt sË tr˜Ìng hỊp b£ng ch˜a ˜Ịc làm phØng (£nh k∏t qu£ và £nh
chuy∫n t¯ ‡nh d§ng Word). . . . . . . . . . . . . . . . . . . . . .
4.10 MỴt sË k∏t qu£ phát hiªn ơ tËt. . . . . . . . . . . . . . . . . . . .
4.11 Mẻt sậ kt quÊ phỏt hiên ô không tËt. . . . . . . . . . . . . . . . .

ix

27
28
29

29
30
30
31
32
33
33

34
34
35
35
37
40
40
41
44
45
45
46
48
48
49
50


Ch˜Ïng 1

TÍng quan
Ch˜Ïng này s≥ mơ t£ bËi c£nh và bài tốn ˜Ịc gi£i quy∏t trong lu™n v´n này.
¶u tiên, phản mẻt s trỡnh by bậi cÊnh v ẻng lác thỳc ây nghiờn cu ca tụi.
Sau ú, phản hai s mơ t£ bài tốn ˜Ịc ∞t ra và gi£i quy∏t trong lu™n v´n.

1.1

∞t vßn ∑

SË hóa ang là xu th∏ tòt yu ca th giểi. Mẻt cỏch ngn gn, sậ húa l quỏ

trỡnh chuyn i cỏc dĐng d liêu vt l˛ ho∞c các quy trình thı cơng thành các
d§ng d˙ liªu sË ∫ có th∫ l˜u tr˙ và x˚ l˛ trờn mỏy tớnh. Mẻt vớ d rừ nhòt th hiên
cho xu h˜Ĩng sË hóa là viªc s˚ dˆng các ‡nh dĐng vn bÊn sậ nh Ênh vn bÊn
ang dản thay th∏ cho các ‡nh d§ng v´n b£n v™t l˛ nhÌ sá tiên dng v an ton
ca chỳng. i kốm vểi sá bựng n ca cụng nghê thụng tin, lềng vn bÊn cản
x l l ròt lển v khụng th giÊi quyt băng phẽng phỏp th cụng m cản cỏc
phẽng phỏp trớch xuòt thụng tin tá ẻng.
Trong vn bÊn cú ròt nhi∑u ki∫u bi∫u diπn d˙ liªu. Thơng tin có th∫ ềc th
hiên trong cỏc oĐn vn bÊn, trong cỏc hỡnh v v trong cỏc bÊng... BÊng l mẻt
dĐng biu din thụng tin ềc xuòt hiên ph bin trong cỏc vn bÊn nhè khÊ nng
biu din d liêu cú còu trỳc ròt trác quan ca nú. Thụng tin trong cỏc bÊng ˜Ịc
tÍ ch˘c theo các ơ thc t¯ng hàng và cỴt rßt ∞c tr˜ng. Vì v™y, ∫ trích xt ˜Ịc
thơng tin trong bÊng, chỳng ta cản phÊi phỏt hiên v tỏch riêng các b£ng ∫ x˚ l˛
riêng.
VĨi nhu c¶u sË hóa cỏc vn bÊn giòy, Ênh vn bÊn ang l mẻt ngn d˙ liªu
lĨn và phÍ bi∏n. Viªc phát hiªn và nhn dĐng còu trỳc bÊng trờn cỏc Ênh vn bÊn
l cản thit cú th trớch xuòt thụng tin tá Ỵng t¯ £nh v´n b£n. Trong ó, phát
hiªn b£ng là nhiªm vˆ tìm v‡ trí và tách ˜Ịc b£ng ra kh‰i v´n b£n cịn nh™n d§ng
1


còu trỳc l nhiêm v xỏc nh còu trỳc biu din d liêu trong bÊng. BÊng trong
vn bÊn cú ròt nhi∑u ki∫u bi∫u diπn nh˜: có ˜Ìng k¥ (k¥ li∑n hoc kƠ t), khụng
èng kƠ hoc mẻt phản theo cẻt hay hng cú èng kƠ. Vểi sá a dĐng v bi∫u
diπn nh˜ ã nêu trên cıa b£ng, viªc phát hiªn bÊng băng cỏc thut toỏn x l Ênh
truyn thậng l mỴt thách th˘c khó gi£i quy∏t. Vì v™y, các nghiên cu gản õy tp
trung vo viêc s dng cỏc mụ hình hÂc sâu ∫ gi£i quy∏t bài tốn phát hiªn b£ng
trên £nh v´n b£n. Các mơ hình hÂc sâu có kh£ n´ng hÂc bi∫u diπn t¯ các t™p d˙
liªu lĨn và t¯ ó có th∫ x˚ l˛ các bài tốn mà các ph˜Ïng pháp x˚ l˛ £nh truy∑n
thËng g∞p khó kh´n nh˜ bài tốn này.

Bài tốn phát hiªn và nh™n dĐng còu trỳc bÊng trờn Ênh vn bÊn l mẻt ch
ềc xuòt hiên trong nhiu cuẻc thi v trớch xuòt thụng tin tá ẻng t vn bÊn nh
ICDAR (International Conference on Document Analysis and Recognition) - mỴt
cc thi lĨn ềc t chc 2 nm mẻt lản t nm 1991 (phản thi phỏt hiên bÊng ó
ềc thờm vo t nm 2013). Áng thÌi, trên th∏ giĨi ã có nhi∑u nghiên c˘u và
các t™p d˙ liªu v∑ nhiªm vˆ này ˜Ịc cụng khai. Mẻt sậ nghiờn cu mểi nhòt cú
th th k∫ ∏n nh˜ mơ hình CascadeTabNet [19] và CDeC-Net [1]. i∫m chung
cıa các nghiên c˘u này là s˚ dˆng các kˇ thu™t phát hiªn Ëi t˜Ịng trong hÂc sâu
∫ phát hiªn b£ng và các ơ trong b£ng trong £nh v´n b£n. Tuy nghiên, các nghiên
c˘u này t™p trung vào d§ng d˙ liªu £nh v´n b£n thu ˜Ịc t¯ chuy∫n Íi t¯ các ‡nh
d§ng v´n b£n sË khác ho∞c scan v´n bÊn vt l. Cỏc bẻ d liêu cú sặn v £nh v´n
b£n có b£ng cÙng ∑u là các £nh v´n bÊn tẽng tá. Trong thác t, nhu cảu trớch
xuòt cỏc thơng tin t¯ £nh v´n b£n ˜Ịc chˆp thơng qua cỏc thit b ghi hỡnh l ròt
lển vỡ mẻt trong nh˙ng cách ∫ sË hóa v´n b£n nhanh và thu™n tiên nhòt chớnh l
chp Ênh. V trớch xuòt thụng tin t¯ các hình £nh nh˜ v™y, vßn ∑ phát hiên v
nhn dĐng còu trỳc bÊng thụng qua Ênh chp vn bÊn l mẻt bi toỏn cản ềc
giÊi quyt. Trong lun vn ny, tụi s tp trung xõy dáng bẻ d liêu v huòn luyên
cỏc mụ hỡnh hc sõu gi£i quy∏t bài tốn này.

1.2

Mơ t£ bài tốn

Nh˜ ã trình by trong phản t vòn , lun vn ny tp trung vào viªc gi£i
quy∏t bài tốn phát hiªn và nh™n dĐng còu trỳc bÊng trong hỡnh Ênh vn bÊn ềc
chp qua các thi∏t b‡ ghi hình. Thơng th˜Ìng, £nh v´n b£n có th∫ ˜Ịc thu th™p t¯
các ph˜Ïng pháp sau:
• Cách 1: Chuy∫n Íi t¯ các d§ng v´n b£n sË khác (PDF, Word... ).
2



• Cách 2: Scan các d§ng v´n b£n v™t l˛.
• Cỏch 3: Chp cỏc dĐng vn bÊn vt l băng các thi∏t b‡ ghi hình.

Hình 1.1: Minh hÂa £nh v´n b£n. T¯ trái sang ph£i: £nh chuy∫n Íi t¯ PDF, Ênh
scan v Ênh chp băng mỏy Ênh iên thoĐi.
Hiên ó có nhi∑u t™p d˙ liªu cơng khai ˜Ịc gán nhãn v‡ trí b£ng trong £nh v´n
b£n thu ˜Ịc theo cách 1 v cỏch 2 nh cỏc bẻ d liêu trong các cc thi ICDAR
(t¯ n´m 2013), TableBank [14], PubTabNet [31]... Tuy nhiờn, hảu nh khụng cú
tp d liêu cụng khai no v bẻ d liêu Ênh vn bÊn cú bÊng ềc chp t cỏc thit
b ghi hỡnh. huòn luyên ềc cỏc mụ hỡnh hc sõu, chỳng ta cản ròt nhiu d
liêu. Viêc tĐo bẻ d liêu th cụng s mßt rßt nhi∑u thÌi gian và cơng s˘c. Vì v™y,
b˜Ĩc ảu tiờn tụi s xõy dáng phẽng phỏp tá ẻng tĐo bẻ d liêu Ênh chp vn
bÊn. Phẽng phỏp tụi ∑ xt là t´ng c˜Ìng các £nh v´n b£n trong cỏc bẻ d liêu
cú sặn. Qua so sỏnh (xem hỡnh 1.1), tụi ó nhn thòy Ênh chp vn bÊn băng cỏc
thit b ghi hỡnh cú mẻt sậ loĐi nhiu khỏc biêt vểi 2 loĐi Ênh vn bÊn cũn lĐi nh
sau:
ã Cú th xuòt hiên cỏc bin i hỡnh dĐng 3D ph˘c t§p hÏn (cong vênh, b‡ g™p..)
thay vì chø có các bi∏n d§ng 2D (nghiêng, l™t...) nh˜ 2 lo§i cịn lĐi.
ã Xuòt hiên cỏc vựng búng do ỏnh sỏng khụng ∑u nh˜ khi scan.
Sau khi gi£i quy∏t bài toán d˙ liêu, tụi s huòn luyên cỏc mụ hỡnh hc sõu cho
nhiêm v phỏt hiên bÊng trờn Ênh vn bÊn băng cỏc d liêu ó tĐo. Cỏc mụ hỡnh
hc sõu ềc s˚ dˆng s≥ là các mơ hình liên quan ∏n viêc phỏt hiên ậi tềng
trong Ênh mểi nhòt ềc cp nh™p t§i thÌi i∫m nghiên c˘u. Trong ó, tơi có s˚
3


dˆng mỴt ki∏n trúc mĨi cıa hÂc sâu trong bài tốn x˚ l˛ hình £nh là Transformer.
ây là mỴt ki∏n trúc ˜Ịc xây d¸ng cho bài tốn x˚ l˛ ngơn ng tá nhiờn nhng
gản õy ó ềc ng dng v ˜Ịc k˝ vÂng có th∫ thay th∏ các m§ng tích ch™p

truy∑n thËng trong x˚ l˛ hình £nh. ∫ phˆc vˆ mc ớch trớch xuòt d liêu, cỏc
hỡnh Ênh bÊng thu ềc cản phÊi ềc loĐi b cỏc bin i 3D ∫ thu ˜Ịc d§ng
b∑ m∞t phØng nh˜ khi scan. i∑u này rßt có ˛ nghỉa ∫ £m b£o các b˜Ĩc Âc
thơng tin phía sau ˜Ịc chính xác và £m b£o gi ềc còu trỳc d liêu ca bÊng
(do bÊng t ch˘c thơng tin theo các hàng cỴt). ∫ x˚ l˛ vßn ∑ này, tơi s≥ s˚ dˆng
các ph˜Ïng pháp ∫ làm phØng v´n b£n bi∏n d§ng. Mˆc ích cıa b˜Ĩc ny nhăm
loĐi b cỏc bin i 3D trong bÊng v ˜a hình £nh b£ng v∑ d§ng hình ch˙ nh™t
thØng ˘ng. Các ph˜Ïng pháp này s≥ d¸a trên c£ các thu™t tốn x˚ l˛ £nh truy∑n
thËng (x˚ l˛ thơng qua ˜Ìng vi∑n) và các mơ hình hÂc sâu có sỈn. Ci cựng, tụi
s huòn luyên mụ hỡnh hc sõu phỏt hiªn các ơ trong b£ng t¯ hình £nh b£ng ã
˜Ịc x˚ l˛. ∫ ánh giá các k∏t qu£ §t ˜Ịc, tụi s tĐo v gỏn nhón mẻt bẻ d
liêu Ênh chp vn bÊn băng cỏc thit b ghi hỡnh băng ph˜Ïng pháp thı cơng.

1.3

Ph§m vi cıa lu™n v´n

Trong lu™n v´n này, tơi ã nghiên c˘u và gi£i quy∏t các vßn sau:
ã Xõy dáng ềc bẻ d mụ phng Ênh chp vn bÊn băng cỏc thit b ghi hỡnh
băng cỏc phẽng phỏp tá ẻng.
ã Huòn luyên cỏc mụ hỡnh phỏt hiên bÊng trong Ênh vn bÊn dáa trờn bẻ d liêu
xõy dáng ềc.
ã ng dng cỏc phẽng phỏp x l Ênh ti liêu b bin dĐng hu x l kt
quÊ phỏt hiên bÊng thu ềc.
ã Huòn luyên mụ hình phát hiªn các ơ trong b£ng t¯ £nh b£ng ã ˜Òc x˚ l˛
(tách riêng và làm phØng) ∫ nh™n dĐng còu trỳc bÊng.
ã Xõy dáng v gn ềc mẻt bẻ d liêu Ênh chp vn bÊn băng cỏc thit b ghi
hỡnh băng phẽng phỏp th cụng. õy l bẻ d liêu s dng ỏnh giỏ kt
quÊ tụi Đt ˜Ịc.
Lu™n v´n cıa tơi s≥ ˜Ịc trình bày theo 5 chẽng. Chẽng ảu tiờn ó giểi

thiêu, t vòn v mụ tÊ bi toỏn cng nh phẽng phỏp thác hiên. Ch˜Ïng 2
s≥ liªt kê các nghiên c˘u liên quan. Ch˜Ïng 3 s≥ mô t£ các ph˜Ïng pháp tôi ã
4


xây d¸ng ∫ gi£i quy∏t bài tốn ∞t ra. Ch˜Ïng 4 s trỡnh by kt quÊ thác nghiêm
tụi Đt ềc sau khi áp dˆng ph˜Ïng pháp ∑ xt ã trình bày trong ch˜Ïng 3.
Ch˜Ïng cuËi cùng s≥ tÍng k∏t và th£o lu™n l§i các k∏t qu£ tơi §t ˜Ịc khi nghiên
c˘u lu™n v´n này.

5


Ch˜Ïng 2

Các nghiên c˘u liên quan
Ch˜Ïng này s≥ ∑ c™p ∏n các nghiên c˘u liên quan ∏n bài toán trong lu™n
v´n. Các nghiên c˘u này có th∫ là cùng ∑ ti hoc ềc ng dng trong lun vn.
Phản mẻt ca ch˜Ïng s≥ trình bày v∑ các nghiên c˘u liên quan v viêc phỏt hiên
v nhn dĐng còu trỳc bÊng trong £nh v´n b£n. Ph¶n hai cıa ch˜Ïng s≥ trình bày
v∑ các nghiên c˘u làm phØng £nh v´n b£n b‡ bi∏n dĐng.

2.1

Cỏc nghiờn cu v phỏt hiên v nhn dĐng còu
trỳc b£ng trong £nh v´n b£n

Chı ∑ v∑ phát hiªn và nhn dĐng còu trỳc bÊng trong Ênh vn bÊn ó ˜Ịc
quan tâm và nghiên c˘u t¯ khá sĨm. MỴt sË nghiờn cu ó ềc thác hiên t cuậi
th kứ 20 nh˜ [4] và ¶u th∏ kø 21 nh˜ [3]. Các nghiên c˘u này s˚ dˆng các kˇ

thu™t x˚ l˛ £nh truyn thậng phỏt hiên cỏc èng nột cĐnh ca b£ng. Sau ó,
các tác gi£ s˚ dˆng các mơ hình logic ∫ ghép chúng l§i và tìm ˜Ịc v‡ trí cıa
b£ng trong £nh v´n b£n. Tuy nghiên, trong v´n b£n hiên nay, bÊng ềc biu din
bi ròt nhiu loĐi nh dĐng ch khụng yờu cảu phÊi cú èng kƠ lin ∫ phân biªt
các ơ ho∞c hàng. i∑u này ki∏n cho mẩi phẽng phỏp phỏp hiên Ênh dáa trờn k
thut x l˛ £nh truy∑n thËng h¶u nh˜ chø có th∫ x˚ l˛ mỴt sË các tr˜Ìng hỊp cË
‡nh và xác ‡nh trểc.
Sau ú mẻt thèi gian, cỏc nghiờn cu phỏt hiên £nh chı y∏u chø t™p trung vào
viªc phát hiªn b£ng dáa trờn cỏc nh dĐng sậ. Mẻt sậ nghiờn cu ó phõn tớch
nh dĐng d liêu ca cỏc têp PDF tỡm v trớ ca bÊng tá ẻng nh [23] và [17].
MỴt nghiên c˘u khác phân tích mã HTML cıa các trang web ∫ xác ‡nh v‡ trí
b£ng nh˜ [13]. Các nghiên c˘u này có i∫m chung là phân tích cỳ phỏp hoc nh
dĐng d liêu cậ nh phỏt hiªn b£ng.
6


Vểi sá xuòt hiên v phỏt trin ca cỏc mụ hỡnh hc sõu, Ênh vn bÊn mẻt lản
na ềc quan tâm và chÂn làm Ëi t˜Ịng cho các thu™t tốn phỏt hiên bÊng trong
nhng nm gản õy. iu ny cú th∫ l˛ gi£i do kh£ n´ng hÂc bi∫u diπn trên cỏc bẻ
d liêu lển ca hc sõu kin cho chỳng có th∫ hÂc ˜Ịc v‡ trí và ki∏n trúc t¯ nhiu
loĐi bÊng khỏc nhau (nu cú d liêu). Nh ó cp t phản giểi thiêu, Ênh vn
bÊn cú th thu thp băng 3 cỏch: chuyn i t nh d§ng sË khác, scan ho∞c chˆp
các v´n b£n v™t l˛ băng cỏc thit b ghi hỡnh. Cỏc tp d liêu ˜Ịc g≠n nhãn cơng
khai hiªn nay chı y∏u là các t™p d˙ liªu £nh v´n b£n thu ˜Ịc t¯ chuy∫n ‡nh d§ng
ho∞c scan các b£n v™t l˛. Vì v™y, các nghiên c˘u g¶n ây chı y∏u t™p trung vào x˚
l˛ cỏc hai dĐng Ênh vn bÊn ny. Mẻt sậ tp d˙ liªu £nh v´n b£n có g≠n nhãn v‡ trí
b£ng và v‡ trí các ơ trong b£ng ˜Ịc liªu kê trong b£ng 2.1.
B£ng 2.1: ThËng kê các t™p d˙ liªu Ênh vn bÊn cho bi toỏn phỏt hiên v nhn
dĐng cßu trúc b£ng.
Tên

Marmot [8]
PubLayNet [31]
DeepFigure [22]
ICDAR2013 [10]
ICDAR2019 [9]
UNLV [21]
TableBank [14]

Thơng tin g≠n nhãn
Ví trí b£ng và các ơ
Ví trí b£ng
Ví trí b£ng
Ví trí b£ng
Ví trí b£ng và các ơ
Ví trí b£ng và các ơ
Ví trí b£ng và các ơ

SË l˜Ịng b£ng ˜Ịc g≠n nhãn
958
113k
1.4m
156
3.6k
558
417k

Các mơ hình hÂc sâu ã ˜Ịc nghiên c˘u ∫ x˚ l˛ nhiªm vˆ phát hiªn và
nh™n dĐng còu trỳc bÊng trong Ênh vn bÊn cú th k∫ ∏n nh˜ DeepDeSRT [20],
CascadeTabNet [19], CDeC-Net [1] và TableNet [18]. H˜Ĩng ti∏p c™n cıa các mơ
hình trên cho bài tốn phát hiªn b£ng ˜Ịc tÍng hỊp trong b£ng 2.2.


7


8

Phân o§n cá th∫
Phân o§n cá th∫

Cascade Mask R-CNN

Cascade Mask R-CNN

FCN

TableNet [18]

Phõn oĐn ng nghổa

Kiu mĐng
Phỏt hiên ậi tềng

Kin trỳc s˚ dˆng
Faster R-CNN

Tên mơ hình
DeepDeSRT
[20]
CascadeTabNet
[19]

CDeC-Net [1]

Ki∫u £nh v´n b£n
Chuy∫n Íi t PDF

TableBank [14]
Chuyn i t Word
v d liêu tá tĐo
v Latex
Nhiu bẻ d liêu trong Chuyn i t nh
bÊng 2.1
dĐng PDF, Word... ho∞c £nh
scan
Marmot dataset [8]
Chuy∫n Íi t¯ PDF

D˙ liªu huòn luyên
Marmot dataset[8]

BÊng 2.2: Hểng tip cn ca cỏc nghiờn c˘u s˚ dˆng hÂc sâu cho bài tốn phát hiªn b£ng trên £nh v´n b£n.


Vểi nhiêm v phỏt hiên còu trỳc trong bÊng, cỏc nghiên c˘u trên có các h˜Ĩng
ti∏p c™n khác nhau. Mơ hỡnh CDeC-Net khụng x l nhiêm v nhn dĐng còu
trỳc b£ng. VĨi các mơ hình TableNet và DeepDeSRT, tác gi£ s˚ dˆng các ph˜Ïng
pháp hÂc sâu và x˚ l˛ £nh phỏt hiên tng cẻt v hng ca bÊng. Mụ hình
CascadeTabNet s˚ dˆng ph˜Ïng pháp hÂc sâu ∫ phát hiªn các ơ trong b£ng.
Tuy ã có nhi∑u nghiên c˘u liên quan, các nghiên c˘u trên h¶u nh˜ ∑u x˚ l˛
bài toỏn phỏt hiên v nhn dĐng còu trỳc bÊng trờn d liêu Ênh vn bÊn chuyn
nh dĐng hoc Ênh scan. Trong nghiên c˘u này, tôi s≥ t™p trung x˚ l˛ bài tốn

này trên d˙ liªu £nh chˆp v´n b£n. Riêng nhiêm v nhn dĐng còu trỳc bÊng, vểi
sá phc tĐp trong th hiên ca bÊng, tụi nhn thòy phẽng phỏp phát hiªn ơ trong
b£ng s≥ có kh£ n´ng ˘ng dˆng rẻng rói hẽn. Sau khi phỏt hiên ềc v trớ tng ụ,
viêc xỏc nh cỏc hng v cẻt cú th thác hiên vểi logic cho tng bi toỏn c th.

2.2

Cỏc nghiên c˘u v∑ làm phØng £nh v´n b£n b‡
bi∏n d§ng

L˜Ịng d˙ liªu £nh v´n b£n thu ˜Ịc thơng qua viªc chp vn bÊn vt l băng
cỏc thit b ghi hỡnh l ròt lển. Khỏc vểi cỏc loĐi Ênh vn bÊn khác (chuy∫n ‡nh
d§ng ho∞c scan), £nh chˆp v´n b£n có th xuòt hiên cỏc bin dĐng 3D nh bƠ cong
hoc g™p. Các bi∏n d§ng này s≥ làm hình dáng cıa ch trong vn bÊn b bin dĐng,
lêch dũng hoc sai v‡ trí t˜Ïng Ëi so vĨi khi tÌ gißy  dĐng phỉng. Cỏc vòn
trờn s gõy khú khn cho viêc trớch xuòt thụng tin t vn bÊn. Do ú, ã có nhi∑u
nghiên c˘u ˜Ịc cơng bË v∑ vßn ∑ lm phỉng mt giòy b bin dĐng.
Cỏc nghiờn cu ảu tiờn xuòt hiên t nhng nm ảu th kứ 21 nh˜ [27] và [30].
Hai nghiên c˘u này có i∫m chung là s˚ dˆng £nh t¯ nhi∑u góc Ỵ (th˜Ìng là mẻt
cp Ênh) ca vn bÊn b bin dĐng tỡm các c∞p i∫m ∞c tr˜ng t˜Ïng ˘ng trên 2
£nh. Các c∞p i∫m ∞c tr˜ng này ˜Ịc s˚ dˆng ∫ ˜Ĩc tính tÂa Ỵ 3D cıa các i∫m
trên b∑ m∞t v´n b£n. Sau ó, b∑ m∞t v´n b£n ˜Ịc làm phØng dáa trờn cỏc phộp
bin i cỏc im ta ẻ ny. MỴt nghiên c˘u khác mĨi hÏn là [25] mang ∏n mẻt
cỏch tip cn tẽng tá nhng ớt ph thuẻc vo phản cng hẽn. Tỏc giÊ tỡm cỏch
ểc tớnh ta ẻ 3D cho b∑ m∞t cıa m∞t phØng thơng qua mỴt £nh. Ph˜Ïng pháp
˜Ịc ˜a ra là tính tốn tÂa Ỵ 2D cho mẻt tp cỏc im cú khoÊng cỏch tẽng
tá (tính trong b∑ m∞t phØng) cıa v´n b£n b‡ bi∏n d§ng. ∫ làm ˜Ịc i∑u này, tác
gi£ tính tốn dịng ca cỏc oĐn vn bÊn trong Ênh v xòp xứ ta ẻ cỏc im cản
tỡm. Sau ú, t tẽng quan tÂa Ỵ cıa các i∫m tìm ˜Ịc, tác gi£ s≥ tính tốn tÂa
Ỵ trong khơng gian 3D cıa các i∫m trên. Sau cùng, b∑ m∞t tÌ gißy s≥ ˜Ịc làm

9


phØng nhÌ t™p các tÂa Ỵ 3D tìm ˜Ịc. Ph˜Ïng pháp này cho phép làm phØng v´n
b£n t¯ mỴt hình duy nhòt nhng lĐi cú nhềc im l chứ giÊi quyt ềc cỏc bin
dĐng do bƠ cong. Ngoi ra, cỏc ph˜Ïng pháp này cịn có mỴt nh˜Ịc i∫m lĨn là
ph£i d¸a vào các thu™t tốn x˚ l˛ £nh truy∑n thËng ∫ tìm ˜Ịc các ∞c tr˜ng cıa
£nh. Tuy nhiên, các thu™t tốn này th˜Ìng b‡ £nh h˜ng rßt lĨn bi các y∏u tË v™t
l˛ (vùng bóng, £nh b‡ mÌ...).
T™n dˆng sc mĐnh ca hc sõu, cỏc nghiờn cu gản õy ó tỡm ra mẻt hểng
i mểi trong viêc lm phỉng các £nh v´n b£n b‡ bi∏n d§ng. Coi bài tốn làm phØng
£nh nh˜ là mỴt phép bi∏n Íi v‡ trí t¯ 1 i∫m £nh trong £nh bi∏n d§ng thành 1
v‡ trí i∫m £nh trong £nh khơng bi∏n d§ng, các nhà nghiờn cu s x l bi toỏn
lm phỉng Ênh băng các mơ hình phân o§n ng˙ nghỉa trong hÂc sâu. Ba mơ hình
tiêu bi∫u nhßt trong hÂc sâu ˜Ịc thi∏t k thác hiên nhiêm v ny cú th k
n là DocUNet [16], DewarpNet [7] và RectiNet [2] ( ã có 2 phiên b£n). i∫m
chung cıa các ph˜Ïng pháp này s˚ dˆng hai m§ng phân o§n ng˙ nghỉa liên ti∏p
∫ hÂc các ∞c tr˜ng cıa £nh và ˜a ra tÂa Î 2D mÓi cıa các i∫m £nh trong
£nh b‡ bi∏n dĐng trờn mẻt b mt phỉng mểi. Do cha cú bẻ d liêu cụng khai
no cho nhiêm v ny, cỏc nghiên c˘u ∑u ˜a ra các ph˜Ïng pháp riêng ∫ tĐo
d liêu cho viêc huòn luyên mụ hỡnh. Trong DocUNet, tỏc giÊ ó giểi thiêu mẻt
giÊi thut sinh Ênh cú bi∏n d§ng 3D t¯ phiên b£n £nh khơng bi∏n d§ng cıa nó.
Thu™t tốn là các cơng th˘c ∫ tính tốn xòp xứ ta ẻ mểi nu xÊy cỏc bin dĐng
cong và g™p vÓi các i∫m £nh trong £nh v´n b£n phØng (có th∫ là £nh thu ˜Ịc
t¯ viªc chuy∫n Íi t¯ các ‡nh d§ng sË khác ho∞c £nh scan). Sau ó, các tÂa Ỵ
trên £nh v´n b£n phØng s≥ ˜Ịc d‡ch chuy∫n theo tÂa Ỵ mĨi ∫ sinh ra các Ênh b
bin dĐng. Khụng s dng cỏch tĐo d liêu băng thut toỏn, cỏc tỏc giÊ ca mĐng
DewarpNet v RectiNet s dng phẽng phỏp vt l xõy dáng bẻ d liêu. Cỏc
nh nghiờn cu s chuân b cỏc hê thËng ∫ thu th™p d˙ liªu 3D cıa £nh bi∏n d§ng
(xem hình 2.1 ).


Hình 2.1: Hình £nh minh hÂa cách thu thp d liêu 3D ca Ênh vn bÊn bin
dĐng. Trớch t [7].
Hê thậng gm mẻt hê mỏy Ênh c biêt (cú th o ềc ẻ sõu trong Ênh) v
10


mỴt v‡ trí cË ‡nh ∫ ∞t các v´n b£n b‡ bi∏n d§ng. Sau khi chˆp, các thơng tin t¯
máy Ênh c biêt ềc s dng tĐo ra mụ hình 3D cıa b∑ m∞t gißy. Thơng tin
này ˜Ịc dùng huòn luyên mụ hỡnh phõn oĐn ng nghổa hc cách mô t£ b∑ m∞t
3D cıa v´n b£n b‡ bi∏n dĐng chứ t mẻt hỡnh Ênh 2D. Sau ú, mẻt mơ hình phân
o§n ng˙ nghỉa khác s≥ hÂc cách chuy∫n b∑ m∞t 3D thu ˜Ịc t¯ mơ hình tr˜Ĩc v∑
tÂa Î 2D trên b∑ m∞t phØng cıa các i∫m t˜Ïng ˘ng trên v∑ m∞t bi∏n d§ng. Nhìn
chung, ph˜Ïng pháp này u c¶u ph£i có các thi∏t b‡ chun dˆng nh˜ng nhè cỏc
bẻ d liêu thác t m ẻ chớnh xỏc cıa mơ hình hÂc sâu s≥ ˜Ịc t´ng cao.

11


Ch˜Ïng 3

Ph˜Ïng pháp ∑ xt
Ch˜Ïng này s≥ mơ t£ ph˜Ïng pháp ˜Ịc nghiên c˘u và l¸a chÂn ∫ gi£i quy∏t
bài toán ∞t ra cıa lu™n v´n. Ch˜Ïng này gÁm 5 phản. ảu tiờn, tụi s trỡnh by
phẽng phỏp xõy dáng bẻ d liêu huòn luyên cỏc mụ hỡnh hc sõu trong phản
mẻt. Trong phản hai, tụi s trỡnh by các mơ hình hÂc sâu ˜Ịc tơi s˚ dˆng ∫ giÊi
quyt bi toỏn phỏt hiên bÊng băng phẽng phỏp hc sâu và các ph˜Ïng pháp ∫
làm phØng b∑ m∞t b£ng sau khi phỏt hiên. Phản ba s mụ tÊ phẽng phỏp nhn
dĐng còu trỳc bÊng thụng qua viêc phỏt hiên các ơ trong b£ng. Trong ph¶n bËn, tơi
s≥ trình bày các chø sË và ph˜Ïng pháp ∫ ánh giá Ỵ chính xác cıa mơ hình. Và

ph¶n ci cùng, tơi s≥ liªt kê các framework ho∞c các th˜ viªn ã s˚ dˆng trong
q trình nghiên c˘u.
MỴt các khái qt, ∫ gi£i quyt bi toỏn phỏt hiên v nhn dĐng còu trỳc trong
Ênh chp vn bÊn, tụi s thác hiên cỏc nẻi dung sau:
ã (1) Xõy dáng bẻ d liêu băng phẽng phỏp tá ẻng tĐo d liêu tng cèng v
phẽng phỏp th cụng.
ã (2) Phỏt trin phẽng phỏp phỏt hiên v trí và làm phØng £nh b£ng t¯ £nh chˆp
v´n b£n.
• (3) Phát tri∫n ph˜Ïng pháp phát hiªn v‡ trí các ụ trong bÊng t Ênh bÊng.

3.1

Phẽng phỏp tá ẻng tĐo d liêu tng cèng

Nh ó cp trong cỏc phản trểc, hiên tĐi trờn th giểi cha cú mẻt bẻ d
liêu Ênh vn bÊn chp băng cỏc thit b ghi hình và có gán nhãn v‡ trí cıa b£ng
cÙng nh˜ v‡ trí các ơ trong b£ng. Vì v™y, ∫ có th tĐo bẻ d liêu giÊi quyt cỏc
vòn trong lun vn, tụi ó xõy dáng mẻt phẽng phỏp ∫ có th∫ mơ ph‰ng £nh
12


chˆp v´n b£n nh˜ trong th¸c th∏. Qua nghiên c˘u, tụi thòy cú hai loĐi nhiu c
trng trờn Ênh chp vn bÊn l:
ã Cú th xuòt hiên cỏc bin i hình d§ng 3D ph˘c t§p hÏn (cong vênh, b‡ g™p..)
thay vỡ chứ cú cỏc bin dĐng 2D (nghiờng, lt...).
ã Xuòt hiªn các vùng bóng do ánh sáng khơng ∑u nh˜ khi scan.
Vì v™y, h˜Ĩng ti∏p c™n cıa tơi trong viªc xõy dáng bẻ d liêu l s dng cỏc
hỡnh Ênh v´n b£n thu ˜Ịc t¯ viªc chuy∫n Íi t¯ các ‡nh d§ng sË khác (PDF,
Word, Latex...) và t´ng c˜Ìng chúng băng cỏc phẽng phỏp tá ẻng thờm vo
Ênh cỏc hai lo§i nhiπu nh˜ ã ∑ c™p. Hình 3.1 mơ t£ q trình t´ng c˜Ìng d˙ liªu

˜Ịc s˚ dˆng trong lu™n v´n này.

Hình 3.1: Minh hÂa q trình t§o d˙ liªu. T¯ hình £nh v´n b£n gËc bên trái, thơng
qua các b˜Ĩc bi∏n Íi, tơi thu ˜Ịc hình £nh v´n bÊn mụ phng khi ềc chp
trong thác t.
Ngun d liêu £nh v´n b£n chuy∫n ‡nh d§ng tơi s˚ dˆng là bẻ d liêu TableBank [14]. õy l bẻ d liêu ềc xõy dáng băng cỏc gỏn nhón tá ẻng v trớ bÊng
dáa vo cỏc thụng tin ca nh dĐng Word v Latex. Bẻ d liêu ny cú 78,399 Ênh
chuyn t ‡nh d§ng Word và 200,183 £nh chuy∫n t¯ ‡nh d§ng Latex. V trớ ca
bÊng ềc gn nhón băng cỏc im ta ẻ (ớt nhòt l 4 im tẽng ng vểi 4 góc
vng cıa hình ch˙ nh™t).

13


Hỡnh 3.2: Mẻt sậ hỡnh Ênh trong bẻ d liêu TableBank.
Chòt lềng ca d liêu ó tĐo s ềc ỏnh giỏ băng cỏch quan sỏt v ỏnh giỏ
ch quan Ênh giậng tht nhòt cú th. Mẻt sậ thụng tin quan trÂng tơi d¸a vào ∫
ánh giá có th∫ k∫ ∏n nh˜ Ỵ nét cıa hình £nh, m˘c Ỵ bi∏n dĐng ca vn bÊn sau
khi tĐo, cèng ẻ búng (khụng quỏ tậi vđn nhỡn ềc phản ch b búng che)...
Cỏc chứ sậ trờn nhăm Êm bÊo cỏc bÊng trong Ênh vn bÊn vđn cú th ềc nhỡn
thòy ảy sau khi bi∏n Íi.

3.1.1

Ph˜Ïng pháp t§o bóng trên £nh v´n b£n

Bóng là vùng £nh có ánh sáng thßp hÏn các vùng khác do ánh sáng chi∏u ∏n
b∑ m∞t v´n b£n b che khuòt. Trong thác t, búng cú th cú ròt nhiu hỡnh dĐng v
cèng ẻ khỏc nhau. tĐo bóng trên £nh v´n b£n, tơi s≥ x˚ l˛ £nh d˜Ĩi hª màu
HSV (hình 3.3). Hª màu này bao gÁm 3 kờnh l:

ã H - Hue: Th hiên mu sc trong Ênh.
ã S - Saturation: Th hiên ẻ bóo hũa ca mu sc.
ã V - Value: Th hiên cèng ẻ sáng.
N∏u hª màu RGB cıa £nh s˚ dˆng c£ 3 kờnh th hiên mu sc thỡ hê mu
HSV lĐi tách riêng ch˘c n´ng cıa t¯ng kênh nên s≥ dπ dàng x˚ l˛ hÏn. Trong
tr˜Ìng hỊp này, tơi mn t§o búng băng cỏch giÊm ỏnh sỏng mẻt khu vác ca Ênh.
Vỡ vy, tụi chứ cản thác hiên giÊm giỏ tr kênh V cıa £nh. Hình d§ng cıa bóng
˜Ịc t§o ra băng cỏc chn ngđu nhiờn cỏc im trờn cĐnh ca v´n b£n và nËi l§i.
K∏t qu£ là bóng t§o ra s≥ có hình d§ng tam giác ho∞c t˘ giác. Tø lê diên tớch ca
búng cng ềc giểi hĐn theo mẻt tứ lê nhòt nh. GiÊ s giỏ tr gậc trờn kờnh V
ca im Ênh trong khu vác cản tĐo búng là V (x, y) thì giá tr‡ i∫m £nh sau khi
14


×