Tải bản đầy đủ (.pdf) (85 trang)

Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.7 MB, 85 trang )


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN





TRỊNH MINH LƯƠNG


PHÂN LOẠI TÀI LIỆU THEO MÔ HÌNH
THUYẾT VẠN VẬT HẤP DẪN


Ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01



LUẬN VĂN THẠC SĨ




NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS.NGUYỄN HỒNG SƠN





Thành phố Hồ Chí Minh - 2010
1


LỜI CẢM ƠN
Lời đầu tiên tôi xin chân thành cảm ơn TS Nguyễn Hồng Sơn đã tận tình
hướng dẫn, gợi mở và động viên tôi suốt quá trình học tập và thực hiện luận văn
này.
Tôi xin chân thành cảm ơn quý thầy cô Khoa Công nghệ thông tin Trường Đại
học Khoa học tự nhiên Tp. Hồ Chí Minh đã tận tình giảng dạy, truyền đạt, giúp đỡ
và tạo điều kiện thuận lợi cho tôi thực hiện tốt luận văn.
Tôi xin chân thành cảm ơn các thầy, các cô Khoa Sau đại học Trường Đại học
Khoa học tự nhiên đã tạo điều kiện thuận lợi và giúp đỡ tôi trong quá trình học tập
và thực hiện tốt các thủ tục cần thiết cho luận văn.
Tôi xin gửi lời cám ơn đến tất cả bạn bè, người thân đã hỗ trợ động viên tôi
trong quá trình thực hiện luận văn.
Tôi xin chân thành cảm ơn!

2
MỤC LỤC
LỜI CẢM ƠN 1
MỤC LỤC 2
DANH MỤC CÁC BẢNG 5
DANH MỤC HÌNH VẼ 6
CHƯƠNG 1: TỔNG QUAN 8
1.1. Bùng nổ thông tin 8
1.2. Bài toán phân loại tài liệu 8
1.3 Mô hình thuyết vạn vật hấp dẫn 9
1.4 Mục tiêu của đề tài 9
1.5 Cấu trúc của luận văn 9

CHƯƠNG 2: THUYẾT VẠN VẬT HẤP DẪN 11
2.1 Giả thiết về chuyển động của các hành tinh 11
2.2 Thực nghiệm của Tycho Brahe [1] 11
2.3 Các định luật Kepler 12
2.3.1 Định luật 1 (1609) 12
2.3.2 Định luật 2 (1609) 12
2.3.3 Định luật 3 (1619) 13
2.4 Các định luật cơ bản của Newton 14
2.4.1 Định luật 1 14
2.4.2. Định luật 2 14
2.4.3. Định luật 3 15
2.5. Định luật vạn vật hấp dẫn 15
2.6. Trường lực thế - Trường hấp dẫn 17
2.6.1 Khái niệm và tính chất của trường lực thế 17
3
2.6.2 Ví dụ về trường thế 18
2.7. Thế năng và cơ năng trong trường lực thế 20
2.8. Định luật bảo toàn cơ năng trong trường thế 21
2.9. Thế năng của chất điểm trong không gian 22
CHƯƠNG 3: CÂY PHÂN LOẠI (TAXONOMY) 24
3.1 Khái niệm 24
3.2 Ý nghĩa của Taxonomy 24
3.3 Các loại taxonomy 25
3.3.1 Cây phân loại phẳng (flat taxonomy) 25
3.3.2 Cây phân loại phân cấp (Hierachical Taxonomy) 26
3.3.3 Cây phân loại diện (facet taxonomy) 27
3.3.4 Mạng phân loại (Network Taxonomy) 27
3.4 Siêu dữ liệu (Metadata) 28
3.5 Xây dựng taxonomy 30
3.6 Ứng dụng taxonomy cho bài toán phân loại 31

CHƯƠNG 4: BÀI TOÁN PHÂN LOẠI TÀI LIỆU 32
4.1 Khái niệm phân loại 32
4.1.1 Khái niệm 32
4.1.2 Các trường hợp phân loại 32
4.2 Bài toán phân loại tài liệu tự động 34
4.2.1 Hướng tiếp cận 34
4.2.2 Tiền xử lý 37
4.2.3 Biểu diễn tài liệu 41
4.2.4 Chọn đặc trưng 44
4
4.2.5 Huấn luyện và phân loại 48
4.2.6 Ước lượng 56
4.2.7 Phân loại tài liệu 58
CHƯƠNG 5: 60
PHÂN LOẠI THEO MÔ HÌNH THUYẾT VẠN VẬT HẤP DẪN 60
5.1 Xây dựng kiến trúc phân cấp từ website 60
5.1.1 Kiến trúc và nội dung thể hiện 61
5.1.2 Siêu dữ liệu cho nút 62
5.1.3 Xây dựng taxonomy 64
5.1.4 Đặc trưng hóa cho nút 65
5.2 Xây dựng mô hình không gian 67
5.2.1 Không gian vật chất 68
5.2.2 Khối lượng 68
5.2.3 Khoảng cách giữa các hành tinh 69
5.2.4 Thế năng 72
5.3 Giải thuật phân loại theo mô hình 73
5.4 Thử nghiệm và kết quả 75
5.4.1 Công cụ sử dụng 75
5.4.2 Tập dữ liệu thử nghiệm 75
5.4.3 Kết quả thử nghiệm 78

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 81
PHỤ LỤC: DANH MỤC STOPWORD 83
TÀI LIỆU THAM KHẢO 85


5
DANH MỤC CÁC BẢNG
Bảng 4.1: Các trường hợp gán tập tài liệu vào lớp c
i
và nhãn của nó 57
Bảng 4.2 : Các độ đo cho toàn không gian phân loại 57
Bảng 5.1: Tổng hợp các thông số tập dữ liệu download bằng wget 75
Bảng 5.2: Thông số tập dữ liệu sau bước tiền xử lý 76
Bảng 5.3: Các định nghĩa thành phần dữ liệu 76
Bảng 5.4: Đặc trưng của nút và test 77
Bảng 5.5: Kết quả thử nghiệm phân loại 900 test trên toàn không gian 78
Bảng 5.6: So sánh kết quả thử nghiệm với bộ phân loại Telltale 79



6
DANH MỤC HÌNH VẼ
Hình 2.1: Quỹ đạo của các hành tinh là một elip và mặt trời là một tiêu điểm 12
Hình 2.2: Phần diện tích quét được là như nhau 13
Hình 2.3. Tên lửa phóng lên được bằng cách đẩy khí cháy ra phía sau 15
Hình 2.4. Đồ thị độ lớn F
eb
đo lực hấp dẫn của Trái đất tác dụng lên vật b (m
b
= 1

kg) theo khoảng cách r tính từ tâm trái đất 17
Hình 2.5: Công vi phân khi dịch chuyển điện tích q
0
từ điểm A đến điểm B 18
Hình 2.6. Đồ thị biểu diễn thế năng của chất điểm phụ thuộc vào tọa độ x 23
Hình 3.1: Ví dụ về taxonomy của website yahoo 24
Hình 3.2: Ví dụ flat taxonomy 25
Hình 3.3: Cây phân loại phân cấp 26
Hình 3.4: Cây phân loại diện (facet taxonomy) – kiến trúc hình sao 27
Hình 3.5: Ví dụ về mạng phân loại (network taxonomy ) 28
Hình 3.6: Một meta data cho khái niệm của taxonomy 29
Hình 3.7: Sự không có cấu trúc và có cấu trúc trước và sau khi xây dựng taxonomy
30
Hình 4.1: Các loại phân loại tài liệu 33
Hình 4.2 : Mô hình phân loại tài liệu tự động 37
Hình 4.3: Tiền xử lý trang web 39
Hình 4.4: Một không gian vecto 2 chiều. mỗi chiều tương ứng với 1 từ 41
Hình 4.5: Tài liệu được biểu diễn trên không gian 42
Hình 4.6: Mô hình xây dựng bộ phân loại tài liệu 49
Hình 4.7: Ví dụ phương pháp SVM 54
Hình 4.8: Sơ đồ phân loại một tài liệu d
new
mới vào lớp c
i
58
Hình 5.1: Các link tương ứng với chủ đề và link tương ứng với cấp con 62
Hình 5.2: Danh sách các lớp (hay nút) ở mức 1của kiến trúc dir.yahoo.com 63
Hình 5.3: Các bước xây dựng taxonomy của site 65
Hình 5.4: Lượng hóa đặc trưng nút 66
Hình 5.5: Các giai đoạn cần thiết cho quá trình lựa chọn đặc trưng 66

7
Hình 5.6 : Khoảng cách từ nút cha đến các nút con trực tiếp 70
Hình 5.7 : Khoảng cách giữa chất điểm đưa vào nút và chính nút đó 70
Hình 5.8 : Khoảng cách giữa 2 nút con có cùng nút cha trực tiếp 70
Hình 5.9 : Khoảng cách từ nút cha đến các nút con dưới k cấp 71
Hình 5.10 : Khoảng cách từ nút con đến nút cha k cấp 71
Hình 5.11 : Khoảng cách từ nút đến các nút khác có chung nút cha và khoảng cách
tới nút cha lần lượt là k và l 72
Hình 5.12 : Thống kê số nút và số đặc trưng của nút 77
Hình 5.13 : Đồ thị biểu diễn độ chính xác của 900 thử nghiệm 78
Hình 5.14 : Đồ thị biểu diễn số thử nghiệm cho kết quả và số đặc trưng
giống với tài liệu mới đưa vào của nút kết quả 79







8
CHƯƠNG 1: TỔNG QUAN
1.1. Bùng nổ thông tin
Trong những năm gần đây, sự phát triển mạnh mẽ của hạ tầng công nghệ
thông tin, phát triển các ứng dụng số và nhu cầu số hóa tài liệu phục công việc,
truyền tải thông tin đã làm nên cuộc cách mạng mới – cách mạng thông tin. Lượng
thông tin trên internet tăng lên một cách nhanh chóng. Theo thống kê của đại học
Berkeley thì mỗi ngày thông tin trên internet tăng 7 tỉ trang [11]. Với lượng thông
tin đồ sộ như vậy, một yêu cầu lớn đặt ra đối với chúng ta là làm sao tổ chức, lưu
trữ và tìm kiếm thông tin có hiệu quả nhất. Bài toán phân loại tài liệu tự động được
đặt ra nhằm giải quyết vấn đề này một cách có hiệu quả. Mặc dù là bài toán không

mới tuy nhiên với sự bùng nổ nhanh lượng thông tin, tính thời sự thông tin, tính
phức tạp của ngôn ngữ tự nhiên thì những kết quả đạt được vẫn chưa làm hài lòng
người sử dụng.
1.2. Bài toán phân loại tài liệu
Lịch sử phân loại thông tin gắn liền với lịch sử phát triển của ngành thư viện.
Nhưng với thực tế hiện nay khi khối lượng thông tin cần xử lý ngày càng lớn, việc
phân loại dữ liệu theo cách truyền thống của người thủ thư gặp nhiều khó khăn ảnh
hưởng đến độ chính xác cũng như tốc độ.
Giải pháp rất hiệu quả và đã được ứng dụng thành công đó là phân loại thông
tin tự động. Đó là các giải pháp phát huy khả năng tính toán nhanh, hiệu quả của
máy tính; ứng dụng những kết quả nghiên cứu về xử lý ngôn ngữ tự nhiên; những
kết quả nghiên cứu các giải thuật học; những kết quả nghiên cứu giải thuật phân loại
… Tuy nhiên với các bài toán đặt yếu tố thời sự trên khối lượng thông tin cần tính
toán lớn thì tốc độ xử lý của máy tính vẫn một trong những yêu cầu quan trọng. Với
bài toán phân loại tài liệu tự động, con người còn phải giải quyết được bài toán về
sự đa dạng, phong phú, phức tạp của ngôn ngữ tự nhiên.
Theo thống kê hiện thì trên thế giới có khoảng 5600 ngôn ngữ nhưng thông tin
truyền tải trên internet và lưu trữ dưới dạng số hóa chủ yếu tập trung trên 34 ngôn
ngữ chính, trong đó chủ yếu là tiếng Anh [3]. Nhiều ứng dụng rất thành công cho
9
các bài toán áp dụng cho ngôn ngữ tiếng Anh như: dịch tự động, tóm tắt văn bản,
phân loại văn bản, hiểu văn bản, giao tiếp người – máy tính, kiểm lỗi văn bản.
Ngoài ra kể đến những ngôn ngữ khác và có những thành công nhất định.
1.3 Mô hình thuyết vạn vật hấp dẫn
Để giải quyết bài toán phân loại tự động, trong khuôn khổ luận văn này tôi đề
xuất một giải thuật phân loại dựa trên mô hình hóa mô hình lý thuyết vật lý làm giải
thuật phân loại. Mô hình vật lý lý thuyết áp dụng là “Thuyết vạn vật hấp dẫn”. Đây
là mô hình vật lý lý thuyết do Issac Newton đề xuất. Trên có sở những lý thuyết của
Kepler, Galileo cùng với những công trình toán học của mình, Isaac Newton đã
phát minh ra định luật vạn vật hấp dẫn – Được giới thiệu trong tập 3 của tác phẩm

Philosophiae Naturalis Principia Mathematica (Các Nguyên lý Toán học của Triết
lý về Tự nhiên) năm 1688.
Thuyết vạn vật hấp dẫn hay mô hình hấp dẫn do Issac Newton đưa ra có liên
quan gì đến bài toán phân loại tài liệu. Mô hình ứng dụng nào được áp dụng … Cơ
sở lý thuyết này được trình bày cụ thể trong chương 2, và chương 5 của luận văn.
1.4 Mục tiêu của đề tài
Trên cơ sở nghiên cứu lý thuyết bài toán phân loại tài liệu tự động, lý thuyết
xây dựng mô hình phân loại dựa vào kiến trúc phân cấp, lý thuyết mô hình không
gian của thuyết vạn vật hấp dẫn. Luận văn đề xuất giải thuật phân loại tài liệu vào
kiến trúc có phân cấp.
Luận văn xây dựng modul thử nghiệm lý thuyết đề ra với tập dữ liệu từ
website .
1.5 Cấu trúc của luận văn
Luận văn được trình bày trong 5 chương
Chương 2: Cơ sở lý thuyết về thuyết vạn vật hấp dẫn. Trong chương này. Sẽ
khái quát những lý thuyết vật lý cơ bản của định luật vạn vật hấp dẫn như lực hấp
dẫn, trường hấp dẫn, thế năng hấp dẫn. …
Chương 3: Những cơ sở lý thuyết về cây phân loại (Taxonomy), cách thức xây
dựng một kiến trúc cây phân loại hoàn chỉnh phục vụ nhu cầu phân loại thông tin.
10
Chương 4: Đề cập đến bài toán phân loại văn bản, trình bày những khái niệm
căn bản về phân loại văn bản, tiền xử lý, cách thức trích chọn đặc trưng, biểu diễn
tài liệu, …
Để chỉ ra được mức độ hiệu quả, thử nghiệm độ chính xác lý thuyết đề xuất,
chương 5 đề cập đến các bước mô hình hóa lý thuyết đề xuất cho bài toán phân loại
tài liệu. Quá trình mô tả sẽ được thử nghiệm bằng một modul phân loại tài liệu.
Trong khuôn khổ luận văn này tôi đề xuất mô hình phân loại tài liệu cho ngôn
ngữ tiếng Anh.



11
CHƯƠNG 2: THUYẾT VẠN VẬT HẤP DẪN
Con đường khám phá ra lực hấp dẫn là một quá trình dài nhưng được xem là
một hình tượng của nghiên cứu khoa học kỹ thuật hiện đại. Gồm các bước chủ yếu
sau: (1) Các giả thiết về sự chuyển động của các hành tinh của nhà toán học, thiên
văn học Nicolaus Copercnicus (1473 - 1543); (2) Các phép đo thực nghiệm kỹ
lưỡng về vị trí của mặt trời và các hành tinh của nhà thiên văn học Tycho Brahe
(1546 - 1601); (3) Phân tích các số liệu và đưa ra công thức về các định luật thực
nghiệm của Johanes Kepler (1571 - 1601); (4) Phát triển thành một lý thuyết tổng
quát của Isaac Newton.
2.1 Giả thiết về chuyển động của các hành tinh
Trong cuốn sách “De Revolutionibus Obitum Coelestium” (về chuyển động
của các thiên cầu), Copercnicus đã khẳng định mô hình địa tâm mà nhiều nhà khoa
học Châu Âu tin tưởng trong nhiều thế kỉ là không đủ sức thuyết phục. Trong cuốn
sách này Ông cũng đề xuất ra một hệ trong đó sử dụng các giả thiết sau đây:
i, Trái đất tự quay quanh nó mỗi ngày một vòng.
ii, Trái đất quay xung quanh mặt trời cùng các hành tinh khác.
iii, Khoảng cách từ trái đất đến các ngôi sao xa hơn nhiều so với khoảng cách
từ trái đất đến mặt trời và đến các hành tinh khác.
2.2 Thực nghiệm của Tycho Brahe [1]
Các công trình của Tycho Brahe là một ví dụ điển hình của nền tảng căn bản
của nghiên cứu thực nghiệm “Nếu muốn biết một cái gì đó hoạt động như thế nào
thì bạn hãy theo dõi một cách cẩn thận hành vi của nó”. Ông đã tiến hành đo đạc số
liệu về vị trí của mặt trời và các hành tinh trong suốt 20 năm cuối cuộc đời. Các
phép đo của ông đã cung cấp số liệu một cách đầy đủ, chính xác (nâng độ chính xác
so với các phép đo thực nghiệm trước đây từ 10 phút lên tới 1 phút) cho ai muốn
làm sáng tỏ những bí ẩn về chuyển động của các thiên thể. Những số liệu của Tycho
Brahe để lại là những số liệu quan trọng cho những tính toán của Kepler và sau này
là Newton chứng minh được những giả thiết do Copercnicus đưa ra là đúng.


12
2.3 Các định luật Kepler
Kepler là nhà toán học, thiên văn học có năng lực tính toán xuất sắc. Ông đã
dũng kỹ năng tính toán của mình để xử lý số liệu đồ sộ do Tycho Brahe để lại
(Kepler là học trò của Tycho Brahe). Trên cơ sở những tính toán (lên tới 900 trang
tính toán) [5] này Kepler đã xác định được quỹ đạo của Trái đất và sao Hỏa. Các
công trình nghiên cứu của ông được đúc kết ở 3 định luật sau:
2.3.1 Định luật 1 (1609)
Định luật về quỹ đạo: Các hành tinh chuyển động quanh Mặt trời theo những
quỹ đạo elip mà Mặt trời nằm tại một trong hai tiêu điểm của elip quĩ đạo[2],[4],[5]

Hình 2.1: Quỹ đạo của các hành tinh là một elip và mặt trời là một tiêu điểm
Biểu thức toán học trong hệ tọa độ cực






Trong đó:
r là bán kính từ tiêu điểm đến vị trí của các hành tinh


là góc tạo bởi vị trí của hành tinh và trục nối 2 tiêu điểm elip
2.3.2 Định luật 2 (1609)
Định luật về diện tích: Đường nối bất kỳ hành tinh nào với mặt trời đều quyét

cos e 1
p
r


 (2.1)
13
những diện tích bằng nhau trong khoảng thời gian bằng nhau. [2],[4],[5]
Hay: Tốc độ diện tích mà bán kính vecto của hành tinh quét được một là hằng
số (hình 2.2).
Biểu thức toán học của định luật 2:
r2 =


= const = C (2.2)
Như vậy theo định luật này thì hành tinh sẽ không chuyển động đều trên quỹ
đạo. Vận tốc của hành tinh ở cận điểm lớn hơn ở viễn điểm.

Hình 2.2: Phần diện tích quét được là như nhau
2.3.3 Định luật 3 (1619)
Định luật về chu kỳ: Bình phương chu kỳ chuyển động của hành tinh tỷ lệ với
lập phương bán trục lớn quỹ đạo của nó. [2],[4],[5]
Biểu thức:

Trong đó:
a: bán trục lớn của quỹ đạo elip
T: là thời gian cần thiết để một hành tinh quay một vòng quanh
Mặt trời - Chu kỳ chuyển động của hành tinh

Ví dụ: Ta có hành tinh 1 có chu kỳ và bán trục lớn là T1 và a1, hành tinh 2 có
chu kỳ và bán trục lớn là T2 và a2, hành tinh 3 có chu kỳ và bán trục lớn là T3 và a3
thì: Hành tinh ở càng xa mặt trời (a lớn) thì càng chuyển động chậm (T lớn).
constK
3

3
a
3
3
T
3
2
a
2
2
T
3
1
a
2
1
T

(K là hệ số tỉ lệ) (2.4)
Const
3
2
a
T
(2.3)

14
Với 3 định luật này, Kepler đã đưa ra nhiều đặc điểm chính xác của hệ mặt
trời. Ông cũng đã khởi xướng những tư duy mới để mô tả, giải thích các hiện tượng
tự nhiên. Các định luật của Ông rất ngắn gọn, súc tích có khả năng ứng dụng rộng

rãi. Cách nghiên cứu của Kepler đã nuôi dưỡng một lý thuyết nghiên cứu khoa học
hiện đại là “Cách mô tả đúng đắn các hiện tượng tự nhiên là cách mô tả đơn giản
nhất nhưng phù hợp với số liệu thực nghiệm” [2],[4],[5].
2.4 Các định luật cơ bản của Newton
Trước khi đưa ra thuyết vạn vật hấp dẫn hay định luật vạn vật hấp dẫn,
Newton đã đưa ra các định luật về chuyển động. Đây là những định luật vật lý căn
bản và là nền tảng của cơ học chất điểm.
2.4.1 Định luật 1
“Trong hệ qui chiếu quán tính chất điểm không chịu tác dụng của ngoại
lực sẽ giữ nguyên trạng thái đứng yên hoặc chuyển động thẳng đều”.
Định luật 1 của Newton đúng cho mọi hệ quy chiếu chuyển động thẳng đều đối
với hệ quy chiếu quán tính. Về khái niệm của hệ quy chiếu quán tính chúng ta có
thể hiểu như sau: “Là hệ quy chiếu mà với một vật có hợp lực

=0 thì gia tốc
của nó a=0”.[5]
Trên cơ sở định luật 1, ta có các khái niệm
- Hợp lực
Hợp lực

 tác dụng lên một vật là tổng véctơ của các lực riêng biệt tác dụng
lên vật đó từ các vật khác


F = F1 + F2 + …. + Fi (2.5)
Trong đó F
i
là các lực riêng biệt tác động lên vật đó
- Nguyên lý chồng chập
Các lực được cộng như là các vecto được gọi là nguyên lý chồng chập. Điều

này có nghĩa là khi tính lực tổng hợp cùng tác động lên một vật thì ta xét như là tính
tổng vecto của các lực cùng tác động đó.
2.4.2. Định luật 2
Gia tốc của một vật tỉ lệ thuận với hợp lực tác dụng lên vật đó, và khối lượng
15
của vật là hệ số tỉ lệ [5]

= (2.6)
Trong đó:
m là khối lượng của vật


 là tổng các lực tác dụng lên nó
a là gia tốc của khối tâm của vật
2.4.3. Định luật 3
Định luật xét đến sự tương tác giữa các vật:
Nếu một vật A tác động lên một vật B một lực thì vật B tác dụng lại vật A một
lực bằng và ngược hướng lên vật A [5]
F
AB
= - F
BA
(2.7)
Các lực xuất hiện thành từng cặp, không thể tồn tại chỉ một lực. Khi hai vật tác
dụng các lực lên nhau ta nói rằng chúng có tồn tại một tương tác giữa các vật. Định
luật 3 cho mối quan hệ giữa 2 lực là một kết quả của tương tác.
Hai lực F
AB
, F
BA

thường được gọi là lực tác dụng – phản tác dụng

Hình 2.3. Tên lửa phóng lên được bằng cách đẩy khí cháy ra phía sau
Định luật 3 Newton nói rằng nếu tên lửa tác dụng một lực ra phía sau lên
không khí, thì không khí phải tạo ra một lực bằng như vậy tác dụng lên tên lửa.
Chính vì vậy dộng cơ tên lửa có thể hoạt động ở trong bầu khí quyển.
2.5. Định luật vạn vật hấp dẫn
Trước Newton các nhà thiên văn không giải thích được nguyên nhân của
16
chuyển động của các hành tinh quanh Mặt trời. Copernic cho rằng Mặt trời đã được
"phú bẩm" cho một "khả năng hút" . Kepler cho rằng các vật có khả năng hút nhau
như nam châm. Galileo cho rằng đã có một lực "kéo theo" nào đó khiến hành tinh
chuyển động theo quỹ đạo Elip. Đến thế kỷ XVII, hai nhà bác học là Borelli và
Hooke đã đi đến những ý tưởng về lực hấp dẫn. Nhưng chỉ có Newton mới phát biểu
được thành định luật hoàn chỉnh.
Dựa vào các định luật cơ học cơ bản của mình, Newton suy luận: Từ định luật
1 ông cho rằng nếu không có lực tác dụng thì các hành tinh sẽ đứng yên hoặc
chuyển động với vận tốc không đổi trong hệ quy chiếu có tâm là Mặt trời. Nhưng
các hành tinh đã không chuyển động theo đường thẳng mà thay đổi. Sự thay đổi này
theo định luật 2 phải do một lực nào đó tác dụng. Lực đó hướng từ hành tinh về tâm
Mặt trời, có bản chất giống trọng lực, tức tỷ lệ nghịch với bình phương khoảng
cách. Qua đó ông phát biểu thành định luật vạn vật hấp dẫn hoàn chỉnh.
Định luật vạn vật hấp dẫn
Mỗi hạt vật chất hấp dẫn một hạt khác với một lực tỷ lệ thuận với khối lượng
của hai hạt và tỷ lệ nghịch với bình phương khoảng cách r giữa chúng. [2],[5]


Trong đó:
- m
1

, m
2
là khối lượng các hạt
- r là khoảng cách giữa 2 hạt
- G là hằng số hấp dẫn G=6,67*10
-11
N.m
2
/kg
2
- Dấu trừ thể hiện lực hấp dẫn luôn là lực hút)
- Có phương là đường thẳng nối 2 hạt, chiều phụ thuộc vào lực đặt ở
hạt nào.
Biểu thức véc tơ của lực:

(2.9)
21
2
21
12
r.
r
mm
G F



2
21
r

mm
G F 
(2.8)

17

Hình 2.4. Đồ thị độ lớn F
eb
đo lực hấp dẫn của Trái đất tác dụng lên vật b (m
b
=
1 kg) theo khoảng cách r tính từ tâm trái đất.
Định luật vạn vật hấp dẫn của Newton ra đời đã giúp cho các nhà khoa học
giải thích được các hiện tượng rơi tự do, hiện tượng thủy triều, sự chuyển động của
các hành tinh.
2.6. Trường lực thế - Trường hấp dẫn
2.6.1 Khái niệm và tính chất của trường lực thế
Một chất điểm được gọi là chuyển động trong một trường lực nếu tại mỗi vị trí
của chất điểm đều có một lực 

tác dụng lên chất điểm ấy.
Lực 

tác dụng lên chất điểm nói chung phụ thuộc vào vị trí của chất
điểm, là một hàm của tọa độ của chất điểm và cũng có thể là một hàm của thời gian
t. Ở đây ta chỉ xét trường hợp 

chỉ phụ thuộc vào vị trí của chất điểm mà không
phụ thuộc vào thời gian t.



= 

(⃗) = 

(x, y, z) (2.10)
Khi chất điểm chuyển động trong trường lực từ vị trí M đến vị trí N bất kỳ thì
công của lực 

bằng:
A
MN
=



⃗


(2.11)
Trong trường hợp công A
MN
của lực 

không phụ thuộc đường dịch chuyển
18
MN mà chỉ phụ thuộc vị trí của điểm M và điểm N thì ta nói rằng: 

là lực của một
trường thế.

2.6.2 Ví dụ về trường thế
2.6.2.1 Trường tĩnh điện Coulomb
Tại điểm O cố định, đặt một điện tích +q, điện tích này sẽ sinh ra một điện
trường chung quanh nó. Một điện tích q
0
tại vị trí bất kỳ cách q một khoảng r. Điện
tích q
0
sẽ chịu tác dụng một lực điện Coulomb 

12
có phương là đường thẳng nối
qq
0
, và có độ lớn :

Giả sử q
0
>0: F


là lực đẩy, giả sử q
0
dịch chuyển từ M đến N, ta tính công của
lực Coulomb F


trong dịch chuyển này như sau:
Công vi phân trong chuyển dời nhỏ AB=ds là
dA = 


d⃗ = F.AB.Cosα = F.AH (2.13)
AH là hình chiếu của AB trên phương của 



Hình 2.5: Công vi phân khi dịch chuyển điện tích q
0
từ điểm A đến điểm B
OA = r, OB = r + dr ≈ OH
AH ≈ OB – OA = dr
dA = F.dr =
dr.
r
qq
k F
2
0
12




Công của lực Coulomb khi dịch chuyển điện tích q0 thừ A đến B là
(2.12)
21
2
0
12
r.

r
qq
F



k
19
A
MN
=




=

dr.
r
qq
k
2
0






A

MN
= 
 

 

- 
 

 

=

0
qq
k
(

m
r


n
r
) (2.14)
Từ công thức (2.14) ta thấy công A
MN
chỉ phụ thuộc vào điểm đầu và điểm
cuối, vậy trường tĩnh điện Coulomb là trường thế.
2.6.2.2 Chuyển động trong trọng trường đều [2],[ 5]

Xét một chất điểm m luôn luôn chịu tác dụng của trọng lực:



= m⃗
Trong phạm vi không gian không lớn, ⃗ (gia tốc rơi tự do trong trường trọng
lực) luôn thẳng đứng hướng xuống và có độ lớn không đổi, lúc này ta có trọng
trường đều.
Công của trọng lực 


khi chất điểm chuyển động từ M đến N
A
MN
=




⃗


(2.15)
Trong di chuyển nhỏ AB







= ds⃗
Công vi phân
dA = 


d⃗ = P. AB. Cosα
dA = P. AC = -Pdz
dz = z
A
– z
B
dấu trừ ở vế thứ 2 cho biết dz < 0 (độ cao giảm) thì dA >0
Công của trọng lực khi dịch chuyển chất điểm từ M đến N là:
A
MN
=

−


= P(z
M
- z
N
)
A
MN
= mg(z
M
- z

N
) (2.16)
Từ công thức (2.16) cho thấy công dịch chuyển chỉ phụ thuộc vào z
M
và z
N

nghĩa là chỉ phụ thuộc vào điểm đầu M và điểm cuối N. Vậy trọng lực đều là một
trường lực thế.
Từ 2.6.2.1 và 2.6.2.2 ta thấy trường tĩnh điện và trường trọng lực là các trường
thế.
20
2.7. Thế năng và cơ năng trong trường lực thế
Trong trường lực thế, khi một chất điểm dịch chuyển từ vị trí M sang vị trí N
thì công A
MN
của trường lực chỉ phụ thuộc vào vị trí của M, N. Lực tác dụng vào
chất điểm trong trường hợp này chỉ phụ thuộc vào vị trí của chất điểm, ta gọi là lực
bảo toàn. Công của lực bằng hiệu số giữa hai số hạng E
p
(x,y,z) phụ thuộc vào vị trí
điểm đầu và điểm cuối. Một cách tổng quát ta viết :
A
MN
=



⃗



= E
p
(M) – E
p
(N) (2.17)
Đại lượng E
p
(x,y,z) được gọi là thế năng của chất điểm
Thế năng của một chất điểm trong trường lực thế là một hàm E
p
(x,y,z) phụ
thuộc vào vị trí của chất điểm sao cho:
A
MN
= E
p
(M) – E
p
(N) (2.18)
Nói cách khác: Thế năng là một hàm số của tọa độ, sao cho hiệu số giá trị của
nó ở vị trí đầu và vị trí cuối trong một trường lực thế bằng công của trường lực thực
hiện khi làm dịch chuyển chất điểm từ vị trí đầu đến vị trí cuối. [5]
Từ định nghĩa này ta thấy rằng nếu đồng thời cộng E
P
(M) và E
P
(N)
với cùng một hằng số thì hệ thức (2.18) vẫn không đổi: Thế năng của một chất điểm
tại một vị trí được định nghĩa sai khác một hằng số.

Ví dụ: Trong trọng trường đều, dựa vào biểu thức (2.16) ta suy ra biểu thức thế
năng của chất điểm tại vị trí có độ cao z là:
E
P
(z) = mgz + C
Trong điện trường Coulomb dựa vào biểu thức (2.14) ta suy ra biểu thức thế
năng của điện tích q
0
tại vị trí cách q một khoảng r:
E
p
(r) = 
 

 
+ C
Vậy thế năng tại một vị trí được xác định sai khác một hằng số cộng nhưng
hiệu thế năng giữa hai vị trí thì hoàn toàn xác định. Giữa công của trường lực và thế
năng có hệ thức sau:
A
MN
=



⃗


= E
p

(M) – E
p
(N)
Nếu cho chất điểm dịch chuyển theo một vòng tròn kín (điểm M trùng với N)
21
thì hệ thức trên trở thành:
A
MN
=



⃗
≡

= E
p
(M) – E
p
(N) = 0 (2.19)
Ý nghĩa của thế năng: Thế năng là một dạng năng lượng đặc trưng cho tương
tác, ví dụ dạng thế năng của chất điểm trong trọng trường của quả đất là năng
lượng đặc trưng cho tương tác giữa quả đất với chất điểm. Thế năng của điện tích
q
0
trong điện trường Coulomb của điện tích q là thế năng tương tác giữa q và q
0
.
2.8. Định luật bảo toàn cơ năng trong trường thế
Khi một chất điểm khối lượng m chuyển động từ vị trí M đến vị trí N trong

một trường lực thế, thì công của trường lực là (theo 2.18):
A
MN
= E
P
(M) – E
P
(N)
Nếu chất điểm chỉ chịu tác dụng của trường lực thế, ta có:
A
MN
= E
k
(N) - E
k
(M)
Với M là điểm đầu, N là điểm cuối của quá trình dịch chuyển.
Vậy:
E
P
(M) – E
P
(N) = E
k
(N) - E
k
(M)
hay E
P
(M) + E

k
(M) = E
k
(N) + E
P
(N)
(E
P
+ E
k
)
M
= (E
P
+ E
k
)
N
(2.20)
Với (E
P
+ E
k
)
M
là tổng thế năng và động năng của chất điểm tại vị trí M trong
trường lực. Đại lượng (E
p
+ E
k

) được gọi là cơ năng của chất điểm bằng tổng động
năng và thế năng của chất điểm tại vị trí đang xét, ký hiệu E:
E = (E
P
+ E
k
) = E
P
(x,y,z) + mv
2
/2 (2.21)
Trong đó:
m: là khối lượng của chất điểm
v: vận tốc của chất điểm tại vị trí đang xét
Và ta có định luật bảo toàn cơ năng: Khi chất điểm chuyển động trong một
trường thế mà không chịu tác dụng của một lực nào thì cơ năng của chất điểm được
bảo toàn [5]
Ví dụ: trong trường hợp chất điểm rơi tự do trong trọng trường đều, cơ năng
của chất điểm m tại độ cao z là:
22
E = mgz + mv
2
/2 (2.22)
Tại vị trí z
0
giả sử vận tốc ban đầu của chất điểm bằng không, tại một vị trí có
độ cao z ta có theo (2.22):
mgz
0
= mgz + mv

2
/2
Hay: v
2
= 2g(z
0
- z) = 2gh
Và ta có công tính tính vận tốc của chất điểm rơi tự do từ độ cao h trong
trường trọng lực
v =

2ℎ (2.23)
2.9. Thế năng của chất điểm trong không gian
Đặt chất điểm có khối lượng m tại hành tinh tại vị trí A(x,y,z) trong không
gian vũ trụ V(p
1
, p
2
, … p
n
) với p
i
là hành tinh thứ i có khối lượng tương ứng là M
i
.
Khi đó chất điểm m sẽ chịu lực hấp dẫn của tất cả các hành tinh thuộc V. Và như
vậy tại mỗi vị trí có tọa độ A(x,y,z), ta có công thức tính thế năng của m đối với
không gian V như sau:



=− 







(2.24)
Trong đó:
- G: Hằng số hấp dẫn
- l
iA
là khoảng cách từ A đến hành tinh p
i

Hình 2.6 biểu diễn sự phụ thuộc của thế năng của chất điểm E
m
trong không
gian. Với E
0
là giá trị của cơ năng toàn phần ban đầu. Tại các vị trí ứng với E
m
> E
0
thì chất điểm m được cung cấp một năng lượng (ví dụ tác dụng một lực). Tại các vị
trí ứng với E
m
< E
0

thì một phần thế năng của chất điểm m được chuyển thành động
năng (theo công thức 2.20) hoặc một dạng năng lượng khác.
Tại các điểm B (thế năng có giá trị cực tiểu) và D (thế năng có giá trị cực đại)
ứng với



=0. Theo công thức 2.24 thì ta có 





= −



=0 và do đó tại B và
D có tổng hợp lực tác dụng lên chất điểm m = 0. Nghĩa là tại các vị trí B và D chất
điểm có thể nằm cân bằng. Tuy nhiên vị trí B là vị trí cân bằng bền, vì khi làm lệch
23
chất điểm khỏi vị trí đó sẽ xuất hiện lực kéo nó trở về vị trí cân bằng, còn vị trí D là
vị trí cân bằng không bền, vì khi chất lệch khỏi vị trí đó sẽ xuất hiện lực kéo nó đi
khỏi vị trí cân bằng. Vì mọi vật đều có xu hướng trở về trạng thái có thế năng cực
tiểu, nên có thể nói:

Hình 2.6. Đồ thị biểu diễn thế năng của chất điểm phụ thuộc vào tọa độ x
Điều kiện cân bằng của một hệ cơ học cô lập là thế năng của nó phải cực
tiểu.[4]
Đây chính là điều kiện xác định vị trí cân bằng bền của chất điểm trong không

gian của một hệ cơ học độc lập. Là cơ sở xác định lớp phân loại thuộc về của một
tài liệu mới trong kiến trúc phân cấp của luận văn.

B

D

E
0
E
m
x

24
CHƯƠNG 3: CÂY PHÂN LOẠI (TAXONOMY)
Xây dựng kiến trúc phục vụ phân loại là một trong các bước đầu tiên của bài
toán phân loại tài liệu tự động. Hầu hết các kiến trúc phân loại đang sử dụng đều
được xây dựng thủ công do nhóm các chuyên gia thực hiện. Kiến trúc phân loại này
trên thực tế được sử dụng với khái niệm cây phân loại hay taxonomy.
3.1 Khái niệm
Botanist Linnaeus (1707-1778) là nhà y học người Thụy Điển đưa ra định
nghĩa khá hoàn chỉnh về Taxonomy. Các khái niệm về hệ thống, về đặt tên, xếp
hạng, tổ chức phân loại của ông hiện vẫn còn được sử dụng rộng rãi. Ông đưa ra
khái niệm về taxonomy đơn giản như sau:
“Một hệ thống phân loại hoàn chỉnh các khái niệm phân biệt, được đặt tên và
đặt vào một kiến trúc có phân cấp” [11]

Hình 3.1: taxonomy của website
3.2 Ý nghĩa của Taxonomy
- Taxonomy cung cấp một cấu trúc để tổ chức, lưu trữ và tìm kiếm thông tin

một cách có hiệu quả. (Cách phân loại của hệ thống phân loại Dewey Decimal được
các thư viện trên toàn thế giới sử dụng là một ứng dụng taxonomy).
- Taxonomy có cấu trúc rõ ràng, có logic và duy nhất cho tất cả các khái niệm,
các khái niệm còn được làm rõ hơn nhờ tham chiếu, mối liên hệ đến các khái niệm
khác. Cho nên với cách này taxonomy đã tổ chức các thuật ngữ thỏa mãn yêu cầu
của con người.

×