LỜI NÓI ĐẦU
Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và những ứng
dụng của nó trong đời sống. Máy tính điện tử không còn là một thứ phương tiện lạ
lẫm đối với mọi người mà nó dần trở thành một công cụ làm việc và giải trí thông
dụng và hữu ích của chúng ta, không chỉ ở công sở mà còn ngay cả trong gia đình.
Trong nền kinh tế hiện nay, với xu thế toàn cầu hóa nền kinh tế thế giới , mọi
mặt của đời sống xã hội ngày càng được nâng cao, đặc biệt là nhu cầu trao đổi hàng
hóa của con người ngày càng tăng cả về số lượng và chất lượng. Thông qua các sản
phẩm và công nghệ này, chúng ta dễ dàng nhận ra tầm quan trọng và tính tất yếu
của thương mại điện tử. Với những thao tác đơn giản trên máy tính có nối mạng
Internet bạn sẽ có tận tay những gì mình cần mà không phải mất nhiều thời gian.
Bạn chỉ cần vào các trang dịch vụ thương mại điện tử , làm theo hướng dẫn và click
vào những gì bạn cần các nhà dịch vụ sẽ mang đến tận nhà cho bạn. Hiện nay thật
khó để có thể tiếp thu thông tin từ một khối lượng rất lớn dữ liệu, tìm kiếm và phát
hiện được tri thức quả là một điều không dễ dàng gì? Hiện nay đã có rất nhiều các
nghiên cứu, phương pháp mang tính khoa học dựa trên yếu tố thông minh nhất đã ra
đời, nhằm phục vụ cho quá trình trích lọc được dữ liệu một cách tối ưu và từ đó tìm
kiếm được tri thức cần có. Vì vậy một wesbsite cần có ứng dụng giải thuật thông
minh vào là điều tất yếu.
Để đáp ứng và phục vụ nhu cầu của khách hàng cũng như các doanh nghiệp
hay các công ty... Em xin tìm hiểu và hoàn thành đồ án : “Xây dựng website thương
mại điện tử hỗ trợ tư vấn thông minh”.
Để có được kết quả như ngày hôm nay , em xin gửi lời cảm ơn chân thành và
sâu sắc nhất đến toàn bộ các quý thầy cô trong khoa công nghệ thông tin trường
Đại học Công Nghiệp Hà Nội đã tạo điều kiện giúp đỡ em trong suốt quá trình học
tập tại trường . Em xin gửi lời cảm ơn đặc biệt nhất đến thầy Th.s Nguyễn Văn
Thắng, thầy đã luôn hướng dẫn chỉ bảo tận tình cho em hoàn thành đồ án thực tập
tốt nghiệp một cách tốt nhất.
Em xin chân thành cảm ơn !
Hà Nội, ngày 30/04/2016
Sinh viên thực hiện
Đào Văn Hải
1
TÓM TẮT ĐỒ ÁN
Đồ án tốt nghiệp với đề tài “Xây dựng website thương mại điện tử hỗ trợ tư
vấn thông minh” được xây dựng áp dụng cho các công ty, tổ chức bán các mặt hàng
điện thoại. Mục đích của đề tài là xây dựng một website áp dụng kỹ thuật khai phá
dữ liệu giúp khách hàng có thể xem và lựa chọn sản phẩm phù hợp, quảng cáo sản
phẩm theo nhóm khách hàng, tìm kiếm tên hàng thông minh.
Nội dung của đồ án gồm ba chương:
-
Chương 1: Tổng quan về thương mại điện tử
-
Chương 2: Các hệ hỗ trợ ra quyết định
-
Chương 3: Các thuật toán hỗ trợ ra quyết định.
-
Chương 4: Phân tích thiết kế hệ thống
-
Chương 5: Hướng phát triển.
Đồng thời website cũng hỗ trợ đặt hàng trực tuyến, giúp nhà quản lý quản lý thông
tin về sản phẩm, đơn đặt hàng.
GRADUATION PROJECT SUMMARY
Graduation project with topic “Build e-commerce sites to support smart advice” is
built to apply in companies, organizations selling phones items. The purpose of
project is to built a website apply the data mining techniques to help customer can
veiw and select products, products advertisement by customer group, look for
intelligent products name.
Content of project containd 3 chapter:
Chapter 1: An overview of e-commerce.
Chapter 2: The decision support system
Chapter 3: The algorithm supports the decision.
Chapter 4: The system design analysis.
Chapter 5: Career developement.
In addition, website also to support online order items, help the manager manage
2
3
Mục lục
LỜI NÓI ĐẦU..........................................................................................................1
TÓM TẮT ĐỒ ÁN....................................................................................................2
DANH SÁCH HÌNH VẼ...........................................................................................6
DANH SÁCH BẢNG BIỂU.....................................................................................7
DANH SÁCH CÁC TỪ VIẾT TẮT..........................................................................7
CHƯƠNG 1: TỔNG QUAN VỀ THƯƠNG MẠI ĐIỆN TỬ....................................8
1.1. Các đặc trưng của Thương mại điện tử........................................................8
1.2. Cơ sở để phát triển Thương mại điện tử.......................................................9
1.3. Các loại hình giao dịch Thương mại điện tử..............................................10
1.4. Các hình thức hoạt động chủ yếu của Thương mại điện tử.........................11
1.4.1. Thư điện tử..........................................................................................11
1.4.2. Thanh toán điện tử...............................................................................12
1.4.3. Truyền dung liệu..................................................................................12
1.4.4. Mua bán hàng hóa hữu hình................................................................12
1.5. Lợi ích của Thương mại điện tử.................................................................13
1.5.1. Thu thập được nhiều thông tin.............................................................13
1.5.2. Giảm chi phí sản xuất............................................................................13
1.5.3. Giảm chi phí bán hàng, tiếp thị và giao dịch.........................................13
1.5.4. Xây dựng quan hệ với đối tác.................................................................14
1.5.5. Tạo điều kiện sớm tiếp cận kinh tế tri thức............................................14
CHƯƠNG 2: CÁC HỆ HỖ TRỢ RA QUYẾT ĐỊNH.............................................16
2.1. Khai phá dữ liệu là gì?...............................................................................16
2.2. Một số phương pháp khai thác dữ liệu phổ biến........................................17
2.3. Tình hình ứng dụng khai phá dữ liệu.........................................................20
CHƯƠNG 3. CÁC THUẬT TOÁN HỖ TRỢ RA QUYẾT ĐỊNH..........................22
4
3.1. Tập phổ biến và thuật toán Apriori................................................................22
3.2. Thuật toán tìm kiếm chuỗi gần đúng.............................................................28
CHƯƠNG 4. PHÂN TÍCH THIẾT KẾ HỆ THỐNG..............................................31
4.1. Khảo sát........................................................................................................32
4.2. Định nghĩa bài toán.......................................................................................35
4.3. Xác định ca sử dụng và tác nhân...................................................................36
4.4. Biểu đồ Use case mức khung cảnh................................................................38
4.5. Đặc tả ca sử dụng..........................................................................................38
4.5.1. Ca sử dụng: Đăng nhập.........................................................................38
4.5.2. Ca sử dụng: Đăng xuất..........................................................................39
4.5.3. Ca sử dụng: Quản lý khách hàng...........................................................40
4.5.4. Ca sử dụng: Quản lý mặt hàng...............................................................40
4.5.6. Ca sử dụng: Quản lý nhà cung cấp........................................................43
4.5.7. Ca sử dụng: Quản lý đơn đặt hàng.........................................................44
4.5.8. Ca sử dụng: Quản lý luật gợi ý khách hàng...........................................45
4.5.9. Ca sử dụng: Báo cáo, thống kê...............................................................46
4.5.10. Ca sử dụng: Tìm kiếm sản phẩm..........................................................47
4.5.11. Ca sử dụng: Xem sản phẩm..................................................................47
4.5.12. Ca sử dụng: Đặt hàng online...............................................................47
4.5.13. Ca sử dụng: Quản lý game show..........................................................49
4.5.14. Ca sử dụng: Quản lý cửa hàng cá nhân...............................................50
4.6. Cơ sở dữ liệu vật lý.......................................................................................52
4.6.1. Các bảng dữ liệu trong cơ sở dữ liệu.....................................................52
4.6.2. Mô hình cơ sở dữ liệu quan hệ...............................................................57
4.7. Ứng dụng mô hình giải thuật vào bài toán....................................................57
4.7.1. Ứng dụng của giải thuật apriori vào bài toán........................................57
5
4.7.2. Ứng dụng của giải thuật tìm kiếm vào bài toán......................................59
4.8. Giao diện.......................................................................................................60
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.........................................63
5.1. Kết luận.........................................................................................................63
5.2. Hướng phát triển...........................................................................................63
TÀI LIỆU THAM KHẢO.......................................................................................64
6
DANH SÁCH HÌNH VẼ
Hình 1: Biểu đồ UC mức khung cảnh......................................................................38
Hình 2: Biểu đồ UC ca sử dụng Login....................................................................39
Hình 3: Biểu đồ UC ca sử dụng Logout..................................................................39
Hình 4: Biểu đồ UC quản lý khách hàng.................................................................40
Hình 5: Biểu đồ UC quản lý mặt hàng....................................................................41
Hình 6: Biểu đồ lớp quản lý mặt hàng....................................................................42
Hình 7: Biểu đồ trình tự thêm mặt hàng..................................................................42
Hình 8: Biểu đồ UC quản lý nhà cung cấp..............................................................44
Hình 9: Biểu đồ UC quản lý hóa đơn......................................................................45
Hình 10: Biểu đồ UC ca sử dụng quản lý luật gợi ý khách hàng............................46
Hình 11: Biểu đồ UC quản lý thống kê....................................................................46
Hình 12: Biểu đồ UC đặt hàng................................................................................48
Hình 13: Biểu đồ UC quản lý game show...............................................................50
Hình 14: Biểu đồ ca sử dụng quản lý cửa hàng cá nhân.........................................51
Hình 15 : Biểu đồ lớp cơ sở dữ liệu quan hệ...........................................................57
Hình 16: Minh họa giải thuật áp dụng vào bài.......................................................58
Hình 17: Giao diện trang chủ.................................................................................60
Hình 18: Giao diện trang Admin.............................................................................61
Hình 19: Giao diện trang xem sản phẩm và gợi ý...................................................62
7
DANH SÁCH BẢNG BIỂU
Bảng sản phẩm (Product)........................................................................................52
Bảng loại sản phẩm (ProductType)..........................................................................52
Bảng khách hàng (User)..........................................................................................53
Bảng Đơn hàng(Order)............................................................................................53
Bảng Chi tiết đơn hàng(OrderDetail)......................................................................54
Bảng Cửa hàng cá nhân(Shopmyself).....................................................................54
Bảng GameShow (Gameshow)...............................................................................54
Bảng ThongTinSP(Customer).................................................................................55
Bảng nhà cung cấp (Supplier).................................................................................56
Bảng thuật toán Apriori (Apriori)............................................................................56
Bảng gợi ý theo nhóm người dùng (Suggest_Buy)..................................................56
DANH SÁCH CÁC TỪ VIẾT TẮT
Từ viết tắt
TMĐT
B2B
B2C
B2G
C2G
C2C
CSDL
Nghĩa
Thương mại điện tử
Business vs Business
Business vs Customer
Business vs Government
Customer vs Government
Customer vs Customer
Cơ sở dữ liệu
8
CHƯƠNG 1: TỔNG QUAN VỀ THƯƠNG MẠI ĐIỆN TỬ
Thương mại điện tử là hình thức mua bán hàng hóa và dịch vụ thông qua
mạng máy tính toàn cầu.
Phạm vi của TMĐT rất rộng, bao quát hầu hết các lĩnh vực hoạt động kinh
tế. Việc mua bán hàng hóa và dịch vụ chỉ là một trong hàng ngàn lĩnh vực áp dụng
của TMĐT. Theo nghĩa hẹp, TMĐT chỉ gồm các hoạt động thương mại được tiến
hành trên mạng máy tính mở như Internet. Trên thực tế, chính các hoạt động thương
mại thông qua mạng Internet đã làm phát sinh thuật ngữ Thương mại điện tử.
TMĐT gồm các hoạt động mua bán hàng hóa và dịch vụ qua phương tiện
điện tử, giao nhận các nội dung kỹ thuật số trên mạng, chuyển tiền điện tử, mua bán
cổ phiếu điện tử, vận đơn điện tử, đấu giá thương mại, hợp tác thiết kế, tài nguyên
mạng, mua sắm công cộng, tiếp thị trực tuyến đến người tiêu dùng và các dịch vụ
sau bán hàng. TMĐT được thực hiện đối với cả thương mại hàng hóa (ví dụ như
hàng tiêu dùng, các thiết bị y tế chuyên dụng) và thương mại dịch vụ (ví dụ như
dịch vụ cung cấp thông tin, dịch vụ pháp lý, tài chính); các hoạt động truyền thống
(như chăm sóc sức khỏe, giáo dục) và các hoạt động mới (ví dụ như siêu thị ảo).
TMĐT đang trở thành một cuộc cách mạng làm thay đổi cách thức mua sắm của
con người.
1.1.
Các đặc trưng của Thương mại điện tử
So với các hoạt động Thương mại truyền thống, TMĐT có một số điểm khác
biệt cơ bản như sau:
Các bên tiến hành giao dịch trong TMĐT không tiếp xúc trực tiếp với nhau
và không đòi hỏi biết nhau từ trước:
Trong Thương mại truyền thống các bên thường gặp gỡ nhau trực tiếp để tiến
hành giao dịch. Các giao dịch được thực hiện chủ yếu theo nguyên tắc vật lý như
chuyển tiền, séc, hóa đơn, vận đơn, gửi báo cáo. Các phương tiện viễn thông như:
fax, telex... chỉ được sử dụng để trao đổi số liệu kinh doanh. Tuy nhiên, việc sử
dụng các phương tiện điện tử trong Thương mại truyền thống chỉ để chuyển tải
thông tin một cách trực tiếp giữa hai đối tác của cùng một giao dịch.
TMĐT cho phép mọi người cùng tham gia từ các vùng xa xôi hẻo lánh đến
các khu vực đô thị lớn, tạo điều kiện cho tất cả mọi người ở khắp mọi nơi đều có cơ
9
hội ngang nhau tham gia vào thị trường giao dịch toàn cầu và không đòi hỏi nhất
thiết phải có mối quen biết với nhau.
Các giao dịch Thương mại truyền thống được thực hiện với sự tồn tại của
khái niệm biên giới quốc gia, còn TMĐT được thực hiện trong một thị trường không
có biên giới (thị trường thống nhất toàn cầu). TMĐT trực tiếp tác động tới môi
trường cạnh tranh toàn cầu:
TMĐT càng phát triển, thì máy tính cá nhân trở thành cửa sổ cho doanh
nghiệp hướng ra thị trường trên khắp thế giới. Với TMĐT, một doanh nhân dù mới
thành lập đã có thể kinh doanh ở Nhật Bản, Đức và Chilê... mà không hề phải bước
ra khỏi nhà, một công việc trước kia phải mất nhiều năm.
Trong hoạt động giao dịch TMĐT đều có sự tham ra của ít nhất ba chủ thể,
trong đó có một bên không thể thiếu được là người cung cấp dịch vụ mạng, các cơ
quan chứng thực:
Trong TMĐT, ngoài các chủ thể tham gia quan hệ giao dịch giống như giao
dịch thương mại truyền thống đã xuất hiện một bên thứ ba đó là cung cấp dịch vụ
mạng, các cơ quan chứng thực… là những người tạo ra môi trường cho các giao
dịch TMĐT. Nhà cung cấp dịch vụ mạng và cơ quan chứng thực có nhiệm vụ
chuyển đi, lưu giữ các thông tin giữa các bên tham gia giao dịch TMĐT, đồng thời
họ cũng xác nhận độ tin cậy của các thông tin trong giao dịch TMĐT.
Đối với Thương mại truyền thống thì mạng lưới thông tin chỉ là phương tiện
để trao đổi dữ liệu, còn đối với TMĐT thì mạng lưới thông tin chính là thị trường:
Thông qua TMĐT, nhiều loại hình kinh doanh mới được hình thành. Ví dụ: các dịch
vụ gia tăng giá trị trên mạng máy tính hình thành nên các nhà trung gian ảo làm các
dịch vụ môi giới cho giới kinh doanh và tiêu dùng, các siêu thị ảo được hình thành
để cung cấp hàng hóa và dịch vụ trên mạng máy tính.
1.2.
Cơ sở để phát triển Thương mại điện tử
Để phát triển TMĐT cần phải có hội đủ một số cơ sở:
Hạ tầng kỹ thuật Internet phải đủ nhanh, mạnh đảm bảo truyền tải các nội dung
thông tin bao gồm âm thanh, hình ảnh trung thực và sống động. Một hạ tầng
Internet mạnh cho phép cung cấp các dịch vụ như xem phim, xem TV, nghe nhạc
v.v. trực tiếp. Chi phí kết nối Internet phải rẻ để đảm bảo số người dùng Internet đủ
lớn.
10
Hạ tầng pháp lý: phải có luật về TMĐT công nhận tính pháp lý của các chứng từ
điện tử, các hợp đồng điện tử ký qua mạng, phải có luật bảo vệ quyền sở hữu trí tuệ,
bảo vệ sự riêng tư, bảo vệ người tiêu dùng v.v. để điều chỉnh các giao dịch qua
mạng.
Phải có cơ sở thanh toán điện tử an toàn bảo mật. Thanh toán điện tử qua thẻ, qua
tiền điện tử, thanh toán qua EDI. Các ngân hàng phải triển khai hệ thống thanh toán
điện tử rộng khắp.
Phải có hệ thống cơ sở chuyển phát hàng nhanh chóng, kịp thời và tin cậy.
Phải có hệ thống an toàn bảo mật cho các giao dịch, chống xâm nhập trái phép,
chống virus, chống thoái thác.
Phải có nhân lực am hiểu kinh doanh, công nghệ thông tin, TMĐT để triển khai tiếp
thị, quảng cáo, xúc tiến, bán hàng và thanh toán qua mạng.
1.3.
Các loại hình giao dịch Thương mại điện tử
Trong TMĐT có ba chủ thể tham gia: Doanh nghiệp (B) giữ vai trò động lực
phát triển TMĐT, người tiêu dùng (C) giữ vai trò quyết định sự thành công của
TMĐT và chính phủ (G) giữ vai trò định hướng, điều tiết và quản lý. Từ các mối
quan hệ giữa các chủ thể trên ta có các loại giao dịch TMĐT: B2B, B2C, B2G,
C2G, C2C... Sau đây là các loại hình giao dịch Thương mại điện tử:
2. Bảng 1.1 Các loại hình giao dịch Thương mại điện tử
Chủ thể
Doanh nghiệp
(Business)
Doanh nghiệp
Khách hàng
Chính phủ
(Business)
(Customer)
(Government)
B2B thông qua
Internet,
B2C bán hàng qua
mạng
B2G thuế thu nhập
và thuế doanh thu
C2B bỏ thầu
C2C đấu giá trên
Ebay
C2G thuế thu nhập
G2B mua sắm
công cộng
G2C quỹ hỗ trợ trẻ
em, sinh viên, học
sinh
G2G giao dịch
giữa các cơ quan
chính phủ
Extranet, EDI
Khách hàng
(Customer)
Chính phủ
(Government)
11
Trong các loại hình giao dịch TMĐT trên thì 2 loại hình: B2B và B2C là 2
loại hình quan trọng nhất:
B2B (Business To Business): Là mô hình TMĐT giữa các doanh nghiệp với
doanh nghiệp.
B2C (Business To Customer): Là mô hình TMĐT giữa doanh nghiệp và
người tiêu dùng.
Cả hai hình thức thươnng mại điện tử này đều được thực hiện trực tuyến trên
mạng Internet. Tuy nhiên, giữa chúng tồn tại sự khác biệt. Trong khi Thương mại
điện tử B2B được coi là hình thức kinh doanh bán buôn với lượng khách hàng là
các doanh nghiệp, các nhà sản xuất thì thương mại điện tử B2C lại là hình thức kinh
doanh bán lẻ với đối tượng khách hàng là các cá nhân.
Trên thế giới, xu hướng thương mại điện tử B2B chiếm ưu thế vượt trội so
với B2C trong việc lựa chọn chiến lược phát triển của các công ty kinh doanh trực
tuyến.
Trong thương mại điện tử B2B, việc giao dịch giữa một doanh nghiệp với
một doanh nghiệp khác thường bao gồm nhiều công đoạn: từ việc chào bán sản
phẩm, mô tả đặc tính kỹ thuật của sản phẩm cho đến đàm phán giá cả, điều kiện
giao hàng, phương thức thanh toán...Chính vì vậy mà các giao dịch này được coi là
phức tạp hơn so với bán hàng cho người tiêu dùng. Thương mại điện tử B2B được
coi như là một kiểu “phòng giao dịch ảo”, nơi sẽ thực hiện việc mua bán trực tuyến
giữa các công ty với nhau, hoặc có thể gọi là phòng giao dịch mà tại đó các doanh
nghiệp có thể mua bán hàng hóa trên cơ sở sử dụng một nền công nghệ chung. Khi
tham gia vào sàn giao dịch này, khách hàng có cơ hội nhận được những giá trị gia
tăng như dịch vụ thanh toán hay dịch vụ hậu mãi, dịch vụ cung cấp thông tin về các
lĩnh vực kinh doanh, các chương trình thảo luận trực tuyến và cung cấp kết quả
nghiên cứu về nhu cầu của khách hàng cũng như các dự báo công nghiệp đối với
từng mặt hàng cụ thể.
1.4.
Các hình thức hoạt động chủ yếu của Thương mại điện tử
1.4.1. Thư điện tử
Các doanh nghiệp, các cơ quan Nhà nước,... sử dụng thư điện tử để gửi thư
cho nhau một cách “trực tuyến” thông qua mạng, gọi là thư điện tử (electronic
12
mail, viết tắt là e-mail). Thông tin trong thư điện tử không phải tuân theo một cấu
trúc định trước nào.
1.4.2. Thanh toán điện tử
Thanh toán điện tử là việc thanh toán tiền thông qua các phương tiện điện tử.
Ví dụ: trả lương bằng cách chuyển tiền trực tiếp vào tài khoản, trả tiền mua hàng
bằng thẻ mua hàng, thẻ tín dụng. Ngày nay, với sự phát triển của TMĐT, thanh toán
điện tử đã mở rộng sang các lĩnh vực mới đó là:
- Trao đổi dữ liệu điện tử tài chính (Financial Electronic Data Interchange, gọi tắt là
FEDI).
- Tiền lẻ điện tử (Internet Cash).
- Ví điện tử (electronic purse).
- Giao dịch điện tử của ngân hàng (digital banking).
Trao đổi dữ liệu điện tử
Trao đổi dữ liệu điện tử (electronic data interchange, viết tắt là EDI) là việc
trao đổi các dữ liệu dưới dạng “có cấu trúc” (stuctured form), từ máy tính điện tử
này sang máy tính điện tử khác, giữa các công ty hoặc đơn vị đã thỏa thuận bán
buôn với nhau.
Theo Ủy ban liên hợp quốc về luật thương mại quốc tế (UNCITRAL), “Trao
đổi dữ liệu điện tử (EDI) là việc chuyển giao thông tin từ máy tính điện tử này sang
máy tính điện tử khác bằng phương tiện điện tử, có sử dụng một tiêu chuẩn đã được
thỏa thuận để cấu trúc thông tin”.
1.4.3. Truyền dung liệu
Dung liệu (Content) là nội dung của hàng hóa số, giá trị của nó không phải
trong vật mang tin mà nằm trong bản thân nội dung của nó. Hàng hóa có thể được
giao qua mạng thay vì trao đổi bằng cách đưa vào các băng đĩa, in thành văn bản...
Ngày nay, dung liệu được số hóa và truyền gửi theo mạng, gọi là “giao gửi số hóa”
(digital delivery).
1.4.4. Mua bán hàng hóa hữu hình
Đến nay, danh sách các hàng hóa bán lẻ qua mạng đã mở rộng, từ hoa đến
quần áo,... đã làm xuất hiện một loạt hoạt động gọi là “mua hàng điện tử” hay “mua
hàng qua mạng”. Ở một số nước, Internet đã trở thành công cụ để cạnh tranh bán lẻ
13
hàng hóa hữu hình. Tận dụng tính năng đa phương tiện của môi trường Web và
Java, người bán xây dựng trên mạng “các cửa hàng ảo”, gọi là ảo bởi vì cửa hàng có
thật nhưng ta chỉ xem toàn bộ quang cảnh cửa hàng và các hàng hóa chứa trong đó
trên từng trang màn hình một.
1.5.
Lợi ích của Thương mại điện tử
1.5.1. Thu thập được nhiều thông tin
TMĐT giúp người ta tham gia thu được nhiều thông tin về thị truờng, đối
tác, giảm chi phí tiếp thị và giao dịch, rút ngắn thời gian sản xuất, tạo dựng và củng
cố quan hệ bạn hàng. Các doanh nghiệp nắm được thông tin phong phú về kinh tế
thị trường, nhờ đó có thể xây dựng được chiến lược sản xuất và kinh doanh thích
hợp với xu thế phát triển của thị trường trong nước, khu vực và quốc tế. Điều này
đặc biệt có ý nghĩa đối với các doanh nghiệp vừa và nhỏ, hiện nay đang được nhiều
nước quan tâm, một trong những động lực phát triển kinh tế.
1.5.2. Giảm chi phí sản xuất
TMĐT giúp giảm chi phí sản xuất, trước hết là chi phí văn phòng. Các văn
phòng không giấy tờ (paperless office) chiếm diện tích nhỏ hơn rất nhiều, chi phí
tìm kiếm chuyển giao tài liệu giảm rất nhiều lần (trong đó khâu in ấn được bỏ hẳn).
Theo số liệu của hãng General Electricity của Mỹ, tiết kiệm theo hướng này đạt tới
30%. Điều quan trọng hơn, với góc độ chiến lược, là các nhân viên có năng lực
được giải phóng khỏi nhiều công đoạn sự vụ có thể tập trung vào nghiên cứu phát
triển, sẽ đưa đến những lợi ích to lớn lâu dài.
1.5.3. Giảm chi phí bán hàng, tiếp thị và giao dịch
TMĐT giúp giảm thấp chi bán hàng và chi phí tiếp thị. Bằng phương tiện
Internet/Web, một nhân viên bán hàng có thể giao dịch được với rất nhiều khách
hàng, catalogue điện tử (electronic catalogue) trên Web phong phú hơn nhiều và
thường xuyên cập nhật so với catalogue in ấn chỉ có khuôn khổ giới hạn và luôn
luôn lỗi thời. Theo số liệu của hãng máy bay Boeing của Mỹ, đã có tới 50% khách
hàng đặt mua 9% phụ tùng qua Internet (và nhiều các đơn hàng về lao vụ kỹ thuật),
và mỗi ngày giảm bán được 600 cuộc gọi điện thoại.
TMĐT qua Internet/Web giúp người tiêu thụ và các doanh nghiệp giảm đáng
kể thời gian và chi phí giao dịch (giao dịch được hiểu là từ quá trình quảng cáo, tiếp
xúc ban đầu, giao dịch đặt hàng, giao dịch thanh toán). Thời gian giao dịch qua
Internet chỉ bằng 7% thời gian giao dịch qua Fax, và bằng khoảng 0.5 phần nghìn
14
thời gian giao dịch qua bưu điện chuyển phát nhanh, chi phí thanh toán điện tử qua
Internet chỉ bằng từ 10% đến 20% chi phí thanh toán theo lối thông thường.
Tổng hợp tất cả các lợi ích trên, chu trình sản xuất (cycle time) được rút
ngắn, nhờ đó sản phẩm mới xuất hiện nhanh và hoàn thiện hơn.
1.5.4. Xây dựng quan hệ với đối tác
TMĐT tạo điều kiện cho việc thiết lập và củng cố mối quan hệ giữa các
thành viên tham gia vào quá trình thương mại: thông qua mạng (Internet/Web) các
thành viên tham gia (người tiêu thụ, doanh nghiệp, các cơ quan Chính phủ...) có thể
giao tiếp trực tiếp (liên lạc “ trực tuyến”) và liên tục với nhau, có cảm giác như
không có khoảng cách về địa lý và thời gian nữa; nhờ đó sự hợp tác và sự quản lý
đều được tiến hành nhanh chóng một cách liên tục: các bạn hàng mới, các cơ hội
kinh doanh mới được phát hiện nhanh chóng trên phạm vi toàn quốc, toàn khu vực,
toàn thế giới, và có nhiều cơ hội để lựa chọn hơn.
1.5.5. Tạo điều kiện sớm tiếp cận kinh tế tri thức
Trước hết, TMĐT sẽ kích thích sự phát triển của ngành công nghệ thông tin
tạo cơ sở cho sự phát triển kinh tế tri thức. Lợi ích này có một ý nghĩa lớn đối với
các nước đang phát triển: nếu không nhanh chóng tiếp cận nền kinh tế tri thức thì
sau khoảng một thập kỷ nữa, nước đang phát triển có thể bị bỏ rơi hoàn toàn. Khía
cạnh lợi ích này mang tính chiến lược công nghệ và tính chính sách phát triển cần
cho các nước công nghiệp hóa.
1.6.
Những trở ngại của việc tiếp cận Thương mại điện tử
Trong hầu hết các trường hợp, nếu có một hệ thống TMĐT sẽ mang lại nhiều
thuận lợi và lợi ích trong kinh doanh. Thế nhưng, tại sao nhiều doanh nghiệp vẫn
không tận dụng các tiến bộ kỹ thuật tuyệt vời của Internet và TMĐT? Đó chính là
một số rào cản hay nói cách khác đó chính là những khó khăn khi các doanh nghiệp
tiếp cận đến TMĐT:
Không thích thay đổi.
Thiếu hiểu biết về công nghệ.
Sự chuẩn bị đầu tư và chi phí.
Không có khả năng để bảo trì.
Thiếu sự phối hợp với các công ty vận chuyển.
15
Trong tất cả các lý do trên, “không thích thay đổi” là lý do phổ biến nhất
ngăn cản doanh nghiệp tham gia vào TMĐT, họ cảm thấy đơn giản hơn với những
gì họ đã làm. Ví dụ một chủ doanh nghiệp nhỏ, họ đã có nhiều năm thành công
trong công việc kinh của họ, rõ ràng họ không muốn chuyển đến một hệ thống
TMĐT vì nếu vậy họ phải có một thời gian khá dài để thích ứng với sự thay đổi này.
Đây là loại tư duy thường liên quan trực tiếp đến lý do “thiếu hiểu biết về công
nghệ” mà nhiều cá nhân ngày nay đang lo ngại bởi kỹ thuật - công nghệ cao và
cũng không thạo trong lĩnh vực công nghệ của doanh nghiệp. Vì vậy, điều lo sợ về
công nghệ (hoặc các khía cạnh của học tập mới của công nghệ) là một rào cản lớn
trong thị trường TMĐT. Ngoài ra, TMĐT sẽ luôn yêu cầu một đầu tư ngay từ ban
đầu để thiết lập một hệ thống. Bên cạnh đó, để nâng cao hệ thống TMĐT sẽ phải
duy trì qua thời gian và đây cũng chính là một rào cản. Vì vậy, để tiếp cận TMĐT,
các doanh nghiệp phải xem xét mọi tình huống trên cở sở cá nhân doanh nghiệp và
dự thảo một chiến lược để vượt qua những trở ngại đó.
16
CHƯƠNG 2: CÁC HỆ HỖ TRỢ RA QUYẾT ĐỊNH
Cùng với sự phát triển không ngừng của tin học ngày nay, các thiết bị phần
cứng ngày càng mạnh mẽ, khả năng lưu trữ dữ liệu khổng lồ. Sự phát triển của công
nghệ thông tin đã khác quá xa so với cách đây vài năm. Song song với sự phát triển
phần cứng, các chương trình phần mềm ngày càng phát triển, đặc biệt là các chương
trình quản trị CSDL như Oracle, SQL Server, … có thể lưu trữ, quản trị một lượng
dữ liệu khổng lồ. Chúng ta đang nắm giữ một lượng dữ liệu khổng lồ, nhưng chúng
ta lại rơi vào tình trạng “thừa dữ liệu nhưng thiếu thông tin và các tri thức có giá
trị”. Cuộc sống ngày càng phát triển dẫn đến con người có nhiều đòi hỏi hơn, nhất
là trong công nghệ thông tin thì việc chắt lọc các tri thức trong kho dữ liệu khổng lồ
càng trở lên quang trọng. Chính vì vậy, vấn đề đặt ra cho chúng la là làm thế nào
tìm hiểu, khám phá và chắt lọc ra các thông tin tri thức ý quan trọng trong kho dữ
liệu khổng lồ kia. Đây chính là nguyên nhân để khai phá dữ liệu (data mining) ra
đời và đánh dấu một kỉ nguyên mới cho công nghệ thông tin, thúc đẩy sự phát triển
của các phương pháp cùng thuật toán khác nhau, giải quyết các bài toán về quản lý
dữ liệu.
Hiện nay, khai phá dữ liệu đã không còn xa lạ đối với chúng ta nữa. Khai phá
dữ liệu được nói đến trên sách báo, trong các cuộc hội thảo, các ứng dụng công
nghệ thông tin, người ta nhắc đến rất nhiều. Khai phá dữ liệu (data mining) được
ứng dụng và triển khai rộng rãi trong các lĩnh vực công nghệ thông tin và các hoạt
động kinh doanh. Trong đó hệ ra quyết định là một phần trong khai phá dữ liệu,
giúp tìm kiếm các thông tin có ích, cùng các “quy luật”, các “hành vi” của những
đối tượng nào đó và thậm trí có thể “đoán trước tương lai”. Vậy khai phá dữ liệu là
gì? Hệ hỗ trợ ra quyết định là gì? Và ứng dụng của nó trong công nghệ thông tin và
các hoạt động kinh doanh?
2.1.
Khai phá dữ liệu là gì?
2.1.1. Khái niệm
Khai phá dữ liệu là một khái niệm ra đời vào những năn cuối của thập kỷ 80.
Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn
trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan
đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có
tính chính quy (regularities) trong tập dữ liệu.
17
Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát
hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ
toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai
phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc
biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu.
2.1.2. Ví dụ minh họa
Nợ
Để minh họa hoạt động
cũng như mẫu chiết xuất được của
Không cho vay
X
quá trình khai phá dữ liệu, trong
chương này chúng ta sẽ dùng chủ
X
X
yếu một ví dụ đơn giản như đã
X
Cho vay
X
cho trên Hình 2.2. Hình 2.2 mô tả
X
X
X
một tập dữ liệu hai chiều gồm có
X
X
23 điểm mẫu. Mỗi điểm biểu thị
cho một khách hàng đã vay ngân
Thu nhập
hàng. Trục hoành biểu thị cho thu
Hình 1: Phân lớp dữ liệu khách hàng
nhập, trục tung biểu thị cho tổng dư nợ của khách hàng. Dữ liệu khách hàng được
chia thành hai lớp: dấu x biểu thị cho khách hàng bị vỡ nợ, dấu o biểu thị cho khách
hàng có khả năng trả nợ. Tập dữ liệu này có thể chứa những thông tin có ích đối với
các tổ chức tín dụng trong việc ra quyết định có cho khách hàng vay nữa không. Ví
dụ như ta có mẫu “Nếu thu nhập < t đồng thì khách hàng vay sẽ bị vỡ nợ” như mô
tả trên Hình 2.2.
2.2.
Một số phương pháp khai thác dữ liệu phổ biến
Như đã phân tích ở trên, ta thấy khai phá dữ liệu không có gì mới mà hoàn
toàn dựa trên các phương pháp cơ bản đã biết. Vậy khai phá dữ liệu có gì khác so
với các phương pháp đó? Và tại sao khai phá dữ liệu lại có ưu thế hơn hẳn chúng?
Các phân tích sau đây sẽ giải đáp câu hỏi này.
2.2.1. Học máy (Machine Learning)
Mặc dù người ta đã cố gắng cải tiến các phương pháp học máy để có thể phù
hợp với mục đích khai phá dữ liệu nhưng sự khác biệt giữa cách thiết kế, các đặc
điểm của cơ sở dữ liệu đã làm cho phương pháp học máy trở nên không phù hợp
với mục đích này, mặc dù cho đến nay, phần lớn các phương pháp khai phá dữ liệu
vẫn đựa trên nền tảng cơ sở của phương pháp học máy. Những phân tích sau đây sẽ
cho thấy điều đó.
18
Trong quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp được tích hợp
một cách logic của dữ liệu được lưu trong một hay nhiều tệp và được tổ chức để lưu
trữ có hiệu quả, sửa đổi và lấy thông tin liên quan được dễ dàng. Ví dụ như trong cơ
sở dữ liệu quan hệ, dữ liệu được tổ chức thành các tệp hoặc các bảng có các bản ghi
có độ dài cố định. Mỗi bản ghi là một danh sách có thứ tự các giá trị, mỗi giá trị
được đặt vào một trường. Thông tin về tên trường và giá trị của trường được đặt
trong một tệp riêng gọi là thư viện dữ liệu (data dictionary). Một hệ thống quản trị
cơ sở dữ liệu sẽ quản lý các thủ tục (procedures) để lấy, lưu trữ, và xử lý dữ liệu
trong các cơ sở dữ liệu đó.
Trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập đến một tập các mẫu
(instance hay example) được lưu trong một tệp. Các mẫu thường là các vector đặc
điểm có độ dài cố định. Thông tin về các tên đặc điểm, dãy giá trị của chúng đôi khi
cũng được lưu lại như trong từ điển dữ liệu. Một giải thuật học còn sử dụng tập dữ
liệu và các thông tin kèm theo tập dữ liệu đó làm đầu vào và đầu ra biểu thị kết quả
của việc học (ví dụ như một khái niệm).
Với so sánh cơ sở dữ liệu thông thường và CSDL trong học máy như trên, có
thể thấy là học máy có khả năng được áp dụng cho cơ sở dữ liệu, bởi vì không phải
học trên tập các mẫu mà học trên tệp các bản ghi của cơ sở dữ liệu.
Tuy nhiên, phát hiện tri thức trong cơ sở dữ liệu làm tăng thêm các vấn đề
vốn đã là điển hình trong học máy và đã quá khả năng của học máy. Trong thực tế,
cơ sở dữ liệu thường động, không đầy đủ, bị nhiễu, và lớn hơn nhiều so với các tập
dữ liệu học máy điển hình. Các yếu tố này làm cho hầu hết các giải thuật học máy
trở nên không hiệu quả trong hầu hết các trường hợp. Vì vậy trong khai phá dữ liệu,
cần tập trung rất nhiều công sức vào việc vượt qua những khó khăn, phức tạp này
trong CSDL.
2.2.2. Phương pháp hệ chuyên gia
Các hệ chuyên gia cố gắng nắm bắt các tri thức thích hợp với một bài toán
nào đó. Các kỹ thuật thu thập giúp cho việc lấy tri thức từ các chuyên gia con
người. Mỗi phương pháp đó là một cách suy diễn các luật từ các ví dụ và giải pháp
đối với bài toán chuyên gia đưa ra. Phương pháp này khác với khai phá dữ liệu ở
chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn rất nhiều so với các
dữ liệu trong cơ sở dữ liệu, và chúng thường chỉ bao được các trường hợp quan
trọng. Hơn nữa, các chuyên gia sẽ xác nhận tính giá trị và hữu dụng của các mẫu
19
phát hiện được. Cũng như với các c6ng cụ quản trị cơ sở dữ liệu, ở các phương
pháp này đòi hỏi có sự tham gia của con người trong việc phát hiện tri thức.
2.2.3. Phát kiến khoa học
Khai phá dữ liệu rất khác với phát kiến khoa học ở chỗ những khai phá trong
cơ sở dữ liệu ít có chủ tâm và có điều khiển hơn. Các dữ liệu khoa học có từ thực
nghiệm nhằm loại bỏ tác động của một số tham số để nhấn mạnh độ biến thiên của
một hay một số tham số đích. Tuy nhiên, các cơ sở dữ liệu thương mại điển hình lại
ghi một số lượng thừa thông tin về các dự án của họ để đạt được một số mục đích
về mặt tổ chức. Độ dư thừa này (hay có thể gọi là sự lẫn lộn – confusion) có thể
nhìn thấy và cũng có thể ẩn chứa trong các mối quan hệ dữ liệu. Hơn nữa, các nhà
khoa học có thể tạo lại các thí nghiệm và có thể tìm ra rằng các thiết kế ban đầu
không thích hợp. Trong khi đó, các nhà quản lý cơ sở dữ liệu hầu như không thể xa
xỉ đi thiết kế lại các trường dữ liệu và thu thập lại dữ liệu.
2.2.4. Phương pháp thống kê
Một câu hỏi hiển nhiên là khai phá dữ liệu khác gì so với phương pháp thống
kê. Từ nhiều năm nay, con người đã sử dụng phương pháp thống kê một cách rất
hiệu quả để đạt được những mục đích của mình.
Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết vững
chắc cho các bài toàn phân tích dữ liệu nhưng chỉ có tiếp cận thống kê thuần túy
thôi chưa đủ. Thứ nhất, các phương pháp thống kê chuẩn không phù hợp đối với
các kiểu dữ liệu có cấu trúc trong rất nhiều các cơ sở dữ liệu. Thứ hai, thống kê
hoàn toàn theo dữ liệu (data driven), nó không sử dụng tri thức sẵn có về lĩnh vực.
Thứ ba, các kết quả phân tích thống kê có thể sẽ rất nhiều và khó có thể làm rõ
được. Cuối cùng, các phương pháp thống kê cần có sự hướng dẫn của người dùng
để xác định phân tích dữ liệu như thế nào và ở đâu.
Sự khác nhau cơ bản giữa khai phá dữ liệu và thống kê là ở chỗ khai phá dữ
liệu là một phương tiện được dùng bởi người sử dụng đầu cuối chứ không phải là
các nhà thống kê. Khai phá dữ liệu tự động quá trình thống kê một cách có hiệu quả,
vì vậy làm nhẹ bớt công việc của người dùng đầu cuối, tạo ra một công cụ dễ sử
dụng hơn. Như vậy, nhờ có khai phá dữ liệu, việc dự đoán và kiểm tra rất vất vả
trước đây có thể được đưa lên máy tính, được tính, dự đoán và kiểm tra một cách tự
động.
20
2.3.
Tình hình ứng dụng khai phá dữ liệu.
Mặc dù còn rất nhiều vấn đề mà khai phá dữ liệu cần phải tiếp tục nghiên
cứu để giải quyết nhưng tiềm năng của nó đã được khẳng định bằng sự ra đời của
rất nhiều ứng dụng.
Khai phá dữ liệu được ứng dụng rất thành công trong “cơ sở dữ liệu thị
trường” (database marketing), đây là một phương pháp phân tích cơ sở dữ liệu
khách hàng, tìm kiếm các mẫu trong số các khách hàng và sử dụng các mẫu này để
lựa chọn các khách hàng trong tương lai. Tạp chí Business Week của Mỹ đã đánh
giá hơn 50% các nhà bán lẻ đang và có ý định sử dụng “cơ sở dữ liệu thị trường”
cho hoạt động kinh doanh của họ (Berry 1994). Kết quả ứng dụng cho thấy số
lượng thẻ tín dụng American Express bán ra đã tăng 15% - 20% (Berry 1994). Các
ứng dụng khác của khai phá dữ liệu trong kinh doanh như phân tích chứng khoán và
các văn kiện tài chính; phân tích và báo cáo những thay đổi trong dữ liệu, bao gồm
Coverstory của IRI (Schmitz, Armstrong, & Little 1990), Spotlight của A.C Nielsen
(nand & Kahn 1992) đối với các dữ liệu bán hàng trong siêu thị, KEFIR của GTE
cho cơ sở dữ liệu y tế (Matheus, Piatetsky-Shapiro, & McNeil); phát hiện và phòng
chống gian lận cũng thường là bài toán của khai phá dữ liệu và phát hiện tri thức. Ví
dụ như hệ thống phát hiện gian lận trong dịch vụ y tế đã được Major và Riedinger
phát triển tại Travelers insurance năm 1992. Internal Revenue Service đã phát triển
một hệ thống chọn thuế thu để kiểm toán. Nestor FDS (Blanchard 1994) được phát
triển dựa trên mạng neuron để phát hiện ra gian lận trong thẻ tín dụng.
Các ứng dụng của khai phá dữ liệu trong khoa học cũng được phát triển. Ta
có thể đưa ra một số ứng dụng trong khoa học như:
Thiên văn học: Hệ thống SKICAT do JPL/Caltech phát triển được sử
dụng cho các nhà thiên văn để tự động xác định các vì sao và các dải
thiên hà trong một bản khảo sát lớn để có thể phân tích và phân loại
(Fayyad, Djorgovski, & Weir).
Phân tử sinh học: Hệ thống tìm kiếm các mẫu trong cấu trúc phân tử
(Conklin, Fortier, và Glasgow 1993) và trong các dữ liệu gen (Holder,
Cook, và Djoko 1994).
Mô hình hóa những thay đổi thời tiết: các mẫu không thời gian như lốc,
gió xoáy được tự động tìm thấy trong các tập lớn dữ liệu mô phỏng và
quan sát được (Stolorz et al. 1994).
21
1.1.
Hệ hỗ trợ ra quyết định.
1.1.1. Khái niệm.
Trong thập niên 1970, Scott Morton đưa ra khái niệm đầu tiên về Hệ hỗ trợ
ra quyết định (Decision Support Systems - DSS). Ông định nghĩa DSS
như là những hệ thống máy tính tương tác nhằm giúp những người ra quyết
định sử dụng dữ liệu và mô hình để giải quyết các vấn đề không có cấu trúc.
Hệ Hỗ Trợ Quyết Định - HHTQĐ là các hệ dựa trên máy tính, có tính
tương tác, giúp các nhà ra quyết định dùng dữ liệu và mô hình để giải quyết
các
bài
toán
phi
cấu
trúc
(S.
Morton,
1971)
HHTQĐ kết hợp trí lực của con người với năng lực của máy tính để cải
tiến chất lượng của quyết định. Đây là các hệ dựa vào máy tính hỗ trợ cho
người ra quyết định giải các bài toán nửa cấu trúc (Keen and Scott Morton,
1978) . HHTQĐ là tập các thủ tục dựa trên mô hình nhằm xử lý dữ liệu và phán
đoán của con người để giúp nhà quản lý ra quyết định (Little, 1970).
1.1.2. Các thành phần của Hệ hỗ trợ ra quyết định.
Một hệ hỗ trợ ra quyết định gồm có bốn thành phần chính:
- Phân hệ Quản lý dữ liệu.
- Phân hệ Quản lý mô hình.
- Phân hệ Quản lý dựa vào kiến thức.
- Phân hệ Quản lý giao diện người dùng.
Tuy nhiên không phải hệ hỗ trợ ra quyết định nào cũng có đầy đủ những
thành phần trên.
22
CHƯƠNG 3. CÁC THUẬT TOÁN HỖ TRỢ RA QUYẾT ĐỊNH
3.1. Tập phổ biến và thuật toán Apriori.
3.1.1. Định nghĩa về tập phổ biến.
Mẫu phổ biến là các mẫu ( như là các tập item, sự đến sau và các cấu trúc bên
dưới) mà xuất hiện trong một tập dữ liệu một cách thương xuyên. Ví dụ, một tập các
item như là sữa và bánh mì.mà thường xuyên suất hiện cùng nhau trong một tập dữ
liệu thì ta gọi là một tập phổ biến. Một dãy tuần tự các hành vi, chẳng hạn như “mua
máy tính trước, sau đó là mua máy camera kỹ thuật số, rồi đến thẻ nhớ”, nếu điều
này thường gặp trong cơ sở dữ liệu của cửa hàng, thì nó là một dãy tuần tự phổ
biến. Một cấu trúc như Graph, Tree, lattices, hay có thể kết hợp với itemsets hay
subsequences. Nếu cấu trúc đó xuất hiện thường xuyên, nó được gọi là mẫu cấu trúc
phổ biến. Tìm kiếm những mẩu phổ biến như vậy đóng vai trò rất quan trọng trong
việc khai thác các luật kết hợp, các mối tượng quan và nhiều quan hệ thú vị khác từ
cơ sở dữ liệu. Hơn thế nữa, nó còn giúp giải quyết các bài toán như phân loại, phân
nhóm và nhiều bài toán khác. Chính vì vậy, khai thác mẫu phổ biến hiện nay là một
bài toán rất quan trọng trong lĩnh vực Data Mining và là một chủ đề đáng quan tâm
khi nghiên cứu về Data Mining.
3.1.2. Luật kết hợp.
Cho I = {I1, I2,….,Im} là một tập các items. Cho D là bộ dữ liệu có liên quan
đến bài toán, và là một tập trong CSDL giao dịch. Mỗi giao dịch T là một tập các
items và TI. Mỗi giao dịch có một định danh, được gọi là TID. Cho A là tập các
items. Một giao dịch T được gọi là chứa A khi và chỉ khi A T.
Một luật kết hợp có dạng A=>B, với A I, B I và A B = Ø. Luật A=>B ngầm
chứa trong D với độ đo support s, trong đó s là tỷ lệ các giao dịch trong D chứa A
B, được diễn tả bằng xác suất P(A B). Luật A=>B có độ đo confidence c trong tập
D, thì c là tỷ lệ giữa các giao dịch trong D chứa A thì chứa luôn B, được diễn tả
bằng xác suất P(B | A). nghĩa là:
support (A=>B) = P( A B)
confidence (A=>b) = P( B|A ).
(3.2)
(3.3)
Những luật thỏa mãn cả hai ngưỡng min_sup và min_conf được gọi là mạnh.
Chúng ta qui ước, chúng ta viết độ đo giữa 0% và 100% thay vì 0 đến 1.0.
23
Một tập các items được gọi là itemset. Một itemset chứa k items được gọi là
k-itemset. Chẳng hạn tập {computer, antivirus_software} là 2-itemset. Độ phổ biến
của một itemset là số lượng các giao dịch có chứa itemset. Thường được biết với
các tên là support count, hay count của itemset
Nếu độ đo support count của một itemset I thỏa ngưỡng min_sup cho trước
thì I là một tập phổ biến. Một tập phổ biến gồm k-items được ký hiệu là .
Từ (3.3), ta có:
confidence( A B ) P ( B | A)
supp ort ( A �B ) sup port _ count ( A �B )
.
sup port ( A)
sup port _ count ( A)
(3.4)
Phương trình (3.4) chứng tỏ rằng độ đo confidence của luật A=>B có thể thu
được từ độ đo support count của A và của A B. Do đó, một khi độ đo support
counts của A,B và A B được tìm thấy, ta có thể kiểm tra 2 luật kết hợp A=>B và
B=>A xem chúng có mạnh hay không. Như vậy, vấn đề khai thác các luật kết hợp
có thể chuyển về bài toán khai thác các tập phổ biến.
3.1.3. Thuật toán: Apriori.
Thuật toán: Apriori. Tìm các tập item phổ biến bằng cách sử dụng một cách
tiếp cận level-wise lặp đi lặp lại dựa trên sự phát sinh ứng viên.
Input:
D, cơ sở dữ liệu của các giao tác;
min_sup, ngưỡng độ hỗ trợ tối thiểu.
Output: L, các tập item phổ biến trong D.
Method:
(1) L1 = find_frequent_1-itemsets(D);
(2) for (k = 2;Lk-1 0;k++)
(3)
Ck = apriori_gen(Lk-1);
(4)
for each giao tác t D // quét D để đếm
(5)
Ct = subset(Ck, t); // lấy các tập con của t mà là các ứng viên
(6)
for each ứng viên c Ct
24
(7)
c.count++;
(8)
}
(9)
Lk = {c Ck|c.count min_sup}
(10) }
(11) return L = kLk;
procedure apriori_gen(Lk-1:tập (k-1) item phổ biến)
(1) for each tập item l1 Lk-1
(2)
for each tập item l2 Lk-1
(3)
if (l1[1] = l2[1]) (l1[2] = l2[2]) … (l1[k-2] = l2[k-2]) (l1[k-1] <
l2[k-1]) then {
(4)
c = l1 kết l2; // bước kết: phát sinh các ứng viên
(5)
if has_infrequent_subset(c, Lk-1) then
(6)
delete c; // bước xén tỉa: loại bỏ các ứng viên không đạt
(7)
else add c to Ck;
(8)
}
(9) return Ck;
procedure has_infrequent_subset(c: ứng viên tập k item;
Lk-1: các tập (k-1) item phổ biến); // sử dụng kiến thức trước
(1) for each tập con (k-1) s of c
(2)
if s Lk-1 then
(3)
return TRUE;
(4) return FALSE;
Figure 3.4 Thuật toán Apriori để khám phá các tập item phổ biến để khai thác
các luật kết hợp kiểu Boolean.
Chẳn hạn với I= {A1,A2,A5},các tập con của I:
25