Tải bản đầy đủ (.pdf) (11 trang)

XÂY DỰNG CÔNG CỤ HỖ TRỢ TƯ VẤN MUA HÀNG QUA MẠNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (641.94 KB, 11 trang )



XÂY DỰNG CÔNG CỤ
HỖ TRỢ TƯ VẤN MUA HÀNG QUA MẠNG
CAO THÁI PHƯƠNG THANH
(
*
)

TRẦN ĐÌNH NGHĨA
(
**
)

NGUYỄN QUỐC HUY
(
***
)

TÓM TẮT
Với sự phát triển cực kì nhanh chóng của thương mại điện tử, thế giới đang dần trở thành một
siêu thị toàn cầu. Hiện đã có một số ứng dụng đã được phát triển nhằm mục tiêu hỗ trợ
thương mại điện tử và chúng được gọi là các Hệ tư vấn (Recommender systems). Các Hệ tư
vấn được xây dựng dựa trên một số kĩ thuật khác nhau và đều có những ưu và khuyết điểm
riêng. Bài này đưa ra một phương pháp mới nhằm cải tiến khả năng tư vấn và tạo sự ứng
dụng rộng rãi cho các hệ tư vấn. Phương pháp mới thực hiện được các tư vấn với thời gian
hồi đáp gần như ngay lập tức, mức độ quan trọng của mỗi sản phẩm cũng được xem xét đến.
ABSTRACT
The strong growth of e-commerce makes the world nowadays become a global supermarket.
At present, many programs which are developed to support e-commerce, are called the
Recommender systems. They are based on various techniques but have some advantages and


disadvantages. This paper proposes a new method that can improve recommendation
capabilities and make recommender systems become widely applicable to many
recommendation systems. This new method can make recommendations and give feedback
immediately including the recommendations on the importance of each product.
1. GIỚI THIỆU
Hoạt động kinh doanh, thương mại dựa trên các ứng dụng Internet được định nghĩa theo nhiều
thuật ngữ khác nhau nhưng thương mại điện tử (e-commerce) và kinh doanh điện tử (e-
business) là những thuật ngữ thường được dùng nhiều nhất. Thương mại điện tử là thuật ngữ
mô tả quá trình mua, bán, trao đổi hàng hoá, dịch vụ và thông tin được thực hiện thông qua
các mạng máy tính, bao gồm cả mạng Internet. Mỗi hoạt động tuân theo định nghĩa này còn
được gọi là một giao dịch điện tử.
Hầu hết những người tiêu dùng đã sử dụng Amazon.com hay các Web site thương mại điện tử
lớn khác đều đã có nhận được những lời khuyên về một quyển sách, CD nhạc, DVD, hay các
vấn đề về y phục họ có thể muốn mua sắm. Đây là nhiệm vụ của một dạng công cụ, được gọi
là hệ tư vấn, được phát triển nhằm hỗ trợ thương mại điện tử.
Ban đầu, các hệ tư vấn còn tương đối thô thiển. Nó chỉ đơn giản tư vấn các sản phẩm có vẻ
giống như các sản phẩm khác do người mua đã mua sắm trước đó. Tuy nhiên, chúng đã trở
nên tinh vi hơn nhiều và hiện nay nó đã là một phần thiết yếu của nhiều mô hình kinh tế bán
lẻ trực tuyến.
Các hệ tư vấn sử dụng các thuật toán phức tạp nhằm phân tích một số lượng lớn dữ liệu và
xác định những sản phẩm có tiềm năng được người tiêu dùng muốn mua sắm dựa trên những
sở thích đã được ghi nhận của họ, những chọn lựa mua sắm trực tuyến, và các lần mua sắm
của những người có thị hiếu hay đặc trưng sử dụng tương tự. Điều này tạo ra những cơ hội thu
lợi mới và làm tăng cường về cả việc duy trì khách hàng lẫn về số lượng người mua sắm sẽ
thực sự mua hàng.


(
*
)

,
(
**
)
,
(
***
)
ThS, Khoa Công Nghệ Thông Tin, Trường Đại học Sài Gòn.



Bên cạnh những thành công và lợi ích do các hệ tư vấn đem lại cho thương mại điện tử, một
số hạn chế vẫn còn tồn tại do bản chất các kĩ thuật được sử dụng bên trong các hệ tư vấn. Bài
này đề xuất một phương pháp sử dụng kĩ thuật luật kết hợp và kĩ thuật lập chỉ mục, nhằm xây
dựng một công cụ hỗ trợ cho các web site thương mại điện tử về mặt tư vấn sản phẩm mua
sắm cho khách hàng.
2. CÁC CÔNG CỤ TRỢ GIÚP CHO THƯƠNG MẠI ĐIỆN TỬ
Với người tiêu dùng mua sắm trực tuyến hiện nay, thông tin cần thiết về sản phẩm không chỉ
đơn thuần là giá cả, cách thức chi trả, mà họ còn cần nhiều thông tin liên quan khác đến sản
phẩm định mua, ví dụ: những sản phẩm phụ trợ hay liên quan mật thiết đến những sản phẩm
đã chọn mua cũng là thông tin rất cần thiết. Tuy nhiên, số lượng thông tin quá nhiều cũng
đồng nghĩa với khả năng có thể gây bối rối trong chọn lựa của người dùng. Trong cuộc sống
hàng ngày, mọi người thường dựa vào những thông tin không đầy đủ khi quyết định mình nên
đọc những quyển sách nào, xem những phim nào hay mua những đĩa nhạc nào. Khi gặp phải
một số chọn lựa vốn không quen thuộc, con người thường có khuynh hướng tìm lời khuyên từ
bạn bè hay từ các tạp chí chuyên môn trước khi ra quyết định.
Trong vài năm gần đây, với sự phát triển của công nghệ thông tin, các hệ thống tư vấn trực
tuyến đã được xây dựng và triển khai nhằm phục vụ cho thương mại điện tử với mục tiêu đề
xuất lời khuyên cho khách hàng. Các hệ thống tư vấn đã trở nên ngày càng phổ biến trên web,

cả trong các hệ thống nghiên cứu (GroupLens, MoviesLens) lẫn các site thương mại trực
tuyến (Amazon.com, CDNow.com) nhằm đề xuất cho khách hàng những sản phẩm có thể họ
muốn mua.
Các hệ thống tư vấn được sử dụng bởi các site thương mại điện tử hoạt động theo nguyên tắc
sản phẩm được đề xuất có thể được dựa trên những mặt hàng bán chạy nhất, theo thông tin về
đặc trưng người dùng của khách hàng, hay dựa trên sự phân tích hành vi mua sắm trước đây
của khách hàng. Việc tư vấn bao gồm những hình thức như: đề nghị sản phẩm cho khách
hàng, cung cấp những thông tin sản phẩm riêng biệt, tóm lược các ý kiến đánh giá, và cung
cấp những lời phê bình tổng thể.
Các hệ thống tư vấn được triển khai sử dụng nhiều kĩ thuật khác nhau và được phân loại theo
nhiều cách thức. Sự phân loại dưới đây dựa trên cách thức tạo ra các tư vấn:
Các hệ thống dựa trên nội dung tư vấn các sản phẩm tương tự với các sản phẩm đã được
khách hàng ưu thích trước đây. Những hệ thống dạng này thu thập thông tin về sở thích của
khách hàng thông qua các bản câu hỏi hay thông qua tiểu sử mua sắm được lưu trữ trong cơ
sở dữ liệu. Các hệ thống này gặp phải những giới hạn sau:
 Phân tích nội dung bị giới hạn: Do các đặc tính được kết hợp tường minh với các đối tượng
được các hệ thống này tư vấn. Do đó, để có đủ các đặc tính, nội dung hoặc phải tuân theo một
dạng thức có thể thực hiện phân tích cú pháp một cách tự động bởi máy tính (ví dụ, văn bản)
hoặc các đặc tính phải được ấn định thủ công cho các đối tượng và rất khó có thể áp dụng cho
dữ liệu đa truyền thông.
 Quá chuyên biệt: Khi hệ thống chỉ có thể tư vấn các sản phẩm có điểm cao đối với đặc
trưng sử dụng của khách hàng, khách hàng sẽ bị tư vấn giới hạn bởi các sản phẩm có độ tương
tự với các sản phẩm do mình đánh giá, nghĩa là, bị sa vào “lối mòn” trong việc tư vấn. Trong
trường hợp nào đó, các sản phẩm không nên được tư vấn nếu chúng quá tương tự với những
sản phẩm khách hàng đã từng biết qua, như bài báo có tin tức khác mô tả cùng một sự kiện.
 Vấn đề khách hàng mới: Khách hàng phải đánh giá đủ số lượng sản phẩm trước khi một hệ
thống tư vấn dựa trên nội dung có thể thực sự hiểu về sở thích của mình và giới thiệu cho
mình những tư vấn có thể tin cậy. Theo đó, một khách hàng mới, có quá ít các đánh giá, sẽ
không có khả năng được tư vấn chính xác những gì mình mong muốn.
Các hệ thống dựa trên cộng tác cung cấp các tư vấn vốn được xuất phát từ sở thích mua sắm

của các khách hàng có cùng sở thích hay đặc trưng sử dụng, dựa trên việc trả lời các bản câu
hỏi hay các tiểu sử sử dụng được ghi nhận từ các hoạt động trực tuyến của khách hàng. Kĩ
thuật được các hệ thống loại này sử dụng được phân thành hai loại: dựa trên bộ nhớ và dựa


trên mô hình. Tuy khắc phục được những hạn chế của các hệ thống dựa trên nội dung, các hệ
thống dựa trên cộng tác vẫn tồn tại những hạn chế sau:
 Vấn đề khách hàng mới: Giống với các hệ thống dựa trên nội dung.
 Vấn đề sản phẩm mới: Các sản phẩm mới được thêm vào các hệ thống tư vấn rất thường
xuyên. Các hệ thống cộng tác chỉ đơn độc dựa trên các sở thích của khách hàng để tạo ra các
tư vấn. Do đó, cho đến khi nào sản phẩm mới được đánh giá bởi một lượng khách hàng đáng
kể thì hệ thống tư vấn mới có khả năng tư vấn nó.
 Mật độ đánh giá trên từng sản phẩm quá thưa (Sparsity): Trong bất kì hệ thống tư vấn nào,
số lượng các đánh giá thu được thường rất nhỏ so với số lượng các đánh giá cần thiết cho dự
đoán. Dự đoán hiệu quả các đánh giá từ một tập ví dụ nhỏ là vấn đề rất quan trọng. Vấn đề
này đã được khắc phục phần nào. [2]
Các mô hình lai ghép có thể kết hợp các phần tách biệt của các mô hình cộng tác và dựa trên
nội dung.
Theo những hạn chế đã trình bày của các hệ tư vấn hiện nay, ta có thể thấy rõ rằng, những kĩ
thuật tư vấn hiện nay chỉ có thể đáp ứng rất ít và chưa thực sự tốt cho nhu cầu cần được tư vấn
của khách hàng. Do các tư vấn được đề xuất thông qua các kĩ thuật tư vấn trên xuất phát từ
các đánh giá của khách hàng trên mỗi sản phẩm chọn mua nên nó chắc chắn luôn phải gánh
chịu những hạn chế từ: 1) khách hàng mới 2) sản phẩm mới 3) việc lưu trữ đặc trưng sử dụng
của khách hàng dựa trên các lần mua sắm của họ sẽ dễ dàng dẫn đến những tư vấn có khả
năng mâu thuẫn và 4) không thể phản ánh chính xác xu hướng mua sắm của các khách hàng
tại thời điểm hiện tại.
Về bản chất, một tư vấn có dạng như: “Khách hàng mua sản phẩm A thì thường cũng mua các
sản phẩm B, C, … sau đó”. Đây chính là một dạng luật kết hợp [4]. Không những thế, với một
luật kết hợp cụ thể A  B [supp,conf] ta còn biết được mức độ liên quan giữa các sản phẩm
được đề xuất nhằm lọc bỏ những sản phẩm có mức độ liên quan không cao.

Ngoài ra, hầu hết các phương pháp đều không lưu tâm hoặc quan tâm chưa đúng mức đến số
lần một sản phẩm xuất hiện trong một giao tác. Đương nhiên việc chỉ cần lấy tổng số lần xuất
hiện của một sản phẩm là đủ để đánh giá tầm quan trọng của nó là không hoàn toàn đúng.
3. ĐỀ XUẤT CÔNG CỤ
Từ ứng dụng đầu tiên của luật kết hợp dùng cho phân tích dữ liệu mua hàng hay bán hàng
trong siêu thị, đã có nhiều nghiên cứu nhằm cải tiến nhiều khía cạnh khác nhau. Tuy nhiên,
nếu chỉ đơn thuần áp dụng kĩ thuật luật kết hợp truyền thống hay các biến thể của nó vào vấn
đề tư vấn sản phẩm cho thương mại điện tử, ta sẽ gặp phải những hạn chế như sau:
 Đọc cơ sở dữ liệu nhiều lần
 Dễ phát sinh các luật khó hiểu và suy biến
 Kĩ thuật lược bỏ không còn thích hợp
 Không xem xét đến mức độ quan trọng về sự xuất hiện của từng sản phẩm hoặc quan tâm
chưa đúng mức [2,10].
 Không có khả năng hỗ trợ cập nhật bộ luật linh động theo từng thay đổi của cơ sở dữ liệu.
Điều này nhằm đảm bảo được tính đúng đắn cũng như khả năng phản ánh được chính xác xu
hướng mua sắm hiện thời trong các luật kết hợp đã khai phá. Một số các nghiên cứu điển hình
về vấn đề này đã được thực hiện và có được những thành công đáng kể. Phương pháp được sử
dụng trong các nghiên cứu này chủ yếu là quét lại cơ sở dữ liệu để tìm ra những cập nhật vừa
được thực hiện trong một khoảng thời gian xác định nào đó. Bộ luật kết hợp đã khai phá được
điều chỉnh chỉ dựa trên những thay đổi này. Thực tế, phương pháp này không phù hợp với
một ứng dụng được triển khai trên Internet khi xét về mặt hiệu suất thi hành.
Khi thực hiện sự kết hợp giữa luật kết hợp với kĩ thuật lập chỉ mục cộng thêm một số cải tiến
ta hoàn toàn có thể nạp toàn bộ dữ liệu vào bộ nhớ nhằm khắc phục các vấn đề trên. Hơn nữa,
dựa trên đặc trưng của các thuật toán luật kết hợp, các tư vấn được đề xuất phản ánh được xu
hướng chung của toàn bộ dữ liệu, không hoàn toàn phụ thuộc vào đặc trưng sử dụng của một
nhóm người dùng riêng biệt hay các đánh giá sản phẩm của họ như các kĩ thuật trước đây.


Điều này cho thấy, phương pháp tư vấn mới được đề xuất có thể khắc phục được các hạn chế
về người dùng mới, lối mòn trong tư vấn,… Đồng thời, phương pháp mới vẫn tạo khả năng

cho khách hàng đánh giá các sản phẩm họ đã mua và sử dụng thông tin này cho việc ấn định
tầm quan trọng cho các sản phẩm.
3.1. Cơ chế hoạt động
Công cụ được đề xuất sẽ hoạt động theo nguyên tắc: sử dụng kĩ thuật lập chỉ mục Inverted
File từ Truy tìm Thông tin
cho cơ sở dữ liệu đầu vào
nhằm thực hiện lưu trữ trên
bộ nhớ chính và tạo khả năng
truy xuất nhanh nhất có thể.
Công cụ sau đó sẵn sàng
được sử dụng cho tìm tất cả
các luật kết hợp hay tư vấn
sản phẩm. Về chức năng tư
vấn sản phẩm, thực tế nó cố
gắng trả lời câu hỏi sau: giả
sử chúng ta có một cơ sở dữ
liệu chứa các giao tác hiện
có, và một khách hàng tạo
ra một giao tác mới. Những
giao tác nào gần đúng nhất với giao tác của khách hàng này, dựa trên các sản phẩm đã có
trong cơ sở dữ liệu của khách hàng?
3.2. Tổ chức lưu trữ
Nhằm tạo chỉ mục inverted file, trước tiên ta phải tạo ra bộ tự điển (lexicon) tương ứng cho
tập dữ liệu. Lexicon thực chất là một danh sách tất cả các item xuất hiện trong cơ sở dữ liệu.
Trong trường hợp này, lexicon đã sẵn có do chúng ta biết rất rõ tất cả các sản phẩm đang được
bán, và do đó không có cách nào mà một item không được chứa trong lexicon lại hiện hữu
trong cơ sở dữ liệu. Một chỉ mục inverted file cũng chứa tương ứng với mỗi item trong
lexicon một inverted list dùng lưu trữ một danh sách các con trỏ đến tất cả các xuất hiện của
item đó trong cơ sở dữ liệu cũng như số lần xuất hiện của nó.
ItemID

1
Count
Trans
1

Trans
k






ItemID
n
Count
Trans
i

Trans
j

Cơ sở dữ liệu
SERVER



Giao tác mới
Lập chỉ mục
Giao tác mới

Công cụ đề
xuất
Tư vấn sản phẩm





Giao tác
mới

Hình 1. Cơ chế hoạt động






















Bộ dữ liệu cho ví dụ minh họa được cho trong Bảng 1. Trước tiên, các sản phẩm sẽ được đọc
từ cơ sở dữ liệu và tạo ra Inverted File. Song song, bảng các giao tác sẽ được xây dựng. Các
mối liên kết giữa bảng giao tác với Inverted File ngay sau đó sẽ được thiết lập. Kết quả cuối
cùng của ví dụ được cho trong Hình 2.
3.3. Phương pháp đề xuất tư vấn dựa trên mức độ tương quan giữa các sản phẩm
Giả sử chúng ta có một công ti bán sản phẩm thông qua một web site nào đó trên Internet.
Khách hàng duyệt qua các sản phẩm và tại một thời điểm nào đó khách hàng chọn đưa sản
phẩm B vào giỏ hàng của mình. Bây giờ chúng ta muốn tìm tất cả các kết hợp của B với các
sản phẩm khác và giới thiệu cho khách hàng những sản phẩm thường xuyên nhất.
Thông thường người dùng chỉ quan tâm đến ba hay tối đa là bốn sản phẩm được đề nghị. Hầu
hết các web site đề xuất sản phẩm cho khách hàng của họ (ví dụ Amazon, Egghead, Ebay v.v)
cũng dừng lại ở mức đề nghị bốn sản phẩm. Nếu chúng ta giới thiệu cho khách hàng nhiều
hơn ba sản phẩm đóng vai trò đề nghị thì sẽ tạo ra sự lúng túng và quá tải thông tin hơn là sự
trợ giúp. Dĩ nhiên người dùng có quyền điều chỉnh hệ thống cho phù hợp với nhu cầu của
mình, và định ra số lượng sản phẩm sẽ được đề xuất cho khách hàng. Chủ định của bài này
cũng giới hạn số lượng cụ thể là bốn.
Chúng ta bắt đầu từ các sản phẩm đã có trong giỏ hàng. Dò tìm các sản phẩm này trong cấu
trúc Inverted File, ta sẽ xác định được các giao tác cùng chứa chúng. Từ các giao tác này ta sẽ
thu được các sản phẩm khác cùng xuất hiện với chúng. Sau đó chúng ta bắt đầu kết hợp các
sản phẩm và dừng lại khi chúng ta đã thu được bốn sản phẩm thường xuyên nhất. Các sản
phẩm được chọn tư vấn dựa trên khái niệm về hệ số tương liên. Hệ số tương liên là một phép
đo cho thấy mức độ liên hệ chặt chẽ giữa một số sản phẩm, và nó được định nghĩa như trong
Định nghĩa 1:
Định nghĩa 1 [hệ số tương liên]. Đặt I = {i
1
, i
2

, . . . , i
m
} là tập tất cả các item trong cơ sở dữ
liệu. Giả sử chúng ta có một tập các item T = {i
1
, i
2
, . . . , i
k
} tạo thành các sản phẩm được
mua bởi một khách hàng tại một thời điểm sao cho T  I, và sup(T) là độ hỗ trợ của sản phẩm
này. Hệ số tương liên giữa sản phẩm T với mỗi sản phẩm i
c
, xuất hiện trong cùng các giao tác
với T, được định nghĩa như là tỉ số giữa độ hỗ trợ của sản phẩm T chia cho độ hỗ trợ của sản
phẩm chúng ta xem xét trong toàn bộ cơ sở dữ liệu (biểu thị bởi suptotal(i
c
)):
 
 
 
ctotal
k
ck
i
iii
iiiicc
sup
,,,sup
,,,

21
21

 

CSDL D


Hình 2. Cấu trúc lưu trữ cho dữ liệu trong Bảng 1
TI
D
Sản
phẩm

100
A B E F

101
A E F G
T

102
A B C E

103
E G T

Bảng 1. Cơ sở
dữ liệu mẫu
chứa k giao

tác, với mỗi
dòng là 1 giao
tác



B
2

100
102



F
2

100
101



A
3

100
101
102



C
1

102




E
4

100
101
102
103

G
2

101
103



T
2

101
103




100
101
102
103

TRANS_TABLE
Inverted File


Giá trị càng cao của hệ số cho thấy mức độ quan hệ càng chặt chẽ giữa các sản phẩm được
xem xét.
GetRecommend
Input: k-Itemset Ik
Output: tập item Ir có độ tương liên cao nhất
Itemset Itmp = Ø
Với mỗi trans thuộc InvertedList[Ik]
Itmp = Itmp  {item i, i  trans}
Ir = Ø, ccIr[1 n] = 0
Với mỗi item i thuộc Itmp
Nếu (cc[Iki] > ccIr[n]) Thì
Chèn i vào Ir, cc[Iki] vào ccIr theo thứ tự tăng
Trả về Ir
Hình 3. Thuật giải chọn k-sản phẩm có liên quan chặt chẽ nhất.
3.4. Phương pháp đề xuất tư vấn dựa trên tầm quan trọng của các sản phẩm
Đã có rất nhiều nghiên cứu cố gắng chú tâm đến vấn đề chỉ dùng một phép đo độ hỗ trợ đơn
thuần cho tất cả các sản phẩm trong cơ sở dữ liệu. Nghiên cứu thành công nhất được trình bày
trong [12], với mỗi sản phẩm được ấn định một giá trị độ hỗ trợ khác biệt nhằm phản ánh bản
chất và nhiều loại tần suất xuất hiện của các item trong cơ sở dữ liệu. Tuy nhiên, phương pháp

này cũng không xử lí số lần một sản phẩm xuất hiện trong một giao tác mà chỉ xem chúng
như là nhị phân và quan trọng nhất là phương pháp này sử dụng cách thức ấn định độ hỗ trợ
có tính thành kiến và tuỳ ý cho các item.
Trong [13] có đề xuất một phương pháp khác xem xét tầm quan trọng đặc trưng mà một sản
phẩm có thể có. Mỗi sản phẩm đều được ấn định một trọng số khác nhau nhằm phản ánh tầm
quan trọng của nó. Tích số của độ hỗ trợ của một sản phẩm với trọng số được ấn định của nó
cho chúng ta phép đo độ hỗ trợ có trọng số. Nếu độ hỗ trợ có trọng số của một sản phẩm lớn
hơn một ngưỡng được chỉ định bởi người dùng (được gọi là độ hỗ trợ tối thiểu có trọng số –
wminsup), thì sản phẩm này được xem là large itemset. Phương pháp này đã giải quyết thành
công vấn đề ấn định tầm quan trọng cho tất cả các sản phẩm, nhưng lại bị vướng phải những
hạn chế khác như quy trình phát sinh và lược bỏ các sản phẩm ứng viên không thể tránh việc
gây ảnh hưởng rất lớn trên sự thi hành cuối cùng. Phương pháp này cũng không xử lí số lần
một item xuất hiện trong một giao tác. Đồng thời, các phương pháp này đều giả định rằng các
item đều đã được ấn định trước một trọng số mà không đặt quan tâm về việc ấn định trọng số
tự động một cách hiệu quả và chính xác.
Tuy các phương pháp ấn định trọng số cho các sản phẩm vẫn đang được nghiên cứu nhằm
khắc phục những vấn đề trên. Một giải pháp khác là cho phép người dùng chọn sử dụng
phương pháp ấn định trọng số mà mình mong muốn. Công cụ được triển khai sẽ áp dụng giải
pháp này với ba phương pháp ấn định trọng số cho người dùng chọn lựa như sau:
+ Không sử dụng phương pháp ấn định trọng số. Nếu chọn phương pháp này, công cụ sẽ thực
hiện tư vấn các sản phẩm dựa trên hệ số tương liên đã trình bày trong Định nghĩa 1.
+ Sử dụng trọng số sẵn có, nếu người dùng đã có ấn định sẵn các trọng số cho từng sản phẩm
bằng phương pháp nào đó và đã lưu trữ trọng số này trong cơ sở dữ liệu.
+ Trọng số dựa trên lợi nhuận đem lại của sản phẩm. Tuy đây là phương pháp khó thực hiện
nhất do những thông tin cần cung cấp cho công cụ thường được các công ti bảo mật cẩn trọng,
nhưng phương pháp này lại có tiềm năng lớn nhất cho mục tiêu nâng cao doanh thu. Để sử
dụng phương pháp này, người dùng cần cung cấp cho công cụ thông tin về lãi ròng của từng
sản phẩm và tổng lợi nhuận tối đa chúng ta có được từ một sản phẩm trong cơ sở dữ liệu.
Trọng số này có chức năng tương tự như hệ số IDF trong lược đồ TFIDF, hay nói cách khác
nó làm giảm ảnh hưởng của các item không quan trọng, hay làm tăng cường ảnh hưởng của

các item quan trọng. Nếu chúng ta xem xét lần nữa cơ sở dữ liệu siêu thị với sự ưu tiên hàng
đầu dành cho tổng lợi nhuận được tạo ra từ sản phẩm thì chúng ta có thể dùng công thức sau:












k
ii
i
TP
PMf
w
max
718.1ln

với maxTP
k
là tổng lợi nhuận tối đa chúng ta có được từ một sản phẩm trong cơ sở dữ liệu, f
i

là số lần xuất hiện của sản phẩm I và PM là lãi ròng của sản phẩm i. Thực tế điều này có
nghĩa rằng một lần xuất hiện của một sản phẩm rất có khả năng lợi nhuận sẽ được đếm nhiều

hơn 10 lần xuất hiện của một sản phẩm không có khả năng lợi nhuận như thế.
4. THỬ NGHIỆM
Nhằm thử nghiệm hiệu suất cho công cụ, các tập dữ liệu tương tự với các tập dữ liệu nhân tạo
được sử dụng trong [14] và trong hầu hết các nghiên cứu sau đó được sử dụng. Dữ liệu được
phát sinh từ bộ phát sinh nhân tạo này được xem là giả lập thành công các mẫu mua sắm trong
môi trường bán lẻ. Ngoài ra, các bộ dữ liệu thực () cũng được đưa vào
thử nghiệm.
4.1. Dữ liệu nhân tạo
Phương pháp được thử nghiệm với 20 cơ sở dữ liệu khác nhau, tám trong số chúng nhằm mục
tiêu thử nghiệm hoạt động trên các sản phẩm có chiều dài các giao tác biến động và có độ lớn
trung bình cho khả năng tần suất cực đại và các cơ sở dữ liệu còn lại được dùng cho tất cả các
thông số khác ổn định và biến đổi theo số lượng giao tác. Với tám cơ sở dữ liệu đầu tiên, đặt
|D| = 100K, |N| = 1000 và |L| = 2000. Các giá trị của |T| được đặt về 5, 10 và 20. Độ lớn trung
bình của các sản phẩm có tần suất khả năng cực đại là 2, 4, 6, và 8.
4.1.1. Thời gian xây dựng chỉ mục
Hình 4 trình bày cho chúng ta thấy thời gian cần thiết cho việc xây dựng các tập dữ liệu được
mô tả trong mục 4.1, có tất cả 100,000 giao tác. Hình 5 cho chúng ta thấy thời gian cần thiết
cho việc xây dựng chỉ mục cho ba tập dữ liệu với các giao tác biến động (bắt đầu từ 100,000
đến 1,000,000 giao tác). Các tập dữ liệu này có kích thước trong phạm vi từ nhỏ nhất là
40MB (T5.I2.D250K) đến lớn nhất là 644MB (T20.I6.D1000K).
Thời gian xây dựng Inverted Files D100K
1.5
1.6
3.1
3.5
3.3
8.4
6.3
6.4
6.4

0
1
2
3
4
5
6
7
8
9
T5I2 T5I4 T10I2 T10I4 T10I6 T20I2 T20I4 T20I6 T20I8
giây
Series1

Thời gian xây dựng Inverted Files D250K -> D1000K
4.2
14.2
12.5
27.2
10.3
26
51.1
70.2
23.5
56.7
166.1
157.8
0
20
40

60
80
100
120
140
160
180
D250K D500K D750K D1000K
giây
T5I2
T10I4
T20I6

Hình 4
Hình 5
4.1.2. Thời gian đáp ứng
Do mong muốn công cụ của mình có chức năng tương tự như một công cụ truy tìm và tư vấn
hoạt động trực tuyến, thời gian cần thiết để ước lượng mỗi tư vấn phải thấp nhất đến mức có
thể chấp nhận. Người dùng không cần phải chờ quá lâu để nhận được một đề nghị. Hệ thống
được xây dựng thực chất có hiệu suất tương tự như bất kì công cụ truy tìm trên web nào và do
đó việc trả lời cho bất kì truy vấn nào là hầu như ngay lập tức hay với một khoảng thời gian
có thể chấp nhận được. Cụ thể hơn, thời gian đáp ứng cho mỗi tư vấn chỉ dao động từ 0 đến
48 mili giây.
4.1.3. Không gian lưu trữ
Theo thử nghiệm, kích thước Inverted Files được tạo ra luôn nhỏ hơn 50% kích thước ban đầu
của cơ sở dữ liệu. Với kích thước này, Inverted Files hoàn toàn có thể được lưu trữ trong bộ
nhớ chính.


Yêu cầu về dung lượng bộ nhớ

0
10,000,000
20,000,000
30,000,000
40,000,000
50,000,000
60,000,000
70,000,000
T5I2
T5I4
T10I2
T10I4
T10I6
T20I2
T20I4
T20I6
T20I8
Dataset
Dung lượng (bytes)
Program
Database

Yêu cầu về dung lượng bộ nhớ
0
100,000,000
200,000,000
300,000,000
400,000,000
500,000,000
600,000,000

700,000,000
Prog DB Prog DB Prog DB Prog DB
D250K D500K D750K D1000K
Dataset
Dung lượng (bytes)
T5I2
T10I4
T20I6

Hình 6
Hình 7

4.2. Dữ liệu thực tế
Thử nghiệm được thực hiện trên cơ sở dữ liệu bán lẻ (retail) và cơ sở dữ liệu phim ảnh
(movies) được cung cấp tại trang web không sử dụng trọng số sản phẩm.
Kết quả các tư vấn được trình bày trong bảng dưới đây.
Với bộ dữ liệu Retail, các sản phẩm được đề xuất trong tư vấn hoàn toàn có độ tương liên cao
nhất với sản phẩm đã chọn mua. Việc kiểm tra tính đúng đắn của tư vấn được thực hiện thông
qua sự sử dụng T-SQL trong SQL Server.
Theo đó, bộ dữ liệu Movies cho thấy các đề xuất về các bộ phim tương ứng với các phim
được chọn mua của khách hàng. Ví dụ, khi chọn mua phim Terminator 2: Judgment Day, hệ
thống sẽ đề xuất 4 phim có độ tương liên cao nhất: Battle of Neretva, Blacula, Mr. Frost và
Tango & Cash.

Retail
Movies
Sản phẩm được
chọn
Sản phẩm đề xuất
Sản phẩm được

chọn
Sản phẩm đề xuất
beaded-ear
 medicine wheel earrings
m.z.
 am. legacy bull fighter
 medallion necklace
beaded
 wheeler mfg.krb608 ring
4
Titanic
 Above and Beyond
 Empire of the Sun
 King of the Khyber
Rifles
 Madame Curie
tea-box-24k
 sd badlands shot
glass/cedar
 lighting buffalo/stampede
tee
 20 oz. diet coke
Once More, My
Darling
 Bolero
 In Name Only
 Lost Boundaries
24k gld tea

 potpourri

 seed/bead neck
 ears-10kt ke 052
 milk cow morey coldiron
From Russia With
Love

 Desert Song
 Dont't Cry
 It's Only Thunder
 Something to Sing
About
figure-bear

 antler bolo
 buffalo tooth necklace
k.willc
 buff.tooth necklace
k.scheutzo
 mr1347ant rushmore gold
8
Terminator 2:
Judgment Day
 Battle of Neretva
 Blacula
 Mr. Frost
 Tango & Cash
Bảng 2. Các tư vấn đề xuất trên các bộ dữ liệu Retail và Movies.


4.3. Dữ liệu từ một siêu thị trong TpHCM

Bộ dữ liệu từ siêu thị bao gồm 26.497 giao tác, mỗi giao tác chứa trung bình 39 sản phẩm. Số
lượng bản ghi là 1.046.175. Tổng thời gian cho công tác xây dựng Inverted File và
TRANS_TABLE là 12 giây. Thử nghiệm về các tư vấn trên bộ dữ liệu này cho một số kết quả
mẫu như bảng sau:
Sản phẩm đã chọn
Sản phẩm được đề xuất
Ao thun TE ktay 1-
3
Q.lung TE 3-4
Dam TE ctay
s55
Ao thun TE NT
s12
C-Ao somi
nam DT
Ao the thao nu
C-Xi kho
KANGAROO
den 40g
Q.dai jean TE
3-4
Quan dai thun
TE s9
Giay the
thao nu
Tra sam linh chi
ILHwa hop200g
SChua dau
VINAMILK
21DA 120g

Banh dua GAP
salad 50g
Banh dua GAP
tomyum 50g
Truc thang
giat day
6838
Vi 5 sieu nhan
Bo thun TE
q.lung s20
Kem Rivet nho
Son nuoc LIP
ON LIP htnhien
2g
Bo thun TE
qngan 14-16
Lan kmui FA
power men 50ml
C-Ping pong ban
Bo thun TE
q.lung s5
Dam lien TE
khong tay CL
s3
Cay lau nha
vat tron
Super
C-Kemdgtr.da
POND'S hong 7x2g
Vi robo 9330K

Bo thun TE
q.dai s16
Ta baby
UNIDRY tkhi
L26+4PULPY
Bo TE qdai
s4
SRM lam sang da
POND'S 50g
Thong chan nhua
30CM
Q.dai kaki TE
s8
C-So long xe
buom
GIADINH
Ao TE NT
s1
R.champagne
ANHDAO 12%
750ml
Choco
ASSORTMENT
Vochelle 180g
C-Ly ttinh
Brighita MX
150ml
Binh hoa so 1B-
04
Binh hoa

t.tinh mau
436-35cm
Bảng 3. Các tư vấn đề xuất trên các bộ dữ liệu bán hàng tại siêu thị trong TP.HCM.
Với sản phẩm rượu sâm-panh Anh Đào được chọn mua, hệ thống sẽ tư vấn 4 sản phẩm tương
ứng là sô-cô-la ASSORTMENT Vochelle, Ly thủy tinh Brighita MX, Bình hoa 1B-04 và Bình
hoa thủy tinh màu 436.
4.4. Triển khai thực tế công cụ
Công cụ không có một giao diện cụ thể do nó được xây dựng với mục đích sử dụng trên
Internet, cụ thể hơn là trên các website
thương mại điện tử có hỗ trợ COM.
Bên cạnh đó, việc giao tiếp với Web
Application sẽ được thực hiện thông
qua các lời gọi đến phương thức cùng
với các tham số được truyền theo quy
định. Kết quả trả về của các phương
thức này sẽ là các chuỗi kết quả theo
dạng chuẩn được quy định trước hoặc
theo dạng XML. Các tham số truyền
vào cho các phương thức đều ở dạng
chuỗi.


Hình 8. Trang chủ của ứng dụng triển khai công cụ
tư vấn được đề xuất.


Nhằm minh họa cho công tác triển khai
trên Web, công cụ được triển khai trên
một Web site thương mại điện tử tự xây
dựng bằng ASP với giao diện trang chủ

như Hình 8.
Công cụ được sử dụng trên toàn Web site
do đó nó nên được khai báo tại dòng đầu tiên trong global.asa. Các lời gọi đến phương thức tư
vấn sản phẩm, GetRecommend, có thể được đặt tại bất kì nơi nào muốn thực hiện tư vấn. Đơn
cử, có thể thực hiện tư vấn sản phẩm khi khách hàng chọn bất kì sản phẩm nào vào giỏ hàng
của mình. Hình 9 minh họa kết quả đề xuất của công cụ.
Ngoài ra, công cụ còn cung cấp một số chức năng khác nhằm phục vụ công tác cập nhật động
các giao tác cũng như các sản phẩm.
5. KẾT LUẬN
Các ưu khuyết điểm của từng kĩ thuật tư vấn hiện nay đã được trình bày đầy đủ và ngắn gọn.
Đề xuất thành công phương pháp kết hợp kĩ thuật Luật Kết hợp trong Khai thác Dữ liệu với kĩ
thuật Inverted File trong Truy tìm Thông tin cho công cụ tư vấn sản phẩm hỗ trợ cho thương
mại điện tử.
Khắc phục được các hạn chế của các kĩ thuật tư vấn trước đây. Tuy nhiên, công cụ còn cần
được cải tiến thêm để có thể phục vụ riêng biệt các nhóm khách hàng với các xu hướng mua
sắm khác biệt, đặc trưng.
Công cụ được xây dựng và triển khai thành công trên website bán sách trực tuyến. Các tư vấn
được đề xuất với thời gian gần như ngay lập tức khi thử nghiệm triển khai công cụ trên môi
trường Web. Mức độ quan trọng của sản phẩm tư vấn được công cụ lưu tâm đúng mức.
TÀI LIỆU THAM KHẢO
1. Trần Đình Nghĩa (2006), Ứng dụng các kĩ thuật Data Mining hỗ trợ cho E-Commerce,
Luận văn Thạc sĩ Khoa học máy tính, ĐH Công nghệ Thông tin, ĐHQG TP.HCM.
2. Kurgan, L., Cios, K.J., and Trombley, M. (2002) The WWW Based Data Mining Toolbox
Architecture, Proceedings of the 6th International Conference on Neural Networks and
Soft Computing, pp. 855-860, Zakopane, Poland.
3. Gediminas Adomavicius and Alexander Tuzhilin, (VOL. 17, NO. 6, JUNE 2005) Toward
the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and
Possible Extensions, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA
ENGINEERING.
4. R. Agrawal, R. Srikant (1994), Fast algorithms for mining generalized association rules,

in: Proceedings of the 20th International Conference on Very Large Databases
(VLDB_94), Santiago, Chile, September, pp. 487–499.
5. C.H. Cai, A.W C. Fu, C.H. Cheng, W.W. Kwong (July 1998) Mining association rules
with weighted items, in: Proceedings of 1998 International Database Engineering and
Applications Symposium (IDEAS_98), Cardi., Wales, UK, , pp. 68–77.
6. S. Zhang, C. Zhang, X. Yan (2003) ,PostMining: maintenance of association rules by
weighting, Information Systems 28 (7) 691–707.
7. Yin-Ling Cheung and Ada Wai-Chee Fu (September 2004) Mining Frequent Itemsets
without Support Threshold: With and without Item Constraints, IEEE, (Vol. 16, No. 9)
pp. 1052-1069.


Hình 9. Minh họa cho công tác tư vấn sản phẩm


8. B. Liu, W. Hsu, Y. Ma (August 1999), Mining association rules with multiple minimum
supports, in: Proceedings of the Fifth International Conference on Knowledge Discovery
and Data Mining, San Diego, CA, USA, pp.337–341.
9. J. Ben Schafer, Joseph A. Konstan, John Riedl (Issue 1-2 January-April 2001), E-
Commerce Recommendation Applications, GroupLens Research Project, University of
Minnesota, Minneapolis, Data Mining and Knowledge Discovery, Volume 5, Pages. 115 -
153.
10. Ioannis N. Kouris, Christos H. Makris, Athanasios K. Tsakalidis (2005), Using Information
Retrieval techniques for supporting data mining, Data & Knowledge Engineering Vol 52,
pages. 353–383.
11. Cios, K. J., & Kurgan, L. (2005), Trends in Data Mining and Knowledge Discovery, In: Pal
N.R., Jain, L.C. and Teoderesku, N. (Eds.), Knowledge Discovery in Advanced
Information Systems.
12. Fayyad, U.M., Piatetsky-Shapiro, G., and Smyth, P. (1996), Knowledge Discovery and
Data Mining: Towards a Unifying Framework, Proceedings of the Second International

Conference on Knowledge Discovery and Data Mining (KDD96), Portland, OR. AAAI
Press.
13. C. C. Aggarwal, P. S. Yu (1998), Data Mining Techniques for Associations, Clustering
and Classification, Lecture Notes in Computer Science 1574, pages 13-23.
14. Büchner, A.G., Baumgarten, M., Mulvenna, M.D., Böhm, R., and Anand, S.S. (2000),
Data Mining and XML: Current and Future Issues, Proceedings of the First International
Conference on Web Information Systems Engineering (WISE'00), pages 127-131, Hong
Kong.






×