Tải bản đầy đủ (.pdf) (65 trang)

Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.42 MB, 65 trang )

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------

NGUYỄN PHÚC ÁNH

DỰ BÁO DÒNG TIỀN RA CHO HOẠT ĐỘNG
MUA HÀNG BẰNG TIỀN VAY TÍN DỤNG
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60480101

LUẬN VĂN THẠC SĨ

TP.Hồ Chí Minh, tháng 12 năm 2015


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG - HCM
Cán bộ hướng dẫn khoa học: GS. TS Cao Hoàng Trụ ………………………...
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1: TS. Nguyễn Quang …………………………………
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2: TS. Dương Đặng Xuân Thành ……………………..
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày 30 tháng 12 năm 2015.
Thành phần đánh giá hội đồng luận văn thạc sĩ bao gồm:
1. PGS. TS Dương Tuấn Anh (Chủ tịch)
2. TS. Trần Minh Quang (Thư ký)
3. TS. Nguyễn Quang (Phản biện 1)


4. TS. Dương Đặng Xuân Thành (Phản biện 2)
5. TS. Nguyễn Văn Minh Mẫn (Ủy viên)
Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
(Họ tên và chữ ký)

TRƯỞNG KHOA KH & KTMT
(Họ tên và chữ ký)


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Phúc Ánh ........................................... MSHV: 13070221 ....
Ngày, tháng, năm sinh: 17/06/1990 ........................................... Nơi sinh: Cần Thơ ....
Ngành: Khoa học máy tính ........................................................ Mã số : 60.48.01.01
I. TÊN ĐỀ TÀI: Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín
dụng ..............................................................................................................................
II. NHIỆM VỤ VÀ NỘI DUNG: ................................................................................
Tìm hiểu nghiệp vụ chi tiền mua hàng ..........................................................................
Đưa ra giải pháp để dự báo dòng tiền ra cho hoạt động mua hàng ...............................
Xây dựng mơ hình dự báo .............................................................................................
Thực nghiệm, cải tiến và đánh giá kết quả....................................................................
.......................................................................................................................................
III. NGÀY GIAO NHIỆM VỤ : 19/01/2015............................................................

IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 04/12/2015 ............................................
V. CÁN BỘ HƯỚNG DẪN: GS. TS Cao Hoàng Trụ ...............................................

Tp. HCM, ngày . .. . tháng .. . . năm 20....
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

TRƯỞNG KHOA KH & KTMT
(Họ tên và chữ ký)


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

LỜI CẢM ƠN
Tơi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến GS. TS Cao Hoàng Trụ,
người Thầy đã dành nhiều thời gian, cơng sức, ln tận tình chỉ bảo và hướng dẫn tôi
trong suốt thời gian tôi thực hiện luận văn này.
Tôi xin cảm ơn các qúy thầy cô Trường Đại Học Bách Khoa ĐHQG-HCM,
những người đã gián tiếp và trực tiếp chỉ bảo và hướng dẫn giúp tơi có những kiến
thức cần thiết để thực hiện luận văn này. Bên cạnh đó, tơi xin cảm ơn các anh chị
trong cùng nhóm nghiên cứu đã giúp đỡ, góp ý cho tơi trong suốt q trình thực hiện
luận văn.
Tơi xin gửi lời cảm ơn đến Công ty X đã tạo điều kiện thuận lợi giúp đỡ tơi tìm
hiểu nghiệp vụ của cơng ty và cung cấp dữ liệu thực nghiệm để tơi hồn thành luận
văn này.
Tôi xin gửi lời cảm ơn đến Viện John von Neumann ĐHQG-HCM đã hỗ trợ tôi
hệ thống máy tính mạnh để có thể hồn thành luận văn này.
Một lần nữa tôi xin gửi lời cảm ơn chân thành đến tất cả mọi người.

Nguyễn Phúc Ánh


i


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

TĨM TẮT LUẬN VĂN
Với chương trình cấp tín dụng cho người lao động có thu nhập thấp, cơng ty X*
mang đến cho họ nhiều mơ hình hỗ trợ khác nhau, trong đó có mơ hình mua hàng trả
góp 0% lãi suất, nhằm giúp người lao động cải thiện đời sống vật chất. Cơng ty X
khơng có sẵn hàng hóa, nên khi khách hàng đặt mua sản phẩm, công ty phải chi tiền
trước để mua sản phẩm từ nhà cung cấp và bán lại cho khách hàng. Dòng tiền chi ra
này được gọi là “Dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng”.
Dịng tiền ra của cơng ty X trong mơ hình này chịu ảnh hưởng bởi nhu cầu đặt
mua của khách hàng và thời hạn chi trả cho các nhà cung cấp của các đơn hàng đó.
Do đó, việc dự báo dịng tiền ra này là một vấn đề quan trọng và thách thức. Hiện tại,
ngồi luận văn này, chưa có cơng trình nghiên cứu khoa học nào khác nhằm dự báo
dịng tiền ra này. Bên cạnh đó, chương trình tín dụng này mới được triển khai trong
thời gian ngắn, nên dữ liệu thu thập được là ít và thưa.
Thơng qua nghiệp vụ chi tiền mua hàng của công ty, chúng tôi đưa ra cơng thức
tính tiền chi mua hàng với hai biến số là “Tổng tiền chi” và “Tiền chi trả từng nhà
cung cấp”. Với cách tiếp cận dữ liệu chuỗi thời gian trên hai biến số này và phương
pháp học máy tổ hợp, chúng tôi đề xuất các phương pháp khác nhau để dự báo dịng
tiền ra nói trên. Phương pháp thứ nhất dựa trên một chuỗi dữ liệu “Tổng tiền chi”.
Phương pháp thứ hai dựa trên nhiều chuỗi dữ liệu “Tiền chi trả từng nhà cung cấp”.
Phương pháp thứ ba gom cụm các chuỗi dữ liệu của “Tiền chi trả từng nhà cung cấp”
tương tự nhau và dự báo theo từng cụm bằng phương pháp học máy tổ hợp. Trong
phương pháp thứ ba, chúng tôi thử nghiệm gom cụm với hai giải thuật khác nhau là
Optmove và DensityPeaks. So sánh kết quả dự báo của các phương pháp, chúng tôi
thấy rằng phương pháp thứ ba với giải thuật gom cụm DensityPeaks cho sai số thấp

hơn các phương pháp khác.

Nguyễn Phúc Ánh
*

Vì lý do bảo mật, chúng tơi phải giấu tên công ty.

ii


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

ABSTRACT
With a credit program for workers with low incomes, company X* povides them
with many different support models, including the installment one at 0% interest rate,
to help them to improve life quality. Company X does not have goods in store, so
when customers order products, the company must spend money in advance to buy
products from suppliers and sell them to customers. This cash outflow is known as
“Cash outflow for purchases with credit loans”.
The cash outflow of company X in this model depends on the needs of customer
orders and the durations of payment to the suppliers of those orders. Therefore,
forecasting this cash outflow is an important and challenging problem. Currently,
except for this thesis, there is no other research work to forecast this cash outflow.
Moreover, this credit program has just been implemented in a short time, so the
gathered data are limited and sparse.
Through the company’s business on cash outflow, we propose a formula to
calculate the amount of money for buying goods with two variables, namely, “Total
payment” and “Payment to each supplier”. With the time series data approach on
these two variables and ensemble methods in machine learning, we propose different
methods to forecast the cash outflow. The first method forecasts the time series of

“Total payment”. The second method forecasts multiple time series of “Payment to
each supplier”. The third method clusters similar time series of “Payment to each
supplier” and performs forecasting on each cluster by an ensemble machine learning
method. In the third method, we try two different clustering algorithms that are
Optmove and DensityPeaks. Comparing the forecasting results of these methods, we
find that the third method with DensityPeaks clustering yields lower errors than the
other methods.

Nguyễn Phúc Ánh
*

For its privacy, we have to hide the company name.

iii


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

LỜI CAM ĐOAN
Tơi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các cơng việc trình bày trong luận văn này do chính tơi thực
hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở
trường này hoặc trường khác.
Ngày 04 tháng 12 năm 2015
Nguyễn Phúc Ánh

Nguyễn Phúc Ánh

iv



Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

MỤC LỤC

CHƯƠNG 1: TỔNG QUAN .......................................................................................1
1.1

Giới thiệu vấn đề ............................................................................................... 1

1.2 Mục tiêu đề tài ................................................................................................... 3
1.3 Cấu trúc của luận văn ........................................................................................ 4
CHƯƠNG 2: CÁC CƠNG TRÌNH LIÊN QUAN ......................................................5
2.1 Dự báo bằng mơ hình toán học ......................................................................... 5
2.2

Dự báo bằng phương pháp học máy .................................................................. 6

2.3

Dự báo bằng phương pháp lai ........................................................................... 9

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT .........................................................................11
3.1 Dữ liệu chuỗi thời gian .................................................................................... 12
3.2 Các giải thuật gom cụm ................................................................................... 13
3.3 Phương pháp học máy tổ hợp .......................................................................... 21
3.4 Các độ đo sự tương tự ..................................................................................... 24
3.5 Các độ đo đánh giá kết quả dự báo ................................................................. 26
CHƯƠNG 4: PHƯƠNG PHÁP ĐỀ XUẤT ..............................................................27
4.1 Nghiệp vụ chi tiền mua hàng ........................................................................... 28

4.2 Cơng thức tính tiền chi mua hàng ................................................................... 29
4.3 Phương pháp học máy tổ hợp .......................................................................... 30
4.4 Kết hợp gom cụm với phương pháp học máy tổ hợp ...................................... 34
4.5 Kết luận ........................................................................................................... 37
CHƯƠNG 5: THÍ NGHIỆM ĐÁNH GIÁ ................................................................38
5.1 Tập dữ liệu ....................................................................................................... 38
5.2 Kết quả dự báo dựa trên phương pháp học máy tổ hợp .................................. 39
5.3 Kết quả dự báo dựa trên gom cụm và phương pháp học máy tổ hợp ............. 42
5.4 Đánh giá các kết quả thí nghiệm ..................................................................... 46
CHƯƠNG 6: TỔNG KẾT ........................................................................................49
6.1 Những kết quả đạt được .................................................................................. 49
6.2 Đóng góp của đề tài ......................................................................................... 49
6.3 Hướng phát triển của đề tài ............................................................................. 50

Nguyễn Phúc Ánh

v


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

MỤC LỤC HÌNH
Hình 2.1 Chuỗi dữ liệu doanh số bán lẻ của 5 mặt hàng.[10] ...................................11
Hình 3.1 Các thành phần xu hướng, mùa và bất thường.[12] ...................................13
Hình 3.2 Các bước K-means: khởi tạo, lặp và kết thúc.[7].......................................14
Hình 3.3 Gom cụm DensityPeaks trong khơng gian 2 chiều.[15] ............................14
Hình 3.4 Kết quả gom cụm DensityPeaks trên 4 tập dữ liệu.[15] ............................17
Hình 3.5 Mối quan hệ giữa phần tử n và tích . [15] ................................................17
Hình 3.6 Sự khác biệt giữa Euclid và DTW.[11] ......................................................25
Hình 3.7 Ma trận và đường xoắn tối ưu.[11] ............................................................26

Hình 4.1 Luồng phát sinh đặt mua hàng từ khách hàng đến NCC ...........................29
Hình 4.2 Mơ hình dự báo tiền chi trên một chuỗi dữ liệu tổng ................................31
Hình 4.3 Chuỗi dữ liệu tiền chi tổng của cơng ty theo ngày.....................................31
Hình 4.4 Chuyển đổi một chuỗi dữ liệu thành n-k mẫu ............................................32
Hình 4.5 Mơ hình dự báo tiền chi trên đa chuỗi dữ liệu ...........................................33
Hình 4.6 Tập dữ liệu m chuỗi (NCC) có độ dài n điểm (Ngày) ...............................34
Hình 4.7 Kết quả dự báo p điểm (Ngày) ngồi mẫu của m NCC .............................34
Hình 4.8 Mơ hình kết hợp gom cụm với học máy tổ hợp để dự báo tiền chi ...........35
Hình 4.9 Chuyển đối m chuỗi dữ liệu trong 1 cụm thành n-k mẫu ..........................36
Hình 5.1 Chuỗi dữ liệu tổng tiền chi từ 06/09/2015 - 27/09/2015............................39
Hình 5.2 Mối quan giữa số cụm C và tỉ số O(C)/g(C) ..............................................43
Hình 5.3 Mối quan hệ giữa phần tử n và  ...............................................................46
Hình 5.4 Dữ liệu tiền chi cho từng 3 NCC ...............................................................47
Hình 5.5 Dữ liệu tổng tiền chi ...................................................................................48

Nguyễn Phúc Ánh

vi


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

MỤC LỤC BẢNG
Bảng 3.1: Giải thuật gom cụm K-means. [7] ............................................................13
Bảng 3.2: Giải thuật tính mật độ cục bộ.[2] ..............................................................15
Bảng 3.3: Giải thuật tính khoảng cách gần nhất đến những đối tượng có mật độ cao
hơn.[2] .......................................................................................................................15
Bảng 3.4: Giải thuật chọn các trung tâm cụm.[2] .....................................................16
Bảng 3.5 Giải thuật gán phần tử vào cụm.[2] ...........................................................16
Bảng 3.6: Giải thuật gom cụm Optmove. [10] ..........................................................20

Bảng 3.7: Giải thuật Bagging. [7] .............................................................................21
Bảng 3.8: Giải thuật RandomForest.[7] ....................................................................22
Bảng 3.9: Giải thuật RandomCommittee. .................................................................23
Bảng 3.10: Giải thuật cây quyết định. [7] .................................................................24
Bảng 5.1: Tập dữ liệu được phân chia để thử nghiệm ..............................................39
Bảng 5.2: Thông số cài đặt cho các phương pháp học máy tổ hợp ..........................40
Bảng 5.3: Kết quả dự báo dùng phương pháp Bagging ............................................40
Bảng 5.4: Kết quả dự báo dùng phương pháp RandomForest ..................................40
Bảng 5.5 Kết quả dự báo dùng phương pháp RandomCommittee ...........................41
Bảng 5.6: Kết quả dự báo dựa trên đa chuỗi dữ liệu bằng RandomCommittee .......42
Bảng 5.7: Thông số cài đặt cho phương pháp RandomCommittee ..........................42
Bảng 5.8: Kết quả gom cụm bằng giải thuật Optmove .............................................43
Bảng 5.9: Kết quả dự báo của RandomCommittee dùng gom cụm bằng Optmove .43
Bảng 5.10: Thông số cài đặt cho RandomCommittee và Optmove ..........................44
Bảng 5.11: Thông số cài đặt cho DensityPeaks và RandomCommittee ...................45
Bảng 5.12: Kết quả dự báo của RandomCommittee dùng gom cụm bằng
DensityPeaks .............................................................................................................45
Bảng 5.13: Kết quả gom cụm bằng giải thuật DensityPeaks ....................................45
Bảng 5.14: Kết quả dự báo từ 3 phương pháp học máy tổ hợp với độ đo APME ....46
Bảng 5.15: Kết quả dự báo từ các mơ hình ...............................................................48

Nguyễn Phúc Ánh

vii


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

CHƯƠNG 1: TỔNG QUAN
1.1 Giới thiệu vấn đề

Trong tình hình kinh tế - xã hội Việt Nam hiện nay, phần đông dân số là tầng
lớp người lao động có thu nhập trung bình thấp, việc chi tiêu cho sinh hoạt cuộc sống
gặp nhiều khó khăn. Với đồng lương thấp, hàng tháng họ chỉ có thể tiết kiệm được
một khoản nhỏ, số tiền nhỏ bé này thường không đủ để mua những vật dụng tiện nghi
cần thiết cho gia đình khi mà vật giá mỗi ngày một tăng cao hay những khi đau bệnh
xảy ra. Do đó, họ thường phải đi vay mượn, dẫn đến những phát sinh lãi suất khơng
cần thiết. Thấy được những khó khăn đó, với mơ hình kinh doanh sáng tạo, cơng ty
tài chính X đã được hình thành ở Việt Nam, cùng những mong muốn đóng góp có ích
cho xã hội, đặc biệt là đối với tầng lớp người dân có thu nhập thấp.
Thơng qua hình thức cấp tín dụng cho người lao động đang làm việc tại các xí
nghiệp nhà máy, cơng ty X đã giúp cho người lao động có thể mua những vật dụng
gia đình cần thiết hay tạm ứng tiền để gửi về quê…, khi mà tiền lương tháng của họ
khơng có sẵn. Cơng ty cịn đem lại những lợi ích khác như mua hàng trả góp 0% lãi
suất trong khi giá cả mặt hàng ngang bằng so với thị trường, dịch vụ chăm sóc khách
hàng và hậu mãi chu đáo, vận chuyển hàng hóa tiện lợi, kích thích thị trường tiêu
dùng, tạo việc làm. Mơ hình hoạt động của công ty X đã mang đến nhiều ý nghĩa thiết
thực cho người lao động và xã hội.
Với hoạt động kinh doanh phức tạp, việc quản lý dòng tiền của cơng ty X là vấn
đề khó khăn được đặt ra. Để có thể kiểm sốt tốt dịng tiền, cơng ty đang cần một hệ
thống có khả năng dự báo trước về điều đó một cách hiệu quả. Dịng tiền ra, vào của
công ty bao gồm nhiều danh mục nhỏ khác nhau. Xét trên dịng tiền chi ra có thể chia
làm các loại chính sau:
 Suppliers – Tiền chi trả nhà cung cấp (NCC) từ việc công ty đặt mua hàng
hóa để bán lại cho người lao động.
 Topup/Airline – Tiền chi trả cho các nhà mạng, hãng hàng không, nhà xe từ
việc công ty mua/đặt vé và bán lại cho khách hàng.
Nguyễn Phúc Ánh

1



Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

 CashAdvance – Lượng tiền chuẩn bị sẵn, phục vụ cho hoạt động tạm ứng
tiền của khách hàng.
 Withdraw/TransferEwallet – Lượng tiền chuẩn bị sẵn, phục vụ cho hoạt động
chuyển tiền của khách hàng.
 OperatingExpenses – Chi phí cho các hoạt động bên trong cơng ty như hoạt
động quảng cáo, điện….
 BankLoanRepayment – Tiền phải trả các khoản vay ngân hàng của công ty.
 Salary – Tiền chi trả lương cho nhân viên.
Trong các khoản chi trên, dòng tiền ra từ các hoạt động Topup/Airline,
CashAdvance, Withdraw/TransferEwallet hiện tại thưa và chiếm tỉ lệ nhỏ trong tổng
dòng tiền ra. Đối với các mục OperatingExpenses, BankLoanRepayment, Salary
lượng tiền chi trả cho các hoạt động này hiện tại được cơng ty kiểm sốt tốt vì tính
ổn định và có thể biết trước. Cuối cùng, lượng tiền chi cho khoản mục Suppliers là
vấn đề chúng tôi cần giải quyết bởi vì dịng tiền ra cho hoạt động này chiếm tỉ lệ lớn,
việc dự đốn trước gặp nhiều khó khăn vì chịu ảnh hưởng bởi nhu cầu đặt mua của
khách hàng trong tương lai và những kỳ hạn thanh toán khác nhau được đặt ra bởi
những NCC áp đặt lên công ty.
Với mơ hình hoạt động sáng tạo, cơng nhân viên (khách hàng) làm việc tại các
xí nghiệp nhà máy có ký kết hợp đồng sử dụng chương trình phúc lợi của công ty X,
họ được công ty X cấp một khoản tín dụng. Với khoản tín dụng được cấp này, họ chỉ
được phép sử dụng để mua các sản phẩm do công ty X cung cấp. Điều đặc biệt trong
kinh doanh bán sản phẩm ở công ty là công ty khơng có sẵn các sản phẩm, mà thơng
qua các đơn đặt hàng của khách hàng, cùng với chuỗi cung ứng mạnh mẽ của hơn
170 NCC, công ty phải chi tiền trước mua sản phẩm từ NCC và bán lại cho khách
hàng theo hình thức trả góp 0% lãi suất. Điều này cho thấy rằng, khi khách hàng đặt
mua một lượng lớn trong tương lai, công ty X sẽ phải chi trả một lượng lớn tương
ứng cho NCC vào thời điểm đó. Nếu việc dự báo khơng được thực hiện sẽ gây ra

những ảnh hưởng nghiêm trọng như không đáp ứng nhu cầu hàng hóa cho khách
hàng, thiếu hụt vốn, phạt lãi suất ngân hàng do thanh toán chậm….

Nguyễn Phúc Ánh

2


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

Bài tốn đặt ra là dự báo số tiền sẽ chi trả cho NCC ở thời điểm tương lai từ hoạt
động mua hàng. Lượng tiền chi của công ty X trong hoạt động này phụ thuộc vào
lượng hàng hóa mà khách hàng đặt mua trong tương lai và thời gian thanh tốn mà
NCC u cầu cơng ty phải trả. Việc dự báo dòng tiền ra trên khoản mục Suppliers
đóng góp đáng kể trong việc quản lý tồn bộ dịng tiền hoạt động, giúp cho cơng ty
được điều hành tốt hơn, đem lại sự phát triển ổn định.

1.2 Mục tiêu đề tài
Nhiều cơng trình liên quan đến dự báo dòng tiền đã được thực hiện. Tuy nhiên,
với đặc thù đề tài được xuất phát từ miền nghiệp vụ cụ thể của một cơng ty ở Việt
Nam, có mơ hình kinh doanh như đã giới thiệu. Cho đến nay chưa có cơng trình
nghiên cứu nào đã thực hiện giải quyết vấn đề tương tự. Mặt khác, đề tài này là một
đề tài mang ý nghĩa thực tế, vì nó đóng góp vào hoạt động dự báo dịng tiền của một
cơng ty tài chính ở Việt Nam. Với những lý do trên là động cơ để chúng tôi thực hiện
đề tài này.
Mục tiêu của đề tài là dự báo dịng tiền ra cho hoạt động mua hàng của cơng ty
X. Số tiền được dự báo giúp cho công ty luôn chủ động trong việc chi trả, chủ động
lượng tiền mặt có sẵn, tránh phải vay mượn ngân hàng những khoản dư thừa, làm
phát sinh lãi suất không cần thiết.... Từ đó, giúp cơng ty hoạt động hiệu quả. Các cơng
việc được thực hiện trong đề tài:

 Tìm hiểu nghiệp vụ chi tiền mua hàng của công ty.
 Đưa ra giải pháp để dự báo dòng tiền ra cho hoạt động mua hàng.
 Thu thập và xử lý dữ liệu.
 Xây dựng mơ hình dự báo.
 Thực nghiệm, cải tiến và đánh giá kết quả.
Khi khảo sát nghiệp vụ ở công ty, chúng tôi thấy rằng các đơn đặt hàng của
khách hàng được công ty X xử lý ngay khi có trên hệ thống. Điều này phản ánh thật
sự doanh số bán cũng như lượng tiền mà công ty sẽ phải chi trả cho NCC. Do đó, giả
định được đặt ra là khơng có sự tác động của cơng ty X đến việc xử lý chậm trễ các
đơn hàng của khách hàng và chúng tôi chỉ xét trên số tiền đã chi trả cho NCC, tức là
Nguyễn Phúc Ánh

3


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

trường hợp khi sản phẩm được công ty đặt mua và đã chi trả tiền cho NCC nhưng
chưa chuyển đến khách hàng, vì một lý do nào đó, khách hàng hủy đặt mua sản phẩm
này. Sau đó sản phẩm có thể được chuyển về NCC và hồn tiền lại cho cơng ty. Bên
cạnh đó, do có nhiều loại NCC khác nhau và chúng tôi đã đưa ra giả định là xem xét
tất cả NCC như một loại duy nhất (chi tiết ở mục 4.1).
Mặc dù đề tài này mang tính chất đặc thù riêng, nhưng bản chất nó xuất phát từ
những vấn đề về doanh số sản phẩm hay nhu cầu tiêu dùng. Do đó, một số cơng trình
liên quan sau đây cho thấy những phương pháp được dùng để dự báo và có thể tham
khảo để giải quyết bài toán.

1.3 Cấu trúc của luận văn
Các phần còn lại của luận văn bao gồm:
Chương 2 chúng tơi giới thiệu về các cơng trình liên quan: những cơng trình dự

báo doanh số sản phẩm, dự báo trên dữ liệu chuỗi thời gian với nhiều cách tiếp cận
khác nhau như các mơ hình tốn học, các phương pháp học máy và sự lại ghép giữa
các phương pháp.
Chương 3 bao gồm các lý thuyết về chuỗi dữ liệu thời gian, các giải thuật gom
cụm, các phương pháp học máy tổ hợp, các độ đo sự tương tự và cuối cùng là hai độ
đo để đánh giá kết quả dự báo.
Chương 4 chúng tơi đề xuất các mơ hình với cách tiếp cận khác nhau để dự báo
dòng tiền chi.
Chương 5 là phần thí nghiệm và đánh giá kết quả dự báo từ các mơ hình.
Chương 6 là tổng kết sau khi thực hiện đề tài.

Nguyễn Phúc Ánh

4


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

CHƯƠNG 2: CÁC CƠNG TRÌNH LIÊN QUAN
Trong lĩnh vực kinh tế tài chính, để các tổ chức sản xuất, siêu thị, nhà máy hoạt
động hiệu quả, việc dự báo nhu cầu hay dự báo doanh số bán hàng đóng vai trị quan
trọng vào q trình ra quyết định của nhà quản lý. Nhiều cơng trình nghiên cứu với
nhiều phương pháp khác nhau đã được thực hiện trên thế giới, Chang et al [5] đã nêu
ra những phương pháp truyền thống được dùng trong dự báo doanh số bán hàng như:
 Phương pháp định tính (Qualitative method) là phương pháp chuyển đổi dữ
liệu từ định tính sang định lượng dựa trên những ý kiến mang tính chủ quan.
Những phương pháp như Delphi, Market Research, Historical Analogy….
 Phân tích chuỗi dữ liệu thời gian (Time series analysis): là phương pháp dự
báo dữ liệu trong tương lai bằng dữ liệu đã xảy ra trong q khứ. Một số mơ
hình nổi tiếng: Moving Average, Exponential Smoothing, Box-Jenkins….

 Phân tích nhân-quả: là phương pháp nghiên cứu mối quan hệ nhân quả giữa
các mặt hàng được dự đoán. Phương pháp này yêu cầu dữ liệu q khứ phải
có đủ thơng tin để phân tích, giải thích mối quan hệ. Những mơ hình phổ
biến: Regression analysis and Econometric Model….
“Dù những phương pháp truyền thống đã được chứng minh hiệu quả, cho kết
quả cao trên dữ liệu có tính mùa và xu hướng, nhưng nó khơng thích hợp cho những
tình huống dữ liệu bất thường. Những mơ hình học máy mới được phát triển có độ
linh hoạt tốt hơn và có thể được dùng để ước lượng những mối quan hệ phi tuyến, mà
không vướng phải những giới hạn của các mơ hình truyền thống [5]”.

2.1 Dự báo bằng mơ hình tốn học
Để dự đốn nhu cầu các mặt hàng cho một cơng ty nước giải khát ở HongKong,
Zhu et al [22] đã xây dựng một mơ hình Markov Chain đa biến bậc nhất. Nhu cầu của
mỗi sản phẩm ở một thời điểm được xem như một trong các trạng thái sau: 6 (very
fast-moving), 5 (fast-moving), 4 (standard), 3 (slow-moving), 2 (very slow-moving)
và 1 (no sales volume). Như vậy, với mỗi sản phẩm theo thời gian sẽ là một chuỗi các
trạng thái cho biết nhu cầu được tiêu thụ trong quá khứ.
Nguyễn Phúc Ánh

5


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

Sự khó khăn của mơ hình là ước lượng các đối số, trong đó có ma trận xác suất
chuyển đổi từ những trạng thái trong chuỗi dữ liệu này sang những trạng thái trong
chuỗi dữ liệu khác. Tác giả đã tối thiểu hóa lỗi dự báo bằng việc đề xuất phương pháp
chỉ xét những chuỗi dữ liệu có mối tương quan với nhau, tức là chỉ xét những sản
phẩm mà nhu cầu của chúng có tác động lẫn nhau. Với kết quả thử nghiệm trên nhiều
sản phẩm khác nhau cho thấy phương pháp đề xuất của tác giả đạt được độ chính xác

cao hơn mơ hình Markov Chain truyền thống.
Shukla et al [17] đã áp dụng mơ hình ARIMA (AutoRegressive Integrated
Moving Average) để dự báo nhu cầu thị trường thực phẩm rau quả ở Ahmedabad Ấn
Độ. Tác giả đã tham khảo nhiều cơng trình về dự báo nhu cầu thực phẩm rau quả,
nhưng trong đó một số nghiên cứu chỉ xem dự báo nhu cầu rau quả một cách tổng
quát mà không xem nhu cầu trên từng loại thực phẩm và thời gian dự báo được thực
hiện trên tuần, tháng mà không là hàng ngày để giúp cho các nhà cung cấp nơng
nghiệp có quyết định tốt hơn trong thu hoạch. Sau khi trải qua nhiều lần lặp việc hiện
thực 3 giai đoạn của mơ hình: xác định mơ hình, ước lượng đối số và kiểm tra mơ
hình thích hợp, tác giả có được mơ hình ARIMA(2, 0, 1) là mơ hình tốt nhất với dữ
liệu. Dữ liệu về doanh số bán của thực phẩm rau quả được thử nghiệm là cà chua và
củ hành. Với độ đo lỗi MAPE (Mean absolute percentage error), kết quả MAPE của
cà chua là 29.51%, củ hành là 28.96%.

2.2 Dự báo bằng phương pháp học máy
Với những bất lợi của các phương pháp truyền thống trên dữ liệu có tính phi
tuyến. Mơ hình dự báo bằng phương pháp học máy đã được nghiên cứu để cải thiện
khả năng dự đoán tốt hơn.
Frank et al [19] đã sử dụng mạng nơron nhân tạo để dự báo ngắn hạn doanh số
các mặt hàng được bán ở siêu thị, nhằm mục đích giảm chi phí kho bãi và đem lại lợi
nhuận hơn từ các mặt hàng được ưa chuộng. Bên cạnh dữ liệu chuỗi thời gian về
doanh số bán hàng, tác giả sử dụng thêm thông tin của giá bán và chiến dịch quảng
cáo để cải thiện chất lượng dự báo. Mạng nơron được huấn luyện bởi giải thuật lan
truyền ngược và xử lý song song hóa. Dữ liệu đầu vào cho tầng input của mạng là
Nguyễn Phúc Ánh

6


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng


một tập những giá trị được quan sát trong quá khứ gần nhất. Dữ liệu của doanh số,
giá và số ngày quảng cáo của sản phẩm được tiền xử lý và giá trị của chúng được
chuyển đổi về đoạn [0,1]. Trải qua quá trình huấn luyện, kết quả là mỗi mặt hàng có
một mạng thích hợp nhất với dữ liệu bán hàng của mặt hàng đó. Thử nghiệm dự báo
doanh số tuần kế tiếp của một mặt hàng cho độ đo lỗi RMSE (Root Mean squared
error) là 5.19.
Frank et al [20] đã tiếp tục sử dụng mơ hình nơron nhân tạo để dự báo doanh số
bán hàng ở siêu thị. Lần này tác giả đã cải tiến mơ hình bằng cách sử dụng thêm thơng
tin có sự ảnh hưởng đến doanh số, đó là sự thay đổi về giá và mùa nghỉ lễ. Tác giả đã
thực hiện so sánh mạng nơron với hai phương pháp Naïve và Statistical. Kết quả cho
thấy, có 18 trong 20 mặt hàng được dự đoán cho kết quả tốt hơn hai phương pháp kia
về các độ đo RMSE/Mean.
Với mạng nơron nhân tạo, Hasin et al [8] đã áp dụng để dự báo nhu cầu sản
phẩm trong thị trường bán lẻ. Tác giả đã sử dụng mạng ANN (Artificial Neural
Network) với 11 biến tác động đến nhu cầu sản phẩm như sau:
 Ngày cuối tuần.
 Ngày lễ.
 Ngày gần thời gian lễ hội.
 Hoạt động quảng cáo như giảm giá, miễn phí.
 Hoạt động quảng cáo như trúng thưởng.
 Những mặt hàng được trưng bày.
 Khoảng giá (trung bình, thấp, cao).
 Những ngày đầu tháng hay những ngày cuối tháng.
 Tốc độ của mặt hàng được tiêu thụ (nhanh, chậm, trung bình).
 Loại nhãn hàng được yêu thích.
 Thời tiết, mùa.
Dựa trên độ đo lỗi MAPE, tác giả so sánh mơ hình mạng ANN với mơ hình
Holt-Winter, MAPE của ANN là 10.1% và MAPE của Holt-Winter là 29.1%.


Nguyễn Phúc Ánh

7


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

Trong những năm gần đây, các phương pháp học máy tổ hợp được phát triển
mạnh bởi tính đa dạng của một tập hợp các bộ dự báo được xây dựng bên trong cũng
như khả năng tránh được tính thiên vị (bias) của một bộ dự báo đơn lẻ. Oliveira et al
[14] đã dùng phương pháp học máy tổ hợp Bagging, với tập hợp bộ dự báo được xây
dựng trong Bagging là các cây quyết định hồi quy trên dữ liệu chuỗi thời gian. Tác
giả đã đề xuất một số mơ hình khác nhau dựa trên những thay đổi về độ trễ (lag) của
các biến mô tả, phương sai và độ lệch chuẩn. Bằng độ đo MSE (Mean Squared Error),
tác giả thử nghiệm trên 14 chuỗi dữ liệu, thực hiện so sánh phiên bản Bagging chuẩn
với các biến thể Bagging được đề xuất và mơ hình ARIMA, kết quả cho thấy các biến
thể Bagging tốt hơn Bagging chuẩn và Bagging chuẩn tốt hơn ARIMA.
Tương tự như Bagging, phương pháp học máy tổ hợp Random Forest được xây
dựng trên một tập hợp những cây quyết định, Cheng et al [6] đã áp dụng Random
Forest trên dữ liệu chuỗi thời gian để dự báo nhu cầu điện, các đặc trưng được dùng
làm thuộc tính mơ tả là những giá trị nhu cầu điện trong quá khứ với độ trễ (lag) n,
giá trị ở vị trí n + 1 là thuộc tính mục tiêu được dự báo bởi n giá trị trước đó. Tác giả
đã tiến hành thử nghiệm với nhiều thông số khác nhau của độ trễ n, phần trăm số
lượng thuộc tính mơ tả để xây dựng bộ dự báo và số lượng bộ dự báo. Kết quả được
so sánh với 2 phương pháp khác là mạng nơron lan truyền ngược (Back Propagation
Neural Network) và mạng nơron hồi quy tổng quát (Generalized Regression Neural
Network), cho thấy Random Forest là tốt nhất cả về độ chính xác lẫn tính ổn định trên
độ đo MAPE. Cũng với Random Forest, Mei et al [13] đã sử dụng để dự báo giá điện
trong thị trường điện ở New York, bên cạnh việc dùng dữ liệu lịch sử giá điện để xây
dựng các thuộc tính mơ tả với độ trễ n. Tác giả cịn sử dụng thêm dữ liệu có tính chất

mùa, tác động đến giá điện như nhu cầu điện, nhiệt độ ngoài trời…. Kết quả dự báo
được so sánh với kết quả của hai phương pháp dùng mạng nơron nhân tạo ANN và
ARMA (AutoRegressive Moving Average) cho thấy Random Forest là tốt nhất trong
ba phương pháp.

Nguyễn Phúc Ánh

8


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

2.3 Dự báo bằng phương pháp lai
Nhiều kỹ thuật dự báo đã được phát triển, mỗi kỹ thuật có những điểm mạnh
riêng. Gần đây, các nhà nghiên cứu đã áp dụng phương pháp lai, để kết hợp nhiều kỹ
thuật với nhau, nhằm tận dụng sức mạnh của mỗi kỹ thuật, cho khả năng dự báo hiệu
quả hơn.
Aburto et al [1] đã nghiên cứu cải tiến chuỗi cung ứng bằng cách áp dụng hệ
thống lai của mô hình ARIMA (AutoRegressive Integrated Moving Average) và mạng
nơron nhân tạo để dự báo nhu cầu sản phẩm cho siêu thị Economax ở Chile. Sau khi
nghiên cứu từng kỹ thuật, tác giả thấy rằng mơ hình ARIMA hoạt động tốt với những
dữ liệu có tính chất tuyến tính, sự khó khăn trong mơ hình ARIMA là xác định các
đối số mơ hình thơng qua dữ liệu. Với mạng nơron có lợi thế về khả năng tự học được
mẫu dữ liệu, thích hợp với dữ liệu có tính phi tuyến, vấn đề với mạng nơron là q
trình học có thể dẫn đến quá khớp với dữ liệu, mất khả năng tổng quát hóa.
Hệ thống lai dùng mơ hình cộng, dữ liệu ban đầu được mơ hình hóa bởi ARIMA.
Sau đó, phần lỗi từ q trình thực hiện bởi ARIMA sẽ được mơ hình trong mạng
nơron. Tương tự như Hasin et al [8], tác giả đã sử dụng thêm những biến có tác động
đến doanh số bán hàng, để chỉ định những ngày đặc biệt, làm đầu vào cho mạng nơron
như ngày cuối tháng, ngày nghỉ lễ, ngày quốc khánh, tuần lễ giáng sinh….

Dựa trên một số công cụ đã xây dựng sẵn, tác giả đã dùng mơ hình ARIMA
trong SPSS 8.0 và mạng nơron trong DataEngine 4.0 để thực nghiệm trên dữ liệu.
Với hai độ đo lỗi MAPE và NMSE (Normalized mean square error), kết quả cho thấy
hệ thống lai đạt hiệu quả tốt hơn so với những mơ hình đơn lẻ của ARIMA, mạng
nơron và Seasonal navie.
Chang et al [5] đã sử dụng hệ thống lai mạng nơron nhân tạo với logic mờ FBPN
(The fuzzy back-propagation network) để dự báo doanh số bán hàng hàng tháng của
ngành công nghiệp bo mạch. Ba giai đoạn chính trong FBPN là giai đoạn lựa chọn
biến số với dữ liệu là các nhân tố tác động đến doanh số bán, được tác giả thu thập từ
3 miền nghiệp vụ [5]. Những nhân tố này sẽ được xử lý lại, để chọn ra những biến số
đầu vào bằng các phương pháp SRA (Stepwise regression analysis), FDM (Fuzzy

Nguyễn Phúc Ánh

9


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

Delphi Method). SRA là phương pháp xác định mối quan hệ giữa những biến độc lập
và biến phụ thuộc bằng độ đo F. FDM là phương pháp lập danh sách các câu hỏi từ
những nhân tố ban đầu, các câu hỏi được chỉ định khoảng giá trị, danh sách câu hỏi
sẽ được đánh giá bởi những chuyên gia miền, kết quả đánh giá trải qua bước làm mờ
số để chọn ra những nhân tố quan trọng. Giai đoạn tiền xử lý dùng phương pháp phân
tích R/S (Rescaled Range Analysis) để đánh giá tác động của đặc tính xu hướng trong
chuỗi dữ liệu doanh số bán. Sau đó, phương pháp Winter sẽ được dùng để đưa đặc
tính xu hướng của doanh số vào. Giai đoạn dự báo thực hiện dự báo doanh số hàng
tháng của ngành công nghiệp bo mạch bằng mơ hình FBPN.
Kết quả thử nghiệm của tác giả cho thấy phương pháp lựa chọn biến đặc trưng
bằng FDM tốt hơn SRA khi so sánh cả về độ chính xác và độ lỗi. Bên cạnh đó, khi

áp dụng đặc tính xu hướng trong dữ liệu sẽ có độ chính xác tốt hơn so với khi khơng
áp dụng. Dựa trên độ đo MAPE, tác giả đã thực hiện so sánh mơ hình FBPN với 3
mơ hình khác là GF (Grey Forecasting), MRA (Multiple Regression Analysis), BPN
(Back-Propagation Network). GF có độ lỗi cao nhất, kế tiếp là MRA và BPN, và cuối
cùng là FBPN có độ lỗi nhỏ nhất.
Tham khảo từ mơ hình của Chang et al [5], Hicham et al [9] đã phát triển hệ
thống lai DELPHI-FCBPN (Delphi - Fuzzy Clustering and Back-Propagation
Neural) dựa trên phương pháp Delphi, gom cụm mờ và mạng nơron lan truyền ngược
với tỉ lệ học thích nghi, để dự báo doanh số bán hàng từ một cơng ty sản xuất đóng
gói bao bì. Tác giả đã thực hiện 3 giai đoạn như trong cơng trình của Chang. Tuy
nhiên, trong giai đoạn lựa chọn biến số quan trọng, tác giả chỉ sử dụng phương pháp
Delphi và trong giai đoạn dự báo, tác giả sử dụng phương pháp FCBPN (Fuzzy
Clustering and Back-Propagation Neural Networks), FCBPN bao gồm 2 bước: đầu
tiên, dữ liệu sẽ được gom cụm bằng phương pháp Fuzzy C-Mean. Sau đó, dữ liệu của
mỗi cụm sẽ được huấn luyện bởi mạng nơron nhân tạo sử dụng giải thuật lan truyền
ngược với tỉ lệ học thích nghi.
Kết quả thực nghiệm cho thấy hệ thống lai của tác giả có độ đo lỗi MAPE và
RMSE tốt hơn các phương pháp đơn lẻ như BPN (Back-Propagation Neural
Networks), WES (Winter’s Exponential Smoothing), FNN (fuzzy neural network).
Nguyễn Phúc Ánh

10


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

Việc sử dụng các mơ hình hồi quy đa biến, các chuỗi dữ liệu thời gian có mối
quan hệ với nhau, có thể tham gia vào việc hỗ trợ nhau dự báo từng thành phần riêng.
Dựa trên cách tiếp cận chuỗi dữ liệu thời gian đa biến, Swift et al [18] đã kết hợp mơ
hình VAR (Vector AutoRegression) với giải thuật di truyền GA (Genetic Algorithm)

để giải quyết bài toán đa chuỗi dữ liệu thời gian có tính chất thưa. Các hệ số trong mơ
hình VAR có thể được ước lượng bằng hệ phương trình Yule-Walker hoặc phương
pháp bình phương nhỏ nhất. Sau đó, Mơ hình VAR có thể được dùng để dự báo, tuy
nhiên kết quả dự báo thường có độ sai số cao. Do đó, Swift đã thực hiện cải tiến kết
quả dự báo của mơ hình VAR, bằng cách sử dụng giải thuật di truyền với các hoạt
động lai ghép và đột biến trên hệ số của VAR. Phương pháp của Swift cho kết quả
hội tụ nhanh khi các hệ số ban đầu của VAR tốt. Ngược lại, sự hội tụ diễn ra chậm
và khi dữ liệu rất thưa thớt, việc ước lượng hệ số của VAR là không khả thi.
Trong thị trường bản lẻ, các sản phẩm thường có doanh số thưa và không đủ dữ
liệu để dự báo doanh số tương lai, Jha et al [10] đã đề xuất giải thuật gom cụm mới
để nhóm các chuỗi dữ liệu tương tự nhau vào cùng cụm, sau đó, dữ liệu cụm có thể
làm đầu vào cho các mơ hình hồi quy đa biến và dự báo doanh số cho từng cụm. Hình
2.1 biểu diễn chuỗi dữ liệu doanh số của 5 mặt hàng, có 3/5 chuỗi là ngắn và thưa.
Giải thuật gom cụm của Jha có tên là Optmove, thực hiện bước chuyển ngẫu nhiên
bằng cách di chuyển các chuỗi dữ liệu từ cụm này sang cụm khác, để các chuỗi gần
nhau nhất nằm cùng cụm và phải đảm bảo một tập các ràng buộc cho cụm. Các ràng
buộc này được đặt ra để cụm có thể chứa đủ dữ liệu, giúp cho việc dự báo tốt hơn.

Hình 2.1 Chuỗi dữ liệu doanh số bán lẻ của 5 mặt hàng.[10]

Nguyễn Phúc Ánh

11


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT
Trong chương này, chúng tôi giới thiệu về dữ liệu chuỗi thời gian và những lý
thuyết nền tảng cần thiết, được sử dụng để giải quyết bài toán dự báo của chúng tôi.


3.1 Dữ liệu chuỗi thời gian
Chuỗi dữ liệu thời gian một chuỗi các giá trị được quan sát một cách tuần tự
theo thời gian [16]. Trong một chuỗi dữ liệu thời gian, các quan sát liền kề thường có
mối quan hệ phụ thuộc với nhau, phân tích dữ liệu chuỗi thời gian được xem như kỹ
thuật phân tích các mối quan hệ này. Mục tiêu chính của phân tích dữ liệu chuỗi thời
gian là mơ hình hóa q trình đã tạo ra dữ liệu, cung cấp những mô tả tác động và
hiểu được q trình ấy, để có thể dự báo những giá trị ở tương lai.
Mơ hình dữ liệu chuỗi thời gian được định nghĩa như là một mơ hình của những
dữ liệu được quan sát {Xt} tn theo một sự phân phối xác suất nào đó của những
biến ngẫu nhiên {Xt}. Dự báo trong dữ liệu chuỗi thời gian là dùng một mơ hình để
dự báo những giá trị tương lai dựa trên những giá trị đã diễn ra trong quá khứ [16].
Các thành phần của dữ liệu chuỗi thời gian
Một chuỗi dữ liệu thời gian là sự hợp thành của nhiều thành phần riêng lẻ, một
vài thành phần có thể dự đốn được nhưng cũng có một số thành phần mang tính chất
ngẫu nhiên cao, khó có thể dự đốn. Nhìn chung, một chuỗi dữ liệu thời gian có thể
được phân rã thành 3 thành phần sau đây [12]:
 Thành phần xu hướng (Trend): là thành phần thể hiện sự tăng hay giảm giá
trị của chuỗi dữ liệu thời gian trong giai đoạn dài hạn.
 Thành phần mùa (Seasonal): là thành phần thể hiện sự thay đổi của giá trị có
tính lặp đi lặp lại theo các mùa trong năm.
 Thành phần bất thường (Irregular): là thành phần thể hiện sự thay đổi của
giá trị một cách ngẫu nhiên, khó có thể dự đốn.
Hình 3.1 mơ tả các thành phần sau khi phân rã của một chuỗi dữ liệu thời gian.

Nguyễn Phúc Ánh

12



Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

Hình 3.1 Các thành phần xu hướng, mùa và bất thường.[12]

3.2 Các giải thuật gom cụm
Giải thuật gom cụm K-means
Giải thuật K-means thực hiện một cách lặp lại thao tác gán các đối tượng vào
trung tâm cụm gần nhất với nó và cập nhật lại trung tâm cụm sau đó. Giải thuật dừng
khi giá trị các trung tâm cụm khơng cịn thay đổi, Bảng 3.1 mơ tả giải thuật K-means
và hình 3.2 mơ tả các bước khởi tạo, lặp và kết thúc của K-means.
Bảng 3.1: Giải thuật gom cụm K-means. [7]

Giải thuật K-means có độ phức tạp tuyến tính O(nkt). Trong đó, n là số đối
tượng, k là số cụm và t là số lần lặp. Tuy nhiên, kết quả gom cụm của giải thuật có

Nguyễn Phúc Ánh

13


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

dạng siêu cầu và kích thước cụm đồng đều, khơng thích hợp cho việc khai phá các
cụm có dạng lồi hay các cụm có kích thước khác biệt lớn.

Hình 3.2 Các bước K-means: khởi tạo, lặp và kết thúc.[7]

Giải thuật gom cụm DensityPeaks
Giải thuật DensityPeaks được tạo ra bởi Rodriguez et al [15]. Với giả định rằng,
trung tâm cụm dữ liệu thường được bao quanh bởi những đối tượng lân cân có mật

độ cục bộ thấp hơn nó và các trung tâm cụm thường nằm ở khoảng cách xa nhau.
Hình 3.3 là một ví dụ cho ý tưởng của DensityPeaks, thực hiện gom cụm các đối
tượng trong không gian 2 chiều. Hai đối tượng trung tâm cụm là 1 và 10, nằm ở
khoảng cách xa nhau và có mật độ cục bộ lần lượt là 7 và 4.

Hình 3.3 Gom cụm DensityPeaks trong khơng gian 2 chiều.[15]

DensityPeaks thực hiện tính tốn 2 đại lượng sau:
 Mật độ cục bộ của đối tượng i (i): là số lượng đối tượng gần với đối tượng
i, sao cho khoảng cách từ các đối tượng đó đến i nhỏ hơn một khoảng cách
cho trước dc. Bảng 3.2 mô tả giải thuật tính mật độ cục bộ cho n đối tượng.
Nguyễn Phúc Ánh

14


Dự báo dòng tiền ra cho hoạt động mua hàng bằng tiền vay tín dụng

 Khoảng cách từ đối tượng i đến những đối tượng có mật độ cục bộ cao hơn
(i): là khoảng cách nhỏ nhất từ i đến những đối tượng có mật độ cục bộ cao
hơn nó. Bảng 3.3 mơ tả giải thuật tính .
Với k đối tượng có tích  =  *  lớn nhất sẽ được chọn làm trung tâm cụm, các
đối tượng còn lại được gán đến cụm dựa trên khoảng cách của nó đến trung tâm cụm
gần nhất.
Bảng 3.2: Giải thuật tính mật độ cục bộ.[2]

Bảng 3.3: Giải thuật tính khoảng cách gần nhất đến những đối tượng có mật độ
cao hơn.[2]

Trong bảng 3.3, từ dòng 1 đến dòng 3 thực hiện chạy qua từng đối tượng i và

tìm những đối tượng có mật độ cao hơn i để lưu vào _list(i). Dòng 4 thực hiện sắp
xếp _list theo thứ tự tăng dần, điều này làm cho vị trí sortIndex(1) trở thành vị trí
của đối tượng có mật độ cục bộ cao nhất. Từ dòng 5 đến 7, với mỗi đối tượng trong

Nguyễn Phúc Ánh

15


×