Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn
trong các tổ chức tài chính- ngân hàng
Ngơ Thùy Linh
Khoa Hệ thống thông tin quản lý, Trường Học viện Ngân hàng
Ngày nhận: 29/04/2022
Ngày nhận bản sửa: 16/06/2022
Ngày duyệt đăng: 22/06/2022
Tóm tắt: Data lake (hồ dữ liệu) là khái niệm mới xuất hiện những năm gần đây
trong thời đại của dữ liệu lớn (big data). Mặc dù chủ đề về big data đã được
thảo luận nhưng vẫn còn nhiều thách thức trong nghiên cứu, đặc biệt là sự đa
dạng của dữ liệu. Một trong những thách thức đó là làm thế nào để tích hợp và
truy vấn khối lượng dữ liệu lớn từ nhiều nguồn khác nhau khi phương thức lưu
trữ dữ liệu truyền thống là kho dữ liệu không đáp ứng được. Data lake- Hồ dữ
liệu được đề xuất như một giải pháp cho vấn đề này. Bài báo tập trung nghiên
cứu kiến trúc hồ dữ liệu cho mơ hình dữ liệu ngân hàng dựa trên cơ sở tham
chiếu đến mơ hình dữ liệu của hãng IBM. Tiếp theo bài báo phân tích vai trị và
sự cần thiết của hồ dữ liệu, trình bày về quy trình xây dựng cũng như kiến trúc
hồ dữ liệu phù hợp trong các tổ chức tài chính ngân hàng. Cuối cùng là thảo
luận về lợi ích của hồ dữ liệu giúp cho các bộ phận nghiệp vụ truy cập và phân
tích dữ liệu trên toàn bộ tổ chức, ngoài ra thách thức về công nghệ trong quá
Data lake architecture: big data storage and analysis in financial banking organizations
Abstract: Data Lake is one of the dominant concepts in the era of big data. Although big data has been
discussed, it still has many research challenges, especially the variety of data. It poses a huge difficulty
to efficiently integrate and query the large volume of diverse data in information silos with the traditional
approaches such as data warehouses. Data lakes have been proposed as a solution to this problem. This
paper focuses on studying data lake architecture for banking data model based on reference to IBM’s data
model. Next, this paper analyzes the role and necessity of a data lake, presents the data lake execution
process and the right data lake architecture in financial banking organizations. Finally, the author discusses
the benefits of data lakes in helping business departments access and analyze data across the organization,
besides the technological challenges of implementing data lakes in financial and banking institutions also
described in this paper.
Keywords: data lake architecture, the financial banking organizations, data lake, data warehouse, big data.
Ngo, Thuy Linh
Email:
Faculty of Management Information System, Banking Academy of Vietnam
© Học viện Ngân hàng
ISSN 1859 - 011X
59
Tạp chí Khoa học & Đào tạo Ngân hàng
Số 243- Tháng 8. 2022
Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
trình triển khai hồ dữ liệu tại các tổ chức tài chính ngân hàng cũng được nêu trong
bài báo này.
Từ khóa: kiến trúc hồ dữ liệu, tổ chức tài chính ngân hàng, hồ dữ liệu, kho dữ liệu, dữ
liệu lớn
1. Giới thiệu
Theo báo cáo của tập đoàn dữ liệu quốc
tế (IDC- International Data Corporation,
2021), năm 2020 có 64,2 ZB (Zettabyte1)
dữ liệu đã được tạo ra và lượng dữ liệu sinh
ra mỗi ngày lớn hơn tổng lượng dữ liệu
được tạo ra trong cả một năm ở thời điểm
những năm 2000. Câu hỏi đặt ra là: nên lưu
trữ bao nhiêu trong số đó? Nhiều tổ chức
nhận thấy rằng các phương pháp quản lý
dữ liệu truyền thống đang trở nên lỗi thời,
quá chậm để đưa ra phản hồi (Michael
Lock, 2017). Chẳng hạn như với giải pháp
xây dựng kho dữ liệu (data warehouse) đã
giúp các tổ chức doanh nghiệp tích hợp dữ
liệu từ nhiều hệ thống khác nhau trong các
bộ phận, phòng ban. Cách thiết kế và triển
khai kho dữ liệu đã làm đơn giản hóa việc
truy cập dữ liệu, đồng thời hỗ trợ cho tổ
chức trong việc đưa ra câu trả lời cần thiết
trong kinh doanh. Tuy nhiên, không thể
lường trước được các câu hỏi mang tính
chất quyết định và các báo cáo mà doanh
nghiệp có thể cần ngay theo thời gian thực,
giải pháp hiện tại mất quá nhiều thời gian
để đưa ra kết quả chuyên sâu từ dữ liệu thu
thập được. Khối lượng dữ liệu tăng lên mỗi
ngày dẫn đến thách thức ngày càng lớn khi
kho dữ liệu phải đối mặt với vấn đề này.
Trong kiến trúc dữ liệu hiện đại, việc thu
thập dữ liệu mới phải tương đối dễ dàng để
có thể tiến hành phân tích một cách nhanh
chóng. Khối lượng dữ liệu đã bùng nổ khi
các doanh nghiệp khám phá ra giá trị của
các thông tin trên các phương tiện truyền
1
60
ZB = 1021 byte
thông mạng xã hội, các nhận xét, bình luận,
các ứng dụng cài đặt trên thiết bị thơng
minh... Vào đầu những năm 2000, các tổ
chức doanh nghiệp chưa nghĩ đến việc phải
theo dõi “lượt thích” của khách hàng trên
các kênh mạng xã hội. Nhưng ngày nay,
việc nắm bắt và phân tích các thơng tin
thực tế như vậy cũng có thể mang lại cơ
hội kinh doanh quan trọng. Một lần nữa có
thể khẳng định dữ liệu là chìa khóa để tạo
ra các quyết định trong các tổ chức doanh
nghiệp. Do vậy, giải pháp về hồ dữ liệu
(data lake) sẽ khắc phục hạn chế mà kho
dữ liệu chưa làm được. Cụ thể, hồ dữ liệu
cho phép lưu lại đầy đủ các thuộc tính của
dữ liệu nhằm mục đích trả lời các câu hỏi
có thể xuất hiện trong tương lai (Geoffrey
Keating, 2021).
Theo báo cáo tổ chức nghiên cứu thị trường
lớn nhất thế giới năm 2022 (Research and
Markets, 2022), thị trường hồ dữ liệu đạt
7,4 tỷ USD năm 2021. Dự kiến thị trường
này sẽ lên tới 30,2 tỷ USD vào năm 2027,
với tốc độ tăng trưởng kép hàng năm
(CAGR- Compounded Annual Growth
Rate) là 26,4% trong giai đoạn 2022- 2027.
Hồ dữ liệu vượt xa kho dữ liệu và đã trở
thành một lựa chọn kinh tế cho các tổ chức
bởi vì chi phí duy trì một hồ dữ liệu thấp
hơn chi phí xây dựng cơ sở dữ liệu cho các
kho dữ liệu.
Với tốc độ tăng trưởng dữ liệu ngày một lớn
và đa dạng khiến cho việc lưu trữ dữ liệu
theo cách truyền thống trong các tổ chức
gặp nhiều hạn chế như đã đề cập ở trên, có
thể nhận định rằng hồ dữ liệu là giải pháp
thay thế tối ưu hiện nay. Nội dung tiếp theo
Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
NGƠ THÙY LINH
của bài báo sẽ trình bày tổng quan về hồ dữ
liệu; kiến trúc hồ dữ liệu cho mô hình dữ
liệu ngân hàng; và cuối cùng là thảo luận về
lợi ích, thách thức khi triển khai hồ dữ liệu.
2. Tổng quan về hồ dữ liệu
2.1. Khái niệm và đặc điểm hồ dữ liệu
Vào tháng 10/2010, James Dixon, người
sáng lập và là cựu giám đốc công nghệ
(Chief Technology Officer- CTO) của
Pentaho, đã đưa ra thuật ngữ “Data Lake”
(Saurabh Gupta & Venkata Giri, 2018). Ý
tưởng thiết kế data lake- hồ dữ liệu là khu
vực lưu trữ tập trung, hợp nhất cho các dữ
liệu thơ, khơng có cấu trúc, bán cấu trúc
và có cấu trúc, được lấy từ nhiều nguồn
và khơng có lược đồ xác định trước. Các
hồ dữ liệu đã được tạo ra để lưu “dữ liệu
có giá trị tiềm ẩn”. Giá trị của dữ liệu và
những hiểu biết sâu sắc thu được từ hồ có
thể là những ẩn số và thay đổi tùy theo câu
hỏi được đặt ra cũng như nghiên cứu đang
được thực hiện. Hồ dữ liệu cũng cho phép
người dùng thực hiện các loại phân tích
khác nhau trên dữ liệu như ngôn ngữ truy
vấn cơ sở dữ liệu SQL (Structured Query
Language), phân tích dữ liệu lớn, phân tích
dữ liệu theo thời gian thực và học máy để
đưa ra các quyết định tốt hơn.
Hồ dữ liệu chứa một lượng lớn dữ liệu thô
ở dạng nguyên bản cho đến khi các doanh
nghiệp xác định được việc sử dụng dữ liệu
đó như thế nào. Nền tảng của hồ dữ liệu là
một hệ thống lưu trữ có thể chứa tất cả dữ
liệu trong một tổ chức, từ thông tin chất
lượng của nhà cung cấp, giao dịch của
khách hàng, đến dữ liệu hiệu suất sản phẩm
theo thời gian thực. Hơn thế nữa, hồ dữ liệu
cịn cung cấp thơng tin chi tiết hữu ích có
thể được tùy chỉnh để đáp ứng nhu cầu và
mong muốn của khách hàng.
Theo Saurabh Gupta & Venkata Giri
(2018), hồ dữ liệu có một số đặc điểm quan
trọng sau:
- Khả năng mở rộng quy mô cơ sở hạ tầng
phần cứng.
- Tính khả dụng: dữ liệu trong hồ dữ liệu
phải chính xác và sẵn sàng cho tất cả người
dùng ngay khi họ cần xử lý thông tin.
- Khả năng tiếp cận: các mơ hình truy cập
được chia sẻ để đảm bảo dữ liệu có thể
được truy cập bởi tất cả các ứng dụng.
- Khả năng truy xuất nguồn gốc: lưu trữ
toàn bộ dữ liệu của một tổ chức và quản
lý dữ liệu được lưu trữ trong suốt vịng đời
của nó, từ định nghĩa, truy cập và lưu trữ
dữ liệu đến xử lý, phân tích và ứng dụng.
- Các chính sách quản trị dữ liệu không
được thực thi ràng buộc về dữ liệu.
Đặc điểm của hồ dữ liệu cho thấy nó thực
sự cần thiết hỗ trợ cho các chiến lược dữ
liệu trong tổ chức doanh nghiệp, đảm bảo
lưu trữ và xử lý với 4 đặc tính của dữ liệu
lớn là khối lượng, vận tốc, tính xác thực
và sự đa dạng nhằm đáp ứng kỳ vọng của
khách hàng và sự tồn cầu hóa nhanh chóng
của các nền kinh tế.
2.2. Quy trình lập kế hoạch và xây dựng
hồ dữ liệu
Quy trình lập kế hoạch và xây dựng hồ dữ
liệu theo các bước như Hình 1.
Quy trình lập kế hoạch xây dựng hồ dữ liệu
gồm các bước: xác định thách thức của tổ
chức, xây dựng giải pháp chiến lược, dự
đoán sự tăng trưởng của dữ liệu, lên kế
hoạch về cơ sở hạ tầng, xác định chiến
lược hoạt động. Sau khi lập kế hoạch thì
các bước cần thực hiện để xây dựng hồ dữ
liệu: xác định nguồn dữ liệu và người dùng
hệ thống, xây dựng chiến lược thu thập dữ
liệu, thiết lập chiến lược lưu trữ dữ liệu,
xác định các mơ hình phân tích dữ liệu,
cuối cùng là các mục đích sử dụng dữ liệu.
Dựa trên cơ sở chung về quy trình lập kế
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng
61
Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
khách hàng, lòng trung thành
của khách hàng.
Các tổ chức tài chính ngân
hàng dựa trên quy trình xây
dựng hồ dữ liệu được mô tả ở
các giai đoạn trên để triển khai
thực tế tại tổ chức.
3.Kiến trúc hồ dữ liệu cho
mơ hình dữ liệu ngân hàng
Trước khi đưa ra kiến trúc hồ
dữ liệu phục vụ cho lĩnh vực
ngân hàng, cần tham chiếu
đến một kiến trúc hồ dữ liệu
chung, bài viết này tập trung
Nguồn: Saurabh Gupta & Venkata Giri (2018)
tham chiếu đến mô hình hồ
Hình 1. Quy trình lập kế hoạch và xây dựng hồ dữ liệu
dữ liệu của hãng International
Business Machines (IBM).
hoạch và xây dựng hồ dữ liệu, quy trình
Ngồi IBM, cịn có một số mơ hình hồ dữ
triển khai hồ dữ liệu cho ngân hàng được
liệu của các nhà cung cấp khác như Hewlett
đề xuất như sau (Indium Software, 2020):
Packard Enterprise (HPE), Microsoft
- Xây dựng kiến trúc nghiệp vụ mô tả việc
Azure và Amazon Web Services (AWS)…
theo dõi thông tin từ khách hàng/người
Theo TechTarget (2022), Microsoft Azure
dùng cuối cho đến nền tảng kỹ thuật số của
và AWS là những nhà cung cấp hồ dữ liệu
ngân hàng trên các lớp khác nhau như chức
dựa trên đám mây lớn nhất, còn IBM và
năng, bảo mật, ứng dụng, dữ liệu và cơ sở
HPE cũng là một trong các nhà cung cấp
hạ tầng.
công nghệ lưu trữ lớn có thể giúp các doanh
- Xây dựng mơ hình dữ liệu cho hồ dữ liệu
nghiệp xây dựng một hồ dữ liệu tại chỗ.
sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng
IBM cung cấp triển khai hồ dữ liệu thơng
quan cũng như phân tích nâng cao.
qua các sản phẩm Power và Spectrum
- Phát triển kiến trúc kỹ thuật của hồ dữ
Scale. Các tổ chức doanh nghiệp có thể lựa
liệu (hoặc nền tảng dữ liệu kết hợp) để thiết
chọn hoặc xây dựng hồ dữ liệu tại chỗ, hoặc
lập một khuôn khổ tiêu chuẩn cho việc di
trên đám mây hoặc kết hợp cả hai, hơn nữa
chuyển dữ liệu.
IBM cùng với đối tác Cloudera cung cấp
- Phát triển đưa ra các khung để quản trị dữ
khả năng phân tích, bảo mật cao và quản trị
liệu, bảo mật, tích hợp, quản lý dữ liệu chủ
dữ liệu hiệu quả. Việc lựa chọn nhà cung
và siêu dữ liệu.
cấp phụ thuộc vào loại nền tảng lưu trữ- tại
- Xây dựng và triển khai các thành phần
chỗ hoặc đám mây- cũng như các loại dữ
như đường ống dữ liệu, cơ sở dữ liệu, thành
liệu và quản trị dữ liệu của tổ chức.
phần hồ dữ liệu, báo cáo, mơ hình phân tích
Một trong những điểm nổi bật của mơ hình
và báo cáo tổng quan.
dữ liệu IBM so với các mơ hình của các nhà
- Vận hành các mơ hình phân tích vào các
cung cấp khác là có sự tách biệt giữa định
chức năng nghiệp vụ như tiếp thị, thu hút
nghĩa về bộ từ vựng nghiệp vụ hệ thống và
62
Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
NGƠ THÙY LINH
Hình 2. Kiến trúc tham chiếu cho Hồ dữ liệu
định nghĩa của bất kỳ cấu trúc liên quan
nào sẽ được sử dụng trong việc thiết kế hồ
dữ liệu. Việc sử dụng các bộ từ vựng này
của IBM cho phép tất cả những người sử
dụng hồ sơ dữ liệu đều có cái nhìn thống
nhất về nghiệp vụ hệ thống. Mặt khác khi
tổ chức cần định nghĩa trước về lược đồ dữ
Nguồn: IBM (2016)
liệu thì mơ hình dữ liệu IBM với các định
nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm
bảo tính nhất quán của các kho được lưu
trữ trong hồ dữ liệu (IBM, 2016).
Hình 2 cung cấp tóm tắt về sự tương tác
chính của các thành phần khác nhau trong
mơ hình hồ dữ liệu IBM, nơi lưu trữ và xử lý
Nguồn: Awadallah and Graham (2011)
Hình 3. Hệ thống cùng tồn tại hồ dữ liệu và kho dữ liệu
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng
63
Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
Bảng 1. Sự khác nhau giữa kho dữ liệu và hồ dữ liệu
Tiêu chí
Hồ dữ liệu
Kho dữ liệu
Kiểu dữ
liệu
Tất cả dữ liệu được lưu giữ bất kể nguồn và cấu Bao gồm dữ liệu được trích xuất từ các hệ thống
trúc ban đầu. Dữ liệu được giữ ở dạng thô, chỉ giao dịch. Dữ liệu được làm sạch và chuyển đổi
được chuyển đổi khi đã sẵn sàng để sử dụng.
Lịch sử
Công nghệ dữ liệu lớn được sử dụng trong hồ dữ Không giống như dữ liệu lớn, khái niệm kho dữ
liệu là tương đối mới.
liệu đã được sử dụng trong nhiều thập kỷ.
Thu thập
dữ liệu
Tất cả các loại dữ liệu và cấu trúc, bán cấu trúc và Dữ liệu có cấu trúc và sắp xếp chúng trong các
không cấu trúc ở dạng ban đầu của chúng từ các lược đồ như được xác định cho mục đích xây
hệ thống nguồn.
dựng kho dữ liệu
Thời gian
Các hồ dữ liệu có thể giữ lại tất cả dữ liệu. Điều Trong quá trình phát triển kho dữ liệu, thời gian
này không chỉ bao gồm dữ liệu đang được sử đáng kể được dành cho việc phân tích các
dụng mà cịn bao gồm dữ liệu có thể sử dụng nguồn dữ liệu khác nhau.
trong tương lai. Ngoài ra, dữ liệu được lưu giữ mọi
lúc để có thể quay ngược thời gian và thực hiện
phân tích.
Người
dùng
Hồ dữ liệu lý tưởng cho những người dùng muốn Kho dữ liệu lý tưởng cho người sử dụng vì được
phân tích sâu như các nhà khoa học dữ liệu, cấu trúc tốt, dễ sử dụng và dễ hiểu.
những người cần các cơng cụ phân tích tiên tiến
với các khả năng như mơ hình dự đốn và phân
tích thống kê.
Chi phí
Chi phí lưu trữ rẻ hơn so với kho dữ liệu
Nhiệm vụ
Chứa tất cả các dữ liệu và kiểu dữ liệu; nó cho Cung cấp thơng tin chi tiết về các câu hỏi được
phép người dùng truy cập dữ liệu trước quá trình xác định trước cho các loại dữ liệu được xác
chuyển đổi, làm sạch và có cấu trúc.
định trước.
Thời gian
xử lý
Thời gian xử lý nhanh. Các hồ dữ liệu trao quyền
cho người dùng truy cập dữ liệu trước khi nó
được chuyển đổi, làm sạch và có cấu trúc. Do
đó, nó cho phép người dùng nhận được kết quả
của họ nhanh hơn so với kho dữ liệu truyền
thống.
Lợi ích
Tích hợp các loại dữ liệu khác nhau để đưa ra Cung cấp các báo cáo và các chỉ số hiệu suất
những câu hỏi hồn tồn mới
chính.
Hạn chế
Dữ liệu được giữ ở dạng thơ, chỉ được chuyển đổi Khơng có khả năng thay đổi.
khi dữ liệu đó đã sẵn sàng để sử dụng.
Tương đối đắt hơn
Thời gian xử lý chậm hơn. Kho dữ liệu cung cấp
thông tin chi tiết về các câu hỏi được xác định
trước cho các loại dữ liệu đã được xác định. Vì
vậy, bất kỳ thay đổi nào đối với kho dữ liệu đều
cần thêm thời gian.
Nguồn: David Taylor (2022)
dữ liệu lớn sử dụng nền tảng Hadoop cùng
một số hệ quản trị dữ liệu quan hệ truyền
thống khác để lưu trữ dữ liệu có cấu trúc.
Trong kiến trúc tham chiếu Hồ dữ liệu ở
Hình 2, bộ từ vựng nghiệp vụ hệ thống phải
là cơ sở cho bất kỳ hoạt động tìm kiếm hoặc
khám phá nào được thực hiện bởi người
dùng trong các bộ phận phòng ban của tổ
chức doanh nghiệp và nhà khoa học dữ liệu.
Mơ hình vật lý thứ nguyên để triển khai các
cấu trúc cần thiết để xây dựng kho dữ liệu.
64
Mơ hình vật lý Hadoop sử dụng nền tảng
công nghệ Hadoop để xử lý và làm việc với
khối lượng dữ liệu lớn, mơ hình vật lý này
triển khai Sandbox hỗ trợ cho công việc
nghiên cứu và phân tích dữ liệu của các nhà
khoa học dữ liệu (IBM, 2016).
Với dữ liệu có cấu trúc thì kho dữ liệu là sự
lựa chọn phù hợp để xây dựng khi đã biết
lược đồ dữ liệu. Ngược lại, hồ dữ liệu được
triển khai để tích hợp một lượng lớn dữ liệu
phi cấu trúc như nhật ký, hình ảnh, video
Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
NGƠ THÙY LINH
Nguồn: Darko Golec (2019)
Hình 4. Kiến trúc hồ dữ liệu cho mơ hình dữ liệu ngân hàng
hoặc tài liệu và dữ liệu có cấu trúc. Nếu dự
kiến dữ liệu của tổ chức tăng trưởng đáng
kể theo thời gian và được sinh ra với tốc độ
lớn, có thể tồn tại ở các dạng khác nhau, và
tiềm ẩn những thông tin có thể tạo ra giá trị
kinh doanh cao, thì trong trường hợp này,
kiến trúc hồ dữ liệu thích hợp hơn kiến trúc
kho dữ liệu. Trong nhiều tổ chức, cả hai
giải pháp này đều cùng tồn tại (Awadallah
and Graham, 2011), thể hiện trong Hình 3.
Sự khác nhau giữa kho dữ liệu và hồ dữ
liệu được trình bày ở Bảng 1.
Bảng 1 mô tả sự khác nhau giữa kho dữ
liệu và hồ dữ liệu. Khác với kho dữ liệuchỉ lưu trữ dữ liệu có cấu trúc đã được lựa
chọn và chuẩn hóa cho mục đích cụ thể,
cịn hồ dữ liệu có thể tích hợp và lưu trữ
mọi loại dữ liệu ở định dạng gốc với bất
kỳ quy mô nào để phục vụ cho phân tích
dữ liệu trong tương lai. Vì việc sử dụng dữ
liệu được xác định trước nên kiến trúc kho
dữ liệu yêu cầu lập kế hoạch cẩn thận: loại
dữ liệu nào sẽ được truy xuất, công cụ nào
sẽ được sử dụng để thu thập, tổ chức, xử
lý và truy xuất dữ liệu đó. Ngược lại hồ dữ
liệu lưu trữ dữ liệu thơ, phi cấu trúc, bán
cấu trúc và có cấu trúc mà không cần xử
lý trước nên giải pháp về hồ dữ liệu là một
giải pháp thực tế và chi phí thấp. Ngồi ra
hồ dữ liệu cũng rất linh hoạt và dễ quản lý,
khơng có trở ngại nào trong việc giới thiệu
các kiểu dữ liệu mới, giúp cho tổ chức sử
dụng các ứng dụng khác nhau dễ dàng hơn.
Và vì việc mở rộng quy mơ khơng phải là
một vấn đề trong hồ dữ liệu nên hồ dữ liệu
là một trong những kiến trúc được ưa thích
cho dữ liệu lớn (David Taylor, 2022). Như
vậy kho dữ liệu và hồ dữ liệu đều có những
ưu điểm và hạn chế, do đó chúng không thể
thay thế nhau mà cùng tồn tại để bổ sung
hỗ trợ nhau.
Dựa trên cơ sở tham chiếu đến các mơ hình
ở Hình 2 và Hình 3, Hình 4 thể hiện kiến
trúc hồ dữ liệu được xây dựng cho mơ hình
dữ liệu ngân hàng được đưa ra bởi Ngân
hàng Thế giới (World Bank).
Kiến trúc hồ dữ liệu cho mô hình dữ liệu
ngân hàng được trình bày ở Hình 4 là một
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng
65
Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
trong những kiến trúc hồ dữ liệu khả thi
về chi phí, khả năng mở rộng, bảo mật cho
mơ hình dữ liệu ngân hàng (Darko Golec,
2019). Kiến trúc hồ dữ liệu này bao gồm
các thành phần chính sau:
- Vùng lưu trữ (Archive): Thu thập và lưu
trữ dữ liệu từ các nguồn bên ngồi theo lơ
hoặc theo thời gian thực.
- Vùng quản lý và ánh xạ (Master and
Map): vùng quản lý dữ liệu chủ và vùng
quản lý ánh xạ (mapping) dữ liệu.
- Vùng cục bộ (Units): vùng quản lý dữ liệu
địa phương và vùng quản lý báo cáo.
- Vùng tích hợp và báo cáo (Intergration
and Report): vùng quản lý kho dữ liệu và
vùng quản lý báo cáo.
- Vùng mơ hình và phân tích (Models and
Analytics): vùng sử dụng cơng cụ kinh
doanh thơng minh và vùng phân tích dữ liệu.
Một cách tổng quát thì tồn bộ dữ liệu lớn
được thu thập, lưu trữ và quản trị, ràng buộc
bởi các vùng cùng tồn tại (Coexistence
zone) với nhau trong hệ sinh thái đó, chẳng
hạn như các vùng: “Danh mục và Quản trị”
(Catalog and Governance), Quản lý siêu
dữ liệu (Metadata), Dòng dữ liệu, Bảo mật
và Truy cập. Dữ liệu cho nhân viên, người
dùng hệ thống có thể được truy cập tại vùng
“thụ hưởng và phân phát” (Consumption
and Delivery). Kiến trúc hồ dữ liệu ở Hình
4 đã trình bày các phân vùng cùng tồn tại
để lưu trữ, tích hợp dữ liệu từ nhiều nguồn
bên trong và bên ngồi của tổ chức. Để đáp
ứng được điều này thì kho dữ liệu được
thiết kế để lưu trữ dữ liệu có cấu trúc từ các
hệ thống nghiệp vụ. Như vậy các tổ chức
tài chính ngân hàng có thể triển khai thực
hiện đồng thời hai giải pháp kho dữ liệu và
hồ dữ liệu để quản trị dữ liệu trong tổ chức
của mình như minh họa trong kiến trúc hồ
dữ liệu ở Hình 4.
4. Lợi ích và thách thức triển khai hồ dữ
liệu
66
Một số lợi ích khi triển khai hồ dữ liệu
Thứ nhất, hồ dữ liệu cho phép tổ chức tài
chính ngân hàng lưu trữ và truy cập các loại
dữ liệu khác nhau, giúp cho việc chia sẻ và
phân tích dữ liệu trên tồn doanh nghiệp
trở nên nhanh chóng, dễ dàng hơn. Theo
báo cáo của Erik Nordmark (2020), tập
đoàn ngân hàng Bắc Âu- Baltic mỗi ngày
có một lượng lớn dữ liệu phi cấu trúc được
sinh ra từ các kênh tương tác và dữ liệu có
cấu trúc về giao dịch của khách hàng được
ghi lại ở các hệ thống nghiệp vụ khiến cho
việc lưu trữ, tích hợp và phân tích dữ liệu
trở nên khó khăn hơn. Từ thực trạng này,
ngân hàng đã tiến hành xây dựng triển khai
hồ dữ liệu để quản lý khối lượng lớn dữ
liệu từ các nguồn dữ liệu bên trong và bên
ngoài, cung cấp quyền truy cập dữ liệu trên
toàn ngân hàng, đáp ứng được một số sáng
kiến về chiến lược kinh doanh của ngân
hàng. Ngoài ra, việc phân tích dữ liệu trên
hồ dữ liệu cịn hỗ trợ xử lý sự kiện theo
thời gian thực. Một số kết quả đạt được của
ngân hàng Baltic khi triển khai hồ dữ liệu
và sử dụng kỹ thuật phân tích dữ liệu dựa
trên trí tuệ nhân tạo là:
+ Chống rửa tiền và phân loại rủi ro
+ Dự đốn dịng tiền và phân nhóm hành
vi tài chính
+ Thực hiện mơ hình chuyển nhượng thế
chấp trên hồ dữ liệu
+ Các kế hoạch tốt nhất kế tiếp để quản lý
quan hệ khách hàng.
Cho đến nay, ngân hàng Baltic đã trải
nghiệm một số khả năng, lợi thế mới từ
việc lưu trữ và phân tích dữ liệu trên hồ dữ
liệu. Nhờ đó, ngân hàng cũng hiểu rõ hơn
về hành vi mua hàng của khách hàng và có
thể khai thác dữ liệu giao dịch của họ để đưa
ra “hành động tốt nhất tiếp theo” phù hợp
với nhu cầu của khách hàng vào đúng thời
điểm. Cùng với kỹ thuật phân tích dữ liệu
dựa trên trí tuệ nhân tạo, ngân hàng cũng dự
đoán được rủi ro khách hàng sẽ chấm dứt
Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
NGƠ THÙY LINH
hợp đồng thế chấp của họ trong vịng hai
tháng tiếp theo (Erik Nordmark, 2020).
Như vậy có thể nhận định rằng hồ dữ liệu
giúp cho các tổ chức tài chính ngân hàng
truy cập và phân tích dữ liệu trên tồn bộ tổ
chức một cách dễ dàng. Điều này cịn được
thể hiện rõ hơn qua báo cáo của Research
and Markets (2021), một số ngân hàng đã
và đang tăng cường các hồ dữ liệu để tích
hợp dữ liệu trên nhiều lĩnh vực khác nhau
nhằm tạo ra một cơ sở dữ liệu trung tâm.
Tập đoàn Ngân hàng Úc và New Zealand
(ANZ) đang thực hiện một dự án tổng hợp
tất cả các kho dữ liệu trên các lĩnh vực để
tạo ra một hồ dữ liệu trung tâm cho các hoạt
động ngân hàng. Sự gia tăng thanh toán kỹ
thuật số của người tiêu dùng đã thúc đẩy
lượng dữ liệu được lưu trữ với các ngân
hàng trong mỗi giao dịch. Do đó, cơ hội
cho phân tích dữ liệu lớn ngày càng tăng.
Hơn nữa, Mox Bank Limited (Mox), một
ngân hàng ở Hồng Kông, đã đăng ký hơn
35.000 khách hàng trong tháng đầu tiên, sử
dụng các giải pháp từ AWS để thu thập,
lưu trữ, xử lý an tồn và phân tích dữ liệu
giao dịch, tận dụng dữ liệu thông tin chi
tiết để xây dựng trải nghiệm ngân hàng lấy
khách hàng làm trung tâm khi sử dụng các
dịch vụ từ Amazon dựa trên hồ dữ liệu.
Việc triển khai các hồ dữ liệu trong lĩnh
vực ngân hàng phá vỡ số lượng các thông
tin silo (thông tin về một thực thể được lưu
trữ ở nhiều hệ thống khác nhau nhưng lại
không giống nhau). Lưu trữ dữ liệu trong
cơ sở hạ tầng được quản lý tập trung như
cơ sở hạ tầng hồ dữ liệu dựa trên Apache
Hadoop giúp cắt giảm số lượng silo thông
tin trong một tổ chức, giúp người dùng
trong tồn tổ chức có thể truy cập và có cái
nhìn thống nhất về dữ liệu (Research and
Markets, 2021).
Ngân hàng Quốc gia Canada là một trong
những tổ chức dịch vụ tài chính hàng đầu
của Canada tiếp cận dữ liệu lớn trên hồ dữ
liệu trong vịng chưa đầy 2 tuần. Nhóm các
cơng cụ phái sinh vốn chủ sở hữu toàn cầu
(GED- Global Equity Derivatives Group)
của ngân hàng quốc gia Canada là đơn vị
đi đầu trong việc cung cấp các giải pháp
giao dịch chứng khoán nhằm quản lý các
chứng khoán được giao dịch trao đổi như
cổ phiếu, quỹ, hợp đồng tương lai. GED
thu thập và xử lý khối lượng dữ liệu tài
chính thị trường chứng khốn đang phát
triển nhanh chóng, chẳng hạn như thông
tin lịch sử thương mại và báo giá. Trước
đây, tổ chức gặp phải khó khăn trong việc
mở rộng nền tảng phân tích dữ liệu khi sử
dụng mơi trường cơng nghệ thông tin tại
chỗ, môi trường phần cứng truyền thống
và việc lưu trữ dữ liệu có cấu trúc trên các
hệ quản trị cơ sở dữ liệu quan hệ không
thể theo kịp tốc độ tăng trưởng dữ liệu của
GED. Ngân hàng cần một mơi trường có
khả năng mở rộng hơn để có thể phân tích
dữ liệu hiệu quả, đưa ra các thơng tin chi
tiết có ý nghĩa hơn. GED cũng tìm kiếm
một cách hiệu quả hơn để xử lý dữ liệu tài
chính, ngân hàng cần xử lý và phân tích cả
dữ liệu phi cấu trúc và dữ liệu có cấu trúc,
chẳng hạn như trong trrường hợp có một số
lượng lớn các tệp nhật ký cần được phân
tích dựa trên dữ liệu thị trường được cập
nhật. Từ thực trạng này, GED đã tiến hành
triển khai xây dựng hồ dữ liệu trong vòng
chưa đầy 2 tuần. Họ đã sử dụng TickVault
trên đám mây AWS, dễ dàng xử lý và phân
tích hàng trăm terabyte dữ liệu thương mại
và dữ liệu báo giá lịch sử, bên cạnh đó vẫn
có thể xem xét dữ liệu từ 10 năm trước nếu
cần thiết. Các nhà phân tích kinh doanh của
GED hiện có thể tiến hành phân tích giao
dịch thương mại nhanh hơn nhiều so với
trước đây: Các quy trình thao tác dữ liệu
mất nhiều ngày giờ chỉ còn một phút trên hồ
dữ liệu. Hơn nữa, việc truy vấn dữ liệu hiện
tại và lịch sử chỉ còn trong vài giờ đồng hồ.
Giờ đây, GED có thể phục vụ khách hàng
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng
67
Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
của mình tốt hơn. Điều này được thể hiện
rõ hơn qua phát biểu của Pascal Bergeron,
Giám đốc giao dịch thuật toán (Director
of Algorithmic Trading) của Ngân hàng
Quốc gia Canada: “Chúng tơi có khả năng
phân tích sau giao dịch nhanh hơn và tốt
hơn bằng cách sử dụng TickVault và AWS.
Nhờ đó, chúng tơi có thể cải thiện và tối ưu
hóa hoạt động giao dịch của mình và tạo
thêm doanh thu cho Ngân hàng Quốc gia
Canada. Chúng tơi cũng có thể sử dụng dữ
liệu để xem cách chúng tơi có thể giao dịch
với giá tốt hơn cho khách hàng của mình”
(AWS, 2016).
Từ những minh chứng trên có thể khẳng
định rằng, lợi ích đầu tiên khi triển khai
hồ dữ liệu tại các tổ chức tài chính ngân
hàng đó là dữ liệu được lưu trữ tập trung
tại một nơi, từ đó giúp cho ngân hàng có
thể truy cập dữ liệu khác nhau theo thời
gian, kể cả truy vấn dữ liệu lịch sử, nhưng
vẫn đảm bảo các bộ phận nghiệp vụ có cái
nhìn chung thống nhất về dữ liệu vì đã khắc
phục được hiện tượng thông tin silo. Việc
chia sẻ dữ liệu trở nên dễ dàng hơn kết hợp
với ứng dụng của trí tuệ nhân tạo để phân
tích, khai thác dữ liệu trong hồ dữ liệu giúp
cho ngân hàng thu hút và giữ chân khách
hàng, cũng như phát hiện, ngăn chặn các
rủi ro trong các giao dịch của khách hàng
hiệu quả hơn trước khi tổ chức triển khai
hồ dữ liệu.
Lợi ích thứ hai mà hồ dữ liệu mang lại là
cung cấp cái nhìn tổng quan về khách hàng,
tăng cường khả năng dự đoán các xu hướng
tài chính cũng như cải thiện và cá nhân hóa
trải nghiệm của khách hàng. Các tổ chức
dịch vụ tài chính triển khai hồ dữ liệu sử
dụng nhiều nguồn dữ liệu khác nhau để có
được cái nhìn tồn diện về khách hàng, tạo
ra trải nghiệm khách hàng được cá nhân hóa
hơn và hỗ trợ các chương trình giữ chân
khách hàng, chẳng hạn như chương trình
khách hàng thân thiết. Một hồ dữ liệu được
68
quản lý tốt cho phép các tổ chức tập hợp tất
cả dữ liệu vào một nền tảng thống nhất và
cung cấp cho các nhà tiếp thị quyền truy cập
có kiểm soát vào dữ liệu cần thiết cho việc
nhắm đến các khách hàng mục tiêu. Nền
tảng trực quan hóa tương tác cung cấp các
góc nhìn khác nhau về dữ liệu và cho phép
các nhà tiếp thị lập hồ sơ khách hàng để
phân tích (Zaloni, 2016). Cũng theo báo cáo
của Research and Markets (2021), hơn 60%
tổ chức tài chính ở Hoa Kỳ tin rằng phân
tích dữ liệu lớn mang lại lợi thế cạnh tranh
đáng kể so với các đối thủ và hơn 90% công
ty tin rằng các sáng kiến dữ liệu lớn xác định
cơ hội thành công trong tương lai.
Phát hiện và ngăn chặn gian lận trong giao
dịch của khách hàng tại ngân hàng là lợi
ích thứ ba mà hồ dữ liệu đem lại cho các
tổ chức tài chính ngân hàng. Gian lận giao
dịch, gian lận danh tính và rửa tiền là những
mối quan tâm lớn đối với các tổ chức dịch
vụ tài chính, ngân hàng. Một lý do là nhiều
kẻ gian lận có thể thao túng việc thanh tốn
nhanh hơn mức mà các nhà điều tra có thể
kiểm tra. Một hồ dữ liệu được quản lý tốt
có thể cho phép nhập dữ liệu theo thời gian
thực và phát hiện gian lận tự động với các
thuật toán phát hiện các dạng gian lận tiềm
ẩn trong khối lượng dữ liệu khổng lồ. Tạo
danh mục dữ liệu tập trung cung cấp giao
diện người dùng trực quan để tìm kiếm
và phân tích trên tất cả dữ liệu và hỗ trợ
các nhân viên nhanh chóng thực hiện phân
tích dữ liệu tự phục vụ thơng qua giao diện
người dùng trực quan (Zaloni, 2016). Hơn
nữa, hiệu quả thu hồi nợ của ngân hàng có
thể cải thiện đáng kể bằng cách phân tích
hiệu quả thu hồi dựa trên dữ liệu giao dịch
của khách hàng được lưu trữ trong hồ dữ
liệu, bên cạnh việc phân nhóm khách hàng
nhằm xác định và ưu tiên khách hàng nào
liên hệ sớm nhất sẽ giúp các tổ chức tài
chính ngân hàng nâng cao hiệu quả thu nợ.
Bên cạnh đó, thị trường của khu vực Bắc
Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
NGÔ THÙY LINH
Mỹ được thúc đẩy bởi các yếu tố như việc
ngày càng nhiều dữ liệu được tạo ra từ lượng
nhấp chuột, nhật ký máy chủ, dữ liệu người
đăng ký, dữ liệu của các hệ thống quản
lý quan hệ khách hàng (CRM- Customer
Relationship Management) và hệ thống
hoạch định nguồn lực doanh nghiệp (ERPEnterprise Resource Planning), dự kiến sẽ
thúc đẩy tăng trưởng thị trường với các nhà
cung cấp đưa ra các giải pháp và dịch vụ
hồ dữ liệu khác nhau. Ngoài ra, tỷ lệ áp
dụng trí tuệ nhân tạo và học máy cao hơn
trong khu vực này cũng dự kiến sẽ thúc đẩy
tăng trưởng thị trường hồ dữ liệu (Research
and Markets, 2021). Như vậy, khảo sát của
Research and Markets (2021) cho thấy thị
trường hồ dữ liệu những năm gần đây đã và
dự kiến sẽ tăng đáng kể trong lĩnh vực tài
chính ngân hàng. Đặc biệt khu vực Bắc Mỹ
dự kiến sẽ triển khai các giải pháp về hồ dữ
liệu ở mức cao.
Thách thức khi triển khai hồ dữ liệu
Thách thức gặp phải khi triển khai hồ dữ
liệu đó là thách thức về cơng nghệ, thách
thức về quy trình, thách thức về nhân sự
(Melissa Coates, 2017).
- Về cơng nghệ, một số khó khăn liên quan
đến sự thực thi, phục hồi dữ liệu, quản lý
sự thay đổi, kiến trúc đa tầng phức tạp, khả
năng mở rộng và lưu trữ chưa rõ ràng, làm
việc với dữ liệu bị lỗi, sai… Các hồ dữ
liệu có thể lưu trữ một lượng lớn dữ liệu.
Vì vậy, các tổ chức cần phải có các chính
sách quản lý dữ liệu tốt. Nếu khơng, hồ dữ
liệu có thể biến thành “đầm lầy dữ liệu”
và không thể sử dụng được. Các tổ chức
cần cập nhật dữ liệu và thực hiện các thao
tác hợp nhất, xóa dữ liệu khi cần thiết, do
đó dữ liệu có giá trị sẽ khơng bị lãng phí
(Gulbahar Karatas, 2021).
- Thách thức về quy trình bảo mật và quản
trị dữ liệu, chất lượng dữ liệu… Đôi khi dữ
liệu yêu cầu bảo mật cũng có thể được lưu
trữ trong hồ dữ liệu. Trong những trường
hợp này, thách thức lớn nhất là lưu trữ
những dữ liệu đó trong hồ mà khơng có
biện pháp bảo mật và giám sát (Gulbahar
Karatas, 2021). Không chỉ vấn đề bảo mật
dữ liệu mà vấn đề chất lượng dữ liệu trong
hồ dữ liệu cũng cần được quan tâm. Các hồ
dữ liệu thu thập dữ liệu từ các nguồn khác
nhau và tích hợp vào một hệ thống duy
nhất, do đó q trình này có thể gây khó
khăn cho việc kiểm tra chất lượng dữ liệu.
Hơn nữa quyền sở hữu và quản lý dữ liệu
không được xác định rõ ràng cho từng lĩnh
vực chủ đề dữ liệu hoặc các nguồn dữ liệu
ban đầu thì cũng chất lượng dữ liệu cũng bị
ảnh hưởng. Do đó, nếu chất lượng dữ liệu
khơng được đảm bảo và khơng chính xác
thì các thơng tin phân tích được sẽ khơng
hỗ trợ cho việc kinh doanh của tổ chức, gây
mất niềm tin của nhân viên, người dùng
vào hồ dữ liệu, thậm chí vào cả sự lãnh đạo
của các nhà quản lý. Để giải quyết vấn đề
này, cần có sự cộng tác nhiều hơn giữa các
nhóm quản trị và quản lý dữ liệu để dữ liệu
trong hồ dữ liệu được tổ chức hiệu quả.
Ngoài ra cần có các chính sách và hành
động cụ thể để đảm bảo cũng như cải thiện
chất lượng dữ liệu của tổ chức (Michael
Dixon, 2020).
- Về mặt nhân sự có một số khó khăn như
sự nỗ lực khơng cần thiết liên quan đến
việc chuẩn hóa và xây dựng lược đồ dữ
liệu, các kỳ vọng về nhà phân tích có thể
tự thực hiện các thao tác như chuẩn bị, tích
hợp, làm sạch, phân tích dữ liệu. Mặc dù
hồ dữ liệu cung cấp quyền truy cập cho mọi
người trong tổ chức nhưng việc tham gia
vào hồ dữ liệu trên thực tế không phải ai
cũng có thể tiếp cận được. Vì hồ dữ liệu
cũng lưu trữ cả dữ liệu phi cấu trúc, nên
người dùng không có chun mơn về cơng
nghệ thơng tin khơng dễ dàng có thể phân
tích cú pháp truy vấn dữ liệu (Gulbahar
Karatas, 2021).
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng
69
Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
Như vậy bên cạnh những lợi ích mà hồ dữ
liệu mang lại thì vẫn tồn tại một số thách
thức khi vận hành và triển khai hồ dữ liệu.
Khắc phục những thách thức đó địi hỏi
tổ chức phải đưa ra các giải pháp kỹ thuật
tồn diện và có thể phải điều chỉnh một số
quy định nghiệp vụ kinh doanh, dẫn đến
chuyển đổi cả văn hóa làm việc nếu cần,
để nhận được các giá trị, lợi ích tối đa từ
hồ dữ liệu.
5. Kết luận và một số khuyến nghị cho
Việt Nam
Dữ liệu là chìa khóa tạo ra thơng tin chi tiết
giúp tổ chức thiết kế các sản phẩm, dịch
vụ và chiến lược tốt hơn, phù hợp hơn với
nhu cầu khách hàng. Tuy nhiên, bản thân
dữ liệu có thể đặt ra thách thức vì trên thực
tế dữ liệu tồn tại ở nhiều định dạng khác
nhau như ở dạng có cấu trúc, phi cấu trúc,
bán cấu trúc, hoặc dưới dạng văn bản, hình
ảnh, video hoặc có thể ở các định dạng
khác khiến cho việc lưu trữ dữ liệu theo
phương thức cũ gặp khó khăn. Cơ sở dữ
liệu truyền thống không được trang bị để
xử lý một lượng lớn, đa dạng dữ liệu. Do
đó, ngồi kho dữ liệu để lưu trữ dữ liệu có
cấu trúc và dữ liệu đã được chuyển đổi, các
tổ chức tài chính ngân hàng cũng cần có
hồ dữ liệu để lưu trữ và quản lý dữ liệu phi
cấu trúc và dữ liệu thô ở tất cả các định
dạng khác nhau. Bài báo đã trình bày tổng
quan về hồ dữ liệu, phân tích sự cần thiết
của việc triển khai hồ dữ liệu ở các tổ chức
ngân hàng hiện nay, quy trình lập kế hoạch
và xây dựng, kiến trúc hồ dữ liệu cho mơ
hình dữ liệu ngân hàng và cuối cùng là thảo
luận về lợi ích và thách thức khi triển khai
hồ dữ liệu. Từ những phân tích này, các tổ
chức tài chính ngân hàng có thể tiến hành
lên kế hoạch và phát triển dự án hồ dữ liệu
cho tổ chức của mình.
Tại Việt Nam, một khảo sát vào tháng
9/2020 của Ngân hàng Nhà nước Việt Nam
(NHNN) cũng cho thấy, 50% các ngân
hàng đã xây dựng kho dữ liệu tập trung,
27% đã xây dựng các hồ dữ liệu để thu thập
dữ liệu thô đến từ các điểm tiếp xúc số,
khoảng 50% các ngân hàng đã ứng dụng
phân tích dữ liệu để tối ưu hóa quy trình
vận hành, tăng hiệu quả hoạt động, quản
trị rủi ro... Tuy nhiên, quá trình xây dựng
hệ thống quản trị dữ liệu cũng đang gặp
phải nhiều khó khăn và thách thức như: có
rất nhiều loại dữ liệu trong hệ thống; logic
nghiệp vụ phức tạp; nguồn nhân lực chưa
đáp ứng được yêu cầu, khuôn khổ pháp lý
hỗ trợ công tác khai thác dữ liệu lớn, bảo
đảm an toàn, bảo mật dữ liệu cho khách
hàng... (Hồng Anh, 2020). Một số khuyến
nghị cho các tổ chức tài chính ngân hàng
ở Việt Nam khi tiến hành triển khai hồ dữ
liệu là: thứ nhất, tổ chức cần có chiến lược
và chính sách quản trị dữ liệu nội bộ cũng
như dữ liệu bên ngoài, dữ liệu có cấu trúc,
phi cấu trúc để đảm bảo việc tích hợp cũng
như quản trị dữ liệu trong hồ dữ liệu được
chính xác và hiệu quả; thứ hai, các tổ chức
nên đưa ra các chính sách đẩy mạnh việc
khám phá thông tin tiềm ẩn trong hồ dữ
liệu bằng cách sử dụng các kỹ thuật học
máy, học sâu của trí tuệ nhân tạo để đổi
mới sáng tạo trong kinh doanh.
Trong nghiên cứu này, vấn đề bảo mật dữ
liệu và quản trị dữ liệu trong hồ dữ liệu
chưa được đề cập tới một cách rõ ràng và
chi tiết, đây vừa là hạn chế của nghiên cứu
cũng vừa là hướng nghiên cứu tiếp theo của
tác giả khi tìm hiểu sâu hơn về hồ dữ liệu. ■
Tài liệu tham khảo
Awadallah and Graham, 2011, “Hadoop and the Data Warehouse: When to Use Which”, [Online: marketing.teradata.
com/When-to-Use-Hadoop]
70
Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
NGÔ THÙY LINH
AWS, 2016, “National Bank of Canada Case Study”, Amazon. [Online: />financial-services/data-lakes-analytics/]
Darko Golec, 2019, “Data Lake Architecture for a Banking Data Model”, ENTRENOVA. [Online: https://www.
thecognizant.com/blog/case-a-banks-new-data-lake-is-built-for-business/]
David Taylor, 2022, “Data Lake vs Data Warehouse: What’s the Difference?”, Guru99.
Erik Nordmark, 2020, “Case: A Bank’s New Data Lake is Built for Business”, Cognizant Sweden.
IBM, 2016, “IBM Industry Model support for a data lake architecture”, ©IBM Corporation.
IDC, 2021, “Data Creation and Replication Will Grow at a Faster Rate than Installed Storage Capacity, According to
the IDC Global DataSphere and StorageSphere Forecasts”, IDC Corporation.
Indium Software, 2020, “Data Lakes for Digital Banks”, ©Indium Software.
DIXON J. 2010, “Pentaho, Hadoop, and Data Lake”, [Online: />Geoffrey Keating, 2021, “Data Lakes: What They Are and Why Companies Use Them”, [Online: />blog/data-lakes/]
Gulbahar Karatas, 2021, “Data Lake: What it is, What are the Benefits& Challenges”, Aimultiple.
Hồng Anh, 2020, “Quản lý dữ liệu thông minh trong lĩnh vực ngân hàng, tài chính”, [Online: />Michael Lock, 2017, “ANGLING FOR INSIGHT IN TODAY’S DATA LAKE”, ABERDEEN.
Michael Dixon, 2020, “The challenges of using data lakes in big data management”, Selerity.
Research And Markets, 2021, Data Lakes Market - Growth, Trends, COVID-19 Impact, and Forecasts (2021 - 2026)
,
[Online:
]
Research And Markets, 2022, “Data Lakes Market: Global Industry Trends, Share, Size, Growth, Opportunity and
Forecast 2022-2027”, [Online: />Saurabh Gupta & Venkata Giri, 2018, “Practical Enterprise Data Lake Insights”, Apress.
Melissa Coates, 2017, Designing a Modern Data Warehouse + Data Lake, SentryOne.
TechTarget, 2022, “Explore top data lake providers for substantial storage use”, [Online; />searchstorage/tip/Explore-top-data-lake-providers-for-substantial-storage-use]
Zaloni, 2016, “Data Lake 360° Financial Services”, Zaloni’s Arena software.
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng
71