NỀN TẢNG DỮ LIỆU ĐÁM MÂY HIỆN ĐẠI SỰ TRỖI DẬY CỦA NỀN TÀNG LƯU TRỮ DỮ LIỆU LAKEHOUSE
Bùi Mạnh Trường
Khoa Cơng nghệ Thơng tin. Trường Đại học Tài chính – Marketing
Email
Tóm tắt: Dữ liệu ln sinh ra và tồn tại trong suốt quá trình hoạt động của tổ chức ở mọi
cấp độ vận hành và hoạt động của mình. Sự phát triển của cơng nghệ đã làm thay đổi mơ hình hoạt
động cũng như những kế hoạch và chiến lược hoạt động của các tổ chức đã nâng tầm quan trọng
của dữ liệu các loại nhằm giúp các tổ chức hiểu rõ mình, đối thủ và khách hàng của mình. Các tổ
chức hàng đầu thế giới hiện nay hiểu được tầm quan trọng của việc xây dựng dữ liệu chất lượng
cao có thể truy cập được, sử dụng được và có độ tin cậy cao. Các nền tảng kiến trúc dữ liệu mới
xuất hiện và liên tục phát triển trong nhiều thập kỷ qua để đáp ứng nhu cầu thực tiễn của các tổ
chức khi xây dựng các lợi thế cạnh tranh của mình.
Từ khóa: Data, Data warehouse, Data lake, specialized systems, Lake house, on-premise,
cloud
1. GIỚI THIỆU
Khi dữ liệu trở nên quan trọng với doanh nghiệp, nhu cầu cần biết họ có dữ liệu nào
và làm sao để kiếm được tiền từ dữ liệu này, đây chính là nền tảng cho sự phát triển thành
công. Điều này cũng đúng với tất cả doanh nghiệp, bất kể là doanh nghiệp công nghệ truyền
thống hay không. Nhu cầu này không chỉ quan trọng hơn trong thời gian tới, thậm chí khi
dữ liệu được tạo ra và sử dụng nó một cách hiệu quả trở thành một lợi thế cạnh tranh.
Việc tập trung tăng số luọng các chuyên gia dữ liệu làm việc chung với nhau thành
một đội hoặc thành một cộng đồng để xây dựng dữ liệu của riêng tổ chức đó, vì các chun
gia dữ liệu làm việc độc lập sẽ không tạo được thành quả. Sự hợp sức giữa các phòng ban
chức năng khác nhau trong chia sẻ và đóng góp dữ liệu cũng rất quan trọng.
Theo cách truyền thống, các vai trị chính của dữ liệu tồn tại riêng biệt so với 04 lĩnh
vực nghề nghiệp về dữ liệu bao gồm : Nhà khoa học dữ liệu, kỹ sư dữ liệu, kiến trúc sư dữ
liệu và nhà phân tích dữ liệu. Mặc dù các vai trị này là các thành phần trong một tổ chức
nhưng trước đây lại hồn tồn phụ thuộc vào các bộ cơng cụ và quy trình khác nhau và làm
việc với dữ liệu trong kho dữ liệu riêng biệt. Hình thức tổ chức này khiến cho độ phức tạp
206
và chi phí doanh nghiệp tăng cao, cũng như mất thời gian nhiều hơn và khó khăn hơn để
trích xuất ý nghĩa từ dữ liệu khi các chuyên gia về dữ liệu hoạt động riêng lẻ.
Ngày nay, các doanh nghiệp hàng đầu coi trọng dữ liệu đang chuyển đổi theo hướng
ứng dụng một kiến trúc thống nhất hơn để đáp ứng nhu cầu của các chuyên gia về dữ liệu.
2. TẦM QUAN TRỌNG CỦA NỀN TẢNG ĐÁM MÂY VỚI CÁC DOANH NGHIỆP
COI TRỌNG DỮ LIỆU
Theo khảo sát của hãng McKinsey vào năm 219 cho thấy các doanh nghiệp có tốc độ
tăng trưởng lợi nhuận cao nhất trong 03 năm gần đây nhất đã đóng góp tối thiểu 20% vào
sự phát triển trực tiếp các phát minh sáng tạo về dữ liệu của họ. Các doanh nghiệp ăn nên
làm ra này sử dụng chiến lược kiềng 03 chân, đầu tiên họ liên kết các chiến lược dài hạn và
rõ ràng về dữ liệu. Tiếp theo, họ ni dưỡng văn hóa lấy dữ liệu làm trung tâm bằng việc
biến dữ liệu thành một phần của công việc của mỗi nhân viên trong doanh nghiệp và đào
tạo các nhân viên quản lý dữ liệu đúng cách. Cuối cùng, các doanh nghiệp sử dụng các nền
tảng dữ liệu hiện đại để hỗ trợ các hoạt động liên quan đến dữ liệu tại mọi cấp độ công việc.
Năm 2020, hãng O’Reilly hợp tác với hãng Databricks thực hiện khảo sát toàn cầu
với hơn 3.000 chuyên gia dữ liệu để xác định tình trạng cấu trúc nền tảng dữ liệu đám mây
hiện đại. Người trả lời khảo sát được yêu cầu đánh giá cấu trúc nền tảng dữ liệu hiện tại,
đặc biệt là các thách thức họ gặp phải và những thách thức này ảnh hưởng thế nào tới doanh
nghiệp và đội ngũ chuyên gia dữ liệu tại mỗi doanh nghiệp. Người trả lời khảo sát cũng
được yêu cầu đề xuất các tiêu chí được xem là quan trọng khi đánh giá nhiều loại kiến trúc
dữ liệu mới. Kết quả của cuộc khảo sát cũng cho thấy 81% người trả lời khảo sát thừa nhận
rằng tổ chức của họ chuyển mình để thích nghi với các dịch vụ đám mây và cơ sở hạ tầng
của kiến trúc đám mây cho phù hợp với một số chức năng trong tổ chức của mình, điều này
cho thấy thế giới dữ liệu đang đắm chìm trong nền tảng đám mây. Chỉ có khoảng 2 trong
10 tổ chức (19%) khơng chuyển bất kỳ khối lượng dữ liệu nào lên nền tảng đám mây.
Kiến trúc nền tảng dữ liệu mà các doanh nghiệp đang sử dụng bao gồm nền tảng lưu
trữ dữ liệu tại chỗ hoặc nền tảng lưu trữ dữ liệu trên đám mây hoặc kết hợp cả hai nền tảng
này. Kết quả của cuộc khảo sát các doanh nghiệp hiện nay như sau :
1. Kho dữ liệu (Data warehouses)
: 57%
2. Hồ dữ liệu (Data lakes)
: 53%
3. Hệ thống đặc thù (Specialized systems) : 54%
207
Bao gồm các Hệ quản trị cơ sở dữ liệu đặc thù như SAS ERP và Oracle PeopleSoft
hoạt động tại chỗ, còn Salesforce và Workday hoạt động trên nền tảng đám mây.
4. Không áp dụng nền tảng nào
: 04%
Kết quả trên cho thấy nhiều doanh nghiệp đang vận hành công tác quản lý dữ liệu của
mình trên nhiều kiến trúc nền tảng lưu trữ dữ liệu, tất nhiên điều này cũng dẫn đến một số
khó khăn như sau :
a. Sự phức tạp trong vận hành.
Hơn 70% doanh nghiệp thừa nhận rằng việc duy trì cơ sở hạ tầng ổn định và các nơi
dữ liệu hoạt động trong môi trường như vậy thực sự là bài tốn nan giải, khó khăn. Đây
cũng là khó khăn lớn nhất khi vận hành đồng thời nhiều kiến trúc dữ liệu.
b. Đảm bảo chất lượng dữ liệu
Khi dữ liệu được thu thập và lưu trữ tại nhiều nơi lưu trữ khác nhau tất yếu sẽ khó
tránh khỏi sự trùng lặp và khơng đồng nhất. Điều này chắc chắn sẽ ảnh hưởng nghiêm trọng
tới các quyết định trong kinh doanh khi các quyết định đều dựa vào dữ liệu được lưu trữ
trong Kho dữ liệu hoặc Hồ dữ liệu. Doanh nghiệp cần dữ liệu có độ tin cậy cao khi ra những
quyết định của mình. Kết quả của cuộc khảo sát là 67% cho thấy nhu cầu cấp bách của
doanh nghiệp về khó khăn này.
c. Quản lý dữ liệu
Yêu cầu về quản lý dữ liệu cũng có tầm quan trọng tương ứng so với việc đảm bảo
chất lượng (66%) đó là phải đảm bảo được tính bảo mật và số lượng dữ liệu tăng lên theo
thời gian. Việc quản lý ngày càng quan trọng vì liên quan đến những dữ liệu có tính riêng
tư và cũng vì các quy định bảo vệ dữ liệu nhạy cảm ngày càng nhiều để tránh các cá nhân
truy cập bất hợp pháp.
d. Chi phí vận hành.
Khó khăn cuối cùng cũng tác động đáng kể tới các doanh nghiệp khi vận hành nhiều
nơi lưu trữ dữ liệu đó là chi phí duy trì hoạt động này (60%).
Từ thực tiễn vận hành và sử dụng một hoặc nhiều các kiến trúc nền tảng dữ liệu phục
vụ cho hoạt động một phần hoặc tồn diện các chức năng trong doanh nghiệp, cùng những
khó khăn kể trên, đa số các doanh nghiệp hiện nay đang chủ động tìm kiếm và đánh giá các
208
kiến trúc dữ liệu mới để tối ưu các hệ thống hiện tại của mình. Để hiểu rõ hơn về kiến trúc
nền tảng dữ liệu mà các doanh nghiệp hiện đang ứng dụng và tại sao họ vẫn mong muốn
tìm kiếm các giải pháp hiện đại, ta sẽ tìm hiểu từng kiến trúc nền tảng dữ liệu cũng như lợi
ích và khó khăn của từng nền tảng kiến trúc dữ liệu đó. Ba kiến trúc nền tảng dữ liệu cần
xem xét sẽ là Kho dữ liệu, Hồ dữ liệu và Hệ thống dữ liệu đặc thù, cả ba kiến trúc nền tảng
này có thể hoạt động tại chỗ hoặc trên đám mây.
2.1. Kho dữ liệu
Kho dữ liệu là nơi lưu trữ trung tâm tích hợp dữ liệu từ nhiều nguồn khác nhau và
được sử dụng trong phân tích và báo cáo kinh doanh. Kho dữ liệu được coi là nền tảng của
năng lực doanh nghiệp để thúc đẩy dữ liệu cho ứng dụng Trí tuệ kinh doanh (Business
Intelligence). Một đặc tính quan trọng của kho dữ liệu là tính cấu trúc cao. Dữ liệu được
lưu trữ trong kho dữ liệu chuẩn bị và chuyển đổi, làm sạch, xóa dữ liệu trùng lắp và được
định dạng phù hợp với tiêu chuẩn theo yêu cầu. Thực ra, dữ liệu thường không được đưa
vào Kho dữ liệu nếu các chuyên gia dữ liệu không đảm bảo dữ liệu sẽ được sử dụng như
thế nào và với mục đích gì. Phần lớn các kho dữ liệu, dù tại chỗ hoặc trên đám mây, vẫn
tuân thủ theo hướng dẫn và bộ khung do Ralph Kimball & Bill Inmon quy định từ giữa
những thập kỷ 1980.
Về cơ bản, kho dữ liệu thay đổi cách doanh nghiệp phân tích dữ liệu và ra quyết định
cấp chiến lược. Trước khi có kho dữ liệu, dữ liệu giao dịch và vận hành được lưu trữ riêng
lẻ gây khó khăn khi đảm bảo tính đồng bộ và thống nhất về mặt ngữ nghĩa trong tồn quy
mơ tổ chức cũng như khi giao dữ liệu cho nhân sự trong doanh nghiệp để thực hiện cơng
việc, cuối cùng là khơng thể có cái nhìn tồn cảnh về hoạt động của doanh nghiệp. Ngày
nay, kho dữ liệu trở nên rất phổ biến và là nền tảng dữ liệu được sử dụng nhiều nhất.
Mặc dù kho dữ liệu truyền thống vận hành tại chỗ, kho dữ liệu đám mây đang phát
triển nhanh chóng với những lợi thế về chi phí, khả năng mở rộng quy mơ cũng như giải
phóng tổ chức khỏi sự ràng buộc khi phải mua sắm, triển khai và duy trì cơ sở hạ tầng cần
thiết để vận hành kho dữ liệu.
Lợi ích của Kho dữ liệu
Lợi ích quan trọng nhất của Kho dữ liệu là giúp các tổ chức ra quyết định tốt hơn,
ngồi ra nó cũng giúp các chun gia dữ liệu và người sử dụng dữ liệu thực hiện tốt chức
năng nhiệm vụ của mình trong tổ chức. Các lợi ích có thể kể ra như sau :
209
a. Góp phần xây dựng trí tuệ kinh doanh
Việc tập trung dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu và cấp quyền
truy cập cho những nhân sự có thẩm quyền trong tổ chức có nghĩa là tổ chức khơng cịn
phải phụ thuộc vào bản năng của nhân viên hoặc những nhà quản lý để ra các quyết định
quan trọng, vì dữ liệu thực sự có thể hỗ trợ những quyết định này.
b. Cải thiện hoạt động truy vấn dữ liệu
Những truy vấn thường xuyên từ nhân sự trong tổ chức có thể làm sập cơ sở hạ tầng
phân tích như kho dữ liệu nhỏ và các cơ sở dữ liệu truyền thống vốn có nhiều hạn chế. Kho
dữ liệu có thể quản lý hiệu quả hơn các truy vấn, giảm tải cho toàn bộ hệ sinh thái.
c. Cải thiện dữ liệu và chất lượng quyết định
Dữ liệu được chuyển đổi trước khi được đưa vào kho dữ liệu, nghĩa là dữ liệu từ nhiều
nguồn sẽ được chuyển định dạng chuẩn và nhân sự trong tổ chức có thể xem, truy cập.
Thơng tin đồng nhất cho phép nhân sự lèo lái công việc theo hướng mục tiêu chung và
thống nhất trong tổ chức.
d. Công bằng với dữ liệu
Gần đây, nhờ sự phát triển của bản thân cơ sở dữ liệu cũng như các cơng cụ phân tích
và trực quan, các tổ chức coi trọng dữ liệu hàng đầu đã nỗ lực dân chủ hóa dữ liệu tồn diện
trên quy mơ tồn tổ chức bằng việc cho phép nhiều hơn nữa nhân sự trong tổ chức được
quyền truy cập kho dữ liệu. Điều này cũng vơ tình gây ra khó khăn lớn nhất cho kho dữ liệu
đó là khả năng mở rộng quy mô.
Thách thức của kho dữ liệu
Mặc dù lợi ích của kho dữ liệu là rất to lớn, song song đó vẫn tồn tại một số thách
thức không nhỏ. Kho dữ liệu thường là một cơ sở dữ liệu khổng lồ nên việc thiết kế và triển
khai địi hỏi khối lượng cơng việc rất lớn trong việc hoạch định, cộng tác và liên kết cả hai
nguồn lực là con người và tài nguyên. Sau đây là các thách thức của kho dữ liệu :
a. Chi phí thực hiện cao
Chi phí cao ln là trở ngại lớn nhất khi lựa chọn giải pháp kho dữ liệu, dù triển khai
tại chỗ hoặc trên nền tảng đám mây. Đối với việc triển khai tại chỗ, chi phí bản quyền cao
ln khiến cho chi phí chung tăng cao. Tiếp theo là chi phí vận hành, bao gồm các nhiệm
210
vụ như mua sắm, cài đặt và duy trì hạ tầng cơ sở cho kho dữ liệu tại tổ chức. Khi kho dữ
liệu nở rộng to lớn hơn thì chắc chắn sẽ cần thêm nhân lực và tài nguyên vận hành. Đặc
biệt khi rơi vào những khoảng thời gian cao điểm cùng với khối lượng công việc cũng tăng
lên rất lớn tương ứng với các khoảng thời gian cao điểm, nhưng để đảm bảo chức năng tính
tốn và lưu trữ, cơ sở hạ tầng dữ liệu của các tổ chức đơi khi bị q tải, ví dụ các nhà bán
lẻ phải chuẩn bị cho những khoảng thời gian cao điểm này trong mùa mua sắm hoặc kỳ
nghỉ lễ dài ngày.
Nếu chọn hình thức phổ biến hơn là thuê nền tảng dữ liệu đám mây thì các tổ chức
chỉ phải thanh tốn đúng theo nhu cầu mong muốn của mình. Dù hình thức này tiết kiệm
được chi phí vận hành cho những tài nguyên không dùng tới nhưng vẫn phải chịu chi phí
cao khi kho dữ liệu phát triển to lớn.
b. Vận hành phức tạp
Vận hành kho dữ liệu thực sự rất phức tạp. Đối với kho dữ liệu tại chỗ, bộ phận tin
học và đội ngũ dữ liệu tham gia tồn diện vào việc triển khai, nâng cấp và cơng tác bảo mật
cùng với các hoạt động khác. Điều này rất cần thiết vì các nền tảng dữ liệu cần được tinh
chỉnh thường xuyên để đảm bảo sự ổn định trong các hoạt động của tổ chức theo thời gian,
đặc biệt khi khối lượng dữ liệu tăng lên để giúp kho dữ liệu không dễ bị tổn thương, thiếu
hiệu quả và không hoạt động đúng.
Việc vận hành kho dữ liệu nền tảng đám mây cũng rất phức tạp dù đã được hỗ trợ cả
về chi phí và hạ tầng cơ sở. Giống như các dịch vụ đám mây và giải pháp đám mây khác,
thị trường kho dữ liệu đám mây vẫn đang trong q trình hồn thiện. Các nhà cung cấp dịch
vụ khác nhau sẽ áp dụng các cơ cấu tính phí khác nhau, việc hỗ trợ tiếp cận cơ sở hạ tầng
cũng khác nhau. Một số tác vụ cấp độ nghiệp vụ bắt buộc phải tuân thủ thỏa thuận mức
dịch vụ (Service-Level Agreement) để tích hợp kho dữ liệu cả hai hình thức tại chỗ và đám
mây với các quy trình tác vụ hiện tại nhằm đảm bảo tính bảo mật và khả năng phục hồi sự
cố toàn vẹn và nhanh chóng.
Một số tổ chức đã thực hiện theo hình thức là đầu tiên đưa dữ liệu vào hồ dữ liệu để
nhiều dòng dữ liệu sẽ đưa dữ liệu này đi vào hoặc đi ra các kho dữ liệu. Trong trường hợp
các kho dữ liệu có thay đổi, các dòng dữ liệu này sẽ đưa dữ liệu quay trở ngược lại hồ dữ
liệu theo yêu cầu.
211
Khả năng mở rộng quy mô
Khả năng mở rộng quy mơ là một bài tốn rất thực tế của kho dữ liệu tại chỗ và cũng
là khó khăn chính. Bộ phận tin học phải thận trọng để đảm bảo có đủ tài nguyên tại mọi
thời điểm, đặc biệt khi gặp phải sự xung đột bất ngờ trong đường truyền. Việc mở rộng quy
mô là nhiệm vụ rất tốn thời gian và tốn kém tài nguyên vì thường kéo theo việc mua sắm
và cài đặt phần cứng mới.
Đối với kho dữ liệu đám mây việc mở rộng quy mô không phải là vấn đề, vì các tổ
chức có thể mua sắm nhiều máy tính hay dung lượng lưu trữ nhiều hơn bất cứ khi nào cần
thiết, ngay cả khi đường truyền đông đúc. Tuy nhiên, khả năng mở rộng quy mô vẫn là một
khó khăn vì rất khó để duy trì hàng trăm, hàng nghìn dịng dữ liệu để cung cấp dữ liệu cho
các Kho dữ liệu lớn khi xây dựng các loại báo cáo khác nhau. Ngồi ra cịn có 02 yếu tố
khác là suy yếu khả năng mở rộng quy mơ đó là :
-
Phần lớn khách hàng đều có nhiều nhà cung cấp giải pháp Kho dữ liệu trong kiến trúc
dữ liệu của mình.
-
Kiến trúc dữ liệu được chia ra cho nhiều nhà cung cấp giải pháp đám mây.
Hệ thống độc quyền khép kín
Nhiều kho dữ liệu tại chỗ không tương tác tốt với các hệ thống khác, việc phong tỏa
này sẽ gây rất nhiều khó khăn khi tổ chức muốn chuyển đổi qua giải pháp kho dữ liệu khác.
Ngay cả với hệ thống đám mây cũng không tránh khỏi tình trạng khó khăn này, các
nhà cung cấp hệ thống đám mây khác nhau có những chức năng, năng lực khác nhau, ví dụ
khi chuyển đổi dữ liệu kho dữ liệu từ dịch vụ đám mây Google Cloud qua Microsoft Azure
cũng khơng phải là quy trình liên tục.
Từ khi xuất hiện kỷ nguyên kỹ thuật số việc nhà cung cấp phong tỏa chức năng hoạt
động của kho dữ liệu gây khó khăn cho các tổ chức khi các nhà sản xuất phần cứng và phần
mềm luôn muốn cột chân các tổ chức đã hợp tác với mình. Khó khăn này vẫn tiếp tục làm
phiền lòng các chuyên gia dữ liệu trong thời đại dữ liệu đóng vai trị quan trọng.
Thiếu sự hỗ trợ của các nhà khoa học dữ liệu và Máy học
Kho dữ liệu được xây dựng dựa trên công nghệ đã hơn 40 tuổi và chỉ được thiết kế
để xử lý dữ liệu có cấu trúc. Các loại dữ liệu khác như âm thanh, video và chuỗi ký tự trong
ngôn ngữ tự nhiên cùng các kiểu dữ liệu phi cấu trúc khác không phù hợp với lược đồ kho
212
dữ liệu. Sự phổ biến của những kiểu dữ liệu này ngày càng tăng lên cũng là dữ liệu đầu vào
của lĩnh vực khoa học dữ liệu và máy học, là tiền đề cho sự trỗi dậy của nền tảng hồ dữ liệu
và xuất hiện thêm những khó khăn khác khi các tổ chức phải cố gắng duy trì cả hai nền tảng
hồ dữ liệu và kho dữ liệu trong kiến trúc dữ liệu của tổ chức.
2.2 Hồ dữ liệu
Hồ dữ liệu là hệ thống dữ liệu hay còn gọi là nơi lưu trữ dữ liệu được lưu trữ với dạng
thô, tự nhiên, thường là dạng file hoặc các đối tượng blob (Binary Large OBject). Hồ dữ
liệu lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc theo dạng thơ, bao gồm dữ liệu có cấu trúc
từ các cơ sở dữ liệu quan hệ hoặc cơ sở dữ liệu giao dịch (dòng và cột), dữ liệu bán cấu trúc
(file dữ liệu dạng csv, nhật ký dữ liệu lịch sử, XML, JSON), dữ liệu phi cấu trúc (thư điện
tử, văn bản, file văn bản định dạng PDF) và dữ liệu nhị phân (hình ảnh, âm thanh, video).
Mục tiêu của hồ dữ liệu là chuyển đổi tất cả dữ liệu có sẵn này và khai thác chúng để xây
dựng các báo cáo, biểu diễn trực quan hóa và thực hiện phân tích nâng cao và ứng dụng
máy học để cuối cùng đạt được lợi thế cạnh tranh trong kinh doanh.
Hồ dữ liệu và kho dữ liệu đôi khi bị hiểu nhầm giống nhau vì cùng đặc tính sau đây:
-
Là trung tâm lưu trữ dữ liệu;
-
Có thể hoạt động trên nền tảng tại chỗ hoặc trên nền tảng đảm mây;
-
Các tổ chức sử dụng 02 phương pháp này phân phối rộng rãi dữ liệu trong tổ chức.
Sự khác biệt lớn nhất giữa Hồ dữ liệu và Kho dữ liệu là kiểu dữ liệu và các bài tốn
tình huống được xử lý, ngồi ra cịn có những khác biệt như sau :
Bảng: Những khác biệt giữa Hồ dữ liệu và Kho dữ liệu
Hồ dữ liệu
Kho dữ liệu
Kiểu dữ liệu lưu trữ và xử lý
Dữ liệu cấu trúc, bán cấu Dữ liệu cấu trúc và bán cấu
trúc, phi cấu trúc
trúc
Mục đích của dữ liệu
Không rõ ràng
Người sử dụng
Nhà khoa học dữ liệu và kỹ
Người sử dụng thông thường
sư dữ liệu
Cấu trúc
Mềm dẻo và dễ thay đổi
Cụ thể theo tình huống
Cứng nhắc và khó thay đổi
213
Lợi ích của hồ dữ liệu
Hồ dữ liệu có một số lợi ích đáng kể so với kho dữ liệu như sau :
a. Hồ dữ liệu có thể chấp nhận và lưu trữ tất cả dữ liệu của doanh nghiệp
Không thể nào biết trước được dữ liệu nào sẽ cần khai thác theo các nhu cầu của lĩnh
vực Khoa học dữ liệu và Máy học hoặc thậm chí Trí tuệ kinh doanh, vì thế tất cả dữ liệu
sinh ra trong suốt quá trình hoạt động của tổ chức hoặc được tổ chức thu thập sẽ được lưu
trữ vào Hồ dữ liệu, đây chính là độ mềm dẻo của Hồ dữ liệu. Dữ liệu cũng được lưu trữ vô
thời hạn tạo điều kiện cho tổ chức có thể kiểm tra và tái kiểm tra dữ liệu lịch sử khi cần.
b. Hồ dữ liệu có thể lưu trữ và xử lý tất cả các dữ liệu
Trước đây luồng dữ liệu như nhật ký dữ liệu lịch sử máy chủ vận hành trang web, số
liệu từ các thiết bị cảm ứng, hoạt động của các mạng xã hội, chuỗi ký tự và hình ảnh rất
khó khăn và tốn kém để lưu trữ và phân tích, hồ dữ liệu chấp nhận tất cả dữ liệu này.
c. Hồ dữ liệu cho phép tất cả người dùng truy cập tồn bộ dữ liệu
Có 03 loại người sử dụng dữ liệu tiêu biểu: Người sử dụng của tổ chức, nhà phân tích
dữ liệu và nhà khoa học dữ liệu (nhà Khoa học dữ liệu, Kỹ sư dữ liệu và các chuyên gia dữ
liệu). Trước đây, kho dữ liệu phục vụ 03 loại người sử dụng dữ liệu này tùy theo nhu cầu
và công việc của mỗi loại người sử dụng, đặc biệt các Nhà khoa học dữ liệu thường không
sử dụng Kho dữ liệu do những hạn chế của nó, họ thường quan tâm vào phân tích thống kê
sâu bằng các cơng cụ Trí tuệ nhân tạo. Trong khi đó Hồ dữ liệu phục vụ 03 loại người sử
dụng dữ liệu công bằng nhau.
d. Hồ dữ liệu có thể thay đổi dễ dàng
Hồ dữ liệu lưu trữ tất cả dữ liệu dạng thô và cho phép tất cả người dùng truy cập và
sử dụng dữ liệu theo kiểu của họ và quan trọng là Hồ dữ liệu sử dụng khung schema-onread và quy trình Trích xuất-Nạp dữ liệu thô-Chuyển đổi khi cần (Extract – Load Transform), điều này cho phép người dùng xây dựng mơ hình, khai phá dữ liệu và lược đồ
theo yêu cầu. Bất cứ kết quả khi xử lý dữ liệu nào không hữu ích có thể dễ dàng loại bỏ mà
khơng làm thay đổi cấu trúc dữ liệu hoặc sự can thiệp hỗ trợ của bộ phận tin học, điều này
giúp Hồ dữ liệu mềm dẻo vơ hạn vì nó khơng địi hỏi thay đổi cấu trúc để trả lời các yêu
cầu mới.
214
e. Hồ dữ liệu có thể cung cấp nhiều giải pháp khả thi nhanh chóng
Hồ dữ liệu lưu trữ tất cả dữ liệu và kiểu dữ liệu vì nó cho phép tất cả người dùng truy
cập dữ liệu trước khi nó được cấu trúc và chuyển đổi, người dùng thu được kết quả nhanh
hơn mà không cần các chuyên gia dữ liệu làm sạch và tiêu chuẩn hóa dữ liệu cho họ. Thật
không may, hồ dữ liệu cũng trở thành các đầm lầy dữ liệu vì nó khơng khác gì mớ hổ lốn
chứa khối lượng dữ liệu lớn nhưng không tương thích với bất kỳ tiêu chuẩn nào.
Khó khăn của Hồ dữ liệu
a. Quản lý dữ liệu
Do khối lượng dữ liệu to lớn bên trong hồ dữ liệu, các loại người dùng sẽ chìm đắm
vào dữ liệu, truy vấn, sử dụng và lập báo cáo tùy thích, điều này được xem là thách thức
đáng kể khi muốn đảm bảo dữ liệu được bảo mật và riêng tư.
b. Dữ liệu lộn xộn và khơng tin cậy
Do hồ dữ liệu tích lũy dữ liệu liên tục cùng nhiều cấu trúc và định dạng khác nhau
nên việc bảo vệ dữ liệu ổn định và sạch là nhiệm vụ rất khó khăn. Kiến trúc hồ dữ liệu
hướng tới việc phân phối dữ liệu với ít ràng buộc về định dạng và quy mô của dữ liệu được
lưu trữ hơn so với kho dữ liệu. Hồ dữ liệu cũng mất thời gian để ghi nhận việc truyền dữ
liệu khi người sử dụng yêu cầu, điều này thể hiện trong các truy vấn cho thấy dữ liệu không
đồng nhất cho tới khi các nút trong hHồ dữ liệu đồng nhất. Ngoài ra, hồ dữ liệu cũng khơng
có bất kỳ cơ chế cảnh bảo người dùng khi việc truyền dữ liệu thất bại, thậm chí cũng phải
mất nhiều tuần hoặc tháng để phát hiện các tập con dữ liệu bị hư hỏng hoặc khơng tồn vẹn.
c. Vận hành phức tạp
Hồ dữ liệu tại chỗ có cùng khó khăn trong vận hành tương tự kho dữ liệu tại chỗ, việc
bảo đảm kết quả hoạt động và bảo mật là yêu cầu hàng đầu và bộ phận tin học phải luôn
giữ cho hồ dữ liệu hoạt động đúng chức năng, hệ thống hoạt động luôn đạt tối ưu bất cứ lúc
nào mới được gọi là thành công. Việc xây dựng, chuyển đổi hoặc duy trì hồ dữ liệu trên
nền tảng đám mây hoạt động hiệu quả cũng là một khó khăn, đặc biệt khi tổ chức phải quản
lý cả nền tảng tại chỗ và nền tảng đám mây. Ngoài ra, các giải pháp sử dụng nhiều nền tảng
đám mây ngày nay đang trở nên phổ biến vì 03 lý do sau :
-
Các tổ chức thường cần đa dạng hóa cơ sở hạ tầng nhằm tương thích với các quy
định hoặc giảm thiểu rủi ro.
215
-
Việc ra quyết định độc lập trong các tổ chức lớn thường khiến cho các bộ phận khác
nhau sẽ đầu tư vào các giải pháp của các nhà cung cấp nền tảng đám mây khác nhau.
-
Hoạt động Sát nhập và Thâu tóm (Merger and Acquisition) buộc các tổ chức đi thâu
tóm phải chấp nhận các cơng nghệ có sẵn của các tổ chức bị thâu tóm.
Tóm lại, dù có nhiều khó khăn khi ứng dụng hồ dữ liệu khác với những khó khăn khi
sử dụng kho dữ liệu, các tổ chức vẫn đang có xu hướng chuyển sang hồ dữ liệu vì tính mềm
dẻo và khả năng truy cập tất cả dữ liệu đang có.
2.3 Hệ thống đặc thù
Do có những ứng dụng muốn sử dụng nơi lưu trữ dữ liệu lớn để phục vụ các kiểu dữ
liệu cụ thể nên xuất hiện kiến trúc nền tảng dữ liệu được gọi là hệ thống đặc thù, ví dụ như
ứng dụng Salesforce là nơi lưu trữ dữ liệu lớn mà nhiều doanh nghiệp ứng dụng để quản lý
dữ liệu trong hệ thống Quản lý Quan hệ Khách hàng (Customer Relationship Management),
ứng dụng Workday lưu trữ dữ liệu để quản lý công tác nhân sự.
Lợi ích chính của hệ thống đặc thù là dữ liệu được kiểm soát chặt chẽ và tổ chức theo
những yêu cầu đặc thù trong ứng dụng của nhà cung cấp nền tảng. Có nhiều cách rất hay
đề truy vấn hệ thống và thiết lập các báo cáo theo những chủ đề được quan tâm nhất.
Thách thức hiện nay là khi tổ chức muốn tích hợp dữ liệu của một trong những hệ
thống đặc thù này với hệ thống khác, ví dụ kết hợp dữ liệu hóa đơn tính tiền trong kho dữ
liệu của nền tảng tại chỗ với dữ liệu khách hàng đang được lưu trữ trong nền tảng đám mây
như Salesforce.
Các tổ chức đang ứng dụng kiến trúc nền tảng dữ liệu hệ thống đặc thù cho rằng khó
khăn lớn nhất gặp phải là vận hành phức tạp. Ngồi ra cịn có khó khăn khác cũng rất quan
trọng là Sự tích hợp, dù API cho phép việc tích hợp trở nên dễ dàng hơn nhưng cũng là việc
khó khăn khi loại bỏ nhiều nơi lưu trữ dữ liệu có thể phát sinh từ các hệ thống đặc thù này.
Việc ánh xạ dữ liệu, làm chủ dữ liệu, loại bỏ dữ liệu trùng lắp và quan trọng nhất là di
chuyển dữ liệu từ các định dạng có tính chất độc quyền, hiếm gặp có lẽ là những khó khăn
của hệ thống đặc thù.
3. ẢNH HƯỞNG CỦA DỮ LIỆU TRONG KINH DOANH
Dữ liệu tạo sự khác biệt. Đây chính là nhận thức và tuyên bố của các tổ chức khi nói
về vai trị của dữ liệu trong việc hỗ trợ các hoạt động của tổ chức, trong việc xây dựng kế
216
hoach hành động, chiến lược phát triển và trong việc xây dựng các lợi thế cạnh tranh của
mình. Địi hỏi của các tổ chức đối với các kiến trúc nền tảng lưu trữ dữ liệu hiện đại có thể
tóm tắt như sau :
1. Dữ liệu phải được lưu trữ tập trung.
2. Dữ liệu phải có tính mở
3. Kiến trúc nền tảng lưu trữ dữ liệu phải tương thích, phù hợp, bảo vệ các đặc trưng
của các hoạt động sản xuất kinh doanh trong tổ chức.
Đây được xem là yếu tố rất quan trọng.
4. Kiến trúc nền tảng lưu trữ phải hoạt động được trên nền tảng đám mây toàn diện.
Đây được xem là yếu tố bắt buộc phải có.
5. Hiệu quả trong hoạt động, trong vận hành với chi phí hợp lý.
6. Hỗ trợ tất cả người sử dụng.
Phần lớn các tổ chức ưu tiên tầm nhìn dài hạn khi đầu tư vào dữ liệu hơn là các thành
quả trong ngắn hạn như là giảm chi phí kinh doanh hoặc tăng trưởng doanh thu, điều này
phản ánh quan điểm chung của các tổ chức là khả năng sử dụng dữ liệu hiệu quả cao và
hiệu suất cao sẽ giúp các tổ chức tiếp tục phát triển trong tương lai. Trong nhiều năm qua,
các khuôn mẫu quản lý dữ liệu hỗ trợ kiểu dữ liệu mới đã và đang phát triển. Kể từ khi xuất
hiện cuối thập niên 1980, kho dữ liệu đã tiến hóa để thích nghi với nhu cầu hỗ trợ ra quyết
định và trí tuệ kinh doanh của các tổ chức. Mặc dù kho dữ liệu hoạt động rất tốt với dữ liệu
có cấu trúc nhưng các tổ chức ngày nay đang lưu trữ khối lượng khổng lồ dữ liệu có cấu
trúc và bán cấu trúc để sử dụng, đó là lý do tại sao các tổ chức đã bắt đầu xây dựng hồ dữ
liệu từ đầu những thập kỷ 2010.
Dù hồ dữ liệu lưu trữ dữ liệu thơ hỗ trợ cả dữ liệu có cấu trúc và bán cấu trúc. Hồ dữ
liệu có thể lưu trữ khối lượng lớn dữ liệu nhưng không thể hỗ trợ các giao dịch, quản lý dữ
liệu yếu và thiếu tính ổn định và độc lập cũng gây khó khăn khi kết hợp việc thêm dữ liệu
mới và đọc dữ liệu cũng như thực hiện công việc theo lô và truyền dữ liệu. Điều này khiến
cho hồ dữ liệu không như hứa hẹn nhưng mong muốn của các tổ chức có nhiều hệ thống
dữ liệu đang hoạt động mạnh mẽ và mềm dẻo vẫn rất cao gồm khả năng xử lý nhiều bài
tốn tình huống đa dạng bao trùm cả năng lực phân tích SQL, giám sát theo thời gian thực
cùng lĩnh vực Khoa học dữ liệu, Trí tuệ nhân tạo và Máy học.
217
Sự phát triển của Trí tuệ nhân tạo thời gian gần đây tập trung vào xử lý dữ liệu phi
cấu trúc như chuỗi ký tự, hình ảnh và video, nhưng kho dữ liệu không thể lưu trữ những
kiểu dữ liệu này và hồ dữ liệu không phải giải pháp tối ưu cho các bài tốn tình huống.
Trong nhiều tình huống, các tổ chức triển khai và quản lý nhiều hệ thống, có thể gồm một
hồ dữ liệu và vài kho dữ liệu cùng các Hệ thống đặc thù như cơ sở dữ liệu hình ảnh, đồ họa,
chuỗi thời gian hoặc dịng dữ liệu.
Từ những khó khăn kể trên, một cấu trúc mới xuất hiện là một lựa chọn đáng chú ý
so với các kiến trúc di sản trước đây được gọi là Lakehouse.
3.1. Lakehouse
Lakehouse là sự kết hợp những đặc trưng tốt nhất của hồ dữ liệu và kho dữ liệu,
Lakehouse có cấu trúc dữ liệu và những đặc trưng quản lý dữ liệu tương tự như kho dữ liệu
nhưng sử dụng bộ phận lưu trữ mềm dẻo, chi phí thấp. Nói cách khác, Lakehouse giống
như kho dữ liệu nếu kho dữ liệu được thiết kế trong thời đại bây giờ, thời đại mà bộ lưu trữ
dữ liệu có độ tin cậy cao, chi phí thấp có thể gọi là nơi lưu trữ đối tượng.
Mỗi nền tảng lưu trữ dữ liệu đều có điểm mạnh và điểm yếu khác nhau được tóm tắt
trong hình sau :
Hình: Tóm tắt điểm mạnh, điểm yếu của mỗi nền tảng
218
3.2 Đặc trưng của Lakehouse
a. Hỗ trợ giao dịch
Lakehouse thường sử dụng SQL cùng nhiều dòng dữ liệu để liên tục ghi và đọc dữ
liệu đồng thời. Lakehouse hỗ trợ nguyên tắc ACID trong giao dịch (Atomicity – Độ chi tiết
tối đa, Consistency – Đồng nhất, Isolation – Độc lập, Durability – Độ bền vững) để đảm
bảo sự nhất quán về chất lượng dữ liệu.
b. Tuân thủ lược đồ và Quản lý
Lakehouse hỗ trợ việc tuân thủ lược đồ và sự phát triển của các nền tảng lưu trữ dữ
liệu, bao gồm các mơ hình lược đồ của kho dữ liệu như lược đồ Ngôi sao, lược đồ Bông
tuyết. Lakehouse cũng có khả năng thực hiện tích hợp dữ liệu cùng với vận hành cơ chế
hậu kiểm và quản lý mạnh mẽ.
c. Hỗ trợ Trí tuệ kinh doanh
Lakehouse hỗ trợ các tổ chức vận hành các cơng cụ trí tuệ kinh doanh trực tiếp trên
các Hồ dữ liệu của mình. Việc này giúp cập nhật dữ liệu kịp thời, giảm độ trễ và giảm chi
phí khi lưu trữ cũng như hỗ trợ các bản sao dữ liệu trong cả hồ dữ liệu và kho dữ liệu.
d. Lưu trữ tách biệt với tính tốn
Do bộ phận Lưu trữ và bộ phận Tính tốn sử dụng các cluster bộ nhớ khác nhau nên
Lakehouse có thể mở rộng quy mơ hoạt động phục vụ đồng thời nhiều người sử dụng và
quy mô dữ liệu lớn hơn.
e. Độ mở
Định dạng bộ nhớ mà Lakehouse sử dụng (ví dụ như Apache Parquet, Delta Lake và
Apache HUDI) là mở và được chuẩn hóa và cung cấp API để nhiều loại công cụ và cơ chế
(gồm Máy học và các thư viện của ngơn ngữ lập trình Python/R) có thể truy cập trực tiếp
dữ liệu một cách hiệu quả.
f. Hỗ trợ đa dạng các kiểu dữ liệu gồm cả dữ liệu có cấu trúc và phi cấu trúc
Lakehouse có thể dùng để lưu trữ, lọc, phân tích và truy cập các kiểu dữ liệu cần thiết
để phục vụ các ứng dụng địi hỏi dữ liệu có cấu trúc, dữ liệu phi cấu trúc gồm hình ảnh,
video và chuỗi ký tự.
219
g. Hỗ trợ nhiều loại khối lượng dữ liệu
Lakehouse hỗ trợ tất cả các bài tốn tình huống và nhiều loại khối lượng dữ liệu thuộc
các lĩnh vực như Khoa học dữ liệu, Máy học, SQL và phân tích. Nhiều cơng cụ có thể cần
để hỗ trợ những loại khối lượng dữ liệu này, nhưng chúng cũng đòi hỏi phải cùng nơi lưu
trữ dữ liệu.
h. Đường truyền dữ liệu khép kín
Các loại báo cáo theo thời gian thực là quy chuẩn của nhiều tổ chức, Lakehouse hỗ
trợ truyền dữ liệu mà không cần yêu cầu các hệ thống riêng lẻ chuyên dùng cho các ứng
dụng dữ liệu theo thời gian thực như các nền tảng dữ liệu khác.
Tất cả các đặc trưng quan trọng này giúp cho Lakehouse đang thu hút được rất nhiều
sự chú ý và quan tâm so với chỉ có kho dữ liệu hoặc hồ dữ liệu.
4. KẾT LUẬN
Các công ty thành công nhất trong những thập kỷ tới sẽ là những công ty dữ liệu, dù
những công ty này hoạt động kinh doanh trong những ngành nghề cụ thể khác nhau, ví dụ
các tổ chức ngân hàng ở Việt Nam ngày nay đã nhanh chóng xây dựng các bộ phân nghiên
cứu về dữ liệu với những dữ liệu của mình để từ đó xây dựng các kế họach, chiến lược thậm
chí tham mưu, đóng góp vào việc xây dựng những chính sách của nhà nước hoặc các nhà
bán lẻ, đặc biệt là các nhà bán lẻ trực tuyến cũng sử dụng dữ liệu để “giam cầm” khách
hàng của mình và “buộc” họ phải trung thành với mình vì các nhà bán lẻ hiểu rất rõ mọi
nhu cầu, sở thích và mong muốn của khách hàng để từ đó dồn khách hàng vào các tấm lưới
khổng lồ khơng thể chạy thốt.
Để thực hiện thành cơng cuộc cách mạng chuyển đổi số đòi hỏi các tổ chức phải tập
hợp được tất cả người dùng, tập hợp được tất cả dữ liệu và cung cấp các công cụ dữ liệu
cùng hạ tầng cơ sở để có được sự hiểu biết sâu sắc từ dữ liệu. Các tổ chức cũng chỉ cần một
nền tảng duy nhất để lưu trữ và vận hành các hoạt động dựa trên dữ liệu được xây dựng trên
các tiêu chuẩn mở nhằm phục vụ mọi bộ phận và đội ngũ nhân sự trong tổ chức. Đối với
các tổ chức còn đang lưỡng lự với các nền tảng dữ liệu do các khó khăn hiện hữu có thể áp
dụng cách tiếp cận mới đang nổi lên hoặc đưa toàn bộ giải pháp của nền tảng tại chỗ lên
nền tảng đám mây, nhưng nếu không sử dụng nền tảng đám mây một cách toàn diện, các
220
tổ chức có thể tự mình thay thế các kiến trúc dữ liệu đã lỗi thời bằng một kiến trúc khác mà
khơng làm thay đổi những ưu thế của mình trong dài hạn.
Ngoài ra, các tổ chức cũng cần quản lý các nền tảng lưu trữ và khai thác dữ liệu của
mình quan trọng như quản lý tổ chức, trong đó ln quan tâm, đầu tư cho cơng tác bảo mật
trong toàn nền tảng, đặc biệt với nền tảng đám mây khi phải xử lý khối lượng dữ liệu khổng
lồ cần phải được kiểm sốt chặt chẽ.
Việc tự động hóa trong công tác mở rộng quy mô hoạt động cũng cần phải được ưu
tiên xem xét, đánh giá toàn diện trong mỗi tổ chức nhằm phục vụ cho các nhu cầu, các hoạt
động của tổ chức vận hành liên tục, an toàn và hiệu quả tại mọi thời điểm hoạt động nhằn
nâng cao năng lực hoạt động sản xuất, kinh doanh và xây dựng được lợi thế cạnh tranh
mạnh mẽ, bền vững trong nền kinh tế cạnh tranh mang tính toàn cầu ngày nay
TÀI LIỆU THAM KHẢO
[1]. Matt Aslett, AWS re:Invests lake house architecture for data and analytics, S&P
Global, 01/05/2021.
[2]. Micheal Armbrust, Ali Ghodsi, Reynold Xin, Matei Zaharia, Lakehouse : A new
generation of open platforms that unify data warehousing and advanced analytics,
CIDR, 01/2021.
[3]. M. Armbrust, T. Das, L. Sun, B. Yavuz, S. Zhu, M. Murthy, J. Torres, H. van Hovell,
A. Ionescu, A. undefineduszczak, M. undefinedwitakowski, M. Szafrański, X. Li, T.
Ueshin, M. Mokhtar, P. Boncz, A. Ghodsi, S. Paranjpye, P. Senster, R. Xin, M. Zaharia,
Delta Lake: High-performance ACID table storage over cloud object stores, VLDB,
2020
[4]. D. Davis, AI unleashes the power of unstructured data,
2019.
[5]. Darja Solodovnikova and Laila Niedrite, towards a data warehouse architecture for
managing big data evolution, Science and Technology publications Ltds, 2018.
[6]. Dariusz DymekEmail authorWojciech KomnataPiotr Szwed, Proposal of a new data
warehouse architecture reference model, Communications in Computer and Information
Science, Springer, 2015.
[7]. Yourdon, E., Modern structured analysis, 2nd edition. Prentice Hall PTR, Upper Saddle
River, 2000.
[8]. Dymek, D., Komnata, W., Kotulski, L., Szwed, P., Data warehouse architectures.
reference model and formal architecture description, AGH University of Science and
Technology Press, 2015.
221