XU HƯỚNG QUẢN LÝ DỮ LIỆU
Bùi Mạnh Trường
Khoa Công nghệ Thơng tin. Trường Đại học Tài chính – Marketing
Email
Tóm tắt: Cuộc cách mạng dữ liệu có tiềm năng kinh tế lớn, thậm chí, dữ liệu cịn được coi là
“dầu mỏ mới”. Quản lý dữ liệu là cần thiết để bảo đảm tính bảo mật, tính tồn vẹn, khả năng truy
cập, tính sẵn sàng và chất lượng của dữ liệu. Quản lý dữ liệu là một nhiệm vụ quan trọng đối với
bất kỳ tổ chức nào. Dữ liệu là một tài sản lớn của tất cả các tổ chức và doanh nghiệp, nó giúp đưa
ra những quyết định chính xác trong tất cả các hoạt động tại tất cả các cấp quản lý, cải thiện chiến
dịch tiếp thị và tối ưu hóa hiệu quả của các hoạt động kinh doanh. Điều này đặt ra tầm quan trọng
và sự quan tâm rất lớn đối với công tác Quản lý dữ liệu và là công việc cần phải làm của tất cả
các cơ quan, tổ chức nào. Quản lý dữ liệu luôn là một việc làm quan trọng cần được tiến hành một
cách cẩn thận để có thể đảm bảo tính hiệu quả và phù hợp với xu hướng phát triển của cơng nghệ
ngày nay.
Từ khóa: Dữ liệu, Quản lý dữ liệu, Điện toán đám mây, Hệ quản trị cơ sở dữ liệu
1. ĐẶT VẤN ĐỀ
Quản lý dữ liệu là quá trình thu thập, tổ chức, lưu trữ và duy trì dữ liệu trong tổ chức.
Trong đó, dữ liệu có thể hiểu một cách đơn giản là tập hơn các thông tin. Việc quản lý dữ
liệu hiệu quả vô cùng quan trọng để có thể triển khai hệ thống cơng nghệ thơng tin (CNTT)
thông qua các ứng dụng kinh doanh, thu thập thơng tin khách hàng để phân tích nhằm thúc
đẩy q trình đưa ra quyết định vận hành và vạch ra chiến lược rõ ràng cho doanh nghiệp.
Quy trình quản lý dữ liệu là kết hợp giữa nhiều chức năng khác nhau. Qua đó, đảm bảo dữ
liệu trong hệ thống của doanh nghiệp có được sự chính xác, ln có sẵn cũng như có thể
truy cập được. Quản lý dữ liệu khơng phù hợp sẽ có thể khiến cho các silo dữ liệu của tổ
chức khơng tương thích. Nếu bộ dữ liệu khơng có được sự nhất qn sẽ làm hạn chế khả
năng hoạt động của các ứng dụng phân tích thơng minh, chí tệ hơn có thể dẫn đến những
kết quả bị lỗi, sai lệch.
Thời đại làm chủ dữ liệu nên các tổ chức, doanh nghiệp luôn được chào hàng các giải
pháp về thu thập, phân tích dữ liệu, các giải pháp về Máy học (ML - Machine Learning),
các giải pháp mới về xây dựng công tác quản lý dữ liệu từ những doanh nghiệp khởi nghiệp.
Một số giải pháp quản lý dữ liệu phổ biến hiện nay gồm :
156
Amazon Web Services (AWS)
Bắt đầu với Dịch vụ lưu trữ đơn lẻ (Simple Storage Service - S3), quản lý dữ liệu
AWS bao gồm Elastic MapReduce, Athena, một công cụ truy vấn có đồng hồ đo cho dữ
liệu cư trú trong S3. Để cung cấp môi trường đám mây, AWS CloudFormation cho phép
người dùng sử dụng một tệp văn bản đơn giản để mơ hình hóa và cung cấp tất cả các tài
nguyên cần thiết cho các ứng dụng của mình. Amazon CloudWatch theo dõi và thu thập
các số liệu trên tất cả các tài nguyên của người dùng. AWS Systems Manager cho phép
người dùng giám sát tất cả các tài ngun của mình và tự động hóa các tác vụ vận hành phổ
biến. Cuối cùng, có AWS OpsWorks để quản lý cấu hình.
IBM
IBM cung cấp DBMS độc lập, bao gồm các phiên bản khác nhau của DB2, Hệ thống
PureData của IBM cho trình phân tích, trình tăng tốc phân tích của DB2, Hadoop thông qua
IBM BigInsights, Phương pháp dữ liệu đầu tiên và Nền tảng dữ liệu IBM Watson. Hệ thống
quản trị chính là máy chủ thơng tin IBM, cung cấp quản trị thống nhất dữ liệu của người
dùng, giúp người dùng tìm và tìm kiếm thơng qua các tài sản, khám phá mối quan hệ giữa
các tài sản, tìm kiếm các nguồn dữ liệu phi cấu trúc cũng như cơ sở dữ liệu có cấu trúc và
cho phép tự động phát hiện dữ liệu mới.
Microsoft
Quản trị dữ liệu của Microsoft bắt đầu với bộ năng suất hàng đầu của mình, Office
365, cho phép khách hàng quản lý vịng đời nội dung đầy đủ, từ tạo hoặc nhập dữ liệu đến
lưu trữ và tạo chính sách để giữ và xóa vĩnh viễn nội dung. Office 365 hoạt động bằng một
loạt các sản phẩm của Microsoft được tái sử dụng cho đám mây, bắt đầu với SQL Server,
cả tại chỗ và trong Azure. Nó cung cấp một thiết bị kho dữ liệu có tên Azure SQL Data
Warehouse, một bản phân phối Hadoop dựa trên Hortonworks có tên Azure HDInsight và
Azure Data Lake để thu thập dữ liệu. Kho dữ liệu Azure SQL cũng dành cho sự quan tâm
ngày càng tăng trong lưu trữ dữ liệu đám mây.
Oracle
Oracle bắt đầu với sản phẩm chủ lực của mình, Cơ sở dữ liệu Oracle 12c cùng với Hệ
thống quản lý dữ liệu lớn của Oracle, SQL Big Data SQL và Big Data Connector. Đối với
quản trị dữ liệu cụ thể là Trình quản lý siêu dữ liệu doanh nghiệp Oracle (OEMM) và chất
157
lượng dữ liệu doanh nghiệp của Oracle (EDQ). Hệ thống cũng cung cấp các hệ thống phần
cứng chìa khóa trao tay cho ngăn xếp phần mềm của mình thơng qua Máy cơ sở dữ liệu
Oracle Exadata và công cụ dữ liệu lớn của Oracle cùng các dịch vụ đám mây như Cơ sở dữ
liệu Oracle như một dịch vụ, Dịch vụ đám mây siêu dữ liệu và Dịch vụ đám mây dữ liệu
lớn.
SAP
Đối thủ cạnh tranh cuối cùng của Oracle còn lại, SAP cung cấp IQ DBMS và Hana
cho DBMS trong bộ nhớ và phân tích. Hana đã được cập nhật để bao gồm các tính năng
như sao lưu và phục hồi thảm họa, phân tích, tích hợp với Apache Spark và đa nhiệm. SAP
Hana là một thành phần của Nền tảng SAP. Sau đó, có Quản trị dữ liệu gốc SAP, hợp nhất
và quản lý dữ liệu từ một vị trí để bảo đảm chất lượng và tính nhất quán của dữ liệu.
Teradata
Teradata được biết đến với các nền tảng phân tích, bao gồm DBMS, thiết bị kho dữ
liệu và kho dữ liệu đám mây. Teradata có kết nối thông qua Hadoop bằng Aster Analytics
và truyền dữ liệu qua Teradata Listener, tất cả đều được thiết kế để biểu diễn thông tin qua
một giao diện hợp nhất duy nhất. Chức năng Quản lý dữ liệu gốc của Teradata là một khung
vịng đời hồn chỉnh để quản trị dữ liệu.
Cloudera
Cloudera là một trong ba công ty phân phối lớn của Hadoop và rất thành công.
Cloudera cung cấp Cloudera Enterprise, một bản phân phối Hadoop với cả Hadoop cho các
phân tích hàng loạt và Spark cho các phân tích thời gian thực, cộng với Cloudera Navigator
để quản trị, Cloudera Manager và Cloudera Director cho quản trị cụm cả tại chỗ, trên đám
mây; hỗ trợ AWS, Azure và nền tảng đám mây của Google.
Dell Boomi
Boomi là một công ty con thuộc Dell được mua lại vào năm 2010, chuyên về quản lý
dữ liệu gốc cả tại chỗ và trên đám mây. Boomi có ít hoặc khơng phát triển mã hóa thơng
qua Thư viện quy trình Boomi, nơi cung cấp các ví dụ để xây dựng các ứng dụng quản trị.
Boomi cũng hỗ trợ các nhà cung cấp và trình kết nối PaaS cho Azure, AWS và Google,
cung cấp các trình kết nối EDI để kết nối với các đối tác và hỗ trợ các Docker cho các
phương thức phát triển DevOps.
158
SAS
Toàn bộ nghiệp vụ của SAS được xây dựng trên các phân tích. SAS cung cấp một
giải pháp quản lý dữ liệu gốc gọi là Quản trị dữ liệu SAS để giúp các tổ chức chuẩn bị và
quản lý cả nguồn dữ liệu lớn và dữ liệu truyền thống. SAS cho phép người dùng duy trì và
quản lý các thuộc tính dữ liệu thơng qua một mơ hình dữ liệu chung, gắn cờ thay đổi siêu
dữ liệu, tạo ảnh chụp nhanh, lưu trữ và quản lý danh sách, phân cấp và tạo báo cáo về tình
trạng dữ liệu và mọi khắc phục cần thiết.
Phần mềm TIBCO
TIBCO MDM chuyên cung cấp một khung nhìn thống nhất về dữ liệu của tổ chức
được lưu trữ trong các silo khác nhau, cho phép các tổ chức có được cái nhìn rõ ràng về dữ
liệu nghiệp vụ của họ và hành động nhanh chóng. TIBCO MDM cung cấp trực quan hóa
quy trình cơng việc dữ liệu trong toàn tổ chức, cho phép các tổ chức quan sát các quy trình
và cải thiện khi cần thiết. TIBCO hoạt động cả tại chỗ và trên đám mây thông qua TIBCO
Clarity Cloud Edition.
Quản lý dữ liệu là mọt lĩnh vực rộng lớn bao gồm các giải pháp cho những khối lượng
công việc khác nhau, các kiểu dữ liệu khác nhau cho các tình huống cụ thể khác nhau. Tuy
nhiên, các giải pháp mới mà các doanh nghiệp khởi nghiệp đề xuất ln là những ý tưởng
mà tính tối ưu còn hạn chế, bao gồm :
1.1 Còn tập trung vào nền tảng tại chỗ (On-premise)
Vẫn còn nhiều doanh nghiệp khởi nghiệp chào hàng giải pháp quản lý dữ liệu ở giai
đoạn đầu vốn tập trung vào phân khúc thị trường quản lý dữ liệu tại chỗ nơi mà đã có đơng
đảo những nhà cung cấp phần mềm doanh nghiệp lâu đời nên sẽ rất khó khăn để cạnh tranh
thành công. Trong khi những doanh nghiệp lâu đời này đang nhanh chóng triển khai ứng
dụng cơng nghệ điện tốn đám mây (cloud computing), điều này đòi hỏi các doanh nghiệp
khởi nghiệp cần phải tập trung vào các giải pháp dành riêng cho cơng nghệ điện tốn đám
mây nhằm tăng cường tỷ lệ học tập và lợi nhuận cho khách hàng.
1.2 Hệ thống dùng chung
Từ lâu, các nhà nghiên cứu và chuyên gia đã chỉ ra rằng có sự khác biệt rất lớn trong
kết quả thực hiện công việc giữa các hệ thống chuyên biệt và các hệ quản trị cơ sở dữ liệu
tổng quát (DBMSs-DataBase Management Systems), các doanh nghiệp khởi nghiệp giai
159
đoạn đầu thường tập trung vào việc xây dựng một nền tảng duy nhất được thiết kế để thay
thế các hệ thống đang vận hành rất mạnh mẽ cả trong các ứng dụng xử lý giao dịch và trong
các ứng dụng phân tích dữ liệu.
1.3 Các nền tảng tích hợp
Trong thời gian đầu của kỷ nguyên dữ liệu lớn (Big Data) như Hadoop…, đội ngũ kỹ
sư dữ liệu và nền tảng phải cài đặt thủ cơng phần mềm, cấu hình thủ cơng các cụm mạng
máy tính và liên tục quản lý, điều chỉnh nhiều hệ thống phần mềm phức tạp khác nhau.
Trong khi đó đã có sẵn nhiều cơng cụ giúp đơn giản hóa và tự động hóa nhiều tác vụ này
được chào mời mua hàng từ những doanh nghiệp chuyên tập trung vào việc tích hợp và hợp
nhất các thành phần cấu thành phần mềm khác nhau. Những công cụ này đã được phát triển
trong thời gian dài nên các doanh nghiệp khởi nghiệp cần tận dụng để phát huy sức mạnh
của những cơng cụ này thay vì chỉ đơn giản tích hợp các nền tảng phần mềm riêng lẻ.
Gạt qua bên những hạn chế kể trên, ta vẫn nhận thấy rằng công việc quản lý dữ liệu
thực sự là một lĩnh vực sôi động với minh chứng là sự tồn tại của các doanh nghiệp khởi
nghiệp kỳ lân ngày nay. Bài viết này sẽ liệt kê các lý do và các xu hướng chủ đạo nằm sau
sự lạc quan và chi tiết những việc mà các đội ngũ dữ liệu cùng các kiến trúc nền tảng cần
phải nhớ khi đánh giá, định lượng các giải pháp quản lý dữ liệu trong thời gian tới.
Sau đây là một số công ty quản lý dữ liệu đã huy động được hơn 100 triệu USD, trong
số đó một số đã niêm yết trên thị trường chứng khoán Mỹ, điều này chứng minh được uy
tín, sự lớn manh, xu hướng của thị trường cũng như sự quan tâm và xu hướng của nhu cầu
quản lý dữ liệu của các tổ chức, doanh nghiệp trên thế giới hiện nay.
Hình 1 : Quản lý dữ liệu của lĩnh vực sôi động nhất
(Nguồn : Khảo sát thị trường của Gradient Flow)
160
2. THỊ TRƯỜNG CƠ SỞ DỮ LIỆU NỀN TẢNG ĐÁM MÂY (Cloud DB)
Thị trường cơ sở dữ liệu nền tảng đám mây đang phát triển nhanh hơn toàn bộ thị
trường cơ sở dữ liệu nói chung. Theo đánh giá của công ty Expert Market Research [1], kết
quả cho thấy rằng thị trường Hệ quản trị cơ sở dữ liệu toàn cầu sẽ phát triển đều đặn hàng
năm (chỉ số CAGR) khoảng 12,4% đạt 125,6 tỷ USD vào năm 2026. Theo báo cáo của tạp
chí Bloomberg [2], thị trường cơ sở dữ liệu đám mây sẽ đạt 68,7 tỷ USD vào năm 2026 với
chỉ số CAGR khoảng 38,2%. Các số liệu đánh giá này hoàn toàn phù hợp với kết quả của
khảo sát các kỹ sư dữ liệu của công ty Gradient Flow [3], hầu hết người được phỏng vấn đều
tiết lộ kế hoạch triển khai ứng dụng Cloud DB trong vòng 12 – 24 tháng tiếp theo.
2.1. Sự phát triển của giải pháp Dịch vụ cơ sở dữ liệu (DBaaS – DataBase as a Service)
Cùng sự nổi lên của nền tảng Kho dữ liệu đám mây và kiến trúc quản lý dữ liệu mở
lakehouses, các doanh nghiệp cần giải pháp DBaaS trong các tác vụ của ứng dụng kinh
doanh thông minh (BI-Business Intelligent) và trong các hoạt động phân tích dữ liệu. DBaaS
hiện được rất nhiều nền tảng đa dạng hỗ trợ như Google BigQuery, Databricks, Amazon
Redshift, Snowflake và Azure Synapse.
Đã và đang diễn ra sự dịch chuyển cơ sở dữ liệu của hoạt động sản xuất kinh doanh
hàng ngày lên đám mây với các nền tảng được lựa chọn như MongoDB Atlas, Datastax
AstraDB, Redis, CockroachDB … Theo một nghiên cứu thị trường của Stack Overflow [3]
cho thấy lưu lượng các trang web thảo luận về dịch vụ cơ sở dữ liệu quan hệ Amazon (RDS
– Relational Database Service) tăng 40% hàng năm. Lưu lượng tới các trang của website
Stack Overflow có nội dung trao đổi về cơ sở dữ liệu chuyên biệt dành cho nền tảng đám
mây là Amazon Aurora có tương thích với MySQL và PostgreSQL tăng 200% hàng năm.
Các hệ thống chuyên dụng như cơ sở dữ liệu đồ họa, cơ sở dữ liệu chuỗi thời gian và cơ sở
dữ liệu vector cũng luôn được các doanh nghiệp mời chào sử dụng.
2.2 Hệ thống mã nguồn mở
Tạp chí DB-Engines xếp hạng các DBMSs bằng việc sử dụng các yếu tố và nguồn dữ
liệu như dịch vụ cơ chế tìm kiếm Google Trends, thơng báo tuyển dụng, hội nhóm cơng
việc và mang lưới trang web nghề nghiệp cũng như các mạng xã hội. Đầu năm 2021, hệ
thống mã nguồn mở đã vượt qua DBMSs dựa trên chỉ số so sánh của tạp chí DM-Engines.
Trong số 10 hệ thống hàng đầu của DB-Engines xếp hạng, phần lớn là các hệ thống mã
161
nguồn mở như PostgreSQL, Redis, Mongodb và Elasticsearch thuộc nhóm các hệ thống
phát triển nhanh nhất.
Điẻm số xếp
Giấy phép bản
Giấy
phép
mã
Hình 2 : Lịch sử xu hướng về độ phổ biến của hệ thống mã nguồn mở và DBMSs thương mại
(Nguồn : Bảng xếp hạng của tạp chí DB-Engines)
Một phép đo lường khác về số lượng quan tâm một chủ đề nào đó được r/Database
thu thập và cơng bố gần đây cho thấy, một lần nữa các hệ thống mã nguồn mở chiếm đa số
trong danh sách 10 hệ thống được quan tâm nhất.
Hình 3 : Số lượng quan tâm về hệ thống cơ sở dữ liệu năm 2021
(Nguồn : Tổng kết số liệu của Andy Pavlo và tạp chí GradientFlow)
Cuối cùng, một dấu hiệu chắc chắn về độ phổ biến của hệ thống chính là quy mơ của
hệ sinh thấy và độ phổ biến về giao diện sử dụng. theo những thông tin thu thập được,
Postgre trở thành phương thức trung gian kết nối (API-Application Programming Interface)
cho các cơ sở dữ liệu vận hành và nhiều hệ thống khác chấp nhận giao diện sử dụng của
Postgre.
162
2.3 Sự nổi lên của dịch vụ truy vấn phi máy chủ đối với dữ liệu object store
Trong khảo sát của tạp chí Data Engineering
[4]
gần đây cho thấy AWS Athena và
Google BigQuery là một trong những dịch vụ được sử dụng phổ biến nhất. Athena và
BigQuery cung cấp dịch vụ truy vấn tương tác sử dụng SQL tiêu chuẩn để phân tích dữ liệu
được lưu trữ trong object store. Số lượng sản phẩm phi máy chủ tương tự đang phát triển
và xuất hiện ngày càng nhiều trên thị trường hiện nay. Các doanh nghiệp cung cấp dịch vụ
truy vấn phi máy chỉ bao gồm Databrick với sản phẩm Serverless SQL, Rockset, MinIO
với sản phẩm MC SQL và Microsoft có sản phẩm Azure Data Lake Analytics.
2.4 Việc thúc đẩy phát triển các nền tảng dữ liệu hiện đại sẽ tiếp tục mạnh mẽ hơn
Trong một báo cáo gần đây về xu hướng trong lĩnh vực dữ liệu và Trí tuệ nhân tạo [5]
(AI-Artificial Intelligence) có đề cập tới kiến trúc Nền tảng dữ liệu hiện đại (MDP – Modern
Data Platforms), đây là một Kho dữ liệu và lakehouses đã tạo ra một hệ sinh thái mạnh mẽ
cho các doanh nghiệp khởi nghiệp và các nhà cung cấp công cụ lưu trữ và xử lý dữ liệu.
Nhiều doanh nghiệp khởi nghiệp về sản phẩm dữ liệu đang tích hợp với các nền tảng dữ
liệu hiện đại này và một số đang đặc biệt quan tâm tới các cơng ty có sử dụng nền tảng dữ
liệu hiện đại. Hệ sinh thái các công cụ tích hợp với nền tảng dữ liệu hiện đại bao gồm các
công cụ dùng để khám phá dữ liệu, đánh giá và nâng cao chất lượng dữ liệu, tích hợp dữ
liệu … Hệ sinh thái này còn được gọi là Ngăn xếp dữ liệu hiện đại (Modern Data Stack).
Giống như các nền tảng cơ sở dữ liệu khác có những động lực tồn tại và phát triển,
nền tảng dữ liệu hiện đại cũng tự tìm các động lực tồn tại và phát triển trong vịng xốy
tăng trưởng dựa trên các yếu tố sau :
1. MDPs có nhiều người sử dụng.
2. MDPs tạo ra sự mới mẻ, hiệu quả với thực tiễn nên hấp dẫn với bộ phận người
người, nhà nhà, công ty xây dựng công cụ và phát triển các ứng dụng.
3. Là hệ sinh thái có các cơng cụ và ứng dụng dành cho MDPs khiến cho MDPs mạnh
mẽ hơn, điều này khiến cho người dùng lựa chọn MDPs như một tất yếu của sự phát triển.
4. Vòng xốy tăng trưởng ln lặp lại.
2.5 Có nhiều phương pháp để đánh giá các hệ cơ sở dữ liệu
Cơ sở dữ liệu từ ban đầu chỉ là một khối duy nhất (monolith) bao gồm các thành phần
được tích hợp chặt chẽ với nhau như cơ chế lưu trữ, cơ chế tính tốn và ngơn ngữ đặc tả
163
chuyên biệt. Mỗi cơ chế lưu trữ dữ liệu có phần mở rộng SQL riêng, Oracle có PL/SQL,
Microsoft có T-SQL và người sử dụng sẽ tự mình học cách sử dụng các phần mở rộng cụ
thể để nhanh chóng sử dụng cơ chế tính tốn.
Gần đây, các cơng cụ ETL (Extract – Transform - Load) và ELT (Extract – Load Transform) chuyên biệt cho nền tảng đám mây như Matillion, dbt, Rivery, Fivetran, Airbyte
cùng các công cụ được xây dựng trên các ngôn ngữ trực quan như Tableu, Looker đã tung
ra thị trường một API duy nhất hoạt động như những trình phiên dịch cho các cơ sở dữ liệu
và cơ chế tính tốn. Việc tách rời API khỏi máy tính nhằm giúp người dùng cần phải học
hỏi chỉ duy nhất một API để vận hành dòng dữ liệu liên tục cùng các chương trình trên các
cơ chế tính tốn mới hoặc một cơ sở dữ liệu mới.
Giai đoạn tiếp theo của quá trình phát triển là sự xuất hiện các lớp đại diện trung gian
nhằm giúp nâng cao cấp độ mềm dẻo. Các công cụ như Modin, Substrait và Weld giúp
người dung truy cập cơ sở dữ liệu quen với Python, SQL truy cập dữ liệu dễ hơn… ví dụ,
người dùng đã quen thuộc với các công cụ như Pandas có thể sử dụng nhiều hệ thống cơ sở
dữ liệu khác nhau một cách nhịp nhàng.
Sau đây là sự phân chia các giai đoạn phát triển của công việc quản lý dữ liệu đến
thời điểm hiện tại và xu hướng trong tương lai.
Hình 4 : Độ mềm dẻo tăng khi sử dụng và truy cập DBMSs
(Nguồn : Tạp chí GradientFlow).
164
3. KẾT LUẬN
Trên đây là những xu hướng của công tác lưu trữ, quản lý và xử lý dữ liệu hiện nay
và trong tương lai gần, cũng là định hướng phát triển cho các doanh nghiệp khởi nghiệp lựa
chọn công nghệ phù hơp hoặc có hướng đi riêng phù hợp với điều kiện của mình, ví dụ như:
3.1 Xây dựng Hệ thống xử lý giao dịch trực tuyến (OLTP-OnLine Transaction
Processing) DBaaS tự chủ
Chắc chắn sẽ khơng bao giờ có đủ nhân lực Quản trị hệ cơ sở dữ liệu và chuyên gia
cơ sở dữ liệu vì theo báo cáo gần đây, nguồn lực Công nghệ thông tin (CNTT) chỉ tằng 1%
trong 02 năm gần đây. Nếu đúng tiêu chuẩn thì mỗi một tổ chức sẽ cần hàng trăm, thâm chí
hàng nghìn DBMSs cho các tác vụ, trong đó chỉ một số nhỏ được nhân lực quản trị hệ cơ
sở dữ liệu giám sát và hỗ trợ.
Việc gia tăng ứng dụng DBaaS trên nền tảng đám mây sẽ khiến cho nguồn nhân lực
ít ỏi ngày nay sẽ càng thêm thiếu hụt nghiêm trọng. Một mặt, MDPs gồm Kho dữ liệu đám
mây và lakehouses giúp cho các doanh nghiệp dễ dàng hơn khi triển khai và quản lý Hệ
quản trị cơ sở dữ liệu trong các tác vụ phân tích dữ liệu và các ứng dụng Máy học (ML Machine Learning) nhưng DBaaS OLTP sẽ đòi hỏi các doanh nghiệp lưu tâm và xây dựng
nguồn nhân lực có chất lượng cao cấp chuyên gia. Các nhà phát triển không muốn chỉ cung
cấp và bảo trì, các Giám đốc Cơng nghệ (Chief Technology Officier) cũng khơng muốn th
ngồi các cơng ty tư vấn để tối ưu và quản lý các hệ cơ sở dữ liệu OLTP. Rất may hiện nay
trên thị trường đã xuất hiện các dự án và những hệ thống sử dụng ML để tối ưu và quản lý
các hệ cơ sở dữ liệu như các giải pháp OtterTune, Oracle AD … nhắm tới việc xây dựng
các hệ cơ sở dữ liệu tự chủ và tự đính hướng.
3.2 Hệ cơ sở dữ liệu cho lĩnh vực Thị giác máy tính
Sự trỗi dậy của ngành Học sâu (Deep Learning) trong lĩnh vực Thị giác máy tính
khiến cho việc sử dụng dữ liệu thị giác (gồm hình ảnh, phim) phát triển bùng nổ. Tuy nhiên,
tiến bộ trong cơ sở hạ tầng dữ liệu lại bị chậm trễ, phần lớn các doanh nghiệp tham gia vào
lĩnh vực thị giác máy tính vẫn tiếp tục tự xây dựng các giải pháp quản lý dữ liệu của riêng
mình và lưu trữ hình ảnh dưới dạng tập tin phẳng (flat file). Khi tầm quan trọng của dữ liệu
thị giác tăng lên, các doanh nghiệp cần các hệ quản trị cơ sở dữ liệu có cơ chế lưu trữ, hiển
thị dữ liệu, biên dịch truy vấn, cơ chế tối ưu truy vấn và giao tiếp bằng các ngôn ngữ đặc tả
165
chuyên biệt. Đây là lĩnh vực năng động và đã được đặt nền tảng ban đầu cùng các hệ thống
như TileDB, Scanner, ApertureData, ActiveLoop…
Các doanh nghiệp có năng lực thu thập dữ liệu và giải phóng nguồn lực dữ liệu sẽ có
đủ năng lực cải tiến và vận hành hiệu quả hơn các đối thủ cùng ngành. Nhìn xa hơn BI và
hướng tới các ứng dụng phức tạp hơn, sự quan tâm về các công cụ trong lĩnh vực AI với dữ
liệu làm trung tâm ngày càng tăng là điểm sáng đúng trọng tâm đối với các hệ quản trị cơ
sở dữ liệu và DataOps. Việc kết hợp mơ hình DataOps vào tổ chức, doanh nghiệp sẽ tăng
khả năng hoạt động bằng cách tích hợp dữ liệu vào phương pháp Agile của DevOps và
DevSecOps. Điều đó sẽ tạo ra một mơ hình liền mạch đi qua các bộ phận tổ chức, doanh
nghiệp, bao gồm cả việc quản lý dữ liệu, sản xuất và bảo mật. DataOps cho phép người
dùng có khả năng tương tác đầy đủ với các nguồn dữ liệu, hợp lý hóa hiệu quả việc quản lý
và phân tích dữ liệu. Cuối cùng thì DataOps giúp cải thiện việc phân phối và triển khai sản
phẩm với giá trị dữ liệu an tồn và ln được cập nhật.
TÀI LIỆU THAM KHẢO
[1]. Database Management System (DBMS) Market Size, Share, Trends 2022-2027
(expertmarketresearch.com).
[2]. Cloud Database Market to Reach USD 68720 Million by 2026 at a CAGR of 38.2% |
Valuates Reports - Bloomberg.
[3]. Gradient Flow, 2022 Data Engineering Survey Report, 2022
[4]. StackOverflow, The incredible growth of Amazon RDS, 2022.
[5]. Gradient Flow, 2022 Trends report : Data, Machine Learning, and AI. 2022.
166