XÂY DỰNG HỆ SINH THÁI DỮ LIỆU MỞ CÙNG CMCN 4.0
TS. Tạ Tuấn Anh1
1. DỮ LIỆU TRONG THỜI KÌ CMCN 4.0
Thơng tin, dữ liệu đã ln có vai trị ảnh hưởng quan trọng đối với
nền kinh tế công nghiệp. Tuy nhiên khi đến thời đại CMCN 4.0 thì nó
chiếm giữ ở vị trí số 1 và trở thành động lực chính tạo ra giá trị gia tăng
cho xã hội. Trước đây dữ liệu chỉ được sinh ra bởi con người với các
phương tiện thơ sơ thủ cơng, thì nay dữ liệu có thể được thu thập một
cách tự động từ các thiết bị cảm biến thông qua nền tảng cơng nghệ IoT.
Dự tính đến 2023 trên thế giới sẽ có khoảng 50 tỷ thiết bị IoT (nguồn
statista.com). Chúng cung cấp ra một khối lượng dữ liệu khổng lồ về
hình ảnh, âm thanh, các số liệu đo đạc được thu thập từ hiện trường.
Ngồi ra cơng nghệ cũng cho phép con người thực hiện ghi chép và tạo
ra dữ liệu ở mọi lúc, mọi nơi và được ghi lưu lại một cách dễ dàng và
nhanh chóng. Ngày nay trên các mạng xã hội lớn như Facebook, Twitter
cứ sau mỗi phút thì một khối lượng lớn thơng tin được tạo thêm từ các
chia sẻ của người dùng.
Dữ liệu lớn tạo ra được khái quát bằng 5V (Volume - Velocity Variety - Veracity - Value) để thể hiện cho các đặc điểm quan trọng của
nó là: khối lượng lưu trữ rất lớn; tốc độ tăng trưởng nhanh theo thời gian
thực; đa dạng về chủng loại với hơn 80% là dữ liệu dạng phi cấu trúc;
bị ảnh hưởng bởi nhiều nhiễu tác động tới sự đúng đắn của dữ liệu; và
mang theo các giá trị tiềm ẩn có thể khai thác. Để tạo ra giá trị, dữ liệu
bắt buộc phải được xử lí để trích rút ra thơng tin và từ đó tạo ra tri thức.
1Công ty cổ phần Phát triển nguồn mở và Dịch vụ FDS.
PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở
317
Ví dụ chỉ với dữ liệu hình ảnh thu thập từ camera, thông qua công nghệ
xử lý dựa trên trí tuệ nhân tạo, hệ thống có thể tạo ra tri thức phán đoán
về hành vi tiêu dùng của khách hàng trong một siêu thị bán lẻ. Đây
chính là sức mạnh mà công nghệ sẽ tạo ra sự khác biệt khi ứng dụng
CNTT trong thời kì CMCN 4.0.
Dữ liệu có thể tạo ra giá trị và được xem như là tài sản vơ hình.
Nó có đặc điểm là được khai thác sử dụng nhưng hồn tồn khơng bị
tiêu hao. Tuy nhiên giá trị của dữ liệu không tồn tại vĩnh viễn. Nó cịn
phụ thuộc vào mức độ cập nhật và khả năng có thể khai thác thơng tin,
tri thức tiềm ẩn từ dữ liệu của người sử dụng. Dưới góc nhìn quản lý,
chúng ta phân chia dữ liệu thành 3 dạng sở hữu cơ bản gồm: dữ liệu khu
vực công, dữ liệu khu vực tư, và dữ liệu của cộng đồng.
Dữ liệu khu vực công được tạo ra từ các dịch vụ cơng (hành
chính, kinh tế, xã hội) và thường do các cơ quan chính phủ quản lý.
Tùy thuộc vào chính sách và nghiệp vụ quản lý cụ thể của nhà nước,
dữ liệu cơng có thể được cơng khai toàn bộ hoặc chỉ được chia sẻ một
phần cho người dân, doanh nghiệp khai thác để phục vụ phát triển
kinh tế xã hội. Khác với dữ liệu công, dữ liệu khu vực tư được tạo ra
bởi các doanh nghiệp để phục vụ cho mục đích kinh doanh của chính
tổ chức đó. Dữ liệu này thường bao gồm các thơng tin khách hàng, tài
chính, cung ứng, sản xuất, và bán hàng. Nó là một phần tài sản thơng
tin của doanh nghiệp và cần được bảo vệ để giữ lợi thế cạnh tranh
trước các đối thủ.
Ngày nay nhờ sự phát triển của Internet, dữ liệu cịn có thể dễ dàng
được tạo ra và tập hợp bởi các cá nhân theo mơ hình cộng tác. Đây
chính là phương thức vận hành của các nền tảng dựa trên nguồn lực
đám đông (crowd sourcing) như Wikipedia, Youtube,... Các tổ chức,
doanh nghiệp sở hữu nền tảng vận hành nhưng quyền tác giả đối với dữ
liệu hoàn toàn thuộc về cộng đồng. Tuy nhiên cần phân biệt rõ sự khác
biệt giữa nền tảng dữ liệu cộng đồng với các nền tảng sử dụng cộng tác
viên trong cộng đồng để tạo dữ liệu cho doanh nghiệp (vd. Open Street
Maps vs. Google Maps).
318
XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
2. DỮ LIỆU MỞ VÀ TÀI NGUYÊN TRUY CẬP MỞ
Dữ liệu là một dạng tài nguyên số và được bảo vệ sở hữu trí tuệ
giống như các sản phẩm sáng tạo khác (các tác phẩm văn học, nghệ
thuật và khoa học trong đó có chương trình máy tính và bộ sưu tập dữ
liệu). Bên cạnh dữ liệu, tài nguyên số còn bao gồm cả các loại tư liệu số
hóa khác là tài liệu điện tử, âm thanh, hình ảnh. Việc truy cập và khai
thác sử dụng các tài nguyên số phải tuân thủ luật bản quyền tác giả theo
hai phương thức chính là: được tự do sử dụng miễn phí và phân phối lại
dưới một giấy phép truy cập mở; hoặc đóng hồn tồn cần có sự đồng
ý cho phép sử dụng của chủ sở hữu quyền tác giả. Tài nguyên số cấp
phép mở được quản lý lưu trữ trong các kho truy cập mở để có thể khai
thác sử dụng trên khơng gian mạng. Căn cứ vào tính chất và mục đích
sử dụng của nội dung, chúng ta có thể phân loại các kho lưu trữ gồm có
kho dữ liệu mở, kho xuất bản truy cập mở, kho tài nguyên giáo dục mở,
kho di sản số hóa mở,...
Phong trào cấp phép mở đã xuất hiện đầu tiên trong lĩnh vực phát
triển phần mềm máy tính. Nó theo đuổi triết lí công bố mở các mã nguồn
của phần mềm để cho phép tự do phân phối, sửa đổi, và tái sử dụng trong
các phần mềm phái sinh. Nhờ đó mã nguồn của phần mềm ln đảm bảo
được duy trì và phát triển một cách bền vững bởi cộng đồng. Tuy nhiên
cho đến nay, các loại giấy phép nguồn mở được sử dụng khơng chỉ cho
mục tiêu lí tưởng, chúng đã hình thành ra các mơ hình kinh doanh mới
dựa trên những nguyên lý của nền kinh tế chia sẻ. Tất cả các công ty
công nghệ lớn trên thế giới hiện nay như Google, Facebook, IBM, Intel,
Adobe,... đều đang có những đầu tư cụ thể để thúc đẩy sự phát triển của
các hệ sinh thái phần mềm nguồn mở khác nhau.
Tương tự như phần mềm nguồn mở, các tài nguyên số cũng có thể
được cấp phép truy cập mở. Giấy phép mở đầu tiên cho nội dung ra đời
từ năm 1998 có tên là GFDL (GNU Free Documentation License). Đây
là loại giấy phép có tính mở chặt chẽ nhất. Nó khơng cho phép tạo mới
các sản phẩm phái sinh để phục vụ cho mục đích lợi nhuận. Một nhánh
giấy phép thứ hai ra đời sau đó là OPL (Open Publication License). Nó
yêu cầu chỉ cần ghi công tác giả và cho phép được phân phối các sản
319
PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở
phẩm phái sinh bằng một loại giấy phép khác có thể thu lợi nhuận. Cả
hai nhánh này sau đó được kế thừa để hịa nhập tạo chung một dòng
giấy phép truy cập mở được dùng phổ biến nhất hiện nay là Creative
Commons (CC).
Giấy phép CC quy định các quyền tự do sao chép, xuất bản đi
kèm với các điều kiện ràng buộc có thể được tùy chọn bao gồm: BY phải ghi công tác giả; SA - không được thay đổi giấy phép cho các sản
phẩm phái sinh; NC - khơng được phép thương mại hóa; ND - không
được phép tùy biến sửa đổi, tạo các sản phẩm phái sinh. Tổ hợp các
điều kiện lựa chọn khác nhau, ta có danh sách các loại giấy phép CC
như Bảng 1.
Bảng 1. Nội dung các loại giấy phép Creative Commons
(Nguồn: Lê Trung Nghĩa)
Một dòng giấy phép mở chuyên được sử dụng cho dữ liệu là Open
Data Commons (ODC). Bảng 2 liệt kê các loại giấy phép để lựa chọn
cho dữ liệu mở gồm có: PDDL (Public Domain Dedication and License)
tương đương với giấy phép công cộng CC0; ODC-BY tương đương
với giấy phép truy cập mở CC-BY (ghi công tác giả); và ODbL (Open
Database License) tương đương với giấy phép truy cập mở CC BY-SA
(ghi công và chia sẻ tương tự). Cả 3 loại giấy phép đều cho phép người
dùng được tự do chia sẻ, tạo dữ liệu mới hoặc sửa đổi cơ sở dữ liệu gốc.
Trong trường hợp sử dụng ODbL thì các dữ liệu phái sinh phải được
tiếp tục công bố với giấy phép tương tự.
320
XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
Bảng 2. Nội dung các loại giấy phép dữ liệu mở
(Nguồn: Lê Trung Nghĩa)
Theo đánh giá của World Bank [1], dữ liệu mở mang lại lợi ích cho
người dân, doanh nghiệp và chính phủ ở 4 điểm chính là: i) sự minh
bạch (giúp giám sát tốt hơn các hoạt động của chính phủ); ii) cải thiện
các dịch vụ cơng; iii) thúc đẩy tăng trưởng kinh tế và đổi mới sáng tạo;
iv) tính hiệu quả (giảm chi phí trong khai thác sử dụng dữ liệu). Cụ thể
theo một nghiên cứu tại Châu Âu, giá trị của thị trường tạo ra trực tiếp
từ dữ liệu mở được ước tính là 325 tỉ euro cho 5 năm 2016-2020, nó
giúp tiết kiệm 1,7 tỉ euro chi phí hàng năm trong lĩnh vực cơng, và tạo
ra 100.000 vị trí việc làm mới liên quan đến dữ liệu mở [2]. Theo một
nghiên cứu khác thì dữ liệu mở có thể tạo ra tổng giá trị mỗi năm cho
nền kinh tế tại Mỹ ước tính khoảng 3-5 nghìn tỉ đơ la [3].
Ngồi ra dữ liệu mở và các tài nguyên truy cập mở còn là một phần
của khoa học mở [4]. Trong khoa học mở, thông tin của tồn bộ vịng
đời nghiên cứu sẽ phải mở để sao cho những người làm khoa học có thể
cộng tác và đóng góp. Các kết quả nghiên cứu gồm dữ liệu, phần mềm,
tài liệu ghi chép và xuất bản là sẵn sàng để tự do truy cập, áp dụng các
điều khoản cho phép sử dụng lại, phân phối lại và tái tạo lại trong các
nghiên cứu khác.
3. HỆ SINH THÁI DỮ LIỆU MỞ
Việc cấp phép truy cập mở cho dữ liệu chỉ là bước cần thiết đầu
tiên trong xây dựng hệ sinh thái dữ liệu mở. Giá trị của dữ liệu không
thể khai thác trực tiếp mà cần được xử lý đem lại cho người dùng thơng
qua các ứng dụng. Ngồi ra nó cũng cần phải được duy trì phát triển
một cách có hệ thống và bền vững. Do đó điều kiện đủ để dữ liệu mở có
thể mang lại lợi ích cho xã hội là phải phát triển hệ sinh thái dựa trên 4
PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở
321
yếu tố cơ bản gồm: tính pháp lí, mạng lưới tổ chức, mơ hình kinh doanh
và tiêu chuẩn kĩ thuật.
3.1.Tính pháp lí của dữ liệu
Bên cạnh quyền tác giả, tính pháp lí của dữ liệu cịn liên quan đến
quyền riêng tư, luật về bảo vệ dữ liệu cá nhân, bảo vệ bí mật của nhà
nước. Dữ liệu cá nhân chứa đựng các thông tin được gắn với một danh
tính xác định cá nhân cụ thể. Quyền riêng tư sẽ khơng thể có được nếu
khơng có sự bảo vệ những thông tin cá nhân khỏi truy cập, sử dụng, tiết
lộ, gián đoạn, sửa đổi hoặc phá hủy trái phép. Theo luật an tồn thơng
tin mạng, thơng tin cá nhân chỉ được phép thu thập và sử dụng sau khi
có sự đồng ý của chủ thể thông tin cá nhân về phạm vi và mục đích của
việc thu thập thơng tin đó, trường hợp sử dụng vào mục đích khác mục
đích ban đầu phải có sự đồng ý của chủ thể thông tin cá nhân; không
được cung cấp, chia sẻ, phát tán thông tin cá nhân đã thu thập cho bên
thứ ba mà chưa có sự đồng ý của chủ thể thông tin cá nhân hoặc theo
yêu cầu của cơ quan nhà nước có thẩm quyền. Do vậy trong trường
hợp dữ liệu chứa thông tin cá nhân muốn được công bố với giấy phép
truy cập mở thì cũng cần phải có sự đồng ý của các chủ thể thơng tin
cá nhân. Ngồi ra chủ thể thơng tin cá nhân cịn có quyền yêu cầu cập
nhật, sửa đổi, hoặc hủy bỏ thơng tin cá nhân của mình khỏi bộ sưu tập
dữ liệu tại bất kì thời điểm nào.
Trong khu vực cơng, các dữ liệu cung cấp thông tin được yêu cầu
phải cơng khai theo quy định nhà nước thì cần được cấp phép truy cập
mở. Nó đảm bảo tính pháp lí cho người dân và doanh nghiệp có thể
khai thác sử dụng các thông tin công khai để sáng tạo ra nhiều ứng dụng
khác nhau đem lại lợi ích cho xã hội. Ngược lại, đối với dữ liệu chứa
thông tin mật thì phải được lưu trữ và bảo vệ an tồn thông tin theo
đúng cấp độ được quy định.
3.2. Mạng lưới tổ chức
Mở dữ liệu cũng là một phương thức đóng góp thể hiện trách nhiệm
xã hội của các cá nhân và tổ chức. Nó cần được khuyến khích và có sự
hỗ trợ từ cộng đồng để các chủ sở hữu có thể dễ dàng thực hiện mở dữ
322
XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
liệu theo đúng cách mang lại giá trị cho xã hội. Các mạng lưới tổ chức
được ra đời để đảm nhiệm vai trị duy trì và thúc đẩy các hoạt động mở
rộng hệ sinh thái dữ liệu mở trên thế giới. Một số mạng lưới tiêu biểu có
quy mơ hoạt động tồn cầu hiện nay có thể kể đến là: Open Knowledge
Foundation (okfn.org), Open Data Institute (theodi.org), Open Data for
Development (od4d.net).
Các cá nhân, tổ chức tham gia vào các mạng lưới tổ chức như trên
để nhận được sự trợ giúp tư vấn, đào tạo và thậm chí là cả sự hỗ trợ tài
chính để thực hiện các dự án phát triển về dữ liệu mở. Ngoài ra các sự
kiện thường niên về dữ liệu mở cũng liên tục được tổ chức bởi các mạng
lưới để thu hút sự quan tâm của cộng đồng và chính phủ các nước. Ví
dụ ngày hội dữ liệu mở được tổ chức hàng năm ở nhiều nước trên thế
giới bởi các tổ chức đứng ra đăng cai là chủ nhà. Ngày hội tạo ra cơ hội
để trao đổi kiến thức và trình diễn các lợi ích của dữ liệu mở để từ đó
thúc đẩy các chính sách triển khai dữ liệu mở trong chính phủ, doanh
nghiệp và xã hội dân sự. Mỗi năm ngày hội sẽ quan tâm tới những chủ
điểm khác nhau. Chủ điểm của dữ liệu mở năm 2019 trên toàn cầu là
khoa học mở, bản đồ mở, minh bạch dòng tiền và dữ liệu cho sự phát
triển cơng bằng (opendataday.org).
Do tính chất xã hội hóa rất cao trong các hoạt động, mạng lưới tổ chức
dữ liệu mở thường phải được vận hành dưới sự quản lý của một doanh
nghiệp xã hội hoặc tổ chức phi chính phủ. Tổ chức này cần có đủ uy tín để
huy động được nhiều nguồn tài trợ khác nhau từ các cá nhân, tổ chức trong
đó có các chính phủ. Ngồi ra đơn vị cịn có thể thu kinh phí từ các hoạt
động cung cấp dịch vụ hỗ trợ dưới hình thức phi lợi nhuận. Tồn bộ hoạt
động tài chính của tổ chức được cơng khai minh bạch trong cộng đồng.
3.3. Mơ hình kinh doanh
Hệ sinh thái dữ liệu mở cần được phát triển bền vững dựa trên các
mơ hình kinh doanh phù hợp. Có 5 vai trị chính được xác định trong
một hệ sinh thái nguồn mở là nhà cung cấp dữ liệu, nhà cung cấp dịch
vụ (phân tích dữ liệu), người phát triển ứng dụng, người sử dụng ứng
dụng và nhà cung cấp hạ tầng-công cụ. Trong hệ sinh thái này người sử
dụng ứng dụng là người tiêu thụ đâu cuối trong chuỗi giá trị gia tăng.
PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở
323
Mọi dữ liệu dù thô hoặc đã qua phân tích xử lý đều phải được đưa tới
người dùng thơng qua một ứng dụng có tính sáng tạo.
Mơ hình kinh doanh của hệ sinh thái dữ liệu mở được vận hành
trên các nguyên lý của kinh tế chia sẻ. Dữ liệu có đặc tính quan trọng là
khơng bị tiêu hao khi khai thác sử dụng. Do vậy một tổ chức có thể nhận
các tài trợ hoặc sử dụng ngân sách chính phủ để tạo ra dữ liệu và cung
cấp miễn phí. Các doanh nghiệp sau đó tự do sáng tạo các ứng dụng và
dịch vụ khai thác dữ liệu mở để tạo ra các giá trị sử dụng mới cho người
tiêu dùng. Ví dụ, London có lợi thế là hệ thống cơ sở dữ liệu giao thông
vận tải chi tiết nhất thế giới và đều được công bố miễn phí. Citymaple
đã xây dựng ứng dụng để tìm hiểu người dùng đang ở đâu trong thành
phố và họ muốn đi đến địa điểm nào. Với dữ liệu họ có từ ứng dụng
của mình và dữ liệu trực tiếp từ chính phủ về hệ thống giao thông họ
tạo ra tuyến xe buýt linh động theo nhu cầu người sử dụng, tức là nó ko
đi đúng một tuyến mà ở đâu có người là nó đến đó [5]. Như vậy với dữ
liệu mà chính phủ tạo ra và họ được sử dụng miễn phí giờ họ xây dựng
mơ hình kinh doanh và đưa lại chính ý tưởng đó cho chính phủ cải thiện
mơ hình xe bt của mình.
Trong thực tế, các mơ hình kinh doanh tạo ra lợi nhuận dựa trên dữ
liệu mở được áp dụng trong từng doanh nghiệp rất đa dạng. Theo một
nghiên cứu [6], chúng có thể được phân chia vào 5 nhóm cơ bản gồm: i)
Freemium, miễn phí trên một tập hữu hạn dữ liệu hoặc số lượng truy cập,
sau đó tính phí với các u cầu dịch vụ bổ sung hoặc sử dụng bộ dữ liệu
có chất lượng cao hơn; ii) Premium, cung cấp dữ liệu có chất lượng cao
theo phí chi trả của khách hàng; iii) Cost Saving, doanh nghiệp khơng
chịu tồn bộ chi phí sản xuất mà giảm chi phí dựa trên sự tham gia đóng
góp của khách hàng; iv) Indirect Benefit, cung cấp dữ liệu mở để thúc đẩy
mở rộng thị trường cho mảng kinh doanh khác thu lại lợi nhuận chính của
doanh nghiệp; v) The Razor-Blade, giảm giá cho các bộ dữ đầu tiên, sau
đó tính phí cao hơn cho các bộ dữ liệu bổ sung. Phần lớn các mơ hình
kinh doanh khác nhau được sáng tạo ra nằm trong hai nhóm Freemium và
Premium. Chúng ta có thể tham khảo thêm trên trang web opendata500.
com để biết mơ hình kinh doanh dựa trên dữ liệu mở được áp dụng bởi
các doanh nghiệp hàng đầu ở các nước trên thế giới hiện nay.
324
XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
3.4. Tiêu chuẩn kĩ thuật
Để xây dựng hệ sinh thái, dữ liệu mở phải được xây dựng trên cơ
sở áp dụng các tiêu chuẩn kĩ thuật phù hợp với bộ nguyên tắc FAIR [7].
Bộ nguyên tắc này quy định các yêu cầu cần được bảo đảm để dữ liệu
có thể dễ dàng tìm thấy, truy cập, tương hợp và tái sử dụng bởi cả con
người và máy tính, cụ thể như sau:
Khả năng tìm thấy (Findable): F1 - sử dụng định danh toàn cầu
và vĩnh viễn cho dữ liệu và siêu dữ liệu; F2 - dữ liệu phải được mô tả
đầy đủ với các thuộc tính siêu dữ liệu; F3 - siêu dữ liệu phải chứa tham
chiếu tường minh tới định danh duy nhất của dữ liệu mà nó mơ tả; F4
- dữ liệu và siêu dữ liệu được đăng kí và đánh chỉ mục trong một kho
tìm kiếm.
Khả năng truy cập (Accessible): A1 - có thể truy xuất dữ liệu và siêu
dữ liệu thông qua một giao thức tiêu chuẩn; A2 - siêu dữ liệu vẫn phải có
khả năng truy cập được ngay cả khi dữ liệu khơng cịn tồn tại nữa.
Khả năng tương hợp (Interoperable): I1 - sử dụng ngôn ngữ máy
hiểu để biểu diễn dữ liệu và siêu dữ liệu; I2 - khai thác các từ điển thuật
ngữ dùng chung tuân thủ bộ nguyên tắc FAIR; I3 - có thể chứa tham
chiếu tới các bộ dữ liệu khác.
Khả năng tái sử dụng (Reusable): R1 - xuất bản dữ liệu và siêu dữ liệu
đi kèm với giấy phép truy cập mở; R2 - có mơ tả chi tiết về nguồn cung cấp
dữ liệu; R3 - thỏa mãn các tiêu chuẩn ngành của lĩnh vực áp dụng.
4. HẠ TẦNG DỮ LIỆU MỞ TRONG CHÍNH PHỦ ĐIỆN TỬ
Như đã phân tích, dữ liệu mở trong khu vực cơng có ý nghĩa rất
quan trọng để thúc đẩy đổi mới sáng tạo và phát triển kinh tế xã hội tại
các quốc gia. Chính phủ cần ưu tiên xây dựng hạ tầng kĩ thuật tạo điều
kiện cho hệ sinh thái dữ liệu mở phát triển. Theo Tim Berners-Lee, các
công nghệ của web ngữ nghĩa sẽ được dùng để quản lí chia sẻ dữ liệu
trên mạng Internet trong tương lai. Công nghệ sử dụng cho hạ tầng
chia sẻ dữ liệu có thể phân chia theo 5 mức độ tăng dần để phù hợp với
nguyên tắc FAIR như sau.
PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở
325
• Mức độ 1 - Cấp phép mở (Open License): đưa dữ liệu chia sẻ truy
cập trên Internet và cấp giấy phép truy cập mở.
• Mức độ 2 - Máy đọc được (Machine Readable): đã đạt mức độ 1
và dữ liệu phải được cung cấp dưới định dạng mà máy có thể đọc được.
• Mức độ 3 - Định dạng mở (Open Format): đã đạt mức độ 2,
cộng thêm yêu cầu phải sử dụng các định dạng dữ liệu tiêu chuẩn
mở (không bị khống chế bởi một nhà cung cấp duy nhất).
• Mức độ 4 - Định danh URI (Uniform Resource Identifier): đã
đạt mức độ 3, cộng thêm yêu cầu phải sử dụng các mã định danh URI
(thông qua biểu diễn XML) để mô tả (siêu) dữ liệu và các thuật ngữ
dùng chung.
• Mức độ 5 - Dữ liệu liên kết (Linked Data): đạt mức độ cao nhất
thỏa mãn đủ các nguyên tắc tiêu chuẩn FAIR, cho phép tham chiếu tới
các bộ dữ liệu khác trên toàn cầu (thông qua biểu diễn RDF).
Không phải tất cả hạ tầng dữ liệu mở hiện nay trên thế giới đều đã
đạt được mức độ 5. Tuy nhiên đây là đích đến tất yếu mà các hạ tầng dữ
liệu sẽ phải đạt được để hình thành hệ sinh thái mở trong tương lai. Mức
độ phát triển của hạ tầng kĩ thuật sẽ được dùng làm tiêu chí để đánh giá
xếp hạng về sự sẵn sàng dữ liệu mở của các nước. Ví dụ, bảng xếp hạng
của Open Knowledge Foundation (index.okfn.org) đang thực hiện đánh
giá dựa trên 6 tiêu chí gồm: cấp phép mở; định dạng mở và máy đọc
được; có thể tải về một lần; có cập nhật thường xun; cơng bố rộng rãi;
và miễn phí sử dụng. Các tiêu chí này yêu cầu tương đương với mức
độ 3 theo tiêu chuẩn 5 sao như kể trên. Theo kết quả đánh giá mới nhất,
Đài Loan, Úc, Anh, Pháp, Phần Lan hiện đang dẫn đầu trong tổng số 94
quốc gia trên bảng xếp hạng. Việt Nam vẫn còn nằm trong những nước
chưa được đưa vào bảng đánh giá xếp hạng về dữ liệu mở (do chưa có
đủ nguồn thơng tin để thực hiện đánh giá).
Ngoại trừ các hệ thống cũ đã có từ trước, hạ tầng dữ liệu được xây
dựng cho các hệ thống mới cần ưu tiên đạt tối thiểu mức độ 4. Khi đó
phải thiết lập một hệ thống các chuẩn định danh duy nhất và các thuật
ngữ dùng chung để mô tả dữ liệu và siêu dữ liệu. Chúng nên được áp
dụng thống nhất trên phạm vi của cả quốc gia, ưu tiên sử dụng những
326
XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
chuẩn đã được quốc tế hóa. Ví dụ trong lĩnh vực thông tin khoa học
công nghệ, hệ thống mã quốc tế DOI được khuyến khích áp dụng để
định danh các cơng bố khoa học; mã ORCID để định danh người nghiên
cứu; các thuật ngữ của Dublin Core được dùng cho các1miêu tả siêu dữ
liệu. Việc áp dụng các chuẩn định danh và thuật ngữ dùng chung là yêu
cầu cần thiết để tạo thuận lợi cho q trình trao đổi và tích hợp dữ liệu
trong một hệ sinh thái mở.
5.XÂY DỰNG HỆ SINH THÁI DỮ LIỆU MỞ TẠI VIỆT NAM
Việt Nam đang ở giai đoạn sơ khai của quá trình chuyển đổi số. Hạ
tầng dữ liệu quốc gia vẫn chưa được sẵn sàng. Đặc biệt ở trong khu vực
công, dữ liệu hiện chưa có nhiều và thường được quản lý khá manh mún.
Một số hệ thống CSDL tập trung vẫn còn đang trong q trình triển khai
thơng qua kế hoạch ưu tiên xây dựng 6 CSDL quốc gia về dân cư, đất đai,
đăng kí doanh nghiệp, dân số và tài chính. Do đó việc xây dựng hệ sinh
thái dữ liệu mở tại Việt Nam sẽ là một thách thức lớn do chúng ta còn
thiếu nhiều kinh nghiệm trong quản lý và khai thác dữ liệu lớn.
Tuy nhiên nhận thức về sự cần thiết xây dựng hạ tầng dữ liệu mở
đã được thể hiện trên thực tế trong các đề án xây dựng đơ thị thơng
minh tại một số thành phố lớn. Ví dụ trong Đề án của Thành phố Hồ
Chí Minh, “Trung tâm kho dữ liệu dùng chung và phát triển hệ sinh thái
dữ liệu mở” là một trong bốn trụ cột công nghệ sẽ được xây dựng. Hiện
Thành phố đã đưa vào vận hành Cổng khai thác dữ liệu mở tại địa chỉ
. Dữ liệu mở được cung cấp trên Cổng
tương đương với mức độ 3 của tiêu chuẩn 5 sao. Tuy nhiên cịn có một
thiếu sót lớn là tất cả các bộ dữ liệu được đăng tải trên Cổng chưa được
gắn với bất kì với một giấy phép truy cập mở nào.
Một đề án xây dựng hạ tầng dữ liệu khác ở quy mô quốc gia là
xây dựng Hệ tri thức Việt số hóa. Mặc dù khơng được đề cập trực tiếp,
nhưng toàn bộ mục tiêu và nội dung của Đề án hồn tồn phù hợp với
mơ hình xây dựng một hệ sinh thái dữ liệu và tài nguyên truy cập mở tại
Việt Nam. Hiện nay các sản phẩm của Đề án được công bố và đưa vào
vận hành khai thác tại địa chỉ . Các dự án thành phần
của Đề án hiện nay gồm có: Kho dữ liệu mở, Kho ứng dụng, Kho chia
PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở
327
sẻ kiến thức, Kho tài nguyên giáo dục, Kho di sản số hóa, Nền tảng dữ
liệu bản đồ Việt Nam, và Nền tảng dữ liệu tiếng Việt. Tuy nhiên cách
tiếp cận xây dựng của các dự án chưa thực sự đáp ứng được các yêu cầu
phát triển bền vững dựa trên mơ hình của hệ sinh thái mở. Các lí do cụ
thể được mơ tả sau đây.
Thứ nhất, chỉ có Dự án “Kho dữ liệu mở” là đã được công bố mở
gắn với giấy phép CC BY-NC (không được thương mại hóa). Tất cả các
dự án khác đều chưa được cơng bố mở. Do vậy sẽ rất khó khăn cho việc
phát triển hệ sinh thái, cho phép đổi mới sáng tạo ra các nội dung, dịch
vụ và ứng dụng mới dựa trên các dữ liệu được chia sẻ. Các nhà phát
triển và người sử dụng sẽ gặp phải các vướng mắc bởi vấn đề pháp lí
khi bản quyền sử dụng khơng rõ ràng.
Thứ hai, chưa hình thành được mạng lưới tổ chức hỗ trợ cộng
đồng dữ liệu mở. Hiện nay toàn bộ Đề án đang được điều hành bởi Cục
Thông tin khoa học & công nghệ quốc gia trực thuộc Bộ Khoa học &
Công nghệ. Cơ quan này chỉ nên đóng vai trị thực hiện chức năng quản
lý của nhà nước trong việc thúc đẩy các chính sách về xây dựng hệ sinh
thái dữ liệu mở. Các hoạt động cụ thể của Đề án chỉ có thể xã hội hóa
được khi có một tổ chức phi lợi nhuận đảm nhiệm vai trò xây dựng
mạng lưới, thực hiện tư vấn, tập huấn cho các tổ chức, cá nhân tham gia
đóng góp vào việc tạo lập dữ liệu. Tổ chức phi lợi nhuận này cần hoạt
động như doanh nghiệp để có thể thu hút được nhiều nguồn tài trợ cả
trong và ngồi chính phủ phục vụ triển khai các dự án mở theo đúng các
chuẩn mực quốc tế.
Thứ ba, chưa có các chính sách cụ thể để khuyến khích hình thành
các mơ hình kinh doanh dựa trên hệ sinh thái dữ liệu mở. Đây là yếu
tố then chốt quyết định tới sự phát triển bền vững của các dự án triển
khai trong Đề án. Tham gia vào hệ sinh thái sẽ khơng chỉ có các đơn vị
tạo lập và chia sẻ dữ liệu, mà cần có cả các đối tác phát triển ứng dụng,
cung cấp các dịch vụ giá trị gia tăng trên cơ sở khai thác dữ liệu mở. Họ
sẽ liên tục đổi mới, sáng tạo ra những mô hình kinh doanh mới tạo ra
giá trị kinh tế để đóng góp ngược trở lại cho hệ sinh thái.
328
XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
Thứ tư, các nguyên tắc FAIR chưa được tuân thủ để hướng tới tạo
dựng được hạ tầng kĩ thuật đạt chuẩn mức độ 5 hỗ trợ dữ liệu liên kết
mở. Hiện tại các dữ liệu được công bố trong Kho dữ liệu mở của Đề án
mới đạt chuẩn mức độ 1 (cịn sử dụng định dạng pdf khơng dùng được
cho máy đọc). Chuẩn dữ liệu sử dụng trong các kho dữ liệu khác của Đề
án thì chưa có các mơ tả cụ thể được cơng bố. Để tránh lãng phí nguồn
lực, tất cả các dự án xây dựng mới dữ liệu được khuyến cáo phải xem
xét đạt chuẩn tối thiểu mức độ 4.
Dữ liệu là nguyên liệu tạo ra các tri thức cho tương lại. Xây dựng
hệ sinh thái dữ liệu mở là hướng đi theo đúng xu thế chung trên tồn thế
giới. Tuy nhiên nó là cơng việc rất phức tạp, địi hỏi sự nhất qn và kiên
trì theo đuổi để đạt được mục tiêu trong dài hạn. Khó có thể tạo ra được
hệ sinh thái dữ liệu mở có thể mang lại ngay lợi ích kinh tế trong thời gian
ngắn hạn. Các cách tiếp cận làm dự án dữ liệu mở chạy theo phong trào
sẽ nhanh chóng lỗi thời, hết giá trị sử dụng do không được nuôi dưỡng
bởi một hệ sinh thái. Mặc dù có rất nhiều thách thức, nhưng Việt Nam là
nước đi sau nên có cơ hội học hỏi kinh nghiệm các nước đi trước để chọn
ra được các cách làm đúng, tránh được sự lãng phí trong các đầu tư.
TÀI LIỆU THAM KHẢO
1.
The World Bank Group, “Starting an Open Data Initiative”, truy cập ngày
20/8/2019 tại />
2.
European Data Portal, “Creating Value through Open Data”, truy cập
ngày 20/8/2019 tại />creating-value-through-open-data
3.
James Manyika, Michael Chui, Diana Farrell, Steve Van Kuiken, Peter
Groves, and Elizabeth Almasi Doshi, “Open data: Unlocking innovation
and performance with liquid information”, truy cập ngày 20/8/2019 tại
/>
4.
Lê Trung Nghĩa, “Rất cần khoa học mở cho CMCN 4.0”. Tạp chí Tia
sáng, truy cập ngày 20/8/2019 tại />
PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở
329
5.
Thanh Nhàn, “Mở dữ liệu chính phủ - Kinh nghiệm từ Vương quốc Anh”,
Tạp chí Thơng tin và Truyền thông, truy cập ngày 20/8/2019 tại http://
ictvietnam.vn/tuong-tac/mo-du-lieu-chinh-phu-kinh-nghiem-tu-vuongquoc-anh.htm
6.
Zeleti, F. A., Ojo, A., & Curry, E. (2014). “Emerging Business Models for
the Open Data Industry: Characterization and Analysis”. In Proceedings
of the 15th Annual International Conference on Digital Government
Research (pp. 215–226).
7.
Wilkinson, M. D. et al. “The FAIR Guiding Principles for scientific data
management and stewardship”, Scientific Data. Vol 3, 2016.