Tải bản đầy đủ (.pdf) (12 trang)

Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (547.9 KB, 12 trang )

NGÀNH KHOA HỌC DỮ LIỆU: NHU CẦU VÀ KỸ NĂNG
Nguyễn Thanh Trường
Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email:

Tóm tắt: Việc sử dụng thuật ngữ "khoa học dữ liệu" ngày càng phổ biến, cũng như "dữ liệu lớn".
Nhưng nó có nghĩa gì? Có điều gì độc đáo về nó? Những kỹ năng "nhà khoa học dữ liệu" cần để làm
việc hiệu quả trong một thế giới bị che khuất bởi dữ liệu? Tìm hiểu khoa học có những tác động gì? Là
những câu hỏi thường đặt ra gần đây. Các nhà khoa học dữ liệu thường đóng vai trị là nhà tư vấn
được th bởi các công ty nơi họ tham gia vào các quá trình ra quyết định khác nhau và tạo ra các
chiến lược. Nói cách khác, Nhà khoa học dữ liệu sử dụng những hiểu biết sâu sắc có ý nghĩa từ dữ
liệu để hỗ trợ các công ty đưa ra các quyết định kinh doanh thơng minh hơn.
Từ khóa: Khoa học dữ liệu, data Science, phân tích dữ liệu, data analytics

1. GIỚI THIỆU
Khoa học dữ liệu (KHDL) là khoa học về việc quản trị và phân tích dữ liệu để tìm ra
các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. KHDL gồm ba
phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, và chuyển kết quả phân tích thành
giá trị của hành động. Nơm na bước thứ nhất là về số hóa và bước thứ hai là về dùng dữ
liệu. Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức: tốn học (thống kê tốn
học), cơng nghệ thơng tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể.
“Khoa học dữ liệu là về khai thác, chuẩn bị, phân tích, trực quan hóa và duy trì thông
tin. Đây là một lĩnh vực liên ngành sử dụng các phương pháp và quy trình khoa học để rút
ra những hiểu biết sâu sắc từ dữ liệu”.

Hình 1: Các khối kiến thức liên quan đên Khoa học dữ liệu
306


Với sự xuất hiện của các công nghệ mới, dữ liệu đã tăng lên theo cấp số nhân. Điều
này đã tạo cơ hội để phân tích và rút ra những hiểu biết sâu sắc có ý nghĩa từ dữ liệu.


Nó địi hỏi kiến thức chun mơn đặc biệt của một ‘Nhà khoa học dữ liệu’, người có
thể sử dụng các công cụ thống kê & máy học khác nhau để hiểu và phân tích dữ liệu. Một
Nhà Khoa học Dữ liệu, chuyên về Khoa học Dữ liệu, không chỉ phân tích dữ liệu mà cịn
sử dụng các thuật tốn học máy để dự đoán các sự kiện xảy ra trong tương lai.
Do đó, chúng ta có thể hiểu Khoa học dữ liệu là một lĩnh vực liên quan đến việc xử
lý dữ liệu, phân tích và trích xuất thơng tin chi tiết từ dữ liệu bằng nhiều phương pháp thống
kê và thuật tốn máy tính khác nhau. Nó là một lĩnh vực đa ngành kết hợp toán học, thống
kê và khoa học máy tính.
2. MỘT SỐ KHĨ KHĂN KHI HỌC TẬP VÀ NGHIÊN CỨU KHOA HỌC DỮ LIỆU

Hình 2:Vị trí của ngành Khoa học dữ liệu

Kỹ năng
Kỹ năng máy học đang nhanh chóng trở nên cần thiết đối với các nhà khoa học dữ
liệu khi các công ty điều hướng cơn bão dữ liệu và cố gắng xây dựng các hệ thống quyết
định tự động dựa trên độ chính xác của dự đốn. Một khóa học cơ bản về máy học là cần
thiết trong thị trường ngày nay. Ngoài ra, kiến thức về xử lý văn bản và "khai thác văn bản"
đang trở nên cần thiết trước sự bùng nổ của văn bản và dữ liệu phi cấu trúc khác trong các
hệ thống chăm sóc sức khỏe, mạng xã hội và các diễn đàn khác. Kiến thức về các ngôn ngữ

307


đánh dấu như XML và các dẫn xuất của nó cũng rất cần thiết, vì nội dung được gắn thẻ và
do đó có thể được máy tính thơng dịch tự động.
Kiến thức của các nhà khoa học dữ liệu về học máy phải xây dựng dựa trên các kỹ
năng cơ bản hơn thuộc ba lớp rộng: Thứ nhất là thống kê, đặc biệt là thống kê Bayes, đòi
hỏi kiến thức làm việc về xác suất, phân phối, kiểm tra giả thuyết và phân tích đa biến. Nó
có thể được mua trong một trình tự hai hoặc ba khóa học. Phân tích đa biến thường trùng
lặp với kinh tế lượng, liên quan đến việc điều chỉnh các mơ hình thống kê mạnh mẽ với dữ

liệu kinh tế. Không giống như các phương pháp học máy, khơng đưa ra hoặc có ít giả định
về dạng hàm của mối quan hệ giữa các biến, phân tích đa biến và kinh tế lượng tập trung
nhiều vào việc ước lượng các tham số của mô hình tuyến tính, trong đó mối quan hệ giữa
các biến phụ thuộc và độc lập được biểu thị dưới dạng bình đẳng tuyến tính.
Lớp kỹ năng thứ hai đến từ khoa học máy tính và liên quan đến cách dữ liệu được
trình bày và thao tác bên trong bởi máy tính. Điều này liên quan đến một chuỗi các khóa
học về cấu trúc dữ liệu, thuật toán và hệ thống, bao gồm tính tốn phân tán, cơ sở dữ liệu,
tính tốn song song và tính tốn chịu lỗi. Cùng với các ngôn ngữ kịch bản (chẳng hạn như
Python và Perl), các kỹ năng hệ thống là nền tảng cơ bản cần thiết để xử lý các tập dữ liệu
có kích thước hợp lý. Tuy nhiên, để xử lý các tập dữ liệu rất lớn, các hệ thống cơ sở dữ liệu
chuẩn được xây dựng trên mơ hình dữ liệu quan hệ có những hạn chế nghiêm trọng. Bước
tiến gần đây đối với điện toán đám mây và các cấu trúc không tương quan để xử lý các bộ
dữ liệu khổng lồ một cách mạnh mẽ báo hiệu một loạt kỹ năng cần thiết mới cho các nhà
khoa học dữ liệu.
Lớp kỹ năng thứ ba yêu cầu kiến thức về mối tương quan và nhân quả và là trọng tâm
của hầu như bất kỳ bài tập mơ hình hóa nào liên quan đến dữ liệu. Mặc dù dữ liệu quan sát
thường giới hạn chúng ta trong các mối tương quan, nhưng chúng ta có thể gặp may. Đơi
khi dữ liệu phong phú có thể đại diện cho các thử nghiệm ngẫu nhiên tự nhiên và khả năng
tính tốn xác suất có điều kiện một cách đáng tin cậy, cho phép khám phá cấu trúc nhân
quả.22 Việc xây dựng mơ hình nhân quả là mong muốn trong các lĩnh vực mà người ta có
độ tin cậy hợp lý về tính hồn chỉnh của mơ hình đã xây dựng và tính ổn định của nó, hoặc
liệu mơ hình nhân quả "tạo ra" dữ liệu quan sát là ổn định. Ít nhất, một nhà khoa học dữ
liệu nên có một ý tưởng rõ ràng về sự khác biệt giữa mối tương quan và quan hệ nhân quả

308


và khả năng đánh giá mơ hình nào là khả thi, mong muốn và thực tế trong các bối cảnh
khác nhau.
Bộ kỹ năng cuối cùng là bộ kỹ năng ít được tiêu chuẩn hóa nhất và hơi khó nắm bắt

và ở một mức độ nào đó là một thủ cơng nhưng cũng là yếu tố khác biệt quan trọng để trở
thành một nhà khoa học dữ liệu hiệu quả, khả năng hình thành vấn đề theo cách dẫn đến
các giải pháp hiệu quả. Herbert Simon, nhà kinh tế học người Mỹ thế kỷ 20, người đã đặt
ra thuật ngữ "trí tuệ nhân tạo" đã chứng minh rằng nhiều vấn đề dường như khác nhau
thường là "đẳng hình" hoặc có cấu trúc cơ bản giống hệt nhau. Ông đã chứng minh rằng
nhiều bài tốn đệ quy có thể được biểu diễn dưới dạng bài toán Towers of Hanoi tiêu chuẩn,
hoặc liên quan đến các trạng thái và toán tử ban đầu và mục tiêu giống hệt nhau. Điểm lớn
hơn của ông là có thể dễ dàng giải quyết các vấn đề dường như khó khăn nếu được thể hiện
một cách sáng tạo với tính đẳng hình trong tâm trí.
Theo nghĩa rộng hơn, chuyên môn về công thức liên quan đến khả năng nhìn thấy
những điểm chung trong các vấn đề rất khác nhau; ví dụ, nhiều vấn đề có "các lớp mục tiêu
không cân bằng" thường biểu thị biến phụ thuộc đôi khi chỉ thú vị (chẳng hạn như khi mọi
người phát triển các biến chứng của bệnh tiểu đường hoặc phản ứng với các đề nghị hoặc
khuyến mãi tiếp thị). Đây là những trường hợp quan tâm mà chúng tôi muốn dự đoán.
Những vấn đề như vậy là một thách thức đối với các mơ hình, theo thuật ngữ Popperian,
phải cố gắng đưa ra các dự đốn có khả năng sai trừ khi mơ hình cực kỳ giỏi trong việc
phân biệt giữa các lớp. Các nhà khoa học dữ liệu có kinh nghiệm đã quen thuộc với những
vấn đề này và biết cách hình thành chúng theo cách giúp hệ thống có cơ hội đưa ra dự đốn
chính xác trong điều kiện mà các yếu tố tiên quyết được xếp chồng lên nhau nhiều chống
lại nó.
Kỹ năng xây dựng vấn đề đại diện cho kỹ năng cốt lõi của các nhà khoa học dữ liệu
trong thập kỷ tới. Thuật ngữ "tư duy tính tốn" do Papert21 đặt ra và được Wing32 xây
dựng có tinh thần tương tự như các kỹ năng được mơ tả ở đây. Có hoạt động đáng kể trong
các trường đại học để đào tạo sinh viên kỹ năng đặt vấn đề và cung cấp các môn tự chọn
được cấu trúc xung quanh cốt lõi phù hợp hơn với các ngành cụ thể.
Cuộc cách mạng khoa học dữ liệu cũng đặt ra những thách thức tổ chức nghiêm trọng
về cách các tổ chức quản lý các nhà khoa học dữ liệu của họ. Bên cạnh việc nhận ra và ni
dưỡng các bộ kỹ năng phù hợp, nó đòi hỏi sự thay đổi trong tư duy của các nhà quản lý đối
309



với việc ra quyết định dựa trên dữ liệu để thay thế hoặc tăng cường trực giác và các thực
hành trong quá khứ. Một câu nói nổi tiếng của nhà thống kê người Mỹ thế kỷ 20 W. Edwards
Demming "Chúng tôi tin tưởng vào Chúa, mọi người khác xin vui lòng mang theo dữ liệu"
đã đặc trưng cho định hướng mới, từ việc ra quyết định dựa trên trực giác đến việc ra quyết
định dựa trên thực tế.
Từ quan điểm ra quyết định, chúng ta đang chuyển sang kỷ nguyên dữ liệu lớn, nơi
đối với nhiều loại vấn đề, máy tính vốn dĩ là người ra quyết định tốt hơn con người, nơi mà
"tốt hơn" có thể được định nghĩa về chi phí, độ chính xác và khả năng mở rộng. Sự thay đổi
này đã xảy ra trong thế giới tài chính sử dụng nhiều dữ liệu, nơi máy tính đưa ra phần lớn
các quyết định đầu tư, thường chỉ trong vài phần giây, khi có thơng tin mới. Điều tương tự
cũng xảy ra trong các lĩnh vực quảng cáo trực tuyến nơi hàng triệu cuộc đấu giá được tiến
hành trong mili giây mỗi ngày, kiểm sốt khơng lưu, định tuyến giao hàng và nhiều loại
nhiệm vụ lập kế hoạch địi hỏi quy mơ, tốc độ và độ chính xác đồng thời, một xu hướng có
khả năng tăng nhanh trong vài năm tới.
3. NHU CẤU NHÂN LỰC TRÊN THẾ GIỚI VÀ VIỆT NAM
3.1. Trên thế giới
“Các công việc thuộc ngành khoa học Dữ liệu đang ngày càng trở nên hấp dẫn hơn”,
theo Andrew Flowers – một nhà kinh tế học từ tổ chức Indeed với trụ sở tại Austin, Texas.
Báo cáo từ Indeed cho thấy nhu cầu tuyển dụng nhân lực ngành này tăng 29% sau
mỗi năm, và mức tăng trưởng 344% từ năm 2013. Nhu cầu tuyển dụng các chuyên gia khoa
học dữ liệu càng tăng lên khi các tổ chức tự duy trì hoạt động thơng qua việc nghiên cứu
dữ liệu.
Tương tự, dữ liệu từ một website tuyển dụng ngành công nghệ cho thấy nhu cầu nhân
lực liên quan đến khoa học dữ liệu trên nền tảng website ấy đã tăng hơn 32%, và vì thế
khoa học dữ liệu được coi là “một kỹ năng có nhu cầu cao”.
Các thông báo tuyển dụng là của các công ty đến từ nhiều lĩnh vực khác nhau, không
chỉ riêng về công nghệ. Nhu cầu cho khoa học dữ liệu đang tăng lên đều đặn với hơn 32,000
tin tuyển dụng mới vào mỗi tháng.
Khi các công ty nhận ra giá trị và tầm quan trọng của Big Data, họ càng đẩy mạnh sử

dụng nó để đưa ra các quyết định kinh doanh đúng đắn hơn.
310


Lý do tăng nhanh nhu cầu về nhân lực trong ngành khoa học dữ liệu:
Các công ty đang đối mặt với những thách thức trong việc xử lý dữ liệu
Mỗi ngày, những công ty tạo ra một số lượng lớn dữ liệu. Điều này đó nghĩa là dù
mỗi cơng ty đang sở hữu rất nhiều dữ liệu, họ lại không thật sự biết nên làm gì với những
thơng tin ấy. Vậy nên để xử lý khối lượng thông tin này và khai thác thông tin từ chúng, họ
cần đội ngũ những chuyên gia trong ngành khoa học dữ liệu.
Sự thiếu hụt nhân lực có trình độ cao
Đồng sáng lập và Giám đốc điều hành của Fractal Analytics, ông Srikanth
Velamakanni cho biết: “Có hai sự thiếu hụt nhân tài: Chuyên gia khoa học dữ liệu – người
có thể thực hiện phân tích dữ liệu, và Cố vấn phân tích dữ liệu – người có thể hiểu và vận
dụng thơng tin.
Nguồn cung cấp nhân lực cho 2 công việc này, đặc biệt là Chuyên gia phân tích dữ
liệu, là cực kỳ hiếm hoi, trong khi nhu cầu thì ngày càng tăng.
Tháng 8 năm 2018, kết quả thống kê của LinkedIn cho thấy thiếu hụt hơn 150,000
người có kỹ năng khoa học dữ liệu tại Mỹ. Khoảng thiếu hụt cung-cầu này sẽ giảm bớt khi
có rất nhiều chuyên gia khoa học dữ liệu tài năng thâm nhập thị trường lao động này.
Khó khăn trong việc tìm kiếm những người đa tài
Các chuyên gia khoa học dữ liệu thường được mong đợi sẽ có kiến thức về ít nhất
một ngơn ngữ lập trình – Python và R là chính.
Các chuyên gia khoa học dữ liệu cũng được mong đợi sẽ có kinh nghiệm trong thực
hành các công cụ như Hadoop, Spark, NoQuery, cũng như kinh nghiệm đào tạo về mơ hình
thống kê, máy học và lập trình.
Song song với mơ hình thống kê và máy học đang tạo ra nhiều nhu cầu về kỹ năng
ngơn ngữ lập trình SQL, Apache Spark và các hệ thống cơ sở dữ liệu quan hệ cũng như cơ
sở dữ liệu NoQuery cũng rất được chú ý. Đây thường là những thứ khó tìm thấy ở chỉ một
người trong lĩnh vực này.

Rào cản gia nhập cho các chuyên gia thuộc lĩnh vực khác
Phần lớn chuyên gia khoa học dữ liệu có nền tảng tốn học/thống kê, khoa học máy
tính, kỹ thuật và khoa học tự nhiên, một số có bằng kinh doanh, kinh tế và khoa học xã hội.
311


Những người khơng có nền tảng máy tính/tốn học có thể gặp khó khăn nhưng vẫn
có thể tự nâng cao trình độ qua các khóa học online.
Mức lương rất hậu hĩnh
Do nhu cầu cao đối với các nhà khoa học dữ liệu và các vai trò khoa học dữ liệu khác,
mức lương cho vị trí này cũng được nâng lên. Công việc này là một trong những việc làm
được trả lương cao nhất trong ngành vào thời điểm hiện tại.
Theo Glassdoor, lương trung bình cho nhà khoa học/nhà phân tích dữ liệu đứng đầu
hơn 62.000 đô la Mỹ/năm. Ở Ấn Độ, kinh nghiệm quyết định nhiều đến việc trả lương.
Tổ hợp của rất nhiều vai trò
Khoa học dữ liệu là tổ hợp của một số mảng như thống kê, phân tích dữ liệu, máy
học và lập trình máy tính. Do đó, nhân sự ngành khoa học dữ liệu có thể đảm nhận nhiều
vai trò như:
-

Nhà khoa học dữ liệu

-

Nhà phân tích dữ liệu

-

Kiến trúc sư dữ liệu


-

Nhà phân tích kinh doanh

-

Kỹ sư dữ liệu

-

Quản trị viên cơ sở dữ liệu

-

Nhà thống kê

-

Trình quản lý dữ liệu và phân tích

Nhà khoa học dữ liệu là một trong những chức danh công việc địi hỏi khắt khe nhất
và là một vị trí có mức lương cao nhất trong lĩnh vực khoa học dữ liệu.
Nhu cầu nhân lực ngành khoa học dữ liệu ngày càng lớn, do đó ngày càng nhiều sinh
viên theo học và trau dồi kỹ năng ngành này.
Các vai trò & Công việc Khoa học Dữ liệu hàng đầu cho năm 2019: Tìm những gì
phù hợp với bạn nhất [5]
“Nhà khoa học dữ liệu, chức danh công việc quyến rũ nhất trong thế kỷ 21”

312



Tùy theo chun ngành và vị trí thì có các mức lương khác nhau:
Data Architect: Một số công cụ quan trọng được kiến trúc sư dữ liệu sử dụng là XML,
Hive, SQL, Spark và Pig. Mức lương trung bình của kiến trúc sư dữ liệu là $ 123,680/năm.
Data Science Manager: Ứng viên cũng nên có kỹ năng giao tiếp và lãnh đạo mạnh
mẽ để hướng dẫn nhóm một cách hiệu quả. Mức lương trung bình cho một nhà quản lý
khoa học dữ liệu là - $ 69.059 / năm.
Data Science Manager: Ứng viên cũng nên có kỹ năng giao tiếp và lãnh đạo mạnh
mẽ để hướng dẫn nhóm một cách hiệu quả. Mức lương trung bình cho một nhà quản lý
khoa học dữ liệu là - $ 69.059 năm.
Statistician: Một số công cụ được các nhà thống kê sử dụng là R, SAS, SPSS, Matlab,
Python, Stata, SQL, v.v. Mức lương trung bình của một nhà thống kê là $ 82,477/năm.
Machine Learning Engineer: Một số công cụ phổ biến được các kỹ sư máy học sử
dụng là TensorFlow, Keras, PyTorch, scikit-learning, Caffe, v.v. Mức lương trung bình của
một kỹ sư máy học là $ 114,826/năm
Tại Việt Nam
Theo trang khi tìm việc làm ngành Khoa học dữ liệu
hoặc Phân tích dữ liệu thì nhu cấu rất nhiều, mức lương rất cao

313


Hình 3: Mức lương ngành Khoa học dữ liệu tại Việt Nam
4. GIẢI QUYẾT VẤN ĐỀ VỚI KHOA HỌC DỮ LIỆU
Khi giải quyết một vấn đề trong thế giới thực bằng Khoa học dữ liệu, bước đầu tiên
để giải quyết nó bắt đầu với Làm sạch và Tiền xử lý dữ liệu. Khi Nhà khoa học dữ liệu
được cung cấp tập dữ liệu, tập dữ liệu đó có thể ở định dạng phi cấu trúc với nhiều điểm
không nhất quán khác nhau.
Việc tổ chức dữ liệu và loại bỏ thông tin sai giúp dễ dàng phân tích và rút ra những
hiểu biết sâu sắc hơn. Quá trình này bao gồm việc loại bỏ dữ liệu thừa, chuyển đổi dữ liệu

theo định dạng quy định, xử lý các giá trị bị thiếu, v.v.
Nhà khoa học dữ liệu phân tích dữ liệu thông qua các thủ tục thống kê khác nhau.
Đặc biệt, hai loại thủ tục được sử dụng là:
✓ Thống kê mô tả
✓ Thống kê suy luận
Giả sử rằng bạn là nhà khoa học dữ liệu làm việc cho một công ty sản xuất điện thoại
di động. Bạn phải phân tích khách hàng sử dụng điện thoại di động của công ty bạn. Để làm
như vậy, trước tiên bạn sẽ xem xét kỹ lưỡng dữ liệu và hiểu các xu hướng và mơ hình khác
nhau liên quan.
Cuối cùng, bạn sẽ tóm tắt dữ liệu và trình bày dưới dạng đồ thị hoặc biểu đồ. Do đó,
bạn áp dụng thống kê mơ tả để giải quyết vấn đề.

314


Sau đó, bạn sẽ rút ra các ‘suy luận’ hoặc kết luận từ dữ liệu. Chúng ta sẽ hiểu số liệu
thống kê theo cấp số nhân thơng qua ví dụ sau - Giả sử rằng bạn muốn tìm ra một số lỗi xảy
ra trong quá trình sản xuất.
Tuy nhiên, việc kiểm tra từng điện thoại di động có thể mất thời gian. Do đó, bạn sẽ
xem xét một mẫu điện thoại đã cho và đưa ra tổng thể về số lượng điện thoại bị lỗi trong
tổng số mẫu.
Bây giờ, bạn phải dự đoán doanh số bán điện thoại di động trong khoảng thời gian
hai năm. Kết quả là, bạn sẽ sử dụng Thuật toán hồi quy. Dựa trên doanh số bán hàng lịch
sử đã cho, bạn sẽ sử dụng thuật toán hồi quy để dự đoán doanh số bán hàng theo thời gian.
Hơn nữa, bạn muốn phân tích xem liệu khách hàng có mua sản phẩm hay khơng dựa
trên mức lương hàng năm, độ tuổi, giới tính và điểm tín dụng của họ. Bạn sẽ sử dụng dữ
liệu lịch sử để tìm hiểu liệu khách hàng sẽ mua (1) hay khơng (0). Vì có hai đầu ra hoặc
‘lớp’, bạn sẽ sử dụng Thuật tốn phân loại nhị phân.
Ngồi ra, nếu có nhiều hơn hai lớp đầu ra, sử dụng Thuật toán phân loại đa biến để
giải quyết vấn đề. Cả hai vấn đề nêu trên đều là một phần của ‘Học tập có giám sát’.

Cũng có trường hợp dữ liệu "khơng được gắn nhãn". Điều này, khơng có sự phân tách
đầu ra trong các lớp cố định như đã đề cập ở trên. Giả sử rằng bạn phải tìm các nhóm khách
hàng tiềm năng và khách hàng tiềm năng dựa trên nền tảng kinh tế xã hội của họ.
Vì bạn khơng có một nhóm lớp cố định trong dữ liệu lịch sử của mình, bạn sẽ sử dụng
Thuật tốn phân cụm để xác định các cụm hoặc nhóm khách hàng tiềm năng. Phân cụm là
một thuật tốn “Học khơng giám sát”.
Xe tự lái đã trở thành một công nghệ thịnh hành. Nguyên tắc đằng sau xe tự lái là
quyền tự chủ, tức là có thể đưa ra quyết định mà khơng cần sự can thiệp của con người. Các
máy tính truyền thống yêu cầu đầu vào của con người để tạo ra đầu ra. Học tập củng cố đã
giải quyết được vấn đề phụ thuộc vào con người.
Học tập củng cố là thực hiện các hành động cụ thể để tích lũy phần thưởng tối đa.
Bạn có thể hiểu điều này với ví dụ sau: giả sử bạn đang huấn luyện một con chó lấy bóng.
Sau đó, bạn thưởng cho con chó một món quà hoặc phần thưởng mỗi khi nó lấy được bóng.
Bạn khơng thưởng cho nó nếu nó khơng lấy được bóng. Con chó sẽ nhận ra phần thưởng
của đồ ăn vặt nếu nó lấy lại được quả bóng. Học tăng cường sử dụng nguyên tắc tương tự.
315


Một nhà khoa học dữ liệu sẽ yêu cầu các công cụ và phần mềm để giải quyết các vấn
đề nêu trên.
5. CÁC ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU
Khoa học dữ liệu đã tạo ra một chỗ đứng vững chắc trong một số ngành công nghiệp
như y học, ngân hàng, sản xuất, giao thơng vận tải,... Nó có những ứng dụng to lớn và có
nhiều mục đích sử dụng. Một số ứng dụng sau của khoa học dữ liệu là:
5.1. Khoa học dữ liệu trong chăm sóc sức khỏe
Khoa học dữ liệu đã và đang đóng một vai trị quan trọng trong ngành chăm sóc sức
khỏe. Với sự trợ giúp của các thuật toán phân loại, các bác sĩ có thể phát hiện ung thư và
khối u ở giai đoạn đầu bằng phần mềm Nhận dạng Hình ảnh.
Các ngành Di truyền học sử dụng khoa học dữ liệu để phân tích và phân loại các mẫu
trình tự bộ gen. Các trợ lý ảo khác nhau cũng đang giúp bệnh nhân giải quyết các vấn đề về

thể chất và tinh thần của họ.
5.2. Khoa học dữ liệu trong thương mại điện tử
Amazon sử dụng hệ thống khuyến nghị đề xuất cho người dùng các sản phẩm khác
nhau dựa trên quá trình mua hàng trước đây của họ. Các nhà khoa học dữ liệu đã phát triển
các hệ thống khuyến nghị dự đốn sở thích của người dùng bằng cách sử dụng học máy.
5.3. Khoa học dữ liệu trong sản xuất
Robot cơng nghiệp đã đảm nhận các vai trị trần tục và lặp đi lặp lại cần thiết trong
đơn vị sản xuất. Những robot cơng nghiệp này có tính chất tự chủ và sử dụng các công nghệ
Khoa học Dữ liệu như Học tăng cường và Nhận dạng Hình ảnh.
5.4. Khoa học dữ liệu với tư cách là tác nhân trò chuyện
Alexa của Amazon và Siri của Apple sử dụng nhận dạng giọng nói để hiểu người
dùng. Dữ liệu các nhà khoa học phát triển hệ thống nhận dạng giọng nói này, chuyển đổi
giọng nói của con người thành dữ liệu văn bản. Ngồi ra, nó sử dụng các thuật tốn học
máy khác nhau để phân loại các truy vấn của người dùng và đưa ra phản hồi thích hợp.
5.5. Khoa học Dữ liệu trong Giao thông vận tải
Tự lái xe ô tô sử dụng đại lý độc lập mà sử dụng các thuật toán Cốt Học tập và phát
hiện. Xe tự lái khơng cịn là điều viễn tưởng do những tiến bộ của Khoa học Dữ liệu.
316


6. KẾT LUẬN
Mặc dù khoa học dữ liệu là một chủ đề rộng lớn, nó tổng hợp một số cơng nghệ và
lĩnh vực, nhưng chúng ta hồn tồn có thể đạt được những kỹ năng này với cách tiếp cận
phù hợp. Khoa học dữ liệu là một lĩnh vực rất mạnh mẽ phù hợp nhất với những người có
sở trường về thử nghiệm và giải quyết vấn đề. Với một số lượng lớn các ứng dụng, khoa
học dữ liệu đã trở thành một ngành nghề linh hoạt nhất.
TÀI LIỆU THAM KHẢO
[1].
[2]. />[3]. />[4]. />[5]. ining/
[6]. />[7]. Wes McKinney, “Python for Data Analysis”, O’Reilly Media, Inc, 2017

[8]. Nguyễn Văn Tuấn, “Phân tích dữ liệu với R”, NXB tổng hợp TP. HCM, 2014

317



×