Tải bản đầy đủ (.pdf) (13 trang)

Lập trình R trong phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (666.26 KB, 13 trang )

LẬP TRÌNH R TRONG PHÂN TÍCH DỮ LIỆU
Nguyễn Thanh Trường
Khoa Cơng nghệ Thơng tin. Trường Đại học Tài chính - Marketing
Email:

Tóm tắt: : Ngành Khoa học dữ liệu là lĩnh vực nghiên cứu về việc quản trị và phân tích dữ liệu, từ đó
tìm ra cách hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. Ngành Khoa học dữ
liệu là ngành gồm 3 phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, chuyển kết quả phân tích
đánh giá. Phân tích dữ liệu (data analytics) là một quá trình kiểm tra, làm sạch, chuyển đổi và mơ hình
hóa dữ liệu với mục tiêu khám phá thơng tin hữu ích, đưa ra kết luận và hỗ trợ việc ra quyết định. Phân
tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên gọi khác
nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trong
bài này, tác giả sẽ tìm hiểu cách thức hoạt động và lập trình trên ngơn ngữ R để tiếp cận cách thao tác
trên tập dữ liệu.
Từ khóa: Data analytics, data science, programming r, phân tích dữ liệu, khoa học dữ liệu, lập
trình R

1. GIỚI THIỆU
Các nhà khoa học dữ liệu thường đóng vai trị là nhà tư vấn được thuê bởi các công
ty nơi họ tham gia vào các quá trình ra quyết định khác nhau và tạo ra chiến lược. Nói cách
khác, nhà khoa học dữ liệu sử dụng những hiểu biết sâu sắc có ý nghĩa từ dữ liệu để hỗ trợ
các công ty đưa ra các quyết định kinh doanh thông minh hơn.
Hiện nay tại Việt Nam đã có nhiều trường đại
học đào tạo ngành khoa học dữ liệu như: Đại Học
Công Nghệ Thông Tin – Đại Học Quốc Gia TPHCM,
Đại Học Khoa Học Tự Nhiên – Đại Học Quốc Gia
TPHCM, Đại Học Kinh Tế Quốc Dân, Đại Học Kinh
Tế TPHCM, Đại Học Kinh Tế -Tài Chính TPHCM,
Đại học Cơng Nghệ TPHCM, Đại Học Dân Lập Văn
Lang,… cho thấy xu hướng ngày càng cao của ngành
khoa học dữ liệu.


Trong xu hướng đó, chúng ta nên tìm hiểu cách thức hoạt động và cách làm việc của
một vài cơng cụ trong phân tích dữ liệu. Đối với người làm ngành cơng nghệ thơng tin thì
223


đây cũng là một ngành mới, vì nó là sự giao thoa của 3 lĩnh vực: Khoa học máy tính –
Thống kê – Chun mơn ngành.
Trong đó phân tích dữ liệu đóng vai trị quan trọng giúp các nhà quản lý, kinh doanh
thống kê, dự báo được các số liệu nhằm hoạch định kê hoạch giúp cho công tác quản lý và
kinh doanh phát triển hơn nhất là trong cuộc cách mạng công nghiệp lần thứ 4, ai nắm bắt
được thơng tin, dữ liệu và dự báo có thể giúp rất nhiều cho hiện tại và tương lai..
2. SƠ LƯỢC CÁC CƠNG CỤ PHÂN TÍCH DỮ LIỆU
Các cơng cụ phân tích dữ liệu có thể chia làm 2 nhóm:
-

Nhóm cơng cụ thao tác trên giao diện là chính, nhóm này dành cho người dùng ít
hoặc khơng thuộc nhóm ngành liên quan đến công nghệ thông tin như: các nhà kinh
tế, các nhà thống kê, …

-

Nhóm khác là các ngơn ngữ lập trình để thao tác dữ liệu, nhóm này địi hỏi người
dùng có chút ít kiến thức về lập trình như các nhà tốn học, cơng nghệ thơng tin,…

2.1. Các cơng cụ phân tích dữ liệu
2.1.1. Tableau Public
Tableau Public là một phần mềm miễn phí kết nối bất kỳ nguồn dữ
liệu nào có thể là Kho dữ liệu của cơng ty, Microsoft Excel hoặc dữ
liệu dựa trên web và tạo trực quan hóa dữ liệu, bản đồ, bảng điều khiển,
v.v. với các bản cập nhật theo thời gian thực hiển thị trên web. Chúng cũng có thể được

chia sẻ thơng qua phương tiện truyền thông xã hội hoặc với khách hàng. Nó cho phép truy
cập để tải xuống tập tin ở các định dạng khác nhau. Nếu muốn thấy sức mạnh của hoạt
cảnh, thì chúng ta phải có nguồn dữ liệu rất tốt. Khả năng Dữ liệu lớn của Tableau khiến
chúng trở nên quan trọng và người dùng có thể phân tích và trực quan hóa dữ liệu tốt hơn
bất kỳ phần mềm trực quan hóa dữ liệu nào khác trên thị trường.
2.1.2. SAS
SAS (trước đây là “Statistical Analysis System" - Hệ thống Phân tích
Thống kê) là một bộ phần mềm thống kê được phát triển bởi Viện SAS
để quản lý dữ liệu, phân tích nâng cao, phân tích đa biến, kinh doanh tình báo, điều tra tội
phạm, và phân tích dự đốn.
224


Tính đến năm 2011, bộ sản phẩm lớn nhất của SAS là dịng sản phẩm dành cho khách
hàng thơng minh. Nhiều mô-đun SAS dành cho web, mạng xã hội và phân tích tiếp thị có
thể được sử dụng để lập hồ sơ khách hàng và khách hàng tiềm năng, dự đoán hành vi của
họ cũng như quản lý và tối ưu hóa thơng tin liên lạc. SAS cũng cung cấp khung gian lận
SAS. Chức năng chính của khung là giám sát các giao dịch trên các ứng dụng, mạng và đối
tác khác nhau và sử dụng phân tích để xác định các điểm bất thường có dấu hiệu gian lận.
SAS Enterprise GRC (Quản trị, Rủi ro và Tuân thủ) cung cấp mơ hình rủi ro, phân tích kịch
bản và các chức năng khác để quản lý và hình dung rủi ro, tn thủ và các chính sách của
cơng ty. Ngồi ra cịn có bộ sản phẩm Quản lý rủi ro doanh nghiệp SAS được thiết kế chủ
yếu cho các ngân hàng và tổ chức dịch vụ tài chính.
2.1.3. Apache Spark
Apache Spark là một cơng cụ phân tích hợp nhất mã nguồn mở để
xử lý dữ liệu quy mô lớn. Spark cung cấp một giao diện để lập
trình tồn bộ các cụm với tính song song dữ liệu ngầm và khả năng
chịu lỗi. Ban đầu được phát triển tại Đại học California, AMPLab của Berkeley, cơ sở mã
Spark sau đó được tặng cho Tổ chức Phần mềm Apache, tổ chức này đã duy trì nó kể từ đó.
Spark cũng bao gồm một thư viện - MLlib, cung cấp một tập hợp các thuật toán máy

tiến bộ cho các kỹ thuật khoa học dữ liệu lặp đi lặp lại như Phân loại, Hồi quy, Lọc cộng
tác, Phân cụm, v.v.
2.1.4. Excel
Excel là một cơng cụ phân tích cơ bản, phổ biến và được sử dụng rộng rãi hầu
như trong tất cả các ngành công nghiệp. Cho dù bạn là chuyên gia về SAS, R
hay Tableau, bạn vẫn sẽ cần sử dụng Excel. Excel trở nên quan trọng khi có
u cầu phân tích dữ liệu nội bộ của khách hàng. Nó phân tích nhiệm vụ phức tạp tóm tắt
dữ liệu với bản xem trước của bảng tổng hợp giúp lọc dữ liệu theo yêu cầu của khách hàng.
Excel có tùy chọn phân tích kinh doanh nâng cao giúp hỗ trợ khả năng lập mô hình có các
tùy chọn được tạo sẵn như phát hiện mối quan hệ tự động, tạo các thước đo DAX (Data
Analysis Expressions) và phân nhóm thời gian.
Excel cung cấp một số lệnh, hàm và công cụ giúp bạn dễ dàng thực hiện các tác vụ
phân tích dữ liệu phức tạp. Excel cho phép bạn thực hiện các phép tính phức tạp khác nhau
một cách dễ dàng.
225


Các cơng cụ phân tích dữ liệu đa năng của Excel:
-

Data Consolidation

-

What-If Analysis

-

Tối ưu hóa với Excel Solver Add-in


-

Nhập dữ liệu vào Excel

-

Data Model

-

PivotTable

-

PowerPivot

-

Khám phá dữ liệu với Power View

-

Khám phá dữ liệu với hierarchies.

2.2. Các ngơn ngữ lập trình phân tích dữ liệu
2.2.1. Python
Python là một ngơn ngữ kịch bản hướng đối tượng, dễ đọc, viết, bảo trì và
là một cơng cụ mã nguồn mở miễn phí. Nó được phát triển bởi Guido van
Rossum vào cuối năm 1980, hỗ trợ cả phương pháp lập trình chức năng
và cấu trúc.

Phython rất dễ học vì nó rất giống với JavaScript, Ruby và PHP. Ngồi ra, Python có
các thư viện máy học rất tốt. Scikitlearn, Theano, Tensorflow và Keras. Một tính năng quan
trọng khác của Python là nó có thể được lắp ráp trên bất kỳ nền tảng nào như máy chủ SQL,
cơ sở dữ liệu MongoDB hoặc JSON. Python cũng có thể xử lý dữ liệu văn bản rất tốt
(Python Programming, n.d.).
Python là một công cụ ngày càng phổ biến để phân tích dữ liệu. Trong những năm
gần đây, một số thư viện đã đạt đến độ chín muồi, cho phép người dùng R và Stata tận dụng
vẻ đẹp, tính linh hoạt và hiệu suất của Python mà không phải hy sinh chức năng mà các
chương trình cũ này đã tích lũy trong nhiều năm.
Python là một ngơn ngữ lập trình đa mục đích phổ biến được sử dụng rộng rãi vì tính
linh hoạt của nó, cũng như bộ sưu tập thư viện phong phú của nó, có giá trị cho phân tích
và tính tốn phức tạp.
226


Khả năng mở rộng của Python có nghĩa là nó có hàng nghìn thư viện dành riêng cho
phân tích, bao gồm cả Thư viện phân tích dữ liệu Python được sử dụng rộng rãi (còn được
gọi là Pandas). Đối với hầu hết các phần, các thư viện phân tích dữ liệu trong Python ít nhất
phần nào có nguồn gốc từ thư viện NumPy, bao gồm hàng trăm phép tính tốn học, phép
tốn và hàm. Các cơng cụ phân tích Python đã trở nên phổ biến do ngơn ngữ máy tính được
áp dụng rộng rãi và tính linh hoạt của nó khi phát triển các giải pháp đa diện.
Ngoài ra, khả năng hiệu suất của Python cao hơn nhiều so với các ngôn ngữ phổ biến
khác được sử dụng trong phân tích dữ liệu và khả năng tương thích của nó với nhiều ngơn
ngữ khác có nghĩa là nó đơn giản là thuận tiện hơn trong hầu hết các trường hợp. Việc sử
dụng tương đối nhẹ bộ nhớ và các tài nguyên xử lý khác của Python có nghĩa là nó có thể
nhanh chóng vượt xa các ngơn ngữ như MatLab hoặc R, những ngôn ngữ được xây dựng
đặc biệt cho phân tích thống kê.
2.2.2. Lập trình R
R là cơng cụ phân tích hàng đầu trong ngành và được sử dụng rộng rãi
để thống kê và lập mơ hình dữ liệu. Nó có thể dễ dàng thao tác dữ liệu

của bạn và trình bày theo nhiều cách khác nhau. Nó đã vượt quá SAS
theo nhiều cách như dung lượng dữ liệu, hiệu suất và kết quả. R biên
dịch và chạy trên nhiều nền tảng viz -UNIX, Windows và MacOS. Nó có 11.556 gói và cho
phép bạn duyệt các gói theo danh mục. R cũng cung cấp các công cụ để tự động cài đặt tất
cả các gói theo yêu cầu của người dùng, cũng có thể được lắp ráp tốt với Dữ liệu lớn.
R là một ngôn ngữ và môi trường cho tính tốn thống kê và đồ họa. Đây là một dự án
GNU tương tự như ngôn ngữ và môi trường S được phát triển tại Phịng thí nghiệm Bell
(trước đây là AT&T, nay là Lucent Technologies) bởi John Chambers và các đồng nghiệp.
R có thể được coi là một cách triển khai khác của S. Có một số khác biệt quan trọng, nhưng
nhiều mã được viết cho S chạy không thay đổi dưới R.
R cung cấp nhiều loại thống kê (mơ hình tuyến tính và phi tuyến, kiểm tra thống kê
cổ điển, phân tích chuỗi thời gian, phân loại, phân cụm, …) và các kỹ thuật đồ họa, và có
khả năng mở rộng cao. Ngơn ngữ S thường là phương tiện được lựa chọn để nghiên cứu
phương pháp luận thống kê và R cung cấp một lộ trình Nguồn mở để tham gia vào hoạt
động đó (Learn R Programming, n.d.).

227


Một trong những điểm mạnh của R là sự dễ dàng có thể tạo ra các ơ chất lượng xuất
bản được thiết kế tốt, bao gồm các ký hiệu và cơng thức tốn học nếu cần. Sự cẩn thận đã
được thực hiện đối với các mặc định cho các lựa chọn thiết kế nhỏ trong đồ họa, nhưng
người dùng vẫn có tồn quyền kiểm sốt.
R có sẵn dưới dạng Phần mềm Miễn phí theo các điều khoản của Giấy phép Công
cộng GNU của Tổ chức Phần mềm Tự do ở dạng mã nguồn. Nó biên dịch và chạy trên
nhiều nền tảng UNIX và các hệ thống tương tự (bao gồm FreeBSD và Linux), Windows và
MacOS.
R analytics (hoặc ngôn ngữ lập trình R) là một phần mềm mã nguồn mở miễn phí
được sử dụng cho tất cả các loại dự án khoa học dữ liệu, thống kê và trực quan hóa. Ngơn
ngữ lập trình R mạnh mẽ, linh hoạt và có thể được tích hợp vào các nền tảng BI (Business

intelligence), để giúp bạn tận dụng tối đa dữ liệu quan trọng của doanh nghiệp.
Những tích hợp này bao gồm mọi thứ từ các chức năng thống kê đến các mô hình dự
đốn, chẳng hạn như hồi quy tuyến tính. R cũng cho phép xây dựng và chạy các mơ hình
thống kê bằng cách sử dụng dữ liệu Sisense, tự động cập nhật các mơ hình này khi thơng
tin mới chảy vào mơ hình.
Ngơn ngữ được xây dựng đặc biệt cho phân tích thống kê và khai thác dữ liệu. R
analytics khơng chỉ được sử dụng để phân tích dữ liệu mà cịn để tạo ra phần mềm và ứng
dụng có thể thực hiện phân tích thống kê một cách đáng tin cậy. Ngồi các cơng cụ thống
kê tiêu chuẩn, R bao gồm một giao diện đồ họa. Do đó, nó có thể được sử dụng trong một
loạt các mơ hình phân tích bao gồm các thử nghiệm thống kê cổ điển, mơ hình tuyến
tính/khơng tuyến tính, phân nhóm dữ liệu, phân tích chuỗi thời gian, …
Các nhà thống kê thích sử dụng R vì nó tạo ra các biểu đồ và đồ họa sẵn sàng để xuất
bản, với ký hiệu và cơng thức tốn học chính xác. Nó khá phổ biến vì các hình ảnh trực
quan của nó: đồ thị, biểu đồ, hình ảnh, … Các nhà phân tích BI có thể sử dụng các loại hình
ảnh trực quan này để giúp mọi người hiểu xu hướng, ngoại lệ và các mẫu trong dữ liệu.
Một lý do khác cho sự phổ biến của nó là tập lệnh dịng lệnh của nó cho phép người
dùng lưu trữ các phương pháp phân tích phức tạp theo từng bước, để được sử dụng lại sau
này với dữ liệu mới.

228


Thay vì phải cấu hình lại một bài kiểm tra, người dùng có thể gọi lại nó một cách đơn
giản. Điều này cũng làm cho nó hữu ích cho các mục đích xác nhận. Các nhà nghiên cứu
có thể khám phá các mơ hình thống kê để xác nhận chúng hoặc kiểm tra cơng việc hiện có
của họ để tìm các lỗi có thể xảy ra. Mặc dù được biết đến như một ngơn ngữ phức tạp hơn,
nhưng nó vẫn là một trong những ngôn ngữ phổ biến nhất để phân tích dữ liệu.
Quan trọng hơn, việc sử dụng R thay vì phần mềm đóng gói có nghĩa là các cơng ty
có thể xây dựng các cách để kiểm tra lỗi trong các mơ hình phân tích trong khi dễ dàng sử
dụng lại các truy vấn hiện có và phân tích đặc biệt. Trong học thuật và các lĩnh vực thiên

về nghiên cứu hơn, R là một công cụ vô giá, vì những lĩnh vực nghiên cứu này thường yêu
cầu mơ hình độc đáo và cụ thể cao.
3. KẾT QUẢ VÀ THẢO LUẬN
Phân tích dữ liệu cơ bản thơng qua R / R Studio
Trong phần này, tôi sẽ thiết kế một chương trình phân tích dữ liệu cơ bản trong R
bằng R Studio bằng cách sử dụng các tính năng của R Studio để tạo ra một số biểu diễn
trực quan của dữ liệu đó. Các bước sau đây sẽ được thực hiện để đạt được mục tiêu đề ra.
1. Tải xuống / nhập dữ liệu trong R;
2. Chuyển đổi dữ liệu / Chạy truy vấn trên dữ liệu;
3. Phân tích dữ liệu cơ bản sử dụng trung bình thống kê;
4. Lập đồ thị phân phối dữ liệu;
Các bước được thực hiện cụ thể như sau:
1. Nhập dữ liệu trong R Studio
Đối với phần này, chúng tôi sẽ sử dụng bộ dữ liệu điều tra dân số mẫu ACS. Có hai
cách để nhập dữ liệu này vào trong R.
 Nhập dòng lệnh trong cửa sổ giao diện của R Studio
Thực hiện lệnh sau trong cửa sổ giao diện điều khiển của R Studio
Giả sử tôi lưu trữ trên ổ đĩa tập tin có đường dẫn sau:
D:\ThanhTruong\Private\Lap trinh R\Data\ acs_or.csv
acs <- read.csv ("D:/ThanhTruong/Private/Lap trinh R/Data/acs_or.csv")
229


Lênh trên cho phép đọc tập tin dạng csv và được gán cho tên biến acs.
Nếu trường hợp tập tin trên internet thì viết lệnh dưới dạng:
acs <- read.csv (url("đường dẫn tập tin"))

 Cách thứ hai để nhập tập dữ liệu vào R Studio
Cách này lấy từ máy tính cục bộ nên nếu tập tin trên mạng thì chúng ta phải
tải xuống máy tính cục bộ.

Sử dụng tính năng nhập tập dữ liệu của R Studio: Thực hiện việc này như sau:
a. Nhấp vào nút Import Dataset ở phần trên cùng bên phải trong tab môi trường.

Chọn tập tin bạn muốn nhập và sau đó nhấp vào mở. Hộp thoại Import
Dataset sẽ xuất hiện như hình dưới đây:

230


Sau khi thiết lập các tùy chọn của dấu phân cách, tên và các thông số khác,
hãy nhấp vào nút Import. Dataset sẽ được nhập vào R Studio và được gán cho tên
biến như đã đặt trước đó.
Có thể xem bất kỳ dataset nào bằng cách thực hiện dòng sau:
View(acs)
trong đó acs là tên biến dataset được gán.
2. Chuyển đổi dữ liệu
Sau khi hoàn tất việc nhập dữ liệu trong R Studio, người dùng có thể sử dụng
các tính năng chuyển đổi khác nhau của R để thao tác với dữ liệu. Hãy tìm hiểu một
số kỹ thuật truy cập dữ liệu cơ bản
Để truy cập một cột cụ thể, ví dụ: age_husband
acs$age_husband
Để truy cập dữ liệu dưới dạng vectơ
acs[1,3]
Để chạy một số truy vấn trên dữ liệu, người dùng có thể sử dụng hàm
subset của R. Giả sử người dùng muốn các hàng đó từ tập dữ liệu trong đó
231


age_husband lớn hơn age_wife. Trong trường hợp này, chúng tôi sẽ chạy lệnh sau
trong console

a <- subset(acs , age_husband > age_wife)
View(a) # để kiểm tra
Tham số đầu tiên của hàm subset là dataframe bạn muốn áp dụng hàm đó và
tham số thứ hai là điều kiện luận lý (boolean) cần được kiểm tra cho mỗi hàng có
được đưa vào hay khơng. Vì vậy, câu lệnh trên sẽ trả về tập hợp các hàng trong đó
age_husband lớn hơn age_wife và gán những hàng đó cho a.
3. Lấy Trung bình Thống kê từ dữ liệu
Các hàm sau có thể được sử dụng để tính giá trị trung bình của tập dữ liệu
 Đối với giá trị trung bình của bất kỳ cột nào, hãy gõ dạng:
mean (acs$age_husband)
 Trung vị, chạy: median (acs $ age_husband)
 Bách phân vị, chạy: quantile (acs $ age_wife)
 Phương sai, chạy: var (acs $ age_wife)
 Độ lệch chuẩn, chạy: sd (acs $ age_wife)

232


Người dùng cũng có thể nhận được tóm tắt thống kê của tập dữ liệu bằng cách
chỉ chạy trên một cột hoặc tập dữ liệu hoàn chỉnh
summary(acs)
4. Vẽ đồ thị dữ liệu
Một tính năng rất được yêu thích của R Studio là trình hiển thị dữ liệu được tích
hợp sẵn cho R. Bất kỳ tập dữ liệu nào được nhập vào R đều có thể hiển thị trực quan
bằng cách sử dụng đồ thị và một số chức năng khác của R. Ví dụ
Để tạo đồ thị phân tán của tập dữ liệu, người dùng có thể chạy lệnh sau trong
console
plot (x = acs$age_husband, y = acs$age_wife, type = 'p')
Trong đó 'p' đặt kiểu plot là điểm. Người dùng có thể chọn dòng và biến loại thay
đổi khác thành 'l', v.v.


Đối với các biểu đồ phân phối dữ liệu, có một số cơng cụ và gói tính năng có sẵn
trong R mà người dùng có thể sử dụng để vẽ bất kỳ loại phân phối nào. Ví dụ
Để vẽ biểu đồ của một tập dữ liệu, người dùng có thể chạy lệnh
hist (acs $ number_children)

233


Tương tự đối với Bar Plots, hãy chạy bộ lệnh sau:
counts <- table(acs$bedrooms)
barplot(counts, main="Bedrooms Distribution", xlab="Number of Bedrooms")

Ghi chú: Đối với bất kỳ tài liệu hoặc cách sử dụng hàm nào trong R Studio, chỉ cần
nhập tên của hàm và sau đó nhấn Ctrl + dấu cách để có cửa sổ hồn thành tự động.
Người dùng cũng có thể dùng dấu ? trước bất kỳ tên chức năng nào để xem tài liệu
chính thức.
234


4. KẾT LUẬN VÀ KHUYẾN NGHỊ GIẢI PHÁP
Đứng dưới góc độ là người thuộc lĩnh vực CNTT khi tiếp cận với phân tích dữ liệu
cịn nhiều khó khăn cũng như trước đây các nhà thống kê muốn đưa ra dự báo khi tiếp cận
với các phần mềm mới, đặc biệt là cơng cụ lập trình cũng có những khó khăn nhất định
hoặc các nhà kinh tế học qua quá trình thu thập dữ liệu họ lại muốn phân tích để đưa ra các
dự báo trong tương lai lại gặp khó khăn trong vấn đề tiếp cận cơng cụ. Do đó tác giả mong
muốn các bên liên quan thường xuyên trao đổi, học tập lẫn nhau nhằm phát huy sức mạnh
tổng hợp của các công cụ trên nền kho dữ liệu nhằm phục vụ lợi ích ngày càng cao cho
nghiên cứu và xã hội.
5. KẾT LUẬN

Mặc dù khoa học dữ liệu là một chủ đề rộng lớn, là tổng hợp của một số cơng nghệ và
lĩnh vực, nhưng chúng ta hồn tồn có thể đạt được những kỹ năng này với cách tiếp cận phù
hợp. Khoa học dữ liệu nói chung và phân tích dữ liệu nói riêng là một lĩnh vực rất mạnh mẽ phù
hợp nhất với những người có sở trường về thử nghiệm và giải quyết vấn đề. Với một số lượng
lớn các ứng dụng, người dùng có thể dễ dàng tiếp cận đến lĩnh vực phân tích dữ liệu, đặc biệt
có ngơn ngữ lập trình rất mạnh dành riêng cho các nhà toán học thống kê hoặc khoa học máy
tính tiếp cận và xử lý mạnh mẽ hơn.
TÀI LIỆU THAM KHẢO
[1].
[2]. Learn R Programming. (n.d.). Retrieved from />[3]. Matloff, N. (2011). “The Art Of R Programming”. William Pollock
[4]. Simply Easy Learning. (n.d.). Retrieved from />[5]. The R Project for Statistical Computing. (n.d.). Retrieved from />[6]. Tuấn, N. V. (2014). “Phân tích dữ liệu với R”. NXB tổng hợp TP HCM

235



×