Tải bản đầy đủ (.pdf) (10 trang)

Tìm hiểu các công cụ phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (374.4 KB, 10 trang )

TÌM HIỂU CÁC CƠNG CỤ PHÂN TÍCH DỮ LIỆU
Nguyễn Thanh Trường
Khoa Cơng nghệ Thơng tin. Trường Đại học Tài chính - Marketing
Email:

Tóm tắt: Phân tích dữ liệu (data analytics) là một quá trình kiểm tra, làm sạch, chuyển đổi và mơ hình
hóa dữ liệu với mục tiêu khám phá thơng tin hữu ích, đưa ra kết luận và hỗ trợ việc ra quyết định. Phân
tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên gọi khác
nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trong
thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trị giúp đưa ra các quyết định khoa học hơn
và giúp doanh nghiệp hoạt động hiệu quả hơn.
Trong bài này, chúng ta cùng tìm hiểu sơ lược qua các cơng cụ phân tích dữ liệu tập trung vào 2
khía cạnh: Các cơng cụ (Có thể là thương mại) dành cho các doanh nghiệp hoặc người dùng khơng cần
kiến thức lập trình và Ngơn ngữ lập trình dành cho người dùng có chút ít kiến thức về lập trình có thể
phát huy hiệu quả phân tích dữ liệu.
Từ khóa: Phân tích dữ liệu, data analytics

1. GIỚI THIỆU
Nhu cầu ngày càng tăng và tầm quan trọng của phân tích dữ liệu trên thị trường đã
tạo ra nhiều cơ hội trên toàn thế giới. Việc chọn lọc các cơng cụ phân tích dữ liệu hàng đầu
gặp khó khăn vì các cơng cụ nguồn mở phổ biến hơn, thân thiện với người dùng và hướng
đến hiệu suất hơn so với phiên bản trả phí. Có nhiều công cụ nguồn mở không yêu cầu bất
kỳ mã hóa nào và quản lý để mang lại kết quả tốt hơn so với các phiên bản trả phí, như Lập
trình R trong khai thác dữ liệu và Tableau public, Python trong trực quan hóa dữ liệu. Sau
đây chúng ta cùng điểm qua một số cơng cụ phân tích dữ liệu hàng đầu, cả mã nguồn mở
và phiên bản trả phí, dựa trên mức độ phổ biến, khả năng học hỏi và hiệu suất của chúng.
2. CÁC CÔNG CỤ PHÂN TÍCH DỮ LIỆU
2.1. Tableau Public
Tableau Public là một phần mềm miễn phí kết nối bất kỳ nguồn dữ liệu
nào có thể là Kho dữ liệu của công ty, Microsoft Excel hoặc dữ liệu dựa
trên web và tạo trực quan hóa dữ liệu, bản đồ, bảng điều khiển, v.v. với các bản cập nhật


theo thời gian thực hiển thị trên web. Chúng cũng có thể được chia sẻ thơng qua phương
186


tiện truyền thơng xã hội hoặc với khách hàng. Nó cho phép truy cập để tải xuống tập tin ở
các định dạng khác nhau. Nếu muốn thấy sức mạnh của hoạt cảnh, thì chúng ta phải có
nguồn dữ liệu rất tốt. Khả năng Dữ liệu lớn của Tableau khiến chúng trở nên quan trọng và
người dùng có thể phân tích và trực quan hóa dữ liệu tốt hơn bất kỳ phần mềm trực quan
hóa dữ liệu nào khác trên thị trường.
Các sản phẩm Tableau truy vấn cơ sở dữ liệu quan hệ, phân tích xử lý trực tuyến khối,
cơ sở dữ liệu đám mây và bảng tính để tạo trực quan hóa dữ liệu kiểu đồ thị. Phần mềm
cũng có thể trích xuất, lưu trữ và truy xuất dữ liệu từ một công cụ dữ liệu trong bộ nhớ.
Các sản phẩm củaTableau gồm:
-

Tableau Desktop

-

Tableau Server

-

Tableau Online

-

Tableau Prep Builder (Released in 2018)

-


Tableau Vizable (Consumer data visualization mobile app released in 2015)

-

Tableau Public (free to use)

-

Tableau Reader (free to use)

-

Tableau Mobile

-

Tableau CRM

Tableau có chức năng lập bản đồ, và có thể vẽ các tọa độ kinh độ và vĩ độ cũng như
kết nối với các tập tin không gian như Esri Shapefiles, KML (Keyhole Markup Language)
và GeoJSON để hiển thị địa lý tùy chỉnh. Mã hóa địa lý tích hợp cho phép các địa điểm
hành chính (quốc gia, tiểu bang / tỉnh, quận / huyện), mã bưu chính, Quận Quốc hội Hoa
Kỳ, CBSA / MSA của Hoa Kỳ, Mã vùng, Sân bay và các khu vực thống kê của Liên minh
Châu Âu (mã NUTS) đến được ánh xạ tự động. Các khu vực địa lý có thể được nhóm lại
để tạo lãnh thổ tùy chỉnh hoặc mã hóa địa lý tùy chỉnh được sử dụng để mở rộng vai trò địa
lý hiện có trong sản phẩm.
2.2. SAS
SAS (trước đây là “Statistical Analysis System" - Hệ thống
Phân tích Thống kê) là một bộ phần mềm thống kê được phát triển

187


bởi Viện SAS để quản lý dữ liệu, phân tích nâng cao, phân tích đa biến, kinh doanh tình
báo, điều tra tội phạm, và phân tích dự đốn.
SAS được phát triển tại Đại học Bang North Carolina từ năm 1966 cho đến năm 1976,
khi Viện SAS được hợp nhất. SAS đã được phát triển thêm vào những năm 1980 và 1990
với việc bổ sung các thủ tục thống kê mới, các thành phần mới được bổ sung. Giao diện trỏ
và nhấp đã được thêm vào phiên bản 9 vào năm 2004. Một sản phẩm phân tích truyền thơng
xã hội đã được thêm vào năm 2010.
Tính đến năm 2011, bộ sản phẩm lớn nhất của SAS là dòng sản phẩm dành cho khách
hàng thông minh. Nhiều mô-đun SAS dành cho web, mạng xã hội và phân tích tiếp thị có
thể được sử dụng để lập hồ sơ khách hàng và khách hàng tiềm năng, dự đoán hành vi của
họ cũng như quản lý và tối ưu hóa thơng tin liên lạc. SAS cũng cung cấp Khung gian lận
SAS. Chức năng chính của khung là giám sát các giao dịch trên các ứng dụng, mạng và đối
tác khác nhau và sử dụng phân tích để xác định các điểm bất thường có dấu hiệu gian lận.
SAS Enterprise GRC (Quản trị, Rủi ro và Tn thủ) cung cấp mơ hình rủi ro, phân tích kịch
bản và các chức năng khác để quản lý và hình dung rủi ro, tn thủ và các chính sách của
cơng ty. Ngồi ra cịn có bộ sản phẩm Quản lý rủi ro doanh nghiệp SAS được thiết kế chủ
yếu cho các ngân hàng và tổ chức dịch vụ tài chính.
2.3. Apache Spark
Apache Spark là một cơng cụ phân tích hợp nhất mã nguồn mở để xử
lý dữ liệu quy mô lớn. Spark cung cấp một giao diện để lập trình tồn
bộ các cụm với tính song song dữ liệu ngầm và khả năng chịu lỗi. Ban đầu được phát triển
tại Đại học California, AMPLab của Berkeley, cơ sở mã Spark sau đó được tặng cho Tổ
chức Phần mềm Apache, tổ chức này đã duy trì nó kể từ đó.
Spark và các RDD (resilient distributed dataset) của nó được phát triển vào năm 2012
đáp ứng các hạn chế trong mơ hình tính tốn cụm MapReduce, mơ hình này buộc cấu trúc
luồng dữ liệu tuyến tính cụ thể trên các chương trình phân tán: Các chương trình
MapReduce đọc dữ liệu đầu vào từ đĩa, ánh xạ hàm trên dữ liệu, giảm kết quả của bản đồ

và lưu trữ kết quả giảm trên đĩa. Các RDD của Spark hoạt động như một tập hợp làm việc
cho các chương trình phân tán cung cấp một dạng bộ nhớ dùng chung phân tán bị hạn chế.

188


Spark cũng bao gồm một thư viện - MLlib, cung cấp một tập hợp các thuật toán máy
tiến bộ cho các kỹ thuật khoa học dữ liệu lặp đi lặp lại như Phân loại, Hồi quy, Lọc cộng
tác, Phân cụm, v.v.
2.4. Excel
Excel là một cơng cụ phân tích cơ bản, phổ biến và được sử dụng rộng rãi hầu
như trong tất cả các ngành công nghiệp. Cho dù bạn là chuyên gia về SAS, R
hay Tableau, bạn vẫn sẽ cần sử dụng Excel. Excel trở nên quan trọng khi có yêu cầu phân
tích dữ liệu nội bộ của khách hàng. Nó phân tích nhiệm vụ phức tạp tóm tắt dữ liệu với bản
xem trước của bảng tổng hợp giúp lọc dữ liệu theo yêu cầu của khách hàng. Excel có tùy
chọn phân tích kinh doanh nâng cao giúp hỗ trợ khả năng lập mơ hình có các tùy chọn được
tạo sẵn như phát hiện mối quan hệ tự động, tạo các thước đo DAX (Data Analysis
Expressions) và phân nhóm thời gian.
Excel cung cấp một số lệnh, hàm và công cụ giúp bạn dễ dàng thực hiện các tác vụ
phân tích dữ liệu phức tạp. Excel cho phép bạn thực hiện các phép tính phức tạp khác nhau
một cách dễ dàng.
Các cơng cụ phân tích dữ liệu đa năng của Excel:
Data Consolidation
Dùng tổng hợp dữ liệu từ nhiều nguồn khác nhau và trình bày một báo cáo. Dữ liệu
có thể nằm trong các trang tính của cùng một sổ làm việc hoặc trong các sổ làm việc khác
nhau. Với công cụ dữ liệu Excel Consolidation, bạn có thể thực hiện việc này trong một vài
bước đơn giản.
What-If Analysis
What-If Analysis cung cấp các cơng cụ để xử lý các tình huống phân tích dữ liệu sau:
-


Goal Seek

-

Data Table

-

Scenario Manager

Tối ưu hóa với Excel Solver Add-in
Solver được sử dụng để xử lý các tình huống tìm kiếm mục tiêu phức tạp. Trong
những trường hợp như vậy, ngoài các đầu vào và đầu ra, sẽ có các ràng buộc hoặc giới hạn
189


được xác định áp đặt đối với các giá trị đầu vào có thể có. Hơn nữa, Solver được sử dụng
để tạo ra một giải pháp tối ưu.
Excel có một Add-in Solver giúp bạn giải quyết những vấn đề phức tạp như vậy.
Nhập dữ liệu vào Excel
Phân tích dữ liệu của bạn có thể phụ thuộc vào các nguồn dữ liệu bên ngồi khác
nhau. Trong Excel, bạn có thể nhập dữ liệu từ các nguồn dữ liệu khác nhau, chẳng hạn như
Cơ sở dữ liệu Microsoft Access, Trang Web, Tập tin văn bản, Bảng SQL Server, Khối phân
tích SQL Server, Tập tin XML, v.v.
Data Model
Mơ hình Dữ liệu trong Excel được sử dụng để tích hợp dữ liệu từ nhiều bảng trong
sổ làm việc hiện tại và / hoặc từ dữ liệu đã nhập và / hoặc từ các nguồn dữ liệu được kết nối
với sổ làm việc thông qua các kết nối dữ liệu. Mơ hình dữ liệu được sử dụng một cách minh
bạch trong các báo cáo PivotTable, PivotChart, PowerPivot và Power View.

Pivot Table
Khi bạn có thể tích hợp Mơ hình Dữ liệu với Pivot Table, bạn có thể thực hiện phân
tích dữ liệu mở rộng bằng cách đối chiếu, kết nối, tóm tắt và báo cáo dữ liệu từ một số
nguồn khác nhau. Vì bạn có thể nhập bảng từ các nguồn dữ liệu bên ngoài và tạo PivotTable,
nên có thể cập nhật tự động các giá trị trong Pivot Table bất cứ khi nào dữ liệu trong các
nguồn dữ liệu được kết nối được cập nhật.
Power Pivot
Bạn có thể sử dụng Power Pivot để truy cập, phân tích và báo cáo dữ liệu từ nhiều
nguồn dữ liệu khác nhau. Power Pivot có thể giúp bạn xử lý dữ liệu lớn một cách dễ dàng
và tạo ra các báo cáo phân tích hấp dẫn.
PowerPivot cung cấp cho bạn các lệnh để quản lý Mơ hình Dữ liệu, thêm bảng Excel
vào Mơ hình Dữ liệu, để thêm các trường được tính tốn trong Bảng Dữ liệu, để xác định
KPI, v.v.
Khám phá dữ liệu với Power View
Power View cung cấp tính năng khám phá tương tác, trực quan hóa và phân tích dữ
liệu lớn. Nhờ các tùy chọn trực quan hóa linh hoạt, bạn chắc chắn có thể tìm thấy tùy chọn
190


cung cấp cho dữ liệu của bạn nền tảng hoàn hảo, trong đó bạn có thể khám phá dữ liệu, tóm
tắt và báo cáo.
Khám phá dữ liệu với Hierarchies
Nếu dữ liệu của bạn có cấu trúc phân cấp, chúng có thể được xác định trong Mơ hình
dữ liệu được phản ánh trong Power View hoặc xây dựng cấu trúc phân cấp trong chính
Power View.
3. CÁC NGƠN NGỮ LẬP TRÌNH PHÂN TÍCH DỮ LIỆU
3.1. Lập trình R
R là cơng cụ phân tích hàng đầu trong ngành và được sử dụng rộng rãi
để thống kê và lập mơ hình dữ liệu. Nó có thể dễ dàng thao tác dữ liệu
của bạn và trình bày theo nhiều cách khác nhau. Nó đã vượt quá SAS theo nhiều cách như

dung lượng dữ liệu, hiệu suất và kết quả. R biên dịch và chạy trên nhiều nền tảng viz UNIX, Windows và MacOS. Nó có 11.556 gói và cho phép bạn duyệt các gói theo danh
mục. R cũng cung cấp các công cụ để tự động cài đặt tất cả các gói theo yêu cầu của người
dùng, cũng có thể được lắp ráp tốt với Dữ liệu lớn.
R là một ngôn ngữ và môi trường cho tính tốn thống kê và đồ họa. Đây là một dự án
GNU tương tự như ngôn ngữ và môi trường S được phát triển tại Phịng thí nghiệm Bell
(trước đây là AT&T, nay là Lucent Technologies) bởi John Chambers và các đồng nghiệp.
R có thể được coi là một cách triển khai khác của S. Có một số khác biệt quan trọng, nhưng
nhiều mã được viết cho S chạy không thay đổi dưới R.
R cung cấp nhiều loại thống kê (mơ hình tuyến tính và phi tuyến, kiểm tra thống kê
cổ điển, phân tích chuỗi thời gian, phân loại, phân cụm, …) và các kỹ thuật đồ họa, và có
khả năng mở rộng cao. Ngơn ngữ S thường là phương tiện được lựa chọn để nghiên cứu
phương pháp luận thống kê và R cung cấp một lộ trình Nguồn mở để tham gia vào hoạt
động đó.
Một trong những điểm mạnh của R là sự dễ dàng có thể tạo ra các ô chất lượng xuất
bản được thiết kế tốt, bao gồm các ký hiệu và cơng thức tốn học nếu cần. Sự cẩn thận đã
được thực hiện đối với các mặc định cho các lựa chọn thiết kế nhỏ trong đồ họa, nhưng
người dùng vẫn có tồn quyền kiểm soát.

191


R có sẵn dưới dạng Phần mềm Miễn phí theo các điều khoản của Giấy phép Công
cộng GNU của Tổ chức Phần mềm Tự do ở dạng mã nguồn. Nó biên dịch và chạy trên
nhiều nền tảng UNIX và các hệ thống tương tự (bao gồm FreeBSD và Linux), Windows và
MacOS.
R analytics (hoặc ngơn ngữ lập trình R) là một phần mềm mã nguồn mở miễn phí
được sử dụng cho tất cả các loại dự án khoa học dữ liệu, thống kê và trực quan hóa. Ngơn
ngữ lập trình R mạnh mẽ, linh hoạt và có thể được tích hợp vào các nền tảng BI (Business
intelligence), để giúp bạn tận dụng tối đa dữ liệu quan trọng của doanh nghiệp.
Những tích hợp này bao gồm mọi thứ từ các chức năng thống kê đến các mơ hình dự

đốn, chẳng hạn như hồi quy tuyến tính. R cũng cho phép xây dựng và chạy các mơ hình
thống kê bằng cách sử dụng dữ liệu Sisense, tự động cập nhật các mô hình này khi thơng
tin mới chảy vào mơ hình.
Ngơn ngữ được xây dựng đặc biệt cho phân tích thống kê và khai thác dữ liệu. R
analytics không chỉ được sử dụng để phân tích dữ liệu mà cịn để tạo ra phần mềm và ứng
dụng có thể thực hiện phân tích thống kê một cách đáng tin cậy. Ngồi các công cụ thống
kê tiêu chuẩn, R bao gồm một giao diện đồ họa. Do đó, nó có thể được sử dụng trong một
loạt các mơ hình phân tích bao gồm các thử nghiệm thống kê cổ điển, mơ hình tuyến tính /
khơng tuyến tính, phân nhóm dữ liệu, phân tích chuỗi thời gian, …
Các nhà thống kê thích sử dụng R vì nó tạo ra các biểu đồ và đồ họa sẵn sàng để xuất
bản, với ký hiệu và công thức tốn học chính xác. Nó khá phổ biến vì các hình ảnh trực
quan của nó: đồ thị, biểu đồ, hình ảnh, … Các nhà phân tích BI có thể sử dụng các loại hình
ảnh trực quan này để giúp mọi người hiểu xu hướng, ngoại lệ và các mẫu trong dữ liệu.
Một lý do khác cho sự phổ biến của nó là tập lệnh dịng lệnh của nó cho phép người
dùng lưu trữ các phương pháp phân tích phức tạp theo từng bước, để được sử dụng lại sau
này với dữ liệu mới.
Thay vì phải cấu hình lại bài kiểm tra, người dùng có thể gọi lại nó một cách đơn
giản. Điều này làm cho nó hữu ích cho các mục đích xác nhận và xác nhận. Các nhà nghiên
cứu có thể khám phá các mơ hình thống kê để xác nhận chúng hoặc kiểm tra cơng việc hiện
có của họ để tìm các lỗi có thể xảy ra. Mặc dù được biết đến như một ngôn ngữ phức tạp
hơn, nhưng nó vẫn là một trong những ngơn ngữ phổ biến nhất để phân tích dữ liệu.
192


Quan trọng hơn, việc sử dụng R thay vì phần mềm đóng gói có nghĩa là các cơng ty
có thể xây dựng các cách để kiểm tra lỗi trong các mơ hình phân tích trong khi dễ dàng sử
dụng lại các truy vấn hiện có và phân tích đặc biệt. Trong học thuật và các lĩnh vực thiên
về nghiên cứu hơn, R là một cơng cụ vơ giá, vì những lĩnh vực nghiên cứu này thường u
cầu mơ hình độc đáo và cụ thể cao.
Ví dụ nhỏ về cách viết một chương trình:

Tính tổng bình phương (sum of squares): 12 + 22 + 32 + 42 + 52 = ?
Thay vì chúng ta khai báo các biến và dùng vịng lặp for để tính tổng theo cách lập
trình thơng thường thì với R ta thực hiện:
> x<-c(1,2,3,4,5)
> x<- c(1,2,3,4,5)
> x <- c(1,2,3,4,5)
> sum(x^2)
[1] 55
>
3.2. Python
Python là một ngôn ngữ kịch bản hướng đối tượng, dễ đọc, viết, bảo trì
và là một cơng cụ mã nguồn mở miễn phí. Nó được phát triển bởi Guido
van Rossum vào cuối năm 1980, hỗ trợ cả phương pháp lập trình chức
năng và cấu trúc.
Phython rất dễ học vì nó rất giống với JavaScript, Ruby và PHP. Ngồi ra, Python có
các thư viện máy học rất tốt. Scikitlearn, Theano, Tensorflow và Keras. Một tính năng quan
trọng khác của Python là nó có thể được lắp ráp trên bất kỳ nền tảng nào như máy chủ SQL,
cơ sở dữ liệu MongoDB hoặc JSON. Python cũng có thể xử lý dữ liệu văn bản rất tốt.
Python là một cơng cụ ngày càng phổ biến để phân tích dữ liệu. Trong những năm
gần đây, một số thư viện đã đạt đến độ chín muồi, cho phép người dùng R và Stata tận dụng
vẻ đẹp, tính linh hoạt và hiệu suất của Python mà không phải hy sinh chức năng mà các
chương trình cũ này đã tích lũy trong nhiều năm.
Python là một ngơn ngữ lập trình đa mục đích phổ biến được sử dụng rộng rãi vì tính
linh hoạt của nó, cũng như bộ sưu tập thư viện phong phú của nó, có giá trị cho phân tích
và tính tốn phức tạp.
193


Khả năng mở rộng của Python có nghĩa là nó có hàng nghìn thư viện dành riêng cho
phân tích, bao gồm cả Thư viện phân tích dữ liệu Python được sử dụng rộng rãi (còn được

gọi là Pandas). Đối với hầu hết các phần, các thư viện phân tích dữ liệu trong Python ít nhất
phần nào có nguồn gốc từ thư viện NumPy, bao gồm hàng trăm phép tính tốn học, phép
tốn và hàm. Các cơng cụ phân tích Python đã trở nên phổ biến do ngơn ngữ máy tính được
áp dụng rộng rãi và tính linh hoạt của nó khi phát triển các giải pháp đa diện.
Ngoài ra, khả năng hiệu suất của Python cao hơn nhiều so với các ngôn ngữ phổ biến
khác được sử dụng trong phân tích dữ liệu và khả năng tương thích của nó với nhiều ngơn
ngữ khác có nghĩa là nó đơn giản là thuận tiện hơn trong hầu hết các trường hợp. Việc sử
dụng tương đối nhẹ bộ nhớ và các tài nguyên xử lý khác của Python có nghĩa là nó có thể
nhanh chóng vượt xa các ngơn ngữ như MatLab hoặc R, những ngôn ngữ được xây dựng
đặc biệt cho phân tích thống kê.
Cách thức sử dụng Python để phân tích dữ liệu:
- Một trong những cách sử dụng phổ biến nhất của Python là khả năng tạo và quản lý
cấu trúc dữ liệu một cách nhanh chóng - chẳng hạn như Pandas cung cấp rất nhiều công
cụ để thao tác, phân tích và thậm chí biểu diễn cấu trúc dữ liệu và bộ dữ liệu phức tạp.
Điều này bao gồm chuỗi thời gian và các cấu trúc dữ liệu phức tạp hơn như hợp nhất, xoay
vòng và các bảng cắt để tạo ra các khung nhìn và quan điểm mới trên các tập hợp hiện có.
- Cách khác, các cơng cụ như Scikit-Learn (cịn được gọi là Sklearn) cung cấp các
cơng cụ phân tích nâng cao kết hợp với khả năng máy học phức tạp. Điều này cho phép
người dùng xây dựng các mơ hình phức tạp hơn, thực hiện các phép hồi quy đa biến và
phức tạp hơn, cũng như tiền xử lý dữ liệu. Được kết hợp với các thư viện như iPython và
chính NumPy, những cơng cụ này có thể tạo thành nền tảng của một bộ phân tích dữ liệu
mạnh mẽ.
- Ngồi ra, người dùng có thể sử dụng Python để viết các thuật tốn phân tích dữ liệu
của riêng mình có thể được tích hợp trực tiếp vào các công cụ kinh doanh thông minh của
mình thơng qua API.
Ví dụ nhỏ về cách viết một chương trình:
In dãy Fibonacci bằng python:

194



Thay vì chúng ta khai báo các biến và gán từng biến, dùng hoán vị hoặc dùng đệ quy
để xuất dãy Fibonacii theo cách lập trình thơng thường thì với R ta thực hiện:
>>> a, b=0,1
>>> while a<10:
print(a)
a, b=b, a+b
0
1
1
2
3
5
8
Hoặc xác định vị trí kết thúc:
>>> a, b=0,1
>>> while a<1000:
print(a, end=',')
a, b=b, a+b
0,1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,
4. KẾT LUẬN
Trong bài này, chúng ta đã tìm hiểu sơ lược qua các cơng cụ phân tích dữ liệu tập
trung vào 2 khía cạnh: Các cơng cụ thường dành cho người dùng khơng cần kiến thức lập
trình dễ dàng thao tác trực quan trên công cụ hoặc kết hợp các hàm. Trong khi R và Python
là các Ngơn ngữ lập trình có kết hợp với các gói tích hợp thêm nên người dùng nếu có kiến
thức về lập trình có thể phát huy tối đa hiệu quả phân tích dữ liệu.
TÀI LIỆU THAM KHẢO
[1]
[2] />[3] />[4] />[5] Wes McKinney, “Python for Data Analysis”. O’Reilly Media, Inc, 2017
[6]. Nguyễn Văn Tuấn, “Phân tích dữ liệu với R”. NXB tổng hợp TP. HCM, 2014

195



×