Tải bản đầy đủ (.pdf) (34 trang)

PYB l2 python in data analytics (pandas)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 34 trang )

PYTHON IN DATA ANALYTICS
LESSON 2. PANDAS


Pandas là gì?
 Thư viện pandas trong python là một thư viện mã nguồn mở, hỗ trợ đắc
lực trong thao tác dữ liệu.
 Đây cũng là bộ công cụ phân tích và xử lý dữ liệu mạnh mẽ của ngơn
ngữ lập trình python.
 Thư viện này được sử dụng rộng rãi trong cả nghiên cứu lẫn phát triển
các ứng dụng về khoa học dữ liệu.
 Pandas sử dụng cấu trúc dữ liệu riêng là Series và Dataframe.
 Pandas cung cấp rất nhiều phương thức, toán tử xử lý và làm việc trên
cấu trúc dữ liệu này.

2


3


Dữ liệu kiểu series
 Series có thể được xem như là một cấu trúc dữ liệu với hai
mảng: một lưu chỉ mục, cái còn lại lưu dữ liệu.
 Được tạo ra bằng cách sử dụng phương thức:
pandas.Series( data=None, index=None, dtype=None, copy=False)
 Trong đó:






data có thể là list, dictionary hoặc hằng số.
index là tập các giá trị chỉ mục duy nhất có thể băm và độ dài len(index) bằng với len(data).
dtype là kiểu dữ liệu của đối số data.
copy có giá trị True/False, mặc định là False. Copy input data.

4


 Có thể khởi tạo Series từ List hoặc Array.

5


 Khi không gán chỉ mục cho đối tượng Serries thì pandas sẽ tự gán cho nó giá trị mặc
định.

6


7


 Thực hiện cộng hai đối tượng Series S1 và S2, thì các giá trị tại các chỉ mục giống
nhau sẽ được cộng cho nhau. Nếu một chỉ mục không tồn tại ở một trong hai Series, giá
trị cho Series này sẽ là NaN.

8



9


 Truy xuất các giá trị đơn của một hoặc nhiều hơn một giá trị của Series qua chỉ số hoặc
một list các chỉ số

10


 Thay vì phải truyền vào gồm hai danh sách như các ví dụ phía trên ta có thể tạo ra
Series bằng cách truyền dictionary.

11


STT
1
2
3
4
5
6
7
8

Thuộc tính/Phương thức
Ý nghĩa
axes
trả về danh sách các chỉ mục
dtype

trả về kiểu dữ liệu
empty
kiểm tra xem dữ liệu có empty không
ndim
trả về chiều của dữ liệu , theo định nghĩa nó là 1
size
trả về số lượng phần tử có trong dữ liệu series đó
trả về danh sách phần tử của dữ liệu kiểu theo kiểu
values
ndarray
head()
trả về n hàng đầu tiên
tail()
trả về n hàng cuối cùng.

12


DataFrame
 DataFrame linh hoạt và hiệu quả trong thao tác dữ liệu, nó cho phép lập chỉ mục;
 Là một công cụ cho phép đọc/ ghi dữ liệu giữa bộ nhớ và nhiều định dạng file: csv, text,
excel, sql…
 Liên kết dữ liệu thông minh, xử lý được trường hợp dữ liệu bị thiếu. Tự động đưa dữ
liệu lộn xộn về dạng có cấu trúc;
 Dễ dàng thay đổi bố cục của dữ liệu;
 Lấy ra tập con từ tập dữ liệu lớn. Có thể thêm, xóa các cột dữ liệu;
Tối ưu về hiệu năng;

13



Đọc file csv
 Sử dụng hàm read_csv và được trả về 1 dataframe.

 In ra n bản ghi đầu tiên của dataframe sử dụng hàm head. Ngược lại của hàm head là
hàm tail.

14


 Một vài tham số của hàm read_csv như:
 encoding: chỉ định encoding của file đọc vào. Mặc định là utf-8.
 sep: thay đổi dấu ngăn cách giữa các cột. Mặc định là dấu phẩy (‘,’)
 header: chỉ định file đọc vào có header(tiêu đề của các cột) hay khơng. Mặc định là
infer. Khi chỉ định khơng có header, dịng header của chúng ta đã biến thành 1 bản
ghi dữ liệu.
 index_col: chỉ định chỉ số cột nào là cột chỉ số(số thứ tự). Mặc định là None.
 nrows: chỉ định số bản ghi sẽ đọc vào. Mặc định là None – đọc toàn bộ.

15


Thao tác với dataframe
 Xem thông tin của dataframe vừa đọc vào bằng cách sử dụng hàm .info() hoặc xem
kích thước của dataframe này với thuộc tính shape.

16


Truy xuất dữ liệu trên dataframe

 Lấy 1 cột theo tên cột.

 Lấy theo nhiều cột.

17


 Lấy bản ghi theo chỉ số (lát cắt).

18


 Lọc các bản ghi theo điều kiện.

19


 So sánh chuỗi và trả về dataframe.

20


 Lấy giá trị của một cột trả về dưới dạng numpy array trong thư viện pandas python, sử
dụng thuộc tính .values

21


Thêm, sửa, xóa dữ liệu dataframe
 Thêm cột từ dữ liệu mới.


 Thêm cột dựa vào dữ liệu đã có.

22


 Khởi tạo cột mới có giá trị rỗng.

 Xóa cột trong dataframe.

23


 Xóa bản ghi (dịng) theo chỉ số.

24


Phương thức trong dataframe
 Sử dụng hàm describe() để lấy ra các phương thức thống kê.

25


×