PYTHON IN DATA ANALYTICS
LESSON 1
Data Science Flow
2
3
4
5
6
7
8
Apache Spark
9
Python numpy
NumPy là một gói Python là viết tắt của Numerical Python. Đây là thư
viện cốt lõi cho scientific computing, nó chứa một đối tượng mảng n
chiều. Nó cũng hữu ích trong đại số tuyến tính, xác suất thống kê nhiều
chiều, mô phỏng ngẫu nhiên…
10
Numpy array
11
12
13
Python NumPy Array và List
Sử dụng numpy array thay vì một list vì ba lý do dưới đây:
Bộ nhớ ít hơn
Nhanh
Tiện lợi
14
15
16
Python NumPy Operations
ndim: số chiều của mảng
17
itemsize: Độ dài của một phần tử mảng tính bằng byte
18
dtype: data type của phần tử
19
Size, shape: Tương tự, bạn có thể tìm thấy kích thước và hình dạng của mảng bằng
cách sử dụng hàm size và shape tương ứng.
20
reshape: Cung cấp một
hình dạng mới cho một
mảng mà khơng thay đổi
dữ liệu của nó.
21
Thực hành (1)
Bài tập 1: Thay toàn bộ các phần tử của mảng x cho trước bằng trung bình cộng các phần tử
trong mảng đó, sử dụng vịng for. Hàm này không trả về biến nào mà chỉ thay đổi các giá trị của
biến đầu vào x.
Bài tập 2*: Cho trước một số tự nhiên n. Tạo một mảng có n phần tử mà các phần tử có chỉ số
chẵn (bắt đầu từ 0) là một cấp số cộng bắt đầu từ 2, công sai bằng -0.5; các phần tử có chỉ số lẻ
bằng -1.
Ví dụ: Với n=4, kết quả trả về là mảng [ 2. -1. 1.5 -1. ]. Với n=5, kết quả trả về là mảng [ 2. -1.
1.5 -1. 1. ].
Bài tập 3: Cho một mảng 1 chiều x, tính mảng y và z sao cho y[i] = pi/2 - x[i] và z[i] = cos(x[i]) sin(x[i]). Sau đó trả về tổng các phần tử của z. Chạy output với 1 mảng x nhập vào bất kỳ từ bàn
phím và in ra kết quả của mảng y, z.
Bài tập 4: Xây dựng mảng các luỹ thừa của 2 nhỏ hơn 1025, bao gồm cả 1 = 2**0. Gợi ý: Nếu a là
một mảng và b là một số thì b**a sẽ trả về một mảng cùng kích thước với a mà phần tử có chỉ số i
bằng b**a[i], với ** là toán tử luỹ thừa.
22
slicing: trích xuất tập hợp các phần tử cụ thể từ một mảng.
23
24
25