Cách bạn có thể sử dụng các phương thức của pandas để chuyển từ Microsoft Excel sang Python, giúp bạn tiết kiệm thời gian.
Import một Excel file
Thao tác này đọc tệp Excel thành pandas dataframe (tương đương với cấu trúc dạng bảng mà bạn quen dùng). Bạn sẽ muốn sử dụng lại khung dữ liệu này, vì vậy ta sẽ lưu nó vào biến df.
df = pd.read_excel(some_file_path)
Xem dataframe mới của bạn
Thoạt đầu, có vẻ hơi lạ khi bạn không xem từng hàng dữ liệu giống như trong tệp Excel. Dưới đây là cách xem năm dòng đầu tiên – bạn có thể chỉ định giá trị này bên trong dấu ngoặc đơn, giá trị mặc định là năm.
df.head()
Đếm số dòng
Thông thường sẽ hữu ích khi biết bạn đang làm việc với bao nhiêu dòng, vì vậy, để có được điều này, bạn có thể gọi phương thức count.
df.count()
Thống kê mô tả cơ bản
Với một dòng mã, bạn có thể nhận được giá trị tối thiểu, tối đa và trung bình của tất cả các cột trong dataframe của mình – hy vọng rằng bạn đã bắt đầu cảm thấy hứng thú sử dụng Pandas…
df.describe()
Thay thế các giá trị rỗng (null)
Để thay thế tất cả các giá trị null (những giá trị này xuất hiện dưới dạng NaN trong dataframe) bằng số không.
df.fillna(0)
Bạn cũng có thể thay thế các giá trị null bằng giá trị của dòng trước đó hoặc dòng sau đó
df.fillna(method='ffill')
df.fillna(method='bfill')
Lọc
Lọc một cột cụ thể dựa trên một giá trị hoặc chuỗi cụ thể. Sau khi bạn đã quen thuộc hơn, bạn có thể lọc dựa trên nhiều điều kiện.
df[df['column_name'] == 0]
df[df['column_name'] == "hello"]
Bỏ các dòng trùng lặp
Khi bạn không muốn bất kỳ hàng nào lặp lại trong dữ liệu của mình.
df.drop_duplicates()
Vlookup / join
Thay vì dùng vlookup ta có thể sử dụng join… Kết hợp dataframe df của bạn với một dataframe khác, ta gọi đây là lookup_dataframe trên cột ‘column_name’ xuất hiện trong cả df và lookup_dataframe. Phương thức join có tham số mặc định là how = ‘left’, tuy nhiên, khi bạn tự tin hơn thì có các kiểu kết hợp khác, bạn có thể tìm hiểu thêm trong tài liệu về pandas. Link: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html
df.join(lookup_dataframe, on='column_name')
Pivot/groupby
Một chức năng quan trọng trong Excel thường được sử dụng là bảng tổng hợp (pivot). Sử dụng pandas, rất đơn giản để thực hiện – đây là một vài ví dụ.
df.groupby(['column1', 'column2']).sum()
df.groupby(['column1', 'column2']).count()
Hoặc, nếu bạn muốn tổng hợp từng cột bằng một phương thức, bạn cũng có thể thực hiện điều đó! Bạn sẽ nhận thấy ở đây việc sử dụng các dấu ngoặc [] và dấu ngoặc nhọn {}, các dấu này biểu thị list và dictionary tương ứng.
df.groupby(['column1', 'column2']).agg({'column1': 'sum', 'column2': 'count'})
Xuất sang Excel
Có khả năng là bạn sẽ cần chia sẻ lại công việc của mình trong Excel. Đây là những gì đồng nghiệp của bạn sẽ mong đợi nhận được hoặc những gì bạn sẽ thấy thoải mái khi sử dụng để hiển thị dữ liệu
df.to_excel(file_path, index=False)
Ở đây tôi đã chỉ định không bao gồm các chỉ mục trong tệp Excel đầu ra (index=False), tuy nhiên bạn luôn có thể sửa đổi chỉ mục này thành True nếu muốn.