Thống kê là một kỹ năng cơ bản mà các nhà khoa học dữ liệu sử dụng hàng ngày. Đây là nhánh của toán học cho phép chúng ta thu thập, mô tả, giải thích, hình dung và suy luận về dữ liệu. Các nhà khoa học dữ liệu sẽ sử dụng nó để phân tích dữ liệu, thiết kế thử nghiệm và mô hình thống kê.
Thống kê cũng rất cần thiết cho máy học. Ta sử dụng số liệu thống kê để hiểu dữ liệu trước khi đào tạo một mô hình. Khi lấy mẫu dữ liệu để đào tạo và thử nghiệm các mô hình của mình, ta cần sử dụng các kỹ thuật thống kê. Khi đánh giá hiệu suất của một mô hình, ta cần thống kê để đánh giá sự thay đổi của các dự đoán và đánh giá độ chính xác.
Đây chỉ là một số cách thống kê được sử dụng bởi các nhà khoa học dữ liệu. Do đó, nếu bạn đang nghiên cứu khoa học dữ liệu, điều cần thiết là phải hiểu rõ về các kỹ thuật thống kê này.
Dưới đây là 5 cuốn sách miễn phí hàng đầu để học thống kê cho khoa học dữ liệu.
Practical Statistics for Data Scientists
Các chủ đề chính bao gồm:
- Cấu trúc dữ liệu.
- Thống kê mô tả.
- Xác suất.
- Máy học.
Thích hợp cho: Người mới bắt đầu. Thống kê là một lĩnh vực rất rộng và chỉ một phần của nó có liên quan đến khoa học dữ liệu. Cuốn sách này rất tốt khi chỉ đề cập đến các lĩnh vực liên quan đến khoa học dữ liệu. Vì vậy, nếu bạn đang tìm kiếm một cuốn sách nhanh chóng cung cấp cho bạn sự hiểu biết vừa đủ để có thể thực hành khoa học dữ liệu thì cuốn sách này chắc chắn là một trong những lựa chọn.
Nó chứa rất nhiều ví dụ được mã hóa thực tế (được viết bằng R), đưa ra lời giải thích rất rõ ràng cho bất kỳ thuật ngữ thống kê nào được sử dụng và cũng liên kết với các tài nguyên khác để đọc thêm.
Nhìn chung, đây là một cuốn sách tuyệt vời để trình bày những điều cơ bản và phù hợp cho một người mới bắt đầu về lĩnh vực này.
Think Stats
(Allen B. Downey)
Link: http://greenteapress.com/thinkstats/
Các chủ đề chính bao gồm:
- Tư duy thống kê.
- Phân phối.
- Kiểm định giả thuyết.
- Tương quan.
Thích hợp cho: Người mới bắt đầu với Python cơ bản.
Lời giới thiệu cho cuốn sách này nói rằng “cuốn sách này biến kiến thức thành dữ liệu” và nó làm rất tốt việc giới thiệu các khái niệm thống kê thông qua các ví dụ thực tế về phân tích dữ liệu.
Đây là một cuốn sách khác chỉ bao gồm các khái niệm liên quan trực tiếp đến khoa học dữ liệu và cũng chứa rất nhiều ví dụ về mã, lần này được viết bằng Python. Nó nhắm nhiều vào các lập trình viên và dựa vào việc sử dụng kỹ năng đó để hiểu các khái niệm thống kê chính được giới thiệu. Do đó, cuốn sách này hoàn toàn phù hợp với những người đã có ít nhất một kiến thức cơ bản về Python.
Bayesian Methods for Hackers
(Cameron Davidson-Pilon)
Link: https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers
Các chủ đề chính bao gồm:
- Suy luận Bayes.
- Các chức năng mất mát.
- Máy học Bayes.
Phù hợp với: Những người không phải là nhà thống kê có kiến thức về Python.
Suy luận Bayes là một nhánh của thống kê liên quan đến sự không chắc chắn. Là một nhà khoa học dữ liệu, sự không chắc chắn là thứ bạn sẽ cần phải mô hình hóa một cách rất thường xuyên. Ví dụ: nếu bạn đang xây dựng một mô hình máy học, bạn sẽ cần có khả năng hiểu được sự không chắc chắn xung quanh các dự đoán mà mô hình của bạn đang cung cấp.
Các phương pháp Bayes có thể khá trừu tượng và khó hiểu. Cuốn sách này nhắm vào các lập trình viên (vì vậy có kiến thức Python là điều kiện tiên quyết), là tài liệu giải thích những khái niệm này theo cách đủ đơn giản để một người không phải là nhà thống kê có thể hiểu được.
Statistics in Plain English
(Timothy C. Urdan)
Link: https://www.book2look.com/embed/9781317526988
Các chủ đề chính bao gồm:
- Hồi quy.
- Phân phối.
- Phân tích nhân tố.
- Xác suất.
Phù hợp với: Những người không phải là nhà thống kê có kinh nghiệm lập trình ở bất kỳ mức độ nào.
Cuốn sách này bao gồm các kỹ thuật thống kê chung thay vì chỉ dành cho các nhà khoa học dữ liệu hoặc lập trình viên. Tuy nhiên, nó được viết theo một phong cách rất thẳng thắn và bao gồm một loạt các khái niệm thống kê một cách rất đơn giản để hiểu.
Ban đầu cuốn sách được viết cho những sinh viên theo học một khóa học không dựa trên toán học, nơi cần có sự hiểu biết về thống kê, chẳng hạn như khoa học xã hội. Do đó, nó bao gồm đủ lý thuyết để hiểu các kỹ thuật nhưng không giả định nền tảng toán học hiện có. Do đó, đây là một cuốn sách lý tưởng để đọc nếu bạn đang theo học ngành khoa học dữ liệu mà không có bằng cấp về toán.
Computer Age Statistical Inference
(Bradley Efron and Trevor Hastie)
Các chủ đề chính bao gồm:
- Bayesian và suy luận thường xuyên.
- Thử nghiệm giả thuyết quy mô lớn.
- Máy học.
- Học sâu.
Phù hợp với: Người có hiểu biết cơ bản về thống kê và ký hiệu thống kê. Không cần lập trình.
Cuốn sách này trình bày lý thuyết đằng sau hầu hết các thuật toán máy học phổ biến được các nhà khoa học dữ liệu sử dụng ngày nay. Nó cũng giới thiệu kỹ lưỡng về cả hai phương pháp suy luận thống kê Bayesian và thường xuyên.
Nửa sau của cuốn sách, bao gồm các thuật toán máy học. Mỗi giải thích đều có chiều sâu và sử dụng các ví dụ thực tế như phân loại dữ liệu thư rác, điều này làm cho các ý tưởng khá phức tạp trở nên dễ hiểu hơn. Cuốn sách phù hợp nhất cho những người đã bao gồm các khái niệm cơ bản về thống kê để phân tích dữ liệu và đã quen thuộc với một số ký hiệu thống kê.
Hay