کتاب مقدمهای بر یادگیری آماری (An Introduction to
Statistical Learning with Applications in Python) یک کتاب جامع آموزش یادگیری
ماشین با رویکرد الگوریتمهای یادگیری آماری از انتشارات معتبر اشپرینگر است. این
کتاب موضوعات گستردهای از جمله رگرسیون خطی، طبقهبندی، روشهای نمونه برداری،
روشهای مبتنی بر درخت، ماشینهای بردار پشتیبان، یادگیری بدون نظارت و یادگیری
عمیق را پوشش داده است و هر موضوع به صورت واضح با مثالها و مطالعات موردی مناسب
توضیح داده میشود. در نگارش کتاب فرض شده است خواننده هیچ دانشی از آمار یا
یادگیری ماشین ندارد. به همین دلیل برای شروع یادگیری این حوزه بسیار مناسب
است.
یکی از نقاط قوت کتاب مقدمهای بر یادگیری آماری تمرکز آن
بر کاربردهای واقعی است و نشان میدهد چگونه میتوان از الگوریتمهای یادگیری آماری
در حوزههای مختلفی مانند مالی، بازاریابی و بهداشت استفاده کرد. این کتاب همچنین
شامل بخشهایی در مورد پیشپردازش دادهها، انتخاب مدل و اعتبارسنجی مدل است که
مراحل مهمی در هر پروژهی تجزیه و تحلیل داده هستند.
فهرست مطالب کتاب در ۱۳ فصل به شرح زیر است.
1 Introduction
2 Statistical Learning
3 Linear Regression
-
Simple Linear Regression
-
Multiple Linear Regression
-
Other Considerations in the Regression Model
-
The Marketing Plan
-
Comparison of Linear Regression with K-Nearest Neighbor
-
Lab: Linear Regression
-
Exercises
4 Classification
-
An Overview of Classification
-
Why Not Linear Regression?
-
Logistic Regression
-
Generative Models for Classification
-
A Comparison of Classification Methods
-
Generalized Linear Models
-
Lab: Logistic Regression, LDA, QDA, and KNN
-
Exercises
5 Resampling Methods
6 Linear Model Selection and
Regularization
-
Subset Selection
-
Shrinkage Methods
-
Dimension Reduction Methods
-
Considerations in High Dimensions
-
Lab: Linear Models and Regularization Methods
-
Exercises
7 Moving Beyond Linearity
8 Tree-Based Methods
-
The Basics of Decision Trees
-
Bagging, Random Forests, Boosting, and Bayesian Additive
Regression Trees
-
Lab: Tree-Based Methods
-
Exercises
9 Support Vector Machines
-
Maximal Margin Classifier
-
Support Vector Classifiers
-
Support Vector Machines
-
SVMs with More than Two Classes
-
Relationship to Logistic Regression
-
Lab: Support Vector Machines
-
Exercises
10 Deep Learning
-
Single Layer Neural Networks
-
Multilayer Neural Networks
-
Convolutional Neural Networks
-
Document Classification
-
Recurrent Neural Networks
-
When to Use Deep Learning
-
Fitting a Neural Network
-
Interpolation and Double Descent
-
Lab: Deep Learning
-
Exercises
11 Survival Analysis and Censored
Data
-
Survival and Censoring Times
-
A Closer Look at Censoring
-
The Kaplan–Meier Survival Curve
-
The Log-Rank Test
-
Regression Models With a Survival Response xiv Contents
-
Shrinkage for the Cox Model
-
Additional Topics
-
Lab: Survival Analysis
-
Exercises
12 Unsupervised Learning
-
The Challenge of Unsupervised Learning
-
Principal Components Analysis
-
Missing Values and Matrix Completion
-
Clustering Methods
-
Lab: Unsupervised Learning
-
Exercises
13 Multiple Testing
-
A Quick Review of Hypothesis Testing
-
The Challenge of Multiple Testing
-
The Family-Wise Error Rate
-
The False Discovery Rate
-
A Re-Sampling Approach to p-Values and False Discovery Rates
-
Lab: Multiple Testing
-
Exercises
کدهای نسخههای پیشین این کتاب با زبان R بود که به دلیل
بالا رفتن محبوبیت زبان برنامهنویسی پایتون و افزایش تقاضا برای یادگیری ابزارهای
یادگیری ماشین در آن، در ویراست جدید از زبان برنامهنویسی پایتون استفاده شده
است.
نسخهی الکترونیکی ویراست ۲۰۲۳ کتاب از این پیوند قابل دریافت است.