0% found this document useful (0 votes)

95 views10 pages

Essential Scikit-learn Functions Guide

The document lists over 100 important operations in Scikit-learn organized into categories including general operations, preprocessing, supervised and unsupervised learning algorithms, model selection and evaluation, pipelines, feature extraction/selection, and more. It provides the sklearn functions for loading datasets, splitting data, scaling features, encoding labels, fitting and evaluating various classifiers and regressors, dimensionality reduction, feature selection, pipelines, and other common machine learning tasks.

Uploaded by

sairamesht

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

95 views10 pages

Essential Scikit-learn Functions Guide

Uploaded by

sairamesht

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

#_ important Scikit-learn Operations [ +100 ]

General Operations:

● sklearn.datasets.load_iris(): Load the iris dataset.

● sklearn.datasets.load_digits(): Load the hand-written digits
dataset.
● sklearn.model_selection.train_test_split(): Split datasets into
training and testing subsets.

Preprocessing:

● sklearn.preprocessing.StandardScaler(): Standardize features by

removing the mean and scaling to unit variance.
● sklearn.preprocessing.MinMaxScaler(): Transform features by scaling
them to a given range.
● sklearn.preprocessing.LabelEncoder(): Encode labels with value
between 0 and n_classes-1.
● sklearn.preprocessing.OneHotEncoder(): Convert categorical
variable(s) into dummy/indicator variables.

Supervised Learning Algorithms:

Linear Models:

● sklearn.linear_model.LinearRegression(): Ordinary least squares

linear regression.
● sklearn.linear_model.LogisticRegression(): Logistic regression
(classification).
● sklearn.linear_model.Ridge(): Linear least squares with l2
regularization.

Support Vector Machines (SVM):

● sklearn.svm.SVC(): C-Support Vector Classification.

● sklearn.svm.SVR(): Epsilon-Support Vector Regression.

By: Waleed Mousa

Nearest Neighbors:

● sklearn.neighbors.KNeighborsClassifier(): Classifier implementing

the k-nearest neighbors vote.
● sklearn.neighbors.KNeighborsRegressor(): Regression based on
k-nearest neighbors.

Gaussian Processes:

● sklearn.gaussian_process.GaussianProcessRegressor(): Gaussian
process regression (GPR).
● sklearn.gaussian_process.GaussianProcessClassifier(): Gaussian
process classification (GPC).

Decision Trees:

● sklearn.tree.DecisionTreeClassifier(): Decision tree classifier.

● sklearn.tree.DecisionTreeRegressor(): Decision tree regressor.

Ensemble Methods:

● sklearn.ensemble.RandomForestClassifier(): Random forest classifier.

● sklearn.ensemble.RandomForestRegressor(): Random forest regressor.
● sklearn.ensemble.GradientBoostingClassifier(): Gradient boosting
classifier.
● sklearn.ensemble.GradientBoostingRegressor(): Gradient boosting
regressor.

Neural Network Models:

● sklearn.neural_network.MLPClassifier(): Multi-layer perceptron

classifier.
● sklearn.neural_network.MLPRegressor(): Multi-layer perceptron
regressor.

Unsupervised Learning Algorithms:

Clustering:

● sklearn.cluster.KMeans(): K-Means clustering.

By: Waleed Mousa

● sklearn.cluster.DBSCAN(): Density-based spatial clustering of
applications with noise.
● sklearn.cluster.AgglomerativeClustering(): Agglomerative
clustering.

Dimensionality Reduction:

● sklearn.decomposition.PCA(): Principal component analysis.

● sklearn.decomposition.NMF(): Non-negative matrix factorization.
● sklearn.manifold.TSNE(): t-distributed Stochastic Neighbor
Embedding.

Model Selection and Evaluation:

● sklearn.model_selection.cross_val_score(): Evaluate a score by

cross-validation.
● sklearn.model_selection.GridSearchCV(): Exhaustive search over
specified parameter values for an estimator.
● sklearn.model_selection.RandomizedSearchCV(): Randomized search on
hyperparameters.
● sklearn.metrics.accuracy_score(): Accuracy classification score.
● sklearn.metrics.mean_squared_error(): Mean squared error regression
loss.
● sklearn.metrics.confusion_matrix(): Compute confusion matrix to
evaluate the accuracy of a classification.
● sklearn.metrics.roc_curve(): Compute Receiver operating
characteristic (ROC).
● sklearn.metrics.auc(): Compute Area Under the Curve (AUC) from
prediction scores.

Pipeline:

● sklearn.pipeline.Pipeline(): Pipeline of transforms and a final

estimator.
● sklearn.pipeline.make_pipeline(): Construct a Pipeline from the
given estimators.

By: Waleed Mousa

Feature Extraction:

● sklearn.feature_extraction.text.CountVectorizer(): Convert a
collection of text documents to a matrix of token counts.
● sklearn.feature_extraction.text.TfidfVectorizer(): Convert a
collection of raw documents to a matrix of TF-IDF features.

Feature Selection:

● sklearn.feature_selection.SelectKBest(): Select features according

to the k highest scores.
● sklearn.feature_selection.RFE(): Feature ranking with recursive
feature elimination.

Imbalanced Datasets:

● sklearn.utils.class_weight.compute_class_weight(): Estimate class

weights for unbalanced datasets.

Decomposition:

● sklearn.decomposition.TruncatedSVD(): Dimensionality reduction

using truncated SVD (aka LSA).
● sklearn.decomposition.FastICA(): Fast algorithm for Independent
Component Analysis.

Manifold Learning:

● sklearn.manifold.Isomap(): Isomap embedding.

● sklearn.manifold.MDS(): Multi-dimensional scaling.

Dataset Transformations:

● sklearn.preprocessing.PolynomialFeatures(): Generate polynomial and

interaction features.
● sklearn.preprocessing.Binarizer(): Binarize data (set feature
values to 0 or 1) according to a threshold.

By: Waleed Mousa

Validation:

● sklearn.model_selection.StratifiedKFold(): Stratified K-Folds

cross-validator.
● sklearn.model_selection.LeaveOneOut(): Leave-One-Out
cross-validator.

Calibration:

● sklearn.calibration.CalibratedClassifierCV(): Probability
calibration with isotonic regression or logistic regression.

Semi-Supervised Learning:

● sklearn.semi_supervised.LabelPropagation(): Label Propagation

classifier.
● sklearn.semi_supervised.LabelSpreading(): Label Spreading
classifier.

Kernel Ridge Regression:

● sklearn.kernel_ridge.KernelRidge(): Kernel ridge regression.

Pairwise Metrics:

● sklearn.metrics.pairwise.cosine_similarity(): Compute cosine

similarity between samples in X and Y.

Discriminant Analysis:

● sklearn.discriminant_analysis.LinearDiscriminantAnalysis(): Linear
Discriminant Analysis.
● sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis():
Quadratic Discriminant Analysis.

Isolation Forest:

● sklearn.ensemble.IsolationForest(): Isolation Forest Algorithm.

By: Waleed Mousa

Naive Bayes:

● sklearn.naive_bayes.GaussianNB(): Gaussian Naive Bayes.

● sklearn.naive_bayes.MultinomialNB(): Multinomial Naive Bayes.

Cross Decomposition:

● sklearn.cross_decomposition.PLSRegression(): PLS regression.

Nearest Centroid Classifier:

● sklearn.neighbors.NearestCentroid(): Nearest centroid classifier.

Neural network utilities:

● sklearn.neural_network.BernoulliRBM(): Bernoulli Restricted

Boltzmann Machine.

Stochastic Gradient Descent:

● sklearn.linear_model.SGDClassifier(): Linear classifiers with SGD

training.
● sklearn.linear_model.SGDRegressor(): Linear model fitted by
minimizing a regularized empirical loss with SGD.

Multi-class and multi-label algorithms:

● sklearn.multiclass.OneVsRestClassifier(): One-vs-the-rest (OvR)

multiclass/multilabel strategy.

Multioutput regression:

● sklearn.multioutput.MultiOutputRegressor(): Multioutput regression.

Multiclass-multioutput algorithms:

● sklearn.multioutput.ClassifierChain(): Classifier Chain.

By: Waleed Mousa

Sparse coding:

● sklearn.decomposition.SparseCoder(): Sparse coding.

Covariance estimators:

● sklearn.covariance.EmpiricalCovariance(): Maximum likelihood

covariance estimator.

Gaussian Mixture Models:

● sklearn.mixture.GaussianMixture(): Gaussian Mixture.

Model Evaluation & Selection:

● sklearn.model_selection.permutation_test_score(): Permutation test

for score.

Cluster Biclustering:

● sklearn.cluster.bicluster.SpectralBiclustering(): Spectral
Biclustering.

Sparse PCA:

● sklearn.decomposition.SparsePCA(): Sparse Principal Components

Analysis (SparsePCA).

Voting regressor:

● sklearn.ensemble.VotingRegressor(): Voting regressor.

Bagging regressor:

● sklearn.ensemble.BaggingRegressor(): Bagging regressor.

Impute:

● sklearn.impute.SimpleImputer(): Basic imputation transformer.

By: Waleed Mousa

Checking:

● sklearn.utils.check_X_y(): Ensure X and y have compatible shapes.

Checking Estimators:

● sklearn.utils.estimator_checks.check_estimator(): Check if
estimator adheres to scikit-learn conventions.

Multilabel Binarizer:

● sklearn.preprocessing.MultiLabelBinarizer(): Transform between

iterable of iterables and a multilabel format.

Cross Decomposition:

● sklearn.cross_decomposition.CCA(): Canonical Correlation Analysis.

Loading datasets:

● sklearn.datasets.load_breast_cancer(): Load breast cancer dataset.

● sklearn.datasets.load_diabetes(): Load diabetes dataset.
● sklearn.datasets.load_linnerud(): Load Linnerud dataset.

Binarize labels:

● sklearn.preprocessing.label_binarize(): Binarize labels in a

one-vs-all fashion.

Metrics:

● sklearn.metrics.log_loss(): Logarithmic loss.

● sklearn.metrics.mean_absolute_error(): Mean absolute error
regression loss.
● sklearn.metrics.mean_squared_log_error(): Mean squared logarithmic
error regression loss.

By: Waleed Mousa

Partial dependence plots:

● sklearn.inspection.plot_partial_dependence(): Partial dependence

plots.

Unsupervised Neural Network:

● sklearn.neural_network.BernoulliRBM(): Bernoulli Restricted

Boltzmann Machine.

Load sample images:

● sklearn.datasets.load_sample_images(): Load sample images for image

manipulation.

Metrics:

● sklearn.metrics.precision_recall_curve(): Compute precision-recall

pairs for different probability thresholds.
● sklearn.metrics.average_precision_score(): Compute average
precision (AP) from prediction scores.

Checking:

● sklearn.utils.check_random_state(): Turn random state into a numpy

random number generator.

Output Code:

● sklearn.utils.murmurhash3_32(): Hash a Python object into a 32-bit

integer.

Metrics:

● sklearn.metrics.classification_report(): Build a text report

showing the main classification metrics.
● sklearn.metrics.cohen_kappa_score(): Cohen's kappa: a statistic
that measures inter-annotator agreement.

By: Waleed Mousa

● sklearn.metrics.confusion_matrix(): Compute confusion matrix to
evaluate the accuracy of a classification.
● sklearn.metrics.hinge_loss(): Compute (average) hinge loss.
● sklearn.metrics.matthews_corrcoef(): Compute the Matthews
correlation coefficient (MCC) for binary classes.

By: Waleed Mousa

Scikit Learn
No ratings yet
Scikit Learn
25 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
Machine Learning Evaluation Metrics Guide
No ratings yet
Machine Learning Evaluation Metrics Guide
7 pages
Algorithmeknn 121213175830 Phpapp02
No ratings yet
Algorithmeknn 121213175830 Phpapp02
52 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
Vtu ML
No ratings yet
Vtu ML
13 pages
Scikit-Learn Algorithm Overview
No ratings yet
Scikit-Learn Algorithm Overview
1 page
Scikit-Learn Python Cheat Sheet
No ratings yet
Scikit-Learn Python Cheat Sheet
1 page
SVM K NN MLP With Sklearn Jupyter NoteBo
No ratings yet
SVM K NN MLP With Sklearn Jupyter NoteBo
22 pages
Machine Learning: Supervised /unsupervised
No ratings yet
Machine Learning: Supervised /unsupervised
33 pages
Vtu ML
No ratings yet
Vtu ML
62 pages
Scikit-Learn: Library For Machine Learning and Data Science With Python
100% (1)
Scikit-Learn: Library For Machine Learning and Data Science With Python
11 pages
About Scikit
No ratings yet
About Scikit
3 pages
Data Modeling - Cheatsheet
No ratings yet
Data Modeling - Cheatsheet
9 pages
Scikit-Learn Classification Cheat Sheet
No ratings yet
Scikit-Learn Classification Cheat Sheet
1 page
Lecture03. Classification (Chapter 3)
No ratings yet
Lecture03. Classification (Chapter 3)
46 pages
Scikit-Learn Supervised Learning Guide
100% (1)
Scikit-Learn Supervised Learning Guide
108 pages
TP02
No ratings yet
TP02
3 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
20 pages
Data Preprocessing
No ratings yet
Data Preprocessing
9 pages
ML Libraries (Scikit Learn)
No ratings yet
ML Libraries (Scikit Learn)
10 pages
Python ML Methods Cheatsheet
No ratings yet
Python ML Methods Cheatsheet
6 pages
ML Functions
No ratings yet
ML Functions
12 pages
ML Algorithms
100% (1)
ML Algorithms
1 page
Machine Learning Lab Programs
No ratings yet
Machine Learning Lab Programs
6 pages
Jadavpur University: Assignment Submission
No ratings yet
Jadavpur University: Assignment Submission
9 pages
Linear Regression: Scikit-Learn
No ratings yet
Linear Regression: Scikit-Learn
3 pages
Professional Machine Learning
No ratings yet
Professional Machine Learning
67 pages
Scikit-Learn Python Cheat Sheet
No ratings yet
Scikit-Learn Python Cheat Sheet
3 pages
Question - 2-Interview Question ML
No ratings yet
Question - 2-Interview Question ML
13 pages
ML LNB
No ratings yet
ML LNB
6 pages
Building, Tuning, and Deploying Models
No ratings yet
Building, Tuning, and Deploying Models
11 pages
Scikit-Learn ML Exercises Guide
100% (2)
Scikit-Learn ML Exercises Guide
28 pages
Scikit-learn Machine Learning Tutorial
No ratings yet
Scikit-learn Machine Learning Tutorial
17 pages
Case Study - Classifier
No ratings yet
Case Study - Classifier
5 pages
Machine Learning: Engr. Ejaz Ahmad
No ratings yet
Machine Learning: Engr. Ejaz Ahmad
54 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
P06 The Classification Pipeline Ans
No ratings yet
P06 The Classification Pipeline Ans
16 pages
Text Classification with ML Algorithms
No ratings yet
Text Classification with ML Algorithms
5 pages
Mlviva
No ratings yet
Mlviva
14 pages
Enthought Python Machine Learning SciKit Learn Cheat Sheets 1 3 v1.0
No ratings yet
Enthought Python Machine Learning SciKit Learn Cheat Sheets 1 3 v1.0
3 pages
Advanced Scikit Learn
No ratings yet
Advanced Scikit Learn
98 pages
ML Algorithms for Data Scientists
100% (2)
ML Algorithms for Data Scientists
148 pages
Comprehensive Overview of Common ML Techniques
No ratings yet
Comprehensive Overview of Common ML Techniques
7 pages
Machine Learning Lab Manual 2021-22
No ratings yet
Machine Learning Lab Manual 2021-22
23 pages
Machine Learning Laboratory: Manual
No ratings yet
Machine Learning Laboratory: Manual
52 pages
Scikit Learn Docs
100% (1)
Scikit Learn Docs
1,810 pages
IQBAL Fresher 19
No ratings yet
IQBAL Fresher 19
3 pages
INT524 Unit3
No ratings yet
INT524 Unit3
35 pages
PCCCS504 Module 4
No ratings yet
PCCCS504 Module 4
4 pages
Final Exam
50% (2)
Final Exam
4 pages
Handout 4 - Statistical Interval
No ratings yet
Handout 4 - Statistical Interval
13 pages
LSD
No ratings yet
LSD
7 pages
Introduction To The Course: Quality Control and Reliability
No ratings yet
Introduction To The Course: Quality Control and Reliability
10 pages
Statistical Data Analysis Summary
No ratings yet
Statistical Data Analysis Summary
5 pages
ANOVA and Regression Techniques Explained
No ratings yet
ANOVA and Regression Techniques Explained
21 pages
PCA in Pattern Recognition Overview
No ratings yet
PCA in Pattern Recognition Overview
42 pages
Hypothesis Test: Mean vs. Hypothesized Value
No ratings yet
Hypothesis Test: Mean vs. Hypothesized Value
27 pages
B-56 Sanket Jambhulkar MLA-3
No ratings yet
B-56 Sanket Jambhulkar MLA-3
7 pages
STA1505 Assignment 2 - 2025
No ratings yet
STA1505 Assignment 2 - 2025
3 pages
Solved - Irwin's Sells A Particular Model of Fan, With Most of T...
No ratings yet
Solved - Irwin's Sells A Particular Model of Fan, With Most of T...
4 pages
Case Study in Predictive Validity
No ratings yet
Case Study in Predictive Validity
3 pages
Multi Variant Data Analysis ppt-1
No ratings yet
Multi Variant Data Analysis ppt-1
19 pages
SPSS Analysis: Correlation Matrix Results
No ratings yet
SPSS Analysis: Correlation Matrix Results
3 pages
Movie Recommendation System Guidelines: xAI May 2025
No ratings yet
Movie Recommendation System Guidelines: xAI May 2025
6 pages
Statistics Made Easy Presentation PDF
No ratings yet
Statistics Made Easy Presentation PDF
226 pages
Advanced Regression With JMP PRO Handout
No ratings yet
Advanced Regression With JMP PRO Handout
46 pages
DS Exp8
No ratings yet
DS Exp8
5 pages
Cost Control Boosts Nigerian Manufacturing Profit
No ratings yet
Cost Control Boosts Nigerian Manufacturing Profit
21 pages
Pivot Table Exercise
No ratings yet
Pivot Table Exercise
5 pages
Regression Analysis MCQ
No ratings yet
Regression Analysis MCQ
15 pages
Handbook of Univariate and Multivariate Data Analysis With IBM SPSS Second Edition Robert Ho PDF Download
100% (5)
Handbook of Univariate and Multivariate Data Analysis With IBM SPSS Second Edition Robert Ho PDF Download
47 pages
Statistics Homework Sample 3
No ratings yet
Statistics Homework Sample 3
8 pages
Development and Validation of An Internationally Reliable Short-Form of The Positive and Negative Affect Schedule (PANAS)
No ratings yet
Development and Validation of An Internationally Reliable Short-Form of The Positive and Negative Affect Schedule (PANAS)
16 pages
Practice Exam Chapter 10-TWO-SAMPLE TESTS: Section I: Multiple-Choice
No ratings yet
Practice Exam Chapter 10-TWO-SAMPLE TESTS: Section I: Multiple-Choice
19 pages
5 1 1-Ridf-Curves
No ratings yet
5 1 1-Ridf-Curves
18 pages
MCQS
No ratings yet
MCQS
2 pages
Nitu Tiwari PDF
No ratings yet
Nitu Tiwari PDF
1 page
Machine Learning?
100% (6)
Machine Learning?
114 pages