0% ont trouvé ce document utile (0 vote)

55 vues26 pages

Module 6

aiml

Transféré par

kishoresubramanian12082003

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

55 vues26 pages

Module 6

aiml

Transféré par

kishoresubramanian12082003

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Module 6

Regression Analysis
• A statistical method to model the relationship between a dependent
(target) and one or more independent variables.
• Predicts continuous/real values such as temperature, age, salary, price,
etc.
Regression Analysis
• Supervised learning technique
• Mainly used for prediction, forecasting, time series modeling, and
determining the causal-effect relationship between variables.
• We plot a graph between the variables which best fits the given
datapoints
• Using this plot, the machine learning model can make predictions
about the data
• Regression shows a line or curve that passes through all the
datapoints on target-predictor graph in such a way that the vertical
distance between the datapoints and the regression line is minimum.
Terminologies Related to the Regression
Analysis:
• Dependent Variable: Factor which we want to predict, also called
target variable.
• Independent Variable: The factors which affect the dependent
variables, also called as a predictor.
• Multicollinearity: If the independent variables are highly
correlated with each other than other variables, then such condition
is called Multicollinearity. It should not be present in the dataset,
because it creates problem while ranking the most affecting
variable.
• Overfitting: If algorithm works well with the training dataset but
not well with test dataset, then such problem is called Overfitting.
• Underfitting: If algorithm does not perform well even with training
dataset, then such problem is called underfitting.
Linear Regression Y= a+bX
• Supervised
• Linear regression shows the linear
relationship between the independent
variable and the dependent variable
• If there is only one input variable (x), then
such linear regression is called simple linear
regression.
• If there is more than one input variable, then
such linear regression is called multiple
linear regression
• Popular applications:
• Analyzing trends and sales estimates
• Salary forecasting
• Real estate prediction
• Arriving at ETAs in traffic.
Find the linear regression equation for the given data:

x y x y x2 xy
3 8 3 8 9 24

9 6 9 6 81 54

5 4 5 4 25 20

3 2 3 2 9 6 Linear regression
∑x = 20 ∑y = 20
∑x2 = ∑xy = equation is:
124 104
Y = 1/6x + 4.17
Multiple Linear Regression

β=((XTX)-1XT)Y
What Is Cost Function?
• Measures the performance of a machine learning model
• Quantifies the error between predicted and expected
values
• Mean absolute error:

• Mean squared error:

How do you find
the line of best fit?

• Gradient descent is a tool to arrive at the line of best fit

• Start with a random line and then continue adjusting the slope and y-
intercept of line little by little until you reach a local minimum, where the
sum of squared errors is the smallest and additional tweaks does not
produce better result.
• The size of each step is determined by parameter α known as Learning
Rate.
If slope is -ve : θj = θj – (- If slope is +ve : θj = θj –
ve value) (+ve value)

choose α to be very large choose α to be very small

Subject Diet Age>2
Male BMI
ID Score 0
A 4 0 1 27
B 7 1 1 29
C 6 1 0 23
D 2 0 0 20
E 3 0 1 21
Logistic Regression
• Supervised
• For Classification problems β0 = bias or intercept
• Works with the categorical variable such as term
0 or 1, Yes or No, True or False, Spam or not β1 = coefficient for input
spam, etc. (x)
• Works on the concept of probability.
• Update the parameters b0and b1 to better
fit the data.
• Use gradient descent or other optimization
techniques to iteratively update the
parameters until convergence.
• There are three types of logistic regression:
• Binary(0/1, pass/fail)
• Multi(cats, dogs, lions)
• Ordinal(low, medium, high)
Why not Linear Regression for Classification?
Bought
Age (x1) Income (x2) Product (y)
25 50000 0
30 60000 1
35 70000 0
40 80000 1
45 90000 1
Naïve Bayes
• Supervised learning algorithm for solving classification problems.
• Most effective Classification algorithms which helps in building the
fast machine learning models that can make quick predictions.
• It is a probabilistic classifier
• Eg: spam filtration, Sentimental analysis, and classifying articles.

P(A|B) is Posterior probability: Probability of hypothesis A on the

observed event B.
P(B|A) is Likelihood probability: Probability of the evidence given
that the probability of a hypothesis is true.
P(A) is Prior Probability: Probability of hypothesis before observing
the evidence.
P(B) is Marginal Probability: Probability of Evidence.
Working of Naïve Bayes' Classifier:
Outlook Play
Weath No Yes
Rainy Yes er • Convert the given dataset
Sunny Yes Overca 0 5 5/14 into frequency tables.
Overcas Yes st =
t 0.35 • Generate Likelihood table by
Overcas Yes Rainy 2 2 4/14 finding the probabilities of
t =0.2 given features.
Sunny No 9
• And use Bayes theorem to
Rainy Yes Sunny 2 3 5/14
=0.3 calculate the posterior
Sunny Yes
5 probability.
Overcas Yes P(No|Sunny)=?
t P(Yes|Sunny)=?
All 4/14 10/1
=0. 4 =
Rainy No = 29 =0.7 P(Sunny|No)*P(No)/P(Sunny
Sunny No P(Sunny|Yes)*P(Yes)/P(Sunn
1 )
Sunny Yes y) P(Sunny|NO) = 2/4=0.5
Rainy No P(Sunny|Yes) = 3/10= So P(No|Sunny) =
Nearest Neighbor
• Supervised machine learning for classification and regression problems
• Works by finding the K nearest neighbors to a given data point based on a distance metric, such as
Euclidean distance.
• The class or value of the data point is then determined by the majority vote or average of the K
neighbors.
• This approach allows the algorithm to adapt to different patterns and make predictions based on the
local structure of the data.
Nearest Neighbor steps
Find the label class for Sepal
Length 5.2, and Width 3.1 belongs
to for k=2, 3, and 4

Step 1:
Step 2:
Selecting the
Calculating
optimal value
distance
of K

Step 4: Voting
Step 3: for
Finding Classification
Nearest or Taking
Neighbors Average for
Regression
Decision Trees
• Supervised learning algorithm for both classification and regression
• Each branch represents an outcome of the test, and each leaf node
holds a class label
• Constructed by recursively splitting the training data into subsets based
on the values of the attributes until a stopping criterion is met, such as
the maximum depth of the tree or the minimum number of samples
required to split a node.
• Entropy H(x): A measure of the randomness in the information being
processed. The higher the entropy, the harder it is to draw any
conclusions from that information.
• Information Gain (IG): a measure of the reduction in impurity
achieved by splitting a dataset on a particular feature in a decision tree.
• Pruning: The process of removing branches from the tree that do not
provide any additional information or lead to overfitting.
Decision Trees
Create a Decision Tree - Iterative Dichotomiser 3

1.For each attribute, determine the entropy or information gain resulting from splitting
the dataset.

2.Choose the attribute with the highest information gain as the node for the decision
tree.
3.Divide the dataset into subsets based on the selected attribute's information gain.
4.Repeat Recursively:
1. Apply steps 1-3 recursively to the subsets until a stopping condition is met, such
as:
1.All instances in a subset belong to the same class.
2.No more attributes are available for splitting.
3.A predefined depth limit is reached.
4.A predefined number of instances limit is reached.
5.Build Tree:
1. Construct the decision tree as recursion progresses.
2. Each internal node represents an attribute, and each leaf node represents a class
label.
Create a Decision Tree - Iterative Dichotomiser 3
Create a Decision Tree - Iterative Dichotomiser 3
Create a Decision Tree - Iterative Dichotomiser 3

Vous aimerez peut-être aussi

DSUnit 2
Pas encore d'évaluation
DSUnit 2
23 pages
CH 21
Pas encore d'évaluation
CH 21
83 pages
CH 5
Pas encore d'évaluation
CH 5
119 pages
Reviewforest
Pas encore d'évaluation
Reviewforest
35 pages
Data Science
Pas encore d'évaluation
Data Science
8 pages
03 Classification
Pas encore d'évaluation
03 Classification
79 pages
Progres2019 5
Pas encore d'évaluation
Progres2019 5
44 pages
Techniques de Machine Learning Avancées
Pas encore d'évaluation
Techniques de Machine Learning Avancées
8 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
90 pages
Guide Pratique du Machine Learning
Pas encore d'évaluation
Guide Pratique du Machine Learning
18 pages
Regression Logistique
Pas encore d'évaluation
Regression Logistique
14 pages
Chap 2
Pas encore d'évaluation
Chap 2
34 pages
Estimation de la Demande et Prévisions
Pas encore d'évaluation
Estimation de la Demande et Prévisions
10 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
15 pages
Algorithmes de Machine Learning en 2023
100% (1)
Algorithmes de Machine Learning en 2023
52 pages
Práctica 6: Modelos Probit Y Logit (Ii) - Contrastes de Hipótesis - Porcentaje de Aciertos en La Predicción - Comparación de Modelos
Pas encore d'évaluation
Práctica 6: Modelos Probit Y Logit (Ii) - Contrastes de Hipótesis - Porcentaje de Aciertos en La Predicción - Comparación de Modelos
5 pages
BONNERY Daniel
Pas encore d'évaluation
BONNERY Daniel
165 pages
Méthode des k plus proches voisins KNN
Pas encore d'évaluation
Méthode des k plus proches voisins KNN
8 pages
Fondements de l'apprentissage machine
Pas encore d'évaluation
Fondements de l'apprentissage machine
12 pages
CM4 KNN
Pas encore d'évaluation
CM4 KNN
38 pages
Exemple 3
Pas encore d'évaluation
Exemple 3
21 pages
Machine Learning CH3
Pas encore d'évaluation
Machine Learning CH3
46 pages
CL 10-Evaluation.
Pas encore d'évaluation
CL 10-Evaluation.
12 pages
Regression
Pas encore d'évaluation
Regression
20 pages
Exemple IQ MOYENNE Ecarttype
Pas encore d'évaluation
Exemple IQ MOYENNE Ecarttype
18 pages
Introduction à Scikit-Learn et ML
Pas encore d'évaluation
Introduction à Scikit-Learn et ML
35 pages
3 Fore&#770 T Ale&#769 Atoire
Pas encore d'évaluation
3 Fore&#770 T Ale&#769 Atoire
39 pages
Évaluer les Modèles de Classification ML
Pas encore d'évaluation
Évaluer les Modèles de Classification ML
5 pages
C2 Classsification
Pas encore d'évaluation
C2 Classsification
68 pages
Arbre de régression et validation croisée
Pas encore d'évaluation
Arbre de régression et validation croisée
3 pages
Algorithmes de Machine Learning en Python
Pas encore d'évaluation
Algorithmes de Machine Learning en Python
5 pages
TP 5 Machine Learning
Pas encore d'évaluation
TP 5 Machine Learning
10 pages
Instructions pour utiliser Google Colab
Pas encore d'évaluation
Instructions pour utiliser Google Colab
40 pages
Introduction à la Régression Logistique
Pas encore d'évaluation
Introduction à la Régression Logistique
18 pages
ML Arbres Et Boosting 5 French
Pas encore d'évaluation
ML Arbres Et Boosting 5 French
42 pages
IC272 DS3 EndsemAns 28nov2021
Pas encore d'évaluation
IC272 DS3 EndsemAns 28nov2021
9 pages
Te-Comps Sem6 Ml-Cbcgs Dec19
Pas encore d'évaluation
Te-Comps Sem6 Ml-Cbcgs Dec19
2 pages
Chapitre2 Part1 Machine Learning 2024 2025
Pas encore d'évaluation
Chapitre2 Part1 Machine Learning 2024 2025
59 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Modèles de Datamining : Régression et Classification
100% (2)
Modèles de Datamining : Régression et Classification
14 pages
Betareg Anglais
Pas encore d'évaluation
Betareg Anglais
48 pages
MLBy HVR-FR
Pas encore d'évaluation
MLBy HVR-FR
74 pages
Régression Logistique : Guide Complet
Pas encore d'évaluation
Régression Logistique : Guide Complet
51 pages
TP4: Apprentissage Supervisé en IA
Pas encore d'évaluation
TP4: Apprentissage Supervisé en IA
5 pages
1 Apprentissage Supervisé PB
Pas encore d'évaluation
1 Apprentissage Supervisé PB
4 pages
Techniques ensemblistes en analyse prédictive
Pas encore d'évaluation
Techniques ensemblistes en analyse prédictive
44 pages
TP-regression Master QFM 2023
Pas encore d'évaluation
TP-regression Master QFM 2023
13 pages
Présentation Adm
Pas encore d'évaluation
Présentation Adm
30 pages
Cours Apprentissage
Pas encore d'évaluation
Cours Apprentissage
24 pages
Chargement Des Données
Pas encore d'évaluation
Chargement Des Données
7 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
7 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
Random Forest
Pas encore d'évaluation
Random Forest
33 pages
Régression Lasso avec Python
Pas encore d'évaluation
Régression Lasso avec Python
17 pages
Rapport Fatma MANNAI VF Latex
Pas encore d'évaluation
Rapport Fatma MANNAI VF Latex
60 pages
KNN et Mesures de Distance en Classification
Pas encore d'évaluation
KNN et Mesures de Distance en Classification
22 pages
dmING Chap03 Regression
Pas encore d'évaluation
dmING Chap03 Regression
22 pages
TP Classification
Pas encore d'évaluation
TP Classification
3 pages
Cour 2
Pas encore d'évaluation
Cour 2
3 pages
Exercices sur Polynômes et Équations
Pas encore d'évaluation
Exercices sur Polynômes et Équations
4 pages
Cours Extrema
Pas encore d'évaluation
Cours Extrema
13 pages
Exercices d'Optimisation Avancée
Pas encore d'évaluation
Exercices d'Optimisation Avancée
2 pages
Optimisation de Modèles de Propagation À Partir Des Données de Mesures Radio de La Ville de Yaoundé
Pas encore d'évaluation
Optimisation de Modèles de Propagation À Partir Des Données de Mesures Radio de La Ville de Yaoundé
17 pages
2.TravDirigés UAO Bouaké 2020 2021 Optimisation
100% (1)
2.TravDirigés UAO Bouaké 2020 2021 Optimisation
2 pages
Série D'exercices N°1 2ème Informatique (2022-2023) Elève Salouma
67% (3)
Série D'exercices N°1 2ème Informatique (2022-2023) Elève Salouma
1 page
Optimisation Non Linéaire et Lagrange
Pas encore d'évaluation
Optimisation Non Linéaire et Lagrange
28 pages
Identification de systèmes par méthodes classiques
Pas encore d'évaluation
Identification de systèmes par méthodes classiques
14 pages
25 Énigmes Ludiques Pour Sinitier À La Cryptographie
Pas encore d'évaluation
25 Énigmes Ludiques Pour Sinitier À La Cryptographie
220 pages
Indices et Statistiques: Exercices Pratiques
50% (2)
Indices et Statistiques: Exercices Pratiques
5 pages
Méthode Numérique
Pas encore d'évaluation
Méthode Numérique
7 pages
Rapport Final Du Système de Prédiction Des Cultures
Pas encore d'évaluation
Rapport Final Du Système de Prédiction Des Cultures
46 pages
Optimisation Multi-Objectif en Recherche
Pas encore d'évaluation
Optimisation Multi-Objectif en Recherche
36 pages
Fit Tting and Complexity
Pas encore d'évaluation
Fit Tting and Complexity
2 pages
Module 4 DFet FN
Pas encore d'évaluation
Module 4 DFet FN
70 pages
04 - TD4
Pas encore d'évaluation
04 - TD4
7 pages
Chaînes de Markov : Exercice Pierre Feuille Ciseaux
Pas encore d'évaluation
Chaînes de Markov : Exercice Pierre Feuille Ciseaux
5 pages
TP 2 Réplication Symetrique Synchrone MySQL
Pas encore d'évaluation
TP 2 Réplication Symetrique Synchrone MySQL
7 pages
3.2 Recherche Locale Hill Climbing
Pas encore d'évaluation
3.2 Recherche Locale Hill Climbing
11 pages
Les Conditions Et Les Boucles
Pas encore d'évaluation
Les Conditions Et Les Boucles
4 pages
Lois de distribution en hydrologie
Pas encore d'évaluation
Lois de distribution en hydrologie
13 pages
TNS Enseeiht
Pas encore d'évaluation
TNS Enseeiht
31 pages
Base de Données RIM
Pas encore d'évaluation
Base de Données RIM
109 pages
NWP CH01
Pas encore d'évaluation
NWP CH01
23 pages
Traitement Du Signal Examen 03
Pas encore d'évaluation
Traitement Du Signal Examen 03
6 pages
P4 AnalyseN
Pas encore d'évaluation
P4 AnalyseN
11 pages
Cours II Algorithmes de Résolution Des Problèmes
Pas encore d'évaluation
Cours II Algorithmes de Résolution Des Problèmes
28 pages
Tri Rapide Et Pivot Aléatoire
Pas encore d'évaluation
Tri Rapide Et Pivot Aléatoire
3 pages
TDn3 Modèle Lineaire Multiple Et Multiple UCAO 2025
Pas encore d'évaluation
TDn3 Modèle Lineaire Multiple Et Multiple UCAO 2025
2 pages