CM Finance Appliquée
CHAPITRE 1 : Régression Linéaire Simple (RLS)
créer un dossier:
une ou plusieurs entreprises:
analyser cours de l’action
1H chaque cours pour travailler sur votre dossier
ce qui demande un travail régulier
présentation, historique,
prochaine séance, petite présentation de ce qu’on a préparer (elle note chaque
cours, et note la rédaction, une petite partie libre en fonction de nos inspirations)
si on fait un peu plus on gratte plus de point.
diapo 1: but,
pour prédiction ou optimisations.
diapo 2:
2 variables au minimum
y = dépendance, qu’n va expliqué ,andogène, on va régresser
x= indépendance, explicative, qui va expliquer y (les deux sont liés par une équation
affine), le nb heures passé a réviser va expliquer le score, variable exogène, variable
prédicteur, le régresseur (celui qu irégresser variable y)
y = régression simple
régression multiple = pluseurs variables
graphique va déterminer si régression linéaire, ou non linéaire faudra déteminer la
forme)
M galton a crée la regression.
idee de base: taille des futures peut etre prédite par la taille des parents.
si variable y supérieur à un = multiple
= 1 , simple
rég lin simple:
on part d’une variable y, apporte la réponse à la variable x qui elle va expliquer, et
prédire Y.
Objectif: expliquer l’évolution de Y par celle de X.
droite c’est une multitude de points collés ensemble avec plusieurs coordonnées
chacun va avoir x et y comme coordonnée.
limité aux extremités.
ca continue toujours. Elle est sans épaisseur (plate) d(où la fonction affine)
x est fonction affine de x
droite c’est y = ax + b.
détermination équation d’une droite (y = x+b):
sachant qu’on conait A et autre point b
a, on lappelle coef directeur, aussi pente de la droite (déterminer la pente et
direction, et indique de combien évolue la var y si x augmente d’une unité).
dy/dx
a = yx - ya/xb - xa
b, constante, ordonnée à lorigine, y = a(0) + b , y = b
y = a connu x et b connu (comment vérifier si c’est des bons paramètres)
point a appartient à la droite y, les coordonnées doivent donc vérifier cette équation
a = xa = a connu xa + b connu
b = yb = a connu xb + b connu
ya = a connu xa + b connu
ya = a connu (0) + b connu
ya = b connu
Exemple:
on doit déterminer une droite de type y = ax + b
x = temps de révision
y = score que vous allez obtenir
on connait 2 observations:
élève A = révisé 1h, 2 comme note A(1,2)
élève B = révisé 3h, 4 comme note B(3,4)
sur graphique on trace.
maintenant donner les coordonnées de cette droite=
pour trouver :
3 - 2 / 3 - 1 = 2/2 = 1 y = 1x + b
pour trouver b, c’est ou la droite coupe l’ordonné Y (quand 0)
y = a connu x + b connu
ya = axA + b
2 = a(1)+ b
1=b
y = x+1
y = aplha + beta X
Autre exercice:
on a nos x et y
on va estimer la droite qui passe en yt1(1,6) et yt2 (5,2)
on trace notre droite
y = aplha + beta X
y = betax + aplha. (donc y = ax + b équivalent)
yt1 = aplha - X
yt1 = aplha - Xt1
6 = aplha - 1(1)
6 + 1 = aplha
7 = aplha
y=7-X
si on a compris = réexpliquer de manière clair et juste.
a= coef direc b= ordonnée à l’origine
b = valeur de y quand x est 0 sur graph.
pour déterminer equation avec coordonnées connu,
2 observations de 2 variables qu’on connait.
a la base, faire une représentation graphique.
si x = 2, grace a cette droite on saura combien on aura de note.
une fois qu on a ces points, on trace, et a partir de ces points on va déterminer l
equation pour prédire l’ensemble des points.
aplha = ordonnée à l’origine = valeur de x quand il vaut 0 sur l’ordonnée |
béta = cef directeur
(ici inversé que y = ax + b)
rls = sert a estimer les parametres. permet aussi de valider (prévoir ce qui va se
passer dans le future)
régression dans plusieurs domaine. (comme finance)
choisir 2 variables
(example: mcdo, taux de colesthérole et diabète)
1. il faut faire une représentation graphique de 2 observations. (exemple:
bavardage, note)
2. on va observer la forme du nuage de points., si ressemble a rien, peut etre
pas de liens entre les deux variables
Si ca monte, positif ,si descend, négatif
plus il est resseré, plus le lien est fort ca notre équation sera vérifiée.
étant donnée, qu’ on a un nuage de points, on va avoir une doite approximative.
fonction linéaire = droite.
la variable y qui sera déterminer par les 2 variables (les 2 observations)
y = donc variable dépendante
x variable indépendante
diapo 11.
diapo 12
diapo 13
on introduit un résidut (ou l’erreur) cat tout les points ne sont pas alignés.
on prend l’équation linéaire et on introduit ce bruit.
aplha ordo origne estimé
béta coef directeur
epsilone = bruit , résidu, indépendante de Xi. = inexacttude de notre modèle.
on va devoir estimer tout
epsilone va varier pour chaque point.
y = aplha + betax + epsilone
epsilone = ecart entre valeur réelle et valeur estimée (prédit par le modèle) =
constitue l’erreur pour un point là.
autre exemple de 2 variables:
temps, montant
révision:
qu’est ce que la régression:
on a essayé de trouver une equation.
alpha = ordonnée à l’origine.
beta = pente de la droite
rl = droite au baricentre et on introduit l’erreur epsilone.
epsilone mesure l’erreur que l’on peut avoir
déterminer l’équation de regression avec nuage de points, avec la méthode de
moindre carrés
Moindres Carrées Ordinaires (MCO)
y = aplha + betaX (pente) + epsilone
2 = 1(1) + b
variables aléatoire Y par rapport à X.
on introduit le résidut, on a cette erreur car il ya des erreurs de mesure,on esssai de
généralisé par rapport à un échantillon limité.
aplha =
chapeau dessus = estimée.
aplha chapeau = Y barre (moyenne des observation y) - beta chapeau (prévision de
la pente) * X barre (moyenne du X)
(car les points ne sont pas alignés, donc on doit trover aproximativement les valeurs
Aplha et Beta)
explication:
Y = Aplha + beta X
aplha = Y - Beta X
on met juste chapeau de ça.
beta =
chapeau dessus = estimée.
beta chapeau = COVariance (X,Y)/ V(X)
signification: estimateur de la pente de la droite de régression = si on bouge x d’une
unité, il y aura sa valeur réelle mais on aura sa valeur estimée.
(rien de compliqué)
principe MCO (méthode des moindres carrés):
trouvr les coordonnées alpha et beta de la droite de régression qui passe au plus
pres d’un nuage ed points
essayer de réduire la distance entre chaque point par rapport à la droite, avoir le
moins d’erreur possible
somme des épsilone au carrée ,
epsilone = ecart entre valeur reelle(observée) et valeur estimé
pour faire des estimations avec nuages de points, on met quelques hypothèses sur
les estimateurs là.
aplha chapeau et beta chapeau en fonction de l’échantillon.
ces estimateurs doivent etre non biaisés.
espérance donne aplha et beta réelle.
Variance tend vers zéro.
propriété:
non baisé = ce qu’ on aura estimé, em moyenne ca donne la valeur réelle
convergent = quand on augmente le nombre d’observation, la variance tend vers 0
efficace = celui qui a la variance minimale
(tout sera calculé sur logiciel (avantage) et interpréter ces résultats (pas compliqué))
hypothèses: comme points pas alignés, on introduit l’erreur, modèle un peu modifié.
il faut avoir un modèle qui puisse être linéaire.
H1 = on additionne les hypothèses
H2:
Y doit être quantitative (qu’on peut mesurer), continue, non bornée et mesurées sans
erreur.
X doit être quantitative, dichotomique, mesurées sans erreur.
les erreurs epsilon suit loi normale, doivent être variable centré réduite, indépendant
de la variable dépendance
en moyenne si on additionne toutes ces erreurs, y aura zéro erreur car on tombera
sur la droite.
en moyenne on fera pas tellement d’erreurs.
la variance des erreurs est constante.
epsilon indépendante de X.
suivent loi normale
centré, en moyenne vaut zéro
de même variance constante
2 hypothèses sont sur les variables x et y
le reste sur epsilon.
Groupe de 3 personnes pour les dossiers:
on choisi l’entreprise principale, elle doit être cotée (pour accéder facilement au
données publiques).
et dire pourquoi on a choisi (par rapport à quel contexte?)
entrer les données de x et y, et le résultat sort, on devra interpréter.
présenter entreprise coté (indicateurs pour dire voilà comment se porte société,
concurrents, quels secteurs d activités (expansion ou déclin et pourquoi), comment
se compose actionnariat et la gouvernance, (est il leader ou dernier (parts sur
marché))
justifier pourquoi on a choisi l’entreprise là
on devra envoyer dossier mais aussi présenter oralement.
extraction des données
Total Energies:
évolution du cours entre:
prix baril pétrole
prix gaz
prix électricité
prix de l’énergie
NOUV
y = ax + b
a = yb - ya/xb - xa
ou a=ya - yb/xa - xb
A appartient à Y: ya = a xa + b b = ya - a xa
B appartient à Y: yb = a xb + b b = yb - a xb
Valeur de l’action Accord, en date du 1er Octobre 2023 ou le jour après. et 1/09/2023
Valeur du CAC40 en date du 1er Octobre 2023 ou jour le d’après et de 1/09/2023
prendre le cours de cloture ajusté.
(screenshot)
1/10/2023 1/09/2023
(7029,70: 31,20) (7135,06 : 31,94)
CAC 40, Accord CAC 40, Accord
c’est un couple d’observation.
on cherche les coordonnées de la droite y = ax + b
a = variation de Accord quand cac 40 augmente de a
ya - yb/xa-xb
=31,94 - 31,2/7135,06-7029,70
= 0,007
maintenant, on cherche l’ordonnée à l’origine, valeur de y quand x vaut zéro.
A appartient à la droite (Y), y a = a xa + b
et ya - a xa = b
ou
yb = axb + b
et yb - axb = b
31,2 - 0,07 x 7029,7 = b
b = - 18
Y = 0,007 x - 18
si pour CAC 40 = valeur est de 10000,
y = 0,007 x 10000 - 18
y = 52.
on va corcer un peu les choses
extraction des valeurs d’Accord, 1er mai 2021 de tote les valeurs mensuelles, 1er
octobre 2023.
Après graphique pour voir l’évolution dans le temps.
(Excel sur ordinateur, dossier Finance Appliquée)
OBJECTIF: Expliquer les variations ACCORD/CAC40
NOUV
regression linéaire simple, regression linéaire multiple:
analyser, controler, prévoir, estimer
faire le nuage de points
si beta = 0, pas de relation, et horizontale, le modèle ne tiens pas la route
Si beta > 0, relation positive de la corrélation
Si beta < 0, relation négative de la corrélation
somme des écarts doit toujours être nulle.
méthode des Moindres Carrés Ordinaires:
trouver estimateur de aplha chapeau et beta chapeau
estimation d’epsilone
aplha chapeau (moyenne) = aplha
beta chapeau (moyenne) = beta
somme des erreurs = 0
beta = cov (x, y)/ V x
ca doit etre non biaisé (moy estimateur = valeur lui meme à chaque fois), convergent
(plus on aug tail ech, plus variante tant vers 0), efficace (var minimale)
application concrete a partir Sharpe
Sharpe =
estimer le rendement de l’action future.
gérant de portefeuille ou grand trader, utilise Sharpe.
hypothèses irréalisables et irréalistes.
plus actif est volatil, plus il est risqué, plus il est intéressant de trader.
celui qui trouve meilleur modele de Sharpe.
Rendement d’une action=
Valeur finale - valeur initale / valeur initiale
extraire prix, ensuite faire rendement, ensuite modele de Sharpe.
résumé rapide:
Sharpe: toujours meme mécanisme de calcul:
● rendement d’un titre par rapport au rendement du marché
● ou rendement d’un portefeuille par rapport au rendement du marché
H0 : hypothese nulle, beta = 0, pas de liens entre les 2 variables, les 2 sont
indépendante.
H1 = hypo chercheur/alternative, les 2 variables sont liés, un a un impact sur l’autre.
Permet de décider si on rejette ou pas H0, et donc beta égal à 0, ou différent de 0.
Si beta supérieur à 0: test unilatéral
Si beta inférieur à 0: test unilatéral
Si lien positif ou négatif entre les deux variables = test bilatéral
Seuil de signification = risque de se tromper sur l’hypothèse H0 (croire qu’il y a une
relation alors qu’il y en a pas) Ont le fixe sans calculer: 1%, soit 5%, soit 10%.
Taux d’erreur acceptable.
Plus c’est bas, et meilleur sera votre modèle.
pour rejeter H0, il faut que le risque de se tromper soit inférieur au seuil de
signification.
Coef de corrélation de Pearson:
compris entre -1 et 1. si se rapprochede ses deux valeurs, lien très fort.
corrélation n’explique pas forcément la relation de causalité.
il y a un lien de causalité entre les deux là enfaite.
exemple avec les ventes de glaces, piqures de moustiques et l’été, lien de causalité
entre les deux là.
Déterminer une valeur critique, qu’on lie dans la table de student (dépend du seuil de
signification choisi; et degres de liberté = nombre d’échatillion - 2 car on perd en
information)
unilatéral,
bilatéral, diviser le seuil de signification en 2.
formulation de règle de décision diapo 45
la décision diapo 46
diapo 47 étape ultime: vérifier la qualité de votre modèle, avec le coef de
détermination diapo 49
avec un coef de détermine… cela signifique que …. des variations des variables sont
expliqués par le modèle. mais cela ne traduit pas forcément un modèle de corrélation
linéaire.
Dossier contenu diapo 51.
rendement de votre entreprise par rapport au rendement du CAC 40. justifiez chaque
choix. parce que …., avant il y avait sa vraiment de pertinence. ou voir avant telle
crise et après telle crise.
Une 30ene d’observation minimum
A mettre dans le dossier:
interpretation en 1 demi page:
stat descr
coef correlation
sct
beta
Regression Linéaire Multiple:
4-5 variables max
Aplhachapeau (estimé, rendement du titre)
beta chapeau
autant de beta que de variables indépendantes.
k = nb
test de Fisher
n= observation
k = variables indépendantes
Ho = 0 pas de lien significatif
H1: Inverse
Le Beta = la pente. si = 0 pas de relation entre deux variables.
ici t: on a plusieurs variables donc (n-k-1) donnera le degré de liberté. et si on
applique cela sur une régression linéaire simple, c’est n-k-1 et n-1-1 = n-2 avec k =
nombres devariables indépendantes.
r2: s’améliore a partir du moment ou on rajoute des variables indépendante.
p = nb de variables explicatives
r2 ajusté: toujours positif car élevé au carré, permet de comparer deux modèle. R2
supérieur, explique mieux la variabe explicative donc c’est un meilleur modèle
R2 ajusté supérieur est le meilleur modèle.
et cela veut dire que l’autre variable ajouté n’explique pas mieux le modèle.
Parler du R2 et R2 justé dans la Régression Linéaire Multiple.
interpretation générale:
sous forme d’équation ou tableau.
Le bonus du dossier: enlever les variables non significative de SPSS après
refaire avec que les variables significatives.
possible de comparer avec le modèle avec variables non significatives avec le
modèle sans variables justificatives.
PLAN:
présentation de l’entreprise
liste d’hypothèses (des variables pouvant avoir une influence sur que Ri de notre
société)
II
Obligatoire: RLS, selon modèle de Sharp (Ri vs Rm) entreprise vs indice obligatoire
et un autre facultatif.
● retenir 1 seule hypothèse
III (partie libre):
RLM.
reprendre Ri, Rm, ajouter d’autres variables.
comme un autre Rm, ou mettre d’autres variables.
faire au moins 3 ou 4 variables.
ANOVA:
regression SCE
Student SCR
TOTAL SCT
constante = aplha
beta par marché
Beta de l’autre variable
paz regardé coef standartisés.
t student
Sig = probabilité, comparer à ce seuil de sgnificativité
mettre significatif ou pas et les etoiles et la forme des equations.
si pas significatif (NS), enlever et refaire pour que le modèle est mieux expliqué.
utiliser 50 observations
Remarque:
quand ca affiche 0,000, c’est en dessous de 0,0005.
Donc ne pas dire que c’est égal à zero.
Autre remarque:
Sur SPSS, ca affiche 0,05 et 0,05 c’est 0,0005.