0% ont trouvé ce document utile (0 vote)
37 vues17 pages

Bloc-Notes Sans Titre

Le document traite du traitement des données, de la collecte à l'exploitation, en passant par la modélisation et la gestion des bases de données. Il aborde des concepts clés tels que la qualité de l'information, les systèmes de gestion de fichiers, le modèle relationnel et le langage SQL. Enfin, il explore l'intelligence artificielle et son interaction avec les données, ainsi que des outils statistiques comme le langage R.

Transféré par

haiderneffeti28
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
37 vues17 pages

Bloc-Notes Sans Titre

Le document traite du traitement des données, de la collecte à l'exploitation, en passant par la modélisation et la gestion des bases de données. Il aborde des concepts clés tels que la qualité de l'information, les systèmes de gestion de fichiers, le modèle relationnel et le langage SQL. Enfin, il explore l'intelligence artificielle et son interaction avec les données, ainsi que des outils statistiques comme le langage R.

Transféré par

haiderneffeti28
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Traitement des données

Chapitre 1

Donnée : représentation d’une info dans un système informatique pour permettre


son traitement
Le but est de les collecter, les preparer, les exploiter et les interpreter pour extraire
les infos utiles
Il y a différentes phases : la collecte, la preparation, l’exploitation, le stockage ainsi
que sa sécurisation et pour nir sa diffusion/ interpretation

La qualité de l’information va dependre de : son exactitude, sa pertinence,


precision, actualité…

Collecter des données :


Elles peuvent venir directement de l’O : données internes, pouvant ê primaire
(collectées par l’E)
Mais elles peuvent aussi venir de referent externe : données secondaire (gratuite
ou payante)
Les données personnelles : correspond à toute information relative à une
personne physique identi ée ou identi able, régies par le RGPD

Pour realisé une transformation analogique en numérique : utilisation de codages


binaires
Base du codage binaire :
Un bit : 0 ou 1, 8 bits : 1 octet
Les caractères sont codés grace à des tables de correspondance : ASCII (7 bits,
128 caractères), Unicode (32 bits)
images sont codées en enregistrant la valeur de pixels (enregistrement format :
JPEG, PNG, GIF ou BMP)
1 o = 8 bits=27 valeurs différentes (de 0 à 255)
1024 o = 1 kibi-octet (kio)
1024 kio = 1 Mébioctet


fi
fi
fi
Un système de gestion de chiers (SGF) : permet à un système d’exploitation de
gérer l’enregistrement des informations sous forme de chiers sur une mémoire
de masse (FAT 32, NTFS, Ext4)

Mémoire vive : RAM : stockage temporaire, rapide, une fois que l’ordi est éteint :
la RAM se vide
Mémoire morte : ROM : stockage persistant (disque dur), sauvegarde et RAID (0,
1, 5) pour sécu
Cloud : serveurs distants, accès mondial mais dépendance au prestataire

Exploitation des données = utiliser les données pour en extraire des info utiles.
Outils pour se faire : visualisation (tableau, power BI), statistiques (R, python) IA

datawarehouse (entrepôt de données) : système de gestion de données conçu


pour prendre en charge toute l’informatique décisionnelle et l’analytique de toute
l’entreprise
datamart est une forme simple d’entrepôt de données axé sur un seul sujet ou un
seul secteur d’activité
fi
fi
Chapitre 2 : Modélisation des données
Dans un système d’informations, données et traitements apparaissent intiment liés
Le but : Identi er, décrire par des info et modéliser les objets et leurs associations
Pour modéliser il y a deux types d’approches : deductive : l’existence préalable
d’une liste d’informations à structurer
Ou inductive : mettre en évidence les concepts évoqués dans le discours et à
les décrire par des informations
Base essentielle de la modélisation : l’analyse du discours

Collecter les infos : doc, entretiens, questionnaires


Types de données : élémentaire (directe), calculées, composées

Dictionnaire des données


Sa construction : sans redondance, ni synonymie ni homonyme. Ensuit nous
allons def un nom symbolique ( ex : numclient), un domaine OÙ intervalle de
valeur possible et le type (réel, entier, date…). Ensuite MEP ds un tableau qui sera
le dictionnaire de données avec le nom, domaine…

Dépendances fonctionnels : une donnée détermine une autre : A ->B


Elle est dite forte si unicité+ totalité = toutes les valeurs de A ont une
correspondance
Faible si unicité seulement (certaines valeurs de A n’ont pas de correspondance)

But du modèle Conceptuel des Données (MCD) : montrer comment s’organisent


les données du domaine.
Sa base sur 4 concept clés : entité type et association type (ensemble d’objet
similaires), propriété type (modélisation d’une info élémentaire), cardinalité type

>
-

nom de l'entité

&
propriété pe idd-
Les occurences
Les propriétés
fi
Règle de modélisation :
● de pertinence : entités doivent ê utile au domaine modélisé
● D’identi cation : entités doivent avoir un idd unique
● De distinguabilité : 2 occurrences d’une entité doivent ê différentiable
● D’homogéneité : les propriété doivent ê méritante pour toutes les occurrences
de l’entité
● De véri cation : une propriété ne doit pas avoir plusieurs valeurs pour une
occurrence
● De normalisation : propriété correctement affecté à la relation

Relation types : ensemble de d’associations de même nature entre deux ou plsr


occurrences d’entités
dimension : nombre d’entités composant la relation type
Exemple de relation :

Cardinalité : participation des occurrences d’une entité type aux occurrences


d’une relation
Cardinalité minimale : 0 participation optionnelle et 1 participation obligatoire
Cardinalité maximale : 1 : unicité et N : multiplicité

Étape de modélisation :
Analyser les dépendance fonctionnelles : idd les groupes d’info et leur
regroupement autour d’un idd
Création des entités et relation : def les propriété et idd les cardinalité
Formalisation du MCD : schéma graphique avec entité, relation, propreté et
cardinalité
fi
fi
Chapitre 3

& rate de
L'asso-
-

101 joué par


l'ASSO

certe clients peuvent aussi e fournisseur : Specialisate des entités

clients et fourni : entité se types de l'entité surtype tiers


-

Quand cardinalité maximale à 1 : contrainte d’intégrité fonctionnelle (ex : E ft qu’1


type de travaux)
relato où s'applique la contrainte

cible de la dépendances

> entités emettrices de la dependances

De base, ces modèles conceptuel sont statique, mais on peut tout de même tenir
compte du temps, 3 possibilités :
Valeur calendaire (date de livraison, année universitaire)
Série chronologique de valeur : CA mensuel, température quotidienne. Le temps
va devenir une entité
L’historisation : modélisation explicite l’unité de temps

Modèle relationnel : 2 aspect fondamentaux : algèbre (pr manipuler des tables ou


relation), et une démarche de conception (pr def une collection de relation)
Le modèle relationnel s’appuie sur 3 concepts structuraux de base : la relation
(tableau de données : table de base de données), des attributs (propriété de
l’entité deviennent des colonnes) (colonne du tableau), chaque valeur des ces
attributs ont un domaine et les lignes du tableau sont des tuiles
Exemple d’une table PIÈCE :
PIÈCE (idpiece : entier ; nompiece : char(10) ; couleurpiece : couleur ;
poidspiece : réel)

Ainsi, une base de donnée relationnelle = ensemble de tables


Plus général toi, les tables de base de données on ne precise pas le domaine des
attributs, on souligne l’idd de la relation et # pour les clés étrangère
Clé primaire : permet d’idd de façon unique chaque tuile avec 1 seul
Attributs
Clé primaire composée : de même mais avec plusieurs attributs
Contrainte référentielle : lien sémantique def entre 2 table : lien réalisé avec la
duplications de la clé primaire d’une table dans une entre : clé étrangère (1,1) ou
(0,1)

Algèbre relationnel : ensemble d’opérations formelles s’appliquent s/ 1 ou plsr


table pr en donner une nvl.
Il y a 7 opérations : selection, protection, union, intersection, difference, jointure,
division
La sélection : sélectionner plsr tuile selon un critère portant sur des attribut
La projection : supprimer certaines colones de la tables (éliminer les occurrence
identiques = tuples en doubles)
La jointure : nvl table a partir de la composition de deux tables
La normalisation :
Si tt les attributs sont rassemblés dans une tables universelle, le processus de
normalisation consiste à décomposer cette table en plsr par des projection. Il va
donc y avoir un 1° de forme normale ou cet sous ensemble vont former un 2° et
ainsi de suite (max 3)
Ex de dépendance fonctionnelles ce primaire composée

clé primaire

de primairedependance fonctionnel

1° forme normale : élime les grp répétitif (sortir le grp répétitif de la table initial et le
transformer en table, ajouter la clé primaire de la table initiale) : règle de
véri cation (cf : conception du modèle conceptuel)
C’est lorsqu’il y a dépendance qu’il y a un groupe répétitif
Exemple : on a notre table : commande (numCom, date, Numcli,nom, NumArtcile,
désignation, qtéCmdée)
On a va avoir : Commande (NumCom, date, NumCli, nom) et Artcile (NumCom,
NumArtcile, désignation, qtéCmdée)

Passage du MCD au modèle relationnel


1. Les entités : tte entité se transforme en table ( propriété -> attributs, idd -> clé
primaire
2. Relation binaire : duplication de la clé de la table issue de l’entité à cardinalité
(0,N) ou (1,N) dans la tab,e issue de l’entité à cardinalité (1,1) : clé étrangère
fi
Le langage SQL(1974)
Construit autour de 3 grands axes : dé nition des donnés (LDD) (instruction
permettant de créer des bases de données)
Manipulation des données (LMD) (insertion de valeur dans les tuples, instruction
pr projeter des données)
Sécurisations des données (LSD) (permissions d’accès aux objets)

Crée une table pour accueillir des tuples : create table


Syntaxe :
CREATE TABLE (NomDeMaBase.) NomDeLaTable (nomattribut1 type attribute
(option);,..);
Types d’options : NOT NULL (pas de valeur indéterminée), DEFAULT (si pas de
valeur spé), PRIMARY KEY (spé la clé primaire), FOREIGN KEY REFERENCES
(declarer une clé étrangère)

Une fois une table créée on peut la modi er : ajouter un nv attributs : ADD
NomNouvelAttributs TypeNouvelAtttribut (contraintes), modi er un attributs déjà
existant : MODIFY (nouvellecontrainte) ou supprimer : DROP Nom attribut;
fi
fi
Chapitre 4 : SQL comme LMD
Insérer des nv tuples : INSERT

Pr réaliser des opérations de projection et de selection : SELECT ou SELECT *


FROM

Éliminer les repetition : DISTINCT

La clause where : spéci er des critères de sélection des occurrences : prédicats


Prédicat : expression logique composé de suite de condition (V ou F) avec des
opérateurs logiques : AND, OR, NOT
Ex : 1. On souhaite la liste des magasins dont le gérant est dupond
2. On veut la liste des articles qui pèsent plus de 500.

And et OR tjr avec where. And : rajt un critère de selection en +


Or : véri er les prédicats de la clause where

NOT : inverse la valeur d’une expression logique


fi
fi
SQL effectue ds l’ordre : les comparaison, les not, and, or
Between :

IN :

LIKE : sélectionner des tuples dont la valeur de l’attribut contint une valeur
correspondant au ltre

ORDER BY : permet de les mettre dans un certain ordre (ASC croissant, DESC
décroissant

Groupe : rassemblement de tuples autour d’une valeur commune ( ex NvEtude


permet de regrouper L1,L2,L3…) : GROUP BY
Fonction de grp : count (nbr d’occurences de l’attributs), SUM (somme des
valeur), AVG (moyenne), MAX (+grd valeur), MIN

Supprimer des tuples de la table : DELETE


MAJ de la valeur des tuples : UPDATE
fi
Liaison de plsr tables grace : jointure, requête imbriquée ou encore opé
ensemblistes

Les jointures :par le mécanisme de clé étrangère : jointure naturelle


On utilise la valeur commune prise par les tuples etre la clé primaire de la table A
et la clé étrangère de la table B : citer les attributs recherché dans la clause select,
de lister la table dans la clause from et de préciser dans where la condition
d’égalité et de selections

Jointure externe : obtenir une liste de tuples en fonction d’un critère portant sur
une jointure avec une autre table et pour visualiser tous les tubes, y compris, ceux
qui ne répondent pas aux critères, il faut réaliser une jointure externe
Si on vt conserver tout les tuples de la table a gauche de l’opérateur JOIN : LEFT
OUTER
A droite : RIGHT OUTER et pr les 2 : FULL OUTER

Requêtes imbriquées : permettent de générer des tables résultat à partir d’une


requête de type sélect qui sera utilisée par la requête principale
Opérateur ensemblistes
4 opérateur ensemblistes :
L’union : UNION : union des résulta de deux requête SÉLECT, par default il
élimine les doublons (mais tt de même utiliser DISTINCT)mais si on met ALL pas
de supprime : les attributs doivent ê compatible
L’intersection : INTERSECT : insertion de deux requête SÉLECT
La diff : EXEPT : diff des résultats des deux requêtes
Le produit cartésien : CROSS JOIN

On peut insérer des occurrences dans une table à partir des résultats d’une
requête impliquée
Chapitre 5 :
IA faible : réalise des tâche spéci que, sans capacité cognitive
IA forte : utopique, imite l’intelligence humaine
Deux. Approches : symbolique, programmé par des règles, xes ou apprentissage
automatique, utilise des données pour apprendre

Type d’apprentissage : superviser, utiliser données étiqueté pour ajuster les


paramètres, non superviser, explore des données non étiqueté pour découvrir des
associations
Billet des données : source des erreurs des intelligences arti cielles par exemple
des données exclusivement masculines, il y a un billet de genre, il peut aussi avoir
des hallucinations, réponses, fausses, mais formuler avec assurance

Dé nition du Romping : technique pour formuler des requêtes ef caces aux


intelligences, arti cielles, générative. Retour
Trois méthode : 1er : classique, préciser la tâche, la 2e few shot : fournir des
exemples et la dernière : chaîne de pensée, guider le raisonnement, étape par
étape.
Limite des raisonnements, car ils ne conçoivent pas de réponse en amont Eliane,
contamination de la chaîne de pensée, si il y a des erreurs à une certaine étape
qui va se répercuter tout le long
Fondamentaux du point engineering : la clarté : questions précises, la gestion du
contexte : fournir assez d’informations, le raf nement itératif : améliorer
progressivement le prompt

Langage R : spéci quement pour le calcul statistique et scienti que. Retour


Il va utiliser des variables auxquelles on va affecter des valeurs. Les commandes
vont être utilisées pour les manipuler et dans un script il peut avoir plusieurs
opérations.
Vecteur : caractérisé par une liste de valeur de même type
Pour sélectionner un élément mettre entre crochets
fi
fi
fi
fi
fi
Pour accéder à plusieurs valeurs, on utilise la commande Print

Matrice : jeux de données, représentés en deux dimensions


Colonne du même type et même longueur
Pour savoir si un élément est matrice, on utilise la fonction class() et pour
connaître sa dimension attributes ()
Pr crée une matrice : matrix()
Matrice <- matrix(MonVecteur, nrow=r, ncol=c, byrow=(true/false)

Accéder à un élément de la matrice


Utilisation des coordonnées absolue de la donnée que l’on veut extraire en
l’encadrant entre crochet

Data frame : table de données avec des données différentes dans chaque
colonne, une liste de vecteur de même longueur et des objets à deux dimensions,
contrairement aux matrices
>
-

surence de une
inserer une table
·
insert into nom de la table
·
values ( 1

/
.. i :
1

>
-

faire des schreh des une base de données


e : donner en liste de X avec a

Select Y FROM de la table


X
;
·
nom
,

>
-

selectioner juste une table


SELECT *
FROM de la table
& nom
;
>
-

fr une recherche awe citère/condite


# :
prix de vente du Disduit X
·
Select nom de ce qu'on chrch
· FROM la table su se tru l'info
du = X'
· where nom produit
&

leike i
>
-

Fr une cherch Di voir su est o qu'il manque


une wen
·
Select dece qu'on chuch
norm
· FROM la table su ca se tri
S
· where la valeur manquante IS NULL
;
>
-
fr une somme

ed : e nbl de client de L'E


· SELECT COUNT (primary Cly] As nombreclient
&
FR&M nom de la taber

>
-

Combien de la en une année


·
SELECT COUNT (Primary cle)
· From nom de la table
-
where date de glach BETWEEN"x(X/X" AND "XX/X"

Vous aimerez peut-être aussi