Master Agroalimentaire S2
Techniques d’analyses des biomolecules :
Bioinformatique
Cours 1
P RO F MAU R ADY AM AL
D É PARTE ME N T D E S SC I E N CE S D E L A V I E
FST T - UAE : 2020-2021
Historique
Les apports de la Bioinformatique sont multiples et permettent de :
• Compiler et organiser les données (bases de données).
• Réaliser un traitement systématique des séquences permettant la
caractérisation des fonction biologiques.
• Elaborer des stratégies pour apporter des connaissances (ex : matrices
de substitution pour les acides aminés).
2
Introduction
La bioinformatique : L’organisation de séquences et information biologiques
dans des bases de données facilement accessibles.
Le développement de la bioinformatique s’est fait en parallèle avec les
sciences « omics » qui requières des technologies à haut-débit ne recherchant
pas la précision/qualité, mais plutôt le nombre de résultats
L’information stocké et analysé dans des bases de données est sous forme de :
Acide DéxoxyriboNucléique
Acide RiboNucléique
messagerADN
ARNm
Protéine (structure ou enzyme)
3
Bioinformatique
La Bio-Informatique s’applique à tout type de données biologiques, en particulier moléculaires :
Les séquences d’ADN et de protéines
Les structures d’ARN et de protéines
Les contenus en gènes des génomes
Les puces à ADN (microarrays)
Les réseaux d’interactions entre protéines
Les réseaux métaboliques
Les arbres de phylogénie
4
Objectifs de la Bioinformatique
Faire avancer les connaissances dans le domaine de :
Biologie,
Génétique humaine,
Théorie de l’évolution…
« Drug design »la conception de médicaments
Etudier les maladies complexes..
5
Objectifs de la Bioinformatique
Décoder l’information contenue dans les séquences d’ADN et de protéines
Trouver des gènes
Différencier entre introns et exons
Analyser les répétitions dans l’ADN
Identifier les sites des facteurs de transcription
Étudier l’évolution des génomes
Génomique structurale:
Modéliser les structures 3D des protéines et des ARN structurels
Déterminer la relation entre structure et fonction
Génomique fonctionnelle
Étudier la régulation des gènes
Déterminer les réseaux d’interaction entre les protéines
6
Séquence sont de différentes natures :
Nucléotides (ADN/ARN)
Acide aminées (Protéines)
Elles peuvent être complète ou non Génomique
Les études à réaliser sont les suivantes :
Étude des génomes, donc de l’ADN structurale et fonctionnelle
Transcriptomique:
Étude des ARNm d’un tissu
Protéomique: Étude des protéines d’un tissu
Génomique : Étude de l’ensemble des génomes ou des séquences dans un
échantillon biologique (eau, sol, tissu)
7
Informations recherchés
Questions pour un biologiste?
Rechercher l’Unité fonctionnelle ARNm
Préservation de l’information ADN
Compare un tissu malade
Chercher une séquence d’une Protéine et la comparer à une autre
Chercher un gène
Chercher des mutations
Etc ….
8
Objectifs :
Identifier une séquence par rapport à une base de données
Déterminer le degré de similitudes entre deux séquences (intérêt en
taxonomie)
Repérer des motifs structuraux pour les protéines
Repérer pour un nucléotide
◦ Gènes,
◦ Promoteurs,
◦ etc.
Repérer des zone de repliement pour un polypeptide
site actif, etc.
9
Origine des données Bioinformatiques
A partir des données de séquençage classique : depuis 1975
Amplification de fragment d’ADN prédé[Link] séquence un fragment à la fois.
A partir des données de séquençage de nouvelle génération : depuis 2005
Les taux d’erreurs sont en moyenne 10 fois plus élevés que les méthodes de séquençage en
capillaires le type d’erreur varie selon la plate-forme
la grande quantité de séquences offre la possibilité de générer de l’information de séquence à
très grande échelle de réduire énormément le les taux d’erreur
10
Historique de la Bioinformatique
La bioinformatique a différents objectifs et différentes applications :
1-Collecter et stocker des informations dans des bases de données, accessibles
en ligne.
Explosion de la quantité de données biologiques nécessitant des outils de
stockage adaptés
2-Fournir des outils de comparaison de séquences (protéiques ou
nucléotidiques).
Séquence de référence
Analyse des Séquences :
Identification des séquences ?
Points communs entre les séquences ?
. 11
Ressources bioinformatique
Bases de données bio-informatique contiennent :
Ensemble de données relatives à un domaine, organisées par traitement
informatique, accessibles en ligne et à distance
Souvent, les données sont stockées sous la forme d’un fichier texte formaté
(respectant une disposition particulière)
Nous avons besoin de trouver sinon de développer des logiciels spécifiques pour
interroger les données contenues dans ces banques
12
Historique des banques de données de séquences
Fin 1960 : Margaret Dayhoff : «Atlas of protein sequences »
1984 : création de PIR (Protein Identification Ressource)
1979 : création de GenBank au NCBI (National Center for Biotechnology
Information)
1980 : création de EMBL (European Molecular Biology Laboratory) EBI
1984 : création de DDBJ (DNA Databank of Japan)
1986 : création de SwissProt
13
Les Banques Généralistes
Caractéristiques des banques de données généralistes :
Ces banques contiennent des données hétérogènes
Collecte la plus exhaustive possible
Banques de séquences nucléiques
Banques de séquences protéiques
Banques de structure 3D de macromolécules
Banques d’articles scientifiques
Avantage : on peu consulter plusieurs volets de l’information recherché en
une fois
Inconvénients : difficiles à maintenir, difficiles à interroger 14
Les Banques Généralistes
Ces banques contiennent l’ensemble des séquences publiées car les
numéros d’enregistrement (accession number) des séquences sont
exigés par les éditeurs lors de la publication. Problèmes :
• Redondance
• Erreurs de séquencage
• Fautes de frappe
• Présence de fragments de vecteurs dans les séquences
15
Les banques de données spécialisées
Ces banques contiennent des données homogènes
les données Collecté sont autour d’une thématique particulière
Avantages : facilité pour mettre à jour les données, vérifier leur intégrité,
offrir une interface adaptée, …
Inconvénients : ne cible pas toujours ce que l’on veut et on a encore besoin de
crée plusieurs banques spécialisées
Exemples :
banques spécialisées pour un génome,
banques de séquences d'immunologies,
banques sur des séquences validées, …
16
Les banques de séquences nucléiques
Origine des données : des données de Séquençage d’ADN et d’ARN
Les données stockées sont : séquences + annotations et peuvent être des :
Des Fragments de génomes : un ou plusieurs gènes, un bout de gène, séquence
inter génique, …
Des Génomes complets
Des sequences ARNm, ARNt, ARNr, … (fragments ou entiers)
17
Les banques de séquences protéiques
Origine des données de séquençage proteiques :
Traduction de séquences d’ADN
Séquençage de protéines
Protéine dont le géne est séquencé
Protéines dont la structure 3D est connue
Les données stockées sont des séquences + annotations
Protéines entières
Fragments de protéines
18
Une Banque bibliographique, PubMed
Cette banque de données Contient :
Journaux concernant la biologie et la médecine
Articles indexés par des experts à l’aide des termes MeSH
Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de molécules chimiques
Hiérarchisé
Dictionnaire de synonymes
termes médicaux, termes chimiques
Subheadings : sous-titres qui décrivent un aspect particulier des termes MeSH
Elle est Mise à jour régulièrement
19
Les bases de données bioinformatiques :
Base de données NCBI ( National Center for Biotechnology Information)
Site web : [Link]
GenBank: Séquences d’ADN (3 billion de paires de bases)
Site alignement de séquence avec le logiciel de BLAST
PubMed: Permet la recherche bibliographique
COGs: pour chercher des Familles de gènes orthologues …
Base de données EMBL (The European Molecular Biology Laboratory)
Site web : [Link]
EMBL-EBI : L’institut européen de bio-informatique EBI
[Link]
20
Les bases de données bioinformatiques :
DDBJ : ce centre fournit des services de partage et d'analyse pour les données
issues des recherches en sciences de la vie et des avancées scientifiques
Site web : [Link]
Est une base de donnée créée en 1984 au Japon.
21
Les bases de données bioinformatiques :
L’ensemble de ces 3 banques ont un format unique : « DDBJ/EMBL/GenBank Feature
Table » et un contenu quasi identiquede données de séquensage.
Elles fait partie du consortium international : International Nucleotide Sequence
Database.
22
23