1er Chapitre
Les bases de donné es en bioinformatique
I. La bioinformatique: définition, description, démarche et historique
1. Définition
La bioinformatique est une discipline des sciences de la vie qui s'appuie sur des outils
informatiques, mathématiques et statistiques pour stocker, analyser et visualiser des données
biologiques comme par exemple des séquences d’ADN (les génomes), des protéines, des
sucres ou des résultats d’expériences.
La bioinformation est l'information liée aux molécules biologiques : leur séquence, leur
nombre, leur(s) structure(s), leur(s) fonction(s), leurs liens de "parenté", leurs interactions et
leur intégration dans la cellule ...
Cette bioinformation est issue de diverses disciplines : la biochimie, la génétique, la
génomique structurale, la génomique fonctionnelle, la transcriptomique, la protéomique…
Définition de la bioinformatique selon le NCBI (2001): "Bioinformatics is the field of
science in which biology, computer science, and information technology merge into a
single discipline."
2. Description
discipline récente (quelques dizaines d'années).
discipline hybride : elle est fondée sur des concepts (idées générales) et des
formalismes issus de la biologie, de l'informatique, des mathématiques et de la
physique, de la chimie (techniques de séquençage, ...).
discipline qui utilise tout le potentiel de traitement de l'informatique : modèles
théoriques, algorithmes et programmes, bases de données, ordinateurs, réseau Internet,
protocoles de communication, langages, ...
3. Démarche
1. Compilation et organisation des données biologiques dans des bases de données
2. Traitements systématiques des données : L'un des objectifs de la bioinformatique est de
repérer et de caractériser une fonction et/ou une structure biologique importante. Les
résultats de ces traitements constituent de nouvelles données biologiques obtenues "in
silico"1.
1
in silico: une recherche ou un essai effectué au moyen de calculs complexes informatisés ou de modèles informatiques. In
silico est très utilisée en bioinformatique, par exemple pour la recherche de gènes qui peut se faire in silico via des programmes
de détection de gènes, puis in situ pour valider expérimentalement les prédictions faites par ordinateur.
1
3. Elaboration de stratégies
apporter des connaissances biologiques supplémentaires en combinant les données
biologiques initiales et les données biologiques obtenues "in silico".
Ces connaissances permettent, à leur tour, de développer de nouveaux concepts en
biologie, qui, pour être validés, peuvent nécessiter le développement de nouvelles
théories et outils en mathématiques et en informatique.
4. Historique
Quelques étapes clé en biologie moléculaire, en informatique et en bioinformatique
Margaret Dayhoff et al. : Première compilation de protéines
1965
("Atlas of Protein Sequences").
Algorithme pour l'alignement global de séquences : Saul
1970
Needleman & Christian Wunsch
Clonage de fragments d'ADN dans un virus, l'ADN
1972
recombiné
1973 Découverte des enzymes de restriction
Programme de prédiction de structures secondaires des
protéines : "Prediction of Protein Conformation" - Chou &
Fasman.
1974
- Développent du concept des réseaux reliant des ordinateurs
au sein d'un « internet »
Développement des micro-ordinateurs accessibles à tous.
1977
Techniques de séquençage d'ADN : Frederick Sanger
Mutagénèse dirigée ; Séquençage du 1er génome à ADN, le
1978 - 1980 bactériophage phiX174 (Frederick Sanger)
Premières bases de données : EMBL, GenBank, PIR
1981 : 370.000 nucléotides
GenBank : 270 séquences Programme d'alignement local de séquences
Amplification de l'ADN : réaction de polymérisation en
1984
chaîne (PCR)
1985 "FASTA" : Programme d'alignement local de séquences
Taq polymérase, enzyme thermostable pour la PCR.
1988 Création du "National Centre for Biotechnology
Information" (NCBI).
2
1990 "BLAST" : Programme d'alignement local de séquences
1992 Séquençage complet du chromosome III de levure
1996 Séquençage complet de la levure (consortium européen).
11 génomes bactériens séquencés
1997
Evolutions de BLAST
1998 Séquençage de 2 millions de nucléotides par jour.
2000 Séquençage du 1er génome de plante : Arabidopsis thaliana
Accès aux revues et journaux scientifiques : développement
Années 2000
de « l’open access ».
2003 séquençage complet du génome humain
Avènement des nouvelles technologies de séquençage à très
haut débit, dites de seconde génération et maintenant de 3 ème
génération.
2007 - 2008
Prise de conscience du phénomène "big data" (pas
seulement en biologie) qui devient peu à peu une discipline
scientifique.
II. La famille des Omiques
1. Rappel
Il existe deux types de molécules support de la bioinformation : les acides nucléiques
(ADN ou ARN) et les protéines. La séquence est l'enchaînement ordonné et orienté de
nucléotides (acides nucléiques : ADN et ARN) ou d'acides aminés (protéines). La séquence
constitue le "matériau de base" de la génomique, de la transcriptomique et de la protéomique.
Il existe de nombreux domaines scientifiques dont le nom a été créé avec le suffixe "omique"
("omics" est un néologisme anglo-saxon).
3
5. La génomique
Le génome est l'ensemble des chromosomes d’un organisme (séquences codantes +
séquences non codantes)
La taille des génomes varie d'un individu à un autre:
Procaryotes: de 500.000 pb à 13Mb
Eucaryotes: certains champignons (8Mb); Homme (3.2 Gb); Blé: (16 Gb);
amibe (686 Gb)
La génomique est une discipline qui permet l'étude et l'analyse exhaustive et
multidisciplinaire des génomes. Elle vise à dresser l'inventaire de l'ensemble des gènes d'un
organisme à les localiser sur les chromosomes et à caractériser leur séquences ainsi qu'à
étudier leur fonctions
La génomique a débuté avec les premiers grands projets de séquençage qui ont utilisé la
méthode de Fréderick Sanger
Haemophilus influenzae 1995 Arabidopsis thaliana 2000
Saccharomyces cerevisiae 1996 Drosophila melanogaster 2000
Escherichia coli K-12 1997 Homme 2001
Caenorhabditis elegans 1998 Mus musculus 2002
6. La protéomique
Le protéome est l'ensemble des protéines exprimées dans une cellule, une partie d'une
cellule (membranes, organites) ou un groupe de cellules (organe, organisme) dans des
conditions données et à un moment donné.
La protéomique regroupe les recherches de détection, séparation et identification
(séquençage) de l'ensemble des protéines d'un protéome, de déterminer leurs activités, leurs
fonctions et d'analyser leurs interactions et leurs modifications au cours du temps.
Les causes de la variabilité et de la complexité du protéome :
l'épissage alternatif des transcrits primaires (plusieurs ARNm pour un gène),
modifications post-traductionnelles des protéines
pour chaque condition environnementale (condition physiologique
normale vs. conditions de stress) une cellule est caractérisée par un protéome adapté à
cette condition alors qu'elle a toujours le même génome.
Exemple: les plantes s'adaptent aux variations de la lumière et au stress biotique.
4
Outre les modifications post-traductionnelles, les protéines subissent des
transformations une fois synthétisées : clivage du peptide signal d'adressage,
activation de la forme native à partir d'un précurseur (zymogène), assemblage en
complexes oligomériques, association à des cofacteurs.
III. Stockage de l'information: les bases de données
En informatique, une base de données est une collection d'objets présentant des propriétés
et/ou des caractères communs et qui peut être réutilisée dans un processus de traitement.
Les séquences biologiques (nucléiques ou protéiques) sont collectées dans des bases de
données biologiques. La plus grande contribution des bases de données à la communauté des
biologistes est de rendre les séquences accessibles.
1. Les bases de données généralistes
Elles correspondent à une collecte des données la plus exhaustive possible et offrant un
ensemble plutôt hétérogène d'informations (virus, bactéries, champignons, végétaux,
animaux, .....)
Les bases de données généralistes sont indispensables à la communauté scientifique car elles
regroupent des données et des résultats essentiels. Elles contiennent majoritairement des
résultats expérimentaux, mais qui ne sont ni vérifiés, ni analysés.
Il existe un grand nombre de bases de données généralistes d'intérêt biologique. On cite:
A. Bases de séquences nucléiques :
GenBank base américaine 216 millions de séquences (octobre 2019) gérée par le
National Center for Biotechnology Information (NCBI)
https://www.ncbi.nlm.nih.gov/nucleotide
EMBL base Européenne maintenue par le European Bioinformatics Institute (EBI)
DDBJ (DNA Database of Japan) base Japonaise
Ces trois bases gèrent l’ensemble des séquences nucléiques et leurs annotations : elles
coopèrent et échangent quotidiennement leurs données afin de garantir une cohérence
maximale dans la mise à disposition des séquences de la communauté scientifique.
Format de données GenBank
Exemple : Consulter la base GenBank pour chercher la séquence XM_015777817.2
5
Chaque entrée correspond à une séquence nucléique primaire associée à des
annotations2. La séquence est disponible dans un format de fichier texte plat 3 où les lignes
correspondent à des associations mot clé/valeur dans un format propre à la base GenBank
appelé format GenBank.
L’entrée est structurée en quatre parties :
1ère partie : L’entête contenant des informations générales sur la séquence : identifiant
unique, numéro d’accession, définition, mot clé, taxonomie de l’organisme dont la
séquence provient
2ème partie : décrit les références bibliographiques associées à la séquence
3ème partie : essentielle, décrit les annotations biologiques associées à la séquence sous
forme standardisée : on parle de features les caractéristiques des annotations.
4ème partie : contient la séquence nucléique elle-même sous format GenBank. Le
format utilisé en bioinformatique est le format FASTA.
A. Bases de séquences protéiques
Origine des séquences :
- Traduction automatique de séquences d’ADN (majoritairement)
- séquençage de protéines (rare car long et coûteux)
- Protéines dont la structure 3D est connue
Origine des annotations
- Spectrométrie de masse : régulation et localisation de l’expression des protéines; mais
aussi identification et modification post-transcriptionnelle
- Etudes d’interactions : comment les protéines s’assemblent entre elles ou avec d’autres
molécules pour former des complexes moléculaires
- Cristallographie et résonance magnétique nucléaire : pour déterminer la forme 3D
finale de la protéine
Les bases de données protéiques sont les suivantes :
PIR Protein information Ressource : banque Américaine
SWISSPROT : banque Européenne
2
Annoter: accompagner un texte (par exemple) de notes ou de remarques. L'annotation du génome consiste à prédire et
localiser l'ensemble des séquences codantes (gènes) du génome et à déterminer et identifier leur structure (annotation
syntaxique), leur fonction (annotation fonctionnelle) ainsi que les relations entre les entités biologiques relatives au génome
(annotation relationnelle). L'information résultante enrichit les bases de données biologiques.
3
Un fichier plat est un fichier non crypté, généralement sous forme de texte, dont le contenu peut être interprété
indépendamment d’un logiciel.
6
TrEMBL : traduction automatique des séquences codantes contenues
dans EMBL
A partir de 2002, ces trois banques se sont regroupées pour donner naissance à UniProt
Universal Protein Ressource. En 2019, UniProt contient 559 000 séquences, avec une
annotation précise, cohérente et riche.
Exemple : Consulter la base UniProt pour chercher la séquence P02769
B. Bases de structures protéiques
Dans le domaine des structures de protéines, la Protein Databank (PDB)
(http://www.rcsb.org) archive et diffuse l’ensemble des données disponibles sur les structures
cristallographiques des protéines ainsi que quelques structures nucléotidiques. La PDB
contient les coordonnées tridimensionnelles atomiques de protéines, d’acides nucléiques, de
complexes nucléo-protéiques (elle contient plus que 159 000 structures en Janvier 2020).
Exemple : Consulter la base PDB pour déterminer la structure de la protéine 4F5S
C. Objectifs des bases de données généralistes
- Rendre publiques les séquences et tout autre type d'information, telle que la diffusion
des résultats du séquençage du génome humain.
- Recherche de similitudes entre les séquences enregistrées dans la même base de
données avec une nouvelle séquence.
- Analyse de type évolutif grâce à la grande diversité d'organismes représentés dans la
base de données.
- Présence d'informations accompagnant les séquences: les annotations et la
bibliographie.
- Présence de liens vers d'autres bases
7. Les bases de données spécialisées
Elles correspondent à des données plus homogènes établies autour d'une thématique:
thématique biologique : base de données de récepteurs couplés à des protéines
Organisme : bacillus subtilis, drosophila melanogaster…
Technologie : spectre RMN, carte de spectrométrie de masse, gel d’électrophorèse
bidimensionnelle
Type de données : séquences, structures, image, spectre, interaction
Les bases de données spécialisées présentent l’avantage d’être maintenues par des experts du
domaine.
7
A. Ressources pour les procaryotes
Les deux bases de données de génomes procaryotes complets les plus couramment utilisées
sont :
- La section « Microbial Genomes » de la base RefSeq du NCBI
https://www.ncbi.nlm.nih.gov/genome/microbes/
- La partie «Ensembl Bacteria» de la base « Ensembl Genomes »
http://bacteria.ensembl.org/
Le projet Ensembl fournit un environnement intégré de bases de données et d’interfaces
graphiques pour annoter et comparer les grandes séquences chromosomiques à partir de
l’ensemble des données disponibles.
D. Ressources pour les animaux
Ensembl est une ressource de données principale pour les génomes des eucaryotes.
- EnsemblMetazoa : http://metazoa.ensembl.org
- Vertebrate : ensemblgenomes.org
E. Ressources pour les plantes
- EnsemblPlants : http://plants.ensembl.org
- TAIR : The Arabidopsis information Ressource. Cette base de données centralise la
plupart des informations disponibles sur Arabidopsis thaliana
- FLAGdb++ : cette base de données intègre les données génomiques de Arabidopsis,
du riz, du peuplier de la vigne, de la tomate et du melon.
- Gramene : référence internationale pour les céréales
F. Ressources pour les champignons
- EnsemblFungi http://fungi.ensembl.org c’est la partie champigon du projet Ensembl
- SGD : Saccharomyces Genome Database une base centrée sur la biologie moléculaire
et la génétique de la levure de boulanger S. cerevisiae.