0% ont trouvé ce document utile (0 vote)
804 vues8 pages

Introduction à la Bioinformatique

Ce document décrit la bioinformatique comme une discipline qui utilise des outils informatiques, mathématiques et statistiques pour analyser des données biologiques. Il explique les concepts de génomique, transcriptomique et protéomique, et décrit le rôle des bases de données biologiques pour stocker l'information génétique.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
804 vues8 pages

Introduction à la Bioinformatique

Ce document décrit la bioinformatique comme une discipline qui utilise des outils informatiques, mathématiques et statistiques pour analyser des données biologiques. Il explique les concepts de génomique, transcriptomique et protéomique, et décrit le rôle des bases de données biologiques pour stocker l'information génétique.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

1er Chapitre

Les bases de donné es en bioinformatique

I. La bioinformatique: définition, description, démarche et historique


1. Définition

La bioinformatique est une discipline des sciences de la vie qui s'appuie sur des outils
informatiques, mathématiques et statistiques pour stocker, analyser et visualiser des données
biologiques comme par exemple des séquences d’ADN (les génomes), des protéines, des
sucres ou des résultats d’expériences.

La bioinformation est l'information liée aux molécules biologiques : leur séquence, leur
nombre, leur(s) structure(s), leur(s) fonction(s), leurs liens de "parenté", leurs interactions et
leur intégration dans la cellule ...

Cette bioinformation est issue de diverses disciplines : la biochimie, la génétique, la


génomique structurale, la génomique fonctionnelle, la transcriptomique, la protéomique…

Définition de la bioinformatique selon le NCBI (2001): "Bioinformatics is the field of


science in which biology, computer science, and information technology merge into a
single discipline."

2. Description

 discipline récente (quelques dizaines d'années).


 discipline hybride : elle est fondée sur des concepts (idées générales) et des
formalismes issus de la biologie, de l'informatique, des mathématiques et de la
physique, de la chimie (techniques de séquençage, ...).
 discipline qui utilise tout le potentiel de traitement de l'informatique : modèles
théoriques, algorithmes et programmes, bases de données, ordinateurs, réseau Internet,
protocoles de communication, langages, ...

3. Démarche

1. Compilation et organisation des données biologiques dans des bases de données

2. Traitements systématiques des données : L'un des objectifs de la bioinformatique est de


repérer et de caractériser une fonction et/ou une structure biologique importante. Les
résultats de ces traitements constituent de nouvelles données biologiques obtenues "in
silico"1.

1
in silico: une recherche ou un essai effectué au moyen de calculs complexes informatisés ou de modèles informatiques. In
silico est très utilisée en bioinformatique, par exemple pour la recherche de gènes qui peut se faire in silico via des programmes
de détection de gènes, puis in situ pour valider expérimentalement les prédictions faites par ordinateur.

1
3. Elaboration de stratégies

 apporter des connaissances biologiques supplémentaires en combinant les données


biologiques initiales et les données biologiques obtenues "in silico".
 Ces connaissances permettent, à leur tour, de développer de nouveaux concepts en
biologie, qui, pour être validés, peuvent nécessiter le développement de nouvelles
théories et outils en mathématiques et en informatique.

4. Historique

Quelques étapes clé en biologie moléculaire, en informatique et en bioinformatique

Margaret Dayhoff et al. : Première compilation de protéines


1965
("Atlas of Protein Sequences").

Algorithme pour l'alignement global de séquences : Saul


1970
Needleman & Christian Wunsch

Clonage de fragments d'ADN dans un virus, l'ADN


1972
recombiné

1973 Découverte des enzymes de restriction

Programme de prédiction de structures secondaires des


protéines : "Prediction of Protein Conformation" - Chou &
Fasman.
1974

- Développent du concept des réseaux reliant des ordinateurs


au sein d'un « internet »

Développement des micro-ordinateurs accessibles à tous.


1977
Techniques de séquençage d'ADN : Frederick Sanger

Mutagénèse dirigée ; Séquençage du 1er génome à ADN, le


1978 - 1980 bactériophage phiX174 (Frederick Sanger)
Premières bases de données : EMBL, GenBank, PIR
1981 : 370.000 nucléotides
GenBank : 270 séquences Programme d'alignement local de séquences

Amplification de l'ADN : réaction de polymérisation en


1984
chaîne (PCR)

1985 "FASTA" : Programme d'alignement local de séquences

Taq polymérase, enzyme thermostable pour la PCR.


1988 Création du "National Centre for Biotechnology
Information" (NCBI).

2
1990 "BLAST" : Programme d'alignement local de séquences

1992 Séquençage complet du chromosome III de levure

1996 Séquençage complet de la levure (consortium européen).

11 génomes bactériens séquencés


1997
Evolutions de BLAST

1998 Séquençage de 2 millions de nucléotides par jour.

2000 Séquençage du 1er génome de plante : Arabidopsis thaliana

Accès aux revues et journaux scientifiques : développement


Années 2000
de « l’open access ».

2003 séquençage complet du génome humain

Avènement des nouvelles technologies de séquençage à très


haut débit, dites de seconde génération et maintenant de 3 ème
génération.
2007 - 2008
Prise de conscience du phénomène "big data" (pas
seulement en biologie) qui devient peu à peu une discipline
scientifique.

II. La famille des Omiques


1. Rappel

Il existe deux types de molécules support de la bioinformation : les acides nucléiques


(ADN ou ARN) et les protéines. La séquence est l'enchaînement ordonné et orienté de
nucléotides (acides nucléiques : ADN et ARN) ou d'acides aminés (protéines). La séquence
constitue le "matériau de base" de la génomique, de la transcriptomique et de la protéomique.

Il existe de nombreux domaines scientifiques dont le nom a été créé avec le suffixe "omique"
("omics" est un néologisme anglo-saxon).

3
5. La génomique

Le génome est l'ensemble des chromosomes d’un organisme (séquences codantes +


séquences non codantes)

La taille des génomes varie d'un individu à un autre:

 Procaryotes: de 500.000 pb à 13Mb


 Eucaryotes: certains champignons (8Mb); Homme (3.2 Gb); Blé: (16 Gb);
amibe (686 Gb)

La génomique est une discipline qui permet l'étude et l'analyse exhaustive et


multidisciplinaire des génomes. Elle vise à dresser l'inventaire de l'ensemble des gènes d'un
organisme à les localiser sur les chromosomes et à caractériser leur séquences ainsi qu'à
étudier leur fonctions

La génomique a débuté avec les premiers grands projets de séquençage qui ont utilisé la
méthode de Fréderick Sanger 

 Haemophilus influenzae 1995  Arabidopsis thaliana 2000


 Saccharomyces cerevisiae 1996  Drosophila melanogaster 2000
 Escherichia coli K-12 1997  Homme 2001
 Caenorhabditis elegans 1998  Mus musculus 2002

6. La protéomique

Le protéome est l'ensemble des protéines exprimées dans une cellule, une partie d'une


cellule (membranes, organites) ou un groupe de cellules (organe, organisme) dans des
conditions données et à un moment donné.

La protéomique regroupe les recherches de détection, séparation et identification


(séquençage) de l'ensemble des protéines d'un protéome, de déterminer leurs activités, leurs
fonctions et d'analyser leurs interactions et leurs modifications au cours du temps.

Les causes de la variabilité et de la complexité du protéome :

 l'épissage alternatif des transcrits primaires (plusieurs ARNm pour un gène),


modifications post-traductionnelles des protéines

 pour chaque condition environnementale (condition physiologique


normale vs. conditions de stress) une cellule est caractérisée par un protéome adapté à
cette condition alors qu'elle a toujours le même génome.

Exemple: les plantes s'adaptent aux variations de la lumière et au stress biotique.

4
 Outre les modifications post-traductionnelles, les protéines subissent des
transformations une fois synthétisées : clivage du peptide signal d'adressage,
activation de la forme native à partir d'un précurseur (zymogène), assemblage en
complexes oligomériques, association à des cofacteurs.

III. Stockage de l'information: les bases de données

En informatique, une base de données est une collection d'objets présentant des propriétés
et/ou des caractères communs et qui peut être réutilisée dans un processus de traitement.

Les séquences biologiques (nucléiques ou protéiques) sont collectées dans des bases de
données biologiques. La plus grande contribution des bases de données à la communauté des
biologistes est de rendre les séquences accessibles.

1. Les bases de données généralistes

Elles correspondent à une collecte des données la plus exhaustive possible et offrant un
ensemble plutôt hétérogène d'informations (virus, bactéries, champignons, végétaux,
animaux, .....)

Les bases de données généralistes sont indispensables à la communauté scientifique car elles
regroupent des données et des résultats essentiels. Elles contiennent majoritairement des
résultats expérimentaux, mais qui ne sont ni vérifiés, ni analysés.

Il existe un grand nombre de bases de données généralistes d'intérêt biologique. On cite:

A. Bases de séquences nucléiques :

 GenBank base américaine 216 millions de séquences (octobre 2019) gérée par le
National Center for Biotechnology Information (NCBI)
https://www.ncbi.nlm.nih.gov/nucleotide
 EMBL base Européenne maintenue par le European Bioinformatics Institute (EBI)
 DDBJ (DNA Database of Japan) base Japonaise

Ces trois bases gèrent l’ensemble des séquences nucléiques et leurs annotations : elles
coopèrent et échangent quotidiennement leurs données afin de garantir une cohérence
maximale dans la mise à disposition des séquences de la communauté scientifique.

Format de données GenBank

Exemple : Consulter la base GenBank pour chercher la séquence XM_015777817.2

5
Chaque entrée correspond à une séquence nucléique primaire associée à des
annotations2. La séquence est disponible dans un format de fichier texte plat 3 où les lignes
correspondent à des associations mot clé/valeur dans un format propre à la base GenBank
appelé format GenBank.

L’entrée est structurée en quatre parties :

1ère partie  : L’entête contenant des informations générales sur la séquence : identifiant
unique, numéro d’accession, définition, mot clé, taxonomie de l’organisme dont la
séquence provient

2ème partie : décrit les références bibliographiques associées à la séquence

3ème partie  : essentielle, décrit les annotations biologiques associées à la séquence sous
forme standardisée : on parle de features les caractéristiques des annotations.

4ème partie  : contient la séquence nucléique elle-même sous format GenBank. Le


format utilisé en bioinformatique est le format FASTA.

A. Bases de séquences protéiques

Origine des séquences  :

- Traduction automatique de séquences d’ADN (majoritairement)


- séquençage de protéines (rare car long et coûteux)
- Protéines dont la structure 3D est connue

Origine des annotations

- Spectrométrie de masse : régulation et localisation de l’expression des protéines; mais


aussi identification et modification post-transcriptionnelle
- Etudes d’interactions : comment les protéines s’assemblent entre elles ou avec d’autres
molécules pour former des complexes moléculaires
- Cristallographie et résonance magnétique nucléaire : pour déterminer la forme 3D
finale de la protéine

Les bases de données protéiques sont les suivantes :

 PIR Protein information Ressource : banque Américaine


 SWISSPROT : banque Européenne

2
Annoter: accompagner un texte (par exemple) de notes ou de remarques. L'annotation du génome consiste à prédire et
localiser l'ensemble des séquences codantes (gènes) du génome et à déterminer et identifier leur structure (annotation
syntaxique), leur fonction (annotation fonctionnelle) ainsi que les relations entre les entités biologiques relatives au génome
(annotation relationnelle). L'information résultante enrichit les bases de données biologiques.

3
Un fichier plat est un fichier non crypté, généralement sous forme de texte, dont le contenu peut être interprété
indépendamment d’un logiciel.

6
 TrEMBL : traduction automatique des séquences codantes contenues
dans EMBL

A partir de 2002, ces trois banques se sont regroupées pour donner naissance à UniProt
Universal Protein Ressource. En 2019, UniProt contient 559 000 séquences, avec une
annotation précise, cohérente et riche.

Exemple : Consulter la base UniProt pour chercher la séquence P02769

B. Bases de structures protéiques

Dans le domaine des structures de protéines, la Protein Databank (PDB)


(http://www.rcsb.org) archive et diffuse l’ensemble des données disponibles sur les structures
cristallographiques des protéines ainsi que quelques structures nucléotidiques. La PDB
contient les coordonnées tridimensionnelles atomiques de protéines, d’acides nucléiques, de
complexes nucléo-protéiques (elle contient plus que 159 000 structures en Janvier 2020).

Exemple : Consulter la base PDB pour déterminer la structure de la protéine 4F5S

C. Objectifs des bases de données généralistes

- Rendre publiques les séquences et tout autre type d'information, telle que la diffusion
des résultats du séquençage du génome humain.

- Recherche de similitudes entre les séquences enregistrées dans la même base de


données avec une nouvelle séquence.

- Analyse de type évolutif grâce à la grande diversité d'organismes représentés dans la


base de données.

- Présence d'informations accompagnant les séquences: les annotations et la


bibliographie.

- Présence de liens vers d'autres bases

7. Les bases de données spécialisées

Elles correspondent à des données plus homogènes établies autour d'une thématique:

 thématique biologique  : base de données de récepteurs couplés à des protéines


 Organisme : bacillus subtilis, drosophila melanogaster…
 Technologie : spectre RMN, carte de spectrométrie de masse, gel d’électrophorèse
bidimensionnelle
 Type de données : séquences, structures, image, spectre, interaction

Les bases de données spécialisées présentent l’avantage d’être maintenues par des experts du
domaine.

7
A. Ressources pour les procaryotes

Les deux bases de données de génomes procaryotes complets les plus couramment utilisées
sont :

- La section «  Microbial Genomes  » de la base RefSeq du NCBI


https://www.ncbi.nlm.nih.gov/genome/microbes/
- La partie «Ensembl Bacteria» de la base « Ensembl Genomes »
http://bacteria.ensembl.org/

Le projet Ensembl fournit un environnement intégré de bases de données et d’interfaces


graphiques pour annoter et comparer les grandes séquences chromosomiques à partir de
l’ensemble des données disponibles.

D. Ressources pour les animaux

Ensembl est une ressource de données principale pour les génomes des eucaryotes.

- EnsemblMetazoa : http://metazoa.ensembl.org
- Vertebrate : ensemblgenomes.org

E. Ressources pour les plantes

- EnsemblPlants : http://plants.ensembl.org
- TAIR : The Arabidopsis information Ressource. Cette base de données centralise la
plupart des informations disponibles sur Arabidopsis thaliana
- FLAGdb++ : cette base de données intègre les données génomiques de Arabidopsis,
du riz, du peuplier de la vigne, de la tomate et du melon.
- Gramene : référence internationale pour les céréales

F. Ressources pour les champignons

- EnsemblFungi http://fungi.ensembl.org c’est la partie champigon du projet Ensembl


- SGD : Saccharomyces Genome Database une base centrée sur la biologie moléculaire
et la génétique de la levure de boulanger S. cerevisiae.

Vous aimerez peut-être aussi