Les principales bases de
données en bioinformatique
Pr Hakmaoui Abdelmalek
2024
1
Introduction
• Les bases de données jouent un rôle crucial dans l’organisation des
connaissances biologiques.
• Nous allons voir dans ce cours un tour rapide des principales bases de données
biologiques.
• Ces bases de données seront utilisées durant les travaux pratiques.
2
Introduction
Principe des bases de données relationnelles
Un attribut
Table Patient
Identifiant Nom Date de Naissance Taille Poids
Un individu 1 X 19/04/1989 166 70
2 Y 25/08/1992 171 60
3 Z 23/01/1994 176 55
La clé primaire
3
Introduction
Principe des bases de données relationnelles
Table espèce Table protéine
ID Nom ID Nom Séquence ID espèce
1 Homme 1 MTHFR MVNEARGNS… 1
2 E. Coli 2 APOA5 MASMAAVLT… 1
3 Virus VIH 3 TMC1 MSPKKVQIK… 2
4
Introduction
• Il existe des centaines de bases de données
biologiques et ce nombre augmente chaque année.
• Pour s’y retrouver, le journal scientifique
“Database: The Journal of Biological Databases
and Curation” a été créé en 2009 pour offrir des
descriptions détaillées des bases de données
existantes.
• Ce journal scientifique joue le rôle d’un catalogue
des bases de données biologiques.
5
Bases de données généralistes et spécialisées
Laboratoires
Bases de données
Par des spécialisées
Spécialistes
Sequencing RefSeq
Centers
Analyse des
UniGene
données
TATATGACTCAGGTCACTGAGTCACTGAGCCG
….
Bases de données
généralistes
Par des
algorithmes
Bioinformatique
6
Bases de données généralistes et spécialisées
• Les bases de données généralistes contiennent majoritairement des résultats
expérimentaux (avec quelques interprétations), mais qui ne sont pas vérifiés, ni analysés.
• Ces bases de données contiennent des données hétérogènes (collecte la plus exhaustive
possible).
• Avantage : toutes les informations sont consultables à partir d’une seule interface web.
• Inconvénient : difficiles à maintenir, difficiles à interroger.
7
Bases de données généralistes et spécialisées
• Les banques de données spécialisées contiennent des données homogènes établie
autour d’une thématique particulière.
• Généralement, ces bases de données sont développées et maintenues par des
scientifiques spécialisés dans un domaine particulier. En outre, certaines bases de
données ont été crées d’une façon automatique par une analyse bioinformatique des
données brutes générées par les laboratoires de recherche.
• Exemples : base de données spécialisée pour un génome spécifique, base de données
de séquences immunologiques, des domaines protéiques, d’expression de gènes…
• Avantage : faciles à maintenir, faciles à interroger.
• Inconvénient : ne cible pas toujours exactement ce que l’on veut, toutes les banques
possibles n’existent pas.
8
Résumé des différentes bases
Gène (ADN) Article Scientifique
• Genbank • MedLine/Pubmed
• EMBL
• DDBJ
Contient
Mutation/ ARNm Protéine
Polymorphisme • Ensembl Traduction • SwissProt
• dbSNP • UniGene • Uniprot
• 1000 genomes • PDB
Cause
Maladie génétique Fonction biologique
Soigne Médicament
• OMIM • PFAM
• DrugBank • PROSITE
• Orphanet
9
PubMed
[Link]
10
PubMed
• MEDLINE = Medical Literature Analysis and Retrieval System: Système de
recherche et d’analyse de la littérature médicale, développé par National Library
of Medicine aux Etats-Unis.
• C’est une base de données bibliographique commencée en 1949 jusqu’à nos
jours.
• Informatisée en 1972, contient plus de 20 millions de références d’articles
biomédicaux, issues de plus de 5200 journaux scientifiques.
• Couvre les sciences de la vie et l’information biomédicale: Médecine, Soins
infirmiers, Dentaire, Vétérinaire, Santé publique et Recherche clinique.
11
PubMed
• Medline accessible publiquement et gratuitement grâce au moteur de
recherche PubMed “Public access to the Medical Literature Analysis and
Retrieval System On-Line”.
• En plus des articles indexés dans MEDLINE, PubMed permet également de
chercher des articles indexés dans d’autres bases de données (les articles en
accès libre de PubMedCentral et les livres du NCBI Bookshelf…).
• Site Web: [Link]
Ne pas confondre
Medline ≠ PubMed
Le contenu L’Interface
(la base de données) d’interrogation
12
PubMed
Recherche par mots clés
• Les mots-clés sont des mots et des expressions utilisés par l'auteur ou le logiciel
d’indexation pour décrire de près le sujet d’un article.
• Les mots-clés peuvent être utilisés pour rechercher des bases de données
bibliographiques (par exemple PubMed) et des moteurs de recherche (par
exemple Google, Yahoo, etc.)
• Les options de recherche basiques ou avancées de Pubmed sont basés sur
l’utilisation des mots-clés
13
PubMed
Recherche par mots clés
14
PubMed
La recherche d’une phrase
Les phrases doivent être placées entre guillemets:
“kidney allograft”
“Pressure point”
15
PubMed
La recherche d’une phrase
16
PubMed
Les champs de recherche
• Les enregistrements dans PubMed sont présentés comme des champs
• PubMed limite la recherche en fonction des champs choisis par l’utilisation
Journal
Titre
Auteurs
Résumé
Mots clés
Identifiant
unique
17
PubMed
Les champs de recherche
18
PubMed
Les champs de recherche
19
PubMed
Les champs de recherche
20
PubMed
Les champs de recherche
21
PubMed
Utilisation des opérateurs booléens
• On peut combiner plusieurs mots clés à l’aide des opérateurs booléens:
• AND = références contenant l’ensemble des termes
• OR = références contenant au moins 1 des termes
• NOT = références contenant ce terme sont exclues
22
PubMed
Utilisation des opérateurs booléens
23
PubMed
Utilisation des opérateurs booléens
24
PubMed
Vocabulaire contrôlé - MeSH
MeSH est l'acronyme de "Medical Subject Headings"
C'est la liste des termes de vocabulaire utilisés pour l'analyse de la littérature biomédicale
à la National Library of Medicine (NLM)
Un vocabulaire contrôlé est un ensemble de termes établis où chaque terme représente
un seul concept
Le vocabulaire MeSH est utilisé pour indexer des articles dans MEDLINE.
Les termes MeSH sont organisés de manière hiérarchisée appelée MeSH Tree
Structures et mis à jour chaque année
25
PubMed
Vocabulaire contrôlé - MeSH
26
PubMed
Vocabulaire contrôlé - MeSH
27
PubMed
Vocabulaire contrôlé - MeSH
28
PubMed
Vocabulaire contrôlé - MeSH
29
PubMed
Exploitation des résultats: Les formats de visualisation
• En anglais « Display Settings ».
• Ce sont des options d’affichage des résultats de la recherche. Il y a 3 types
d’options :
Le format
Le nombre de résultats par page
Le tri
Les formats de visualisation
30
PubMed
Exploitation des résultats: Les formats de visualisation
Les formats
• Summary : le format par défaut : références de l’article en HTML avec lien vers
l’abstract.
• Summary (text) : idem que Summary mais au format texte uniquement, sans
liens html. Assez rébarbatif…
• Abstract : idem que Summary, avec l’abstract et des liens supplémentaires.
• Abstract (text) : idem que Abstract mais au format texte uniquement, sansliens
html. Même remarque…
Rq : Les formats texte sont parfois utiles pour l’export vers certains logiciels.
31
PubMed
Exploitation des résultats: Les formats de visualisation
• MEDLINE : le format le plus complet, similaire à une fiche au format MARC, avec
les codes de champs spécifiques à PubMed.
• XML : format balisé XML
• PMID List : simple liste des numéros de référence des articles , au format texte.
PMID = PubMed IDentification, qui équivaut au numéro d’inventaire de chaque
notice.
32
PubMed
Exploitation des résultats: Le tri
• Recently added : tri par derniers ajouts dans PubMed
• Pub Date : tri par date de publication
• First / Last author : tri par premier / dernier auteur
• Journal : tri par périodique
• Title : tri par titre
33
PubMed
Exploitation des résultats: Envoyer les résultats
File : Envoyer les résultats en tant que fichier
• Summary (text) : fichier texte reprenant les références des
articles
• Abstract (text) : fichier texte reprenant les abstracts des
articles
• MEDLINE : fiches bibliogaphiques, comparables au MARC
(très complet)
• XML : fichier balisé en XML
• PMID List : uniquement liste des numéros de référence des
articles (PubMed I.D.)
Rq: Un tri est possible : chronologique, par date d’ajout, par
auteur, par titre, par périodique.
34
PubMed
Exploitation des résultats: Envoyer les résultats
Collections
• Permet de se connecter à un compte MyNCBI et de sauver sa recherche,
comme une sorte de bibliothèque virtuelle des références que l’on veut
conserver.
• L’enregistrement à MyNCBI est gratuit.
MyNCBI permet aussi la veille (voir ci-après)
35
PubMed
Exploitation des résultats: Envoyer les résultats
Order
• Se connecte à la plate-forme LoansomeDoc, afin de
commander des articles.
Clipboard
• Envoie les résultats vers le presse-papiers de PubMed. Ce
Clipboard permet de contenir jusqu’à 500 items ; c’est une
sorte de « panier ». Il conserve les références pendant 8
heures maximum
36
PubMed
Exploitation des résultats: Envoyer les résultats
E-mail
• Permet d’envoyer les résultats par email. Idem que pour
envoyer par fichier, on peut en outre choisir le nombre de
références à envoyer, à partir de laquelle commencer, et ajouter
un texte éventuel (pour envoyer à un collègue, par exemple).
37
PubMed
Exploitation des résultats: OpenAccess
• La plupart des articles ne proposent quun abstract, et le full text
est souvent payant.
• Il existe néanmoins des articles « gratuits » en « open access »
ou en « free full text ».
• Pour ne filtrer que ceux-là : cliquer sur « Free Full Text » en haut
à droite de la page de résultats. Si cette option n’apparaît pas,
c’est qu’il n’y en a pas…!
38
PubMed
Exploitation des résultats: OpenAccess
• Un article en open access est TOUJOURS signalé dans la page de résultats par
la mention « Free article ».
39
PubMed
Exploitation des résultats: veille sur les actualités scientifiques
• Via une inscription par MyNCBI, Pubmed envoi une alerte par email automatique
sur base quotidienne, hebdomadaire ou mensuelle.
• Pour cela, utiliser le lien
40
PubMed
Exercice 1
[Link]
1. Trouver des articles écrits par les auteurs suivants:
Haussler D
Sejnowski T
2. Trouver des articles écrits depuis 2003 par le T Hubbard qui travaille au
Sanger Institute
3. Trouver les articles de Kimmel M publié en 2014 dans la revue Plos one
4. Quels sont les termes MeSH appropriés pour les mots clés suivants:
cardiac valve
diabetes
41
PubMed
Exercice 2
1. Vous souhaitez effectuer une recherche d'articles sur le cancer chez les
enfants. Cherchez dans la base de données MeSH du NCBI pour savoir quels
sont les meilleurs mots clés utiliser pour le cancer et les enfants lors de la
construction de votre requête de recherche.
2. Rechercher les articles de PubMed indéxés par ces termes MeSH. Combien
d'articles sont indexés par les 2 termes trouvés ?
42
PubMed
Exercice 3
1. Rechercher des articles traitant de l’autisme. Combien de papiers sont trouvés?
2. Définir maintenant des filtres pour limiter la recherche aux essais cliniques
impliquant des hommes mâles et où il existe des liens vers des documents
gratuits en texte intégral. Combien de papiers récupérez-vous?
3. Sélectionner quelques articles et ajouter-les au Presse-papiers (Clipboard).
4. Aller dans le presse-papiers.
5. Afficher les éléments sélectionnés au format Abstract pour voir les termes
MeSH attribués.
43
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
• EMBL (European Molecular Biology Laboratory) :
• Création 1980 par lEuropean Molecular Biology Organisation
• Diffusée par European Bioinformatics Institute (EBI)
• [Link]
• Nucleotide (anciennement appelé GenBank):
• Création 1982 par IntelliGenetics
• Diffusée par National Center for Biotechnology Information (NCBI)
• [Link]
• DDBJ (DNA Databank of Japan):
• Création 1986 par National Institute of Genetics (NIG)
• Diffusée par National Institute of Genetics (NIG)
• [Link]
• Les trois bases de données contiennent toutes les séquences de nucléotides
librement disponibles et leurs traductions en protéines.
• Les séquences d'ADN proviennent de séquençages.
• Les séquences de protéines proviennent de la traduction automatique des
séquences d'ADN correspondantes. 44
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
• Dans le cadre de la collaboration « The International Sequence Database
Collaboration », ces trois banques échangent systématiquement leur contenu depuis
1987.
• Cependant l'interface et les fonctions proposées par les 3 banques sont un peu
différentes.
INSDC: The International Sequence Database Collaboration
45
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
Format des séquences dans les trois bases de données
• Chaque entrée (séquence + informations) est stockée dans un fichier (flatfile)
• Chaque fichier est composée de trois parties:
1. Un Entête (header) : description générale de l’entrée.
2. Des caractéristiques (features) : objets biologiques présents sur la séquence.
3. La séquence d’ADN.
• Chaque ligne commence par un mot clé:
• Deux lettres pour EMBL
• Maximum 12 lettres pour GenBank et DDBJ
46
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
GenBank: l’entête (header) Type de la
Taille de la
séquence séquence
Identification de la
séquence
Données
taxinomiques
Références
bibliographiques
47
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
GenBank: les caractéristiques (features)
Le début et la fin
du gène
Des liens vers d’autres
Position du 1er bases de données
exon
Position de la
région codante
(CDS: coding
domain sequence
48
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
GenBank: la séquence
Séquence
Fin de l’entrée
49
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
EMBL: l’entête (header)
50
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
EMBL: les caractéristiques (features)
51
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
EMBL: la séquence
52
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
Séquence au format FASTA (disponible dans trois bases de données)
• Séquence (donnée sous forme de lignes de 80 caractères maximum).
• Précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le
caractère « > ».
53
GenBank
Bases de données dérivées: GenPept
FEATURES Location/Qualifiers
• GenPeptsource 1..2484
contient la traduction de tous les CDS (séquence codante) des g ènes
/organism="Homo sapiens"
enregistrés dans GenBank.
/mol_type="mRNA"
/db_xref="taxon:9606"
/chromosome="3"
/map="3p22-p23"
gene 1..2484
>gi|463989|gb|AAC50285.1| DNA mismatch repair prote...
/gene="M LH1"
CDS 22..2292 MSFVAGVIRRLDETVVNRIAAGEVIQRPANAIKEMIENCLDAKSTSIQVIV...
EDLDIVCERFTTSKLQSFEDLASISTYGFRGEALASISHVAHVTITTKTAD...
/gene="M LH1"
/note="homolog of S. cerevisiae PMS1 (Swiss-Prot Accession
Number P14242), S. cerevisiae MLH1 (GenBank Accession
Number U07187), E. coli MUTL (Swiss-Prot Accession Number
P23367), Salmonella typhimurium MUTL (Swiss-Prot Accession
Number P14161) and Streptococcus pneumoniae (Swiss-Prot
Accession Number P14160)"
/codon_start=1
/product="DNA mismatch repair protein homolog"
/protein_id="AAC50285.1"
/db_xref="GI:463989"
/translation="MSFVAGVIRRLDETVVNRIAAGEVIQRPANAIKEMIENCLDAKS
TSIQVIVKEGGLKLIQIQDNGTGIRKEDLDIVCERFTTSKLQSFEDLASISTYGFRGE
ALASISHVAHVTITTKTADGKCAYRASYSDGKLKAPPKPCAGNQGTQITVEDLFYNIA
TRRKALKNPSEEYGKILEVVGRYSVHNAGISFSVKKQGETVADVRTLPNASTVDNIRS
54
GenBank
Bases de données dérivées: REFSEQ
• Un ensemble complet, non redondant, bien annoté de séquences
de référence comprenant les génomes, les transcrits (ARNm) et
les protéines.
Genomic DNA
Scanning....
(NC, NT, NW)
Model mRNA (XM) Model protein (XP)
(XR)
=?
Curated mRNA (NM) Curated Protein (NP)
(NR)
RefSeq
GenBank
Sequences 55
GenBank
Bases de données dérivées: REFSEQ
RefSeq Accession Numbers
mRNAs and Proteins
NM_123456 Curated mRNA
NP_123456 Curated Protein
NR_123456 Curated non-coding RNA
XM_123456 Predicted mRNA
XP_123456 Predicted Protein
XR_123456 Predicted non-coding RNA
Gene Records
NG_123456 Reference Genomic Sequence
Chromosome
NC_123455 Human chromosomes, organelle genomes…
56
GenBank
Bases de données dérivées: REFSEQ
57
GenBank
Exercice
Vous êtes sur le point de mener une étude sur une maladie génétique causée par des
mutations dans le gène LDLR. Comme point de départ vous souhaitez trouver toutes les
informations pertinentes sur ce gène. En utilisant GenBank (Nucleotide), trouver les
informations suivantes sur le gène.
1. Trouver la séquence de référence du transcrit le plus long codé par ce gène.
2. Quel est le nom complet du gène?
3. Quelle est la taille de cette ARNm?
4. Quelle est la taille de la séquence codante (CDS)?
5. Quand cette entrée a-t-elle été mise à jour ?
6. Dans quel chromosome se trouve le gène qui code pour cette protéine ?
7. Quel est le numéro d’accession de la protéine codée par ce gène.
8. Fournir une brève description de la fonction de la protéine codée par ce gène.
58
Banques de séquences nucléotidique:
UniGene
• UniGene est une base de données sur l'expression des gènes: Quels gènes
sont exprimés dans quel organe, dans quel maladie, à quel moment ?
• Données issues de la recherche de marqueurs de séquences exprimées
(Expressed Sequence Tags, EST) EST = ARNm rétro-transcrit.
• [Link]
59
Banques de séquences nucléotidique:
UniGene
60
Banques de séquences nucléotidique:
UniGene
Le niveau d’expression du gène APOE dans différents organes du corps humain
61
Bases de données de séquences protéiques:
Uniprot
• Les données de de la base de données Uniprot proviennent de deux
sources : SwissProt et TrEMBL.
• [Link]
Swiss-Prot + TrEMBL-EBI
UniProt
(Universal Protein Ressource)
62
Bases de données de séquences protéiques:
Uniprot
Recherche par le nom
de la protéine
63
Bases de données de séquences protéiques:
Uniprot
En jaune :
information
revu manuellement
par un expert
En bleu :
information
automatique
non vérifiée par
un expert
64
Bases de données de séquences protéiques:
Uniprot
Exercice
Rechercher dans Uniprot les enregistrements concernant l'insuline et identifier:
1. Combien d'enregistrements sont trouvés
2. Combien d'entrées proviennent de SwissProt?
3. Le code d'accession de la protéine humaine (gène INS);
4. Quelle est la localisation cellulaire de l'insuline
5. Quelle est la longueur du peptide signal
6. Combien y a t-il de variants (mutations) liés au diabète de type 2.
65
Domaines protéiques : PROSITE et PFAM
• Un domaine: une région d'une protéine ayant une fonction biologique propre,
que l'on retrouve sur plusieurs protéines (Exemple : plusieurs enzymes ont un
même domaine avec une fonction d'hydrolyse de l'ATP)
• PROSITE et PFAM sont des base de données sur les domaines des protéines,
les familles protéiques et les fonctions biologiques associées.
• [Link]
• [Link]
66
Domaines protéiques : PROSITE
Recherche des protéines qui
contiennent le domaine atpase
67
Domaines protéiques : PROSITE
68
Domaines protéiques : PROSITE
Permet d'accéder au profil
de domaine conservé
(graphique dit « logo »).
Permet de trouver toutes les
protéines
Ayant ce domaine dans la base
de données Uniprot
69
Domaines protéiques : PROSITE
Acide aminé très conservé
Les acides aminés conservés dans le domaine protéique atapase
70
Domaines protéiques : PFAM
Les domaines protéiques de la protéine MOY7A
71
OMIM
Recherche par le nom d’une
maladie ou d’un gène
•
Code OMIM de la maladie
les gènes responsables
de la maladie
Localisation
chromosomique du gène
72
OMIM
Code OMIM du gène
Affichage des mutations Les maladies causée
trouvées dans ce gènes par ce gène
73
OMIM
Les mutations trouvées
dans le CFTR
74
OMIM
Exercice
1. Trouver la maladie associée à des mutations dans le gène LDLR ?
2. Quel est le mode de transmission de cette maladie ?
75
Bases de données de variations génétiques:
dbSNP
• La base de données dbSNP a été développée par le National Center for
Biotechnology Information (NCBI) en collaboration avec la National Human Genome
Research Institute pour collecter et documenter l’ensemble des variations
génétiques trouvées dans le génome. [Link]
• Elle permet d’accéder rapidement à des données relatives à la variabilité de
séquence d’un gène quelconque. Elle offre des informations sur les détails
moléculaires qui définissent une variation génétique (mutations/polymorphismes),
ainsi que la fréquence de la variation génétique dans différentes populations.
76
Bases de données de variations génétiques:
dbSNP
Composition de la base de données SNP
• Mutations liées aux maladies
• Polymorphismes
• Informations sur la séquence autour du polymorphisme
• Conditions expérimentales
• Description de la population
• Fréquences alléliques
Type of variation % composition
Single nucleotide substitutions 99.7
insertion/deletion 0.21
Invariant regions of sequence 0.02
Microsatellite repeats 0.001
77
Bases de données de variations génétiques:
dbSNP
Un lien vers d'autres ressources
78
Bases de données de variations génétiques:
dbSNP
Information requise
• Coordonnées de l'émetteur
• Séquences entourant le polymorphisme
• Méthodes expérimentales
• Enregistrement GenBank
• Population et organisme source
• Données de fréquence
79
Bases de données de variations génétiques:
dbSNP
Après la soumission
• ss #: code offert à chaque nouvelle variation soumise
• rs #: Variation unique dans un génome de référence
80
Bases de données de variations génétiques:
dbSNP
Recherche dans la base de données
81
Bases de données de variations génétiques:
dbSNP
Recherche par le nom du gène
82
Bases de données de variations génétiques:
dbSNP
83
Bases de données de variations génétiques:
dbSNP
84
Bases de données de variations génétiques:
dbSNP
En 2010, Kiran Musunuru et ses collègues ont publié un article démontrant qu'un
SNP localisé dans la région chromosomique 1p13 influence le métabolisme des
lipoprotéines.
1. Trouver cette article dans Pubmed
2. Indiquer le code rs du SNP impliqué
3. Indiquer le nom du gène et l’exon où se trouve le SNP.
4. Est-ce que ce SNP se trouve dans une région codante?
5. Indiquer la fréquence l’allèle « T »
85