0% ont trouvé ce document utile (0 vote)
34 vues85 pages

Banque de Donnees

Transféré par

Ąyøūb Møušşăid
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
34 vues85 pages

Banque de Donnees

Transféré par

Ąyøūb Møušşăid
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Les principales bases de

données en bioinformatique
Pr Hakmaoui Abdelmalek
2024

1
Introduction
• Les bases de données jouent un rôle crucial dans l’organisation des
connaissances biologiques.
• Nous allons voir dans ce cours un tour rapide des principales bases de données
biologiques.
• Ces bases de données seront utilisées durant les travaux pratiques.

2
Introduction

Principe des bases de données relationnelles

Un attribut
Table Patient
Identifiant Nom Date de Naissance Taille Poids

Un individu 1 X 19/04/1989 166 70


2 Y 25/08/1992 171 60
3 Z 23/01/1994 176 55

La clé primaire

3
Introduction

Principe des bases de données relationnelles

Table espèce Table protéine


ID Nom ID Nom Séquence ID espèce
1 Homme 1 MTHFR MVNEARGNS… 1
2 E. Coli 2 APOA5 MASMAAVLT… 1
3 Virus VIH 3 TMC1 MSPKKVQIK… 2

4
Introduction
• Il existe des centaines de bases de données
biologiques et ce nombre augmente chaque année.
• Pour s’y retrouver, le journal scientifique
“Database: The Journal of Biological Databases
and Curation” a été créé en 2009 pour offrir des
descriptions détaillées des bases de données
existantes.
• Ce journal scientifique joue le rôle d’un catalogue
des bases de données biologiques.

5
Bases de données généralistes et spécialisées
Laboratoires

Bases de données
Par des spécialisées
Spécialistes

Sequencing RefSeq
Centers

Analyse des
UniGene
données

TATATGACTCAGGTCACTGAGTCACTGAGCCG
….
Bases de données
généralistes
Par des
algorithmes
Bioinformatique

6
Bases de données généralistes et spécialisées
• Les bases de données généralistes contiennent majoritairement des résultats
expérimentaux (avec quelques interprétations), mais qui ne sont pas vérifiés, ni analysés.
• Ces bases de données contiennent des données hétérogènes (collecte la plus exhaustive
possible).

• Avantage : toutes les informations sont consultables à partir d’une seule interface web.
• Inconvénient : difficiles à maintenir, difficiles à interroger.

7
Bases de données généralistes et spécialisées
• Les banques de données spécialisées contiennent des données homogènes établie
autour d’une thématique particulière.
• Généralement, ces bases de données sont développées et maintenues par des
scientifiques spécialisés dans un domaine particulier. En outre, certaines bases de
données ont été crées d’une façon automatique par une analyse bioinformatique des
données brutes générées par les laboratoires de recherche.

• Exemples : base de données spécialisée pour un génome spécifique, base de données


de séquences immunologiques, des domaines protéiques, d’expression de gènes…

• Avantage : faciles à maintenir, faciles à interroger.


• Inconvénient : ne cible pas toujours exactement ce que l’on veut, toutes les banques
possibles n’existent pas.

8
Résumé des différentes bases

Gène (ADN) Article Scientifique


• Genbank • MedLine/Pubmed
• EMBL
• DDBJ

Contient

Mutation/ ARNm Protéine


Polymorphisme • Ensembl Traduction • SwissProt
• dbSNP • UniGene • Uniprot
• 1000 genomes • PDB

Cause

Maladie génétique Fonction biologique


Soigne Médicament
• OMIM • PFAM
• DrugBank • PROSITE
• Orphanet

9
PubMed

[Link]

10
PubMed
• MEDLINE = Medical Literature Analysis and Retrieval System: Système de
recherche et d’analyse de la littérature médicale, développé par National Library
of Medicine aux Etats-Unis.
• C’est une base de données bibliographique commencée en 1949 jusqu’à nos
jours.
• Informatisée en 1972, contient plus de 20 millions de références d’articles
biomédicaux, issues de plus de 5200 journaux scientifiques.
• Couvre les sciences de la vie et l’information biomédicale: Médecine, Soins
infirmiers, Dentaire, Vétérinaire, Santé publique et Recherche clinique.

11
PubMed
• Medline accessible publiquement et gratuitement grâce au moteur de
recherche PubMed “Public access to the Medical Literature Analysis and
Retrieval System On-Line”.
• En plus des articles indexés dans MEDLINE, PubMed permet également de
chercher des articles indexés dans d’autres bases de données (les articles en
accès libre de PubMedCentral et les livres du NCBI Bookshelf…).
• Site Web: [Link]

Ne pas confondre
Medline ≠ PubMed

Le contenu L’Interface
(la base de données) d’interrogation
12
PubMed
Recherche par mots clés
• Les mots-clés sont des mots et des expressions utilisés par l'auteur ou le logiciel
d’indexation pour décrire de près le sujet d’un article.
• Les mots-clés peuvent être utilisés pour rechercher des bases de données
bibliographiques (par exemple PubMed) et des moteurs de recherche (par
exemple Google, Yahoo, etc.)
• Les options de recherche basiques ou avancées de Pubmed sont basés sur
l’utilisation des mots-clés

13
PubMed
Recherche par mots clés

14
PubMed
La recherche d’une phrase
 Les phrases doivent être placées entre guillemets:
 “kidney allograft”
 “Pressure point”

15
PubMed
La recherche d’une phrase

16
PubMed
Les champs de recherche
• Les enregistrements dans PubMed sont présentés comme des champs
• PubMed limite la recherche en fonction des champs choisis par l’utilisation

Journal

Titre

Auteurs

Résumé

Mots clés

Identifiant
unique

17
PubMed
Les champs de recherche

18
PubMed
Les champs de recherche

19
PubMed
Les champs de recherche

20
PubMed
Les champs de recherche

21
PubMed
Utilisation des opérateurs booléens
• On peut combiner plusieurs mots clés à l’aide des opérateurs booléens:
• AND = références contenant l’ensemble des termes
• OR = références contenant au moins 1 des termes
• NOT = références contenant ce terme sont exclues

22
PubMed
Utilisation des opérateurs booléens

23
PubMed
Utilisation des opérateurs booléens

24
PubMed
Vocabulaire contrôlé - MeSH
 MeSH est l'acronyme de "Medical Subject Headings"
 C'est la liste des termes de vocabulaire utilisés pour l'analyse de la littérature biomédicale
à la National Library of Medicine (NLM)
 Un vocabulaire contrôlé est un ensemble de termes établis où chaque terme représente
un seul concept
 Le vocabulaire MeSH est utilisé pour indexer des articles dans MEDLINE.
 Les termes MeSH sont organisés de manière hiérarchisée appelée MeSH Tree
Structures et mis à jour chaque année

25
PubMed
Vocabulaire contrôlé - MeSH

26
PubMed
Vocabulaire contrôlé - MeSH

27
PubMed
Vocabulaire contrôlé - MeSH

28
PubMed
Vocabulaire contrôlé - MeSH

29
PubMed
Exploitation des résultats: Les formats de visualisation

• En anglais « Display Settings ».


• Ce sont des options d’affichage des résultats de la recherche. Il y a 3 types
d’options :
 Le format
 Le nombre de résultats par page
 Le tri
Les formats de visualisation

30
PubMed
Exploitation des résultats: Les formats de visualisation

Les formats
• Summary : le format par défaut : références de l’article en HTML avec lien vers
l’abstract.
• Summary (text) : idem que Summary mais au format texte uniquement, sans
liens html. Assez rébarbatif…
• Abstract : idem que Summary, avec l’abstract et des liens supplémentaires.
• Abstract (text) : idem que Abstract mais au format texte uniquement, sansliens
html. Même remarque…

Rq : Les formats texte sont parfois utiles pour l’export vers certains logiciels.

31
PubMed
Exploitation des résultats: Les formats de visualisation
• MEDLINE : le format le plus complet, similaire à une fiche au format MARC, avec
les codes de champs spécifiques à PubMed.
• XML : format balisé XML
• PMID List : simple liste des numéros de référence des articles , au format texte.
PMID = PubMed IDentification, qui équivaut au numéro d’inventaire de chaque
notice.

32
PubMed
Exploitation des résultats: Le tri

• Recently added : tri par derniers ajouts dans PubMed


• Pub Date : tri par date de publication
• First / Last author : tri par premier / dernier auteur
• Journal : tri par périodique
• Title : tri par titre

33
PubMed
Exploitation des résultats: Envoyer les résultats

File : Envoyer les résultats en tant que fichier


• Summary (text) : fichier texte reprenant les références des
articles
• Abstract (text) : fichier texte reprenant les abstracts des
articles
• MEDLINE : fiches bibliogaphiques, comparables au MARC
(très complet)
• XML : fichier balisé en XML
• PMID List : uniquement liste des numéros de référence des
articles (PubMed I.D.)

Rq: Un tri est possible : chronologique, par date d’ajout, par


auteur, par titre, par périodique.
34
PubMed
Exploitation des résultats: Envoyer les résultats

Collections
• Permet de se connecter à un compte MyNCBI et de sauver sa recherche,
comme une sorte de bibliothèque virtuelle des références que l’on veut
conserver.
• L’enregistrement à MyNCBI est gratuit.
MyNCBI permet aussi la veille (voir ci-après)

35
PubMed
Exploitation des résultats: Envoyer les résultats

Order
• Se connecte à la plate-forme LoansomeDoc, afin de
commander des articles.

Clipboard
• Envoie les résultats vers le presse-papiers de PubMed. Ce
Clipboard permet de contenir jusqu’à 500 items ; c’est une
sorte de « panier ». Il conserve les références pendant 8
heures maximum

36
PubMed
Exploitation des résultats: Envoyer les résultats
E-mail
• Permet d’envoyer les résultats par email. Idem que pour
envoyer par fichier, on peut en outre choisir le nombre de
références à envoyer, à partir de laquelle commencer, et ajouter
un texte éventuel (pour envoyer à un collègue, par exemple).

37
PubMed
Exploitation des résultats: OpenAccess
• La plupart des articles ne proposent quun abstract, et le full text
est souvent payant.
• Il existe néanmoins des articles « gratuits » en « open access »
ou en « free full text ».
• Pour ne filtrer que ceux-là : cliquer sur « Free Full Text » en haut
à droite de la page de résultats. Si cette option n’apparaît pas,
c’est qu’il n’y en a pas…!

38
PubMed
Exploitation des résultats: OpenAccess
• Un article en open access est TOUJOURS signalé dans la page de résultats par
la mention « Free article ».

39
PubMed
Exploitation des résultats: veille sur les actualités scientifiques
• Via une inscription par MyNCBI, Pubmed envoi une alerte par email automatique
sur base quotidienne, hebdomadaire ou mensuelle.
• Pour cela, utiliser le lien

40
PubMed
Exercice 1
[Link]
1. Trouver des articles écrits par les auteurs suivants:
 Haussler D
 Sejnowski T
2. Trouver des articles écrits depuis 2003 par le T Hubbard qui travaille au
Sanger Institute
3. Trouver les articles de Kimmel M publié en 2014 dans la revue Plos one
4. Quels sont les termes MeSH appropriés pour les mots clés suivants:
 cardiac valve
 diabetes

41
PubMed
Exercice 2
1. Vous souhaitez effectuer une recherche d'articles sur le cancer chez les
enfants. Cherchez dans la base de données MeSH du NCBI pour savoir quels
sont les meilleurs mots clés utiliser pour le cancer et les enfants lors de la
construction de votre requête de recherche.
2. Rechercher les articles de PubMed indéxés par ces termes MeSH. Combien
d'articles sont indexés par les 2 termes trouvés ?

42
PubMed
Exercice 3
1. Rechercher des articles traitant de l’autisme. Combien de papiers sont trouvés?
2. Définir maintenant des filtres pour limiter la recherche aux essais cliniques
impliquant des hommes mâles et où il existe des liens vers des documents
gratuits en texte intégral. Combien de papiers récupérez-vous?
3. Sélectionner quelques articles et ajouter-les au Presse-papiers (Clipboard).
4. Aller dans le presse-papiers.
5. Afficher les éléments sélectionnés au format Abstract pour voir les termes
MeSH attribués.

43
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
• EMBL (European Molecular Biology Laboratory) :
• Création 1980 par lEuropean Molecular Biology Organisation
• Diffusée par European Bioinformatics Institute (EBI)
• [Link]
• Nucleotide (anciennement appelé GenBank):
• Création 1982 par IntelliGenetics
• Diffusée par National Center for Biotechnology Information (NCBI)
• [Link]
• DDBJ (DNA Databank of Japan):
• Création 1986 par National Institute of Genetics (NIG)
• Diffusée par National Institute of Genetics (NIG)
• [Link]
• Les trois bases de données contiennent toutes les séquences de nucléotides
librement disponibles et leurs traductions en protéines.
• Les séquences d'ADN proviennent de séquençages.
• Les séquences de protéines proviennent de la traduction automatique des
séquences d'ADN correspondantes. 44
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
• Dans le cadre de la collaboration « The International Sequence Database
Collaboration », ces trois banques échangent systématiquement leur contenu depuis
1987.
• Cependant l'interface et les fonctions proposées par les 3 banques sont un peu
différentes.

INSDC: The International Sequence Database Collaboration


45
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
Format des séquences dans les trois bases de données

• Chaque entrée (séquence + informations) est stockée dans un fichier (flatfile)


• Chaque fichier est composée de trois parties:
1. Un Entête (header) : description générale de l’entrée.
2. Des caractéristiques (features) : objets biologiques présents sur la séquence.
3. La séquence d’ADN.
• Chaque ligne commence par un mot clé:
• Deux lettres pour EMBL
• Maximum 12 lettres pour GenBank et DDBJ

46
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
GenBank: l’entête (header) Type de la
Taille de la
séquence séquence

Identification de la
séquence

Données
taxinomiques

Références
bibliographiques

47
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
GenBank: les caractéristiques (features)

Le début et la fin
du gène

Des liens vers d’autres


Position du 1er bases de données
exon

Position de la
région codante
(CDS: coding
domain sequence

48
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
GenBank: la séquence

Séquence

Fin de l’entrée

49
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
EMBL: l’entête (header)

50
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
EMBL: les caractéristiques (features)

51
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
EMBL: la séquence

52
Banques de séquences nucléotidique:
GenBank, EMBL et DDBJ
Séquence au format FASTA (disponible dans trois bases de données)

• Séquence (donnée sous forme de lignes de 80 caractères maximum).


• Précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le
caractère « > ».

53
GenBank

Bases de données dérivées: GenPept


FEATURES Location/Qualifiers
• GenPeptsource 1..2484
contient la traduction de tous les CDS (séquence codante) des g ènes
/organism="Homo sapiens"
enregistrés dans GenBank.
/mol_type="mRNA"
/db_xref="taxon:9606"
/chromosome="3"
/map="3p22-p23"
gene 1..2484
>gi|463989|gb|AAC50285.1| DNA mismatch repair prote...
/gene="M LH1"
CDS 22..2292 MSFVAGVIRRLDETVVNRIAAGEVIQRPANAIKEMIENCLDAKSTSIQVIV...
EDLDIVCERFTTSKLQSFEDLASISTYGFRGEALASISHVAHVTITTKTAD...
/gene="M LH1"
/note="homolog of S. cerevisiae PMS1 (Swiss-Prot Accession
Number P14242), S. cerevisiae MLH1 (GenBank Accession
Number U07187), E. coli MUTL (Swiss-Prot Accession Number
P23367), Salmonella typhimurium MUTL (Swiss-Prot Accession
Number P14161) and Streptococcus pneumoniae (Swiss-Prot
Accession Number P14160)"
/codon_start=1
/product="DNA mismatch repair protein homolog"
/protein_id="AAC50285.1"
/db_xref="GI:463989"
/translation="MSFVAGVIRRLDETVVNRIAAGEVIQRPANAIKEMIENCLDAKS
TSIQVIVKEGGLKLIQIQDNGTGIRKEDLDIVCERFTTSKLQSFEDLASISTYGFRGE
ALASISHVAHVTITTKTADGKCAYRASYSDGKLKAPPKPCAGNQGTQITVEDLFYNIA
TRRKALKNPSEEYGKILEVVGRYSVHNAGISFSVKKQGETVADVRTLPNASTVDNIRS
54
GenBank

Bases de données dérivées: REFSEQ

• Un ensemble complet, non redondant, bien annoté de séquences


de référence comprenant les génomes, les transcrits (ARNm) et
les protéines.

Genomic DNA
Scanning....
(NC, NT, NW)

Model mRNA (XM) Model protein (XP)


(XR)
=?
Curated mRNA (NM) Curated Protein (NP)
(NR)
RefSeq
GenBank
Sequences 55
GenBank

Bases de données dérivées: REFSEQ

RefSeq Accession Numbers


mRNAs and Proteins
NM_123456 Curated mRNA
NP_123456 Curated Protein
NR_123456 Curated non-coding RNA
XM_123456 Predicted mRNA
XP_123456 Predicted Protein
XR_123456 Predicted non-coding RNA
Gene Records
NG_123456 Reference Genomic Sequence
Chromosome
NC_123455 Human chromosomes, organelle genomes…

56
GenBank

Bases de données dérivées: REFSEQ

57
GenBank

Exercice
Vous êtes sur le point de mener une étude sur une maladie génétique causée par des
mutations dans le gène LDLR. Comme point de départ vous souhaitez trouver toutes les
informations pertinentes sur ce gène. En utilisant GenBank (Nucleotide), trouver les
informations suivantes sur le gène.
1. Trouver la séquence de référence du transcrit le plus long codé par ce gène.
2. Quel est le nom complet du gène?
3. Quelle est la taille de cette ARNm?
4. Quelle est la taille de la séquence codante (CDS)?
5. Quand cette entrée a-t-elle été mise à jour ?
6. Dans quel chromosome se trouve le gène qui code pour cette protéine ?
7. Quel est le numéro d’accession de la protéine codée par ce gène.
8. Fournir une brève description de la fonction de la protéine codée par ce gène.

58
Banques de séquences nucléotidique:
UniGene
• UniGene est une base de données sur l'expression des gènes: Quels gènes
sont exprimés dans quel organe, dans quel maladie, à quel moment ?
• Données issues de la recherche de marqueurs de séquences exprimées
(Expressed Sequence Tags, EST) EST = ARNm rétro-transcrit.
• [Link]

59
Banques de séquences nucléotidique:
UniGene

60
Banques de séquences nucléotidique:
UniGene

Le niveau d’expression du gène APOE dans différents organes du corps humain


61
Bases de données de séquences protéiques:
Uniprot
• Les données de de la base de données Uniprot proviennent de deux
sources : SwissProt et TrEMBL.
• [Link]

Swiss-Prot + TrEMBL-EBI

UniProt
(Universal Protein Ressource)

62
Bases de données de séquences protéiques:
Uniprot
Recherche par le nom
de la protéine

63
Bases de données de séquences protéiques:
Uniprot

En jaune :
information
revu manuellement
par un expert

En bleu :
information
automatique
non vérifiée par
un expert

64
Bases de données de séquences protéiques:
Uniprot
Exercice

Rechercher dans Uniprot les enregistrements concernant l'insuline et identifier:


1. Combien d'enregistrements sont trouvés
2. Combien d'entrées proviennent de SwissProt?
3. Le code d'accession de la protéine humaine (gène INS);
4. Quelle est la localisation cellulaire de l'insuline
5. Quelle est la longueur du peptide signal
6. Combien y a t-il de variants (mutations) liés au diabète de type 2.

65
Domaines protéiques : PROSITE et PFAM

• Un domaine: une région d'une protéine ayant une fonction biologique propre,
que l'on retrouve sur plusieurs protéines (Exemple : plusieurs enzymes ont un
même domaine avec une fonction d'hydrolyse de l'ATP)
• PROSITE et PFAM sont des base de données sur les domaines des protéines,
les familles protéiques et les fonctions biologiques associées.
• [Link]
• [Link]

66
Domaines protéiques : PROSITE
Recherche des protéines qui
contiennent le domaine atpase

67
Domaines protéiques : PROSITE

68
Domaines protéiques : PROSITE

Permet d'accéder au profil


de domaine conservé
(graphique dit « logo »).

Permet de trouver toutes les


protéines
Ayant ce domaine dans la base
de données Uniprot

69
Domaines protéiques : PROSITE

Acide aminé très conservé

Les acides aminés conservés dans le domaine protéique atapase

70
Domaines protéiques : PFAM

Les domaines protéiques de la protéine MOY7A

71
OMIM
Recherche par le nom d’une
maladie ou d’un gène


Code OMIM de la maladie

les gènes responsables


de la maladie

Localisation
chromosomique du gène

72
OMIM

Code OMIM du gène

Affichage des mutations Les maladies causée


trouvées dans ce gènes par ce gène

73
OMIM

Les mutations trouvées


dans le CFTR

74
OMIM

Exercice

1. Trouver la maladie associée à des mutations dans le gène LDLR ?


2. Quel est le mode de transmission de cette maladie ?

75
Bases de données de variations génétiques:
dbSNP
• La base de données dbSNP a été développée par le National Center for
Biotechnology Information (NCBI) en collaboration avec la National Human Genome
Research Institute pour collecter et documenter l’ensemble des variations
génétiques trouvées dans le génome. [Link]
• Elle permet d’accéder rapidement à des données relatives à la variabilité de
séquence d’un gène quelconque. Elle offre des informations sur les détails
moléculaires qui définissent une variation génétique (mutations/polymorphismes),
ainsi que la fréquence de la variation génétique dans différentes populations.

76
Bases de données de variations génétiques:
dbSNP
Composition de la base de données SNP
• Mutations liées aux maladies
• Polymorphismes
• Informations sur la séquence autour du polymorphisme
• Conditions expérimentales
• Description de la population
• Fréquences alléliques

Type of variation % composition


Single nucleotide substitutions 99.7

insertion/deletion 0.21
Invariant regions of sequence 0.02

Microsatellite repeats 0.001

77
Bases de données de variations génétiques:
dbSNP
Un lien vers d'autres ressources

78
Bases de données de variations génétiques:
dbSNP
Information requise
• Coordonnées de l'émetteur
• Séquences entourant le polymorphisme
• Méthodes expérimentales
• Enregistrement GenBank
• Population et organisme source
• Données de fréquence

79
Bases de données de variations génétiques:
dbSNP
Après la soumission
• ss #: code offert à chaque nouvelle variation soumise
• rs #: Variation unique dans un génome de référence

80
Bases de données de variations génétiques:
dbSNP
Recherche dans la base de données

81
Bases de données de variations génétiques:
dbSNP
Recherche par le nom du gène

82
Bases de données de variations génétiques:
dbSNP

83
Bases de données de variations génétiques:
dbSNP

84
Bases de données de variations génétiques:
dbSNP
En 2010, Kiran Musunuru et ses collègues ont publié un article démontrant qu'un
SNP localisé dans la région chromosomique 1p13 influence le métabolisme des
lipoprotéines.
1. Trouver cette article dans Pubmed
2. Indiquer le code rs du SNP impliqué
3. Indiquer le nom du gène et l’exon où se trouve le SNP.
4. Est-ce que ce SNP se trouve dans une région codante?
5. Indiquer la fréquence l’allèle « T »

85

Vous aimerez peut-être aussi