Analyse des génomes
Émergence des sciences omiques
Mathieu Simard, enseignant
1GNT102 – Génétique générale
COURS
7 Analyse des génomes
Objectifs d’apprentissage
➢ Décrire l’organisation typique des gènes humains;
➢ Décrire les éléments constitutifs du génome humain ainsi que leurs fonctions;
➢ Expliquer le principe expérimental du séquençage Sanger;
➢ Décrire l’approche par clones pour le séquençage d’un génome;
➢ Annoter de courtes séquences d’un génome eucaryote;
➢ Distinguer la génomique fonctionnelle de la génomique comparative;
➢ Définir les sciences omiques selon leur champ d’études.
Vocabulaire de la génétique
Genome
genotype
locus
Vocabulaire de la génétique
paire de chromosome homologue
2 chromatides soeus
homozygote heterozygote
Caractère apparent d’un gène : phénotype
phenotype
(d’un point de vue moléculaire : protéine)
proteine
Structure du génome humain
Le génome humain est réparti en 22 paires d’autosomes et une paire de gonosomes
(chromosomes sexuels). En tout, le génome humain diploïde est composé de 6,2 milliards
de pb.
Génome
haploïde à n
chromosomes
(n = 23)
Génome
diploïde à 2n
chromosomes
Composition du génome humain
Le génome humain est composé de diverses séquences hétérogènes qui permettent la
synthèse des protéines et la régulation de l’expression du génome.
Transposons à ADN Rétrotransposons LTR
Microsatellites
environ 50% des seq codent pour des
element repetes
Séquences
dupliquées
Séquences répétées
centromériques et
télomériques
Gènes codants pour des
Séquences protéines (1,5%) environ 1 gene a chaq
100mill pb
diverses
Traduit de Cox M., Doudna J. et O’Donnell M., 2015. Molecular Biology – Principles and Practice (2nd edition). Macmillan.
Gènes codants pour des protéines
L’estimation du nombre de séquences codantes dans le génome est passé de 50 000 –
100 000 en 1990 à environ 25 000 de nos jours. Ce nombre varie en fonction des bases
de données utilisées.
Liehr, T. (2021). Repetitive Elements in Humans. International Journal of Molecular Sciences, 22(4), 2072. doi:10.3390/ijms22042072
Selon les dernières estimations de 2021, il y aurait 20 383 séquences codants
pour des protéines (basé sur la moyenne des 4 plus grandes bases de données).
Gènes codants pour des protéines
Les fonctions moléculaires des 20 383 séquences codants pour des protéines sont
réparties comme suit:
codent pour les facteurs de transcription
13,5% 22,4% codent pour des fonctions diverses
12,2%
codent pour des proteines de transduction du signal
codent pour des foncions moleculaires
indertermines
41,7%
ces proteines codent pour les enzymes
10,2%
Gènes codants pour des protéines
Plusieurs éléments fonctionnels sont retrouvés au sein des séquences codantes
humaines. Ces séquences permettent la régulation de l’expression des gènes par le
contrôle du taux de transcription.
TSS(+1)
isolateur amplificateur
(blocke l'amplificateur promoteur marque le dbut de la transcription donc unite
Isolateur Amplificateur Promoteur transcriptionnellle
Unité transcriptionnelle
Séquence d’ADN qui Séquence régulatrice Séquence d’ADN qui Séquence du gène
permet : d’ADN qui permet : permet : transcrit en ARNm
✓ Bloquer l’effet ✓ Stimuler la
d’un amplificateur transcription d’un ✓ Fixation de
sur un promoteur. gène. l’ARN
✓ Bloquer la ✓ Inhiber la polymérase
propagation de transcription d’un
l’hétérochromatine gène (insulateur).
Gènes codants pour des protéines
En amont du TSS, on retrouve le site liaison de l’ARN polymérase appelé promoteur.
L’affinité de l’ARN polymérase pour un promoteur est régulée par les éléments
régulateurs distaux, en amont ou en aval, via la liaison de facteurs de transcription.
Des éléments de régulation sont retrouvés dans les promoteurs
promoteurs des gènes humains.
promoteur en aval
promoteur proximal TSS
promoteur distal > 5kpb
Kumar A. et Bansal M., 2017. Modulation of Gene Expression by Gene Architecture and Promoter Structure. Bioinformatics in the Era of Post Genomics and Big Data
Les promoteurs des gènes humains sont divisés en trois sous-régions : promoteur
principal, promoteur proximal, promoteur distal.
Pseudogènes
Séquences possédant une ressemblance structurale à des gènes fonctionnels, mais
qui ne sont pas exprimés. Ces séquences composent 0,4 % du génome humain.
1) Evenements de duplication 3) retrotranscription viral
2) Accumulation de mutations
Ma, Y., Chen, Z., & Yu, J. (2021). Pseudogenes and their potential functions in hematopoiesis. Experimental Hematology.
Éléments répétés
Les éléments répétés représentent environ 50% des séquences génomiques
nucléaires humaines. Les éléments répétés peuvent être disperses
dispersées ou en insérées en
tandem.
tandem
éléments repetes disperses
elements repetes en tandem
Éléments répétés dont les copies sont adjacentes
et distribuées à un seul locus.
Types d’éléments répétés en tandem
*les mcrosatellites(STR)
✓ *les
Microsatellite tandem repeat –
(ou short(TTAGGG)n
sequences d'ADN telomeriques Éléments répétés dont les copies sont
* STR)
les minisatellites distribuées à l’échelle du génome et non au
✓ Séquences d’ADN télomérique sein d’un locus.
✓ Minisatellite
Éléments répétés en tandem
Les éléments répétés en tandem sont des séquences abondantes dans le génome
humain retrouvées plus particulièrement au niveau des régions d’hétérochromatine
(chromatine transcriptionnellement inactive).
séquences centromériques/ télomériques= riches en éléments répètes en tandem
Répétitions identiques
Répétitions dégénérées
Microsatellite
(1-9 pb)
Minisatellite
(10-100 pb)
Macrosatellite
(> 100 pb)
Éléments répétés en tandem
Les éléments répétés en tandem au niveau des centromères sont organisés en
monomères de 171 pb (𝛼-satellites)
satellites-alpha
assemblés en motifs répétés d’ordre supérieur
(HOR).
Fukagawa T. et Earnshaw WC., 2014. The centromere: chromatin foundation for the kinetochore machinery. Developmental Cell, 30(5).
Analyse des génomes …. La génomique
« La génomique désigne l’étude de toute l’information génétique des
êtres vivants, codée dans leur ADN et des molécules connexes telles que
l’ARN et les protéines. » (Génome Canada, 2022).
Les premières analyses génomiques remontent
Bactériophage 𝜙X174 à 1977 avec le séquençage complet du génome
ADNsb (5400 pb) du bactériophage 𝜙X174.
Analyse des génomes …. La génomique
Avant le développement des technologies de séquençage, l’analyse génomique reposait sur
une approche de génétique classique :
identifier des mutations et etudier l'effet dee mutagenes cartographie de liason genetique
Cette approche comprenait certaines limites :
➢ Requiert au moins une mutation par gène pour être détecté;
➢ Requiert beaucoup de temps;
➢ Mutations létales non-détectées (impossible d’étudier le phénotype);
➢ Ne peut s’appliquer aux études chez l’humain.
Séquençage par la technique Sanger
Le séquençage complet du génome du bactériophage 𝜙X174 en 1977 a amorcé les débuts
de l’ère du séquençage des génomes. La méthode Sanger est encore aujourd’hui largement
employée pour le séquençage de plus de séquences > 500
500pbpb.
Une meilleure compréhension de la biochimie des nucléotides a permis le développement des
premières techniques expérimentales de séquençage
Alberts et al., 2016 (Panel 8-1). Molecular Biology of the Cell (6th edition).
adn sb Les principales étapes du séquençage par la méthode
Sanger sont :
amorce
➢ Identification d’un ADN simple brin à séquencer;
➢ Marquage de l’ADN simple brin avec une amorce
composée d’un colorant fluorescent ou d’un radio-
isotope (peu utilisé de nos jours = déchets);
➢ Ajout de dNTP en excès à l’ADN marqué;
➢ Division en 4 sous-échantillons. Chacun des sous-
échantillons recevra un ddNTP différent;
➢ Séparation par électrophorèse sur gel de
polyacrylamide (un puit par ddNTP).
Alberts et al., 2016 (Panel 8-1). Molecular Biology of the Cell (6th edition).
Séquençage par la technique Sanger
arret polymerisation
La réaction de polymérisation s’arrête lorsqu’un ddNTP se lie au brin à polymériser.
Comme le ddNTP ne possède pas de groupement 3’-OH, il est impossible de
procéder à l’ajout d’autre dNTP suite à sa liaison.
Séquençage par la technique Sanger
À partir du gel de polyacrylamide ci-contre, on peut reconstituer la séquence
de l’ADN simple brin (ADNsb) analysé :
5’– TTTTTAACCCTCCAATTATTGCTCG –3’
Ainsi que celle de l’ADN double brin (par complémentarité chimique) :
5’– TTTTTAACCCTCCAATTATTGCTCG –3’
5’– AAAAATTGGGAGGTTAATAACGAC –3’
petits fragments ( extremite 5')
La séquence est lue dans le sens 5’ → 3’ à partir du bas du gel
d’électrophorèse qui correspond à l’extrémité 5’ de l’ADN à séquencer.
Les fragments de faible poids moléculaire migrent plus facilement dans
le gel, ce qui explique pourquoi l’extrémité 5’ est la plus près de
l’anode.
Bimal, T., The nucleic acid protocols handbook , 2000.
Séquençage par la technique Sanger
Le séquençage par la méthode Sanger a été automatisé afin de rendre l’opération plus
rentable et plus rapide.
Chromatogramme
Alberts et al., 2016 (Panel 8-1). Molecular Biology of the Cell (6th edition).
L’ADN à analyser marqué est combiné avec un excès de dNTP et de ddNTP (fluorescent). Les produits de
la réaction sont ensuite insérés dans un long capillaire pour être séparés par électrophorèse et une caméra
peut ensuite lire les marques fluorescentes des ddNTP pour établir un chromatogramme.
Séquençage par la technique Sanger
Interprétation du chromatogramme
La qualité (Q) de la séquence obtenue peut être
estimée avec :
Q= -log(P)
Q = –10log(P)
Où P représente la probabilité d’une erreur de
lecture.
Si Q = 20, la probabilité d’erreur est de 1/100
Comme les ddNTP sont marqués avec un colorant fluorescent propre à chacun d’eux qui est détecté
par une caméra spécialisée, la lecture du chromatogramme est facilitée par cette coloration. De plus,
des logiciels informatiques (assemblage des séquences) permettent de trier les données et
d’appliquer des corrections statistiques afin d’obtenir des données de plus grande qualité.
Séquençage du génome complet (WGS)
ADNg Le whole-genome sequencing (WGS) permet
de séquencer l’entièreté du génome.
Méthode développée en 1995 pat l’Institute
for Genome Research qui a permis de
séquencer le tout premier génome non viral,
celui de la bactérie Haemophilus influenzae
(génome de 1,83 million de pb).
Génome
d’Haemophilus
influenzae
Klug et al., Concepts of Genetics, 2019.
Séquençage du génome complet (WGS)
Historiquement, deux stratégies expérimentales ont été exploitées pour effectuer un
séquençage du génome complet. La plus employée était l’approche
a p p r o c h e p a r par
c l o n e sclones.
Approche par clones
Avec un échantillon d’ADNg, une première digestion avec des enzymes de
restriction permet de générer des millions de fragments d’environ 100-200kpb
100 – 200 kb. Par
la suite, les fragments obtenus sont insérés dans un vecteur de clonage. Pour le
séquençage du génome humain, les vecteurs de clonage utilisés étaient des BACBAC et
des YAC,
YAC deux types de chromosomes artificiels.
Clark, D. P., et al., 2016. Recombinant DNA Technology. Bioctechnology (2nd edition)
Chromosomes artificiels
Chromosome artificiel bactérien (BAC) Chromosome artificiel de levure (YAC)
Forme linéaire (eucaryote)
site de clonage multiple
scm
gene resistance * 2 seq telomeriques
*1 seq centromerique
*Marqueur
* ORI(ARS)
* site clonage mulile
Séquence Ori d’un
plasmide naturel d’E. coli
Vecteur
1) ADNg cliver avec des enzymes de restriction 3) insertion des fragments dans le
nbre de sites de coupure= vecteur clonage
1/4*n
n= longueur de la sequence ciblee
2) fragments
4) propager le vecteur qui contient le
fragment dans une cellule de levure
Université de Tours, 2008.
Banque génomique (DNA library)
Une banque génomique est une collection de clones
collection de clones ADN d’ADN qui peut contenir des gènes
et/ou des portions non-codantes du génome. Il existe 2 types de DNA libraries :
➢ Banque d’ADN
Banque d'ADN genomiquegénomique (ADNg) : se compose de nombreux fragments du
génome qui se chevauchent, avec au moins une copie de chaque séquence d'ADN des
chromosomes d'un organisme, qui, en résumé, couvrent l'ensemble du génome.
Difficile à obtenir. Plus
plus le le génome
genome à séquencer
à seauncer est
est volu,inuex plusvolumineux,
lq couverrutre estplus
grqndela couverture
doncplus estclones
il y aura de
importante et l’analyse se complexifie.
Bnque d'ADN complementaire
➢ Banque d’ADN complémentaire (ADNc) : Les ARN cellulaires peuvent être
reconverties en un ADNdb complémentaire. Les banque d’ADNc contiennent donc
exome
seulement des clones de séquences codantes (transcriptome).
Notes: prenons un spa\ermatozoide(n) ayant 3miliar pb et que les enzymes de restric coupent a chaque 150kpb donc on aura
20mill fragments et mettons 100% du clonage est reussit donc on obtient 20mill clones differents qui represente un eq
genomique
Banque génomique (DNA library)
Une banque génomique est une collection de clones d’ADN qui peut contenir des gènes
et/ou des portions non-codantes du génome. Il existe 2 types de DNA libraries :
Sites de restriction d’une séquence d’ADN quelconque
Annotation du génome
Même si les technologies de séquençage se développent de plus en plus rapidement,
il reste la problématique de l’analyse de ces séquences. La bioinformatique
bioinformatique a
grandement contribué à simplifier l’analyse de ces séquences (annotation).
ds
Klug et al., Concepts of Genetics, 2019.
5’-ACTGACGGCTCAGCTACGATCGA-3’
L’annotation du génome consiste à l’analyse fonctionnelle des séquences séquencées dans
le but d’identifier des séquences
Comparaison de la séquence avec une séquence de « référence ».
✓ BLAST (Basic Local Alignement Search Tool)
Contig de 280 pb
du chromosome
12 du rat et
comparé à celui
de la souris
Klug et al., Concepts of Genetics, 2019.
Des programmes bioinformatiques permettent de faire l’annotation des génomes de manière rapide.
Klug et al., Concepts of Genetics, 2019.
Démonstration avec RefSeq
Churko, J. M., et al., 2013. Overview of High-throughput Sequencing Technologies to Séquençage à haut débit (HTS)
Elucidate Moleculat Pathways in Cardiovascular Diseases. Circulation Research
Le séquençage à haut débit, ou high-
throughput sequencing, est l’une des
technologies de séquençage les plus puissante
à l’heure actuelle. Elle possède plusieurs
capillaires électrophorétiques qui permettent
de générer des séquences d’environ 2
millions de pb en 24h (machine automatisée
fonctionnant 24h/24).
Cette technologie a fait passer le coût de
séquençage d’environ 1$ par pb à 0,001$/pb.
Séquençage de troisième génération (TGS)
Le développement du TGS (Third-generation sequencing) a commencé en 2008.
C’est une méthode basée sur l’analyse d’une seule molécule d’ADN monocaténaire.
Klug et al., Concepts of Genetics, 2019.
Une ADN polymérase liée à un substrat solide dans un nanopore se lie à un ADN
monocaténaire. Une fois l’ADN pol liée, elle incorpore des nucléotides marqués avec un
fluorophore pour synthétiser le brin complémentaire. Une fois incorporé, le nucléotide marqué
émet un flash (illumination) le fluorophore est clivé.
Coûts de séquençage des génomes
Le développement de technologies de séquençage a contribué à diminuer de manière
substantielle le coût de séquençage d’un génome. Actuellement, en date de 2022, il
coûte environ 1000$ pour obtenir la séquence complète d’un génome humain.
Évolution des coûts reliés au séquençage des génomes par $/Mb
Klug et al., Concepts of Genetics, 2019.
À quel endroit la transcription
s’amorce-t-elle ?
Codon START
ATG
Mais lequel?
Cadre de lecture ouvert (ORF)
Les gènes codant pour une protéine contiennent un ou plusieurs cadres de lecture
ouvert (ORF, Open Reading Frame), des séquences nucléotidiques qui, après la
transcription et l’épissage de l’ARNm, sont traduites en acides aminés.
Cadre de lecture ouvert (ORF)
Identification d’ORF dans le génome de la COVID-19.
NC_045512
https://www.ncbi.nlm.nih.gov/orffinder
Open Reading Finder du NIH sert d’outil pour
rechercher des ORF dans une séquence
nucléotidique.
Cadre de lecture ouvert (ORF)
Le nombre d’ORF est un bon indicateur du nombre de gènes codants pour une
protéine présents dans une séquence/génome.
Certains programmes informatiques
permettent d’identifier les ORF en
polypeptides « possibles ».
Klug et al., Concepts of Genetics, 2019.
Projet Génome humain
Le PGH a débuté en 1990 avec James Watson.
Les objectifs initiaux du projet étaient :
✓ Établir des catégories fonctionnelles pour tous les gènes humains;
✓Analyser les variations génétiques entre humains, y compris l'identification des SNP;
✓Cartographier et séquencer les génomes de plusieurs organismes modèles utilisés en
génétique expérimentale, notamment Escherichia coli, Saccharomyces cerevisiae,
Caenorhabditis elegans, Drosophila melanogaster et Mus musculus.
✓Développer de nouvelles technologies de séquençage, telles que des séquenceurs
automatisés à haut débit, pour faciliter l'analyse du génome.
✓Diffuser l'information sur le génome auprès des scientifiques et du grand public.
Projet Génome humain
Une première version partiellement achevée a été publiée en 2001 par l’International
Human Genome Sequencing Consortium (IHGSC) pour être finalement terminée en
2003.
ADNg
La méthodologie initiale employée pour le
séquençage du génome humain était divisée en plasmide
deux phases : la shogun
shotgun phase
sequence (par
celera genomics)
la et la finishing
finishing phase
phase.
Dans la shotgun phase, l’ADNg est fragmenté à
l’aide d’enzymes de restriction et placé dans un
milieu riche en ddNTP pour que l’extrémité de
chacun des fragments soient marquées.
Projet Génome humain
La deuxième phase du projet connue sous le nom de « Finishing Phase », consistait
à combler les zones grises qui n’avaient pas été correctement ou complètement
séquencées lors de la shotgun phase. Une séquence est considérée de « qualité » et
fiable s’il n’y a pas de vide d’un seul nucléotide dans un fragment de 10 000 bp.
zones grises représentant 0.3% de la séquence référence du génome
Klug et al., Concepts of Genetics, 2019.
Variation dans le génome humain
Comme le génome d’aucun individu en particulier n’a été séquencé mais bien des
portions génomiques de plusieurs donneurs anonymes, un autre problème d’envergure
a été soulevé : les SNPs. Ces variations de nucléotides simples dans les différents
génomes des personnes séquencées anonymement a posé un problème lors de
l’établissement de la séquence finale quand certaines régions comportaient plus de
variations nucléotidiques que d’autres. Au total, plus de 1,4 million de SNPs ont été
répertoriés.
Les microsatellites, les minisatellites et les macrosatellites sont d’autres marqueurs
moléculaires employés en génétique.
Répétitions en tandem
SNP vs microsatellite
Exemple d’application des séquences microsatellites
Vous trouverez ci-dessous le schéma d’un arbre généalogique pour une maladie (DLX),
et une représentation d'un gel montrant des fragments amplifiés par PCR détectant le
nombre de répétitions d’un microsatellite. L'ADN correspondant à chaque individu se
trouve directement en dessous de sa place dans l'arbre généalogique. Remplir l’arbre
généalogique en indiquant le sexe de l'individu ainsi que le phénotype (affecté vs non
affecté).
Plus de 40 répétitions du
microsatellite cause la
maladie.
Projet ENCODE
En 2003, peu de temps après la complétion du PGH, un consortium de chercheurs
entame le projet ENCODE (Encyclopedia of DNA Elements).
L’expression des gènes a été étudiée sur 147 types cellulaires distincts, le projet s’est
achevé en 2012 (288M$). Le projet a permis d’identifier que :
✓ Environ 80% du génome humain est fonctionnel (2% gènes et 78% d’ARN (les
séquences régulatrices sont également comprises dans ce %));
✓ > 21 000 gènes codant pour des protéines dans le génome humain;
✓ 11 224 pseudogènes
Sciences « omiques »
Les sciences « omiques » sont des sciences qui procèdent à l’analyse systématique du
cascade omique contenu du vivant.
* genomique: etude de l'ensemble de 'information
geneteique
Génomique : analyse de l’entièreté
*Transcriptomie: etude de l'ensemble des cellules
du génome;
analyse realisee pour sequencage
* Proteomique : etude de l'ensemble des proteines
d'une cellule
* Metabolomique; etude des metabolites
➢ Transcriptomique : analyse de
l’entièreté des transcrits;
➢ Protéomique : analyse de
l’entièreté des protéines;
➢ Métabolomique : analyse de
l’entièreté des métabolites.
Génomique comparative
En date de 2016, 21 000 génomes ont été séquencés (humain, organismes modèles,
virus, plantes, bactéries, etc.). Ce grand nombre de génomes connus permet de les
comparer afin d’identifier des similarités et des différences entre espèces, on parle
alors de génomique
g e n o m i q u e c o m pcomparative.
arative La génomique comparative a également permis
de mettre en évidence des éléments retrouvés dans les génomes eucaryotes et
absents des génomes bactériens :
Comparaison de la séquence du gène humain
PKLR avec les homologues de différentes espèces
✓ Densité de gènes ( 1 gene a chaq 1000/pb)
✓ Introns
✓ Séquences répétées
En phylogénétique,
✓ Homologie : gènes qui ont divergés à partir
d’une séquence commune.
✓ Orthologie : gènes qui ont divergé lors d’une
spéciation.
Klug et al., Concepts of Genetics, 2019.
Sciences « omiques »
Important !
Pour vous préparer à la première activité intégratrice qui vous sera remise la semaine
prochaine, exercez-vous avec la série d’exercices formatifs déposée sur Moodle.
Les T.P. des prochaines semaines vous aideront aussi à vous préparer à cette activité.