Introduction à la bioinformatique
structurale sous Linux
Karim Mezhoud
Ir. agronome
PhD. Toxicologie, Protéomique, Bioinformatique
Centre national des Sciences et Technologies Nucléaires
Sidi Thabet – Tunis
Master professionnel "Développement industriel des produits
de Santé" 1
Objectifs du module 25h
Découvrir et acquérir des outils qui permettent de
travailler sur la biologie structurale.
La biologie structurale est la science qui étudie la
structure des bio-molécules.
Les bio-molécules sont les molécules d'origine vivant:
protéines, substances bio-actives (Drugs).
Les outils sont un système d'exploitation, logiciels, bases
de données, sites web et langage informatique (bash).
2
Semaine du 5 Avril 25h = 3 x 8 + 1
2H + 2H
1 D. Surveillance (30%) + 1 D. synthèse (60%)
3
Prédiction de fonction
synthèse de
produit de Fonction
Fonction
santé
Bioinformatique Structure
structurale
Séquences
Survie de la Cellule
Génomique Transcriptomique Protéomique
ADN ARN AA
4
Interactomique Réactomique Biomolécule
Programme des Travaux Dirigés
1. Installation de système d'exploitation Linux
Exemple: Ubuntu
2. Recherche et manipulation des données biologiques
(séquences de protéines) sous l'environnement shell:
exemples
3. Principes d'alignement de séquences: exemples
4. De la séquence à la structure 3D: manipulation des
données structurales: exemples
5. Étude des voies de signalisations et des interactions
entre protéines: exemples
6. Docking et analyses des cibles moléculaires des
médicaments: exemples
5
Empirisme européen
Renaissance européen
grâce à l'empirisme
Avant:
Observation --> interprétation
Empirisme:
Expérimentation --> observation -->
interprétation
L'empirisme a
révolutionné la biologie
Histoire de la science
6
La génétique et l'héridité
Au cours du 20 ème siècle,
Mendel a démontré le principe
de l'hérédité
En 1930 la génétique
commençait a prendre de
l'ampleur et expliquer certaines
hypothèses établies auparavant
7
L'ADN
1961
Watson et Francis Crick
ont proposé pour la
première fois la structure
de l'ADN ensuite ils
établissaient de codage
génétique des 4 bases
nucléotides.
8
Séquençage des génomes
1984
9
Évolution de la recherche
Biologie
observation théorique
Biologie
empirisme
1 3 expérimentale
2
Données
hypothétiques
- Données
Biologiques
Vérification
expérimentale
10
Introduction à la bioinformatique
Cas de la drosophile sans yeux
Modèle animal: embryologie, génétique
Gène eyeless:
Inactivé (knock-out) → mouche sans
yeux
→ eyeless: rôle dans le devlp de l'œil
Chez les Humains:
Gène: aniridie
Inactivé → œil sans iris
Suffisamment Muté → œil sans iris
Drosophila melanogaster
Chez la Drosophile knock-out:
Insertion du gène aniridie
→ drosophile avec yeux normaux
→ Ressemblance entre eyeless et aniridie 11
1ère Partie: introduction générale
Cas de la drosophile sans yeux
Il y a 40 ans:
Recherche des similarités entre séquences d'ADN eyeless et aniridie se fait
manuellement avec un logiciel de traitement de texte
Temps considérable
Risque d'erreur
Effet néfaste pour la vue
Fin 1989:
Développement des programme informatique conçus pour comparer des
séquences ADN
Aujourd'hui:
Un biologiste peut trouver en quelques secondes des dizaines de
correspondances entre des séquences: alignement, analyse phylogénique,
identification des motifs...
12
Etiquettes dans les séquences des gènes
ADN ou protéine = codage unique par une
séquence de caractères = code-barre
Information codée: produit, fonction, rôle
métabolique
>gi|225639772|gb|FJ803732.1| Drosophila americana strain HI99.58 twin
of eyeless (Toy) gene, partial cds
GATACAGGCAATGCCCATACCAACTCCGAGAGCCCACCTTTGCAGGCCGTAGCACCCCGCCTACCCCTAA
ACTCTGGTTTCAACACAATGTACTCATCCATCCCGCAACCGATCGCAACCATGGCCGAAAGTTACAAGTA
AGTCTTCTAAGGTCTTCGGCGGCTAGCTAGGAGGCTAAAGAGAAAATTGTATCTAGGAAATTTCACTACC
CTAACGTTCTCAAACTCATTTCCAAAGATCTTTGCATATATATTTAAATTCCTACATAAGAACCTATTGA
TGACGTGATTTAACGTTCAACGATTAAAGAAAAGTTTCAAAATGGGGACGTGCTTCACACTTTTCGGTGG
AAAATGCGTACCCAAAGGTTGAATGGGCGTAGAGTTTGGGTGTGAGATCATTGGCAAAGATCTCTAAGAT
AATAAATTTGAAACGTGTTTCACACTTTTCGACAAACCCAACCCTTCTGGCGTGTAGTGGAGCCACAGGT
AGTTTCAAACTTCGTTTCAAAACCCGACATAAGAACTTAGTGAAAACGTTTTTCGCAACTGTGTAAATTT
GGCGGAAAATTAAAAACGAATCGGCTTCATACTGATTTTAAGAGGTCTTTGTGAAAATGTATTTGAGACA
TGTTTCACACTTTTCGGCAAATCCACCCCTCTTGGGCGATTTAATTAATTTATTTAATTAACAAAGATCT
CAAAAAATGTGACAAGTGTTAATTTTGTCTTTATTTTATTT 13
Compraison des séquences protéiques
correspondant aux gènes eyless et aniridie par
CLUSTAL
(*) Identique
(:) propriété
conservé
(acide, basique,
aromatique,
hydroxyl)
(.) semi
conservé
Étudier le gène eyeless = étudier le gène aniridie
14
http://www.ebi.ac.uk/Tools/clustalw2/
But de la Bioinformatique?
Interactions entre la technologie et la biologie
Expérimentations modèles
Séquence d'ADN
Organisations des Analyse
gènes de données Génétique
Séquençage de génomes statistique
et des génomes génomiques
Évolution moléculaire
Structure de la Protéomique
Prédiction de structure protéique,
protéine, Dynamique de la protéine, repliement
repliement, Et conformation de protéines
conformation
Voies métaboliques Génomique Standards de données,
Régulation Fonctionnelle Représentation des Modélisation des
Signaux Données et outils
(microarrays, analytiques pour les systèmes
Réseaux 2D-PAGE..) dynamiques
Données biologiques
Physiologie et complexes
Biologie cellulaire
Inter-espèces
Interaction Ecologie computationnelle
Ecologie
Écologie et
environnement
15
La première ére de l'information en biologie
La taxonomie fut le premier problème d'information traité en biologie
De nos jours, les biologistes ont atteint un point de surcharge d'information
sur les gènes.
Que représente la bioinformatique pour les biologistes:
1er volet stockage, distribution de données:
conception de formats de données
Schéma de bases de données
Développement d'outils d'interrogation des données
2ème volet: analyse des données collectées
Comparaison des séquences d'ADN ou protéines
Identification de fonction
Prédiction de structure de protéine
16
Une ère nouvelle dans la collecte de données
1990 – Internet: structure centrale d'information
Développement des moyens de
communication
Biologie Bioinformatique Informatique
Méthodes expérimentales progressent:
Séquençage du génome Humain....
La spectrométrie de masse
La cristallographie
La Résonance magnétique
nucléaire
17
Comment configurer son PC pour faire de la
bioinformatique?
Disponibilités sur le réseau (net)
1.Bases de données stockées dans des serveurs
(ordinateurs à grande capacité (processeurs..)
2.Les serveurs fonctionnent sous Unix: système
d'exploitation sans interface graphique
Moyens pour faire de la bioinfo
1.Utiliser un système d'exploitation équivalent
1.Profiter des outils de pointes en (bio)informtique
1.Installation des programmes
18
Quels sont les informations
et les logiciels disponibles?
Bases de données des informations biologiques
19
http://databases.biomedcentral.com/browsecatalog
Quels sont les informations
et les logiciels disponibles?
Liens utiles des programmes utiles en biologie
20
Pourquoi installer un programme
récupéré sur le web?
Une page web pourrait résoudre : la consultation
d'une base de données. Mais qu'en est-il de la
recherche des correspondances à partir de 10000
requêtes, et suite à cette recherche, du tri de
l'information afin de trouver des relations entre
résultats??
Objectif d'un logiciel :Traiter des volumes de
données considérables et de nature complexe.
21
Langage de programmation
The Perl Programming
Language
http://www.perl.org/
http://www.bioperl.org/wiki/
Python Programming
Language
http://www.python.org/
Biopython 22
2ème Partie: Installation d'un
programme chez Ubuntu
A partir de la Logithèque Ubuntu
23
2ème Partie: Installation d'un
programme chez Ubuntu
A partir du programme ajouter/supprimer
24
2ème Partie: Installation d'un
programme chez Ubuntu
A partir du programme Synaptic
25
2ème Partie: Installation d'un
programme chez Ubuntu
A partir de la ligne de commande ou le terminal
Sudo aptget install nompacket
Sous le format .deb disponible sur internet
Télécharger le fichier.deb
Double clic sur le fichier
26
2ème Partie: Installation d'un
programme chez Ubuntu
Installation manuelle des packets
27
Choisir Linux, debian, 32 bit
28
Télécharger le tar.gz
29
Décomprésser un dossier .tar
1- Double clic sur le dossier
2 avec la ligne de commande:
tar zxvf votre_archive.tar.gz si le
fichier est .tar.gz
tar xvf archive.tar si le fichier est .tar
Chercher le fichier README pour lire les
instructions
30
Fichier README de imageJ
31
Présence de fichier run en
couleur verte (excécutable)
Dans le fichier il y a commande suivante:
./jre/bin/java Xmx512m jar ij.jar
Càd qu'on peut excécuter directement
le programme en étant dans le
dossier ImageJ par la commande
suivante:
./run
32
2ème programme: PerlMol - Perl
Modules for Molecular Chemistry
33
Automated install of PerlMol
34
Exemple de programme
35
Exemple: conversion de fichiers
36