1
CHAPITRE 2. DONNÉES CLINIQUES
● Données : sont des symboles ou des observations reflétant les différences
dans le monde. (ex. 5).
● Information : ce sont des données qui ont du sens. (Si on ajoutait le mot «
doigts » au numéro 5. « 5 doigts », maintenant cela a un sens).
● Connaissance : il s'agit d'informations que l'on peut légitimement considérer
comme vraies. (L'élévation du taux de glycémie à jeun augmente le risque de
diabète. Les fumeurs sont plus susceptibles de développer un cancer du
poumon que les non-fumeurs).
● Sagesse : c'est l'utilisation critique des connaissances pour prendre des
décisions intelligentes.
Les bits peuvent se présenter sous différents types de données :
● Chaque zéro ou un est un bit, chaque 8 bits équivaut à un octet.
● Integers (nombres entiers, ex: 14).
● Floating point numbers (les decimaux).
● Characters (A - Z).
● Character strings (ex: words).
● Notez que ces types de données ne définissent pas la signification. Un
ordinateur ne “sait” pas si 3,1415 est un nombre aléatoire ou le rapport entre
la circonférence et le diamètre d’un cercle (connu sous le nom de Pi ou π).
2
Le format de fichiers:
Les données sont agrégées dans de nombreux formats de fichiers, ce qui rend le
partage de fichiers possible.
● fichiers image (JPG, GIF, PNG)
● fichiers texte
● fichiers son (WAV, MP3)
● fichiers vidéo (WMV, MP4)
Les formats de fichiers courants ou standardisés permettent le partage de fichiers
entre ordinateurs et entre applications. Par exemple, tant que votre appareil photo
numérique stocke les photos sous forme de fichiers JPG, vous pouvez utiliser
n'importe quel programme capable de lire les fichiers JPG pour visualiser vos
photos.
N.B: Il est important de reconnaître que ni les types de données ni les formats de
fichiers ne définissent la signification des données.
Types de données cliniques
Narratif Mesures numériques Données codées
enregistrement par le tension artérielle, sélection à partir d'un
clinicien des antécédents température, taux de système terminologique
de maternité glucose, rythme contrôlé, tout ce qui
cardiaque. possède un menu
déroulant.
Données textuelles Signaux enregistrés Des images
autres résultats rapportés ECG, EEG radiographies,
sous forme de texte photographies et autres
images
3
Catégories générales de saisie de données:
● Entrée libre par méthodes historiques :
○ Écriture
○ Dictée
○ Saisie
● Saisie de données structurées (pilotées par menu) à l'aide de la souris ou du
stylet.
● Reconnaissance vocale pour l'un ou l'autre des éléments ci-dessus.
Informatique Appliquée et Sciences Informatiques
● Quel est le domaine des Sciences Informatiques? LES DONNÉES ! (Sans
signification)
● Quel est le domaine de l'Informatique Appliquée? L'information.
(Significatif)
● Les données sont le domaine des informaticiens et des techniciens des
technologies de l’information, mais l'information est le domaine de
l'informatique appliquée et de ses praticiens. (La signification des données
est d’une importance secondaire pour les informaticiens).
○ On peut donc dire que la science informatique traite de données
dénuées de sens.
● Récupération de l'information: implique à la fois les sciences informatiques
(données) et l'informatique appliquée (informations).
○ La recherche d'informations est définie comme la recherche de
matériel (généralement des documents) de nature non structurée
(généralement du texte) qui satisfait un besoin d'information en
récupérant des documents à partir de grandes collections
(généralement stockées sur des ordinateurs).
4
○ Exemple de tâche de recherche d'informations : trouver la relation
entre les crises cardiaques et l'aspirine > tous les enregistrements
seront récupérés.
Intelligence Artificielle
● L’IA s’intéresse au développement de systèmes capables de réaliser quelque
chose qui nécessitait auparavant l’intelligence humaine.
● Exemple en médecine : catégorisation des lésions cutanées du derme. Ce
système a été développé par l'université de Stanford et il permet de classer
les images de lésions cutanées bénignes et malignes. Cela se fait en
entraînant le système. De grands ensembles de données (images) sont insérés
avec des étiquettes (bénignes, malignes,...). Ensuite, des ensembles de
données (images) sont ajoutés sans étiquette. Le système essaie d'apprendre
à pouvoir identifier les lésions.
● Limites:
○ Il faut de grands ensembles de données étiquetées pour former le
système.
○ Ne peut justifier le jugement (pourquoi a-t-il classé cette image
comme bénigne?).
Des données à l'information
● Exemple: “C34.9” (données) → Vocabulaire (ICD-10-CM) → “Tumeur
pulmonaire, sans autre spécification.” → Interopérabilité.
● Explication:
○ C34.9 est le code informatique pour le cancer du poumon. Cependant,
cette donnée n'a aucun sens si nous ne la lions pas à un vocabulaire
connu. L'ordinateur ne stocke toujours que des données, pas des
informations
○ ICD-CM: Classification Internationale des Maladies, 10 est la
version.
5
○ Interopérabilité: Capacité de deux ou plusieurs systèmes ou
composants à échanger des informations et à utiliser les informations
qui ont été échangées. (ex : dossier médical de l'hôpital A, envoie des
informations à un dossier médical de l'hôpital B sans perdre ces
informations).
De l'information à la connaissance
Deux types de données:
● Texte non structuré (texte libre) comme les résumés de sortie ou les
rapports de pathologie (langage humain simple, ex: antécédents).
● Les données structurées peuvent inclure des codes de facturation, des
résultats de laboratoire (par exemple, sodium = 140 mg/dl), (à partir de
menus déroulants tels que; codes de facturation, résultats de laboratoire, nids
de problèmes et nids de médicaments).
Avantages et désavantages:
Prenons par ex la récupération de tous les dossiers médicaux des patients qui sont
dans le système ICD-10-CM et qui ont la même maladie comme le cancer du sein.
Données structurées Non structuré
Avantages Beaucoup plus facile à gérer. capable d'exprimer n'importe quoi
Désavantages peut ne pas refléter avec peut être difficile à transmettre
précision la réalité clinique avec un vocabulaire “taille
unique”
6
Entrepôt de données cliniques
Une façon moderne de convertir les informations médicales en connaissances est
d’utiliser un entrepôt de données cliniques (CDW).
un système de base de données qui collecte, intègre et stocke des
Définition données cliniques provenant de diverses sources, notamment les
dossiers de santé électroniques (DSE), la radiologie et d'autres
systèmes d'information.
Mise en le processus de nettoyage des données de toutes valeurs
scène incorrectes ou manquantes.
Méta-data Exemple de “données sur les données”: CIM-10-CM
● DSE: ce sont des systèmes mis en œuvre dans les hôpitaux
qui se concentrent sur les données individuelles d'un patient.
Différence ○ Répond aux mises à jour en temps réel concernant les
entre données des patients
EHR&CDW
● CDW: prend en charge de nombreux DSE, se concentre sur
les requêtes de groupe.
○ La mise à jour des informations dépend de la fréquence
de leur mise à jour (mensuelle, hebdomadaire,...).
Contrairement aux DSE, ils sont conçus pour prendre
en charge la mise à jour et la récupération en temps réel
des données individuelles.
Usages
● Si vous souhaitez récupérer toutes les femmes de 40 ans ou plus,
qu'utiliserez-vous?
● Qualité contrôle en permettant aux utilisateurs d'interroger des mesures de
qualité spécifiques.
○ Par exemple, récupérer toutes les femmes de 40 ans ou plus qui n'ont
pas passé de mammographie au cours de l'année écoulée
7
● Identifier les tendances.
● Recherche comparative efficace (CER).
○ Le traitement A est-il meilleur que le traitement B? Nous pouvons
répondre à cette question en recherchant le pronostic des personnes
qui ont été traitées avec les deux dans le système.
Utilisation des données cliniques agrégées
● Extraction de concepts: le problème d'identification de concepts au sein de
données non structurées, telles que des résumés de sortie ou des rapports de
pathologie.
○ Habituellement, ces concepts sont associés à un vocabulaire contrôlé.
● Classification: problème de catégorisation des données en deux ou plusieurs
catégories.
○ Machine d'apprentissage supervisé
Qu’est-ce qui rend l’informatique biomédicale difficile?
● Information incomplète.
○ Par exemple, un patient inconscient aux urgences, nous ne
connaissons pas son histoire passée.
● Informations incertaines.
○ Nous ne pouvons estimer la réponse qu’à l’aide de statistiques.
● Informations imprécises.
○ Par exemple, “pneumonie”. Il faut en savoir plus. Virale?
Bactérienne?
● Informations vagues.
○ Par exemple, grand, costaud, âgé.
8
● Informations incohérentes.
○ Ex: Date de naissance: 29/08/66 et 17/09/66.
● Comme l'illustre l'exemple, toutes ces imperfections peuvent se retrouver
dans les soins de santé. Et les humains peuvent les gérer, mais pas les
ordinateurs.
● Réponse: “écart sémantique” entre les données et les informations.
Big Data
● Définition: La collecte de grandes quantités de données provenant de
diverses fondations de soins de santé, suivie du stockage, de la gestion, de
l'analyse, de la visualisation et de la diffusion d'informations pour une prise
de décision efficace.
● Les six V du big data:
● Volume: grande quantité de données produites par l'organisation.
● Variété: de nombreuses sources sous différents formats contribuent au
big data.
○ Organisé (données structurées: données de laboratoire, données
de capteurs, données de bases de données).
○ Semi-organisé: une combinaison d’éléments organisés et non
organisés (ex : données de sites Web et dossiers médicaux).
○ Non organisés “les plus courants” (ex: données des médias
sociaux, dossiers médicaux qui n’utilisent pas de terminologie
médicale).
● Vitesse: fréquence massive pendant les détails actuels créés, fournis et
gérés.
9
● Véracité: fait référence à l’exactitude de ces données si elles sont
exactes ou valides (ex : dans les big data, la véracité est généralement
faible par rapport aux autres bases de données).
● Variabilité: les données sont fluctuantes, modifiables, les lignes
directrices sont également modifiables et peuvent être mises à jour, de
sorte que les données peuvent changer au cours de la vie.
● Valeur: méthodes permettant d’extraire des informations précieuses à
partir de ces données (analyse de big data).