Institut Supérieur des Langues Appliquées
et Informatique de Béjà
Chapitre II. Le son
1ère année IOT
Présenté par: Dr. Wafa REKIK
2022-2023
1
Plan
• Généralités sur le son
[Link]
• Production et perception de la parole.
• Traitement automatique d’un signal de parole
2
Généralités sur le son
3
Qu’est ce qu’un son?
• Une onde sonore est une vibration des molécules
autour de leur position d'équilibre (ou état de
repos) qui se propage à la suite de la perturbation
du milieu, le plus souvent l'air, mais qui peut aussi
être solide ou liquide.
• Captée par notre oreille, cette vibration met en
mouvement le tympan, point de départ de la
stimulation de l'oreille et de la perception de
l’information sonore.
• Ex: musique, parole, cris des animaux…
4
5
Quelques sons courants
• Notre environnement est composé d'une
grande variété de sons plus ou moins
fréquents : quatre exemples sont présentés ici.
6
7
8
Caractéristiques d’un son: Fréquence,
intensité, durée
• La fréquence: correspond au nombre de vibrations
par seconde. Fréquence faible -> un son grave;
fréquence importante-> un son aigu.
• L’intensité dépend de l’amplitude de la vibration :
plus elle est importante, plus le son est fort ; plus
l’amplitude est faible, plus le son est faible. On
l’exprime couramment en décibel (dB).
• La durée dépend du temps pendant lequel le
milieu est perturbé. L’unité utilisée est la
seconde(s).
9
10
Production et perception de la
parole
11
Appareil phonatoire
• La production de la parole est une action
volontaire et coordonnée des muscles du
système articulaire. Cet acte passe par la
production d’un souffle, vibrer les cordes
vocales et finalement modeler et faire
résonner des vibrations.
12
Appareil phonatoire chez l’homme
13
Production du son
• En physiologie, la parole peut être définie par une
séquence de sons reflétant une succession d’états
de l’appareil phonatoire
• les poumons produisent l’énergie nécessaire à la
création du son en poussant l’aire vers la trachée
pour vibrer les cordes vocales au niveau du larynx
et sortir par l’une des cavités (pharynx, bouche,
nez) tout en tenant compte de leurs positions,
formes, taille et leurs mécanismes d’occlusions
(fermetures).
14
Production du son
15
Types de sons produits
• Les sons (phonèmes) produits par l’appareil
phonatoire peuvent être classés en deux
grandes catégories les voyelles et les
consonnes. La production de ces phonèmes
dépend essentiellement de l’état de l’appareil
phonatoire.
16
Les voyelles
• Les voyelles sont produites lorsque les conduites
vocales sont libres. L’air fait vibrer les cordes vocales
(son voisé). La forme des cavités (essentiellement la
bouche) définit le timbre du son. Les voyelles
peuvent être soit orales soit nasales (si le nez ouvert
en parallèle avec la bouche).
Les consonnes
• La production d’une consonne exige un
rétrécissement de l’appareil phonatoire. Bien sure
les consonnes peuvent être nasales et soit voisées
ou non voisées. 17
Perception de la parole
18
Le système auditif humain
19
L’oreille capte le son par le pavillon qui permet l’amplification des
ondes sonores captées et les dirigent via le conduit auditif vers le
Tympan.
Le Tympan transforme l’énergie acoustique des ondes sonores en
une énergie mécanique qui sera traitée dans l’oreille moyenne.
La vibration du tympan entraine un mouvement des trois petits
osselets (Marteau, Enclume, Etrier). Ces osselets permettent
l’amplification du signal reçu et l’envoi vers l’oreille interne.
La trompe d’Eustache permet la ventilation des osselets pour
garantir un bon fonctionnement de l’oreille moyenne.
L’oreille interne est composée essentiellement de la cochlée et du
nerf auditif. La Cochlée transforme l'énergie acoustique transmise
par les osselets en influx nerveux qui est acheminé jusqu'au
cerveau par le nerf auditif. 20
Plage de fréquences audibles
La plage des fréquences audibles par l’oreille est
20Hz à 20KHz. Cette plage dépend de la réalité
psycho-acoustique de l’homme. En effet avec l’âge la
perception auditive ne peut pas dépasser chez
certains âgés les 8000 Hz.
Le son est caractérisé par :
La hauteur : aigu/grave
Le volume : intensité sonore
Le timbre : qualité de la sensation auditive qui
différentie deux sons de même hauteur et de
même volume.
21
Propriétés temporelles et
fréquentielles de la parole
22
Audiogramme
l’évolution temporelle du signal vocal
amplitude (dB) en fct du temps
Assez périodique
son voisé
Fortement bruitée
Son non-voisé
Audiogramme
Son voisé
nt
me
se
di s
ran
ag
rès
Son non-voisé
Ap
Transformée de Fourier
Domaine temporel Transformée de Fourier Domaine Fréquentiel
Discrète numérique
Transformée de Fourier : Continue analogique
T. F. :
T. F.-1 :
Transformée de Fourier à court terme
Application de la TF sur des petites périodes 30
ms
échantillons généralement pondérée par la
fenêtre de Hamming suivie de TF
0.8
0.6
0.4
0.2
0 200 400 600 800 1000
Transformée de Fourier à court terme
« enveloppe spectrale » forme générale
« formants » Pics résonnances
« anti-formant » creux anti-raisonnaces
«a» « ch»
L’évolution temporelle de la fréquence centrale + formants +
anti-formant
Timbre du son
Transformée de Fourier à court terme
« ch»
«a»
So So
vo n vo n n
i sé isé on
-
Succession de pics Le spectre n’admet pas
Frq centrale des pics = x frq fnd. une structure particulière
Signal une enveloppe spectrale
Enveloppe spectral passe bas une accentuation vers les
un formant / KHz hautes fréquences
3 ou 4 premiers formant
contribuent au timbre du son
Sons voisés
Les sons voisés sont constitués d’harmoniques (Leurs
fréquences sont multiples du fondamental).
La période des harmoniques est un sous multiple de T
(période fondamentale).
La fréquence du fondamental (1ère harmonique)
définit la fréquence de son.
En effet, l’addition d’harmoniques au fondamental
n’altère pas sa fréquence. Elles ne font que “rajouter
des oscillations” sans affecter la périodicité.
Plus l’on rajoute d’harmoniques, plus l’on enrichit le
timbre du son.
30
31
Spectre d’un son harmonique
Spectre : Graphique représentant l’amplitude (en
dB) des différentes harmoniques.
Le fondamental (f1) correspond au pic à la plus
basse fréquence.
Les autres pics apparaissant sont les harmoniques.
L’amplitude des harmoniques tend à décroitre
jusqu’à devenir nulle.
Timbre ⇔ Richesse en harmoniques
Hauteur ⇔ Fréquence du fondamental 32
Spectre du Do (C) de la 6ème octave (1046 Hz) d’un piano joué
fortissimo (ff) et pianissimo (pp).
Le fortissimo a un timbre plus riche que le pianissimo.
Les pics correspondant à la 2eme, 3eme, 4eme et 5eme
harmonique sont aux fréquences : 2092 Hz, 3138 Hz, 4184 Hz et
5230 Hz. 33
Formants
34
Spectrogramme
Le spectrogramme représente l’évolution au cours du temps du
spectre du signal:
Temps Abscisses
Fréquences ordonnées
L’amplitude niveaux de gris (noir: intense)
Les spectrogrammes peuvent être
à large bande fenêtre de pondération faible de durée 10ms-
> Grande précision sur les amplitudes, moins précis en
fréquence.
à bande étroite durée de 30 ms par exemple-> Grande
précision sur les fréquences, les amplitudes sont nivelées.
36
La fréquence fondamentale
Elle varie entre:
70Hz et 250 Hz chez les hommes
150 Hz à 400 Hz chez les femmes
200Hz à 600Hz chez les enfants.
37