ANALYSE ACOUSTIQUE DE SONS BIEN IDENTIFIÉS PAR UN SYSTEME DE RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.35 MB, 82 trang )

Institut de la Francophonie pour l’Informatique
INRIA de Lorrain - LORIA

MÉMOIRE DE FIN D’ÉTUDES

ANALYSE ACOUSTIQUE DE SONS BIEN
IDENTIFIÉS PAR UN SYSTEME DE
RECONNAISSANCE AUTOMATIQUE DE
LA PAROLE

Lieu :

Laboratoire Lorrain en Informatique et ses Applications
615, rue du Jarbin Botanique
54600 Villers-lès-nancy, France

Date :

2 avril 2007 – 30 septembre 2007

Par LE Manh Tuan
Encadrants : Anne BONNEAU et Martine CADOT

Remerciements
Tout d’abord, je tiens à remercier M. Yves Laprie de m’avoir accueilli pendant mes 6 mois
dans son équipe. Je remercie également mes deux encadrantes, Mme Anne Bonneau et Mme
Martine Cadot, qui m’ont donné la direction, les conseils et les explications utiles pour mon
stage.
Je tiens à remercier Farid Feiz et Blaise Potard, thésards dans l’équipe Parole, pour leur aide
dans la préparation des logiciels nécessaires et de l’environnement de travail

Je voudrais aussi exprimer ma gratitude pour mes collègues de bureau, Aminata POUYE et
Julie BUSSET, qui ont contribué au bon déroulement de mon travail
Enfin, un grand merci à mes collègues à LORIA, mes amis à Nancy pour leurs sentiments,
leurs soutiens et leurs encouragements pendant le temps de mon stage.
Un grand merci à tous !
LE Manh Tuan

2 / 82

Résumé
Ce sujet procède de la motivation de rechercher des sons qui sont bien réalisés acoustiquement,
afin de les renforcer et d’améliorer l’intelligibilité de la parole. Il concerne plus particulièrement
l’analyse acoustique des sons reconnus par un système de reconnaissance automatique de la
parole (RAP) destiné à rechercher des sons bien prononcés.
Basé sur un système de RAP destiné à détecter les belles réalisations acoustiques d'un son d'un
point de vue acoustique, l’objectif de ce stage est d’analyser les sorties de ce système pour
vérifier si les sons reconnus par ce système possèdent ou non des indices acoustiques
discriminants (c.-à-d. des indices qui permettent de les distinguer aisément des autres sons). Dans
le cadre du stage, notre travail se concentre sur l’analyse des indices acoustiques des consonnes
occlusives. Ces consonnes sont étudiées dans des contextes différents des voyelles.
Le résultat de cette étude montre qu’il y a des différences entre les sons bien identifiés et les sons
mal identifiés. Les consonnes qui sont bien identifiées ont tendance à être dans une zone de
moindre confusion entre les classes, tandis que les consonnes qui sont mal identifiées sont
principalement situées dans une région de grande confusion entre les classes.
Il existe aussi des zones indices acoustiques qui permettent de bien distinguer les consonnes bien
identifiées et les consonnes mal identifiées. Cependant, ces zones ne sont pas claires et elles
dépendent du contexte vocalique.
Mots-clés : analyse d’indice acoustique, son bien identifié, son mal identifiés, fréquence,
émergence, proéminence, durée du bruit, qualité, occupation.

3 / 82

Abstract
This subject proceeds of the motivation to detect sounds which are well-realized acoustically, in
order to reinforce them and to improve the intelligibility of speech. It more particularly relates to
the acoustic analysis of the sounds recognized by a automatic speech recognition system (ASR)
intended to find out well-realized sounds.
Based on a ASR system intended to detect the good acoustic realizations of a sound from an
acoustic point of view, the object of our training course is to analyze the exits of this system to
check if the sounds recognized by this system have or not discriminating acoustic indices (it
mean : the indices which make it possible to easily distinguish them from the other sounds).
According to the scope of the training course, our work concentrates on the analysis of the
acoustic indices of the occlusive consonants. These consonants are studied in contexts different
of the vowels.
The result of this study shows that there are differences between the well-realized sounds and
badly-realized sounds. The consonants which are well-realized have tendency to be in a zone of
less confusion between the classes, while the consonants which are badly-realized are mainly
located in an area of great confusion between the classes.
There are also acoustic zones indices which make it possible to distinguish the well-realized
consonants well and the badly-realized consonants. However, these zones are not clear and they
depend on the context of vowel.
Keywords : analyze acoustic index, well-realized, badly-realized, frequency, emergence,
prominence, duration of the noise, quality, occupation.

4 / 82

Table des matières

Remerciements .............................................................................................................................. 2
Résumé ........................................................................................................................................... 3
Abstract.......................................................................................................................................... 4
Table des matières......................................................................................................................... 5
Liste des figures............................................................................................................................. 7
Liste des tables............................................................................................................................... 8
CHAPITRE 1.
INTRODUCTION......................................................................................... 9
1.1. Présentation de l’environnement de travail..................................................................... 9
1.1.1.
Introduction du LORIA ........................................................................................... 9
1.1.2.
Équipe Parole et leurs projets .............................................................................. 10
1.1.3.
Environnement de travail...................................................................................... 11
1.2. Introduction du stage..................................................................................................... 12
1.3. Organisation du rapport ................................................................................................ 13
CHAPITRE 2.
LA PAROLE ............................................................................................... 14
2.1. Qu’est ce que c’est la parole ? ...................................................................................... 14
2.2. Production de la parole ................................................................................................. 15
2.3. Caractéristiques phonétiques ....................................................................................... 17
2.3.1.
Phonème................................................................................................................ 17
2.3.2.
Voyelles ................................................................................................................. 17
2.3.3.
Consonnes ............................................................................................................. 19
2.4. Lecture de spectrogramme............................................................................................ 20
2.4.1.

Spectrogramme ..................................................................................................... 20
2.4.2.
Lecture de spectrogramme.................................................................................... 21
2.4.3.
Exemple de lecture de spectrogramme ................................................................. 22
CHAPITRE 3.
INDICES ACOUSTIQUES........................................................................ 26
3.1. Introduction de l’indice acoustique............................................................................... 26
3.2. Indices du burst ............................................................................................................. 27
3.2.1.
Fréquence et émergence du burst ......................................................................... 28
3.2.2.
La compacité spectrale ......................................................................................... 29
3.2.3.
La durée du bruit .................................................................................................. 30
3.3. Indices de transition ...................................................................................................... 30
3.3.1.
Les transitions labiales ......................................................................................... 31
3.3.2.
Les transitions dentales......................................................................................... 31
3.3.3.
Les transitions plato-vélaires................................................................................ 32

5 / 82

CHAPITRE 4.
CONTEXTE DU STAGE........................................................................... 33
4.1. Présentation de Snorri ................................................................................................... 33
4.2. Présentation de WinSnoori ........................................................................................... 34

4.3. Contexte du stage.......................................................................................................... 35
CHAPITRE 5.
ANALYSE EXPERIMENTAL.................................................................. 38
5.1. Objectif ......................................................................................................................... 38
5.2. Hypothèses.................................................................................................................... 39
5.3. Protocole expérimental ................................................................................................. 39
5.3.1.
Corpus................................................................................................................... 39
5.3.2.
Acquisition des indices.......................................................................................... 40
5.3.3.
Analyse acoustique................................................................................................ 46
5.4. Analyse des indices acoustiques ................................................................................... 49
5.4.1.
Objectif.................................................................................................................. 49
5.4.2.
Expérimentation.................................................................................................... 50
5.4.3.
Discussion ............................................................................................................. 50
CHAPITRE 6.
CONCLUSION ET PERSPECTIVE ........................................................ 64
6.1. Conclusion .................................................................................................................... 64
6.2. Perspectives................................................................................................................... 64
Références .................................................................................................................................... 66
Annexe 1. Code Source ............................................................................................................... 67
Annexe 2. Les plans des indices ................................................................................................. 71

6 / 82

Liste des figures
Figure 1.
Figure 2.
Figure 3.
Figure 4.
Figure 5.
Figure 6.
Figure 7.

Appareil phonatoire [3] ............................................................................................ 15
Modèle mécanique de production de la parole......................................................... 16
Exemple de son voisé (haut) et non – voisé (bas) ..................................................... 17
Triangle vocalique pour le français.......................................................................... 18
Spectre de ‘my speech’.............................................................................................. 21
Un exemple de la lecture du spectrogramme [12].................................................... 23
Analyse du burst de la syllabe /ko/ ........................................................................... 28

Figure 8.
Figure 9.

La transition des formants ........................................................................................ 31
Présentation de l’interface de Snorri........................................................................ 34

Figure 10. Présentation de l’interface de Winsnoori ................................................................. 34
Figure 11. Les étapes de l’apprentissage « Élitiste »................................................................. 36
Figure 12. Exemple de description d’un triplet.......................................................................... 40
Figure 13. Le processus d’acquisition des indices ..................................................................... 43
Figure 14. Distribution des sons selon la fréquence du burst (contexte antérieur) ................... 53
Figure 15. Distribution des sons selon la fréquence et l’émergence (contexte antérieur)......... 54
Figure 16. Distribution des sons selon la fréquence et la durée (contexte antérieur) ............... 55

Figure 17. Distribution des sons selon la fréquence et la qualité (contexte antérieur) ............. 56
Figure 18. Distribution des sons selon la fréquence et l’émergence adaptée aux vélaires et aux
dentales (contexte antérieur) ........................................................................................................ 57
Figure 19. Distribution des sons selon la fréquence du burst (contexte central)....................... 60
Figure 20. Distribution des sons selon la fréquence et l’émergence (contexte central) ............ 60

7 / 82

Liste des tables
Table 1. Les phonèmes du français............................................................................................... 14
Table 2. La classification des phonème du français en traits distinctifs ...................................... 20
Table 3. Comptage de confusion pour contexte antérieur (émergence normale)......................... 50
Table 4. Comptage de confusion pour contexte antérieur (émergence adaptée aux vélaires et aux
dentale)
52
Table 5. Comptage de confusion pour contexte central (émergence normale) ............................ 58
Table 6. Comptage de confusion pour contexte central (émergence adaptée aux vélaires et aux
dentales)
59
Table 7. Comptage de confusion pour contexte arrondi (émergence normale) ........................... 61
Table 8. Comptage de confusion pour contexte arrondi (émergence adaptée aux vélaires et aux
dentales)
62
Table 9. Comptage de confusion pour contexte postérieur (émergence normale) ....................... 63
Table 10. Comptage de confusion pour contexte postérieur (émergence adaptée aux vélaires et
aux dentales) ................................................................................................................................. 63

8 / 82

CHAPITRE 1. INTRODUCTION
Ce stage a été réalisé au LORIA (Laboratoire Lorrain de Recherche en Informatique et
ses Applications) à Nancy, France, du 2 avril au 30 septembre 2007, au sein de l’équipe
PAROLE. Dans le premier chapitre nous ferons tout d’abord une petite présentation du
laboratoire LORIA et de l’équipe PAROLE ainsi que l’environnement de travail. Puis nous
ferons une introduction concernant le stage et l’objectif de notre travail.

1.1.

Présentation de l’environnement de travail

1.1.1. Introduction du LORIA
Le Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), est
une unité mixte de recherche (UMR 7503) commune à plusieurs établissements:
•

CNRS, Centre National de Recherche Scientifique

•

INPL, Institut National Polytechnique de Lorraine

•

INRIA, Institut National de Recherche en Informatique et en Automatique

•

UHP, Université Henri Poincaré, Nancy 1

•

Université Nancy 2

La signature, le 19 décembre 1997, du contrat quadriennal avec le Ministère de
l’Education Nationale, de la Recherche et de la Technologie et par une convention entre les cinq
partenaires a officialisé la création de cette unité de recherche. Cette unité a été renouvelée en
2001.
Elle succède ainsi au CRIN (Centre de Recherche en Informatique de Nancy), et associe
les équipes communes entre celui-ci et l’unité de Recherche INRIA Lorraine. Le LORIA est
situé sur le campus de la faculté des sciences de Nancy.
Depuis février 2007, Karl Tombre est le directeur du LORIA et de L’INRIA.
Le LORIA est un laboratoire de plus de 450 personnes parmi lesquelles :
•

150 chercheurs et enseignants-chercheurs

•

un tiers de doctorants et post doctorants
9 / 82

•

des ingénieurs, techniciens et personnels administratifs

Organisé en équipes de recherche et services de soutien à la recherche.
C'est aussi chaque année

•

une trentaine de chercheurs étrangers invités

•

des coopérations internationales avec des pays des cinq continents

•

une quarantaine de contrats industriels

Ces personnels sont répartis en 27 équipes de recherche et en services d’aide à la
recherche. Chaque équipe rassemble des chercheurs, des doctorants et des assistants techniques
ou administratifs, pour la réalisation d’un projet de recherche.
Les missions principales du LORIA :
•

Recherche fondamentale et appliquée au niveau international dans le domaine des
Sciences et Technologies de l'Information et de la Communication

•

Formation par la recherche en partenariat avec les Universités lorraines

•

Transfert technologique par le biais de partenariats industriels et par l'aide à la
création d'entreprises

1.1.2. Équipe Parole et leurs projets
Ce stage s’est déroulé dans l’équipe PAROLE dirigée par Yves Laprie. L’équipe a pour
thème de recherche « Analyse, Perception et Reconnaissance automatique de la parole » (Projet
INRIA-LORIA).
Le thème de recherche de l’équipe Parole est l’étude de la communication parlée et
recouvre un vaste spectre d’activités qui comprend l’étude de la perception humaine des indices
acoustiques, l’analyse de la parole et la reconnaissance automatique. Ces travaux s’inscrivent
dans la perspective de construire des interfaces vocales efficaces dans des systèmes embarqués et
multimodaux.
Les activités de recherche de l’équipe Parole sont divisées en deux thèmes :
•

Analyse de la parole. Ce thème concerne l’analyse et la perception du signal
acoustique, l’étude de l’inversion acoustico-articulatoire et l’analyse de la parole.

10 / 82

Ce thème permet le développement de nombreuses applications dans les domaines
de la thérapie de réhabilitation vocale, dans l’amélioration des aides auditives et
dans l’apprentissage des langues.
•

Modélisation de la parole pour la reconnaissance automatique. Ce thème
concerne l’étude des modèles stochastiques, des modèles de langage et des
modèles multibandes. Ce thème permet le développement de nombreuses
applications dans les domaines de la reconnaissance automatique de la parole,
dans la dictée automatique, dans l’alignement texte-parole et dans la classification
des divers signaux de la parole.

En outre, l’équipe a développé de bonnes relations scientifiques et industrielles comme :
•

Participation aux projets européens TIDE (Projet ISAEUS) et Telematics (Projet
VODIS)

•

Collaborations régionales avec l’hôpital central, le PES (Pôle Européen de Santé)

•

Coopération avec les universités de Tunis, Bruxelles (ULB), CMU, STL (Speech
Transmission Laboratory)

1.1.3. Environnement de travail
Ce stage a été réalisé au sein de l’équipe Parole. Nous avons utilisé des outils et
l’environnement commun de l’équipe.
L’environnement de travail s’effectue sous Windows XP et Linux. Afin de se connecter
et d’utiliser les programmes de Linux à partir de Windows, nous avons utilisé les logiciels :
putty et WinSCP pour se connecter à Linux et XWin pour fonctionner le logiciel Snorri sous
Windows (Snorri est un logiciel de traitement de la parole qui fonctionne sous Linux)
La programmation s’effectue en langage C et C++, les programmes sont développés en
langage C++ et après ils sont rattachés à Snorri et ils fonctionnent comme des fonctions de
Snorri
La gestion du code source est effectuée par le logiciel CVS (Concurrent Versions
System). C’est un logiciel libre de gestion des versions et il est utilisé dans l’équipe pour gérer
les codes sources. Il permet de surveiller toutes les modifications apportées par tous les membres
de l’équipe. Pour notre travail, nous avons fait une copie du code source dans un répertoire, et

11 / 82

toutes les modifications nécessaires sont effectuées dans ce répertoire. Cela a pour but de ne pas
influencer sur les autres membres de l’équipe.
Les logiciels de traitement de la parole utilisés dans ce travail sont Snorri (un logiciel
fonctionnant sous Linux) et Winsnoori (la version Windows de Snorri)
Les statistiques des données s’effectuent à l’aide du le logiciel Microsoft Excel

1.2.

Introduction du stage

Notre sujet procède de la motivation de rechercher des sons qui sont bien réalisés
acoustiquement, dans le but d’améliorer l’intelligibilité de la parole. Il concerne plus
particulièrement l’analyse acoustique des sons de la sortie d’un système de reconnaissance
automatiquement de la parole destiné à rechercher des sons bien prononcés
L’objectif de ce stage est de vérifier si les sorties de ce système correspondent à des
belles réalisations d'un point de vue acoustique, et de vérifier s’ils possèdent des indices
acoustiques discriminants (c.-à-d. ; des indices qui permettent de les distinguer aisément des
autres sons)
Ce travail est donc divisé en deux parties : la partie théorique et la partie pratique
En ce qui concerne la partie théorique, nous avons étudié les théories nécessaires
concernant notre travail : la parole et la production de la parole, le traitement de la parole, la
reconnaissance de la parole, les caractéristiques et les indices acoustiques de sons de la parole.
Nous avons également lu de nombreux articles et livres qui nous ont servi à mieux comprendre
les problèmes concernant notre travail.
En ce qui concerne la partie pratique, nous avons débuté par l’étude des sons qui sont
reconnus par un système de reconnaissance automatique de la parole. Cette étude a pour but
d’étudier les contextes et les caractéristiques des sons qui sont utilisés pour faire le corpus.

Ensuite, basé sur un système de codage et de traitement de la parole, nous avons modifié et
ajouté des fonctions qui permettent d’extraire des indices acoustiques d’un son. Ces fonctions
sont développées en langage C++. Et puis, nous avons utilisé ces fonctions pour calculer les
indices acoustiques des sons qui sont bien identifiés et des sons qui sont mal identifiés par ce
système. Enfin, à partir des indices acquis, nous avons fait des statistiques et donné des résultats
sur la comparaison entre les différentes types des sons.

12 / 82

1.3.

Organisation du rapport

Ce rapport introduit les connaissances acquises sur l’étude de la parole que nous avons
réalisé au LORIA dans le cadre de ce stage. Le contenu principal du rapport concerne les
théories de traitement de la parole, les caractéristiques phonétiques, les indices acoustiques des
voyelles et des consonnes, et l’analyse acoustique des consonnes qui sont bien identifiés et mal
identifiés par un système de RAP.
Le rapport se compose de 6 chapitres:
Chapitre 1 : ce chapitre est consacré à une petite présentation du lieu où nous avons fait le
stage, le sujet et l’objectif du stage.
Chapitre 2 : ce chapitre donne les théories de base qui concerne le travail : la parole et sa
production, les caractéristiques phonétiques des sons de la parole
Chapitre 3 : ce chapitre présente les indices acoustiques qui sont utilisés dans le travail
Chapitre 4 : ce chapitre est consacré à la présentation des outils utilisés dans notre travail
et préciser le contexte du travail
Chapitre 5 : ce chapitre présente les travaux pratiques, les expérimentations réalisées dans
le cadre de ce stage
Chapitre 6 : ce chapitre est consacré au bilan du stage et aux perspectives potentielles en

vue de l’amélioration du résultat
D’ailleurs, à la fin du rapport, nous donnons également des annexes qui présentent les
codes sources importants et les plans des indices acoustiques qui sont utilisés pour cette étude.

13 / 82

CHAPITRE 2. LA PAROLE
Avant de présenter les contenus principaux, nous présenterons un peu la théorie de la
parole qui intéresse notre travail. C’est une petite introduction de la parole et sa production et des
caractéristiques principales de sons de la parole.

2.1.

Qu’est ce que c’est la parole ?

La parole est un moyen de communication très efficace et naturel de l'humain. La parole
se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine dans les
mécanismes de production. La parole apparaît physiquement comme une variation de la pression
de l'air causée et émise par le système articulatoire. Les sons de parole sont produits soit par des
vibrations des cordes vocales (source de voisement), soit par une turbulence crée par l'air
s’écoulant rapidement dans une constriction ou lors du relâchement d’une occlusion du conduit
vocal (sources de bruit). L'unité de parole de plus petite taille est un phonème (voyelle ou
consonne). Le nombre de phonèmes est toujours très limité, normalement inférieur à cinquante.
Par exemple : la langue française comprend 36 phonème.

Table 1. Les phonèmes du français
14 / 82

2.2.

Production de la parole
La parole est produite par le système articulatoire, présenté à la figure 1 :

Figure 1. Appareil phonatoire [3]
La parole peut être décrite comme le résultat de l'action volontaire et coordonnée des
appareils respiratoire et masticatoire. Cette action se déroule sous le contrôle du système nerveux
central qui reçoit en permanence des informations par rétroaction auditive et par les sensations
cénesthésiques.
L'appareil respiratoire fournit l'énergie nécessaire à la production de sons, en poussant de
l'air à travers la trachée-artère. Le mouvement du flux d'air cause la vibration des cordes vocales.
Cette vibration se propage à travers la cavité pharyngienne, la cavité buccale et la cavité nasale.
Selon la position des articulateurs (mâchoire, langue, palais, lèvre, bouche), des sons différents
sont produits.

15 / 82

Figure 2. Modèle mécanique de production de la parole
L’intensité du son émis est liée à la pression de l’air en amont du larynx, sa hauteur est
fixée par la fréquence de vibration des cordes vocales, appelée fréquence fondamentale (ou
pitch). La fréquence fondamentale peut varier selon le genre (masculin ou féminin) et l’âge du
locuteur. La fréquence du fondamental peut varier [2] :
•

De 80 à 200 Hz pour une voix masculine

•

De 150 à 450 Hz pour une voix féminine

•

De 200 à 600 Hz pour une voix d’enfant

Les sons voisés résultent d'une vibration quasi périodique des cordes vocales et ce sont
des signaux quasi périodiques. Par contre les sons non voisés ne présentent pas de structure
périodique, ils sont considérés comme des bruits blancs filtrés par la transmittance de la partie du
conduit vocal située entre la constriction et les lèvres.

16 / 82

Figure 3. Exemple de son voisé (haut) et non – voisé (bas)
La figure 3 donne un exemple de sons voisé et non voisé. On y constate que le son voisé (en
haut) représente des zones assez périodiques, appelées zones voisées, tandis que le son non voisé (en
bas) représente des zones bruitées, appelées zones non voisées.

2.3.

Caractéristiques phonétiques

2.3.1. Phonème
La plupart des langues naturelles sont composées à partir de sons distincts, les phonèmes. Un
phonème est la plus petite unité présente dans la parole [2]. Le nombre de phonèmes est toujours très
limité (normalement inférieur à cinquante) et ça dépend de chaque langue. Les phonèmes peuvent
être classés en fonction de trois variables essentielles : le voisement (activité des cordes vocales), le
mode d’articulation (type de mécanisme de production) et le lieu d’articulation (endroit de
resserrement maximal du conduit vocal)

2.3.2. Voyelles
Les voyelles sont des sons voisés qui résultent de l’excitation du conduit vocal par des
impulsions périodiques de pression liées aux oscillations des cordes vocales. Chacune des
voyelles correspond à une configuration particulière du conduit vocal. Les voyelles se

17 / 82

différencient principalement les unes des autres par leur lieu d’articulation, leur aperture, et leur
nasalisation. On distingue ainsi les voyelles antérieures, moyennes et postérieures, selon la
position de la langue, et les voyelles ouvertes et fermées, selon le degré d’ouverture du conduit
vocal.
Il y a deux types de voyelle : les voyelles orales (i, e, u, ...) qui sont émises sans
intervention de la cavité nasale et les voyelles nasales (ã, ε~ , …) qui font intervenir la cavité
nasale. La langue française comprend douze voyelles orales émises seulement par la bouche,
ainsi que quatre voyelles nasales correspondant à la mise en parallèle des cavités nasales sur la
cavité buccale par abaissement du voile du palais.
Chaque voyelle se caractérise par les résonances du conduit vocal qu’on appelle “les
formants”. En général, les trois premiers formants sont suffisants pour caractériser toutes les
voyelles.
Il est commode de représenter une voyelle sur un plan F1, F2 pour voir le “triangle

articulatoire ” ou “triangle vocalique ” de la phonétique. Ce triangle représente la position de la
langue dans la cavité buccale selon les 2 axes F1 “antérieur-postérieur ” et F2 “ouvert-fermé ”,
selon que la langue est massée en avant vers la zone dentale (i), basse et étalée loin du palais (a),
ou massée postérieurement vers le voile (u). F1 représente la position de la langue. F2 dépend de
l'ouverture de la cavité buccale. Les autres formants représentent d'autres facteurs comme
l'arrondissement des lèvres...

Figure 4. Triangle vocalique pour le français

18 / 82

2.3.3. Consonnes
Les consonnes sont des sons qui sont produits par une turbulence créée par le passage de
l’air dans une constriction du conduit (les consonnes non voisées) ou une source périodique liée
à la vibration des cordes vocales s’ajoute à la source de bruit (les consonnes voisées). Il y a trois
types de consonnes : les fricatives (ou constrictives), les occlusives et les nasales.
Les fricatives sont créées par une constriction du conduit vocal au niveau du lieu
d’articulation (le palais [ï,ï ], les dents [s, z], ou les lèvres [f, v]). Les fricatives non voisées sont
caractérisées par un écoulement d’air turbulent à travers la glotte, tandis que les fricatives
voisées combinent des composantes d’excitation périodique et turbulente : les cordes vocales
s’ouvrent et se ferment périodiquement, mais la fermeture n’est jamais complète.
Les occlusives correspondent quant à elles à des sons essentiellement dynamiques. Une
forte pression est créée en amont d’une occlusion maintenue en un certain point du conduit vocal
(les palais [k, g], les dentales [t, d], ou les lèvres [p, b]), puis relâché brusquement. La période
d’occlusion est appelée la phase de tenue. Pour les occlusives voisées [b, d, g] un son basse
fréquence est émis par vibration des cordes vocales pendant la phase de tenue; pour les
occlusives non voisées [p, t, k], la tenue est un silence.
Les consonnes nasales [m, n, ï] font intervenir les cavités nasales par abaissement du
voile du palais.
Les consonnes sont caractérisées par la fréquence de spectre, la durée d’existence et la
transition du son.

19 / 82

Table 2. La classification des phonème du français en traits distinctifs

2.4.

Lecture de spectrogramme

2.4.1. Spectrogramme
Un spectrogramme est une représentation visuelle de la parole. Il permet de voir
l’évolution de l’énergie dans l’échelle des fréquences en fonction du temps. L'amplitude du
spectre (l’énergie) y apparaît sous la forme de niveaux de gris dans un diagramme en deux axes :
le temps (de gauche à droite) et la fréquence (de basse fréquence (son grave) à haute fréquence
(son aigu)). Ils mettent en évidence l’enveloppe spectrale du signal, et permettent par conséquent
de visualiser l’évolution temporelle des formants. Les périodes voisées y apparaissent sous la
forme de bandes verticales plus sombres.

20 / 82

Figure 5. Spectre de ‘my speech’
2.4.2. Lecture de spectrogramme
La lecture de spectrogramme contient 4 étapes élémentaires :

•

Étape 1 : Connaître les 3 dimensions du spectrogramme. Ce sont l’énergie
(l’intensité), le temps et la fréquence du spectre

•

Étape 2 : Savoir distinguer les consonnes et les voyelles.

o Les consonnes sont des sons produits avec une constriction plus ou moins

forte dans le conduit vocal. Donc l’intensité du spectre est relativement
faible et sur le spectrogramme sa noirceur n’est pas très forte.
o Alors que les voyelles sont des sons produits sans aucune constriction
forte dans le conduit vocal, l’intensité du spectre est relativement élevée et
sur le spectrogramme sa noirceur est relativement foncée.
•

Étape 3 : Savoir reconnaître les grandes classes de consonnes. Il y a 3 types de
consonnes, les occlusives, les fricatives et les sonantes.

o Les occlusives sont produites par une occlusion complète dans le conduit
vocal, donc pendant l’occlusion, l’air ne passe pas et sur le

21 / 82

spectrogramme, il correspond à un silence (sauf le voisement pour les
sonores).

o Les fricatives sont produites avec une forte constriction (mais pas
complète) dans le conduit vocal. Donc il y a une turbulence de l’air dans le
conduit vocal et sur le spectrogramme cette turbulence correspond au bruit
de friction.
o Les sonantes /m, n, l, R/ sont produites avec une constriction partielle dans
le conduit vocal et nasal. Donc, l’air passe d’une façon relativement libre
et sur le spectrogramme il y a des formants comme les voyelles, mais ces
formants sont moins forts que ceux des voyelles.
o Il y a deux types pour les occlusives et les fricatives : sourdes et sonores.
Pour les occlusives et les fricatives sonores, les plis vocaux vibrent alors
sur le spectrogramme ils présentent une barre de voisement. Tandis que,

les plis vocaux des occlusives et des fricatives sourdes ne vibrent pas,
donc sur le spectrogramme il n’y a pas de barre de voisement.

•

Étape 4 : savoir reconnaître les grandes classes de voyelles. Les voyelles se
différencient les unes les autres par leurs formants. Un formant est la zone de
fréquence où il y a une concentration (renforcement) d’énergie. Dans les voyelles
orales, il y a en moyenne 1 formant par 1000Hz (voix d’homme). On utilise
souvent le spectrogramme à bande large pour visualiser les formants et les
formants y apparaissent sous les formes des bandes noires horizontales. Les
voyelles orales sont divisées en des classes :

o Les voyelles antérieurs /i e, ε, y (a)/, avec ces voyelles, la distance entre
F1-F2 est supérieur à la distance entre F2-F3
o Les voyelles postérieur /a o O u/, avec ces voyelles, la distance entre F1F2 est inférieur à la distance entre F2-F3
o Les voyelles centrales / o oe/, avec ces voyelles, les formants sont plus
(ou moins) équidistants
2.4.3. Exemple de lecture de spectrogramme
Voici un exemple de la lecture du spectrogramme. Cet exemple illustre une décision des
mots à partir d’un spectrogramme. Ce spectrogramme se compose de quatre mots, chaque mot
est identifié par une des paires suivantes :

22 / 82

1. HE/SHE
2. CHAINS/TRAINS
3. MEEK/WEAK
4. LEADERS/READERS

"She trains weak leaders"
Figure 6. Un exemple de la lecture du spectrogramme [12]

[ʃ], IPA 134
Dans l’intervalle [75ms – 225ms], on a [ʃ] et non [ h ] pour deux raisons. La première est
qu'il est trop fort. Ca a l'amplitude absolue d’une voyelle et non d’une consonne. Ainsi cette
fricative très forte est inclinée aux fréquences plus élevées, typiques des sibilants en général.
Ceci ressemble à [ʃ] plutôt que [ s ] puisque l'énergie est très petite au-dessous du F2, audessous duquel elle tombe assez brusquement ([ s ] a un bruit large qui peut diminuer aux
fréquences plus basses, mais il fera graduellement). Le fait qu'elle tombe à la droite au-dessous

23 / 82

du F2 est soupçonneux, si vous vous demandiez. En outre [ s ] n'aurait pas cette force spécifique
dans F2/F3/F4, mais vraisemblablement ferait centrer beaucoup une large bande simple
beaucoup plus fortement. [ h ] aurait moins d'énergie au-dessus de tous, et n'aurait pas n'importe
quel genre de discontinuité avec la voyelle suivante (excepté en termes d'exprimer).

[t ], IPA 103 + 404, 151 + 402
Dans l’intervalle [350ms – 450ms], le choix ici est entre [ʃ] ou [ ]. L’espace pour
l’occlusive va d'environ 325 ms au relâchement entre 375 et 400 ms. Le relâchement fricatif
fonctionne probablement entre 25 et 50 ms. Le 'centre' du moment de /r/ est autour 425 ms.
Notez que les formants se déplacent rapidement à environ 450 ms. Ainsi nos choix, de 400 à 450
ms sont les /r/ ou [ʃ] . Notez l'intensité du bruit au relâchement, il est sibilant et centré en bas.
Mais notez que l'intensité tombe assez rapidement, et le bruit est dans la forme des formants
suivants. Le F2 commence vers le haut partout où il part sur le relâchement (autour de 1900
hertz), et tombe rapidement juste en dessous de 1500 Hz. Le F3 tombe, et notez dans le
relâchement, des angles des transitions de chaque côté, il ressemble que F3 tombe en dessous de
2000 Hz, mais il n'y a pas beaucoup d'évidence qui il y arrive vraiment. A l’aide du bas de F3 et

de la proximité de F2 et de F3, on peut expliquer la forme de /tr/

[w], IPA 170
Approximante ou nasale ? Nous regardons le segment voisé dans l’intervalle [725ms –
800ms]. Il y a moins d'énergie dans la barre de voisement que dans la voyelle suivante, mais c'est
typique des nasales et des approximantes fermées. Les transitions sont la plupart du temps labial,
bien que F3 n'aide pas beaucoup. Nasale ou non ? Les nasales ne doivent pas avoir les bords
anguleux. Voir le moment près de 800 ms dans le spectrogramme, le bord ici est le voile fermé et
l’acoustique change soudainement. L'énergie qui était perdue par la nasalisation est
soudainement regagnée, les résonances principales changent et les formants durent pendant la
transition, suggérant quelque chose d’oral partout. Donc c’est la transition de /w/ à la voyelle
suivante.

[ ], IPA 209
Enfin c’est une discrimination entre les approximantes, un /r/ et un /l/. Notez le voisement
dans l’intervalle [1000ms – 1075ms]. Ceci ne semble pas une nasale en raison de la continuité en
tout point. La barre de voisement de F1 est continue en amplitude et en fréquence, cela indique
24 / 82

une addition soudaine ou la perte d'une cavité. Donc, qu’est ce qui fait la différence entre un /r/ et
un /l/ ?. C’est le F3. Pour /r/, F3 est abaissé tandis que pour /l/ F3 est augmenté. Mais où se situe
F3 ? F1 est vers le bas en dessous de 500 Hz. Le F2 est juste au dessus de 1000 Hz, et F3 est
autour 2750 Hz. Dans le spectrogramme c’est un F3 augmenté, alors cela exprime le spectre de
/l/.

25 / 82

ANALYSE ACOUSTIQUE DE SONS BIEN IDENTIFIÉS PAR UN SYSTEME DE RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về