Tải bản đầy đủ (.pdf) (49 trang)

Reconnaissance multimodale de gestes de communication non verbale

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.39 MB, 49 trang )

Institut de la Francophonie pour
l’Informatique

Institut National Polytechnique de Grenoble
Laboratoire des Images et des Signaux

MÉMOIRE DE FIN D’ÉTUDES
Reconnaissance multimodale de gestes de
communication non verbale

Présenté par
Hong-Viet LUONG
Promotion X – IFI

Sous la direction de :
Alice CAPLIER
Alexandre BENOÎT

Novembre 2006


Reconnaissance de gestes de communication non verbale

Remerciements
Je voudrais exprimer ma profonde reconnaissance à mon responsable de stage Mme Alice
CAPLIER, qui a dirigé mon travail, ses conseils et ses commentaires précieux m'ont
permis de surmonter mes difficultés et de progresser au cours de mon stage.
Je tiens également à remercier Monsieur Alexandre Benoît, doctorant de l’INPG, de
m'avoir encadré et pour m'avoir aidé chaleureusement tout au long de mon séjour au
laboratoire LIS.
Merci à tous les membres de l’IFI, tous mes professeurs, de m’avoir enseigné et mes


camarades de la promotion X pour leur aide tout au long de mes études à l’IFI.
Enfin, je voudrais adresser un grand merci à ma famille, qui m’a soutenue durant mon
stage.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

2


Reconnaissance de gestes de communication non verbale

Résumé
La communication non verbale est une partie importante dans la communication humaine
et sera également importante dans la communication homme-machine. Elle se compose
des expressions du visage, des mouvements faciaux, du mouvement de la tête, de la
direction du regard, etc. Ce stage a pour but d’étudier la robustesse d’une méthode
d’analyse des mouvements globaux de la tête et de mouvements faciaux inspirée d’une
approche biologique. Dans la deuxième partie, on va étudier les performances d’un
système de reconnaissance d’expressions faciales basant sur le Modèle de Croyance
Transférable. Ces deux applications ont été utilisées lors de projets développés lors du
Workshop eNTERFACE 2006.
Mots clés : Filtre rétine, transformation log - polaire, théorie de l’évidence, Modèle de
Croyance Transférable.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

3


Reconnaissance de gestes de communication non verbale


Abstract
The nonverbal communication is an important part in the human communication and will
be also important in the human-machine communication. It is composed of the
expressions of the face, the facial movements, the movement of the head, the gaze
direction, etc This internship is to study the robustness of method of analysis of the global
movements of the head and facial movements inspired of a biological approach. In the
second part, we will study the performance of the system of recognition of the facial
expressions based on the Transferable Belief Model. These two applications were used
for the project development at the Workshop eNTERFACE 2006.
Keywords: Retina filter, log-polar transformation, evidence theory, Transferable Belief
Model.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

4


Reconnaissance de gestes de communication non verbale

Table de matières
Chapitre 1
Introduction..................................................................................................8
1.1
Problématique ......................................................................................................8
1.2
Objectif de stage ..................................................................................................8
1.3
Environnement de stage.......................................................................................9
1.4

Organisation de mémoire.....................................................................................9
Chapitre 2
Analyse des mouvements de tête et mouvements faciaux par un algorithme
inspiration biologique ........................................................................................................11
2.1
Description de l’algorithme ...............................................................................11
2.1.1
Le pré filtrage.............................................................................................12
2.1.2
La transformation log polaire.....................................................................13
2.2
Détection d’événements.....................................................................................14
2.2.1
Principe ......................................................................................................14
2.2.2
Tests effectués............................................................................................15
2.2.3
Résultats obtenus .......................................................................................16
2.2.4
Analyse ......................................................................................................18
2.3
Détection de l’état ouvert ou fermé de la bouche et des yeux ...........................18
2.3.1
Principe ......................................................................................................18
2.3.2
Tests effectués............................................................................................20
2.3.3
Résultats obtenus .......................................................................................21
2.4
Détection de l’orientation de mouvement de tête ..............................................22

2.4.1
Principe ......................................................................................................22
2.4.2
Tests effectués............................................................................................23
2.4.3
Résultats obtenus .......................................................................................23
2.5
Localisation de l’œil ..........................................................................................23
2.5.1
Principe ......................................................................................................23
2.5.2
Tests effectués............................................................................................25
2.5.3
Résultats obtenus .......................................................................................25
Chapitre 3
Reconnaissance d’expressions faciales......................................................27
3.1
Système de reconnaissance d’expressions faciales existant ..............................27
3.2
Segmentation des traits du visage ......................................................................28
3.3
Extraction de données caractéristiques ..............................................................29
3.4
Classification par le Modèle de Croyance Transférable ....................................29
3.4.1
Modèle de Croyance Transférable .............................................................30
3.4.2
Fusion de données......................................................................................31
3.4.3
Posttraitement ............................................................................................32

3.5
Contribution pour le système de reconnaissance d’expressions faciales...........33
3.5.1
Détection de contours et suivi de point......................................................33
3.5.2
Calcul et filtrage de distances ....................................................................37
3.5.3
Implémentation ..........................................................................................39
3.6
Résultats.............................................................................................................39
Chapitre 4
Workshop eNTERFACE 2006 ..................................................................44
4.1
Présentation de Workshops eNTERFACE ........................................................44
4.2
Projet de détection d’émotion (projet 7) ............................................................44
4.3
Conclusions et perspectives sur projet...............................................................46
Chapitre 5
Conclusions et perspectives .......................................................................47

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

5


Reconnaissance de gestes de communication non verbale

Liste des figures
Figure 2-1 Schéma de l’algorithme de détection de mouvement ......................................11

Figure 2-2 Fonction de transfert spatio-temporel [2].........................................................13
Figure 2-3 Transformation log polaire [1] .........................................................................13
Figure 2-4 Evolution temporelle de l’énergie totale et de l’énergie maximale [1]............14
Figure 2-5 Exemple d’un oubli et une fausse alarme ........................................................15
Figure 2-6 Evolution de α, chaque pic correspond à un mouvement ................................16
Figure 2-7 Un mouvement long est détecté comme une suite d’alertes plus courtes........17
Figure 2-8 Spectre log polaire et orientations de la sortie du filtre IPL contours mobiles
pour différents mouvement d’œil : clignement et changement de direction de regard
....................................................................................................................................19
Figure 2-9 Évolution d’énergie totale de OPL de l’oeil et de la bouche ...........................19
Figure 2-10 Évolution de l’énergie OPL lors de mouvement de bouche ..........................20
Figure 2-11 Mouvement rigide de la tête a- translation verticale, b- rotation verticale, c –
rotation latérale, d- rotation oblique...........................................................................22
Figure 2-12 L’oeil est localisé dans un quart de boîte englobante de visage détecté ........24
Figure 2-13 Sortie du filtre OPL dans la zone de recherche..............................................25
Figure 3-1 Les étapes dans le processus de reconnaissance des expressions faciales .......28
Figure 3-2 Extraction des contours et définition des 5 distances......................................29
Figure 3-3 Les seuils pour chaque distance .......................................................................31
Figure 3-4 à gauche: les traits sont bien détectés et à droite (dégoût) les sourcils ne sont
pas bien détectés) .......................................................................................................34
Figure 3-5 Les points de suivi............................................................................................35
Figure 3-6 Les contours de la segmentation automatique : avant et après la mise en œuvre
de l’algorithme de suivi. ............................................................................................36
Figure 3-7 Dans le cas de fermeture des yeux, il y a des erreurs.......................................36
Figure 3-8 Les fausses détections dans le cas de sujets sont trop expressives ..................37
Figure 3-9 L’évolution de distance 5 par rapport à distance neutre ..................................38
Figure 3-10 L’évolution filtrée ..........................................................................................38
Figure 3-11 Quelques illustrations de l’expression Joie. L’image à gauche correspond à
l’état Neutre, à droite l’état Joie. À côté de chaque image, l’indicateur montre la
masse d’évidence. ......................................................................................................40

Figure 3-12 Quelques illustrations de l’expression Dégoût. L’image à gauche correspond
à l’état Neutre, à droite l’état Dégoût. À côté de chaque image, l’indicateur montre la
masse d’évidence. La barre grise montre une autre possibilité, mais avec une masse
d’évidence plus faible. ...............................................................................................41
Figure 3-13 Quelques illustrations de l’expression Surprise. L’image à gauche correspond
à l’état Neutre, à droite l’état Surprise. À côté de chaque image, l’indicateur montre
la masse d’évidence. ..................................................................................................42
Figure 4-1 L’enregistrement de vidéo et fNIRS ................................................................45
Figure 4-2 Résultat de la segmentation automatique.........................................................45

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

6


Reconnaissance de gestes de communication non verbale

Liste des tableaux
Table 2-1 Le résultat de détection d’événements ..............................................................16
Table 2-2 Les résultats de détection d’événement de vidéo sans bruit et avec bruit .........18
Table 2-3 Résultat sur la détection de l’état de bouche .....................................................21
Table 2-4 Résultats de détection de l’état de l’œil.............................................................21
Table 2-5 Résultats de détection de bâillement .................................................................22
Table 2-6 Résultat de détection de direction de mouvement.............................................23
Table 2-7 Résultats de la localisation de l’œil ...................................................................25
Table 3-1 Tableau de définition de distances ....................................................................29
Table 3-2 États symboliques associés à chaque expression...............................................30
Table 3-3 Règle logique des états symboliques pour distance caractéristique D1 ............31
Table 3-4 Résultat de reconnaissance des expressions faciales sur la base HCE..............43


Mémoire de fin d’études de LUONG Hong-Viet Promotion X

7


Reconnaissance de gestes de communication non verbale

Chapitre 1

Introduction

"La communication non verbale est le fait d'envoyer et de recevoir des messages sans
passer par la parole mais au moyen des expressions du visage, des postures, des gestes, de
bruits divers. Les choix vestimentaires, la coiffure, la position du corps, le maquillage, les
mimiques sont tous des éléments de communication non verbale."
Martin Winckler[19]

1.1 Problématique
L'analyse et l'interprétation des "mouvements humains " sont une des thématiques du
laboratoire des Images et des Signaux. Ce thème de recherche est relatif à l’analyse et à
l’interprétation de mouvement humain sur la base de vidéos. En fait, le langage du corps
(gestes, expressions, attitudes, postures…) est une partie importante dans la
communication en face à face. Nous nous intéressons à l’identification et à la
reconnaissance de l’action d’une partie de corps (par exemple : la reconnaissance de
gestes, la reconnaissance des expressions faciales, reconnaissance de mouvement de la
tête, etc.)
La reconnaissance des expressions faciales s'appuie sur l'analyse de déformations des
traits permanents du visage. Les mouvements de la tête (hochements …) et des traits
mobiles du visage (clignements, bâillement…) sont aussi des informations intéressantes.


1.2 Objectif de stage
Une méthode que LIS a développée est d'analyser les déformations des traits du visage
tels que la bouche, les yeux et les sourcils. Pourtant, la partie de segmentation
automatique de traits du visage n’est pas encore réalisée. Par ailleurs, le laboratoire LIS a
développé une méthode d'analyse des mouvements rigides et non rigides de la tête.
L’objectif de ce stage est d’étudier les performances de ces 2 méthodes et de compléter la
partie sur la reconnaissance automatique d’expressions faciales.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

8


Reconnaissance de gestes de communication non verbale

1.3 Environnement de stage
Mon stage s’est déroulé au laboratoire LIS (Laboratoire des Images et Signaux) pendant
six mois. Le LIS est une Unité Mixte de Recherche relevant conjointement du Centre
National de la Recherche scientifique (CNRS), de l'Institut National Polytechnique de
Grenoble (INPG) et de l'Université Joseph Fourier
Le LIS est un laboratoire récent, créé en 1998 par la fusion du CEPHAG et du TIRF. En
2007, LIS fera parti d’un futur regroupement : GIPSA (Grenoble Image Parole Signal
Automatique), un nouveau laboratoire créé avec l'Institut de la Communication Parlée
(ICP) et le Laboratoire d'Automatique de Grenoble (LAG). Cette nouvelle configuration
opèrera un renforcement des thèmes forts en signal, images et communication, ainsi que
des collaborations sur la perception, la multi modalité et le diagnostic.
La politique scientifique de LIS est autour des problématiques associées au traitement et à
l'interprétation des signaux et des images dans le monde très évolutif des sciences de
l'information. L'activité scientifique du laboratoire est ciblée sur le traitement et
l'interprétation des signaux et des images avec deux grands domaines d'application vers la

géophysique et les communications. La dynamique de la recherche est supportée par
l'activité de cinq équipes :


Groupe Objets, Traitement et Analyse



Non Linéaire



Signaux, Images, Communication



Signaux et Images dans les milieux Naturels



Circuits et Architectures.

1.4 Organisation de mémoire
La première partie de ce rapport présente les tests sur les méthodes d’analyse de
mouvement de tête et mouvements faciaux. Les algorithmes de détection de mouvement
de la tête, de détection de l’état de l’œil, de localisation de l’œil sont décrits dans le
deuxième chapitre.
Dans le troisième chapitre, le système de reconnaissance d’expressions faciales est
présenté. Puis, je décris le travail réalisé ainsi que les solutions proposées afin d’améliorer
ce système. Enfin, je présente les résultats obtenus et quelques comparaisons avec le

système de Hammal.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

9


Reconnaissance de gestes de communication non verbale
L’intégration de mon travail lors d’un projet portant sur l’analyse multimodale des
émotions au cours du workshop eNTERFACE 2006 est présentée par la même occasion
dans le chapitre 5.
Finalement, le chapitre 6 donne quelques conclusions et perspectives du travail.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

10


Reconnaissance de gestes de communication non verbale

Chapitre 2

Analyse des mouvements de tête et des

mouvements faciaux par un algorithme d’inspiration
biologique
Les gestes faciaux sont importants dans la communication face à face. Nous nous
intéressons aux mouvements rigides (mouvement de tête) et mouvements non rigides
(mouvements faciaux de la bouche et des yeux). Les méthodes d’analyse des mouvements
faciaux ont été développées dans le cadre de thèse d’Alexandre Benoît [1, 4, 15, 16,17].


2.1 Description de l’algorithme
Les méthodes d’estimation du mouvement 2D sont abordées dans plusieurs travaux. Je
présente ici une approche qui est développée par Alexandre Benoît. La méthode décrite
ci-dessous est inspirée par fonctionnement de la rétine humaine. La Figure 2-1 présente le
schéma de l’algorithme [1]

Figure 2-1 Schéma de l’algorithme de détection de mouvement

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

11


Reconnaissance de gestes de communication non verbale
Le premier étage est un pré filtrage inspiré du fonctionnement du système visuel humain.
Dans cette approche, le filtre rétine est mis en oeuvre. La transformation log polaire du
spectre de l’image filtrée est effectuée et analysée dans un second temps. Enfin,
l’interprétation de mouvement est considérée.

2.1.1 Le pré filtrage
La première étape consiste en une étape de filtrage. En effet, la méthode est basée sur
l’analyse de la réponse fréquentielle des contours en mouvement. On a besoin de
rehausser ces contours parce que la variation d’illumination peut cacher temporellement
et modifier ses contours. De plus, le bruit est un facteur important qui cause la
dégradation de ces contours.
Le détecteur de mouvement utilise le filtre rétine pour estimer le mouvement. Le filtre
spatio-temporel introduit dans [2] est conçu pour modéliser les comportements de la
rétine humaine. Ce filtre permet de rehausser les contours en mouvement, d’éliminer les
contours statiques, d’annuler le bruit spatio-temporel et les variations d’illumination.

Le pré filtrage se déroule en deux temps. Le premier étage est réalisé par la couche
plexiforme externe OPL, il rehausse l’ensemble des contours présents dans la scène. Le
second étage, constitué de la couche plexiforme interne (IPL) rehausse les contours en
mouvement et supprime les contours statiques [2]
-

À niveau OPL, le comportement du filtre spatio-temporel est le suivant :
o À basse fréquence temporelle, ce filtre a un effet passe-bande spatial ce
qui améliore les contours qui sont présents dans l'image traitée.
o À fréquence spatiale faible, ce filtre a un effet passe-bande temporel ce qui
atténue des variations locales d'illumination.
o À haute fréquence temporelle, ce filtre a comportement spatial passe-bas
ce qui permet d’atténuer du bruit spatio-temporel.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

12


Reconnaissance de gestes de communication non verbale

Figure 2-2 Fonction de transfert spatio-temporel [2]
-

A niveau IPL, l’opérateur dérivation temporelle est mis en œuvre pour ce filtrage.
Celui-ci nous permet de garder les contours en mouvement en supprimant les
contours statiques.

Un grand avantage de ce filtre est que le rehaussement des contours en mouvement se fait
en temps réel (traitement à 25 images par seconde).


2.1.2 La transformation log polaire
Après l’étape de filtrage rétinien, on effectue une transformation log polaire. On remarque
en effet que l’énergie globale de spectre est étroitement liée à l’amplitude du mouvement
présent dans la scène. Dans le cas où il n’y a pas de mouvement, l’énergie est minimale
ou nulle. Pour donc estimer la direction de mouvement, on calcule la réponse du spectre
en utilisant un ensemble de filtres de Gabor (filtres passe-bandes orientés).

Figure 2-3 Transformation log polaire [1]

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

13


Reconnaissance de gestes de communication non verbale
Dans le domaine log-polaire, un zoom ou une rotation spatiale se transforme en une
translation spectrale. À partir de ces propriétés, on peut interpréter le type de mouvement
présent dans la scène analysée.

2.2 Détection d’événements
Dans cette partie, il s’agit de tester un algorithme qui permet de détecter la présence dans
une scène vidéo d’un événement associé à un mouvement dans la scène analysée.

2.2.1 Principe de l’algorithme
À partir de l’analyse du spectre log polaire, on peut interpréter le type de mouvement
ainsi que sa direction. Pour estimer la direction du mouvement, nous cumulons les
énergies des réponses des filtres pour chaque orientation. Dans ce travail, nous proposon
un indicateur E1(t). C’est l’énergie maximale de la sortie IPL. Connaissant l’énergie
totale E(t) du spectre log polaire de la sortie du OPL, on calcule E1(t) comme algorithme

suivant :
Si E(t) – Ebruit > E1(t)
Alors E1(t)=E(t)-Ebruit
Sinon
E1(t)=E1(t-1)*0.9
Fin

Ebruit est énergie moyenne du bruit.

Figure 2-4 Evolution temporelle de l’énergie totale et de l’énergie maximale [1]
À partir de l’énergie totale de tous les contours, on peut déduire les alertes de mouvement
grâce à l’indicateur α .

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

14


Reconnaissance de gestes de communication non verbale

α=

E (t )2
E1 (t )2

Si α >0, cela correspond au mouvement, et vice-versa. Pour plus de détails, consulter
l’article [1].

2.2.2 Tests effectués
Le but est ici de déterminer les performances du détecteur de mouvements dans des

scènes vidéo quelconques.
Nous avons testé des vidéos ayant été acquises dans différentes conditions : éclairage de
bureau standard, éclairage faible et conditions bruitées. Les scènes vidéo consistent en des
scènes d'extérieur (rue) et des scènes d'intérieur : dans le bureau. Les objets en
mouvement sont des personnes, des voitures, …
Les taux de succès, de fausse alerte et d’oublis sont déterminés comme suit :

∑ Nombre d'alerte détecté correcte
∑ Nombre de mouvement(vérité terrain)
∑ Nombre de fausse alerte
Pourcentage de fausse alerte =
∑ Nombre de mouvement(vérité terrain)
∑ Nombre d'oublis d'alerte
Pourcentage d’oublis =
∑ Nombre de mouvement(vérité terrain)
∑ Durée détectée par le programme
Couverture totale =
∑ Durée détectée par la main
Taux de succès =

Un oubli et une fausse alerte sont définis sur la Figure 2-5 :
Vérité terrain

Frames

mesure

Oubli

Fausse alarme


Frames
Figure 2-5 Exemple d’un oubli et une fausse alarme

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

15


Reconnaissance de gestes de communication non verbale

On peut détecter manuellement un oubli ou une fausse alarme comme figure 2-4. Lors de
la disparition d’un pic dans la deuxième graphe, un oubli est détecté et vice-versa pour
une fausse alarme.
La couverture totale permet d'analyser la capacité de l'algorithme à évaluer la durée d'un
mouvement. Notons que la méthode de base n'est pas conçue dans ce but, elle est faite
pour détecter le début des mouvements.

2.2.3 Résultats obtenus
La Figure 2-6 donne un exemple de résultat. Chaque événement correspond à un
mouvement. On peut mesurer la durée de chaque mouvement détecté.

Figure 2-6 Evolution de α, chaque pic correspond à un mouvement

Le tableau suivant synthétise les résultats collectés. Sont évalués les indicateurs décrits
précédemment ainsi que le décalage temporel entre les alertes détectées par l'algorithme
et la vérité terrain (étiquetage manuel).

Nombre


%

de

d’alertes

succès

%

de

fausse

%

Moyenne

Écart

d'oublis

des

type

décalages

décalages


alerte
Conditions

Couverture
des

totale

940

95.38%

1.28%

2.80%

1.39

2.84

78.68%

38

96.36%

1.82%

1.82%


1.63

1.62

82.66%

standard
Éclairage
faible

Table 2-1 Résultat de détection d’événements

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

16


Reconnaissance de gestes de communication non verbale

Nous avons pu tester un grand nombre de vidéos acquises en conditions normales
d’éclairement (soit 940 alertes tests), tandis qu’en éclairage faible, le nombre d’alertes
tests est seulement de 38. Le détecteur a bien détecté les mouvements avec taux de succès
95-96%. Les taux de fausse alarme et d'oublis sont très faibles. Le décalage temporel
entre les alertes détectées par l'algorithme et celles notées visuellement est correct,
l'algorithme semble donc bien synchronisé. Le taux de couverture est peu précis ce qui est
normal vue la méthode employée.
Remarques :

Cet algorithme détecte avec précision les mouvements de courte durée (figure ci-dessus),
mais, les mouvements longs sont détectés comme une suite d'alertes plus courtes.

Par exemple:
Indicateur α

Frame
Figure 2-7 Un mouvement long est détecté comme une suite d’alertes plus courtes

De l’image 685 à l’image 720, il s’agit d’un seul mouvement, mais le détecteur en a
détecté plusieurs (chaque crête correspond à un mouvement)
Le programme a bien détecté les mouvements malgré la condition de faible éclairage. Le
pourcentage d’oublis et l’écart type et la couverture totale sont meilleurs que ceux
obtenus dans le cas de conditions normales d’éclairage. Néanmoins, comme la quantité de
données pour l’évaluation des performances dans ces conditions est plus faible, il faut
rester prudent. Ces taux sont du même ordre de grandeur.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

17


Reconnaissance de gestes de communication non verbale

Pour tester les mouvements en condition bruitée, j’ai inséré du bruit dans la vidéo (par le
filtre du programme VirtualDUB).
Le rapport signal sur bruit : SNR (dB) = 7dB
Vidéo originale

Vidéo bruitée

52.08%


11.13%

Pourcentage de fausse alerte:

0.00%

0.00%

Pourcentage d'oublis :

0.00%

33.33%

Moyenne des décalages

13.92

25.67

Écart type des décalages

20.38

59.96

Couverture totale

Table 2-2 Résultats de détection d’événement de vidéo sans bruit et avec bruit


2.2.4 Analyse
Le taux de fausse alerte n’est pas changé, pourtant le pourcentage d’oublis augmente de
manière importante. Ceci s'explique par le fait que le système évalue le bruit de fond dans
la scène avant le mouvement, si les mouvements sont de trop faible amplitude, ils peuvent
être considérés comme du bruit entraînant ainsi l'oubli. De plus, dans la vidéo de test,
plusieurs objets en mouvement ont la même couleur que le fond. Du fait du bruit, le
détecteur ne peut pas détecter ces mouvements. C’est pourquoi le taux d’oublis est élevé.
Sur la vidéo non bruitée, le système a bien détecté toutes les alertes avec des décalages,
pourtant ces décalages sont ici plus élevés.

2.3 Détection de l’état ouvert ou fermé de la bouche et des yeux
2.3.1 Principe
Dans cette partie, on va voir comment on peut détecter l’état ouvert ou fermé de la
bouche ou de l’œil. On exploite ici l’idée qu’il y a plus de contours lorsque la bouche ou
l’œil sont ouverts que lorsqu’ils sont fermés. De ce fait, on va estimer le spectre total
d’énergie à sortie de filtre OPL. L’énergie de ce spectre est plus élevée lorsque la bouche
ou l’œil sont ouverts que lorsqu’ils sont fermés.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

18


Reconnaissance de gestes de communication non verbale

Figure 2-8 Spectre log polaire et orientations de la sortie du filtre IPL contours
mobiles pour différents mouvement d’œil : clignement et changement de direction
de regard
2.3.1.1 Détection de clignement


D’abord, on doit localiser l’œil. L’algorithme de MPT [6] qui peut détecter un rectangle
englobant autour du visage. Pour la localisation de chaque oeil on s’intéresse à au quart
supérieur du visage détecté. Pour la bouche, la moitié inférieure du visage est la zone
d’analyse. En cas d’ouverture del’œil, les contours de l’iris apparaissent. On peut donc
détecter l’état de l’œil en étudiant l’évolution au cours du temps de l’énergie.

Figure 2-9 Évolution d’énergie totale de OPL de l’oeil et de la bouche

La figure ci-dessus montre que l’énergie totale de OPL varie de manière croissante avec
le degré d’ouverture de l’œil ou de la bouche. Le niveau d’énergie lié à l’état d’ouverture
est plus supérieur que celui lié à l’état de fermeture.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

19


Reconnaissance de gestes de communication non verbale
2.3.1.2 Détection de bâillement

Une autre application de ce système est la détection de bâillement. En effet, lorsqu’on
bâille, la durée d’ouverture de bouche est souvent plus longue que lorsque l’on crie ou
l’on parle. Une autre caractéristique est que l’on ferme la bouche très rapidement. Après
expertise, l’énergie lors d’un bâillement est plus de 1.5 supérieure à celle correspondant à
des mouvements normaux et 2 fois supérieure à celle de l’état fermé. Donc, on peut
détecter le bâillement en se basant sur la détection de mouvement vertical d’ouverture ou
de fermeture de la bouche associée à une évolution de l’énergie de OPL respectivement
d’un facteur 2 (lors de l’ouverture) ou 0.5 lors de la fermeture.

Figure 2-10 Évolution de l’énergie OPL lors de mouvement de bouche


Dans la figure ci-dessus, la courbe verte montre le comportement de l’énergie totale du
spectre du filtre OPL. Lors de séquence de la parole, cette énergie prend une valeur
maximale presque 2 fois supérieure à la celle de l’état fermé. Lors d’un bâillement,
l’énergie croît d’une longue durée jusqu’à une très forte valeur. Dans cette figure, le
niveau bas correspondant à l’état fermé et niveau haut correspondant à l’état ouvert.

2.3.2 Tests effectués
Cette partie concerne l'évaluation des performances du détecteur d'état ouvert ou fermé de
la bouche ou des yeux. On teste sur la bouche entière, une partie de la bouche (50% et
30%) et sur les yeux qui occupent 100% et 50% de la zone d'analyse. La taille de l’œil est

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

20


Reconnaissance de gestes de communication non verbale

plus petite que celle de la bouche, donc on ne considère pas le pourcentage 30% pour
l’œil, c’est trop petit.
Par exemple : Nombre pixel d’un œil de test est environ 50*140 (pixels)
30% d’œil est =50*50 pixels.
De plus, comme la méthode proposée analyse la quantité de contours présents dans
l'image, une zone trop petite pour l’œil n'a pas de sens (l'iris risque de disparaître).
Pour la détection de bâillement, on a utilisé des vidéos obtenues à partir d’une dizaine
personnes réalisant des bâillements volontaires ou simulés. La seule contrainte est que la
main ne doit pas cacher la bouche. La base de tests de 152 minutes représente 203
bâillements répartis également entre simulation et bâillement naturel. Ces vidéos tests
sont entrecoupées de périodes d’absence de mouvement (silence), de périodes de parole

avec ou sans bâillements.

2.3.3 Résultats obtenus
Voici le résultat pour la détection de l’état de la bouche

Bouche

% Succès

% fausse alarme

% Oublis

100% bouche

96.34%

0.52%

3.14%

50% de la bouche

94.12%

2.42%

3.46%

30% de la bouche


80.62%

9.23%

10.15%

Table 2-3 Résultat sur la détection de l’état de bouche

Et les résultats de détection de l’état de l’œil
Œil

% Succès

% fausse alarme

% Oublis

100% de l'œil

96.07%

1.66%

2.28%

50% de l'œil

87.68%


10.26%

2.05%

Table 2-4 Résultats de détection de l’état de l’œil
Remarques

On trouve que le taux de réussite est élevé même avec une faible portion de la bouche ou
de l’œil. Avec 100% des zones d'intérêt dans la fenêtre d'analyse, le résultat est presque
parfait. Avec 30% de la bouche et 50% de l’œil, le taux de fausse alarme et d’oublis sont
acceptables.
Résultat de test de bâillement

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

21


Reconnaissance de gestes de communication non verbale

Taux de succès

Taux de fausse alarme

Taux d’oubli

Naturels

85%


3%

13%

Simulés

87%

2%

11%

Table 2-5 Résultats de détection de bâillement
Remarques

Les résultats sont corrects et comparables entre les bâillements naturels et simulés. On
note un faible taux de fausses alarmes, il y a en effet peu de cas de confusion entre la
parole et le bâillement. En revanche, le taux d’oubli est plus important, il s’explique par
une confusion avec les mouvements de parole lors de bâillements de faible amplitude.

2.4 Détection de l’orientation du mouvement de tête
2.4.1 Principe
Dans cette partie nous nous intéressons à la détection automatique des hochements de tête
et l’orientation du mouvement global de la tête. Ces informations sont importantes dans la
communication face à face. La détection des mouvements est effectuée par la mise en
œuvre du module de détection d’évènements décrit dans la partie précédente. L’analyse
du spectre log polaire donne l’orientation du mouvement.

Figure 2-11 Mouvement rigide de la tête a- translation verticale, b- rotation
verticale, c – rotation latérale, d- rotation oblique


Mémoire de fin d’études de LUONG Hong-Viet Promotion X

22


Reconnaissance de gestes de communication non verbale

On peut renforcer la performance du système par une autre mesure : le flot optique qui
donne la vitesse et l’orientation de mouvement. Dans le cas d’une rotation oblique, le flot
optique nous donne une information plus fiable. Lors de la présence d’un mouvement, la
fusion des 2 informations s’effectue.

2.4.2 Tests effectués
Nous avons évalué les performances de système sur une base de 123 minutes. Et la durée
de mouvement de vérité terrain est environ 75 minutes.

2.4.3 Résultats obtenus
Taux de

Taux de fausse

succès

alarme

Détection de mouvement

95.2%


4.8%

Estimation de l’orientation de mouvement

93%

7%

Table 2-6 Résultat de détection de direction de mouvement
Remarques

La table ci-dessus montre le résultat. On constate que les résultats sont corrects, les
erreurs sont dues à la rotation oblique. Par ailleurs, en tournant la tête, on bouge la bouche
et les yeux. Ceci entraîne la détection de l’orientation verticale de contours de bouche et
de l’œil.
À partir de ces informations, on a une application : détecter des hochements (approbation
ou négation) [1]

2.5 Localisation de l’œil
2.5.1 Principe
Cette partie décrit la localisation de l’œil, connaissant une boîte englobante autour de
visage et des boîtes englobantes autour de chaque œil. L’algorithme de MPT [6] nous
permet d’avoir les coordonnées d’une boîte englobante autour de visage. L’idée de
l’algorithme est de chercher la position de l’œil dans un quart de visage.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

23



Reconnaissance de gestes de communication non verbale

Figure 2-12 L’oeil est localisé dans un quart de boîte englobante de visage détecté

Nous supposons que l’œil est le seul élément ayant plusieurs orientations. Notre objectif
est donc de trouver le point de la zone de recherche pour laquelle les contours verticaux et
horizontaux donnent l’énergie plus forte. On extrait la sortie du filtre OPL dans la zone de
recherche, l’un pour les contours verticaux et l’autre pour les contours horizontaux.
La figure ci-dessous montre la réponse du filtre OPL dans la zone de recherche, les
réponses de deux filtrages monodimensionnels. Ensuite, on présente leur produit et on
constate que la position du point de maximale énergie correspond au centre de l’iris.

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

24


Reconnaissance de gestes de communication non verbale

Figure 2-13 Sortie du filtre OPL dans la zone de recherche

2.5.2 Tests effectués
Ce test est réalisé sur deux bases de visage dans lesquelles, la vérité terrain est connue.
Les bases Feret[13] et BioID [14] sont utilisées. Ces bases proposent de plusieurs de
types de visage sous diverses conditions. Il s’agit aussi des visages avec des lunettes.

2.5.3 Résultats obtenus
Base de test

Taille moyenne d'iris Taille d'image Nombre d'images Écart moyen Écart type


Feret 1 sans

10 pixels

256x384

2370

3.95

6.02

Feret + Lunettes

161

8.98

9.77

Feret 2 sans

1498

3.54

5.93

1071


7.12

15.5

450

16.7

33.6

Lunettes

Lunettes
BioID sans lunettes
BioID + Lunettes

8 pixels

384x286

Table 2-7 Résultats de la localisation de l’œil

Mémoire de fin d’études de LUONG Hong-Viet Promotion X

25


×