Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
Remerciements
Les travaux de stage présentés dans ce mémoire ont été réalisés au sein du département
Electronique et Physique (EPH) de l’Institut National des Télécommunications (INT).
Je souhaiterais tout d’abord remercier Mme Bernadette DORIZZI, chef du département EPH, de
m’avoir accueilli dans des laboratoires de son département.
Je tiens particulièrement à exprimer mes remerciements à M. Patrick HORAIN, responsable de
stage, qui m’a de tout cœur dirigé pendant six mois de travail.
Je remercie aussi M. André BIDEAU, chargé d’enseignement-recherche du département EPH, M.
José Marques SOARES, thésard de l’EPH, qui m’ont encadré et beaucoup conseillé pour finir mon
stage.
Je voudrais bien remercier Mme Marie-Thérèse COURCIER et Mme Yolande AUBINEAU pour
tout leur aide à des procédures administratives avant et pendant mon stage à l’INT.
Merci aux stagiaires, aux thésards du département EPH pour la bonne ambiance dans les
laboratoires et en dehors… ainsi qu’à l’ensemble du personnel du département EPH et de l’INT, pour
la bonne humeur générale.
Je souhaiterais également remercier mes professeurs et des membres de l’Institut de la
Francophonie pour l’Informatique (IFI) pour tous leurs enseignements et leurs aides pendant mes
études.
J’exprime ma sincère reconnaissance à ma famille et mes amis pour leur soutien et leur
encouragement tout au long de mes études et ainsi que dans la vie.
NGUYEN Manh Hung
Acquisition du geste humain par vision artificielle en temps réel
Page 1
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
Résumé
Ce rapport a pour sujet l’acquisition du geste humain par vision monoscopique et sa
mise en œuvre en temps réel. L’acquisition est réalisée au moyen d’une caméra
unique, sans marqueur et sans connaissance à priori sur les gestes observés du corps.
La technique consiste à recaler la partie supérieure d’un modèle humanoïde 3D articulé
du corps humain sur une séquence d’images segmentées par une classification sur la
couleur, tout en respectant des contraintes biomécaniques. Pour accélérer le temps de
calcul, nous avons travaillé dans une approche informatique
en profitant des
bibliothèques spécialisées pour la vision artificielle dans le traitement d’images, et du
pouvoir de rendu offert par des cartes graphiques modernes dans la modélisation et
l’ajustement.
Mots clés : Acquisition du geste, modèle articulé, biomécanique, segmentation,
recalage, optimisation, vision artificielle
Acquisition du geste humain par vision artificielle en temps réel
Page 2
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
Abstract
This paper presents a method and its real-time implementation for human gesture
acquisition by artificial vision with a single camera, without markers and without a priori
knowledge on observed gestures. The method consists in readjusting the upper part of
3D human articulated model on a segmented image sequence, using color classification
and respecting biomechanical constraints. In order to accelerate calculated time, we
worked in an approach, which benefits by the specialized libraries for the artificial vision
in the image processing, and of the capacity of rendering offered by modern graphics
cards in modelling and readjustment.
Key words: gesture acquisition, articulated model, biomechanical, segmentation,
readjustment, optimization, computer vision.
Acquisition du geste humain par vision artificielle en temps réel
Page 3
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
Liste des figures
Figure 1: Geste du mot « Bon » en langue des singes................................................................9
Figure 2: Contrôle à distance d’un poste TV..............................................................................17
Figure 3: Acquisition du geste par «Vision monoscopique et recalage du modèle 3D » ..........18
Figure 4: Modèle humain 3D et système de coordonnées utilisé..............................................20
Figure 5: Description hiérarchique du modèle H-ANIM .............................................................22
Figure 6: Structure hiérarchique des articulations du modèle humain 3D.................................23
Figure 7: Extraction manuelle de données.................................................................................25
Figure 8: Hiérarchie de dessin du modèle humain ....................................................................26
Figure 9: Cube de l’espace de couleurs RVB (RGB).............................................................. 267
Figure 10: Cône de l'espace de couleur HSV ........................................................................... 27
Figure 11: Image originale et son image de probabilités de la teinte de peau......................... 28
Figure 12: Image extraite (a), image classifiée de peau (b), image classifiée des habits (c) .. 29
Figure 13 : Opérations ensemblistes......................................................................................... 29
Figure 14: Image segmentée résultat........................................................................................ 30
Figure 15 : Ajustement du modèle 3D sur l’image segmentée ................................................. 31
Figure 16 : Image recalée.......................................................................................................... 32
Figure 17 : Couleurs considérables........................................................................................... 33
Figure 18: Architecture générale et interaction entre les modules principaux ......................... 36
Figure 19 : Résultats d’acquisition du geste humain ................................................................ 37
Figure 20: Transformations géométriques du simplexe............................................................ 41
Figure 21: Construction d’un simplexe initial dans l’espace R2 ............................................... 43
Figure 22: Transformation contrainte du simplexe.................................................................... 43
Figure 23: Descente du simplexe avec intégration des contraintes biomécaniques ............... 44
Acquisition du geste humain par vision artificielle en temps réel
Page 4
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
Liste des tableaux
Tableau 1: Contraintes biomécaniques des articulations ......................................................... 24
Tableau 2: APIs de OpenGL utilisés pour la modélisation du corps humain 3D...................... 25
Tableau 3: APIs de OpenCV utilisés pour le traitement des images........................................ 31
Tableau 4: Identification BAP des 23 degrés de liberté du modèle humain 3D ....................... 35
Tableau 5: Statistiques sur la performance d’acquisition du geste .......................................... 37
Acquisition du geste humain par vision artificielle en temps réel
Page 5
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
Liste des équations
Equation 1: Transformation de l’espace de couleurs (RVB – HSV) ......................................... 28
Equation 2 : Opérations ensemblistes....................................................................................... 29
Equation 3: Taux non-recouvrement ......................................................................................... 32
Equation 4 : Valeurs de couleurs considérables....................................................................... 33
Equation 5: Calcul de cardinal des ensembles pour taux non-recouvrement .......................... 33
Equation 6: Initialisation du simplexe ........................................................................................ 41
Acquisition du geste humain par vision artificielle en temps réel
Page 6
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
Table des matières
Remerciements ............................................................................................................ 1
Résumé ........................................................................................................................ 2
Abstract ........................................................................................................................ 3
Liste des figures ........................................................................................................... 4
Liste des tableaux......................................................................................................... 5
Liste des équations....................................................................................................... 6
Chapitre1: Introduction ................................................................................................. 9
1.1
Problématique...............................................................................................................9
1.2
Laboratoire d’accueil...................................................................................................10
1.2.1
Généralités..................................................................................................................... 10
1.2.2
Départements, unités et laboratoires............................................................................. 10
1.2.3
Département EPH.......................................................................................................... 11
1.2.4
Equipe Intermedia.......................................................................................................... 12
1.3
Aperçus du mémoire...................................................................................................15
Chapitre 2: Approche pour l’acquisition du geste humain par vision artificielle .......... 16
2.1
Etat de l’art ..................................................................................................................16
2.2
Vision monoscopique et recalage d’un modèle 3D articulé .......................................17
2.3
Problèmes du système antérieur................................................................................19
Chapitre 3: Mise en œuvre temps réel ....................................................................... 20
3.1
Modélisation du corps humain 3D ..............................................................................20
3.1.1
Présentation du modèle standard : H-ANIM.................................................................. 21
3.1.2
Conception du modèle humain 3D du système............................................................. 22
3.1.3
Mise en œuvre ............................................................................................................... 24
3.2
3.2.1
Traitement d’images ...................................................................................................26
Etat de l’art..................................................................................................................... 26
Acquisition du geste humain par vision artificielle en temps réel
Page 7
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
3.2.2
Identification des classes de couleur dans une image .................................................. 27
3.2.3
Elimination du bruit ........................................................................................................ 28
3.2.4
Combinaison des images classifiées............................................................................. 29
3.2.5
Mise en œuvre ............................................................................................................... 30
3.3
Comparaison entre le modèle 3D et l’image segmentée ...........................................31
3.3.1
Ajustement du modèle 3D sur l’image segmentée ........................................................ 31
3.3.2
Evaluation du recalage .................................................................................................. 32
3.4
Conversion des paramètres au format MPEG-4/BAP................................................34
3.5
Architecture du système et transaction entre des modules .......................................35
Chapitre 4: Résultats obtenus .................................................................................... 37
Chapitre 5: Conclusion et perspectives ...................................................................... 38
5.1
Conclusion ..................................................................................................................38
5.2
Perspectives................................................................................................................38
Annexe: Méthode d’optimisation des paramètres : Descente du simplexe................. 40
6.1
Construction d’un simplexe initial ...............................................................................42
6.2
Transformations contraintes du simplexe ..................................................................43
Bibliographie et références ......................................................................................... 45
Acquisition du geste humain par vision artificielle en temps réel
Page 8
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
Chapitre 1
Introduction
1.1 Problématique
Les gestes sont un moyen naturel et nécessaire de la communication humaine [1].
Dans la vie quotidienne, ils viennent ponctuer ou renforcer l’expression orale entre
personnes. Un geste peut être décrit comme une séquence de postures, le mouvement
effectué durant le geste ne porte pas généralement en lui-même une signification.
L’acquisition et la poursuite des gestes nous permettent donc d’animer des acteurs
virtuels, de les utiliser dans une interface homme-machine ou, à long terme de
reconnaître la langue des signes [3]. Par exemple, le geste dans la figure 1 montrent le
mot « Bon » dans la langue des signes.
Figure 1: Geste du mot « Bon » en langue des singes
Le but de mon stage est l’acquisition en temps réel des gestes réalisés devant une
caméra ou bien dans une séquence d’images enregistrées. Il s’agit d’un mouvement de
la moitié supérieure du corps humain comprenant le buste, la tête, les bras, les avantbras et les mains. Ce mouvement est représenté par des paramètres du modèle articulé
correspondant aux degrés des articulations (rotation et translation). L’acquisition des
gestes dans ce contexte signifie l’identification du positionnement spatial de chaque
partie [4].
Les paramètres acquis pour chaque mouvement sont actuellement convertis au
format MPEG-4/BAP. Ils sont soit enregistrés dans un fichier de type .bap, soit diffusés
en réseau pour être utilisés en entrée d’autres applications.
Acquisition du geste humain par vision artificielle en temps réel
Page 9
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
1.2 Laboratoire d’accueil
Dans le cadre de mon stage de fin d’études, j’ai eu l’occasion de travailler dans les
laboratoires de l’INT et plus précisément au sein de l’équipe Intermédia du département
EPH. Je voudrais aborder ci-dessous une présentation générale de l’INT, de ses
départements, et aussi des centres de recherche de l’équipe.
1.2.1 Généralités
L’Institut National des Télécommunications associe étroitement des compétences
scientifiques et managériales. Cette double compétence fait de l’Institut un acteur
majeur dans le domaine des sciences et
technologies de l’information et de la
communication (STIC) et, particulièrement, de l’Internet.
Crée en 1979, l’Institut fédère une école d’ingénieurs, TÉLÉCOM INT, une école de
management,
INT
MANAGEMENT,
un
centre
de
formation
continue,
INT
ENTREPRISES, une cellule accompagnateur (incubateur de nouvelles entreprises),
INT ENTREPRENEURIAT, ainsi qu’un centre de recherche, INT RECHERCHE,
composant du Groupe des Ecoles des Télécommunications (GET) RECHERCHE.
L’Institut, sous tutelle du ministère de l’industrie, fait parti du GET aux côtés de
l’ENST de Paris, l’ENST Bretagne, Eurécom, l’ENIC, et l’IAAI. Le GET est un
interlocuteur privilégié de tous les secteurs économiques en matière de formation
initiale et continue, de partenariat, de recherche, de recrutement et d’esprit
d’entreprendre. Grâce à son réseau de partenaires, l’INT est présent sur les cinq
continents par des conventions de partenariats et des coopérations scientifiques.
Le site web de l’INT est disponible sur :
1.2.2 Départements, unités et laboratoires
L'INT comprend les départements d'enseignement recherche suivants :
− Electronique et Physique (EPH)
− Communications, Images et Traitement de l'Information (CITI)
− Informatique (INF)
Acquisition du geste humain par vision artificielle en temps réel
Page 10
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
− Langues et Formation Humaine (LFH)
− Logiciels-Réseaux (LOR)
− Réseaux et Services des Télécommunications (RST)
− Sciences de Gestion (SGES)
− Systèmes d'Information (SI)
L’unité de Projets ARTEMIS conduit des recherches dans le domaine du traitement
d'Images Multi-dimensionnelles.
1.2.3 Département EPH
Les activités de recherche sont structurées autour de plusieurs pôles.
•
Intermedia
L'équipe
Intermédia,
encadrée
par
Bernadette
DORIZZI,
responsable
du
département EPH. Cette équipe s’intéresse aussi au traitement d’images, à l’acquisition
du geste, à l’acquisition multimodale Biométrique.
•
Optique, optoelectronique
Encadrée par Badr Eddine BENKELFAT, l’équipe cherche à développer de
nouveaux types de dispositifs optiques ou de nouveaux modèles de phénomènes
physiques, en rapport avec les développements actuels ou prévisibles, des systèmes
de télécommunications.
•
VLSI Analogique pour la vision artificielle
Le projet, dirigé par Yang NI, s'articule autour du concept "système de vision à base
de rétine", qui consiste à étudier et développer les capteurs d'images intelligentes
adaptées aux besoins de la vision artificielle. Les objectifs de recherche visent à
surmonter cette inadéquation en proposant des dispositifs et des structures nouvelles et
innovantes.
•
Localisation universelle
Acquisition du geste humain par vision artificielle en temps réel
Page 11
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
Avec l'essor du nomadisme et de la mobilité, un besoin fort en localisation émerge.
L’objectif du groupe de recherche est de proposer une solution permettant de regrouper
les meilleures performances dans un seul système qui se porte, ainsi, sur le Global
Positioning System (GPS), pour lequel est recherchée une solution de localisation à
l'intérieur de bâtiments (il est à noter que les grands constructeurs, tant du domaine de
la téléphonie mobile que de celui de la localisation, en font un enjeu de leur stratégie de
développement).
1.2.4 Equipe Intermedia
Profitant du regroupement de compétences existantes dans le domaine de la
reconnaissance de l’écriture manuscrite, des techniques d’apprentissage statistique, de
la vision par ordinateur et de l’acquisition du geste par la vision, l’équipe est née en
septembre 2000. Elle compte six permanents, Bernadette DORIZZI, responsable,
Patrick HORAIN, Ingénieur d’étude, Sonia SALICETTI et Jérôme BOUDY, maître de
conférence et André BIDEAU, et Jean-Louis Baldinger, Chargé d’enseignementrecherche. Les activités de recherche de l’équipe sont présentées comme suivantes :
•
RNTS MatchSlide et Videocell
MatchSlide, projet compétitif, a reçu en 2001 le label du RNTS et a commencé en
2002 pour une durée de 2 ans. Il est consacré au développement d'une "application de
l'imagerie numérique à la relecture de lames en réseau dans le cadre de protocoles
diagnostiques en hématologie". Celui-ci a pour but de permettre à un réseau d'experts
répartis dans toute la France de relire et d'interpréter des lames de microscope sur
support électronique, et ainsi d’éviter l’échange physique des lames qui pouvait
entraîner un retard de plusieurs années.
Videocell contribue à ce projet par des applications telles que la mesure de netteté
et la profondeur de champs étendue sur ces grands champs.
Acquisition du geste humain par vision artificielle en temps réel
Page 12
Mémoire de fin d’études (DEPA - IFI)
•
Nguyen Manh Hung
TIM (Traitement d’images)
Dans le cadre de la collection pédagogique hypermédia « En questions » élaborée
par son Centre de Ressources en Innovation Pédagogique et Technologie (CRIPT), le
Groupe des écoles des télécommunications a entrepris en partenariat avec des
établissements universitaires le développement de didacticiels sur cédéroms. Patrick
HORAIN coordonne le contenu du CD Rom « Traitement d’images en questions ».
•
Télémédecine
Le groupe oriente ses travaux sur la conception d’un " dispositif multiservices
modulaire pour le maintien à domicile et le suivi médical à distance ".
1. Un système d’aide à la prescription accessible via Internet par un médecin
itinérant ;
2. Une base de données d’images médicales ;
•
Acquisition de gestes par la vision
1. Projet Télémondes : Dans le contexte de la télévirtualité et des mondes virtuels
habités, il a pour objet l'étude de nouveaux services de communication
interpersonnelle à distance médiatisée par des représentations virtuelles ou
avatars. Ceux-ci sont animés conformément à une personne observée par vision
artificielle monoscopique et sans marqueur. Les usages de ces mondes virtuels
ont été explorés pour la formation à distance et pour le commerce électronique.
2. Projet LSF(Langue des Signes Française) avec l’INRIA. L'acquisition des gestes
peut être effectuée au moyen de gants instrumentés qui se révèlent chers,
fragiles et encombrants. L'utilisation de caméras permet de lever cette contrainte,
en utilisant des marqueurs colorés ou lumineux placés sur la personne observée.
Les techniques de vision par ordinateur, stéréo ou monoscopique, ouvrent la
voie pour des travaux de recherche sur l'acquisition des gestes sans marqueurs.
Mon stage fait partie de ce projet en accélérant la puissance de l’acquisition en
temps réel.
Acquisition du geste humain par vision artificielle en temps réel
Page 13
Mémoire de fin d’études (DEPA - IFI)
•
Nguyen Manh Hung
Vérification biométrique d’identité
1. Le projet Biomet : Vérification biométrique multimodale de l'identité grâce à la
fusion de plusieurs modalités comme l’authentification de signatures, l’analyse
du visage, des empreintes digitales et de la forme de la main, l’authentification
du locuteur.
2.
La reconnaissance des signatures dynamiques : acquisition de caractéristiques
de la signature au cours du temps, comme par exemple la pression du stylo sur
la tablette à digitaliser, l'inclinaison du stylo par rapport à cette dernière, etc.
•
Développement de nouvelles interfaces pour le stylo électronique
1. Projet REMUS (Reconnaissance d’écriture manuscrite) : travaux sur la
reconnaissance de l’écrit manuscrit dynamique et sur les interfaces qui utilisent
le stylo électronique.
2. Projet LADIA (Lecture Active de Documents Multimédia).
•
Segmentation dynamique et inversion de données sismiques
Deux thèmes sont abordés dans ce projet:
1. Etudier l'apport des techniques neuronales pour la tomographie sismique
2. Etudier l'apport les techniques markoviennes pour la classification de lithologies
Acquisition du geste humain par vision artificielle en temps réel
Page 14
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
1.3 Aperçus du mémoire
La suite de ce mémoire est organisée en trois chapitres et une annexe :
Chapitre 2 : La présentation sur l’état de l’art sur des approches d’acquisition du
geste humain, l’approche de base de notre travail: Vision monoscopique et recalage
d’un modèle 3D, des problèmes dans l’application antérieure.
Chapitre 3 : La description du travail effectué pendant le stage, des nouvelles
technologies utilisées, des modifications sur le programme ancien pour atteindre une
acquisition du geste en temps réel.
Chapitre 4 : Les résultats obtenus.
Chapitre 5 : La conclusion et les perspectives.
Annexe : La description de la méthode utilisée pour optimiser les paramètres dans
le processus de recalage : Descente du simplexe.
Acquisition du geste humain par vision artificielle en temps réel
Page 15
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
Chapitre 2
Approche pour l’acquisition du geste humain par
vision artificielle
2.1 Etat de l’art
Les méthodes d’acquisition du geste par vision artificielle peuvent être divisées
selon deux approches : d’une part l’analyse des aspects 2D d’une image et d’autre part
la modélisation 3D [5].
Les méthodes basées sur l’approche 2D ne peuvent généralement reconnaître
qu’un nombre limité de gestes et ce souvent après un procédé d’apprentissage.
L’approche 3D tire avantage de la connaissance préalable de la forme d’un modèle et
de la possibilité d’appliquer des transformations géométriques afin de le déformer. Il est
alors nécessaire d’utiliser la stéréovision ou plus de deux caméras pour acquérir
l’information, ce qui constitue un procédé lourd et coûteux [5]. Kuno et al. ont proposé
une méthode pour la manipulation d’objets 3D dans des scènes virtuelles par estimation
de la position, de la direction et de l’orientation d’un doigt. En plus, le système utilise 2
caméras, un marqueur le long du doigt et quatre autres placés sur le corps. Millar et
Crawford déterminent directement (sans itération) les valeurs de liberté du modèle à
partir des positions 3D des doigts et du poignet désignés interactivement dans des
paires d’images stéréo [3].
Il existe cependant des méthodes d’acquisition du geste qui ne demandent qu’une
seule caméra avec ou sans marqueur. Yoshino et al. utilisent des histogrammes de
couleurs pour la reconnaissance de la langue de signes japonaise. L’utilisateur porte un
gant avec plusieurs marqueurs. La reconnaissance est effectuée par estimation des
déformations de la main détectées à partir des changements de moyennes
d’histogrammes de couleur associés aux différents marqueurs du gant. Chaque
déformation correspond à une posture. Une posture est identifiée dans une bibliothèque
construite durant une phase d’apprentissage par estimation de 3 paramètres : la
combinaison des couleurs des marqueurs visibles, leurs dispersions ainsi que la
direction de la main [3]. Cutler et Turk utilisent ainsi la taille et le déplacement de
Acquisition du geste humain par vision artificielle en temps réel
Page 16
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
taches dans l’image pour reconnaître le mouvement. Brand et Freeman utilisent des
Modèles de Markov Cachés pour estimer l’orientation 3D d’un corps à partir de
silhouettes en basse résolution. Freeman et al. ont proposé une méthode de suivi pour
la commande à distance d’un poste de télévision. L’opérateur utilise une seule posture
(une main ouverte) et contrôle le poste TV en déplaçant sa main (figure 2). Quand une
main ouverte est détectée (la forme prototype), une fenêtre graphique apparaît sur
l’écran permettant à l’utilisateur d’effectuer l’opération de contrôle. Cette détection est
réalisée par une corrélation normalisée aux changements d’éclairage [3],[6].
Figure 2: Contrôle à distance d’un poste TV
2.2 Vision monoscopique et recalage d’un modèle 3D articulé
C’est l’approche de base de notre travail qui a été proposée par M. BOMB et P.
HORAIN [1] à l’INT. Cette méthode permet d’acquérir des paramètres 3D du modèle
articulé à partir d’images fournies par une seule caméra. Elle n’utilise pas de systèmes
à base de gants instrumentés ou de marqueurs lumineux ce qui réduit la complexité de
mise en œuvre. Elle ne demande pas non plus de connaissance préliminaire du geste
qui va être effectué [5]. Autrement dit, il s’agit d’une acquisition du geste au moyen
d’une caméra unique, sans marqueur et sans connaissance à priori sur les gestes du
corps observés.
La procédure d’acquisition consiste à la recherche de la bonne correspondance
entre l’image d’une séquence vidéo (capturée par caméra ou enregistrée) d’un
mouvement, segmentée suivant des paramètres de couleur, et la projection d’un
Acquisition du geste humain par vision artificielle en temps réel
Page 17
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
modèle 3D du corps contraint par des limitations biomécaniques. Par cette méthode, il
est possible de compenser le manque d’information pour caractériser le geste en 3
dimensions du fait de la présence d’une seule caméra.
Un algorithme itératif d’optimisation est utilisé afin de minimiser le taux de nonrecouvrement du recalage du modèle 3D sur l’image segmentée. Vous pouvez
également trouver d'autres détails concernant la description de la méthode
d’optimisation dans l’annexe de ce mémoire.
Généralement, cette approche peut être décrite dans la figure suivante:
Image extraite
Segmentation d’image
Mouvement du modèle
Projection du modèle
sur l’image segmentée
Extraction des paramètres
Evaluation du recalage
Non
Oui
Supprimé : ¶
Meilleur recalage
Position trouvée
Figure 3: Acquisition du geste par «Vision monoscopique et recalage du modèle 3D »
Acquisition du geste humain par vision artificielle en temps réel
Page 18
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
2.3 Problèmes du système antérieur
Au cours du stage de A. DESLANDES [5] à l’INT en 2002, il a développé un
programme d’acquisition du geste humain suivant le processus dans [1]. Ce programme
obtient un bon résultat au point de vue d’implémentation des algorithmes, il acquit
correctement des gestes à partir d’une séquence vidéo enregistrée. En revanche, c’est
un système très difficile à s’adapter et il n’exécute pas en temps réel. Le taux
d’acquisition est d’environ quinze minutes par image.
Notre travail a pour but d’améliorer ce système pour qu’il atteigne le temps réel en
utilisant de nouvelles techniques de programmation. Après avoir fait une étude sur ce
programme, nous avons découvert des inconvénients suivants :
•
La modélisation du corps et les transformations associées sont calculées
manuellement. Ce processus est répété plusieurs fois en cours d’exécution
du programme
•
La segmentation nécessite des calculs mathématiques très coûteux.
•
La segmentation d’images et l’optimisation du recalage ont besoins d’accéder
à la mémoire de masse pour charger et stocker des données et des images
supplémentaires.
•
La classification sur la couleur, la segmentation et l’optimisation sont
réalisées dans trois différents programmes.
•
Des structures de données utilisées sont très complexes, l’organisation du
code dans chaque module est très lourde avec plusieurs lignes de code.
Dans le prochain chapitre du mémoire, nous trouverons de nouvelles approches
que nous avons utilisées et la description du travail effectué pour résoudre ce problème
en temps réel.
Acquisition du geste humain par vision artificielle en temps réel
Page 19
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
Chapitre 3
Mise en œuvre temps réel
3.1 Modélisation du corps humain 3D
Le modèle humain 3D articulé que nous utilisons possède 23 degrés de liberté qui
permettent de restituer beaucoup de postures [5]. Il correspond à la moitié supérieure
du corps humain (buste, tête, bras, avant-bras et mains).
Figure 4: Modèle humain 3D et système de coordonnées utilisé
Etant donné l’approche de base du problème (cf. 2.1.2), la projection du modèle sur
une image segmentée risque de perdre de l’information pour caractériser le geste en 3
dimensions, du fait de la présence d’une seule caméra. OUHADDI [3] a proposé
d’utiliser un modèle volumique, ce modèle ainsi que le système de coordonnées utilisé
sont présentés en figure 4 ci-dessus.
Acquisition du geste humain par vision artificielle en temps réel
Page 20
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
3.1.1 Présentation du modèle standard : H-ANIM
Il y a beaucoup d'approches pour modéliser le corps humain. La plupart de ces
méthodes ont été conçues pour atteindre des objectifs spécifiques tels qu’une
sculpture, une animation faciale, une animation robotique, etc. [7].
La difficulté
commune dans la modélisation est souvent de choisir le bon objet pour décrire une
partie du modèle. Peter RATNER [7] s’est basé sur le calcul de la taille moyenne
humaine, des connaissances humaines anatomiques. Manuel JENNI [8] a proposé un
mouvement du modèle DODY calculé par les vecteurs orthonormés dans le « nuage
des points » entre deux images successives de la séquence vidéo. Ghinwa KRAYEM et
Rola ZAITER [9] ont choisi la modélisation humaine par des cônes, des sphères et des
de parallélépipèdes pour le même problème que le nôtre.
Nous avons trouvé que le modèle humanoïde de la norme H-Anim [10] s’adapte
bien à notre modélisation. Il décrit le corps humain par une structure hiérarchique
d’articulations et de segments. Les segments tels que le buste, la tête, le bras… sont
connectés entre eux par des articulations, telles que l’épaule, le coude… Chaque
segment du modèle humain peut être défini par un maillage de polygones. L’animation
du modèle est réalisée par une modification des valeurs des degrés de liberté associés
aux articulations. Elle prend aussi en compte les limitations des mouvements des
jointures par l’intégration des contraintes biomécaniques.
Un modèle hiérarchique H-Anim contient un ensemble de nœuds d’articulation et un
nœud d’articulation peut contenir d’autres nœuds d’articulation ainsi qu’un nœud
segment qui décrit la partie du corps correspondant à cette articulation. La figue 5
montre une hiérarchie du modèle H-Anim, son étude est précisément décrite en [10].
Les représentations actuelles en VRML [11] s’adaptent parfaitement aux
spécifications un contenu dans H-Anim. Cela nous permet facilement de trouver les
données disponibles pour modéliser le corps humain et les calculs pour effectuer une
transformation sont très rapides
Acquisition du geste humain par vision artificielle en temps réel
Page 21
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
Figure 5: Description hiérarchique du modèle H-ANIM
3.1.2 Conception du modèle humain 3D du système
Les gestes qui sont acquis
par notre système concernent les mouvements du
buste, de la tête, des bras, des avant-bras et des mains. En nous basant sur la
description du modèle H-Anim, nous avons modélisé la moitié supérieure du corps
humain par 9 articulations : la racine humanoïde (humanoidRoot), le cou (vc4), la tête
(skullbase), l’épaule gauche (left shoulder), le coude gauche (left elbow), le poignet
gauche (left wrist), l’épaule droit (right shoulder), le coude droite (right elbow), le poignet
droit (right wrist). La structure hiérarchique de ces articulations (figure 6) est modifiée
par rapport à celle de H-Anim en respectant la structure hiérarchique des articulations.
Acquisition du geste humain par vision artificielle en temps réel
Page 22
Mémoire de fin d’études (DEPA - IFI)
Nguyen Manh Hung
Figure 6: Structure hiérarchique des articulations du modèle humain 3D
La transformation [12] d’une articulation et du segment associé du modèle est
réalisée de façon à ce qu’un mouvement qui s’applique au père entraîne aussi le
déplacement de ses fils. Par exemple : tout le modèle va tourner simultanément quand
nous faisons une seule rotation sur le buste, une rotation de l’avant bras gauche se
propagera à la main gauche uniquement. Cette opération change de valeur des degrés
de liberté des articulations que nous avons considérés comme les paramètres du
modèle dont les variations sont strictement limitées par des contraintes biomécaniques.
Le tableau ci-dessous défini les limitations des angles des rotations. Ces valeurs
exprimées dans le système de coordonnées de la figure 4 sont données en degrés. Les
valeurs des translations du corps (Translation X du buste, translation Y du buste et
translation Z du buste) ont été manuellement déterminées en cours d’exécution pour
que le modèle soit bien situé dans la scène puis qu’elles dépendent du rapport utilisé
pour définir le système de coordonnées.
En outre, nous avons également appliqué trois paramètres supplémentaires de
mise à l’échelle pour chaque articulation et son segment correspondant pour ajuster au
mieux la taille du modèle pour chaque acteur dont nous désirons acquérir les gestes.
Acquisition du geste humain par vision artificielle en temps réel
Page 23
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
Indice
Nom du paramètre
Valeur minimale
Valeur maximale
01
Rotation X du buste
-45
45
02
Rotation Y du buste
-360
360
03
Rotation Z du buste
45
45
04
Rotation X de la tête
-60
60
05
Rotation Y de la tête
-79
79
06
Rotation Z de la tête
-41
41
07
Rotation X du bras gauche
-180
25
08
Rotation Y du bras gauche
-150
70
09
Rotation Z du bras gauche
-20
134
10
Rotation X du bras droit
-180
25
11
Rotation Y du bras droit
-70
150
12
Rotation Z du bras droit
-134
20
13
Rotation X de l’avant-bras gauche
-180
0.1
14
Rotation X de l’avant-bras droit
-180
0.1
15
Rotation X de la main gauche
-20
20
16
Rotation Y de la main gauche
-360
360
17
Rotation Z de la main gauche
-37
27
18
Rotation X de la main droite
-20
20
19
Rotation Y de la main droite
-360
360
20
Rotation Z de la main droite
-27
37
Tableau 1: Contraintes biomécaniques des articulations
3.1.3 Mise en œuvre
Le modèle est formé par des 9 articulations avec des données de maillage qui sont
manuellement extraites d’un fichier VRML de façons à ce que nous fassions facilement
la lecture. En effet, nous nous sommes intéressés au centre (center) de chaque
articulation, aux points (p1…pn) et aux
polygones (c1…cp) du maillage du segment
associé. Par exemple, l’extraction de l’épaule gauche a été effectuée comme dans la
figure 7. Ce processus pourra être prochainement directement réalisé à partir d’un
parsing du fichier VRML.
La technique de synthèse d’images a été utilisée pour modéliser du corps humain,
nous avons choisi la bibliothèque graphique OpenGL qui est capable de communiquer
Acquisition du geste humain par vision artificielle en temps réel
Page 24
Nguyen Manh Hung
Mémoire de fin d’études (DEPA - IFI)
avec les matériels graphiques. Cela nous permet d’améliorer la performance
d’exécution du programme.
part{
name: l_shoulder
0.167 1.36 -0.0518
mesh{
n
p
nodes{
DEF hanim_l_shoulder Joint {
name "l_shoulder"
center 0.167 1.36 -0.0518
(. . .)
geometry IndexedFaceSet {
coord Coordinate {
point [ p1, p2, ...pn]
}
coordIndex [ c1 –1 c2 –1… cp -1]
}
p1
…
pn
}
polygons{
c1
…
cp
}
}
}
}
VRML
Données redéfinies
Figure 7: Extraction manuelle de données
OpenGL se compose d’environ 250 commandes distinctes que nous utilisons pour
définir les objets et les opérations nécessaires à la génération d’applications
interactives tridimensionnelles [14]. La construction du segment de chaque articulation
est définie par une liste affichage et des opérations de transformation géométrique sont
suffisamment utilisées pour le mouvement des parties du corps. Les APIs de OpenGL
que nous avons utilisés sont décrits comme les suivants :
Indice
APIs de OpenGL
Utilisation
01
glNewList(); … glEndList();
Définition d’une liste d’affichage
02
glCallList() ;
Exécution d’une liste d’affichage
03
glBegin() ; … glEnd() ;
Définition d’une géométrie à dessiner
04
glTranslatef() ;
Réalisation des transformations géométriques
glRotatef() ;
glScalef() ;
05
glColor3ubv() ;
Mise en couleur du segment
Tableau 2: APIs de OpenGL utilisés pour la modélisation du corps humain 3D
Acquisition du geste humain par vision artificielle en temps réel
Page 25