Une nouvelle approche dévaluation pour les algorithmes dinterprétation automatique de vidéos

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (441.03 KB, 36 trang )

Une nouvelle approche d'évaluation pour les
algorithmes d'interprétation automatique de
vidéos

Mémoire de n d'études
Master d'Informatique

Etudiant : NGHIEM Anh-Tuan
Sous la direction de :

Monique THONNAT
et

François BREMOND
Institute de la francophonie pour l'informatique
Octobre 2006

Résumé
Dans cette mémoire, nous présentons une nouvelle approche pour mieux évaluer la performance de systèmes d'interprétation de vidéos. Les méthodes
d'évaluation courantes dépendent fortement d'une base de vidéos. Le résultat
d'évaluation peut être diérent si nous changeons la base de vidéos. La diérence est principalement due au contenu de séquences de vidéos qui contient
en même temps plusieurs problèmes de traitement de vidéos (le changement
de l'illumination, le contraste faible etc) à diérents niveaux de diculté.
Par conséquent, c'est dicile d'extrapoler le résultat d'évaluation sur des
nouveaux séquences. Dans cette mémoire nous proposons une méthodologie
d'évaluation qui aide à réutiliser le résultat d'évaluation. Nous essayons d'isoler chaque problème et de dénir des mesures quantitatives pour calculer le
niveau de diculté relativement au problème donné. Le niveau maximum
de diculté auquel la performance d'un algorithme est assez bon est déni
comme la borne supérieure de la capacité de cet algorithme pour résoudre le
problème donné. Pour illustrer cette méthodologie, nous présentons les mesures qui évaluent la performance d'algorithmes en résoudre le problème de

contraste faible et le problème des ombres.

Table des matières
1 Introduction
1.1

1.2

Système d'interprétation de vidéos . .
1.1.1 Détection d'objets mobiles . . .
1.1.2 Classication d'objets mobiles .
1.1.3 Suivi d'objets . . . . . . . . . .
1.1.4 Reconnaissance des événements
Motivation . . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.

.
.
.
.
.
.

.
.
.
.
.
.

2 Etat de l'art
2.1
2.2

Travaux individuels . . . . . . . . . . . . . . . . . . . . . . . .
Workshops et Projets d'évaluation . . . . . . . . . . . . . . . .

1

1
1
2
2

2
3

5

5
5

3 ETISEO : un programme d'évaluation de système d'interprétation de vidéos
7
3.1
3.2
3.3
3.4
3.5

Objectifs . . . . . . . . .
Méthodologie . . . . . .
Base de données . . . . .
Limitations . . . . . . .
Contribution à ETISEO

.
.
.
.
.

.
.

.
.
.

.
.
.
.
.

4 Approche proposée
4.1
4.2

4.3

.
.
.
.
.

.
.
.
.
.

.
.

.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.

.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . .
Détection des objets faiblement contrastés . . . . . . . . . .

4.2.1 Description de problème . . . . . . . . . . . . . . . .
4.2.2 Mesure d'un niveau de contraste d'un pixel . . . . . .
4.2.3 Mesure d'un niveau de contraste d'une bande . . . .
4.2.4 Mesure des niveaux de contraste d'un blob . . . . . .
4.2.5 Mesure de la capacité des algorithme pour résoudre le
problème de détecter des objets faiblement contrastés
Manipulation des objets mélangés aux ombres . . . . . . . .
4.3.1 Problème de manipulation des ombres . . . . . . . .
i

. 7
. 7
. 8
. 9
. 10
.
.
.
.
.
.

11

11
12
12
13
13
15

. 16
. 18
. 18

4.3.2
4.3.3

Mesure de niveaux de contraste des ombres . . . . . . . 18
Capacité des algorithmes en détectant des ombres . . . 19

5 Expérimentation
5.1
5.2

Détection des objets faiblement contrastés . .
5.1.1 Sélection des séquences de vidéos . . .
5.1.2 Résultat d'évaluation . . . . . . . . . .
Manipulation des objets mélangés aux ombres
5.2.1 Sélection des vidéos . . . . . . . . . . .
5.2.2 Résultat d'évaluation . . . . . . . . . .

6 Conclusion

.
.
.
.
.

.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

20

20
20
21
28
28
28

30

ii

Chapitre 1
Introduction
1.1 Système d'interprétation de vidéos
Aujourd'hui, les systèmes de vidéo surveillance deviennent très populaires. Normalement, ces systèmes sont contrôlés par des opérateurs humains
pour détecter des événements dangereux ou inattendus comme un combat
ou une blocage d'un passage. Pourtant, le travail de regarder aux plusieurs
écrans de plusieurs cameras est très dur pour les opérateurs parce qu'ils
doivent concentrer pendant une période très longue. Alors, on essaie de créer
des système d'interprétation automatique de vidéos qui facilitent le travail
des opérateurs humains. Le but de ces système est de détecter automatiquement des événements pré-dénis par des experts humains et d'envoyer une
alarme aux opérateurs quand ils détectent un tel événement.
Un système d'interprétation de vidéos se compose des modules suivants :
détection des objets mobiles, classication des objets, suivi des objets, reconnaissance des événements.

1.1.1 Détection d'objets mobiles
Ce module est pour but de détecter des objets comme les personnes, les
voitures qui apparaissent dans la scène de surveillance. Son entrée est la ux
de vidéo de la scène contenant des objets mobiles et sa sortie est les régions

qui correspondant à ces objets. L'objectif de ce module est de déterminer des
régions qui ne couvrent que tous les pixels appartenant aux objets dans la
scène. Alors, le problème le plus dicile est de détecter des pixels des objets
qui sont très peu contrastés et en même temps éliminer des pixels de bruit
comme les ombres ou les régions ayant le changement de l'illumination.

1

Fig. 1.1 Les taches principales d'une système d'interprétation de vidéos

1.1.2 Classication d'objets mobiles
L'objectif de ce module est de assigner les régions détectées par le module
de détection des objets à une catégorie pré-dénie comme une personne, une
voiture ou un groupe de personnes. Ce module doit sourir la décience du
module de détection comme le manque d'une partie d'une région correspondant à un objet ou la fausse inclusion de bruit etc. De plus, il doit résoudre
le problème de la perte d'information à cause de la projection de l'espace 3D
des objets au l'espace 2D de l'image.

1.1.3 Suivi d'objets
Ce module est pour but de relier les régions du même objet dans des
frames diérents pour avoir une trajectoire de mouvement de l'objet donné.
Cette tâche n'est pas toujours facile parce qu'il y a des cas où les modules
précédents ne peuvent pas détecter des objets mobile dans quelques frames.
En outre, il devient plus dicile dans des scène complexes où il y a des
occlusions comme le mur ou plusieurs personnes se croisent.

1.1.4 Reconnaissance des événements
Son objectif est de reconnaître des événements pré-dénis par des experts
humains. Cette tâche est très dicile parce que la plupart d'événements réels

2

sont très compliqués. Par exemple, l'événement de vandalisme d'une machine
de café peut durent longtemps et impliquent plusieurs personnes et objets. De
plus, parce que ce module est la dernier module d'un système d'interprétation
de vidéos, il doivent sourir de toutes les erreurs accumulés pendant tous les
modules précédents.

1.2 Motivation
Avec le développement des systèmes d'interprétation de vidéos, beaucoup
d'algorithmes sont proposés et chacun est conçu pour résoudre les problèmes
d'un type particulière de scène. Par exemple, un algorithme peut bien gérer
le changement d'illumination d'une scène extérieure mais il a des diculté à
détecter des objets peu contrastés. Alors, l'évaluation de performance pour
sélectionner les algorithmes convenables à une scène particulière devient très
important.
Normalement, pour faire évaluation, on collecte un ensemble de séquences
de vidéos ainsi que la vérité terrain illustrant les problèmes on veut tester.
La performance d'un algorithme indique seulement comment bon il traite
cet ensemble de séquences. Bien qu'adopté par beaucoup de projets, cette
approche contient deux limitations principales.
Premièrement, le résultat d'évaluation dépend de l'ensemble particulier
de séquences de vidéos. Autrement dit, il peut changer nettement avec un
nouvel ensemble de séquences d'évaluation. La raison est que chaque vidéo
séquence contient plusieurs problèmes de traitement de vidéos à plusieurs
niveau de diculté et le résultat nal est aecté par tous ces facteurs. Avec
la nouvelle séquence, on a une nouvelle combinaison de problèmes. Ainsi, la
performance d'algorithmes sur cette séquence est imprévisible.
Deuxièmement, un système d'interprétation de vidéos est habituellement

conçu pour une condition spécique (une scène extérieure/intérieure, une
scène contenant le changement rapide/lent d'illumination etc.) Pourtant, il
n'y a aucune mesure quantitative de calculer le niveau de diculté d'une
séquence de vidéo relativement à un problème donné. Par conséquent, nous
ne savons pas jusqu'à quel niveau de diculté d'un problème donné, un
algorithme peut avoir une performance acceptable.
Cette mémoire propose une méthodologie d'évaluation qui aident à réutiliser le résultat d'évaluation. Nous essayons d'isoler chaque problème de traitement de vidéo et de dénir des mesures quantitatives pour calculer le niveau
de diculté d'une vidéo relativement au problème donné. Le niveau maximum de diculté des vidéos auquel l'algorithme a une performance assez
bonne est déni comme la borne supérieure de la capacité d'algorithme pour
3

manipuler le problème. Pour illustrer cette méthodologie, nous présentons
les métriques qui évaluent la performance d'algorithmes relativement aux
problèmes de détecter des objets faiblement contrastés et de manipuler des
ombres.

4

Chapitre 2
Etat de l'art
2.1 Travaux individuels
Il y a beaucoup de travaux individuels sur l'évaluation de quelques aspects
des systèmes d'interprétation de vidéos. Par exemple, [1] caractérise des algorithmes de détection d'objet en utilisant les métriques comme la détection
correcte, les échecs de détection, le nombre de scindement, fusions et la surface d'intersection. [2] présente la métrique pour mesurer la similarité entre
deux trajectoire pour évaluer la tâche de suivi. [3] présente une cadre utilisant des vidéos pseudo synthétique pour evaluer la performance de suivi. [4]
utilise les metriques comme vrai positif, faux positif, vrai négatif, faux négatif
pour évaluer la performance des algorithmes de détection des ombres. Pour
un survol plus complet des travaux d'évaluation des performances, voir [5].

Néanmoins, ces travaux ont peu d'inuence sur la communauté de recherches
parce qu'ils ne constituent pas une plate-forme d'évaluation complet permettant d'évaluer des nouveaux algorithmes. D'ailleurs, leur base de données
n'est pas assez grand pour avoir des résultats ables d'évaluation.

2.2 Workshops et Projets d'évaluation
Pour répondre au besoin d'avoir une base de vidéos annotés disponible
au publique, on a créé plusieurs projets (CAVIAR [7]) et workshops (PETS
[6]) d'évaluation. Ces programmes de recherche fournissent les séquences de
vidéos à plusieurs niveaux de diculté ainsi que la vérité terrain associée.
Néanmoins, parce que les gens participant aux workshops tels que PETS
choisissent les séquences de vidéos souvent arbitrairement et évaluent leur algorithme en utilisant la métrique dénie par eux-mêmes, la comparaison de la
performance avec d'autres algorithmes est dicile. D'autres programmes tels
5

que [10], [8], [9] essayent de surmonter ce problème en fournissant la métrique
et l'ensemble de données standard pour évaluer la performance de diérents
algorithmes. Cependant ils sourent toujours de plusieurs problèmes :
Le niveau de diculté est estimé manuellement par des experts. Pour la
même séquence, deux experts peuvent assigner deux diérents niveaux
de diculté.
Une séquence de vidéo peut contenir plusieurs problèmes à diérents
niveaux de diculté. Tous ces problèmes contribuent au niveau de
diculté des données d'entrée de l'algorithme (par exemple la vidéo
pour l'algorithme de détection d'objet).
Par conséquent, il y a plusieurs façons de combiner les problèmes qui
produisent le même niveau de diculté. En conséquence, le rang d'un
algorithme sur deux séquences au même niveau de diculté peut être
diérent parce que cet algorithme est ecace relativement à un problème particulier.
L'extrapolation des résultats d'évaluation pour une nouvelle vidéo est

presque impossible. La performance d'un algorithme sur une nouvelle
séquence est estimée en se basant sur sa performance sur la séquence
la plus similaire dans la base de vidéos d'évaluation. Le choix de la
séquence la plus similaire et la prévision de l'exécution basée sur la
similarité de deux séquences sont souvent subjectifs et imprécis.
Le processus d'évaluation ne permet pas d'obtenir des connaissances
techniques de chaque algorithme de traitement de vidéos. En particulier, le processus d'évaluation ne détermine pas les travaux nécessaires
à faire pour améliorer l'algorithme (quelle amélioration est la plus cruciale) pour avoir une performance satisfaisante sur une condition donnée de l'environnement.

6

Chapitre 3
ETISEO : un programme
d'évaluation de système
d'interprétation de vidéos
ETISEO est le progamme d'évaluation dans laquelle je travaille. Dans ce
chapitre je vais présenter ETISEO et ma contribution à ce programme.

3.1 Objectifs
ETISEO, un des dernière programmes d'évaluation, a essayé d'aborder
ces questions. Un des objectifs principaux d'ETISEO est acquisition de la
connaissance précise des algorithmes de vision. En d'autres termes, ETISEO
essaye de souligner les dépendances entre les algorithmes et leurs conditions
d'utilisation. À la n du projet forces et faiblesses des algorithmes aussi
bien que des problèmes non résolus devrait être accentué.

3.2 Méthodologie
La méthodologie d'ETISEO est comme suivante :
Essayer de traiter chaque problème de traitement de vidéos séparément

en dénissant le problème correctement. Par exemple, nous devons traiter au moins trois types des ombres séparément : (1) des ombres à différents niveaux d'intensités ( les ombres très contrastée ou peu contrastée) avec le fond uniforme et non-coloré (2) des ombres au même niveau
d'intensité mais avec des diérents types des fond en termes de couloir
et de texture. (3) des ombres avec des diérentes sources d'illumination
en termes de position de sources et de longueur d'ondes.
7

Pour chaque problème, collecter des séquences de vidéos illustrant seulement le problème courant. Ces séquences doivent illustrer le problème
à diérents niveaux de dicultés. Par exemple, pour le problèmes des
ombres et niveau d'intensité, nous devons sélectionner des séquences
contenant des ombres à diérents niveaux d'intensité (plus ou moins
contrastés).
Filtrer et extraire des parties convenables de la vérité terrain de séquences sélectionnées pour isoler des problèmes de traitement de vidéos. Par exemple, pour la tâche de détection des objets, nous pouvons
évaluer la performance des algorithmes relativement au problème de
détecter des objets occlus en considérant seulement la vérité terrain
contenant des objets occlus.
Pour la tâche donnée (détection d'objets, suivi, classication d'objets
et reconnaissance d'événements), dénir un nombre susamment des
métriques pour mesurer et caractériser la performance des algorithmes
en des aspects diérents.
Calculer les données de référence qui correspondent à la sortie prévu
de l'algorithme à évaluer relativement à une tâche donnée de traitement de vidéos. Les données de référence sont calculées à partir de la
vérité terrain fournie par les opérateurs humains et peuvent être améliorées pour correspondre mieux aux résultats prévus. Par exemple, au
lieu d'évaluer les positions d'objets mobiles de la vérité terrain (2Dpoints), nous pouvons employer des données de la référence 3D-point
pour mesurer la position de l'objet 3D.
Utiliser un outil d'évaluation automatique et unique pour analyser
exactement comment un algorithme donné résoudre un problème donné.

3.3 Base de données
Dans ETISEO, pour chaque séquence de vidéos, il y a trois types de

données :
La vérité terrain (par exemple les rectangles de borne d'objets, la classe
d'objet, l'événement etc.) donnée par les opérateurs humains à chaque
niveau de quatre tâches de traitement de vidéos.
L'annotation générale sur les séquences de vidéo concernant des problèmes de traitement de vidéos(par exemple ombres faibles) ou concernant les états d'enregistrement (par exemple conditions atmosphériques
telles que le jour ensoleillé).
La calibration de la caméra et l'informations contextuelles sur la scène
vide décrivant la topologie de la scène (par exemple zone d'intérêt).
8

Tab. 3.1 ETI-VS1-BE-18-C4 : l'évaluation d'ETISEO sur la tâche de dé-

tection d'objets

Participant

8

1

11

13

22

12

Précision

0.69

0.79

0.49

0.39

0.30

0.98

Sensitivité

0.71

0.42

0.48

0.42

0.40

0.16

F-Score

0.7

0.55

0.48

0.41

0.34

0.27

Tab. 3.2 ETI-VS1-BE-18-C4 : l'évaluation de la tâche de suivi

Participant

11

1

13

8

12

Suivi

0.47

0.45

0.42

0.4

0.19

Dans ETISEO, toutes séquences de vidéos (environ 40 séquences) sont
choisies et classiées selon les problèmes qu'ils illustrent. Ces séquences ont
été traitées par 23 équipes internationales participant au programme d'évaluation.

3.4 Limitations
ETISEO également a fait face à deux limitations principales. Puisque les
participants font l'expérience eux-mêmes, ils ont souvent diérentes hypothèses. Par exemple, plusieurs participants ne détectent pas les objets qui ne
se déplacent pas pendant une certaine période. Par conséquent, pour quelques
séquences, les résultats d'algorithme ne peuvent pas être comparés les uns
avec les autres. Les tables 3.1 et 3.2 montrent que les résultats d'évaluation
des tâches de la détection et du suivi d'objet sur la séquence ETI-VS1-BE-18C4. Dans le point de vue d'ETISEO, nous pouvons observer qu'il n'y a aucune
concordance entre ces deux tâche, un algorithme ayant la bonne performance
sur la détection d'objet peut exécuter mal dans la tâche de suivi d'objets.
Cependant, ces résultats sont tout à fait diérents de ceux de l'évaluation
proposée décrite dans le chapitre 5.
Une autre limitation est qu'ETISEO ne dénit pas des méthodes quantitatives pour mesurer le niveau de diculté des vidéos illustrant un problème
de traitement de vidéos donné. Par exemple, ETISEO emploie les termes
9

normale ou sombre pour décrire les niveaux d'intensité des séquences de
vidéos. Par conséquent, le choix des séquences de vidéos dans ETISEO selon
leurs niveaux de diculté est subjectif et assez imprécis. En outre, ce jugement subjectif fait également arbitraire la comparaison entre les nouveaux

séquences avec les séquences déjà testées.

3.5 Contribution à ETISEO
Travaillant dans le projet ETISEO, j'ai trois contributions principales.
D'abord, j'ai essayé de trouver des limitations d'ETISEO et modié l'outil
d'évaluation pour surmonter ces limitations. Puis, j'ai vérié la pertinence
de chaque métrique d'évaluation. Par exemple, j'ai proposé d'éliminer la métrique qui compare le nombre des objets mobiles dans les données de référence
et cela détecté par des algorithmes sans utilisant les rectangles de bords d'objets. Ou, j'ai proposé une solution pour modier les métriques qui caractérisent le phénomène de fusion et division des objets. Finalement, j'ai proposé
une nouvelle méthode d'évaluation qui est présentée dans ce mémoire.

10

Chapitre 4
Approche proposée
4.1 Méthodologie
Comme dans ETISEO, nous traitons chaque problème de traitement de
vidéos séparément. Les étapes de notre méthodologie sont comme suivantes :
Dénir une mesure de calculer les niveaux de diculté des données
d'entrée (par exemple séquences de vidéos) relativement au problème de
traitement de vidéos courant, par exemple les objets faiblement contrastés pour la tâche de détection d'objets.
Dénir la métrique pour évaluer la performance d'algorithmes.
Choisir les séquences de vidéos illustrant le problème et les données de
référence associées pour faire l'évaluation.
Évaluer la performance d'algorithme sur ces séquences en utilisant la
métrique dénie.
Pour chaque algorithme, déterminer le niveau le plus élevé de diculté
où l'algorithme peut avoir une performance acceptable. Cette valeur
est dénie comme la capacité d'algorithme pour résoudre le problème
courant.

Avec cette nouvelle approche, nous ne pouvons pas encore prévoir la performance d'un algorithme pour une nouvelle séquence. Nous pouvons seulement estimer la borne supérieure de la performance d'algorithme relativement
à un problème spécique de traitement de vidéos. La raison est que la performance d'algorithme sur une nouvelle séquence dépend également d'autres
problèmes comme la petite taille d'objet, le changement d'illumination etc.
Ainsi l'objectif principal de cette méthodologie est de déclarer que la performance pourrait être insusante au cas où le niveau de diculté relativement
à un problème particulier est plus grand que la capacité d'algorithme. En
d'autres termes, pour un algorithme donné, nous ne pouvons pas détermi11

ner sa condition susante de succès mais nous pouvons estimer la condition
nécessaire.
Pour réaliser cette approche, nous avons besoin de six éléments : le résultat
de la performance de l'algorithme de plusieurs participants, le problème de
traitement de vidéos, la métrique d'évaluation de performance, la mesure de
diculté des données d'entrée, les données de référence et les séquences de vidéos choisies illustrant le problème. Concernant les algorithmes de traitement
de vidéos à évaluer, il est important de dénir les paramètres exigeant d'un
stage d'apprentissage pendant la conguration de traiter les vidéos choisis.
Dans cet article, nous considérons que les réalisateurs d'algorithme pouvaient
adapter leurs algorithmes et fournir les résultats qui sont assez satisfaisants
et assez représentant. Par conséquent, pour appliquer cette méthodologie,
deux éléments principaux restés : la métrique d'évaluation de performance
et la mesure des données d'entrée. Dans la section suivante, pour illustrer la
méthodologie d'évaluation, nous décrivons l'implémentation de notre méthodologie pour deux problèmes de traitement de vidéos : la détection des objets
faiblement contrastés et la manipulation des objets mélangés aux ombres.

4.2 Détection des objets faiblement contrastés
Cette section étudie la sensibilité des algorithmes de traitement de vidéos
sur la détection des objets faiblement contrastés. Dans ce but, nous décrivons
d'abord le problème de détecter les objets faiblement contrastés. Puis nous
dénissons une mesure de calculer le niveau de contraste d'un pixel, puis une
bande (l'unité de base pour calculer l'ensemble de niveaux de contraste pour

l'objet entier). Ensuite nous décrivons le procédé pour calculer l'ensemble de
niveaux de contraste d'objet dans une image. En conclusion, nous présentons
la méthode pour calculer la capacité d'algorithme pour manipuler les objets
faiblement contrastés.

4.2.1 Description de problème
Habituellement, la performance des algorithmes de traitement de vidéos
est proportionnelle au niveau de contraste entre les objets mobiles à détecter
et l'image du fond. Si le contraste de l'objet est plus faible, la performance
des algorithmes est plus mauvaise. Par conséquent nous voudrions déterminer
le niveau de contraste où un algorithme donné peut obtenir une performance
acceptable.

12

Fig. 4.1 The strip contrast level is the maximum contrast level of the

sub-regions

4.2.2 Mesure d'un niveau de contraste d'un pixel
Donné toutes les deux l'image courante qui contient les objets mobiles à
détecter et l'image du fond de la scène, le contraste d'un pixel d'objet est
calculé en utilisant la formule suivante :

|Rb − Rf | + |Vb − Vf | + |Bb − Bf |
255 × 3
Dans laquelle :
(Rf , Vf , Bf ) est la valeur de couleur d'un pixel d'objet dans l'espace de
couleur de RVB.

(Rb , Vb , Bb ) est la valeur de couleur du pixel correspondant du fond.

4.2.3 Mesure d'un niveau de contraste d'une bande
La région d'image correspondant à un objet mobile s'appelle le blob.
Un blob peut comporter beaucoup de régions à beaucoup de niveaux de
contraste. Pour localiser les niveaux de contraste d'un blob, nous divisons
horizontalement le blob en petites bandes avec l'espoir que le contraste des
pixels à l'intérieur d'une bande est assez homogène et peut être représenté par
une valeur unique. Cependant, cette hypothèse n'est pas toujours correcte.
Par exemple, parce que l'annotation prends beaucoup de temps, la vérité
terrain contient souvent seulement un rectangle de bord pour chaque blob. À
l'intérieur de ce rectangle, il y a beaucoup de pixels appartenant au fond, mais
pas au blob. Par conséquent, la valeur moyenne des niveaux de contraste des
pixels à l'intérieur d'une bande n'est pas l'évaluation correcte pour le niveau
de contraste de bande. Pour résoudre ce problème, nous appliquons le procédé
suivant pour calculer le contraste d'une bande :
Diviser verticalement la bande en sous-régions.
Pour chaque sous-région, calculer la valeur moyenne des niveaux de
contraste de tous les pixels dans cette sous-région.
Le niveau de contraste d'une bande est le niveau de contraste maximum
de toutes les sous-régions de cette bande.

13

Fig. 4.2 Le niveau de contraste maximum de toutes les sous-régions aide

à détecter la bande entière

Par exemple, dans la bande dans la gure 4.1, l'ensemble de niveaux

de contraste de toutes les sous-régions est {3, 2, 5, 1}. Alors, le niveau de
contraste de cette bande est 5.
Le premier avantage de ce procédé est de dénir le niveau de contraste
pour la bande entière comme niveau maximum de contraste de toutes les
sous-régions. Nous illustrons cet avantage en utilisant la gure 4.2. Dans
cette gure, il y a deux blobs. Le blob à gauche se compose d'une sousrégion faiblement contrastée (niveau de contraste 1) et d'une autre sousrégion fortement contrastée (niveau de contraste 3). De même, le blob à droit
a également ces deux sous-régions principales. D'ailleurs ce blob contient aussi
une autre sous-région plus fortement contrastée (niveau de contraste 4). Nous
supposons qu'un algorithme donné ne peut pas détecter la sous-région avec le
niveau 1 de contraste. Par conséquent, pour le blob à gauche, cet algorithme
peut détecter seulement la région avec le niveau 3 de contraste. Cependant,
pour le blob à droit, grâce à la petite région à un niveau de contraste élevé
(4), le rectangle détecté par cet algorithme contient non seulement les régions
fortement contrastées (niveau 3, 4) mais également une part de la région avec
un niveau de contraste très bas (niveau 1). Par conséquent, pour une bande,
la sous-région au niveau du contraste le plus élevé peut aider l'algorithme
pour détecter la bande entière. De plus, cette méthode nous aide également
à réduire l'eet des parties de la bande qui correspondent au fond parce
que leurs niveaux de contraste sont très petit en comparaison avec ceux qui
correspondent à l'objet. Pour ces raisons nous assignons le niveau maximum
de contraste des sous-régions au niveau de contraste de la bande entière.
Le deuxième avantage est la taille des sous-régions dans la bande. Si nous
prenons le niveau maximum de contraste de tous les pixels à l'intérieur de
la bande (c.-à-d. la plus petite taille pour une sous-région), cette valeur peut
correspondre au bruit. Par conséquent, nous avons choisi une taille de région
14

Fig. 4.3 Les blobs de type personnes consistent en trois régions principa-

lesavec des niveaux de contraste diérents : tête, corps et jambes
qui est assez grande pour ne pas être inuencée par le bruit.

4.2.4 Mesure des niveaux de contraste d'un blob
Un blob peut contenir beaucoup de régions à plusieus niveaux de contraste.
Par exemple, dans la gure 4.3, le blob se compose de trois régions principales
avec diérents niveaux de contraste correspondant aux jambes, au corps et à
la tête. Notre objectif est de déterminer les niveaux de contraste nécessaires
et susants caractérisant le blob.
Puisque la plupart des algorithmes d'interprétation de vidéos sont consacrés à l'identication des activités humaines, dans notre expérience, nous
avons choisi des blobs correspondant aux personnes pour faire notre expérimentation. Normalement, un blob de personne, en termes de niveau de
contraste, se compose de trois régions principales distribuées horizontalement : la tête, le corps (couvert par la chemise, la veste, etc.) et les jambes.
Donc, si nous divisons le blob horizontalement en petites bandes, nous espérons que le niveau de contraste à l'intérieur d'une bande est homogène. En
se basant sur cette idée, nous proposons le procédé suivant pour déterminer
le contraste d'un blob :
Diviser le blob en un ensemble des bandes horizontales.
Calculer le niveau de contraste de chaque bande.
L'ensemble des niveaux de contraste de toutes les bandes constitue le
niveau de contraste du blob (en enlevant toutes les valeurs doubles)
Par exemple, le blob dans la gure 4.4 peut être divisé en 8 bandes et
15

Fig. 4.4 Le contraste d'un blob est l'ensemble de niveaux de contraste de

toutes les bandes de ce blob. L'ensemble de niveaux de contraste de ce blob
est {3, 2, 5}
l'ensemble des niveaux de contraste de ce blob est {3, 2, 5}.

4.2.5 Mesure de la capacité des algorithme pour résoudre le problème de détecter des objets faiblement contrastés

Le système d'interprétation de vidéos se compose de plusieurs consécutives tâches (par exemple détection d'objet, classication d'objet, suivi d'objet etc.). L'eet de problème de faible contraste se propage de la tâche au
niveau le plus bas (la détection d'objet) aux tâches les plus hautes. Par
conséquent nous pouvons évaluer la capacité des algorithme en résolvant
ce problème à beaucoup de points. Cependant, la performance à une tâche
particulière ne reète pas nécessairement la performance de l'algorithme entier. Par exemple, sur une séquence, un algorithme peut avoir un bon résultat dans la tâche de la détection d'objet mais avoir des dicultés en
suivant des objets. Par conséquent nous voudrions évaluer la capacité des
algorithmes en manipulant les objets faiblement contrastés à chaque tâche
possible. Pour exécuter l'évaluation, le meilleur est de choisir les séquences de
vidéos qui ne contiennent pas d'autres problèmes (aux niveaux élevés) comme
le croisement ou l'occlusion d'objet. Malheureusement les vidéos d'ETISEO
contiennent souvent plus qu'un problème. Pour isoler des objets faiblement
contrastés, nous devons extraire une ou plusieurs périodes à partir d'une séquence. Puisque dans le programme d'ETISEO, trop peu de participants ont
soumis des résultats sur la classication d'objets et la reconnaissance d'événements, nous avons choisi d'évaluer la performance des algorithmes pour
16

seulement deux tâche : détection d'objet et suivi d'objet.
Pour la tâche de détection d'objets, la capacité des algorithmes est calculée en utilisant le taux d'erreur de détection à chaque niveau de contraste
d'objet. Pour déterminer cette valeur, nous avons changé l'espace d'évaluation. Au lieu d'évaluer des algorithmes en utilisant des objets (c.-à-d. blobs)
ayant plusieurs niveaux de contraste, nous considérons des régions homogènes avec seulement un niveau de contraste. Pour transformer des blobs en
régions homogènes, nous supposons que dans chaque blob, les régions ayant
le même niveau de contraste sont homogènes. Par conséquent, si l'ensemble
de niveaux de contraste d'un blob se compose de m niveaux de contraste, ce
blob correspond aux m régions homogènes dans le nouvel espace d'évaluation.
Avec cette transformation, à partir d'un ensemble de n blobs, nous obtenons m régions homogènes aux diérents niveaux de contraste. À un niveau
de contraste donné, si le nombre de régions à ce niveau est a et le nombre de
régions qu'un algorithme peut détecter est x, puis le taux d'erreur (c.-à-d. le
taux de faux négatif) de cet algorithme sur l'ensemble de test à ce niveau de
contraste est 1 − xa .
Puis, nous dénissons la capacité d'un algorithme de détection d'objet

pour traiter les objets faiblement contrastés comme niveau le plus bas de
contraste auquel le taux d'erreur de cet algorithme est plus petit qu'un certain seuil. On peut réclamer que considérer seulement le taux d'erreur (négatif faux) peut seulement mener à une évaluation partielle. Cependant, nous
supposons que l'algorithme a été adapté pour manipuler tous les types de
problèmes dans les séquences de vidéos et que l'algorithme sera évalué considérant tous ces aspects. Cette évaluation est seulement employée pour évaluer
la sensibilité de l'algorithme sur un problème spécique.
Pour la tâche de suivi d'objets, le système peut suivre un objet si et seulement si dans la plupart des frames, le système détecte cet objet correctement.
Il signie que toutes les régions d'objet aux diérents niveaux de contraste
devraient être détectées. Par conséquent, pour manipuler les objets faiblement contrastés, nous dénissons le niveau de diculté d'une séquence pour
la tâche du suivi d'objet comme niveau minimum de contraste des objets
mobiles dans cette séquence. Alors la performance des algorithmes de suivi
d'objet à ce niveau de diculté peut être mesurée en utilisant la métrique
classique, par exemple, la métrique dénies dans le programme d'ETISEO
(décrit dans la section 5). La capacité d'un algorithme de suivi d'objet pour
traiter les objets faiblement contrastés est dénie comme niveau de contraste
le plus bas de la séquence avec lequel la performance de cet algorithme est
plus haute qu'un certain seuil.
Avec cette dénition, c'est dicile de collecter des données appropriées
parce que les séquences choisies devraient contenir assez d'objets mobiles avec
17

les niveaux minimum de contraste changeant entre 0 et 20. Cependant, avec
les données existantes dans le programme d'ETISEO, dans certains cas, nous
pouvons encore déduire la performance de suivi d'un algorithme sur une nouvelle séquence basé sur les résultats d'évaluation eectués sur des séquences
précédentes. Par exemple, si un algorithme ne suit pas les objets dans une
séquence de test particulière, cet algorithme est susceptible d'échouer avec
des séquences plus diciles (c.-à-d. avec des niveaux de diculté plus élevés).

4.3 Manipulation des objets mélangés aux ombres
Cette section présente une métrique pour évaluer la sensibilité des algorithmes de détection des ombres. D'abord, nous décrivons le problème de

manipuler des ombres et puis nous dénissons une mesure de calculer les
niveaux de contraste des régions des ombres. Finalement nous dénissons la
capacité des algorithmes en détectant des ombres.

4.3.1 Problème de manipulation des ombres
Quand un objet apparaît dans la scène contenant une source lumineuse
forte comme le soleil ou une lampe, les algorithmes de détection d'objets
considèrent souvent l'objet et son ombre comme objet mobile unique. Les
algorithmes ont souvent des dicultés en distinguant l'objet mobile de son
ombre parce que le contraste entre les ombres et le fond est assez haut. Par
conséquent, souvent des parties de l'ombre ou l'ombre entier est mélangées
à l'objet. Puisque les algorithmes de détection d'ombre emploient la texture
du fond et des objets pour détecter des ombres, dans ce travail, nous proposons d'évaluer la performance d'algorithme contre les ombres sous la lumière
naturelle à diérents niveaux d'intensité (plus ou moins contrasté) dans des
situations diciles avec le fond uniforme non-coloré.

4.3.2 Mesure de niveaux de contraste des ombres
Contrairement aux niveaux de contraste des blobs des personnes, les niveaux de contraste d'ombre changent selon la direction de la source lumineuse. Par conséquent, nous devrions calculer le contraste d'ombre en utilisant les bandes verticale et horizontales. Par exemple, si nous divisons une
ombre en bandes verticales, l'ensemble de niveaux de contraste de ces bandes
peut être {5, 7, 6, 4}. Si nous divisons cette ombre en bandes horizontales,
l'ensemble de niveaux de contraste de ces bandes peut être {2, 7, 6, 3}. Puis,

18

le contraste de l'ombre est déni comme union de ces deux ensembles :
{2, 3, 5, 7, 6, 4}.

4.3.3 Capacité des algorithmes en détectant des ombres
Normalement, des algorithmes de détection des ombres [4] construisent un

modèle des ombres et appliquent des techniques d'apprentissage pour déterminer des paramètres du modèle qui sont appropriés à une scène spécique.
Selon les types des algorithmes, il y a deux situations diciles : un grand
intervalle entre le niveau maximum et le niveau minimum de contraste ou des
ombres très contrastées. Nous concentrons sur le premier cas parce que cette
situation correspond à plus d'algorithmes. Donc, pour chaque algorithme,
nous voulons savoir l'intervalle le plus grande entre le niveau maximum et le
niveau minimum de contraste qu'un algorithme peut détecter.
Dans la partie de détection des objets peu contrastés, nous avons essayé
d'évaluer le système entier. Pourtant, le problème de détecter des ombres
a peu inuence sur la tâche de suivi d'objets, sauf au cas où les objets se
croisent. Parce que nous voulons isoler des problèmes de traitement de vidéos,
nous proposons d'évaluer l'eet de la contraste des ombres seulement à la
tâche de détection d'objets.

19

Chapitre 5
Expérimentation
Cette section décrit les expériences que nous avons réalisés pour évaluer
la sensibilité d'algorithme sur la manipulation des problèmes concernant la
détection d'objets faiblement contrastés et les ombres. Les tables de cette
section obéissent à la règle suivante : la position des résultats d'algorithme
reètent son rang. Par exemple, le résultat du meilleur algorithme sera dans
la premières ligne/colonne de la table.

5.1 Détection des objets faiblement contrastés
5.1.1 Sélection des séquences de vidéos
Les séquences choisies devraient contenir les objets mobiles (correspondant aux individus isolés) à diérents niveaux de contraste. En outre, il ne
devrait y avoir aucune ombre forte et aucun changement d'illumination pour

que le processus d'évaluation ne soit pas inuencé par d'autres problèmes
de traitement de vidéos. Finalement, ces séquences choisies devraient être
traités par un nombre susant d'algorithmes dans le projet ETISEO.
Selon ces critères, nous avons choisi trois périodes dans trois séquences de
vidéos. La premières période commence au frame 336 et nit au frame 404
de la séquence ETI-VS1-BE-18-C1 (scène extérieure). La deuxième période
commence au frame 90, nit au frame 105 de la séquence ETI-VS1-BE-18-C1
(scène intérieur). La période nale commence au frame 5321, nit au frame
5350 de la séquence ETI-VS1-MO-7-C1 (scène intérieur). Dans la première
période, la taille de l'objet mobile est plus petite que ceux des deux dernières
séquences. Nous avons choisi cette période parce que nous voulons évaluer la
performance des algorithmes aux niveaux de contraste très bas.
Pour la simplicité, dorénavant, nous emploierons le nom d'une séquence
20

Fig. 5.1 L'image spécimenne de la séquence ETI-VS1-BE-18-C1
Tab. 5.1 L'analyse de niveaux de contraste

Nombre des régions

Niveau de contraste

Séquence

0

1

2

3

4

5

6

7

8

ETI-VS1-BE-18-C1

0

19

46

29

13

5

5

2

0

ETI-VS1-BE-18-C4

0

15

16

6

11

12

14

10

9

ETI-VS1-MO-7-C1

0

3

30

30

30

30

1

0

0

pour référer à la période choisie dans cette séquence.

5.1.2 Résultat d'évaluation
Les paramètres pour l'expérimentation d'évaluation sont comme suivant :
Il y a 20 niveaux de contraste. Le niveau maximum de contraste (19)
correspond au contraste entre un pixel complètement noir (RVB (0.0.0))
et un pixel complètement blanc (RVB (255.255.255)).
La taille de chaque bande et la longueur de chaque sous-région à l'intérieur d'une bande sont 10 pixels.
Dans le projet ETISEO, pour assurer l'équitabilité de l'évaluation, la sortie d'algorithme de chaque participant est assignée à un nombre anonyme
et nous ne savons pas quel nombre appartient à quel participant. Par conséquent, dans cette section nous emploierons ces nombres pour identier les
algorithmes des participants.
Les nombres de participants ayant traité les séquences ETI-VS1-BE-18C1, ETI-VS1-BE-18-C4 et ETI-VS1-MO-7-C1 sont 6, 7 et 4 respectivement.
21

Une nouvelle approche dévaluation pour les algorithmes dinterprétation automatique de vidéos

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về