ENTROPIES CONDITIONNELLES ET LEURS APPLICATIONS EN APPRENTISSAGE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (489.37 KB, 69 trang )

Institut de la Francophonie pour

Équipe LOFTI

l'Informatique

Laboratoire d'Informatique de Paris 6

RAPPORT DE STAGE

ENTROPIES CONDITIONNELLES ET LEURS
APPLICATIONS EN APPRENTISSAGE
Réalisé par :
DANG Thanh Ha
Promotion 7 - IFI
Sous la responsabilité de :
Mme Bernadette BOUCHON-MEUNIER
Directeur de recherche au CNRS
Co-encadré par :
M. Christophe MARSALA
Maître de Conférences à l’université Paris 6

Soutenu le 15 octobre 2003 devant le jury composé de
M. Alain BOUCHER (IFI, président)
M. HO Thuan (Institut de la technologie d’information, examinateur)
M. HO Tuong Vinh(IFI, examinateur)
M. NGUYEN Thanh Thuy (Institut Polytechnique de Hanoï, rapporteur)
Résultat de la soutenance : 18/20
Paris, septembre 2003

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

REMERCIEMENTS
En premier lieu, je tiens à exprimer ma plus grande reconnaissance envers mon
responsable de stage, Madame B. Bouchon-Meunier qui a accepté de m'accueillir en stage
dans son équipe de recherche, de m'avoir permis de mener à bien ce travail par ses conseils,
ses remarques et ses suggestions. Je la remercie aussi pour son soutien, l’encouragement
qu'elle m'a donné pour faciliter mes conditions de vie à Paris, pour me familiariser avec la vie
de l'équipe, …
Je tiens à remercier énormément Christophe Marsala, qui a accepté de co-encadrer
mon stage. Je le remercie ainsi pour ses conseils, ses suggestions ainsi que son soutien tout au
long de mon stage.
Je remercie également Madame Giulianella Coletti, Université de Perugia - Italie, pour
les discussions que nous avons eues. C'est à l'issue de ses claires explications que j'ai pu
comprendre mieux le domaine de recherche.
Je remercie tous les membres de l'équipe LOFTI pour leurs encouragements, leurs
conseils, leurs aides et la sympathie qu'ils m'ont donnée. J'aime bien l'ambiance familière
qu'ils créent au sein de l'équipe.
Depuis le début de mon stage en France, j'ai reçu beaucoup d'aides et
d'encouragements de mes amis. Tout cela me permet de mieux compléter le stage. Je les
remercie !
Je voudrais également remercier mes parents, ma petite sœur et mon petit frère qui
m'encouragent énormément depuis le début de mes études en France.

DANG Thanh Ha

1

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Résumé
Il existe plusieurs entropies et entropies conditionnelles associées définies par les
différentes approches suivantes: approche combinatoire, approche probabiliste, approche
algorithmique et approche axiomatique. L'entropie la plus classique est celle de Shannon et
l'entropie conditionnelle associée, basée sur des probabilités conditionnelles, est couramment
employée en apprentissage. Néanmoins, d'autres entropies et entropies conditionnelles qui ont
été définies dans la littérature, ne sont pas étudiées en apprentissage. De plus, des travaux
récents ont mis en évidence le conditionnement de mesures différentes, telles que des mesures
de possibilité, qui peuvent conduire à la définition d'entropies conditionnelles généralisées.
Celles-ci peuvent servir de mesures de discrimination pour les méthodes d'apprentissage
inductif.
Dans ce rapport, nous présentons nos études sur l’entropie conditionnelle et ses
applications en apprentissage.
D’abord, un état de l'art sur les entropies conditionnelles et sur l’apprentissage inductif
est établi. Ensuite, les différentes approches pour définir des entropies conditionnelles sont
considérées, particulièrement l’approche probabiliste et l’approche axiomatique. Nous avons
mis en évidence certaines différences ainsi que des points communs entre des entropies
conditionnelles existant. Enfin, nous comparons les capacités des entropies conditionnelles
dans la construction d’arbre de décision à partir de données selon l’algorithme ID3. Parmi les
étapes de cet algorithme, le choix du meilleur attribut et la discrétisation des attributs prenant
ses valeurs dans un domaine continu sont effectuées à l’aide d’entropies conditionnelles. Des
expérimentations sont menées sur certaines bases de données avec les outils informatiques
que nous avons développés.

Mots clés : arbre de décision, apprentissage inductif, théorie de l'information, entropie
conditionnelle

DANG Thanh Ha

2

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Abstract
Several entropies and associated conditional entropies are defined by the following
approaches: the combinatorial approach, the probabilistic approach, the algorithmic approach
and the axiomatic approach. The most traditional entropy is Shannon’s entropy and the
associated conditional entropy, based on conditional probabilities, is usually employed in
machine learning. Nevertheless, other entropies and conditional entropies which have been
defined in the literature are not studied in machine learning. Moreover, recent work has
shown the conditioning of different measures, such as the possibility measure, which can lead
to the definition of generalized conditional entropies. Those can be used as measures of
discrimination for the methods of inductive learning.
In this report, we present our studies on conditional entropies and their applications in
inductive learning.
Firstly, a state of the art on the conditional entropies and inductive learning is
established. Then, the various approaches to define conditional entropies are considered,
particularly the probabilistic approach and the axiomatic approach. We point out some
differences as well as common points between these existing conditional entropies. Finally,
we compare the capacities of the conditional entropies in the construction of decision tree by
the algorithm ID3. Among the stages of this algorithm, the choice of the best attribute and the
discretization of the attributes taking values in a continuous domain use conditional entropies.
These experiments are carried on some databases with the tools which we developed to
compare the capabilities of conditional entropy.

Key words: decision tree, inductive learning, information theory, conditional entropy

DANG Thanh Ha

3

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Table des matières

REMERCIEMENTS .................................................................................................... 1
RESUME .................................................................................................................... 2
ABSTRACT................................................................................................................ 3
TABLE DES MATIERES............................................................................................ 4
CHAPITRE 1 : INTRODUCTION................................................................................ 6
CHAPITRE 2 : ETAT DE L’ART ................................................................................ 9
I.

Apprentissage inductif et arbre de décision .............................................................................................. 9
1.

Introduction .............................................................................................................................................. 9

2.

Choix du meilleur attribut....................................................................................................................... 12

3.

Discrétisation des attributs numériques .................................................................................................. 13

4.

Condition d’arrêt..................................................................................................................................... 14

5.

Conclusion .............................................................................................................................................. 14

II.

Entropies et entropies conditionnelles ..................................................................................................... 15
1.

Approche combinatoire........................................................................................................................... 15

2.

Approche probabiliste............................................................................................................................. 16

3.

Approche algorithmique ......................................................................................................................... 19

4.

Approche axiomatique............................................................................................................................ 20

CHAPITRE 3 : COMPARAISON DES ENTROPIES CONDITIONNELLES............. 27
I.

Étude des particularités entre les entropies conditionnelles de Shannon, Rényi, Daroczy et le système

d’axiomes proposé par Coletti ........................................................................................................................... 27
1.

Première approche .................................................................................................................................. 27

2.

Deuxième approche ................................................................................................................................ 28

II.

Comparaison des systèmes d’axiomes ..................................................................................................... 35
1.

Définition de Kampé de Fériet................................................................................................................ 36

2.

Définition de Benvenuti.......................................................................................................................... 36

DANG Thanh Ha

4

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage
3.

Définition de Coletti ............................................................................................................................... 37

4.

Remarque................................................................................................................................................ 37

III.

Conclusion ............................................................................................................................................. 37

CHAPITRE 4 : EXPÉRIMENTATION....................................................................... 38
I.

Choix du meilleur attribut ........................................................................................................................ 39
1.

Expérimentation sur des bases artificielles ............................................................................................. 39

2.

Expérimentation sur des bases réelles..................................................................................................... 42

II.

Discrétisation des attributs numériques .................................................................................................. 44

III.

Conclusion ............................................................................................................................................. 48

CHAPITRE 5 : CONCLUSION ................................................................................. 49

ANNEXES ................................................................................................................ 51
I.

Système DTGen ......................................................................................................................................... 51
1.

Contexte général et description du système existant............................................................................... 51

2.

Conception.............................................................................................................................................. 52

3.

Implémentation ....................................................................................................................................... 52

4.

Résultats.................................................................................................................................................. 54

II.

Système COMPARAISON........................................................................................................................ 56
1.

Contexte général ..................................................................................................................................... 56

2.

Présentation du système et de ses caractéristiques principales ............................................................... 57

3.

Conception.............................................................................................................................................. 60

4.

Implémentation ....................................................................................................................................... 62

5.

Résultats.................................................................................................................................................. 63

RÉFÉRENCES ......................................................................................................... 66

DANG Thanh Ha

5

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Chapitre 1 : INTRODUCTION
La notion d'entropie est fondamentale en physique statistique. D’abord, elle apparaît
dans la deuxième loi de la thermodynamique, et en mécanique statistique. En informatique,
elle intervient dans la théorie de l'information, sous la forme célèbre de l’entropie de Shannon
entre autres. Parmi les premières études sur l’entropie en informatique, on peut citer celles de
H. Nyquist et R. Harley. Mais la vraie naissance de la théorie d’information est marquée par
les études de Shannon. En fait, la formule de Shannon est similaire à celle de Boltzmann en
mécanique statistique mais Shannon a montré la signification de la formule comme une

mesure d’information. Depuis, la notion d’entropie est devenue très importante en
informatique théorique et appliquée : transmission d'information (codage de source, codage de
chaîne, détecteur d’erreur), inférence statistique, cryptographie, algorithmique,…[29].
L'entropie est utilisée pour mesurer la quantité d'information ou comme mesure d'incertitude.
Il existe plusieurs approches pour définir l'entropie : approche combinatoire, approche
probabiliste, approche algorithmique, approche axiomatique.
Associée à la notion d'entropie, la notion d'entropie conditionnelle représente
l’entropie d’un événement sous certaines conditions. Cependant, toutes les entropies n’ont pas
de formule conditionnelle correspondante. Par exemple celles de Harley, Wiener, Burg,…
Dans le domaine de l'intelligence artificielle, l'entropie conditionnelle est utilisée en
apprentissage inductif [10, 18, 19, 20, 22, 26, 30]: par exemple pour la construction d’un arbre
de décision à partir d’une base d'apprentissage. Dans ce processus, elle sert à sélectionner le
meilleur attribut parmi un ensemble d’attributs possibles ; à établir les critères d’arrêt de
l’algorithme; à optimiser la discrétisation des attributs prenant leurs valeurs dans un domaine
continu. L'entropie et l'entropie conditionnelle de Shannon, basées sur des probabilités
conditionnelles sont couramment employées. Cependant, il existe d’autres entropies
conditionnelles dans la littérature comme celle de Rényi, celle de Daroczy, qui n’ont pas
encore été étudiées pour le problème d'apprentissage. Un des buts de ce stage est de mener
des recherches sur l’utilisation des entropies conditionnelles existantes en apprentissage.
Traditionnellement, l'entropie conditionnelle est définie à partir de l'entropie. Plus
récemment, on a étudié le conditionnement de mesures différentes telles que la probabilité, la
possibilité [7, 8, 11, 12]. On trouve alors que l'on peut définir la probabilité conditionnelle,
possibilité conditionnelle comme des notions primitives et en déduire la probabilité, la
DANG Thanh Ha

6

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

possibilité comme cas particuliers. Cette approche nous semble plus raisonnable, plus
naturelle et plus prometteuse. Ceci nous suggère des définitions d'entropies conditionnelles
généralisées et des méthodes d’application en apprentissage. Pour aller plus loin, nous avons
l’intention d’étudier des formes généralisées d’entropies conditionnelles : l’entropie
conditionnelle est directement définie sur l’ensemble des événements conditionnels.
Le stage consiste en une étude des entropies conditionnelles. Nous visons d’abord à
caractériser les différentes entropies conditionnelles existantes dans la littérature. Ensuite,
nous étudions leurs applications en apprentissage, plus concrètement pour la construction
d’arbres de décision. Enfin, nous avons l’intention de rechercher de nouvelles entropies
conditionnelles. Dans cette voie, nous nous intéressons essentiellement à l'approche
axiomatique pour définir les entropies conditionnelles, ainsi que la prise en compte des
entropies sans condition comme cas particuliers.
Sur le plan théorique, nous avons étudié la particularité de l’entropie conditionnelle de
Rényi, de Daroczy par rapport à l’entropie de Coletti et les relations entre l’entropie de
Kampé de Fériet, celle de Benvenutti et celle de Coletti.
Sur le plan pratique, nous avons développé des outils informatiques : une extension de
DTGen (Decision Tree Generation), COMPARAISON, pour étudier les comportements de
chacune des entropies conditionnelles en apprentissage.
En dehors des résultats scientifiques, j’ai pu bénéficier d’une formation au métier de
chercheur. J'ai pu acquérir des méthodes de travail ainsi qu’une expérience de recherche
grâce à mes responsables de stage et mes collèges dans l'équipe.
Les résultats obtenus nous engagent à continuer les recherches sur les entropies
conditionnelles généralisées. Ils nous permettent également de développer des outils pour
aider les utilisateurs à choisir l'entropie conditionnelle utilisée dans leurs problèmes
d'apprentissage inductif pour avoir de meilleurs résultats. Dans ce but, nous essayons
d’étudier les comportements de chaque entropie avec des bases d’apprentissage artificielles et
réelles.
Ce rapport de stage décrit les travaux que j’ai réalisés au cours de mon stage de fin
d’études. Il est organisé comme suit : nous présentons dans le deuxième chapitre un état de
l'art sur les problèmes étudiés dans le stage : le problème d’apprentissage inductif (plus

concrètement la construction d’arbres de décision à partir d’une base d’apprentissage) ; les
approches d’études d’entropies et d’entropies conditionnelles. Le troisième chapitre décrit des
DANG Thanh Ha

7

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

études effectuées sur le plan théorique : la particularité des entropies conditionnelles
existantes dans la littérature par rapport à l’approche axiomatique de Coletti ainsi que la
comparaison entre cette approche et d’autres approches axiomatiques : celle de Kampé de
Fériet et celle de Benvenuti. Les résultats d’expérimentation avec des outils que nous avons
développés sont décrits dans le chapitre 4. Enfin, nous concluons par les résultats obtenus
ainsi que les perspectives qu’ouvre ce stage. Les documents techniques des logiciels
développés sont mis en annexe.
Quelques mots sur l'environnement de stage :
Ce stage a duré 6 mois (à partir du premier Avril 2003) dans l'équipe LOgique Floue et
Traitement d'Incertitudes - LOFTI - du Laboratoire d'Informatique de Paris 6 - LIP6. Cette
équipe est dirigée par Madame Bernadette Bouchon-Meunier, Directeur de recherche au
CNRS. Les travaux de l'équipe LOFTI portent sur l'apprentissage, la représentation et
l'exploitation de connaissances imparfaites, c'est-à-dire imprécises et/ou incertaines. Les mots
clés de recherche de l’équipe sont : des méthodes d'apprentissage à partir d'exemples, la
représentation des connaissances (formalisme général pour les relations de ressemblance ou
de dissemblance), l'exploitation de connaissances imparfaites (développement de diverses
méthodes floues ou possibilistes d'optimisation, de commande, de traitement d'images,
d'agrégation d'informations, de comparaison d'objets, de déduction). Les membres de l'équipe
LOFTI se sont investis dans la logique floue très tôt (dès 1974) et ont développé des
applications dans ce domaine depuis 1987. Des informations plus détaillées sur l'équipe se
trouvent sur son site Web />

DANG Thanh Ha

8

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Chapitre 2 : ETAT DE L’ART
Ce chapitre est consacré à un état de l’art dans le domaine d’étude. Les problèmes
d’apprentissage, des entropies et des entropies conditionnelles sont présentés. On considère
dans ce rapport que les notions de base de la théorie des sous-ensembles flous et de la théorie
de l’information sont connues par le lecteur. Pour plus de détails, voir [9, 25].

I. Apprentissage inductif et arbre de décision
1. Introduction
Le problème de l’apprentissage automatique est fondamental en intelligence
artificielle. Il apparaît par exemple, dans des problèmes de classification, prédiction,…Dans
ce rapport, nous nous intéressons à l’apprentissage inductif supervisé dans le cadre de la
classification. Le problème de la classification vise à affecter un objet à une classe prédéfinie.
Il existe plusieurs approches pour résoudre ce problème : réseau de neurones, méthode
statistique, arbres de décision, … Une des approches les plus efficaces et les plus utilisées en
IA est l’utilisation d’arbres de décision. D’après cette méthode, la résolution du problème
procède en plusieurs étapes. L’étape la plus importante consiste à établir des règles de
classification à partir des connaissances disponibles a priori. Cette étape utilise soit
l’apprentissage déductif, soit l’apprentissage inductif.
La différence essentielle entre l’apprentissage inductif et apprentissage déductif est la
façon de construire des règles. En apprentissage déductif, les règles d’affectation sont
déterminées a priori par interaction avec des experts. Tandis qu’en apprentissage inductif, on
essaye de trouver des règles à partir d’un ensemble d’exemples, selon une méthode dite du
particulier au général. À partir de ces règles, on détermine les classes d’affectation des objets.

En pratique, pour résoudre certains problèmes de classification on a besoin de méthodes qui
peuvent combiner les deux types d’apprentissage.
Une méthode de représentation des règles dans ce cas est l’utilisation d’un arbre de
décision. Ce dernier est un arbre dont les nœuds non terminaux sont associés à une question.
Les réponses sont associées aux branches menant aux fils d’un nœud non terminal. Un chemin
de la racine à une feuille correspond à une série de questions et réponses. Les données
stockées en feuille sont celles qui correspondent à la série de questions et réponses sur le
DANG Thanh Ha

9

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

chemin de la racine à ce nœud. La structure arborescente d’un arbre est équivalente à un
ensemble de règles si – alors ce qui justifie une décision prise en suivant l’un de ses chemins.
Cette structure de connaissances est très proche de celle manipulée naturellement par un être
humain.
Nous considérons l’apprentissage inductif supervisé : à partir d’une base
d’apprentissage B, on essaie de construire un arbre de décision. Chaque exemple de la base
est décrit par un ensemble d’attributs A={A1, A2, .., AN} et

associé à une classe

de

l’ensemble C={c1, c2, .., cn}. Chaque attribut Aj peut prendre sa valeur vjl dans

{

}

l’ensemble v j1 , v j 2 ,.., v jm j . La tâche est de construire un arbre de décision à partir de cette
base d’apprentissage pour classifier des exemples dans une autre base (base de test). Ici, les
questions portent sur les attributs et les réponses sur leurs valeurs. Les questions et réponses
sur le chemin de la racine à un nœud déterminent une conjonction d'attributs définissant une
classe de l'ensemble des exemples.
Il est ensuite indispensable d’évaluer le résultat. Pour l’évaluation des arbres, on peut
se baser sur différents critères :
•

la taille de l’arbre (le nombre de nœuds, nombre d’arcs, …)

•

la profondeur moyenne (qui est calculée indépendamment de la base
d’apprentissage) et la profondeur moyenne pondérée (prendre compte du poids
de la base d’apprentissage associée au nœud) de l’arbre

•

la longueur du chemin le plus long et le plus court de la racine vers les feuilles

•

l’équilibre de l’arbre

•

le taux de bonnes classifications des exemples dans la base de tests, …

En fait, il n’existe pas de critère unique pour dire qu’un arbre est meilleur qu’un autre.
Mais, une suggestion est de faire une agrégation des critères avec une pondération pour établir
un critère général. Cette agrégation pourrait être exprimée sous une forme floue par exemple :
« un petit arbre avec un taux de classification moyen ».
La méthode de construction d’arbre la plus utilisée est la méthode dite Top Down
Induction of Decision Tree (TDIDT), elle consiste à construire un arbre de sa racine vers ses
feuilles. On peut citer des algorithmes de ce type : ID3 (Quinlan 1979), CART (Breiman et al.
1984), Assistant (Cestnik et al. 1987), C4.5 (Quinlan 1993), See5 (Quinlan 97), Orange
(Demsar, Zupan 1998-2003). Voici le principe général de la méthode TDIDT :
DANG Thanh Ha

10

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

1. Condition d’arrêt : Si tous les éléments du nœud sont dans la même classe, alors le
nœud est une feuille étiquetée par cette classe.
2. Sinon, faire les étapes suivantes :
i)

Choisir un attribut et l'assigner au nœud courrant.

ii)

Partitionner les exemples dans des sous-ensembles selon les valeurs de cet
attribut.

iii)

Créer des nouveaux nœuds pour chaque sous-ensemble non vide de la
partition. La liste de nouveaux nœuds est ajoutée les fils du nœud.

iv)

Appliquer la procédure récursivement sur les nouveaux nœuds.

Choix du
Base

meilleur attribut

d’apprentissage

Partition

{(A1, A2, .., AN), C}

Arbre

Fin ?

de
décision

Mesure de

Stratégie de

Critère

discrimination

Partitionnement

d’arrêt

Fig.1 : Constructeur d’un arbre de décision
Cette méthode a d’abord été proposée pour le traitement d’une base dont les valeurs
d’attribut sont toutes symboliques. Elle a ensuite été adaptée pour des valeurs numériques et
symboliques - numériques. Comme il y a certains problèmes que nous présentons dans II.3
avec les bases d’apprentissage ayant des attributs numériques, il faut dans certains cas une
étape supplémentaire pour discrétiser les attributs numériques avant le choix du meilleur
attribut. Plus récemment, cette méthode a été étendue pour des bases décrites par des attributs
flous [22].
Les entropies conditionnelles sont en fait utilisées dans les étapes suivantes de cette
méthode :
i)

Discrétisation des valeurs d’attributs (si nécessaire)

DANG Thanh Ha

11

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

ii)

Choix d’un attribut de décision

iii)

Condition d’arrêt

L’entropie conditionnelle est aussi utilisée pour le partitionnement de la base
d’apprentissage dans le cas de base d’apprentissage ayant des attributs flous.
Dans la suite, nous présentons les applications des entropies conditionnelles dans ces
étapes. Nous nous s’intéressons actuellement au choix d’attribut de décision et à la
discrétisation des attributs numériques.
2. Choix du meilleur attribut
Considérons une étape difficile de cet algorithme : choisir un attribut. En général, la
taille de l'arbre dépend de l'ordre dans lequel les attributs sont traités. En classant les
éléments, on veut rejoindre une feuille contenant un ou des exemples en posant le minimum
de questions; on veut donc l'arbre le plus petit possible. Puisque trouver l'arbre le plus petit
parmi tous les arbres possibles est difficile, on construit l'arbre, de bas en haut, en utilisant
une heuristique. Le principe est de choisir l’attribut le plus déterminant ou bien l’attribut le
plus informatif à l’étape courante du développement de l’arbre. Pour cela, plusieurs
techniques ont été développées : utiliser l’entropie conditionnelle de Shannon, utiliser une
mesure de discrimination [18], utiliser la mesure d’ambiguïté [33],… Les méthodes de
construction d’arbres de décision se différencient principalement par la mesure qu’elles
utilisent.
L’algorithme ID3 de Quinlan est l’algorithme le plus connu et plus utilisé en IA. Pour
choisir l’attribut à décomposer, il utilise l’entropie de Shannon. L’entropie dans ce cas est
utilisée comme une mesure du degré de prédictibilité : quelle est la difficulté que l’on a à
prédire la classe de l’un des ses éléments ? L’attribut choisi est celui dont la connaissance
diminue le plus l’entropie globale.
L’entropie de la sous-base d’apprentissage B associée à un nœud avant de le

partitionner est la suivante:

n
I (B ) = − ∑ p(ci ) log p(c i )
i =1
où p (ci ) est la probabilité qu’un élément de la sous-base se trouve dans la classe ci.
Si on partitionne ce sous-ensemble selon l’attribut Aj, alors l’entropie du sousensemble des exemples ayant vjk comme valeur pour Aj est :
DANG Thanh Ha

12

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

n
I (B A j = v jk ) = − ∑ p (ci A j = v jk )log p (ci A j = v jk )
i =1
Et l’entropie globale conditionnellement à Aj est :
mk
mk ⎡
⎞⎤
⎛ n
I (B A j ) = −∑ p(A j = v jk )I (B A j = v jk ) = −∑ ⎢ p (A j = v jk )⎜ ∑ p (ci A j = v jk )log p (ci A j = v jk )⎟⎥
⎟⎥
⎜
k =1
k =1 ⎢
⎠⎦
⎝i = 1
⎣

La quantité d’entropie diminuée ou le gain d’information apporté par la connaissance

[

]

de Aj est : I (B ) − I (B A j ) . L’attribut choisi est celui qui permet le gain d’information le plus
important, c'est-à-dire celui qui minimise l’entropie conditionnelle I (B A j ) .
3. Discrétisation des attributs numériques

La discrétisation des attributs prenant leurs valeurs dans un domaine continu est
indispensable dans le cas où il y a des attributs numériques parce que :
- Certaines mesures de discrimination favorisent les attributs qui ont un grand nombre
de valeurs. Dans ce cas, sans adaptation de l’algorithme, des attributs numériques sont
favorisés. Lorsque l'on choisit un attribut numérique, comme le nombre de valeurs est grand,
alors la taille de l'arbre décision augmente énormément.
- Les valeurs numériques ne sont pas typiques au sens que deux valeurs numériques
sont proches l’une de l’autre, peut-être qu’elles ne portent pas des significations différentes,
mais elles sont tout à fait différentes lorsque l’on partitionne la base. Si l’on discrétise les
valeurs, des valeurs proches sera considérées comme une seule valeur symbolique. Dans ce
cas, on peut extraire de la signification de l’attribut et éliminer une partie des erreurs lors de la
collection des données.
L’entropie conditionnelle peut être utilisée dans la discrétisation d’attribut numérique.
Le principe de discrétisation est :
Considérons une base d’apprentissage B dont les exemples sont classés dans n classes
c1, c2, .., cn. On souhaite discrétiser l’attribut numérique A par une discrétisation H en k
intervalles disjoints h1, h2, .., hk. Les intervalles h1, h2, .., hk doivent couvrir totalement le
domaine de A. L’entropie de l’ensemble des exemples ayant A ∈ hi est I(B|hi) qui exprime le
désordre de la sous-base selon les classes. I(B|hi) est calculé selon une formule d’entropie
choisie, par exemple l’entropie de Shannon, Rényi ou Daroczy. On évalue ensuite l’entropie

conditionnelle de la base sachant une discrétisation H : I(B|H). I(B|H) est calculée à partir de
DANG Thanh Ha

13

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

I(B|hi) selon un des trois types que nous allons présenter dans la partie suivante (II.2) du
chapitre . On vise à choisir la discrétisation qui:

•

caractérise bien l’attribut

•

minimise I(B|H)

•

utilise le moins possible d’intervalles

•

les intervalles sont plus les équilibrés possibles selon le nombre de valeurs
dans chaque intervalle.

Parmi les critères d’évaluation d’un arbre de décision, on souhaite souvent un arbre le
plus équilibré possible. Alors, une heuristique est que dans la phase de discrétisation on doit

essayer de discrétiser un attribut en des intervalles dont les nombres de valeurs numériques
dans chaque intervalle sont les plus similaires possibles. Cela pourrait être réalisé par un choix
convenable du nombre d’intervalles et par l’algorithme de discrétisation (l’entropie
conditionnelle utilisée par exemple).
4. Condition d’arrêt

L’entropie de Shannon sert aussi dans la condition d’arrêt : on peut fixer un seuil
d’entropie pour arrêter l’algorithme. Dans le cas où le seuil est 0, l’algorithme s’arrête si tous
les éléments de l’ensemble associé au nœud ont la même classe. Dans le cas où ce seuil est
strictement positif, l’algorithme s’arrête si l’entropie de tous les éléments de l’ensemble est
inférieure au seuil donné, ainsi l’algorithme est capable de tolérer des données bruitées. Il est
aussi possible d’arrêter la construction en fonction d’autres critères que la discrimination
relative aux classes, comme la taille de la base. On rappelle que cet algorithme n’entraîne pas
obligatoirement un arbre optimal au niveau de la taille, l’utilisation de l’entropie de Shannon
ou d’autres entropies n’est qu’une heuristique.
5. Conclusion

Il existe dans la littérature certaines entropies et entropies conditionnelles associées
comme l’entropie et l’entropie conditionnelle de Rényi, l’entropie et l’entropie conditionnelle
de Daroczy, … Elles peuvent servir comme une mesure de discrimination dans la construction
d’arbre de décision selon le même principe que l’entropie conditionnelle de Shannon que nous
avons décrite. Dans les chapitres suivants, nous allons comparer les capacités des entropies
conditionnelles existantes en apprentissage.

DANG Thanh Ha

14

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Comme il existe plusieurs mesures à utiliser, face au problème d’apprentissage
inductif, une question qui se pose naturellement est : quelles sont les mesures recommandées
à utiliser connaissant les propriétés de la base d’apprentissage ? Cette question est vraiment
difficile. Nous essayons de résoudre au fur à mesure ce problème dans ce stage et au-delà en
étudiant des propriétés des entropies conditionnelles et en développant un système pour aider
l’utilisateur à choisir des entropies conditionnelles convenables.

II. Entropies et entropies conditionnelles
Dans cette partie, nous présentons un bref état de l’art sur les différentes approches de
définitions des entropies conditionnelles. Nous présentons aussi les efforts réalisés pour
étendre ces définitions aux cas flous.
On considère deux ensembles finis d’événements X={x1, x2, .., xn} et Y={ y1, y2, .., ym}.
Chaque événement xi est associé à une probabilité p(xi). Chaque événement yi est associé à
une probabilité p(yi).
1. Approche combinatoire

Cette approche fournit une définition de la quantité d'information d'un événement de
façon contextuelle, c'est-à-dire dépendant du contexte dans lequel cet événement a lieu ou est
considéré. Mais le poids (la contribution) de chaque événement au contexte n'est pas pris en
compte.
La définition de R. Hartley (1928) est un cas particulier. Elle mesure la quantité
d'information obtenue en sachant quel événement s'est réalisé parmi n événements de
l’ensemble X. Soit x un élément de X (dans ce cas, X est le contexte), alors la quantité
d'information apportée par x est : I ( x ) = log 2 n . L'entropie de l'ensemble X (quantité

d'information moyenne des éléments de X) est aussi : I ( X ) = log 2 n (comme il ne cause pas
d’ambiguïté, dans ce cas, on utilise la même notation I pour l’entropie d’un événement ainsi
que l’entropie d’un ensemble).
Higachi et Klir (1982) ont proposé une extension de l'entropie de Hartley aux sousensembles flous. L'entropie de l’ensemble flou F qu'ils définissent, est la moyenne des

1
entropies de Harley de ses α-coupes Fα. Elle est définie par : I * (F ) = ∫ log 2( F α )dα . Cette
0

DANG Thanh Ha

15

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

définition n’est valable que pour les sous-ensembles flous dont le support est un ensemble
fini.
Cette approche est la plus simple et plus ou moins naïve. Il n'y a pas de définition
d'entropie conditionnelle associée. Cette approche est rarement utilisée.
2. Approche probabiliste

Cette approche fournit une définition de la quantité d'information d'un événement qui
dépend à la fois du contexte et des poids des événements dans le contexte.
a) Définition de l’entropie

L’entropie de Shannon [25] qui est la plus connue et la plus appliquée, se place dans
cette catégorie. Elle définit la quantité d'information apportée par l’événement x :

I (x ) = − log 2 p(x ) (plus la probabilité d’un événement est faible, plus la quantité
d’information qu’il apporte est grande). Et l'entropie d'un ensemble X (quantité d'information

n
moyenne des éléments de X) est : I ( X ) = − ∑ p(x i )log p (x i )
i =1

L'entropie de Shannon devient celle de R.Hartley dans le cas équiprobabilité (chaque
événement a une probabilité

1
).
n

On peut citer d’autres définitions appartenant à cette approche. Ce sont celle de
Daroczy (c'est aussi la définition de Tsallis) [13, 31], celle de Rényi [3, 23],… Cependant,
Daroczy et Rényi n'ont pas défini la quantité d'information d'un événement mais ils ont défini
l'entropie d'un ensemble des événements en connaissant les probabilités de chaque événement.
n

β

Entropie de Rényi : I R ( X ) =

Entropie de Daroczy : I D

β

ln ∑ p β (xi )
i =1

1− β

, β > 0 et β ≠ 1

n
2 β −1

( X ) = β −1
(1 − ∑ p β (xi )) , β > 0 et β ≠ 1
2 −1
i =1

Remarquons que dans le cas où n=2 on a :
IR

β

(

ln p( x1 ) + p( x 2 )
(X ) =
1− β
β

β

) = ln(p(x )
1

β

+ (1 − p( x1 ))
1− β

β

)

et

DANG Thanh Ha

16

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage
β

ID (X ) =

(

)

(

)

2 β −1
2 β −1
β
β
β
β
(
)
(

)
1
−
p
x
−
p
x
=
1 − p( x1 ) − (1 − p ( x1 )) .
1
2
β −1
β −1
2 −1
2 −1
f Rβ ( x) =

Voici quelques propriétés des deux fonctions :
(correspondant à l’entropie de Rényi) et f Dβ ( x) =

(

ln x β + (1 − x )
1− β

(

β

)

)

2 β −1
β
1 − x β − (1 − x ) (correspondant à
β −1
2 −1

l’entropie de Daroczy) où x ∈ [0,1].

fR

β = 0.1

β = 0.1

fD

β=100
β=100
β=1
β=1

Fig.2 : Entropie de Rényi (normalisée par ln(2)-à gauche) et celle de Daroczy (à droite) dans le cas n=2
avec les différents coefficients β :0.1, 0.3 , 0.5, 0.8, 1, 2, 3, 10, 50, 100 )

Entropie de Rényi :

•

⎧ ln 2 si 0 < x < 1
lim β →0 f Rβ (x ) = ⎨
⎩0 si x = 0 ou x = 1

•

lim β →1 f R ( x) =

β

− x log 2 x − (1 − x ) log 2 (1 − x )
, c’est-à-dire, l’entropie de Rényi après
ln 2

la normalisation par ln 2 s’approche de l’entropie de Shannon lorsque β tend vers 1.
1
⎧
− ln(1 − x) si 0 ≤ x <
⎪
2
f Rβ (x ) = ⎨
1
⎪ − ln x si ≤ x < 1
2
⎩

•

lim β →∞

•

f Rβ1 (x ) ≤ f Rβ 2 (x ) si β 1 > β 2

DANG Thanh Ha

17

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

•

lim x →0 f Rβ (x ) = lim x →1 f Rβ ( x ) = 0
Entropie de Daroczy :

•

⎧ 1 si 0 < x < 1
lim β →0 f Dβ ( x ) = ⎨
⎩0 si x = 0 ou x = 1

•

lim β →1 f D ( x) = − x log 2 x − (1 − x) log 2 (1 − x) , c’est-à-dire que l’entropie de Daroczy

β

tend vers l’entropie de Shannon lorsque β tend vers 1. L’entropie de Daroczy lorsque

β = 2 est l’index de Gini à un facteur près.
•

⎧ 1 si 0 < x < 1
lim β →∞ f Dβ (x ) = ⎨
⎩0 si x = 0 ou x = 1

•

f D ( x) = f D ( x) .

•

lim x →0 f Dβ (x ) = lim x →1 f Dβ ( x ) = 0

2

3

b) Définition de l’entropie conditionnelle

À partir des entropies définies ci-dessus, on peut définir l’entropie conditionnelle selon
l’une des trois formules suivantes :
m

Type 1 : I (X | Y) = ∑ p( y j ) I β (X | y j )
β

j =1

m

Type 2 : I (X | Y) = ∑ p β ( y j ) I β (X | y j )
β

j =1

m

Type 3 : I β (X | Y) = ∑
j =1

pβ (y j )

I β (X | y j )

m

∑ pβ (y
j =1

j

)

En fait, dans la littérature, il existe des formes de type 1[31], de type 2[13], de type
3[1] pour l’entropie conditionnelle de Daroczy et seulement de type 1 pour l’entropie
conditionnelle de Rényi [3, 23]. Remarquons que dans son article originel [13], Daroczy n’a

introduit que la forme de type 2 pour le conditionnement. Nous trouvons qu’on peut combiner
chacune des entropies de Rényi ou Daroczy avec un des trois types d’entropies
conditionnelles définies ci-dessus. En principe, on peut aussi combiner l’entropie de Shannon
avec les trois types d’entropie conditionnelle ci-dessus.

DANG Thanh Ha

18

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

On va considérer cette approche dans les parties suivantes.
c) Définition de l’entropie d’événements flous

L’entropie de Shannon peut être étendue aux événements flous [22] :
Soit A et B des sous-ensembles flous ayant les fonctions d’appartenance fA(x) et fB(x).
On définit ∏( A; B ) = sup min x∈X ( f A ( x ), f B ( x )) le degré de possibilité de A relativement à B et
N ( A; B ) = 1 − ∏( A, ¬B ) le degré de nécessité de A relativement à B.

La mesure de satisfiabilité est définie comme : sat ( A; B ) =

∏( A; B ) + N ( A; B )
2

Soit v1, v2, .., vm sont des événements flous, c'est-à-dire chaque vi (i=1..m) est un
ensemble flou défini sur X.
La probabilité floue de l’événement flou vi est : P * (vi ) = ∑ sat ({x j }; vi )P (x j ) où
n

j =1

p (x j ) est estimé par la fréquence de xj dans l’ensemble d’événements.
L’entropie de Shannon des événements représentés par des sous-ensembles flous v1,
n

v2,…, vn est : I * (v1 , v 2 ,.., v n ) = ∑ Pi* log
i =1

1
où Pi * = P * (vi )
*
Pi

I * (v1 , v 2 ,.., v n ) est une mesure de l’incertitude en tenant compte du caractère flou des
événements réalisables.
On retourne à l’entropie de Shannon si la partition est ordinaire ou les sous-ensembles
Xi sont ordinaires. L’entropie I * définie comme ci-dessus satisfait les propriétés de symétrie,
d’expansibilité, de maximalité et d’additivité.
3. Approche algorithmique

Cette approche a été introduite par Kolmogorov. Il avait eu l'intention de chercher la
nature de la quantité d'information traitée à travers un ordinateur. Il nous semble que cette
approche est plus « informatique » parce qu'il se base sur une machine (ordinateur) concrète
et un algorithme pour cette machine, alors que les définitions précédentes sont à d'origine
physique.

DANG Thanh Ha

19

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Kolmogorov définit (voir [24] pour plus de détails) la quantité d'information d'un
événement x par rapport à une machine C comme étant la longueur du plus court programme
P, exécuté sur C qui permet de calculer (c'est-à-dire de décrire de façon algorithmique) x.
L'indépendance de cette définition vis-à-vis d’une machine concrète est établie par
l'auteur en prouvant le théorème qui certifie l'existence d'une machine dite "optimale". C'està-dire, pour un événement fixé, cette machine correspond à l’algorithme optimal (algorithme
le plus court sur cette machine) plus court que celui des autres machines.
Cette approche est poursuivie actuellement par plusieurs chercheurs. Mais aucune
définition d'entropie conditionnelle n’a encore été proposée.
4. Approche axiomatique

Le principe est le suivant: on établit des axiomes désirés (ou propriétés désirées) pour
la fonction mesurant la quantité d'information puis on cherche une fonction qui vérifie ces
axiomes.
On peut distinguer deux sous-approches :
Pour la première approche, on considère a priori que la quantité d'information d'un
événement est une fonction de sa probabilité. Alors, le système d'axiomes est constitué des
contraintes imposées à une fonction définie sur des probabilités.
Avec cette approche, on peut reconstruire les définitions des entropies de Shannon,
Daroczy, Rényi, … [2]. On montre qu’il existe des systèmes d'axiomes qui conduisent à ces
définitions. Le système d'axiomes qui correspond à la définition de Shannon [2] est le suivant:
Définition II.1 : Supposons que nous avons un ensemble d’événements possibles dont
les probabilités sont p1, p2, …, pn. Appelons H(p1, p2, …, pn) la mesure de l'incertitude qui est
levée lorsqu'un événement se réalise. Il est raisonnable que H satisfasse les axiomes suivants :
1. H est une fonction continue par rapport à pi.
2. Si tous les pi sont égaux, H est strictement croissante par rapport à n.

(

)

3. H p1 , p 2 ,.., p k −1 , p k, , p k,, , p k +1 ,.., p n =
⎛ p,
p ,,
= H p1 , p 2 ,.., p k −1 , p k, + p k,, , p k +1 ,.., p n + p k, + p k,, H ⎜⎜ , k ,, , , k ,,
⎝ pk + pk pk + pk

(

) (

)

⎞
⎟⎟ .
⎠

Et Shannon a démontré le théorème suivant [2] :

DANG Thanh Ha

20

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Théorème de Shannon : La seule fonction H satisfaisant les trois axiomes ci-dessus est

n

de la forme : H = − K ∑ p i log p i où K est une constante appartenant à R.
i =1

Pour la deuxième approche, on vise à construire une fonction d'entropie sur l'ensemble
des événements (sans considérer les probabilités). Cette approche pourrait donner une forme
généralisée des fonctions d'entropies. On pourrait définir une entropie conditionnelle de la
même façon. Les définitions d'entropies conditionnelles de ce type existant dans la littérature
sont celle de Benvenuti [6], celle de Kampé de Fériet [21], et celle suggérée par Coletti que
nous sommes en train d'étudier.
d) Définition de Kampé de Fériet [21]

Définition II.2 : Soit Ω un ensemble des événements élémentaires et S une algèbre des
sous-ensembles de Ω telle que Ω ∈ S et φ ∈ S et S est fermée pour l’union (∪) et la
différence (\). Une fonction de mesure d'information est une fonction I : S → R + telle que :
W1 : Pour tous E, F ∈ S tels que E ⊆ F, I (E ) ≥ I (F )
W2 : I (φ ) = +∞
W3 : I (Ω ) = 0 .
Une fonction de mesure d’information I possède une règle de composition si l'axiome W4 est
satisfait :
W4 : Il existe une fonction continue f : R + × R + → R + qui définit un semi-groupe

topologique sur R + telle que I est une fonction composable sur des sous-ensembles et la règle
de composition de I est f.
On définit l’indépendance entre deux événements comme suite :
W5 : Si deux événements E et F sont indépendants l'un par rapport à l'autre pour une
mesure d'information I, alors : I(E ∩ F) = I(E) + I(F).
Exemple : Un exemple de mesure composable d'information est celle de Shannon que
nous avons décrite précédemment, pour laquelle la règle de composition est :

(

)

⎧ − c log e − x c + e − y c , c > 0, si e − x c + e − y c ≤ 1
f ( x, y ) = ⎨
dans les autres cas
⎩0

DANG Thanh Ha

21

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

La définition ci-dessus a été étendue par Kampé de Fériet (1969) pour la mesure
d'information conditionnelle de la façon suivante [21] :
Définition II.3 : Soit A, B deux ensembles d’événements. Une fonction de mesure
d'information conditionnelle est une fonction I : A * B → R + telle que :
K1 : Pour tout H ∈ B et pour tous E, F ∈ A tels que E ⊆ F, I (E H ) ≥ I (F H )
K2 : Pour tout H ∈ B : I (φ H ) = +∞
K3 : Pour tout H ∈ B : I (Ω H ) = 0 .
Une fonction de mesure d’information I possède une règle de composition si l'axiome K4 est
satisfait :
K4 : Il existe une fonction continue f : R + * R + → R + qui définit un semi-groupe
topologique sur R + telle que pour tout H ∈ B, I est une fonction composable sur des sousensembles par rapport à son premier argument et la règle de composition de I est f.
L’axiome K4 pourrait être remplacé par les trois axiomes K4a, K4b, K4c :
•

K4a : Pour tout E∈A et pour tout H ∈ B : I(E∩F|H) = [I(E), +∞]

•

K4b : Pour tout E∈A, H∈ B: I(E|H) ≥ 0

•

K4c : Il existe une fonction continue f : Γ → [0, +∞]

où Γ = {(x,y) ∈ [0,+∞] × [0,+∞] | il existe des événements E et F ∈ A tels que

E ∩ F = φ , x = I (E H ) et y = I (F H ) } donc pour tout H∈ B, A1 et A2 sont
des ensembles disjoints appartenant à S on a: I (E ∪ F H ) = f [I (E H ), I (F H )] où
f est une règle de composition régulière de type inf.
On définit l’indépendance entre deux événements comme suite :
K5 : Si deux événements E et F sont indépendants l’un par rapport à l’autre pour une
mesure d’information conditionnelle I, alors : I (E ∩ F H ) = I (E H ) + I (F H ) pour tout
H∈B.
e) Définition de Benvenuti [6] :

La définition suivante ne considère que les informations composables avec une loi de
composition régulière F donnée.
DANG Thanh Ha

22

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Définition II.4 : Etant donné un espace d’information (Ω,
I(E)<∞}. L’information conditionnelle est une application de

S, I), soit S0

S x S0 dans

={E∈

S:

+

R dont la valeur

sur le couple (E,H) sera noté par I(E/H). Les axiomes suivants doivent être satisfaits :
A1 : Pour tout H∈

S0 fixé, I(E/H) est une information composable avec la loi de

composition régulière f :
I (Ω H ) = 0 , I (φ H ) = +∞

E ∩ F = φ ⇒ I (E ∪ F H ) = f (I (E H ), I (F H ))

A2 : L'information conditionnelle est la même pour tous les événements qui ont la
même intersection avec H : I (E H ) = I (H ∩ E H )
A3 : Compatibilité : I (E Ω ) = I (E )
A4 : Il existe une fonction Ψ :]0,+∞]×]0,+∞] × R + × R + → R + telle que, pour tout

couple d'événements conditionnants disjoints entre eux, on a :
I(E/H1 ∪ H 2 ) = Ψ (I (H 1 ), I (H 2 ), I (E / H 1 ), I (E / H 2 ))

ψ est une fonction déterminée par les équations fonctionnelles citées ci-dessous. Ces
équations traduisent les propriétés imposées à ψ par les propriétés formelles des opérations
ensemblistes et par les conditions relatives aux valeurs universelles de l’information.
i)

ψ [ f (x, y ), z ,ψ (x, y, u, v ), w] = ψ [x, f ( y, z ), u,ψ ( y, z , v, w)]

Lorsque x = I (H 1 ), y = I (H 2 ), z = I (H 3 ), u = I (E H 1 ), v = I (E H 2 ), w = I (E H 3 ) on a :

ψ [ f (x, y ), z ,ψ (x, y, u, v ), w] =
= ψ [I (H 1 ∪ H 2 ), I (H 3 ),ψ (I (H 1 ), I (H 2 ), I (E H 1 ), I (E H 2 )), I (E H 3 )] =
= ψ [I (H 1 ∪ H 2 ), I (H 3 ), I (E H 1 ∪ H 2 ), I (E H 3 )] = I (E H 1 ∪ H 2 ∪ H 3 )
et

ψ [x, f ( y, z ), u,ψ ( y, z, v, w)] =
= ψ [I (H 1 ), f (I (H 2 ), I (H 3 )), I (E H 1 ),ψ (I (H 2 ), I (H 3 ), I (E H 2 ), I (E H 3 ))]
= ψ [I (H 1 ), I (H 2 ∪ H 3 ), I (E H 1 ), I (E H 2 ∪ H 3 )] = I (E H 1 ∪ H 2 ∪ H 3 )
ii)

ψ ( x, y , u , v ) = ψ ( y , x, v , u )

DANG Thanh Ha

23

Rapport de stage : Entropies conditionnelles et leurs applications en apprentissage

Lorsque : x = I (H 1 ), y = I (H 2 ), u = I (E H 1 ), v = I (E H 2 ) on a :

ψ (x, y, u, v ) = ψ (I (H 1 ), I (H 2 ), I (E H 1 ), I (E H 2 )) = I (E H 1 ∪ H 2 ) et
ψ ( x, y, u, v ) = ψ (I (H 2 ), I (H 1 ), I (E H 2 ), I (E H 1 )) = I (E H 1 ∪ H 2 )
iii)

ψ ( x, y,0,0 ) = 0 et ψ (x, y, ∞, ∞ ) = ∞

Lorsque : x = I (H 1 ), y = I (H 2 ),0 = I (Ω H 1 ),0 = I (Ω H 2 ) et ∞ = I (φ H 1 ), ∞ = I (φ H 2 ) on a :

ψ ( x, y,0,0 ) = ψ (I (H 1 ), I (H 2 ), I (Ω H 1 ), I (Ω H 2 )) = I (Ω H 1 ∪ H 1 ) = 0 et
ψ ( x, y, ∞, ∞ ) = ψ (I (H 1 ), I (H 2 ), I (φ H 1 ), I (φ H 2 )) = I (φ H 1 ∪ H 1 ) = ∞
iv)

[

] [

]

f ψ ( x, y, u , v ),ψ (x, y, u , , v , ) = ψ x, y, f (u, u , ), f (v, v , )

Lorsque : x = I (H 1 ), y = I (H 2 ), u = I (E H 1 ), v = I (E H 2 ), u , = I (F H 1 ), v , = I (F H 2 ) on a :

[

]

f ψ (x, y, u , v ),ψ (x, y, u , , v , ) = f [I (E H 1 ∪ H 2 ), I (F H 1 ∪ H 2 )]

= I (E ∪ F H 1 ∪ H 2 )
et

ψ [x, y, f (u , u , ), f (v, v , )] = ψ [I (H 1 ), I (H 2 ), I (E ∪ F H 1 ), I (E ∪ F H 2 )]
= I (E ∪ F H 1 ∪ H 2 )

f) Définition de Coletti

Traditionnellement, on explique l’entropie comme une mesure de l’incertitude qui sert
à mesurer la quantité d’information d’un événement. L’entropie conditionnelle I (B A) est
expliquée comme la quantité d’information (l’incertitude) de B lors de la connaissance de A
ou bien l’information de B sachant A. Mais, il peut arriver dans certains cas que I (B A)
> I (B ) . C'est-à-dire que l’incertitude sur l’événement B peut augmenter lorsque l’on apprend
l’occurrence de l’événement A. Ce n’est pas naturel.
En plus, les connaissances que l’on a sont souvent exprimées sous la forme d’une
proposition logique : « si A alors B ». Il est indispensable de mesurer la quantité
d’information de cette proposition. Lorsque l’on exprime I (B A) comme une mesure
d’information de la proposition logique « si A alors B », on arrive à une incompatibilité de la

(

)

théorie de l’information avec la logique classique. On a : ( A → B ) ⇔ A ∨ B dans la logique

DANG Thanh Ha

24

ENTROPIES CONDITIONNELLES ET LEURS APPLICATIONS EN APPRENTISSAGE

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về