Erreur style non défini

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (649.55 KB, 38 trang )

Erreur ! Style non défini.

Table des matières

TABLE DES MATIERES .....................................................................................................1
PLAN DU MEMOIRE...........................................................................................................3
RESUME .............................................................................................................................4
ABSTRACT .........................................................................................................................4
CHAPITRE 1

INTRODUCTION ........................................................................................5

1.1

Introduction du sujet.......................................................................................................................................... 5

1.2

Présentation du centre de la recherche en informatique ................................................................................ 5

CHAPITRE 2

TRAVAUX CONCERNES...........................................................................8

2.1

Description du projet ......................................................................................................................................... 8

2.2

Environnement de développement.................................................................................................................... 9

2.3
Travaux antérieurs............................................................................................................................................. 9
2.3.1
Téléchargement et décompression des données .............................................................................................. 9
2.3.2
Construction du système de stockage des données.......................................................................................... 9
2.3.3
Extraction des méta-données ......................................................................................................................... 10
2.3.4
Construction du texte par type de document.................................................................................................. 10
2.3.5
Correction des encodages .............................................................................................................................. 10
2.3.6
Mise en application par la plate forme Zope ................................................................................................. 11
2.4
Travaux en cadré du stage............................................................................................................................... 12
2.4.1
XML et XML solution de stockage .............................................................................................................. 12
2.4.1.1
XML..................................................................................................................................................... 12
2.4.1.2
XML solution de stockage ................................................................................................................... 14
2.4.2
Descriptions des données à traiter ................................................................................................................. 15
2.4.2.1
Texte principal ..................................................................................................................................... 15
2.4.2.2
Méta données ....................................................................................................................................... 16
Partie indexation .......................................................................................................................................................... 16

Partie des méta-données de description du document.................................................................................................. 17
2.4.2.3
Version différente d’un document juridique ........................................................................................ 18
2.4.3
Xml linking language (Xlink) pour les référence entre documents XML ..................................................... 18
2.4.4
Partie théorique de traitement ........................................................................................................................ 20
2.4.4.1
Abstraction de la grammaire pour des mots-clés du texte juridique .................................................... 20
2.4.4.2
Hypothèse............................................................................................................................................. 21

CHAPITRE 3

METHODES ET SOLUTIONS ..................................................................22

3.1
Fonctionnement de liens dans document juridique ....................................................................................... 22
3.1.1
Description de la phase de référence ............................................................................................................. 22
3.1.2
Mots-clés du texte.......................................................................................................................................... 22

Mémoire de fin d’étude

Page 1 sur 38

Erreur ! Style non défini.
3.1.3

Méthodologie pour l’analyse des mots-clés................................................................................................... 22

3.2
Localisation de fichier cible de lien et les annotations ou commentaires..................................................... 23
3.2.1
Reformuler la mot-clé cherché sous une forme simple.................................................................................. 23
3.2.2
Reconnaissance et l’acquisition pour la localisation d’un fichier du mot-clé................................................ 23
3.2.3
Ajout des informations prédéfinies de l’URL , les annotations et commentaires .......................................... 23
3.3
Modules et les algorithmes pour les travaux .................................................................................................. 25
3.3.1
Construction les patterns par l’expression régulière ...................................................................................... 26
3.3.2
Algorithme pour extraction du mot-clé dans le texte.................................................................................... 27
3.3.3
Algorithme pour la reforme des mots-clés..................................................................................................... 27
3.3.4
Préparation de la base de données des méta-données pour chaque fichier .................................................... 28
3.3.5
Algorithme de la reconnaissance les mots-clés, ajout des nœuds .................................................................. 28
3.4

Ajout du langage de liens(Xlink) dans le contenu de fichier......................................................................... 28

EVALUATION ...................................................................................................................30
CONCLUSION...................................................................................................................31
ANNEXES .........................................................................................................................32

REFERENCES ..................................................................................................................37

Mémoire de fin d’étude

Page 2 sur 38

Erreur ! Style non défini.

Plan du mémoire
Dans la suite de ce mémoire, nous commencerons par l’introduction du sujet de ce mémoire,
l’objectif global du projet, nous verrons en particulier l’objectif des travaux concernant le mémoire.
Le nouveau travail doit prendre en compte tous les avantages de l’ancien développement et doit
s’adapter au nouveau format de données et l’introduction sur Centre de la Recherche en
Informatique où je réalise mes travaux de mon mémoire. (cf. chapitre I)
Cette partie présente l’architecture globale du système, l’environnement de développement
et certains travaux pour le traitement des données ont été mis en place. De plus, la partie de la
relation entre les travaux antérieurs et ceux du projet de mon travail sera exploitée dans la deuxième
partie de ce mémoire. (cf. chapitre II)
Ensuite, nous nous concentrerons sur les méthodes et les solutions appliquées sur mes
travaux encadrés, les détails de la description des problèmes et les modules qui permettent de
représenter chaque étape de la solution et l’environnement du traitement. (cf. chapitre III)
Après la présentation des méthodes et des solutions, nous interpréterons le résultat obtenu.
Nous évaluerons également l’efficacité du traitement par rapport aux résultats attendus (cf.
évaluation).
Nous discuterons en particulier sur certains travaux antérieurs qui ont besoin d’être réalisé
afin de fournir pour certains traitements particuliers de nouveaux développements et certaines
critiques particulières sur les données originales. (cf. recommandation)
A la fin du mémoire, nous conclurons par la synthèse de résultats importants par rapport à
l’implémentation de l’ancien site et certaines recommandations

personnelles sur ces travaux. (cf. conclusion)

1

Une site est hébergé à l’Ecole des mines de Paris Un très important travail documentaire est réalisé régulièrement sur
les fonds du Journal officiel. Ce site permet d’accès à des textes de lois celles les nouvelles et celles qui sont très
rares

Mémoire de fin d’étude

Page 3 sur 38

Erreur ! Style non défini.

Résumé
La distribution de données des grandes bases de documents techniques par des réseaux est
de plus en plus augmentée. XML (eXtensible Markup Language) est l’un des formats le plus utilisé
pour contenir les données et ses structures logiques.
L’application web utilise ces données pour créer automatiquement ensuite les pages web à
l’aide de la plate-forme dont permet gérer les contenus. Aussi que le traitement sera
systématiquement effectué aux données de la nouvelle mise à jours.
Certaines applications implémente pour la partie l’analyse du contenu de la page et de
trouver des mot-clés afin d’établir sa page de référence. Pourtant la différence entre eux est sur le
domaine de spécialisé du document. Et le format du fichier à traiter
Ce papier a pour but de détailler la méthode d’enrichissement de contenu du texte juridique
en français et la représentation des liens d’un mot clé est en langage de liens Xlink2. Les résultats
seront par la suite publiés dans les contenue des pages dans la nouvelle version du site
www.admi.net/jo.

Abstract
Data exchange is now growing and especially the extraction of the big documentation‘s database
and sharing on the network, XML file format and structure is now one of the popular that use for
this exchange. Considering the use case of XML file, which is capable to generate various kinds of
terminal format page. On the distribution of the database, this is sharing by supplier or organisation
to the destination of clients, the web pages can be automatically created by using the plat-form of
content management, and who will then update then the contents of the news pages according to the
new update data arrival. On the other hand, many of the web pages have the access immediate to
other pages by clicking on the linking word, and that call “reference linking”.
Some of software exist today, that provide to create automatically the reference linking
beyond the extraction on the data from online documents, especially on the HTML format. This
technique will extract the key words and will then by using the metadata to reproduce the document
with the liking on those key-words, however on the case of XML, some of the structures of the
documents are different and that is the same case for the metadata of each document.
This paper explore this case in detail, the content enriching of legal document by automatic
extraction of creation de reference linking in Xlink attributes, is the method that name of the work
on what we will apply the automatic extraction and reference linking creation on the legal document
the new version of the website www.admi.net/jo .
2

Syntaxe basée sur des attributs pour établir des hyperliens entre documents XML, et non XML. Elle autorise les liens
unidirectionnelles simple introduits par HTML, mais aussi les liens multidirectionnels entre plusieurs documents, ou
encore les liens entre documents que l’on ne pas modifier soi-même[XMLMREF]

Mémoire de fin d’étude

Page 4 sur 38

Erreur ! Style non défini.

Chapitre 1 Introduction
1.1

Introduction du sujet

Le site est le deuxième site juridique le plus consulté après le site après
http://www.LégiFrance.gouv.fr3. Il offre en effet tout une série d’outils de recherche et propose
également un fond documentaire de textes officiels. En plus, il s’agit d’une sorte de grand répertoire
qui contient les textes officiels et l’enchaînement systématique de mise à jours de ces textes
documents [IDVJ]. Ce site fait parti de l’ensemble des sites adminet et il est hébergé au Centre de
recherche en informatique, Ecole Nationale Supérieure des Mines de Paris.
Avec la mise à disposition par le site officiel LégiFrance de données au format XML fait,
l’idée de construire une autre version du site est apparue. Cette nouvelle version sera plus tard basée
sur les données de la base documentaire XML et la mise en page sera réalisée sur une plate forme
de développement libre Zope4. Ces documents reçus ne sont pourtant que des fichier XML qui
contiennent des parties différentes du texte, alors la nécessité du contexte de stage est d’appliquer
Xlink pour décrire le liens du mot clé dans le texte et ces nouvelles description de liens seront
insérer dans le document originale en forme les attributs de Xlink.
L’avantage de l’utilisation de Xlink est la capacité de contenir les descriptions détaillées sur
un lien d’un mot-clé, ses données sont aussi les données avec la sémantique que nous pouvons par
la suite l’utiliser à la sortie finale de la page HTML ou les autres fichier multimédia.
Voyons que le travail concerne la recherche des mot-clés alors que le domaine correspond
fortement le méthode l’analyse lexico syntaxique spécialisé sur le domaines juridique que la
grammaire pour la représentation doit être définie
Pour s’assurer de l’efficacité du traitement, nous devons prendre en compte dans plusieurs
problème : l’extraction du mot-clé, la caractéristique particulier de style d’écriture de l’auteur,
définition du modèle des métas-donnés, la reconnaissance le mot-clé extraite que nous cherchons à
diminuer le temps de recherche et le problème de la grand taille de fichier de texte, le meilleur outil
pour faire le parseur et pour manipuler le fichier XML.

1.2

Présentation du centre de la recherche en informatique

Le Centre de recherche en informatique, dirigé par M. Robert MAHL, Directeur et M.
François IRIGOIN, Directeur Adjoint est composé de 90 personnes, dont 7 enseignants chercheurs,
8 doctorants, 6 autres personnels et 69 autres étudiants.
Les travaux de recherche du centre s’articulent autour de trois axes :
•
•
•

Les analyses statiques, instrumentations et transformations de programmes à des fins de
développement rapide d’optimisation, de validation, de maintenance et de ré-ingénierie de
codes scientifiques,
Les architectures documentaires permettant de faciliter l’accès aux informations disponibles
sur Internet,
Le e-learning avec, en particulier, le développement d’environnement d’aide à
l’enseignement en ligne.

3

Permet d’accéder aux bases de données juridiques officielles françaises, il propose également l’accès à tous les autres
sites officiels français, rejoignant en cela l’autre site de l’administration française, Service public.
4
Zope, pour Z Object Publishing Environment, est un serveur d’applications Web open source, permettant de
développer des portails, des systèmes de gestion de contenu, … Une étude plus approfondie de cette plate-forme

Mémoire de fin d’étude

Page 5 sur 38

Erreur ! Style non défini.
Formation
Aux niveaux des activités pédagogiques de l’Ecole, le C.R.I. participe activement à
l’enseignement de tronc commun, aux MIG (Modules d’Intégration Généralistes), à l’Acte
d’Entreprendre et aux cours de l’option informatique dont il assure l’organisation et l’encadrement.
Deux nouveaux enseignements spécialisés en informatique ont été préparés en 2003 et sont
proposés aux élèves ingénieurs en 2004.
Le C.R.I. organise deux mastères, pour lesquels il assure une part importante de l’enseignement. Le
premier, Management des Systèmes d’Information et des Technologies (M.S.I.T.), est co-encadré
avec HEC et a lieu pour moitié à l’Ecole des Mines (Paris) et pour moitié à HEC (Jouy-en-Josas).
Le second, Ingénierie des Applications Réseau MultiMédia (IAR2M), installé à Fontainebleau,
ambitionne de former des spécialistes du Web pour Internet et Intranets en s’appuyant sur les
compétences en multimédia et applications Internet acquises au sein du C.R.I.
Recherche
•

Analyses statiques, instrumentations et transformations de programmes

L’objectif général de ce premier axe de recherche est de réduire les coûts d’utilisation des
ordinateurs - qu’il s’agisse des coûts de développement ou d’exploitation – en développant des
outils aussi automatiques que possible pour effectuer des analyses, instrumentations et
transformations de programmes. Ces outils sont utilisés en développement pour faciliter la
réutilisation de code ou effectuer de la synthèse de logiciel ou de tests. Ces outils et techniques sont
aussi utilisés pour réduire le temps d’exécution de logiciels, sans augmenter sensiblement les coûts
de développement, ni les coûts de maintenance.
Les techniques de réduction des coûts mentionnées ont fait l’objet d’efforts particuliers en 2003 :
compilation de spécifications d’applications de traitement du signal, optimisation manuelle et

automatique des codes critiques pour le temps d’exécution, analyses pour la réutilisation de
logiciels, et dérivation automatique de versions spécialisées à l’aide de l’analyseur automatique de
programmes développé au C.R.I., PIPS.
Deux directions de recherche ont été poursuivies en 2003 : le traitement des applications écrites en
langage C et l’amélioration de la robustesse en magnitude, espace et temps des algorithmes
d’algèbre linéaire utilisés. La résolution des problèmes de robustesse permettra de traiter
automatiquement des milliers de lignes de code et d’envisager une industrialisation de tels outils.
Enfin, le projet MétaCC étudie la dissémination de ressources de stockage, d’optimisation /
compilation et d’exécution de code à distance sur une grille de calcul (réseau local, cluster, Internet)
et l’interaction entre ces ressources. Le but est d’exécuter du code à distance sur la machine la plus
appropriée, de manière transparente, depuis n’importe quel ordinateur connecté au réseau. Deux
thèses ont été lancées en 2003. La première se focalise sur l’analyse et l’optimisation de code au
sein du compilateur libre « gcc » qui sera intégré à l’infrastructure MétaCC ainsi que les possibilités
d’interactions distribuées entre « gcc » et les environnements PIPS et WrapIt (environnement
développé par l’INRIA).
L’autre thèse a pour but l’étude de nouvelles formes d’optimisations adaptées à la grille en prenant
comme application cible l’encodage de flux vidéo selon la norme MPEG4 AVC.
•

Architectures documentaires et Internet

Les travaux liés à Internet portent essentiellement sur :

Mémoire de fin d’étude

Page 6 sur 38

Erreur ! Style non défini.
•

•
•

Les mécanismes d’indexation et de recherche dans les grandes bases de données textuelles
partiellement structurées, notamment composées de textes juridiques,
L’extraction d’une ontologie juridique à partir des textes,
La présentation des interfaces de recherche multicritères.

L’objectif de ces recherches consiste notamment à concevoir des méthodes générales de création
d’hyperliens entre bases et de gestion de la qualité des documents. Une thèse a été soutenue l’année
dernière sur le premier de ces thèmes, une autre devant s’achever courant de cette année. La
première concerne l’étude des corrélations entre documents, l’objectif étant de faciliter la
navigation des internautes sur des bases de données pluridisciplinaires de grande envergure.
La seconde étudie les méthodes de classification non supervisées et de labellisation de classes pour
l’aide à la navigation dans des documents juridiques.
•

E-learning

Un nouvel axe de recherche, l’enseignement à distance, est en train de se former autour de
deux projets, Arezzo et G.E.V. Le projet Arezzo d’enseignement en ligne de bases théoriques de la
musique se poursuit ; il consiste à développer un environnement interactif permettant, entre autres,
de partager des partitions et de vérifier automatiquement les règles d’harmonie et de contrepoint.
Un financement par le Réseau pour la recherche et l’innovation en audiovisuel et multimédia
(R.I.A.M.) permet de valider, en collaboration avec la société ClickNPlayMusic, la pertinence de
l’approche proposée.
Une thèse consacrée à l’enseignement interactif de la musique de jazz est en cours.
Le second projet, G.E.V., est financé dans le cadre de la Grande Ecole Virtuelle. Il s’attache à
développer un environnement extensible et gratuit d’enseignement collaboratif à distance, gérant la
notion de cursus, au-dessus de la plate-forme open source Zope. Cet environnement a pour vocation

de regrouper l’ensemble des actifs pédagogiques en ligne de l’Ecole et, à plus long terme, ceux
d’autres écoles intéressées. La première version est en cours d’utilisation pour gérer les projets de
l’Acte d’Entreprendre des élèves.

Mémoire de fin d’étude

Page 7 sur 38

Erreur ! Style non défini.

Chapitre 2 Travaux concernés
2.1

Description du projet

Ce projet correspond au développement de la nouvelle version du site www.adminet.org/jo en
utilisant la base LEGI (les documents sous forme consolidé) et la gestion de contenu et les comptes
utilisateurs seront gérés par Zope.

Architecture montre la mise en place version du site
Le serveur contient l’ensemble des traitements sur les fichiers compressés qui sont téléchargés du
site LégiFrance. Le serveur reçoit ces données comme l’entrée du traitement. Le premier traitement
consiste à restructurer les données en les mettant dans plusieurs répertoires différents, que nous
considèrerons comme une base documentaire au format XML.
Le deuxième traitement consiste, grâce au module d’enrichissement de contenu, à établir les parties
de liens de navigation entre les contenus des pages. La plate forme Zope s’occupe de la présentation
des pages, et de la gestion des droits d’accès au document. Certains services sont ensuite fournis par
la plate forme Zope tel que le téléchargement de fichiers, …
Ces différents traitements sont systématiquement appliqués pour chaque mise à jour des pages et

permettent d’envoyer automatiquement la syndication de contenu en fonction du temps. Les pages
seront publiées sur Internet via Zope.

Mémoire de fin d’étude

Page 8 sur 38

Erreur ! Style non défini.

2.2

Environnement de développement
•

Matériels

Le centre dispose d’une salle dédiée aux cours dispensés aux élèves des Mastères et
composée d’une dizaine de postes avec en dual-boot Microsoft Windows et FreeBSD. De plus, il
existe une salle de « libre accès », avec des machines installées sous Microsoft Windows et un
scanner. Enfin, une salle est équipée d’une imprimante Lexmarc C910 laser couleur ainsi que d’une
photocopieuse. Evidemment, tout ce matériel était à notre entière disposition.
Pour le stage, nous avons disposé de la salle des mastériens, équipée de Pentium 4 à 2,4 GHz, avec
256 Mo de mémoire vive. De plus, nous avons essentiellement travaillé sous FreeBSD en utilisant
uniquement des logiciels libres tant pour le développement que pour la rédaction de rapports.
•

Logiciels

Pour le développement en Perl, script shell ainsi qu’en XML ou en XSLT, nous avons

uniquement utilisé le logiciel GNU Emacs, avec les modules adéquats5. Pour l’édition du
programme.
Pour afficher les résultats en page de HTML nous avons utilisé comme navigateur deux logiciels
libres qui sont Mozilla et Mozilla Firefox. Et l’utilisation de Zope pour gérer les codes sources et
les documents accompagnés du projets.
SGBD Mysql pour la création de base de données.
2.3

Travaux antérieurs

Cette partie décrit la première partie du travail, qui correspond à l’ensemble des codes (scripts en
shell) utilisés. Ils ont été réalisés par George-André Silber (ingénieur chercheur au cri)
2.3.1

Téléchargement et décompression des données

La base de données LEGI est décomposée en plusieurs bases de production qui regroupent les
textes juridiques par domaine. Dans les documents ainsi fournis, l'unité documentaire est l'article6.
Les données sont toutes téléchargées sous la forme de fichiers compressés au format ZIP depuis le
site FTP de LégiFrance. La méthode de téléchargement est faite par l’utilisation de la commande
wget7 vers l’adresse de LégiFrance. Enfin, la mise à jour est faite tous les 7 jours.
2.3.2

Construction du système de stockage des données

Ensuite, pour faciliter le stockage des données, une fois le téléchargement terminé, les fichiers sont
alors décompressés dans le répertoire. La taille de fichier est varie de 86 – 234 Mo. La découpe des
5

GNU Emacs possédait déjà les modules permettant de développer en Python ou en Perl. Seul le module nxml

20031031 a dû être installé pour développer en XML/XSLT.
6
L’article est la partie unité du document juridique et le contenu se divise en plusieurs articles, et le numéro de l’article
permet de savoir où se trouve l’article dans le document
7
Wget command permet de télécharger le fichier sur Internet en utilisant le protocole http et ftp

Mémoire de fin d’étude

Page 9 sur 38

Erreur ! Style non défini.
données est stockée dans plusieurs répertoires, qui sont nommés par le code de la mise à jour et les
sous répertoires correspondent aux codes. Voyons un exemple dans la figure 1 :

Figure 1

Le code de la mise à jours dans la figure 1 dont le nom de répertoire 200407020036 signifie le code
de la mise à jour, ACAXXXXXXXX = code civil8, et ACAXXXXXX5X00541AAXXAA.legi.xml
= fichier dans l’article.
2.3.3

Extraction des méta-données

Les méta-données sont certaines parties du contenu du texte. Il sont en général les information sur
le titre du document, le chemin d’accès au document, la description du document, le nom du fichier
…
Dans chaque mise à jour, le traitement va générer un fichier qui contient certaines
informations de méta donnée. Par exemple : 200407020036.index correspond à la mise à jour de

l’exemple de la figure 1.
2.3.4

Construction du texte par type de document

Le principe de l’étape suivante est de reconstruire le document à partir de plusieurs fichiers des
articles. Il agit de composer plusieurs fichiers XML en articles qui ont le même type de document9
et le nom de fichier se construit de la manière suivante : type de document +code de la mise à
jours+code du document
Alors, nous pouvons voir l’exemple de la figure 1 : CODE_200407020036_ACAXXXXXXXX.xml
2.3.5

Correction des encodages

Etant donné que les contenus de textes sont en français, l’encodage des accents et de certains
caractères spéciaux est réalisé en UTF-810 , provoquant un changement de l’encodage sur
l’ensemble des documents. Afin d’éviter tous les types d’erreurs d’encodage, nous avons encodé
tous les documents en UTF-8 décimal afin d’obtenir des documents homogènes.
8

Code civil , l’ensemble des règles de droit
Dans les document juridique, il y a par exemple : le code, le décret, le loi , l’ordonnance …
10
UTF-8 Unicode Transformation Format-8, c’est un standard de l’Unicode
9

Mémoire de fin d’étude

Page 10 sur 38

Erreur ! Style non défini.
2.3.6

Mise en application par la plate forme Zope

Ce module est pris en charge par Gilles Rosenbaum (un stagiaire de ESIGETEL11). C’est la
dernière étape qui met en place d’un système d’importation automatique. Elle est traitée par la
plate-forme Zope (cf. figure 2.1). La principale difficulté a été de créer un système capable
d’importer les informations nécessaires à partir des documents fournis en fin de l’étape de
l’enrichissement de contenu, mais pouvant ensuite manipuler ces données pour construire les pages
du site sans invention manuelle, car Zope possède son module d’indexation qui utilise les objet
Zope construits dans la partie de l’importation pour indexer les contenus du texte. Ceci permettra à
l’utilisateur de faire la recherche sur le contenu du texte. En effet, l’application possède le portail à
proprement parler et ses diverses fonctionnalités.
Ainsi, parmi toutes les fonctionnalités, d’abord celles qui semblent les plus pertinentes seront être
implémentées telle que la fonctionnalité qui concerne les « favoris ».
Ces favoris sont en fait une sorte de raccourci créé par l’utilisateur vers un texte juridique ou un
article de code dont il souhaiterait garder un lien. En effet, de nombreux utilisateurs consultent
régulièrement les mêmes textes juridiques, parmi le grand nombre disponible. Une telle
fonctionnalité leur ferait gagner du temps.
Ensuite, la fonctionnalité qui permet d’afficher la table des matières d’un article d’un code, pour
que l’utilisateur puisse se situer dans le code qu’il est en train de consulter. En effet, si l’utilisateur
souhaite consulter par exemple l’article 21-7, alors qu’il est train de lire l’article 1861, il lui sera
difficile de passer en revue tous les articles un par un pour arriver au bon. C’est pourquoi, avoir une
table des matières avec liens hypertextes à disposition est très pratique.
Enfin d’autres fonctionnalités comme la gestion de la syndication de contenu en fonction du temps
(RSS) seront implémentées. En effet, la syndication de contenu permet de générer des flux
d’informations qui peuvent être affichés par exemple en page d’accueil et dont tout utilisateur peut
avoir accès via un lecteur adapté. Ce système permet également à d’autres sites Web de reprendre

aisément les nouvelles informations qui sont publiées sur le site et de les afficher sur leur propre
site. Ce système nous permettra de devenir fournisseur de notre propre information au mettre titre
que l’est le site LégiFrance.
Plone12 est utilisé pour afficher le contenue du texte dans Zope et ce module occupe également sur
la gestion des fonts, et la gestion des formes dans les interfaces.

11

Ecole Supérieure d'ingénieurs en Informatique & Génie des
Télécommunications
12
Plone est un système de gestion de contenu basé sur la plate-forme Zope

Mémoire de fin d’étude

Page 11 sur 38

Erreur ! Style non défini.

Figure 2 1

Figure 2 2

Interface de Zope

Interface de page accueil du site en Plone

2.4

Travaux en cadré du stage

Je vais à présent décrire la partie du projet qui correspond à mon stage, à savoir l’enrichissement du
contenu. Ainsi, je commence d’abord par la description des données traitées, certains aspects
techniques du langage de liens et la partie théorique de traitement.
2.4.1

XML et XML solution de stockage

Avant d’entrer dans le traitement des données de LégiFrance, on va tout d’abord voir certains
aspects techniques de XML qui sont utilisés principalement dans la base.
2.4.1.1 XML
XML, pour eXtensible Markup Language, est un de langage qui fournit une information structurée
et s’auto décrivant, incluant l’organisation des éléments et leur sémantique. Il comprend également
l’esprit de HTML car il possède des balises, sa simplicité et son adaptabilité au Web. XML a mis à
disposition le moyen de séparer le fond et de la forme. Sa capacité à décrire les relations entre les
données est son principal avantage. Au niveau du format des documents, ils sont au format texte,
qui permet la facilité des traitements pour tous les systèmes d’exploitation.
Exemple de fichier en XML sur les information un joueur.
Damien Clarence
Date de naissance : 30/03/1976
Adresse : 110 boulevard des Capucines 75013
Paris
Taille : 205 cm
Poids : 90 kg

< ?xml version= «1.0» encoding= « UTF-8» ?>
<joueur>
<nom>Clarence</nom>
Damien</prenom>

<date_naissance>30/03/1976</date_naissance>
<adresse>
<nomero>110</numero>
<rue>boulevard des Capucines</rue>
<code_postal>75013</code_postal>
</adresse>
<taille unite= «cm»>205</taille>
90</poids>
</joueur>

Donnée en français

Les données en langage XML

Arbre XML : La représentation de XML peut représenter sous la forme d’un arbre où la première
Mémoire de fin d’étude

Page 12 sur 38

Erreur ! Style non défini.
balise est considérée comme la racine de l’arbre.

joueur

Date_nais

taille

adresse

poids

numéro

…

ville

Les données à la forme d’un arbre
L’ensemble des définitions des données : DTD pour Document Type Définition est l’ensemble
des séries des expressions qui définissent la structure logique du documents XML. L’utilisation
d’une DTD permet d’améliorer le partage des données entre plusieurs applications.
Lorsqu’une DTD est associée à un document XML, le parseur va vérifier que le document
respect bien les règles fixées dans la DTD. Souvent la DTD est définie de cette manière :
< !ELEMENT nom_element (modele_contenu)>

Model de création de DTD
Exemple d’une personne.
< !DOCTYPE joueur [
< !ELEMENT joueur(date_naissance,taille,poid,adresse)>
< !ELEMENT date_naissance (#PCDATA13)>
< !ELEMENT taille(#PCDATA)>
< !ATTLIST taille unite(#PCDATA)>
< !ELEMENT poid(#PCDATA)>
< !ATTLIST poid unite(#PCDATA)>
< !ELEMENT adresse(numero,rue,code_postal)>
< !ELEMENT numero(#PCDATA)>
< !ELEMENT rue(#PCDATA)>
<!ELEMENT code_postal(#PCDATA)>

DTD des données du joueur

13

#PCDATA : un élément de type contient une chaîne alphanumérique

Mémoire de fin d’étude

Page 13 sur 38

Erreur ! Style non défini.
2.4.1.2 XML solution de stockage
Pour stocker un grand nombre de grand nombre de document dont le contenu est très structuré, on
stocke plusieurs unités dans le même fichier. Ces documents contiennent une série de données
respectant tous la même structure. En plus, le document sera au format texte pour faciliter l’accès
par plusieurs applications ou langages de programmation. Dans notre exemple, on peut stocker
plusieurs joueurs.
Dans ce cas, il y a peu de changements au niveau du fichier DTD car on ajoute une balise
<joueurs><joueur>/<joueur><joueur>/<joueur></joueurs>
< ?xml version= « 1.0» encoding= « UTF-8» ?>
<joueurs>
<joueur>
<nom>Clarence</nom>
Damien</prenom>
<date_naissance>30/03/1976</date_naissance>
<adresse>
<nomero>110</numero>
<rue>boulevard des Capucines</rue>

<code_postal>75013</code_postal>
</adresse>
<taille unite= « cm»>205</taille>
90</poids>
</joueur>
<joueur>
<nom>Clarence</nom>
Damien</prenom>
<date_naissance>30/03/1976</date_naissance>
<adresse>
<nomero>110</numero>
<rue>boulevard des Capucines</rue>
<code_postal>75013</code_postal>
</adresse>
<taille unite= « cm»>205</taille>
90</poids>
</joueur>
</joueurs>

Exemple de XML en mode support persistence

Mémoire de fin d’étude

Page 14 sur 38

Erreur ! Style non défini.
2.4.2

Descriptions des données à traiter

2.4.2.1 Texte principal
ARTICLE
ORT_IDENTIF

C055_NOR

ORT_ARTICLE

… DATE_TRAIT TYPE_ARTI … TABLE_MAT
:
:

C1CI-

étiquette pour le

Figure 3 La représentation des données au format xml à la forme

L'architecture de ce type de document est représentée sous la forme d’un arbre, comme le montre la
figure 3. L’ensemble des données importantes est situé sous la racine ARTICLE, car cette balise14
contient plusieurs fils qui représentent plusieurs parties du contenu du texte réel. En effet, un article
dans le texte est découpé en plusieurs champs de données et chaque champ est ensuite transformé
dans la balise de fichier XML qui correspond aux fils15 de la balise ARTICLE. Alors, pour enrichir
le contenu du texte, il est nécessaire de traiter certaines balises principales qui font parti des
paragraphes dans le texte réel, alors le choix de parcourir la hiérarchie de l’arbre du texte a pour but
de traiter les données dont on a besoin. Cela permet d’optimiser la taille des données traitées. Et
pour le fichier DTD de LégiFrance (cf ANNEX B)
Alors nous pouvons voire certaine balise destiné au traitement de contenu :
Balise

Description

TEXTE_ARTICLE

Texte intégral

TEXTE_VISAS

Texte des visas

C1AB_OBJET

Titre du texte

HISTO_LIGNE

Ligne historique du document

C1CY_REFSPECAPPLI

Référence spécifique d'application

C1CZ_REFTXASSOC

Référence du texte associé

C1CI_RFDECCODE

Référence du décret de codification (code)

C1CQ_REFANCIENTX

Références anciens textes

14
15

Terminologie pour appeler le contenu qui est de la forme : <chaîne de caractère> </même chaîne de caractère>
Le concept de fils ici représente le niveau dans la hiérarchie de l’arbre pour représenter les données

Mémoire de fin d’étude

Page 15 sur 38

Erreur ! Style non défini.
C1CZ_REFTXSOURCE

Références textes sources

Tableau 2 1 List des balises traiter

Ces balises sont un ensemble de fils dans l’arbre de l’article. En effet, cette structure a créé pour
tous les type de document juridique : code, loi16 , décision17…. Alors dans certaines balises traitées
dans les travaux sont expliquées dans le (table 2.1), l’exemple suivant montre le texte réel que l’on
souhaite traiter :
Le contenu d’un balise TEXTE_ARTICLE d’un document juridique
M. Philippe Leroy, ingénieur des mines, M. Bertrand de Singly, ingénieur des ponts et
chaussées, M. Michel Pelegry, magistrat, Mme Corinne Lefranc, attachée d'administration centrale, sont

désignés comme représentants du ministre de l'économie, des finances et de l'industrie au sens de l'article
14 (alinéa 2) de la loi no 55-359 du 3 avril 1955 rendu applicable aux opérations du compte spécial «
Prêts du Fonds de développement économique et social » par l'article 6 de la loi no 60-859 du 13 août
1960 susvisée pour dresser les actes d'affectation hypothécaire et de mainlevée d'hypothèque lorsque ces
actes concernent des prêts consentis par l'intermédiaire du Crédit d'équipement des petites et moyennes
entreprises pour le compte de l'Etat sur les ressources dudit compte.
Tableau 2 2 Exemple de contenu du texte traité

Le tableau 2 2 montre la partie du contenu extrait d’une balise TEXTE_ARTICLE. Ces données
sont les textes de la partie principale du contenu de la page. Ce texte est typiquement du domaine
juridique. La partie des caractères en bleu qui permet d’accéder au contenu cible montre la section
de référence dans le contenu. Nous pouvons voir certains exemples d’apparitions de ces phrases.
Les phrases de référence peuvent s'exprimer de plusieurs manières. Ainsi, on a par exemple les
phrases suivantes:
Les exemples des phrases utilisées pour construire les références
L'article L. 97 doit : Les relevés individuels : la référence vers l'article dans le même document.
Article 441 1er … du code des caisses d’épargne : la référence vers un autre document
4° et 6° du III bis du même article : références vers certaines parties d'un article
Article 17 du présent code : référence vers l’article dans le même code
Article II de l’ordonnance n°2000-1223 : référence vers un article de document de type ordonnance
Loi 99-532 1999-06-25 art 29 II : référence vers un article de document de type loi
Article 39 quiquies GA du code général des impôts : la référence vers un article du code général
des impôts
les articles 43-7 et 43-8 de la loi n°86-1067 du 30 septembre 1986 : la référence de plusieurs
articles d'un document
Loi 2000-516 2000-06-15 art. 49 VI, art. 140 : les références de plusieurs articles d'un document
…

2.4.2.2 Méta données
Contrairement aux données principales, les méta-données consistent en certaines informations

essentielles sur les fichiers. Ces données sont par exemple : nom du répertoire contenant, code du
type de document, le chemin vers le répertoire stockage, le titre du document, type du document…
Partie indexation : L’indexation est la partie des données correspondant à l’information sur la
localisation et le stockage. En référence à un article et à un type de document, nous pouvons
16
17

Règles sociales imposées à tous les individus d’une communauté
Terme générique que l’on utilise aussi lorsqu’on aura affaire à une autorité juridique qui n’est ni une cour ni un
tribunal

Mémoire de fin d’étude

Page 16 sur 38

Erreur ! Style non défini.
accéder aux données souvent : nom du répertoire contenant, code du type de document, le chemin
vers le répertoire stockage, radident18, identification, nom de fichier. Ces données sont représentées
dans le fichier index.xml sous la forme d’un arbre de la manière suivante :
L’arbre représente la structure du fichier index.xml
IDX
DR
T

D

R

A

NEW

ARTICLE_DOC

Balise

description

contenu

IDX

la balise pour la racine

DR

Nom du répertoire contenant

T

Balise de chaque Texte

R

Code du type de document

AAEAAXXXXXX

D

le chemin vers le répertoire
stockage

/legidata/SPADSPLIT/1STOCK_0
1/AAEAAXXXXXX

A

la balise des articles

NEW

balise pour contenir les
informations sur l'article

1STOCK_01

@R = radident
@I = identification
@FILENAME = nom de fichier

ARTICLE_DOC

précise le nom du document et le
numéro de l'article

Loi 75-1347 1975-12-31 3

Partie des méta-données de description du document : La partie des méta-données concentrées sur

les informations essentielles du contenu du texte : les description des données, le nom du fichier
html pour ce document, le titre du document, type du document, numéro de document, date de
publication, date de la dernière mise à jour, auteur du document, responsable pour la consolidation,
objectif du document.
18

CODE en 11 octets pour identifier les documents, par exemple ACAXXXXXXXX = code civil

Mémoire de fin d’étude

Page 17 sur 38

Erreur ! Style non défini.

Balise

description

donné

Metas

racine de document

Meta

Balise pour chaque metas données @rep = 1STOCK_O1

document

description des données

@radident
@ident
@filename

Nom

le nom du fichier html pour ce
document

ARRETE_20021030_MBIAAXX
XXXX.html

titre

le titre du document

Arrêté 02 décembre 1998

Type

Type du document

arrêté

Numéro

numéro de document

INTD9800538

Date

Date de publication

06 janvier 1999

Datemaj

Date de la dernière mise à jour

20021030

Auteur

auteur du document

Légifrance

responsable-consolidation

responsable pour la consolidation

Direction des Journaux Officiels

Objet

objectif du document

Arrêté portant abrogation de
l'arrêté du 6_avril 1995 fixant les
modalités d'application du décret
n°94-211 du 11_mars 1994
transposant les directives du
Conseil des Communautés
européennes des 28_juin 1990 et
29_octobre 1993 relatives au droit
de séjour en France

Ces données permettent d'enrichir le contenu de la description des liens de référence.
En effet, nous pouvons envisager le lien avec certaines de ces informations pour décrire le lien
permettant à l'utilisateur de retrouver certaines informations sur la référence d'un terme.
2.4.2.3 Version différente d’un document juridique
Le texte juridique est régulièrement changé et mis à jour à tel point que le contenu de l’article peut
être changé au cours du temps, le but de ce traitement de la version différente est de trouver le
moyen pour accéder à la consultation d’un article de référence. L’utilisateur aura le choix d’accéder
non pas seulement à la dernière version mais à toutes les versions existées. La plupart des
applications actuelles utilisent cependant la version finale du document ou bien l’accès par moteur
de recherche sur les critères particuliers comme celui qui existe sur LégiFrance.
2.4.3

Xml linking language (Xlink) pour les référence entre documents XML
Xlink est l’ensemble des éléments insérés dans le document XML afin de créer et de décrire

Mémoire de fin d’étude

Page 18 sur 38

Erreur ! Style non défini.
les liens entre les différentes ressources. Il permet de créer d’une part un lien unidirectionnel
(ressemble à hyperlien en HTML), et d’autre part de créer les liens complexes. Ce lien permet au
document XML d’effectuer de telles utilisations : les liens de plus de deux ressources, séparé la
dépendance de localisation de liens par rapport à la ressource, alors que xlink permet au document
XML de décrire la relation entre les ressources sans avoir à implémenter les détails. Ensuite, il
permet d'implémenter la sémantique des informations des liens et facilite l'implémentation en
plusieurs types de média.
La spécification de Xlink se compose d’une partie obligatoire correspondant à la ressource qui peut
être adressée pour les informations (URL). Xlink peut également être considéré comme des graphes
dans lesquels les sommets sont des documents destinataires et les arêtes des liens entre ces
documents. Ce que vous mettez dans le graphe est à votre convenance.
Lien simple
Il n’y a que deux ressources qui participent aux liens : la ressource de départ et la ressource
d’arrivée.
Lien pour définir la navigation en direction unique entre les deux ressources. La source (ressource
de départ) de la navigation est l’élément du lien lui-même, la cible où la ressource arrivée de la
navigation est identifiée par URL.
Tableau 1 : lien simple
Source d’arrivée

Source de
départ

lien XML
fichier associé par le lien xml

document XML
navigation

Lien étendu
Lien étendu décrit un ensemble de ressources et de chemins entre des ressources. Chaque chemin
connecte exactement deux ressources. Un lien étendu est un graphe étiqueté, orienté, dans lequel les
chemins sont des arcs, les documents des nœuds et les étiquettes des URL.

Mémoire de fin d’étude

Page 19 sur 38

Erreur ! Style non défini.
Tableau 2 Liens étendu
Source à distance

Source local

Source à distance

lien XML
fichier associé par le lien xml

navigation

Certains explications sur des attributs de Xlink
Nom
Type

Explication
Indique le type de liens et les valeurs obligatoires

sont possibles parmi : simple (indique le liens sera
en normal comme celui de hyper lien), extended (le
lien sera en mode de plusieurs ressources), locator
(indique l’adresse de ressource à distance ), arc
(fournir le rôle de la transversale), ressource(élément
de ressource local de lien), title(label pour le lien) or
none(la spécification de liens invalide) .

Href
Role
Title

le liens : URI, nom de fichier cible, URL
Indique la propriété de la ressource
Indique les informations pour la description de
ressource.
Indique la présentation préférer lors de la démarrage
de la ressource : new, replace

show
Actuate
Label
To
From

2.4.4

Indique l’événement où l’action sera effectué :
onLoad, onRequest
étiquette pour le lien

indique sa ressource destination lorsque le type est
arc
indique sa ressource locale lors le type est arc

Partie théorique de traitement

Dans la partie théorique de traitement, on s’intéresse tout d’abord à la partie de l’extraction des
sections de référence.
2.4.4.1 Abstraction de la grammaire pour des mots-clés du texte juridique
Nous nous concentrons toujours sur la partie de section de référence dans le texte alors que nous
cherchons à savoir la représentation abstraite, en utilisant des expressions régulières :
Mémoire de fin d’étude

Page 20 sur 38

Erreur ! Style non défini.
articles | 43-7 | et | 43-8 | de la | loi n° 86-1067 du 30 septembre 1986
On décompose la phrase référence précédente avec certaines étiquettes lexico - syntaxique de la
manière suivante :
Etiquette

Description

Valeur

_a

Le label de l'article

Article , articles

_n

Le numéro de l'article

43-7, 43-8...

_o

Les opérations pour
présenter plusieurs articles

« et » , « à » , « ou », « , » ,...

_e

L'ensemble des mot entre le « de la » , « premier alinéa,
numéro de l'article et le type du » ...
de document

_t

Type de document

Loi 86-1067 du 30
septembre

_d

Label l’article

Art

Dans ce cas, nous pouvons étiqueter toutes les mots-clés de référence pour estimer certaines
grammaires. En effet, les mots-clés respectent certaines grammaires pour ordonner chaque
composant.
Arrêté 1984-10-01
= t
Arrêté 1996-12-31 art. 1 = t .d .n
article 3-1° de l'arrêté du 9 juin 1966 = a .n .e .t
Loi 96-1181 1996-12-30 art. 38 III = t .d .n
Loi 2000-516 2000-06-15 art. 49 VI, art. 140 = t.d.n.o.d.n
articles 43-7 et 43-8 de la loi n° 86-1067 du 30 septembre 1986 = a.n.o.n.e.t
Décret 84-686 1984-07-17 art. 6 = t.d.n
Décret 81-859 1981-09-15 = t
article L. 316-2 du code de la construction et de l'habitation = a.n.e.t
article 125 A III bis-2° du code général des impôts = a.n.e.t
Ordonnance 2004-281 2004-03-25 art. 2 = t.d.n

Exemple pour la représentation d’une chaîne avec les exemples des sections de références
On peut définir certaines grammaires, qui comprennent certaines sections de référence au dessous.
Ainsi, « * » signifie 0 – n fois, en considération technique de l’expression régulière.
$mot_art_loi_ord_decret = ε(1) = a.n.( o.n)*.e.t
$mot_loi_ord_decret_art = ε (2) = t.d.(o.d.n)*
$mot_art = ε (7) = a.n
$mot_doc = ε (8) = t

Les grammaires définies pour le premier traitement
2.4.4.2 Hypothèse

Ces grammaires seront représentées par des expressions régulières en Perl [ANNEXE A], et elles
seront appliquées dans le module extraction des mots-clés.
Mémoire de fin d’étude

Page 21 sur 38

Erreur ! Style non défini.

Chapitre 3
3.1
3.1.1

Méthodes et solutions

Fonctionnement de liens dans document juridique
Description de la phase de référence

Le document en ligne, lorsqu’on voit l’aspect technique de programmation, par le technique de
l’hyperlien19 dans le document HTML, les liens inclus dans l’URL20 et liés directement aux
documents en ligne. Dans certains cas, nous n’avons pas besoins inclure tout le chemin complet de
l’URL pendant l’étape de traitement de XML. En effet, dans la technique actuelle, le format de la
page finale qui sont dans plusieurs sites est un document HTML. Pendant la phase de la
transformation, nous pouvons adresser les URL fixes pour les références. La transformation est faite
par un langage de scripts : XSLT21
3.1.2

Mots-clés du texte

Certains exemples (cf 2.3.2.1) montre la forme des mots-clés dans le texte; deux aspects à prendre

en compte, d’une part la partie d’analyse du texte pour extraire les mots-clés, d’autre aspect la partie
de représentation des liens référentiels sur ces mots-clés pour la navigation..
3.1.3

Méthodologie pour l’analyse des mots-clés

Les données traitées sont les textes qui se composent des informations sur le contenu du texte.
•

Analyse les méta-données :

Déterminer la forme réelle de chaque composant d’un mots-clés : partie numéro de l’article, partie
numéro de code, de décret …
•

Analyse du contenu du texte :

Pour le contenu du texte réel, la partie la plus difficile est la partie analyse de phrase. Il dépend
d’abord du style d’écriture de l’auteur, l’utilisation de caractères de numérotation, l’utilisation du
vocabulaire pour éviter la répétition dans le même article, même document … et finalement
l’utilisation de caractères causent beaucoup de fautes pour la détection.
Exemple :
Article 11-1 du même code : Il n’est pas évident si c’est
le code dans même phrase où c’est du code de document
en cour
Exemple de partie complexe de l’analyse du contenu
du texte

19

Partie d’accès immédiat entre plusieurs documents dans les documents HTML
Uniforme Ressource Locator : chemin d’accès au fichier de référence
21
XSLT pour eXtensible Stylesheet Language . Cette application XML transforme des documents XML sous une forme
visible dans un navigateur Web
20

Mémoire de fin d’étude

Page 22 sur 38

Erreur ! Style non défini.

3.2

Localisation de fichier cible de lien et les annotations ou commentaires

La reconnaissance de sections de référence est la méthode pour parcourir rechercher d’un mot clé
dans la base des méta-données (cf. 2.3.21).
3.2.1

Reformuler la mot-clé cherché sous une forme simple

Les mots-clés qu’on les extrait du texte n’est souvent pas immédiatement prête pour la recherche, Il
est nécessaire qu’il soit la même avec celle de sa référence. Cette étape correspond à la reforme du
mot-clé et nous prenons que numéro et la type du texte et si la forme de la date est en chaîne de
caractère alors on change en numéro.
loi 86-1067 1986-09-30 43-7

Exemple de la forme dans le fichier méta donné
Si dans le mot-clé possède plusieurs articles, alors nous réorganisons la structure obtenir plusieurs
mots-clés qui possède un seule numéro de l’article.
les articles 43-7 et 43-8 de la loi n°86-1067 du 30 septembre 1986
- loi 86-1067 1986-09-30 43-7
- loi 86-1067 1986-09-30 43-8

Exemple montre le cas de découpage compliqué
3.2.2

Reconnaissance et l’acquisition pour la localisation d’un fichier du mot-clé

L’acquisition est fait par la recherche d’un mot-clé dans la base de données
En effet, la base de données
Finalement j’avais proposé le stockage des données de méta-données dans la SGBD22 et la SGBD
utilisée est MySQL23. L’avantage d’une SGBD est le parcours pour l’accès aux données et la
facilité du stockage des données de méta données. A la fin de cette étape nous aurons des mots-clés
avec ses informations du fichier il appartient.

3.2.3

Ajout des informations prédéfinies de l’URL , les annotations et commentaires

Nous traitons ici sur l’ensemble les données prédéfinies de URL, de telle sorte que ces informations
doivent servir aux URL :
Les informations de l’attribut href : les données prédéfinies pour la transformation par la suite
vers URL classiques. Il est nécessaire de trouver la meilleur donnée afin d’assurer l’indentification
de URL à l’avenir.
Suite de la traitement pour construire le fichier alors les textes peuvent avoir le nom de
fichier:

CODE_200407020036_ACAXXXXXXXX. : des champs dans le nom sont : type de doc + code de mis à jour +
radident

Exemple de données prédéfinie de URL
22

Système de la Gestion de Base de Données : fournir le modèle de stockage des données et possède les script pour
accéder au données stocker, la traitement plus efficace avec les données de grand quantité
23
My sql : SGBD libre

Mémoire de fin d’étude

Page 23 sur 38

Erreur ! Style non défini.
.

Grâce à cette définition de nom, le fichier a bien contenir certains information sur le fichier,
ACAXXXXXX5X00541AAXXAA : des champs dans le nom sont : radident + code de l’article

Exemple une nouvelle données prédéfinie de URL
De cette manière il donne une identification unique de chaque article. Et ces fichier est stocker dans
la répertoire nommé par le code chaque mise à jour. De telle points on peux envisage pour les
données de prédéfinie de URL entre deux version de l’article si dessous
ACAXXXXXX5X00541AAXXAA : l’article de version 1
ACAXXXXXX5X00541AAXXAB : l’article de version 2
ACAXXXXXX5X00541AAXXAC : l’article de version 3

Exemple montre les données prédéfinie de URL pour les plusieurs version
d’un article de code civil
Les href : vers LégiFrance : Poursuivre la caractéristique de l’anciens version du site sur la
référence de tous les contenu du site vers la page de LégiFrance. Ce la était implémenté par
l’anciens version de tell point que chaque liens possède qu’une seule destinataire, hors celle de la
nouvelle site est obligé à une terme extraire possède au moins un lien vers LégiFrance. Cette
événement fournisse l’avantage pour la référence du contenu avec la site de fournisseur. Pourtant
pour l’implémentation oblige à partir un mot-clé on peut avoir au moins deux liens,
l’implémentation pour répondre à ce cas utilisation sera implémenter par Xlink. L’exemple suivant
montre URL de LéfiFrance.
http://www.LégiFrance.gouv.fr/WAspad/Unicode?code=CCIVIL.rcv : URLs de LégiFrance est en mode générique
pourtant le méthode de création tiens en utilisant le code fixe, CCIVIL = code civil

Example de URLs dans un page de LégiFrance

Les annotations ou les commentaires : l’événement associé à un lien visité qui permet avoir les
informations pour faciliter la navigation. Le traitement pour les données prédéfinies de liens fournit
les descriptions pour chaque mot clé en lien référentiel, Alors à l’action da visite de mots-clés du
par le souris (événement passe d’une flèche) une annotation qui contiens: les description des
données , le nom du fichier html pour ce document, le titre du document, type du document, numéro
de document, date de publication, date de la dernière mise à jour, auteur du document, responsable
pour la consolidation, objectif du document(cf ANNEX C). Cette annotation peut donner les
informations essentielles sur la section de référence aux utilisateurs avant la consultation sur le
contenu entier. Alors nous pouvons voir l’exemple si dessous :

Mémoire de fin d’étude

Page 24 sur 38

Erreur ! Style non défini.
loi n° 90-1247 du 29 décembre 1990
Titre: loi 90-1247 du 29 décembre 1990
Date: 03 janvier 1991
Date de mis à jour : 19 Juin 2003
Auteur : LégiFrance
Responsable : Direction des journaux official
Objet : loi portant suppression de la tutelle administrative et
financière sur les communes de Nouvelle-Calèdonie et
dispositions diverses relatives à ce territoire

Exemple montre étiquette pour le liens simple
La réalisation du fenêtre avec l’étiquette demande la partie implémentation de javascript24 et de
CSS25 , c’est la partie de la présentation pour l’utilisateur, cela demande la méthodologie pour
représenter la forme d’affichage de données avec l’action d’utilisateur pendant la consultation.

article 4 Loi 78-9 1978-01-04 [1][2]
Deux version existe pour ce lien, veillez Titre: loi 90-1247 du 29 décembre 1990
vous choisir le numéro de chaque
Date: 03 janvier 1991
Date de mis à jour : 19 Juin 2003
version pour accéder au références
Auteur : LégiFrance
Responsable : Direction des journaux official
Objet : loi portant suppression de la tutelle administrative et
financière sur les communes de Nouvelle-Calèdonie et
dispositions diverses relatives à ce territoire

étiquette lors d'accès
au lien

étiquette lors d'accès
à chaque version

Exemple montre étiquette de liens étendu

3.3

Modules et les algorithmes pour les travaux

Après la description des données la méthode d’analyse, cette partie concentre sur les détails
d’implémentation. Nous détaillons ici d’abord la fluide de données et instruction de traitement
système

24
25

Le script intégré dans la page HTML qui est capable de traité par les navigateurs
Cascading Style Sheet feuille de style

Mémoire de fin d’étude

Page 25 sur 38

Erreur style non défini

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về