Compression de structure XML pour la recherche d'information structurée

Résumé : La recherche d'informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d'information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les résultats d'expérimentations sur la collection Wikipedia utilisée dans les campagnes INEX 2006 et 2007 (5,8 giga-octet, 659 388 documents) en terme d'efficience en espace et en temps.
Type de document :
Communication dans un congrès
CORIA 2008, 5th French Information Retrieval Conference, Mar 2008, Trégastel, France. p 197-209, 2008
Liste complète des métadonnées

https://hal-emse.ccsd.cnrs.fr/emse-00680491
Contributeur : Florent Breuil <>
Soumis le : lundi 19 mars 2012 - 15:42:05
Dernière modification le : mercredi 29 novembre 2017 - 10:06:31

Identifiants

  • HAL Id : emse-00680491, version 1

Citation

Michel Beigbeder. Compression de structure XML pour la recherche d'information structurée. CORIA 2008, 5th French Information Retrieval Conference, Mar 2008, Trégastel, France. p 197-209, 2008. 〈emse-00680491〉

Partager

Métriques

Consultations de la notice

95