Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML

Résumé : Nous étudions l'évolution des distributions des valeurs de la fréquence des termes et de la fréquence documentaire dans les vecteurs traditionnellement utilisés dans le modèle vectoriel de recherche d'informations en fonction du nombre de documents indexés. Nous construisons des collections dont la taille augmente d'un facteur 10 à chaque fois. Les documents utilisés sont extraits des pages HTML récoltées sur des sites de domaines géographiques francophones en décembre 2000.
Type de document :
Communication dans un congrès
Atelier "Recherche d'information; un nouveau passage à l'échelle", Inforsid 2003, Jun 2003, Nancy, France. 14p., 2003
Liste complète des métadonnées

https://hal-emse.ccsd.cnrs.fr/emse-00948095
Contributeur : Florent Breuil <>
Soumis le : lundi 17 février 2014 - 17:09:37
Dernière modification le : lundi 4 décembre 2017 - 15:30:07

Identifiants

  • HAL Id : emse-00948095, version 1

Citation

Michel Beigbeder, Annabelle Mercier. Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML. Atelier "Recherche d'information; un nouveau passage à l'échelle", Inforsid 2003, Jun 2003, Nancy, France. 14p., 2003. 〈emse-00948095〉

Partager

Métriques

Consultations de la notice

81