Skip to Main content Skip to Navigation
Conference papers

Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML

Résumé : Nous étudions l'évolution des distributions des valeurs de la fréquence des termes et de la fréquence documentaire dans les vecteurs traditionnellement utilisés dans le modèle vectoriel de recherche d'informations en fonction du nombre de documents indexés. Nous construisons des collections dont la taille augmente d'un facteur 10 à chaque fois. Les documents utilisés sont extraits des pages HTML récoltées sur des sites de domaines géographiques francophones en décembre 2000.
Document type :
Conference papers
Complete list of metadatas

https://hal-emse.ccsd.cnrs.fr/emse-00948095
Contributor : Florent Breuil <>
Submitted on : Monday, February 17, 2014 - 5:09:37 PM
Last modification on : Wednesday, June 24, 2020 - 4:18:08 PM

Identifiers

  • HAL Id : emse-00948095, version 1

Citation

Michel Beigbeder, Annabelle Mercier. Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML. Atelier "Recherche d'information; un nouveau passage à l'échelle", Inforsid 2003, Jun 2003, Nancy, France. 14p. ⟨emse-00948095⟩

Share

Metrics

Record views

111