Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML - Mines Saint-Étienne Access content directly
Conference Papers Year : 2003

Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML

Abstract

Nous étudions l'évolution des distributions des valeurs de la fréquence des termes et de la fréquence documentaire dans les vecteurs traditionnellement utilisés dans le modèle vectoriel de recherche d'informations en fonction du nombre de documents indexés. Nous construisons des collections dont la taille augmente d'un facteur 10 à chaque fois. Les documents utilisés sont extraits des pages HTML récoltées sur des sites de domaines géographiques francophones en décembre 2000.
No file

Dates and versions

emse-00948095 , version 1 (17-02-2014)

Identifiers

  • HAL Id : emse-00948095 , version 1

Cite

Michel Beigbeder, Annabelle Mercier. Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML. Atelier "Recherche d'information; un nouveau passage à l'échelle", Inforsid 2003, Jun 2003, Nancy, France. 14p. ⟨emse-00948095⟩
80 View
0 Download

Share

Gmail Mastodon Facebook X LinkedIn More