Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML - Mines Saint-Étienne Accéder directement au contenu
Communication Dans Un Congrès Année : 2003

Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML

Résumé

Nous étudions l'évolution des distributions des valeurs de la fréquence des termes et de la fréquence documentaire dans les vecteurs traditionnellement utilisés dans le modèle vectoriel de recherche d'informations en fonction du nombre de documents indexés. Nous construisons des collections dont la taille augmente d'un facteur 10 à chaque fois. Les documents utilisés sont extraits des pages HTML récoltées sur des sites de domaines géographiques francophones en décembre 2000.
Fichier non déposé

Dates et versions

emse-00948095 , version 1 (17-02-2014)

Identifiants

  • HAL Id : emse-00948095 , version 1

Citer

Michel Beigbeder, Annabelle Mercier. Étude des distributions de tf et de idf sur une collection de 5 millions de pages HTML. Atelier "Recherche d'information; un nouveau passage à l'échelle", Inforsid 2003, Jun 2003, Nancy, France. 14p. ⟨emse-00948095⟩
75 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More