Exploitation de syntagmes dans la découverte de thèmes
Abstract
Le but de cet article est d'étudier l'apport des syntagmes nominaux, verbaux et ad- jectivaux pour la découverte de thèmes ( topic modeling). Nous testons l'hypothèse qu'ajouter des syntagmes à la représentation des documents-- pour lesquels ne sont traditionnellement considérés que les mots simples-- permettrait d'améliorer la qualité d'un modèle de thèmes, en l'occurrence LDA. Des différences significatives sont attendues notamment lorsque plusieurs thèmes partagent le même vocabulaire. Nous présentons des résultats sur un corpus catégorisé de 20 000 résumés d'articles scientifiques. Il s'agit d'une étude de cas qu'il conviendrait de reproduire sur un corpus plus conséquent.