index - DIMAG

Data, Information & content MAnagement Group
Project Manager : Patrice BELLOT

Mots clés : adaptation, analyse de données, analyse d’opinion, apprentissage automatique, bases de données, classification automatique de données et de textes, conception et ingénierie des SI, extraction d’information, extraction et gestion des connaissances, fouille de données complexes, fouille de graphes, fouille de textes, modélisation à base d’agents, modélisation de processus, ontologies, recherche d’information (RI), services Web, simulation, systèmes d’information (SI), systèmes de recommandation, systèmes multi-agents, traitement automatique du langage naturel (TAL)

Objectif Scientifique

Composée en 2013 de 13 enseignants-chercheurs (5 Professeurs, 8 Maîtres de conférences), de 19 chercheurs contractuels (18 doctorants, 1 post-doc), l’équipe se consacre au développement de modèles et d’algorithmes au cœur des systèmes d’information, au sens le plus large du terme (SI d’entreprise, systèmes ouverts sur le Web, bibliothèques numériques et entrepôts de documents ou de données).

Nos activités autour des systèmes d’information concernent aussi bien leur conception (architectures, services) et leur adaptation (spécialisation métier, personnalisation) que le traitement des contenus documentaires (recherche, extraction) et des données (fouille, intégration) nécessaire à leur mise en œuvre.

Le but de nos travaux est ainsi de : développer des modèles et des algorithmes opérant au coeur de la relation “donnée, information et connaissance” et applicables à de grands corpus de documents numériques, de pages Web ou de masses de données, en domaine de spécialité ou non ; de proposer des architectures pour les systèmes d’information (modèles distribués, modèles et simulations multi-agents, modèles guidés par les processus) ainsi que des modélisation de processus (BPM) et des approches pour la définition, l’intégration et la recherche de services Web.

L’intelligence artificielle est au coeur de nos activités et ceci selon quelques-unes de ses facettes les plus notables : ingénierie des connaissances, recherche d’information, traitement automatique des langues, agents intelligents, fouille de données, apprentissage automatique.

Nos travaux font l’objet d’implémentations testées à grande échelle, dans le cadre de projets coopératifs (domaines des Digital Libraries, du e-commerce, de la santé, de la recherche d’information sur Web) et de campagnes internationales d’évaluation des systèmes de recherche d’information (TREC, CLEF, INEX).

Activités de recherche
Les recherches s’articulent autour de trois thèmes qui appréhendent les SI à différents niveaux :

Thème A : Conception de Systèmes d’Information Décisionnels et Adaptatifs.

Les recherches et développements associés à ce thème visent à définir des méthodes, des architectures et des techniques pour concevoir et réaliser des systèmes d’information à la fois adaptés à l’usage que l’on veut en faire et satisfaisant des critères d’intégration de l’utilisateur, de réutilisabilité, de flexibilité, de fiabilité, d’ouverture... Le thème utilise une approche orientée processus et/ou agent pour aborder la conception de SI et développe des solutions pour répondre aux exigences de flexibilité et de coopération des SI actuels.

Thème B : Recherche et Extraction d’Information.

Un enjeu scientifique et sociétal majeur réside dans le développement d’approches informatiques robustes vis-à-vis de la qualité variable et de la quantité sans cesse croissante des informations disponibles sur Internet. Notre objectif est de concevoir des méthodes de recherche d’information, de classification et de fouille de textes efficaces, en domaine de spécialité ou non, sur des documents et pages Web plus ou moins structuré(e)s en provenance de collections fermées du Web et des réseaux sociaux. Une importance particulière est accordée à l’évaluation de nos propositions sur des données réelles (campagnes internationales d’évaluation) ainsi qu’à leur intégration au sein de systèmes opérationnels (par ex. Equipement d’excellence DILOH).

Thème C : Fouille et Intégration de Données.

La problématique centrale de cet axe vise l’élaboration d’algorithmes et de méthodes pour le traitement de données provenant de ressources multiples hétérogènes. Plus précisément, les travaux portent sur les fondements et applications de la fouille et de l’intégration de données. Développées à l’origine dans un cadre "bases de données" (BD), les méthodes, algorithmes, et architectures pour l’intégration de données doivent être repensées afin de prendre en compte leur nature actuelle alors que les fonctions (composants) BD sont souvent réalisées par des services. Les données sont de nature diverses, de plus en plus volumineuses, de qualité variable et peuvent faire appel à de nombreuses ressources, notamment dans un contexte distribué. Nos travaux concernent particulièrement la découverte de services web sémantiques (SWS) et d’objets pédagogiques (e-Learning). Ils portent sur l’approximation, l’émergence et l’ignorance en fouille de données et apprentissage : approximation de motifs, de fonctions booléennes et d’espaces de recherche, apprentissage prenant en compte l’ignorance d’experts et l’émergence de motifs.

Principaux projets collaboratifs

L’équipe est impliquée en 2013 dans plusieurs projets “Investissements d’avenir” :

- Equipement d’Excellence (EQUIPEX) DILOH (Digital Library for Open Humanities)
- Fonds pour la Société Numérique INTER-TEXTES et plusieurs autres projets collaboratifs :
- Google Digital Humanities : projet BILBO
- ANR CONTINT : projet CAAS (Contextual Analysis and Adaptive Search)
- Région PACA : projet AGORAWEB
- CIFRE : sociétés Kware, SII,