Découvrabilité et réutilisation de données produites par des workflows : un cas d’usage en génomique - Mines Saint-Étienne
Conference Papers Year : 2021

Découvrabilité et réutilisation de données produites par des workflows : un cas d’usage en génomique

Abstract

Workflow systems have played an important role in facilitating the reproducibility of scientific experiments, yet, little work has been devoted to enhance the reuse of produced data. We argue that these intermediate data should be considered as first-order objects, which are worthy of preservation and publication. Not only will this save computational resources, but more importantly it will ease and accelerate the evaluation of new hypotheses. To help scientists annotate such produced data, we exploit multiple sources of information : i) provenance information captured during the execution of workflows, and ii) domain annotations provided by semantic catalogs of tools, such as Bio.Tools. Finally, we show, on a real bioinformatics scenario, how provenance graphs can be transformed and synthesized, for human and machine use.
Les systèmes de workflows ont largement contribué à améliorer la reproductibilité des expériences scientifiques. Cependant, relativement peu de travaux ont porté sur la réutilisation des données produites au cours de l’exécution. Dans cet article, nous faisons l’hypothèse que ces données intermédiaires doivent être considérées comme des objets de premier ordre, qui doivent être conservés et publiés. Non seulement cela permettra d’économiser des ressources de calcul et de stockage, mais surtout cela facilitera et accélérera l’évaluation de nouvelles hypothèses. Pour aider les scientifiques à annoter ces données, nous exploitons plusieurs sources d’information : i) les informations de provenance capturées lors de l’exécution des workflows, et ii) les annotations de domaine qui sont fournies par des catalogues sémantiques d’outils, tels que Bio.Tools. Finalement, nous montrons, sur un scénario réel de bioinformatique, comment des graphes de provenance peuvent être transformés et résumés, à destination des utilisateurs et des machines.
Fichier principal
Vignette du fichier
actes_IC_CH_PFIA2021_73-80.pdf (858.06 Ko) Télécharger le fichier
Origin Files produced by the author(s)

Dates and versions

emse-03260542 , version 1 (15-06-2021)

Identifiers

  • HAL Id : emse-03260542 , version 1

Cite

Alban Gaignard, Hala Skaf-Molli, Khalid Belhajjame. Découvrabilité et réutilisation de données produites par des workflows : un cas d’usage en génomique. Journées Francophones d'Ingénierie des Connaissances (IC) Plate-Forme Intelligence Artificielle (PFIA'21), Jun 2021, Bordeaux, France. pp 73-80. ⟨emse-03260542⟩
226 View
124 Download

Share

More