Génération de RDF à partir de sources de données aux formats hétérogènes
Abstract
Contrairement à ce que promeut le Web des données, les données exposées par la plupart des organisations sont dans des formats non-RDF tels que CSV, JSON, ou XML. De plus sur le Web des objets, les objets contraints préféreront des formats binaires tels que EXI ou CBOR aux formats RDF textuels. Dans ce contexte, RDF peut toutefois servir de lingua franca pour l'interopérabilité sémantique, l'intégration de données aux formats hétérogènes, le raisonnement, et le requêtage. Dans ce but, plusieurs outils et formalismes permettent de transformer des documents non-RDF vers RDF, les plus flexibles étant basés sur des langages de transformation ou de correspondance (GRDDL, XSPARQL, R2RML, RML, CSVW, etc.). Cet article définit un nouveau langage, SPARQLGenerate, qui permet de générer du RDF à partir: (i) d'une base de données RDF,
et (ii) d'un nombre quelconque de documents aux formats arbitraires. L'originalité de SPARQL-Generate est qu'il étend SPARQL 1.1, et peut donc (i) être appris facilement par les ingénieurs de la connaissance familiers de SPARQL, (ii) être implémenté au dessus de n'importe quel moteur SPARQL existant, (iii) tirer parti des mécanismes d'extension de SPARQL pour prendre en compte de futurs formats.