Département Informatique

Computer Science Department of Telecom SudParis

[2A/M1] Fusion de Flux de Données Hétérogènes

Fusion de flux de données hétérogènes

Mots clés : Flux de données RDF, Intelligence Artificielle, Big Data, Web Sémantique, Données hétérogènes

Contexte :

La dernière décennie a connu un développement important de la technologie de l’information caractérisé par une production importante de volumes de données générées par des sources diverses et variées (capteurs, stations météo, GPS, objets connectés, etc.). Ces données, hétérogènes par nature sont interrogées par des applications de prise de décision (ville intelligente, trafic urbain, monitoring ou réseaux sociaux) qui requièrent par conséquent un traitement spécifique de ces entités pour tirer le meilleur profit de l’information qu’elles véhiculent. Ces futures applications Smart City placent l’utilisateur au centre de la boucle, pour permettre un accès transparent aux différents services.

Par ailleurs, l’avènement des technologies du web sémantique à travers des standards comme : RDF (Ressource Description Framework) ou SPARQL (Simple Protocol and RDF Query Language) a permis d’inférer et d’effectuer des requêtes complexes sur des données qu’on aurait sémantiquement décrites, représentées et liées par des ontologies. Ce format est très utilisé par différents types d’organisations (commerciales, gouvernementales, etc.) pour représenter et publier leurs jeux de données sur le Web comme par exemple les données ouvertes de Paris[1] ou le Grand Lyon[2]. L’équipe ACMES/METHOES a développé le langage outillé SOFA permettant d’exprimer et d’exécuter des requêtes élaborées sur des flux de données RDF.  Ce langage est une extension du langage SPASeq [2] auquel de nouveaux opérateurs ont été introduits tout en offrant la possibilité de les imbriquer afin de prendre en compte l’expression de requêtes complexes en utilisant la technique de traitement d’événements complexes (Complex Event-Processing) [1]. Néanmoins, certaines limites restent encore à pallier, notamment le format des données et l’aspect ergonomique de l’outil. En effet, d’une part, seul le format RDF des données est considéré et, d’autre part, aucune vérification syntaxique n’est effectuée sur les requêtes, enfin l’outil n’est accessible qu’en local, ce qui limite considérablement son exploitation.

Le travail demandé dans ce stage consiste à :

  1. Définir des règles de vérification syntaxiques et sémantiques pour l’écriture des requêtes
  2. Prendre en compte l’hétérogénéité des flux en entrée, l’outil SPARQL-Generate[3]4 sera étudié à cet effet
  3. Rendre l’outil accessible via le développement d’une interface web
  4. Évaluer et comparer notre approche avec les outils de l’état de l’art portant sur l’interrogation de flux continus

 

Encadrantes : Amel Bouzeghoub amel.bouzeghoub@telecom-sudparis.eu et Amel Mammar amel.mammar@telecom-sudparis.eu

 

Équipes : ACMES/METHODES du laboratoire SAMOVAR

Département : INF

Durée du stage : 2 mois

 

Références

  1. Artikis, O. Etzion, Z. Feldman, and F. Fournier: Event processing under uncertainty. In the DEBS conference, ACM, 2012.
  2. Gillani, A. Zimmermann, G. Picard, F. Laforest: A query language for semantic complex event processing: Syntax, semantics and implementation. Semantic Web 10(1): 53-93, 2019.

 

[1] https://opendata.paris.fr/pages/home/

[2] https://data.beta.grandlyon.com/fr/accueil

[3]https://ci.mines-stetienne.fr/sparql-generate/