Stage de Recherche BI / Big Data H/F

Factorisation des classes de données sémantiquement équivalentes dans un Data Warehouse Sujet de stage (master 2 ou 5 ème année d’école d’ingénieur) Co-encadrant : Fatma ABDELHEDI (PhD, Directrice du

Factorisation des classes de données sémantiquement équivalentes dans un Data Warehouse

Sujet de stage (master 2 ou 5 ème année d’école d’ingénieur)

Co-encadrant :
Fatma ABDELHEDI (PhD, Directrice du laboratoire de recherche CBI 2 )
Slimane HAMMOUDI (PhD, HDR, ESEO, Angers)

Mots-clés: Business Intelligence, Big Data, NoSQL, Machine Learning, web sémantique, ETL.
Date de début : variable selon la formation.
Durée du stage : variable selon la formation.
Localisation : Laboratoire de recherche CBI² – Société TRIMANE – Tour W à La Défense
Candidature : CV détaillé, lettre de motivation et relevés de notes (3 dernières années)
Date de candidature : le plus tôt possible.

DESCRIPTIF DU STAGE
Un data Lake regroupe des ensembles de données brutes issues de différentes applications
gérées de manière indépendante. Or ces données s’avèrent difficiles à exploiter dans des
applications décisionnelles. Une solution à ce problème consiste à extraire les données
décisionnelles du Data Lake puis à les réorganiser dans un Data Warehouse. Nous avons
choisi un système NoSQL orienté document (OrientDB) pour gérer le Data Warehouse.

Le Data Warehouse contient donc des classes d’objets extraites de plusieurs ensembles de
données indépendants et il est fréquent que des objets « équivalents », c’est-à-dire de
même sémantique mais de structures différentes, apparaissent. Ainsi, on dit que deux
classes d’objets sont équivalentes si elles contiennent des données relatives aux mêmes
entités (même sujet du monde réel).

Dans le Data Warehouse, il est donc utile de regrouper les classes équivalentes en les
représentant par une classe unique spécifiant la sémantique commune. Pour réaliser cette
factorisation de nature sémantique, nous pouvons nous appuyer sur une ontologie
établissant les correspondances entre les termes des classes équivalentes. Cette ontologie
est établie à partir des spécifications fournies par des administrateurs de données apportant
leur expertise métier.

Le stagiaire Master devra proposer puis mettre en œuvre une solution permettant de
factoriser les classes « équivalentes » dans une classe commune dans le Data Warehouse.
Une démarche de recherche basée sur les travaux les plus récents est nécessaire pour
aborder ce projet.

Connaissances requises :
– Bases de données relationnelles
– Business Intelligence
– Modélisation
– Programmation : Java et Python
– La connaissance du Machine Learning et des librairies de référence en
apprentissage (exemple : Scikit-learn et Tensorflow) seraient un plus
– Des connaissances en Big Data, les bases NoSQL (MongoDB, OrientDB, etc.),
web sémantique et l’intelligence artificielle seraient appréciées.

Profil recherché :
– BAC+5 en informatique (préparant un diplôme de master ou un diplôme
d’ingénieur)
– Motivé(e), autonome, curieux(se) dans la recherche appliquée.
– Selon le profil de l’étudiant et sa motivation, ce stage peut déboucher sur la
préparation d’un doctorat dans le cadre d’une bourse CIFRE.

Durée du contrat : 6 mois

Type d’emploi : Temps plein, Stage

Salaire : 1 350,00€ à 1 500,00€ par mois

Avantages :

  • Participation au Transport
  • Titre-restaurant

Horaires :

  • Du Lundi au Vendredi
  • Repos le Week-end

Télétravail:

  • Temporairement en raison du COVID-19

Leave a Reply