Open PhD Position in Data management and analysis

Titre : Évaluation de la qualité des informations restituées par une analyse à base de préférences. Application aux réseaux sociaux
Durée :
3 ans
Co-Financement : (ARED & LTC)
Laboratoire d’accueil : IRISA- Équipe DRUID (https://www-druid.irisa.fr/)
Date début de thèse : Septembre-Octobre 2016
Date limite de candidature :
24 juin 2016

Ce projet de thèse, soutenu via un co-financement Lannion Trégor Communauté (LTC) et une allocation de recherche doctorale (ARED), a pour finalité la définition, la conception, et l’implémentation d’une nouvelle approche permettant la représentation et la modélisation de préférences utilisateurs, et leur acquisition à travers des préférences multi-utilisateurs déjà identifiées au sein d’un réseau social. Ce projet de thèse s’inscrit dans le domaine de la gestion et l’analyse de données et implique deux membres de l’équipe DRUID de l’IRISA, une équipe spécialisée dans la fouille et gestion de données.

Contexte 

Le contexte applicatif de cette thèse concerne l’analyse des réseaux sociaux. Les réseaux sociaux sont de plus en plus employés localement en Bretagne. Il est ainsi important de pouvoir détecter les différentes communautés d’utilisateurs et de personnaliser les offres en fonction des utilisateurs trégorois et bretons.

Le contexte théorique est celui des requêtes à préférences appliquées à des bases de données volumineuses. L’expression de préférences dans des requêtes est devenue dans la communauté bases de données un sujet dont l’importance est maintenant pleinement reconnue. L’intérêt majeur de ces requêtes est double : elles permettent d’une part de traduire fidèlement le besoin d’information d’un utilisateur donné, d’autre part de produire un ensemble de réponses ordonnées (ce qui est particulièrement intéressant dans le cas d’interrogation de gros volumes de données).

En pratique, il est courant que l’expression des préférences dépende du contexte et du profil d’un utilisateur donné. Cependant, avec l’avènement des réseaux sociaux tels que Facebook, Twitter, Instagram, ou plus localement Breizbook, l’utilisateur n’est plus considéré comme une entité individuelle, du moins plus uniquement. Dans ce contexte, l’utilisateur désigne une entité sociale interconnectée et est auteur de flux d’informations conséquents.

Sujet détaillé

Après une analyse bibliographique, l’objectif de cette thèse est la mise en place d’un système collaboratif permettant de : (i) détecter de nouvelles communautés d’utilisateurs par analyse de profils, (ii) personnaliser les analyses (i.e. requêtes à préférences) en fonction des profils d’un nouveau groupe d’utilisateurs ; (iii) évaluer la pertinence et la qualité des communautés détectées.

Dans un premier temps, ceci nécessite la détermination des utilisateurs les plus proches de l’utilisateur courant dans une communauté donnée (cercle d’amis sur Breizhbook, réseau professionnel sur LinkedIn, …). La mise en œuvre d’une mesure de similarité pour comparer les profils des utilisateurs s’avère donc nécessaire. L’idée est de définir la notion de lignes de niveaux (Skyline) de profils par similarité. Ce type de requêtes multicritères permet l’extraction de tous les profils utilisateurs de la base de données interrogée qui ne sont dominés par aucun autre profil utilisateur de la base au sens de la relation de dominance par similarité définie dans [3]. Chaque profil réponse sera retourné avec un vecteur de scores montrant les différentes similarités correspondant aux différentes caractéristiques avec le profil de la requête. Une étape d’appariement d’utilisateurs sera ensuite ajoutée en amont des requêtes à préférences [7]. Les algorithmes d’intégration de préférences et de génération de recommandations [5] resteront inchangés, mais ils prendront en entrée des préférences de différents utilisateurs.

Ensuite, il faudra évaluer la qualité des profils restitués à l’utilisateur. En effet, la pertinence de l’information délivrée et son adaptation aux préférences des utilisateurs constituent un des facteurs clés du succès ou du rejet d’un système de recommandation. Il s’agit donc d’évaluer la qualité d’une analyse proposée en réponse à un besoin, notamment la proximité des résultats calculés avec les résultats attendus. Dans ce cas, il faut définir des critères de qualité adaptés. Ces derniers peuvent être inspirés des travaux menés en qualité des données [1, 4] mais peuvent être définis également par les utilisateurs du système eux-mêmes. Cette dernière étape revient donc à qualifier le processus d’appariement en fonction de la qualité des résultats obtenus. Cette qualification pourrait s’appuyer sur les mesures de rappel et de précision. Si l’utilisateur n’est pas satisfait des résultats obtenus, il pourrait relancer un nouveau processus d’appariement en utilisant d’autres critères d’appariement ou en changeant des paramètres.

Profil du candidat (compétences scientifiques et techniques requises)

Profil recherché

Le candidat doit être titulaire d’un Master 2 Recherche en sciences Informatiques (ou équivalent : Bac+5/école d’ingénieur).

Compétences scientifiques

  • Connaissance des méthodes et techniques de fouille de données (apprentissage supervisé et non supervisé), de gestion de données volumineuses et de gestion de préférences utilisateurs
  • Connaissance et maîtrise de la théorie des graphes
  • Autonomie, curiosité et ouverture d’esprit seront utiles pour la phase de recherche
  • Rigueur et méthodologie sont indispensables pour la gestion de l’état de l’art et lors des phases de rédaction (d’articles ou du mémoire de fin de thèse)
  • Dynamisme, force de proposition et qualités de communication
  • Un bon niveau d’anglais (oral et écrit) est souhaité

Compétences techniques

  • Connaissances en Java, Python ou R, et d’un environnement de développement intégré
  • Expériences en développement autres que scolaires (stage, expérience professionnelle, réalisations personnelles, etc.) fortement appréciées
  • Toutes autres connaissances en développement (conception/tests) et/ou en outils de modélisation data-mining et gestion de données appréciées

Candidature

Les candidats doivent envoyer leur CV, relevés de notes, lettres de recommandations et une lettre de motivation pour cette thèse à Tassadit BOUADI (tbouadi@irisa.fr) et Arnaud MARTIN (arnaud.martin@irisa.fr). La date limite pour candidater est le 24 juin 2016.

————————————— English version ———————————————————–

Context

The application context of this internship concern social network analysis. The theoretical context is the preference queries applied to very large databases.

The concept of preference queries has been established in the database community and was intensively studied in the last decade. These queries have dual benefits. On the one hand, they allow to interpret accurately the information needs of a given user. On the other hand, they constitute an effective method to reduce very large datasets to a small set of highly interesting results and to overcome the empty result set.

A query is personalized by applying related user preferences stored in the user’s profile.

However, with the advent of social networks such as Facebook, Twitter, Instagram, or more locally Breizbook, the user is no longer considered as an individual entity, at least more only. In this context, the user designates an interconnected social entity and is the author of significant information flow.

Scientific purpose

After a literature review, the objective of this thesis will be the development of a collaborative system for personalizing analyzes (i.e. preference queries) based on profiles of a user group.

As a first step, this would require the determination of the closest users of the current user in a given community (ring of friends on Breizbook, professional network on LinkedIn,…). Therefore the implementation of a similarity measure for comparing user profiles is required. The idea is to define the notion of similarity skyline of profile query defined by the set of profiles of the target database that are the most similar to the query in the sense of the similarity dominance relation defined in [3].

The idea is to achieve a d-dimensional comparison between user profiles in terms of d local distance (or similarity) measures and to retrieve those profiles that are maximally similar in the sense of the Pareto dominance relation.

A step of user matching will then be added upstream of preference queries [7]. The preference integration and recommandation [5] remain unchanged, but they will take as input preferences from different abd multiple users.

Then we have to assess the quality of returned profiles to the user. Indeed, the relevance of the delivered information and its adaptation to the users’ preferences are key factors for acceptance or rejection of recommendation systems. It is therefore to determine whether calculated results are consistent with expected ones. In this case, appropriate quality criteria should be defined. They can be inspired by the work in data quality [1, 4] but may also be defined by the system users themselves. The last step is therefore to qualify the matching process based on the quality of the results. This qualification could be based on the recall and precision measures. If the user is not satisfied with the results, he/she could start a new matching process using other matching criteria or by changing the settings.

Required skills

The successful candidate will hold a Master’s Degree in Computer Science (or equivalent) and demonstrate outstanding skills in the following areas (or similar):

  • Preference modeling
  • Machine Learning
  • Graph theory
  • Linked Data

Strong programming skills and English proficiency are preferential criteria. Interested applicants must prepare:

  • Detailed Resume
  • List of marks
  • Letter(s) of recommendation

Application

Applications should be sent (in pdf format) to Tassadit BOUADI (tbouadi@irisa.fr) and Arnaud MARTIN (arnaud.martin@irisa.fr) before Friday, June 24, 2016.

Bibliographie

[1]. D. Grigori, V. Peralta, and M. Bouzeghoub. Service retrieval based on behavioral spécifications and quality requirements. In WilM.P. Aalst, Boualem Benatallah, Fabio Casati, and Francisco Curbera, editors, Business Process Management, volume 3649, pages 392–397. Springer Berlin Heidelberg, 2005.

[2]. T. Hogg, Inferring preference correlations from social networks, Electronic Commerce Research and Applications, Vol. 9, pp. 29‐37, 2010.

[3]. K. Abbaci, A. Hadjali, L. Lietard, and D. Rocacher. A similarity skyline approach for Handling graph queries – a preliminary report. In Proceedings of the 2011 IEEE 27th International Conference on Data Engineering Workshops, ICDEW ’11, 2011.

[4]. L. Berti-Equille, I. Comyn-Wattiau, M. Cosquer, Z. Kedad, S. Nugier, V. Peralta, S. Si-Saied Cherfi, and V. Thion-Goasdoué. Assessment and analysis of information quality : a multidimensional model and case studies. International Journal of Information Quality, 2 :300–323, 2011.

[5]. T. Bouadi, M-.O. Cordier, and R. Quiniou. Computing skyline incrementally in response to online preference modification. T. Large-Scale Data- and Knowledge-Centered Systems, 10 :34–59, 2013.

[6]. S. Dhamal and Y. Narahari. Scalable preference aggregation in social networks. In First AAAI Conference on Human Computation and Crowdsourcing, pages 42–50. AAAI, 2013.

[7]. F. Elarbi, T. Bouadi, A. Martin and B. Ben Yaghlane. Fusion de préférences pour la détection de communautés dans les réseaux sociaux. LFA 2015

Comments are closed