Open PhD position in Quality on crowdsourcing contributions

Evaluation de la qualité des contributions et des contributeurs
sur plateforme de crowdsourcing

Contexte

Le sujet proposé s’intègre dans le contexte du crowdsourcing [1-2], production participative consistant à faire appel à des utilisateurs en ligne (contributeurs), pour réaliser des tâches difficilement automatisables [3] ou pour obtenir des données qui ne seraient pas aisément collectables [4-5]. Le développement du crowdsourcing, présent dans de nombreux domaines (sciences, marketing, démocratie participative, …) devient un enjeu majeur dans les nouvelles économies numériques. Notre intérêt porte plus particulièrement sur des tâches permettant d’évaluer des ressources ou la qualité de services. Il peut s’agir d’enquêtes de satisfaction « user-oriented » mettant l’usager au centre de stratégies pour répondre à des logiques de marketing ou encore d’amélioration de services [6]. Ce sujet est ainsi interdisciplinaire.

D’un point de vue théorique, le sujet proposé s’intéresse à la gestion de données imparfaites au sein de plateformes de crowdsourcing, ainsi qu’à l’évaluation des contributeurs sollicités sur laquelle l’équipe DRUID de l’IRISA a acquis de bonnes compétences [7,13]. En effet, si l’usage de ce type de production participative est en pleine expansion, des difficultés demeurent pour recueillir des données fiables et pertinentes. Ces points incontournables demeurent encore trop peu étudiés à ce jour.

Sujet détaillé

Après une étude bibliographique dans les domaines du crowdsourcing et de la modélisation de données imprécises et imparfaites, le sujet de thèse proposé porte sur la définition d’une interface de recueil d’informations, la détection d’expertise des contributeurs afin d’écarter les réponses incohérentes, et la modélisation de l’incertitude et l’imprécision inhérentes aux contributions humaines à l’aide d’une approche crédibiliste facilitant une prise de décision optimale.

L’étude de l’interface dédiée aux contributeurs a pour objectif de recueillir le plus finement possible leurs évaluations et d’augmenter leur pouvoir d’expressivité. En effet, les plateformes actuelles ne permettent pas aux utilisateurs de moduler leurs réponses, alors même qu’ils peuvent être confrontés à des situations d’indécision. Il serait notamment pertinent d’introduire de l’information afin de distinguer une donnée estimée sûre par un contributeur, d’une donnée considérée comme incertaine. De plus, la possibilité pour les contributeurs de pouvoir exprimer leur imprécision, dans un cadre où l’évaluation est de nature subjective, contribuerait à affiner le processus d’évaluation.

Le second objectif consiste à une méthode efficace d’extraction des informations les plus pertinentes et fiables parmi un volume de données. L’étude proposée se situe dans un cadre particulier applicable à de nombreuses situations : nombre limité de contributions ne permettant pas d’exploiter une hypothèse de majorité [7] et absence de valeurs de référence (données d’or) avec possibilité de s’appuyer sur une hiérarchie connue de qualité de certaines données. Une approche de comparaison de graphes pourra ainsi être explorée afin d’établir une validation des contributions.

Enfin la modélisation doit permettre de prendre en considération les imperfections des évaluations. Les théories de l’incertain, telles que la théorie des possibilités ou la théorie des fonctions de croyance, permettent de modéliser les imperfections telles que les imprécisions et les incertitudes [8-9]. L’approche proposée pourra se fonder sur les fonctions de croyance pour quantifier l’imprécision des informations recueillies et tenir compte de la fiabilité des contributeurs, vus comme des sources d’information, ainsi que de leurs éventuels conflits [10]. Cette modélisation devra intégrer l’imperfection des données pour optimiser le processus de prise de décision [11-12].

Les méthodes théoriques proposées seront validées à l’aide de campagnes de test sur plateformes de crowdsourcing. Le travail comportera également le développement d’un prototype expérimental de recueil d’informations.

Mots clés

Crowdsourcing, modélisation des réponses des utilisateurs, détection d’expertise, théories de l’incertain, qualité des données, satisfaction et acceptabilité des utilisateurs.

Collaborations

Cette étude s’inscrit dans la continuité d’une collaboration avec le laboratoire LARODEC de Tunis et le laboratoire Orange Labs à Lannion dans le domaine de l’estimation de la qualité de services, le crowdsourcing constituant une alternative aux évaluations effectuées en laboratoire. Il fait suite à deux stages de Master Recherche, dont les travaux ont été présentés à la communauté scientifique [13, 14].

Il peut ouvrir des perspectives de partenariat avec des plates-formes de crowdsourcing, telles que Foule Factory.

Encadrement et contact

Laboratoire : IRISA

Département : D7 – Gestion des données et de la connaissance

Equipe : DRUID

Début de la thèse : septembre 2017

Directeur de thèse : Arnaud Martin

Encadrant(s) : Jean-Christophe Dubois, Yolande Le Gall, Arnaud Martin

Contact(s) : jean-christophe.dubois@univ-rennes1.fr

Lieu : IUT de Lannion, Lannion (22)

Bibliographie

[1] D. Deutch et T. Milo. Mob Data Sourcing. SIGMOD’12, Tutorial, May 2012.

[2] Aniket Kittur, Jeffrey V. Nickerson, Michael S. Bernstein,Elizabeth M. Gerber, Aaron Shaw, John Zimmerman, Matthew Lease, and John J. Horton. The Future of Crowd Work. 16th ACM Conference on CSCW’13, San Antonio, USA, February 2013.

[3] http://www.tela-botanica.org/

[4] http://fr.wikipedia.org

[5] http://www.tripadvisor.fr/

[6] http://www.enssib.fr/recherche/enssiblab/les-billets-denssiblab/big-data-smart-culture-crowdsourcing-web-participatif

[7] Amal Ben Rjab, Mouloud Kharoune, Zoltan Miklos, Arnaud Martin, Characterization of experts in crowdsourcing platforms, The 4th International Conference on Belief Functions, Sep 2016, Prague, Czech Republic.

[8] Arthur P. Dempster. Upper and Lower probabilities induced by a multivalued mapping. Annals of Mathematical Statistics, 38:325–339, 1967.

[9] G. Shafer. A mathematical theory of evidence. Princeton University Press, 1976.

[10] Arnaud Martin. About conflict in the theory of belief functions. In International Conference on Belief Functions, France, 8-10 May 2012.

[11] Didier Dubois, Henri Prade et Philippe Smets. Representing partial ignorance. IEEE Transactions on Systems, Man, and Cybernetics – Part A: Systems and Humans, 26(3):361–377, 1996.

[12] Philippe Smets. Imperfect information: Imprecision – Uncertainty. In A. Motro and Philippe Smets, editors, Uncertainty Management in Information Systems, pages 225–254. Kluwer Academic Publishers, 1997.

[13] A. Ben Rjad, M. Kharoune, Z. Miklos, A. Martin, B. Ben Yaghlane, Caractérisation d’experts dans les plate-formes de crowdsourcing, la Logique Floue et ses Applications (LFA), novembre 2015, Poitiers

[14] Hosna Ouni, Arnaud Martin, Laetitia Gros, Mouloud Kharoune, Zoltan Miklos, Une mesure d’expertise pour le crowdsourcing,Extraction et Gestion des Connaissances (EGC), Jan 2017, Grenoble, France.