Créé en 2005 à l’image des campagnes TREC et MUC, le DÉfi Fouille de Textes est une campagne d’évaluation francophone qui propose chaque année de confronter les méthodes de plusieurs équipes de recherche sur une thématique régulièrement renouvelée dans le domaine de la fouille de textes.
Dans la continuité de la onzième campagne DEFT 2015, la treizième édition DEFT2018 portera sur la recherche d'information et l’analyse de sentiments dans des tweets rédigés en français, sur une nouvelle thématique : les transports en Île-de-France.
La campagne utilisera un corpus annoté manuellement produit dans le cadre du projet REQUEST (Programme d'Investissement d'Avenir, appel Cloud computing & Big Data, convention 018062-25005) en collaboration avec ELDA (http://www.elda.org). Il contient 80.000 tweets, annotés manuellement.
Les quatres tâches proposées lors de ce défi sont :
- Tâche 1 : Classification
transport/non-transport
Étant donné un message
déterminer si ce message concerne les transports en Île
de France ou non.
E476 TRANSPORT
"Les gars qui puent des aisselles dans le bus c'est vous"
- Tâche 2 : Polarité globale
Étant donné un
message concernant les transports Île de France,
déterminer la polarité globale du message, choisie parmi
les 4 classes : POSITIF, NEGATIF, NEUTRE, ou MIXPOSNEG.
E476 NEGATIF "Les gars qui puent des aisselles dans le bus c'est vous"
- Tâche 3 : Marqueur de sentiment et
cible
Étant donné un message concernant les
transports en Île de France et exprimant des sentiments,
déterminer pour chaque expression, l'empan de texte
MINIMAL (à l'exclusion des modifieurs et adjoints)
réferrant à l'expression de sentiment et l'empan de
texte MAXIMAL (y compris les modifieurs et les adjoints)
réferrant à la CIBLE du sentiment correspondante,
c'est-à-dire à l'objet qu'il concerne.
E476 <G type=CIBLE id=G1>Les gars</G> qui <G type=DERANGEMENT id=G2>puent</G> <G type=CIBLE id=G3>des aisselles</G> dans le bus c'est <G type=CIBLE id=G4>vous</G>
relations SUR de l'expression de sentiment vers l'objet : SUR(G2, G1),
SUR(G2, G3), SUR(G2, G3), SUR(G2, G4).
- Tâche 4 (exploratoire): Annotation
complète
Étant donné un message concernant les
transports en Île de France et exprimant des sentiments,
déterminer pour chaque expression de sentiment l'empan
de texte minimal réferrant à l'expression de sentiment
et les empans de texte maximaux réferrant respectivement
à la CIBLE du sentiment, c'est à dire à l'objet qu'il
concerne, et à la SOURCE, c'est à dire à l'entité qui
exprime ce sentiment. Le cas échéant, on indiquera aussi
les empans de texte minimaux en relation avec
l'expression de sentiment qui référent soit à une https://perso.limsi.fr/pap/DEFT2018/samples_from20160426_5C_af.xml
Données d'entraînement
Pour les participants à la campagne d'évaluation, les corpus d'entraînement des 4 tâches sont disponibles à l'url https://ocsync.limsi.fr/index.php/s/Mbm4Hl5YnALJRKx
. Le corpus contient 68916 tweets annotés en fonction des différentes tâches. Si vous avez perdu votre identifiants vous pouvez nous contacter en nous écrivant à
deft2018 A@T limsi.fr
Le guide d'annotation en ligne
Le guide d'annotation archive .tgz
Évaluation
En cours
Le guide d'annotation en ligne
Le guide d'annotation archive .tgz