Introduction
L'intérêt d'une conférence d'évaluation est de permettre de confronter, sur un même corpus, des méthodes et logiciels d'équipes différentes. Depuis 2005, l'atelier d'évaluation DEFT propose de travailler sur des thématiques régulièrement renouvelées relevant de la fouille de textes en langue française. Certaines campagnes ont fait l'objet d'évaluations multilingues.
Pour en savoir plus : Grouin C, Forest D (eds). Expérimentations et évaluations en fouille de textes : un panorama des campagnes DEFT. Collection "Systèmes d'Information et Organisations Documentaires" (S. Chaudiron, dir). Hermes-Lavoisier. 2012. Notice, 248 pages. ISBN : 978-2-7462-3836-7. Ouvrage collectif présentant les différentes
campagnes DEFT accompagnées d'articles sur certaines méthodes utilisées pendant ces campagnes. Onze chapitres répartis en quatre parties : introduction, les campagnes en genres et thèmes, les campagnes en fouille d'opinion, les campagnes diachroniques.
Éditions
- 2005 (Dourdan, France, TALN 2005) : identification du locuteur d'un discours politique parmi deux protagonistes différents (Jacques Chirac vs. François Mitterrand).
- 2006 (Fribourg, Suisse, SDN 2006) : segmentation thématique de textes politiques.
- 2007 (Grenoble, France, AFIA 2007) : détection de l'opinion exprimée dans un texte de retranscription de débats parlementaires (projets de Loi relatifs à l'énergie).
- 2008 (Avignon, France, TALN 2008) : classification automatique de documents en genres (journalistique vs. encyclopédiques) et thèmes différents (art, économie, littérature, politique internationale, politique nationale, problèmes de sociétés, sciences, sports, télévision).
- 2009 (Paris, France) : fouille d'opinion (objectif/subjectif) en corpus multilingues (journaux et débats européens).
- 2010 (Montréal, Canada, TALN 2010) :
- Variation diachronique (1800-1944) en corpus de presse française (Le Journal des Débats, Le Journal de l'Empire, Le Journal des Débats politiques et littéraires, La Croix, Le Figaro), identification de la décennie de publication d'un extrait d'article ;
- Variation diatopique en corpus de presse française (L'Est Républicain, Le Monde) et québécoise (La Presse, Le Devoir).
- 2011 (Montpellier, France, TALN 2011) :
- Variations diachroniques (1800-1944) en corpus de presse française (Le Journal des Débats, Le Journal de l'Empire, Le Journal des Débats politiques et littéraires, La Croix, Le Figaro, La Presse, Le Temps), identification de l'année de publication d'un extrait d'article ;
- Appariements résumé/article scientifique de revue dans le domaine des Sciences Humaines et Sociales (Humanités).
- 2012 (Grenoble, France, TALN 2012) : identification automatique des mots-clés indexant le contenu d'articles scientifiques ayant paru en revues de Sciences Humaines et Sociales, avec l'aide de la terminologie des mots-clés (piste 1), sans terminologie (piste 2).
- 2013 (Les Sables-d'Olonne, France, TALN 2013) : identification du niveau de difficulté de réalisation d'une recette, identification du type de plat préparé, appariement d'une recette avec son titre, identification des ingrédients d'une recette.
- 2014 (Marseille, France, TALN 2014) : catégoriser le genre littéraire de courtes nouvelles, évaluer la qualité littéraire de ces nouvelles, déterminer si une œuvre fait consensus, déterminer la session scientifique dans laquelle un article de conférence a été présenté.
- 2015 (Caen, France, TALN 2015) : fouille d'opinion, de sentiment et d'émotion dans des messages postés sur Twitter.
- 2016 (Paris, France, TALN 2016) : indexation de documents scientifiques en français.
- 2017 (Orléans, France, TALN 2017) : fouille d'opinion dans des messages postés sur Twitter.
- 2018 (Rennes, France, CORIA-TALN 2018) : recherche d'information et analyse de sentiments dans des tweets sur les transports en Ile-de-France.
- 2019 (Toulouse, France, PFIA-TALN-RECITAL 2019) : recherche et extraction d'information dans des cas cliniques
- 2020 (
Nancy, France, conférence virtuelle JEP-TALN-RECITAL 2020) : similarité sémantique et extraction d'information fine dans des cas cliniques
- 2021 (
Lille, France, conférence virtuelle TALN-RECITAL 2021) : classification de cas cliniques et correction automatique de réponses courtes d'étudiants
- 2022 (Avignon, France TALN-RECITAL 2022) : correction automatique de réponses courtes d'étudiants
Actes
Corpus
Les corpus intégrant des articles de journaux ne sont pas disponibles en dehors du défi, sauf si un package global existe (édition 2008 par exemple). Concernant les corpus se composant de tweets, il est possible de redistribuer les annotations, pas les tweets en eux-mêmes.
- Librement téléchargeables :
- Corpus de discours politiques (DEFT 2005), allocutions de J. Chirac bruitées par des segments d'allocutions de F. Mitterrand, apprentissage et test [12,7 Mo]
- Corpus de discours politiques (DEFT 2006), discours prononcés par trois Présidents de la République (V. Giscard d'Estaing, F. Mitterrand, J. Chirac), apprentissage et test [24,4 Mo]
- Corpus de textes juridiques (DEFT 2006), articles de lois de l'Union Européenne, apprentissage et test [25,3 Mo]
- Corpus de débats parlementaires (DEFT 2007), environ 28000 interventions anonymisées (Hommes et partis politiques) sur des projets de lois relatifs à l'énergie. La valeur de vote (0 = contre, 1 = pour) est indiquée avec chaque document, apprentissage [7,4 Mo], test [4,6 Mo], reference [1,3 Mo]
- Corpus multilingue de débats parlementaires européens (DEFT 2009), environ 19000 interventions (texte et parti politique de l'intervenant) issues des compte-rendus de débats du Parlement européen entre 1999 et 2004. Chaque corpus comprend un fichier d'interventions par langue (français, anglais, italien). Les corpus ne sont pas alignés. Toutes les interventions d'une langue sont également présentes dans les autres langues, réparties dans un ordre différent entre corpus d'entraînement et corpus de test, apprentissage [41 Mo], test [27 Mo] et référence [107 ko].
- Corpus d'articles de journaux anciens (DEFT 2010, 2011) : les corpus d'archives de journaux proviennent de, et sont à récupérer sur gallica.bnf.fr
- Disponibles à l'achat auprès d'ELDA :
- Indisponibles :
- Corpus d'articles scientifiques (DEFT 2011, 2012, 2016)
- Corpus de recettes (DEFT 2013)
- Corpus de courtes nouvelles littéraires (DEFT 2014)
- Corpus de tweets (DEFT 2015, 2017, 2018)
- Réponses courtes d'étudiants sur Moodle (DEFT 2021, 2022)
Contact
Vous pouvez nous contacter par mail (Patrick Paroubek, pap@lisn.upsaclay.fr et Cyril Grouin, cyril.grouin@lisn.upsaclay.fr)