DEFT2011

accueilprésentationcorpusformatsévaluationsfaqactes

Corpus d'entraînement

A partir du 21 février 2011. L'accès aux corpus est protégé par un couple nom d'utilisateur/mot de passe.

Tâche 1. Variation diachronique

Ce corpus se compose d'extraits d'archives journalistiques de 300 ou 500 mots (selon la piste), rassemblés en un fichier XML global. Les méta-données renseignent de l'année à identifier (voir présentation des corpus).

Tâche 2. Appariements résumés/articles

Ce corpus se compose de 300 documents répartis en 300 résumés (sous-répertoire "res/*.res") et 300 articles complets (sous-répertoire "art/*.art") ou 300 articles moins l'introduction et la conclusion (sous-répertoire "txt/*.txt").

Les 300 documents sont nommés par un identifiant numérique compris entre 001 et 300. La correspondance entre fichier résumé et fichier article, ou entre fichier résumé et fichier texte, est donnée dans un fichier annexe ("log_reference_appr.txt") ; cette correspondance tient lieu de référence dans l'appariement résumé/article.

 

Corpus de test

A partir du 4 avril 2011.

Tâche 1. Variation diachronique

Ce corpus se compose d'extraits d'archives journalistiques de 300 ou 500 mots (selon la piste), rassemblés en un fichier XML global.

Tâche 2. Appariements résumés/articles

Ce corpus se compose de 198 documents répartis en 198 résumés (sous-répertoire "res/*.res") et 198 articles complets (sous-répertoire "art/*.art") ou 198 articles moins l'introduction et la conclusion (sous-répertoire "txt/*.txt").

Les 198 documents sont nommés par un identifiant numérique compris entre 001 et 198. La correspondance entre fichier résumé et fichier article, ou entre fichier résumé et fichier texte, est donnée dans un fichier annexe ("log_reference_appr.txt") ; cette correspondance tient lieu de référence dans l'appariement résumé/article.

 

Corpus post-workshop

Tâche 1. Variation diachronique

Ce corpus reprend les portions de 500 mots et de 300 mots utilisées dans les corpus du défi DEFT2011 – corpus d'apprentissage et de test – sans anonymiser les années contenues dans les portions. Ces corpus ont été regénérés car la phase d'anonymisation des années est située en début de chaîne ce qui implique les conséquences suivantes :

Archive globale (corpus d'apprentissage et de test, référence, pistes de 500 mots et de 300 mots) : corpus_deft2011_post-workshop.tar.gz [17 Mo].