A partir du 21 février 2011. L'accès aux corpus est protégé par un couple nom d'utilisateur/mot de passe.
Ce corpus se compose d'extraits d'archives journalistiques de 300 ou 500 mots (selon la piste), rassemblés en un fichier XML global. Les méta-données renseignent de l'année à identifier (voir présentation des corpus).
Ce corpus se compose de 300 documents répartis en 300 résumés (sous-répertoire "res/*.res") et 300 articles complets (sous-répertoire "art/*.art") ou 300 articles moins l'introduction et la conclusion (sous-répertoire "txt/*.txt").
Les 300 documents sont nommés par un identifiant numérique compris entre 001 et 300. La correspondance entre fichier résumé et fichier article, ou entre fichier résumé et fichier texte, est donnée dans un fichier annexe ("log_reference_appr.txt") ; cette correspondance tient lieu de référence dans l'appariement résumé/article.
A partir du 4 avril 2011.
Ce corpus se compose d'extraits d'archives journalistiques de 300 ou 500 mots (selon la piste), rassemblés en un fichier XML global.
Ce corpus se compose de 198 documents répartis en 198 résumés (sous-répertoire "res/*.res") et 198 articles complets (sous-répertoire "art/*.art") ou 198 articles moins l'introduction et la conclusion (sous-répertoire "txt/*.txt").
Les 198 documents sont nommés par un identifiant numérique compris entre 001 et 198. La correspondance entre fichier résumé et fichier article, ou entre fichier résumé et fichier texte, est donnée dans un fichier annexe ("log_reference_appr.txt") ; cette correspondance tient lieu de référence dans l'appariement résumé/article.
Ce corpus reprend les portions de 500 mots et de 300 mots utilisées dans les corpus du défi DEFT2011 corpus d'apprentissage et de test sans anonymiser les années contenues dans les portions. Ces corpus ont été regénérés car la phase d'anonymisation des années est située en début de chaîne ce qui implique les conséquences suivantes :
Archive globale (corpus d'apprentissage et de test, référence, pistes de 500 mots et de 300 mots) : corpus_deft2011_post-workshop.tar.gz [17 Mo].