DEFT2014

accueilprésentationcorpusinscriptionFAQactes

Corpus

L'accès au lien de téléchargement des corpus (pour les tâches 1 à 3) est indiqué dans le message que vous avez reçu (expéditeur : Short Edition, Quentin Pleplé) en réponse à l'envoi des contrats signés en version papier et électronique. N'hésitez pas à nous contacter si des éléments du contrat vous paraissent obscures.

Le site de DEFT ne donne accès qu'aux corpus de la tâche 4 cette année.

Description des données

Rappel : il est interdit d'utiliser les informations présentes sur le site http://short-edition.com/

Tâche 1 - Catégoriser le genre

Les documents à traiter sont dans les fichiers *.xml tandis que les réponses à prédire sont dans des fichiers *.tsv (tabulaire 3 colonnes : numéro de document, sous-catégorie, section) :

Exemple (méta-informations dans le fichier *.xml, après le contenu textuel) :
<subcategories>
  <subcategory>
    <id>1446</id>
    <section>émotions</section>
    <name>nostalgie - souvenirs</name>
  </subcategory>
  <subcategory>
    <id>1443</id>
    <section>émotions</section>
    <name>instant de vie</name>
  </subcategory>
  <subcategory>
    <id>1447</id>
    <section>émotions</section>
    <name>romance</name>
  </subcategory>
</subcategories>
Exemple de fichier *.tsv :
2890    nostalgie - souvenirs   émotions
2890    instant de vie  émotions
2890    romance émotions

Tâche 2 - Qualité littéraire

Les documents à traiter sont dans les fichiers *.xml tandis que les réponses à prédire sont dans des fichiers *.tsv (tabulaire 3 colonnes) : numéro de document, numéro de relecteur, note attribuée (de 1 = excellent à 5 = très mauvais).

Exemple de relecture (dans le fichier *.xml, après le contenu textuel) :
<reviews>
  <review>
    <id>1</id>
    <uid>12100</uid>
    <content><![CDATA[
    intéressant au départ, décevant au final
    ]]></content>
    <note>
    4.0
    </note>
  </review>
 ...
</reviews>

L'id est le numéro de la relecture pour ce document, l'uid est l'identifiant numérique du relecteur (un seul identifiant par relecteur sur l'ensemble du corpus), content correspond au contenu de la relecture, note correspond à la note attribuée par le relecteur.

Exemple de fichier *.tsv (résume le contenu de la relecture) :
2890    1       4.0
2890    2       4.0
2890    3       2.0

Tâche 3 - Œuvre consensuelle

Les documents à traiter sont dans les fichiers *.xml tandis que les réponses à prédire sont dans des fichiers *.tsv (tabulaire 2 colonnes) : numéro de document, consensus (avec 0 = œuvre non consuelle et 1= œuvre consensuelle). Une œuvre est jugée consensuelle si les notes attribuées par les différents relecteurs ne varient pas au-delà d'un écart de 1 point.

Exemple de relecture (dans le fichier *.xml, après le contenu textuel) :
<reviews>
  <review>
    <id>1</id>
    <uid>12100</uid>
    <content><![CDATA[
    intéressant au départ, décevant au final
    ]]></content>
    <note>
    4.0
    </note>
  </review>
 ...
</reviews>
<consensus>
  <decision>0</decision>
</consensus>
Exemple de fichier *.tsv (résume le contenu de la relecture) :
2890    0

Tâche 4 - Session scientifique

Les articles scientifiques à traiter sont dans les fichiers *.txt (résultat d'une numérisation des fichiers PDF d'origine par reconnaissance optique de caractères via pdftotext) tandis que les réponses à prédire (nom normalisé des sessions scientifiques) sont dans des fichiers *.tsv

Pour chaque édition, nous renseignons dans un fichier « norm-sessions-20xx.tsv » les noms normalisés des sessions scientifiques utilisées dans cette édition, avec indication du nombre d'articles du corpus appartenant réellement à chacune des sessions. Ce document sera également fourni avec le corpus de test.

Corpus

 

Formats de sortie et évaluation

Tâches 1 à 3

Les sorties à produire doivent être dans le même format que les fichiers *.tsv fournis avec le corpus d'apprentissage.

Mesures d'évaluation (telles qu'implémentées dans l'outil TREC_eval, version 9.0) :

Scripts d'évaluation : T1 et T3 (réalisation : Thierry Hamon)

Script d'évaluation : T2 (réalisation : Thierry Hamon)

Tâche 4

Le fichier de prédictions à produire est un fichier *.tsv composé de deux colonnes : l'identifiant de l'article et le nom normalisé de la session scientifique.

Le script d'évaluation utilisé pour cette tâche est disponible ici : evalTALNSession.pl (il est nécessaire d'installer les modules Getopt::Long et Pod::Usage).