L'accès au lien de téléchargement des corpus (pour les tâches 1 à 3) est indiqué dans le message que vous avez reçu (expéditeur : Short Edition, Quentin Pleplé) en réponse à l'envoi des contrats signés en version papier et électronique. N'hésitez pas à nous contacter si des éléments du contrat vous paraissent obscures.
Le site de DEFT ne donne accès qu'aux corpus de la tâche 4 cette année.
Rappel : il est interdit d'utiliser les informations présentes sur le site http://short-edition.com/
Les documents à traiter sont dans les fichiers *.xml tandis que les réponses à prédire sont dans des fichiers *.tsv (tabulaire 3 colonnes : numéro de document, sous-catégorie, section) :
<subcategories> <subcategory> <id>1446</id> <section>émotions</section> <name>nostalgie - souvenirs</name> </subcategory> <subcategory> <id>1443</id> <section>émotions</section> <name>instant de vie</name> </subcategory> <subcategory> <id>1447</id> <section>émotions</section> <name>romance</name> </subcategory> </subcategories>
2890 nostalgie - souvenirs émotions 2890 instant de vie émotions 2890 romance émotions
Les documents à traiter sont dans les fichiers *.xml tandis que les réponses à prédire sont dans des fichiers *.tsv (tabulaire 3 colonnes) : numéro de document, numéro de relecteur, note attribuée (de 1 = excellent à 5 = très mauvais).
<reviews> <review> <id>1</id> <uid>12100</uid> <content><![CDATA[ intéressant au départ, décevant au final ]]></content> <note> 4.0 </note> </review> ... </reviews>
L'id est le numéro de la relecture pour ce document, l'uid est l'identifiant numérique du relecteur (un seul identifiant par relecteur sur l'ensemble du corpus), content correspond au contenu de la relecture, note correspond à la note attribuée par le relecteur.
2890 1 4.0 2890 2 4.0 2890 3 2.0
Les documents à traiter sont dans les fichiers *.xml tandis que les réponses à prédire sont dans des fichiers *.tsv (tabulaire 2 colonnes) : numéro de document, consensus (avec 0 = œuvre non consuelle et 1= œuvre consensuelle). Une œuvre est jugée consensuelle si les notes attribuées par les différents relecteurs ne varient pas au-delà d'un écart de 1 point.
<reviews> <review> <id>1</id> <uid>12100</uid> <content><![CDATA[ intéressant au départ, décevant au final ]]></content> <note> 4.0 </note> </review> ... </reviews> <consensus> <decision>0</decision> </consensus>
2890 0
Les articles scientifiques à traiter sont dans les fichiers *.txt (résultat d'une numérisation des fichiers PDF d'origine par reconnaissance optique de caractères via pdftotext) tandis que les réponses à prédire (nom normalisé des sessions scientifiques) sont dans des fichiers *.tsv
Pour chaque édition, nous renseignons dans un fichier « norm-sessions-20xx.tsv » les noms normalisés des sessions scientifiques utilisées dans cette édition, avec indication du nombre d'articles du corpus appartenant réellement à chacune des sessions. Ce document sera également fourni avec le corpus de test.
Les sorties à produire doivent être dans le même format que les fichiers *.tsv fournis avec le corpus d'apprentissage.
Mesures d'évaluation (telles qu'implémentées dans l'outil TREC_eval, version 9.0) :
Scripts d'évaluation : T1 et T3 (réalisation : Thierry Hamon)
ndcg 1 0.7580 ndcg 2 1.0000 ndcg all 0.8790
P_1 1 1.0000 P_1 2 0.0000 P_1 3 1.0000 P_1 all 0.6667
Script d'évaluation : T2 (réalisation : Thierry Hamon)
Average MSE: 0.12 Average MAE: 0.12 Average (MAE - Em): 0.12 Average (MAE - Emax-Emin): 0.990769230769231 Kappa: 0.77734375 ERDM: 0.93859649122807 Kappa x ERDM: 0.72961211622807 Kappa (on median): 0.666666666666667 ERDM (on median): 0.933333333333333 Kappa x ERDM (on median): 0.622222222222222
Le fichier de prédictions à produire est un fichier *.tsv composé de deux colonnes : l'identifiant de l'article et le nom normalisé de la session scientifique.
Le script d'évaluation utilisé pour cette tâche est disponible ici : evalTALNSession.pl (il est nécessaire d'installer les modules Getopt::Long et Pod::Usage).