Formats de sortie
Cette page décrit les formats de sortie attendus pour chaque
tâche. Des scripts seront fournis ultérieurement pour vérifier la
bonne formation de chaque fichier de sortie.
Rappel des objectifs de chaque tâche :
- Pour la tâche 1 (variation diachronique) :
- Piste 1 : identifier l'année de parution (entre
1801 et 1944) d'une portion de journal de 500 mots ;
- Piste 2 : identifier l'année de parution (entre
1801 et 1944) d'une portion de journal de 300 mots.
- Pour la tâche 2 (appariement) :
- Piste 1 : apparier un résumé avec l'article
scientifique complet qui lui correspond (res/art) ;
- Piste 2 : apparier un résumé avec l'article
scientifique (moins l'introduction et la conclusion) qui lui
correspond (res/txt).
Pour chaque piste de chaque tâche, les participants auront la
possibilité de soumettre jusqu'à 3 soumissions.
Pour chaque document à traiter (portion de journal dans la tâche 1,
couple résumé/article dans la tâche 2), les participants auront la
possibilité, s'ils le souhaitent, de fournir plusieurs résultats qui
seront alors pondérés par un score de confiance. La somme des scores
de confiances pour un même document devra être égale à 1.
▸ Format des noms de fichiers :
- Tâche 1 (diachronie) : equipe0_tache1_piste2_run3.xml pour
le run 3 sur la piste 2 (portion de 300 mots) de la tâche 1
(diachronie) pour l'équipe 0.
- Tâche 2 (appariements) : equipe0_tache2_piste1_run3.xml
pour le run 3 sur la piste 1 (appariements résumés/articles complets)
de la tâche 2 (appariements) pour l'équipe 0.
Tâche 1. Variation diachronique
Pour cette tâche, quel que soit le format de sortie choisi (avec ou
sans score de confiance), nous demandons aux participants d'indiquer
obligatoirement le rang de chaque réponse pour chaque document
(voir exemples ci-dessous). Les résultats des participants seront
évalués de deux manières :
- Pour le classement final : une distance sera
calculée entre l'année de rang 1 et l'année de référence (d'où
l'obligation de renseigner du rang de chaque réponse dans les
fichiers). Plus la réponse sera éloignée de l'année de référence,
moins le participant aura de points ;
- Hors classement (cas des sorties avec score de
confiance) : une distance sera calculée entre l'année de chaque
rang et l'année de référence ; les points ainsi obtenus seront
ensuite pondérés par le score de confiance associé avec chaque
réponse. Plus la réponse sera éloignée de l'année de référence et
plus le score de confiance sera faible, moins le participant aura de
points. Cette double pénalité ne permet pas de servir au
classement final.
▸ Format de sortie sans score de confiance
Nous attendons des participants qu'ils nous fournissent un fichier
XML indiquant, pour chaque portion traitée, l'année de parution
estimée.
<?xml version="1.0" encoding="utf-8" ?>
<corpus>
<portion id="1">
<annee valeur="1879" rang="1" />
</portion>
<portion id="2">
<annee valeur="1934" rang="1" />
</portion>
</corpus>
▸ Format de sortie avec score de confiance
Nous attendons des participants qu'ils nous fournissent un fichier
XML indiquant, pour chaque portion traitée, les années de parution
estimées, chaque année étant pondérée par un score de confiance (la
somme ne devant pas excéder 1 pour un même document). Il est demandé
aux participants d'indiquer obligatoirement le rang de chaque résultat
(les années de rang 1 étant utilisées pour le classement final).
<?xml version="1.0" encoding="utf-8" ?>
<corpus>
<portion id="1">
<annee valeur="1879" score="0.42" rang="1" />
<annee valeur="1878" score="0.27" rang="2" />
<annee valeur="1880" score="0.14" rang="3" />
<annee valeur="1882" score="0.09" rang="4" />
<annee valeur="1874" score="0.08" rang="5" />
</portion>
<portion id="2">
<annee valeur="1931" score="0.41" rang="1" />
<annee valeur="1934" score="0.41" rang="2" />
<annee valeur="1943" score="0.18" rang="3" />
</portion>
</corpus>
Tâche 2. Appariements résumé/article
Pour cette tâche, quel que soit le format de sortie choisi (avec ou
sans score de confiance), il n'est pas nécessaire d'indiquer le rang
de chaque réponse pour chaque document. Les résultats des participants
seront évalués de la manière suivante : chaque réponse retournée
(l'identifiant de l'article associé au résumé traité dans les exemples
ci-dessous) sera prise en compte dans l'évaluation (en termes de
nombre de documents ramenés et nombre de documents correctement
ramenés, nécessaires pour les calculs du rappel et de la
précision).
▸ Format de sortie sans score de confiance
Nous attendons des participants qu'ils nous fournissent un fichier
XML indiquant, pour chaque résumé traité (balise <resume fichier="nom.res" />), l'article
scientifique qui lui correspond (balise <article fichier="nom.art" />) en rassemblant ce
couple de balises entre balises <doc> et </doc>. La force d'association dans le cas
présent est alors maximale. Si l'article renseigné correspond au
résumé, le participant obtient 100% des points.
<?xml version="1.0" encoding="utf-8" ?>
<corpus>
<doc>
<resume fichier="001.res" />
<article fichier="127.art" />
</doc>
<doc>
<resume fichier="002.res" />
<article fichier="246.art" />
</doc>
</corpus>
Et pour l'appariement des résumés avec les textes :
<?xml version="1.0" encoding="utf-8" ?>
<corpus>
<doc>
<resume fichier="001.res" />
<texte fichier="199.txt" />
</doc>
<doc>
<resume fichier="002.res" />
<texte fichier="064.txt" />
</doc>
</corpus>
▸ Format de sortie avec score de confiance
Nous attendons des participants qu'ils nous fournissent un fichier
XML indiquant, pour chaque résumé traité (balise <resume fichier="nom.res" />), l'ensemble des
articles scientifiques que le participant estime correspondre (balise
<article fichier="nom.art" score="score" />) en rassemblant ce groupe
de balises entre balises <doc> et
</doc>. La force d'association de
chaque article avec le résumé concerné est alors renseignée par le
score de confiance. Pour chaque document, la somme des scores de
confiance doit être égale à 1.
<?xml version="1.0" encoding="utf-8" ?>
<corpus>
<doc>
<resume fichier="001.res" />
<article fichier="127.art" score="0.41" />
<article fichier="199.art" score="0.31" />
<article fichier="001.art" score="0.28" />
</doc>
<doc>
<resume fichier="002.res" />
<article fichier="246.art" score="0.49" />
<article fichier="016.art" score="0.37" />
<article fichier="177.art" score="0.14" />
</doc>
</corpus>
Et pour l'appariement des résumés avec les textes :
<?xml version="1.0" encoding="utf-8" ?>
<corpus>
<doc>
<resume fichier="001.res" />
<texte fichier="127.txt" score="0.41" />
<texte fichier="199.txt" score="0.31" />
<texte fichier="001.txt" score="0.28" />
</doc>
<doc>
<resume fichier="002.res" />
<texte fichier="246.txt" score="0.49" />
<texte fichier="016.txt" score="0.37" />
<texte fichier="177.txt" score="0.14" />
</doc>
</corpus>