DEFT'09
     Appel   Tâche   Comités et calendrier   Corpus
Résultats et publication   Programme et actes
 
  [Aide]

Résultats      Soumission   Evaluation   Publication   Présentation

Soumission

Les résultats des participants devront être écrits dans un fichier résultat par tâche, respectant un format XML donné. Les participants pourront envoyer jusqu'à trois fichiers résultats différents par tâche.

Une participation d'une équipe consiste au minimum en un fichier résultat, présentant les résultats des méthodes développées par l'équipe, sur une tâche, sur le corpus français.

Les participants auront 3 jours, à partir du mercredi 18 mars, sur une fenêtre de 4 semaines, pour mettre en œuvre leurs algorithmes sur les corpus de test. Chaque équipe participante fixe elle-même le premier jour du test, elle devra renvoyer ses résultats le troisième jour grâce à la procédure de soumission mise en place. Le samedi et le dimanche entrent dans le décompte de ces jours : si une équipe participante choisit un vendredi comme jour de début de test, elle pourra accéder aux corpus de test le vendredi dès 9h et elle devra envoyer ses résultats au plus tard le dimanche soir à minuit. Le dernier jour de soumission des résultats est le vendredi 17 avril.

Chaque équipe participante devra informer le Comité d'organisation, avant le lundi 16 mars, du jour qu'elle aura choisi comme premier jour de test.

Les résultats et solutions seront diffusés aux participants par les organisateurs le vendredi 24 avril 2009.

Contenu des fichiers résultats

Les tâches 1 et 3 demandent une évaluation globale sur un texte, alors que la tâche 2 demande une segmentation du texte lui-même. La présentation des résultats sera donc différente pour la tâche 2 de celle réservée aux deux autres tâches.

Des scripts de vérification du format sont disponibles pour la tâche 1, la tâche 2, et la tâche 3.

 

Nom des fichiers résultats

Le nom des fichiers résultats devra avoir le format suivant :

equipe_numeroEquipe_tache_numeroTache_langue_codeLangue_execution_numeroExecution.xml
Il y a trois tâches (numérotées 1,2,3) et trois exécutions possibles.

Exemples :

equipe_12_tache_1_langue_fr_execution_1.xml
equipe_12_tache_2_langue_en_execution_1.xml

Evaluation      Soumission   Publication   Présentation

Définition du F-score utilisé pour le classement final

Chaque fichier résultat sera évalué en calculant le F-score pour l'élément qui était à classer automatiquement,


$\displaystyle F_{score}(\beta) = \frac{(\beta^{2}+1)\times Pr\acute{e}cision \times Rappel}{\beta^{2}\times Pr\acute{e}cision + Rappel}$                (1)
avec $\beta = 1$.

Un élément à classer est ici :

Lorsque le F-score est utilisé pour évaluer la performance sur chacune des n classes d'une classification, les moyennes globales de la précision et du rappel sur l'ensemble des classes peuvent être évaluées par la macro-moyenne qui calcule d'abord la précision et le rappel sur chaque classe i , puis en fait la moyenne sur les n classes. Chaque classe, qu'elle soit de grande ou de petite taille, compte alors à égalité dans le calcul de la précision et du rappel.


                         (2)

Etant donné pour chaque classe i :

                (3)

                (4)


Un élément à classer est attribué à la classe i si :

Dans le calcul de ce F-score, l'indice de confiance n'est pris en compte que pour sélectionner la classe (catégorie) attribuée à un document.

F-score pondéré par l'indice de confiance

Un système de classification automatique peut attribuer à un élément à classer une distribution de probabilité sur les différentes classes au lieu de lui attribuer une seule classe. L'indice de confiance est cette probabilité pour un élément à classer d'appartenir à une classe donnée.

Le F-score pondéré par l'indice de confiance sera utilisé à titre indicatif pour des comparaisons complémentaires entre les méthodes mises en place par les équipes.

Dans le F-score pondéré, la précision et le rappel pour chaque classe sont pondérés par l'indice de confiance. Ce qui donne :

                (3bis)

                (4bis)

avec :
NbreAttribuéCorrecti :
nombre d'éléments attribuéCorrecti , c'est-à-dire appartenant effectivement à la classe i et auxquels le système a attribué un indice de confiance non nul pour cette classe.
NbreAttribuéi :
nombre d'éléments attribuéi auxquels le système a attribué un indice de confiance non nul pour la classe i.

Le F-score pondéré est ensuite calculé à l'aide des formules (1) et (2), ci-dessus, du F-score classique.

Publication      Soumission   Evaluation   Présentation

Chaque équipe participante est invitée à soumettre un article ne dépassant pas 15 pages qui décrit précisément les méthodes employées pour les différentes exécutions :

Les méthodes utilisées pour classer les textes devront être automatiques et reproductibles. Les articles devront rigoureusement détailler les techniques utilisées. Nous rappelons que seuls les corpus d'apprentissage fournis sont autorisés pour l'entraînement à la tâche. En particulier, l'utilisation de textes provenant des sources des corpus de DEFT'09 est interdite. Toute utilisation de corpus additionnels à ceux fournis par DEFT'09 devra être mentionnée dans l'article.

Les articles seront publiés dans les actes de l'atelier et distribués aux participants. L'ensemble des articles sera mis en ligne sur le site de DEFT'09.

A titre d'information, les articles des précédentes éditions de DEFT sont disponibles aux adresses :

DEFT'05 : actes de l'atelier
DEFT'06 : actes de l'atelier
DEFT'07 : http://deft07.limsi.fr/actes.php
DEFT'08 : http://deft08.limsi.fr/actes.php