DEFT'08
▸ appel
▸ tâche
▸ comités et calendrier
▸ corpus
▸ inscription
▸ questions fréquentes/FAQ
▸ soumissions
▸ résultats et publication
▸ programme et actes

Tâche     Description   Déroulement

Description de la tâche

L'atelier DEFT'08 se tiendra cette année en Avignon dans le cadre de la conférence TALN.

Le thème de cette nouvelle édition est la prise en compte des variations en genre et en thème dans un système de classification automatique.

Par cette évaluation, nous cherchons à explorer les améliorations possibles d'un système de classification thématique par la prise en compte du genre. Ceci nous conduit à tester d'une part les utilisations du genre et du thème dans une classification automatique de documents, et d'autre part la robustesse d'une classification thématique vis-à-vis du genre.

Pour cette tâche, nous avons choisi deux collections de documents de genres différents, l'un journalistique et l'autre encyclopédique, mais qui ont en commun un certain nombre de catégories thématiques. Ce que nous mettons ici sous le terme genre renvoie à un ensemble de textes partageant des propriétés liées au domaine d'activité, à des pratiques et au support utilisé pour ces textes.

Pour l'entraînement de la tâche, nous fournirons 2 corpus :

Pour le test nous fournirons deux corpus non étiquetés en genre ou en thème, avec une tâche différente pour chacun :

Les résultats devront respecter le format XML donné et seront évalués par un F-score.

L'utilisation de connaissances linguistiques supplémentaires (lexique de mots, connaissances sémantiques extraites de grands corpus, etc.) est autorisée ; en revanche, seuls les corpus d'apprentissage fournis doivent être utilisés pour l'entraînement de la tâche.

Déroulement de la tâche      Description

Les équipes participant à DEFT'08 devront obligatoirement s'inscrire à l'aide du formulaire en ligne, et signer le « contrat utilisateur final de ressources linguistiques dans le cadre d'un projet d'évaluation ».

Des corpus d'apprentissage seront fournis aux participants inscrits, à partir du 14 janvier 2008. Ces corpus sont composés de 60% des corpus d'origine. Ils contiennent la classe attribuée à chaque texte. Les participants auront environ deux mois pour mettre en place leurs méthodes de classification sur les corpus d'apprentissage. Seuls les corpus d'apprentissage fournis sont autorisés pour l'entraînement à la tâche.

Les 40% de corpus restants seront utilisés pour le test. Le test aura lieu sur une fenêtre de 15 jours, à partir de la mi-mars. A partir de la date qu'ils auront choisie dans cet intervalle, les participants auront trois jours pour appliquer, sur les corpus de test, les méthodes mises en œuvre sur les corpus d'apprentissage.

A la fin de ces trois jours, les participants devront soumettre leurs résultats sous la forme d'un fichier (voir le calendrier). Les fichiers de résultats devront respecter un format XML donné.


LIMSI-CNRS