DEFT'09
     Appel   Tâche   Comités et calendrier   Corpus
Résultats et publication   Programme et actes
 
  [Aide]

Tâche     Description   Déroulement

Description de la tâche

Le thème de cette nouvelle édition est l'analyse d'opinion multilingue. Autour de ce thème, nous proposons trois tâches différentes avec pour chaque tâche des corpus en français, anglais, et italien.

Les participants devront effectuer au minimum l'une des trois tâches. Chaque tâche choisie devra être effectuée au minimum sur le corpus français.

Les tâches :

Pour ces trois tâches nous avons deux corpus multilingues (français, anglais, italien), qui consistent en un corpus des journaux  Le Monde, The Financial Times, et Il Sole 24 Ore, et un corpus de débats au Parlement Européen. Le corpus des journaux sera utilisé pour les deux premières tâches, la détection de textes subjectifs et la détection de passages subjectifs de textes. Le corpus des débats parlementaires sera lui aussi utilisé pour la deuxième tâche concernant la détection des passages subjectifs de textes, et pour la troisième tâche concernant la détermination du parti politique de l'orateur.

Pour l'entraînement aux tâches, nous fournirons donc 2 corpus :

Pour les tâches 1 et 3, les participants disposeront donc de références pouvant donner lieu à un apprentissage. En revanche, pour la tâche 2, les participants disposeront des textes des journaux et des débats pour la mise au point de leurs méthodes, mais pas de références sur lesquelles appuyer un apprentissage.

Pour le test, nous fournirons aux participants les mêmes types de corpus, non étiquetés. Les résultats devront respecter le format XML donné et seront évalués par un F-score.

L'utilisation de connaissances linguistiques supplémentaires (lexique de mots, connaissances sémantiques extraites de grands corpus, etc.) est autorisée ; en revanche, seuls les corpus d'apprentissage fournis doivent être utilisés pour l'entraînement aux tâches.

Déroulement de la tâche      Description

Les équipes participant à DEFT'09 devront obligatoirement s'inscrire à l'aide du formulaire en ligne, et signer le « contrat utilisateur final de ressources linguistiques dans le cadre d'un projet d'évaluation ».

Des corpus d'apprentissage seront fournis aux participants inscrits, à partir du 7 janvier 2009. Ces corpus sont composés de 60% des corpus d'origine. Ils contiennent la classe attribuée à chaque texte. Les participants auront environ deux mois et demi pour mettre en place leurs méthodes de classification sur les corpus d'apprentissage. Seuls les corpus d'apprentissage fournis sont autorisés pour l'entraînement à la tâche.

Les 40% de corpus restants seront utilisés pour le test. Le test aura lieu sur une fenêtre de 30 jours, à partir de la mi-mars. A partir de la date qu'ils auront choisie dans cet intervalle, les participants auront trois jours pour appliquer, sur les corpus de test, les méthodes mises en œuvre sur les corpus d'apprentissage.

A la fin de ces trois jours, les participants devront soumettre leurs résultats sous la forme d'un fichier (voir le calendrier). Les fichiers de résultats devront respecter un format XML donné.