4ème DÉfi Fouille de Texte
13 Juin 2008, Avignon (84)

▸ appel
▸ tâche
▸ comités et calendrier
▸ corpus
▸ inscription
▸ questions fréquentes/FAQ
▸ soumissions
▸ résultats et publication
▸ programme et actes

Atelier DEFT'08 en Avignon

 

Depuis 3 ans DEFT (http://deft.limsi.fr/) propose des campagnes d'évaluation dans le domaine de la Fouille de Textes. L'atelier DEFT'08 se tiendra cette année en Avignon dans le cadre de la conférence TALN. L'inscription à TALN comprend également la participation aux ateliers. Une inscription à la seule journée de l'atelier DEFT'08 est possible. Le thème de cette édition 2008 de DEFT concerne la classification en thème et en genre de textes.

La classification automatique a de multiples applications en fouille de textes. De l'orientation de courriels à la veille stratégique ou scientifique, de nombreux domaines d'application ont été explorés. Depuis quelques années une nouvelle problématique est apparue, celle de la classification en genre de textes. Au-delà de la reconnaissance du thème du document, la reconnaissance de son genre est utile pour guider l'utilisation qui sera faite du document. Mais comment reconnaître à la fois le thème et le genre d'un document ? La différence de genre influence-t-elle la reconnaissance de la catégorie thématique d'un document, et, inversement, la différence de thème influence-t-elle la reconnaissance du genre du document ?

Pour évaluer des logiciels de classification dans cette perspective, nous allons confronter, sur un même ensemble de catégories pré-définies, deux corpus de genres différents, un corpus d'articles journalistiques issus du journal Le Monde, et un corpus d'articles encyclopédiques issus de l'encyclopédie libre sur Internet, Wikipédia. Un article de journal rend compte d'une actualité et un article encyclopédique diffuse un savoir, mais les deux ont en commun un certain nombre de catégories thématiques générales, appelées rubriques chez l'un et catégories chez l'autre. Il s'agira de tester sur ces corpus d'une part la robustesse d'un modèle de classification thématique soumis à des variations en genre de texte, et d'autre part les améliorations possibles d'une classification thématique par la reconnaissance du genre de texte.

Programme

L'atelier DEFT'08 se tiendra le vendredi 13 juin 2008 et se déroulera selon le programme suivant :

Session n° 1
9h30-10h00Comité de programme, Comité d'organisation, Présentation et résultats de DEFT'08
10h00-10h30Pause
Session n° 2
10h30-11h00Béchet, F., El-Bèze, M., Torres-Moreno, J. M. En finir avec la confusion des genres pour mieux séparer les thèmes, LIA (Laboratoire d'Informatique d'Avignon), Université d'Avignon et des Pays de Vaucluse – École Polytechnique de Montréal, Département de génie informatique
11h00-11h30Charnois, Th., Doucet, A., Mathet, Y., Rioult, F. Trois approches du GREYC pour la classification de textes, GREYC, Université de Caen, CNRS UMR 6072
11h30-12h00Trinh, A.-P., Buffoni, D., Gallinari, P. Classifieur probabiliste avec Support Vector Machine (SVM) et Okapi, Laboratoire d'Informatique de Paris 6
12h00-12h30Cleuziou, G., Poudat, C. Classification de textes en domaines et en genres en combinant morphosyntaxe et lexique, Lifo, Université d'Orléans – Ertim, INaLCO
12h30-14h00Repas
Session n° 3
14h00-14h30Charton, E., Camelin, N., Acuna-Agost, R., Gotab, P., Lavalley, R., Kessler, R., Fernandez, S., Pré-traitements classiques ou par analyse distributionnelle : application aux méthodes de classification automatique déployée pour DEFT08, LIA Université d'Avignon
14h30-15h00Plantié, M., Roche, M., Dray, G. Défi DEFT08 : Classification de textes en genres et en thème : Votons utile !, La boratoire LGI2P, Ecole des Mines d'Alès – Laboratoire LIRMM, UMR 5506
15h00-16h00Discussion générale sur DEFT'08 et DEFT'09, clôture de l'atelier

 


LIMSI-CNRS