4ème DÉfi Fouille de Texte |
||||
|
Depuis 3 ans DEFT (http://deft.limsi.fr/) propose des campagnes d'évaluation dans le domaine de la Fouille de Textes. L'atelier DEFT'08 se tiendra cette année en Avignon dans le cadre de la conférence TALN. L'inscription à TALN comprend également la participation aux ateliers. Une inscription à la seule journée de l'atelier DEFT'08 est possible. Le thème de cette édition 2008 de DEFT concerne la classification en thème et en genre de textes.
La classification automatique a de multiples applications en fouille de textes. De l'orientation de courriels à la veille stratégique ou scientifique, de nombreux domaines d'application ont été explorés. Depuis quelques années une nouvelle problématique est apparue, celle de la classification en genre de textes. Au-delà de la reconnaissance du thème du document, la reconnaissance de son genre est utile pour guider l'utilisation qui sera faite du document. Mais comment reconnaître à la fois le thème et le genre d'un document ? La différence de genre influence-t-elle la reconnaissance de la catégorie thématique d'un document, et, inversement, la différence de thème influence-t-elle la reconnaissance du genre du document ?
Pour évaluer des logiciels de classification dans cette perspective, nous allons confronter, sur un même ensemble de catégories pré-définies, deux corpus de genres différents, un corpus d'articles journalistiques issus du journal Le Monde, et un corpus d'articles encyclopédiques issus de l'encyclopédie libre sur Internet, Wikipédia. Un article de journal rend compte d'une actualité et un article encyclopédique diffuse un savoir, mais les deux ont en commun un certain nombre de catégories thématiques générales, appelées rubriques chez l'un et catégories chez l'autre. Il s'agira de tester sur ces corpus d'une part la robustesse d'un modèle de classification thématique soumis à des variations en genre de texte, et d'autre part les améliorations possibles d'une classification thématique par la reconnaissance du genre de texte.
L'atelier DEFT'08 se tiendra le vendredi 13 juin 2008 et se déroulera selon le programme suivant :
Session n° 1 | |
9h30-10h00 | Comité de programme, Comité d'organisation, Présentation et résultats de DEFT'08 |
10h00-10h30 | Pause |
Session n° 2 | |
10h30-11h00 | Béchet, F., El-Bèze, M., Torres-Moreno, J. M. En finir avec la confusion des genres pour mieux séparer les thèmes, LIA (Laboratoire d'Informatique d'Avignon), Université d'Avignon et des Pays de Vaucluse École Polytechnique de Montréal, Département de génie informatique |
11h00-11h30 | Charnois, Th., Doucet, A., Mathet, Y., Rioult, F. Trois approches du GREYC pour la classification de textes, GREYC, Université de Caen, CNRS UMR 6072 |
11h30-12h00 | Trinh, A.-P., Buffoni, D., Gallinari, P. Classifieur probabiliste avec Support Vector Machine (SVM) et Okapi, Laboratoire d'Informatique de Paris 6 |
12h00-12h30 | Cleuziou, G., Poudat, C. Classification de textes en domaines et en genres en combinant morphosyntaxe et lexique, Lifo, Université d'Orléans Ertim, INaLCO |
12h30-14h00 | Repas |
Session n° 3 | |
14h00-14h30 | Charton, E., Camelin, N., Acuna-Agost, R., Gotab, P., Lavalley, R., Kessler, R., Fernandez, S., Pré-traitements classiques ou par analyse distributionnelle : application aux méthodes de classification automatique déployée pour DEFT08, LIA Université d'Avignon |
14h30-15h00 | Plantié, M., Roche, M., Dray, G. Défi DEFT08 : Classification de textes en genres et en thème : Votons utile !, La boratoire LGI2P, Ecole des Mines d'Alès Laboratoire LIRMM, UMR 5506 |
15h00-16h00 | Discussion générale sur DEFT'08 et DEFT'09, clôture de l'atelier |