Créé en 2005 à l'image des campagnes TREC et MUC, le DÉfi Fouille de Textes est une campagne d'évaluation francophone qui propose chaque année de confronter les méthodes de plusieurs équipes de recherche sur une thématique régulièrement renouvelée. L'édition 2021 portera sur deux domaines distincts :
Accès aux
données
L'accès aux données
ne sera rendu possible qu'après signature d'un
accord d'utilisation des données DEFT 2021 par
l'ensemble des membres de l'équipe. Les
participants sont libres de participer à une ou
plusieurs tâches. En accédant aux données,
ils s'engagent moralement à participer jusqu'au
bout (soumettre des résultats et présenter
les résultats pendant l'atelier).
Accès aux données hors challenge (DEFT 2019, 2020, 2021) : corpus de 717 cas cliniques rédigés en français, annotés avec quatre type d'information démographique (âge, genre) et clinique (origine de la consultation, issue), et pour un sous-ensemble de 167 cas, également annotés avec treize types d'information clinique (anatomie, date, dose, durée, examen, fréquence, mode, moment, pathologie, signe ou symptôme, substance, traitement, valeur) et cinq attributs (assertion, changement, état, norme, prise). La demande d'accès au corpus doit être formulée auprès de Natalia Grabar (natalia.grabar@univ-lille.fr) et Cyril Grouin (cyril.grouin@lisn.upsaclay.fr)
Les tâches proposées lors de ce défi sont :
ID question | Note max | Numéro | Question (format HTML) | Correction enseignant (format HTML) |
1001 | 1 | 1 | <p>Qu'est-ce que le World Wide Web ?<br></p> | <p></p><p>système hypertexte fonctionnant sur internet</p> <p>= une des applications d'internet, comme courrier électronique, messagerie instantanée...</p><br><p></p> |
2045 | 1 | 45 | Pourquoi le code HTML suivant ne respecte-t-il pas les principes d'accessibilité de WCAG ?<br/><br/><code><br/> <p>Site de la RATP</p><br/> <img src="ratp.jpg" alt="RATP"/><br/></code><br/><br/> | <p>car la légende de l'image ne lui est pas associée (avec un figcaption par exemple)</p><p>.5 pour ceux qui ont dit que le texte alternatif n'était pas suffisamment précis<br></p> |
ID question | Note étudiant | ID étudiant | Réponse étudiant |
1001 | 0.5 | student101 | Ce sont les pages web accessible par tout navigateur.\n |
1001 | 0 | student108 | Un réseau mondial \n |
1001 | 1 | student3 | C'est le systeme hypertexte qui sert à consulter des documents et des pages hébergés sur le réseau internet\n |
1001 | 0 | student49 | NO_ANS |
Le corpus de test se composera de mentions A_COMPLETER à la place des notes de la deuxième colonne. Votre système devra fournir une note (entre 0 et 1) pour chaque réponse d'étudiant
ID question | Note max | Thématique | Question (format HTML) | Correction enseignant |
5008 | 1.5 | W3C 2 | <p>En validant un code HTML vous recevez les erreurs suivantes :<br><br>Error : Attribute href not allowed on element img at this point.<br>Error : Element img is missing required attribute src.<br><br>Voici le code HTML autour de la ligne incriminée. Proposer un remplacement de cette partie du code qui corrige les erreurs tout en respectant l'intention de l'auteur du code (en cas d'ambiguité, faites suivant votre jugement).<br><br> <body><br> <img href="image.png" alt="Une image"/><br> <p><br> Voici du texte qui vient après l'image.<br> </p><br> </body><br></p> | NO_COR |
5013 | 2.5 | Séparation contenu / présentation | <p>Indiquez trois outils qui peuvent être utilisés pour faire la séparation entre contenu et présentation et avoir une présentation cohérente.<br></p> | NO_COR |
ID question | Note étudiant | ID étudiant | Réponse étudiant |
5008 | 0 | student113 | NO_ANS |
5008 | 0.5 | student114 | <body>\n <img 'image.png' alt="Une image"/img>\n <p>\n Voici du texte qui vient après l'image.\n </p>\n\n</body>\n\n |
5008 | 1 | student117 | <body>\n <img src="image.png" alt="Une image"/>\n <p>\n Voici du texte qui vient après l'image.\n </p>\n </body>\n\n |
5013 | 0 | student164 | Les trois outils qui peuvent être utilisés pour faire la séparation entre contenu et présentation sont : \n |
5013 | 0.2 | student166 | - Les couleurs de police\n\n- Les tailles de police \n- En-tête et pied de page\n |
5013 | 0.4 | student168 | Pour avoir une présentation cohérente en séparant le contenu et la séparation : on peut utiliser le séparateur retour à la ligne, appliquer des styles distincts ou alors jouer sur l'espace "interligne et espacement de paragraphe". |
Le corpus de test se composera de mentions A_COMPLETER à la place de la majorité des notes de la deuxième colonne ; une minorité de notes sélectionnées aléatoirement sera fournie pour chaque question (représentant 5 ou 10% des réponses disponibles pour la question), comme amorces à partir desquelles poursuivre l'évaluation des autres réponses d'étudiants. Par exemple :
ID question | Note étudiant | ID étudiant | Réponse étudiant |
5008 | A_COMPLETER | student113 | NO_ANS |
5008 | A_COMPLETER | student114 | <body>\n <img 'image.png' alt="Une image"/img>\n <p>\n Voici du texte qui vient après l'image.\n </p>\n\n</body>\n\n |
5008 | 1 | student117 | <body>\n <img src="image.png" alt="Une image"/>\n <p>\n Voici du texte qui vient après l'image.\n </p>\n </body>\n\n |
perl evaluation-cas-clinique.pl fichier-référence fichier-hypothèse
perl evaluation-T2.pl fichier-référence fichier-hypothèse
perl evaluation-T3.pl corpus fichier-référence fichier-hypothèse
perl evaluation-T3corr.pl fichier-référence fichier-hypothèse
Voir message envoyé aux participants pour récupérer l'archive globale.
Les participants sont autorisés à soumettre jusqu'à trois sorties de sysème par tâche. Chaque fichier de soumission sera nommé : « nom-equipe_T1_run1.txt » (pour la première soumission sur la première tâche).
Les soumissions seront rassemblées dans une archive (zip, tar.gz, tar.bz2) nommée « nom-equipe_T1-T2-T3.tar.gz » (avec le nom de l'équipe, puis la ou les tâches auxquelles vous avez participé).
L'archive sera envoyée à : deft @ lisn . upsaclay . fr
Il vous appartient de vérifier que le format de vos fichiers correspond à ce qui est attendu. Au besoin, lancez les scripts d'évaluation sur vos fichiers (en prenant vos fichiers comme hypothèse et comme référence, vous obtiendrez des valeurs à 1 sur chaque fichier triaté, garantissant surtout que le format peut être évalué correctement).
Sur la première tâche (cas cliniques), certains nous ont posé la question du lien entre le label présent dans le fichier "classes-train.txt" (deuxième colonne : nerveux, etatsosy, chimiques, etc.) et les chapitres du MeSH. Vous trouverez ci-dessous des précisions sur la manière dont nous avons annoté le corpus et produit ce fichier de classes.
Nous avons annoté le corpus sous BRAT. Les labels de la deuxième colonnes sont ceux définis dans le fichier de configuration pour l'annotation. L'identification du chapitre (Cxx) s'est faite en interrogeant le moteur fourni par l'INSERM (http://mesh.inserm.fr/FrenchMesh/search/index.jsp). La correspondance entre l'intitulé dans l'arborescence du MeSH et les labels utilisés est la suivante :
Les codes C21, C22 et C24 n'ont jamais été utilisés dans le corpus DEFT 2021.
Les codes C12 et C13 sont mutuellement exclusifs : nous utilisons « uro-génital homme » (C12) si le patient est masculin, et « uro-génital féminin » (C13) s'il s'agit d'une patiente. Le concept « anurie » peut donc apparaître soit comme "homme", soit comme "femme" en fonction du sexe de la personne dont on parle.
Dans le fichier "classes-train.txt", nous avons reproduit, pour chaque fichier, les différents codes identifiés et fourni une seule annotation issue de ce fichier pour chaque code, en conservant la portion qui fait sens plutôt que le concept directement identifié dans le MeSH. Ainsi , pour le fichier filehtml-24-cas.ann, nous indiquons huit types de maladies différents :
filehtml-24-cas.ann etatsosy vomissements filehtml-24-cas.ann genetique retard de croissance intra-utérin filehtml-24-cas.ann femme retard de croissance intra-utérin filehtml-24-cas.ann nutritionnelles diabète gestationnel filehtml-24-cas.ann endocriniennes diabète gestationnel filehtml-24-cas.ann osteomusculaires réaction extrapyramidale filehtml-24-cas.ann nerveux réaction extrapyramidale filehtml-24-cas.ann digestif gastrite érosive
Nous n'avons indiqué que « vomissements » comme exemple du type "etatsosy" (C23) ; il existe cependant plusieurs candidats dans ce texte pour identifier ce chapitre : vomissements, retard de croissance intra-utérin, nausées, hématémèse, épigastrie, HG, réaction extrapyramidale, etc.
Même si un signe ou un symptôme ne constitue pas une maladie, nous avons annoté les états et signes ou symptômes (etatsosy) dans la mesure où une entrée existe dans le MeSH sous le chapitre C.
Certaines portions de texte ne sont pas nécessairement présentes à l'identique dans le MeSH :
Dernière précision : seules les maladies attestées, y compris celles dans le passé, ont été conservées pour établir le profil du patient. Les maladies mentionnées mais absentes ou hypothétiques ne sont pas annotées.
Question : Les fichiers .ann pour chaque patient seront-ils inclus dans ce corpus de test ? Si oui, pourrons-nous les utiliser pour la prédiction ?
Réponse : Les annotations fournies au format BRAT avec les données d'entraînement rassemblent les informations des éditions 2019 (age, genre, issue, origine), 2020 (anatomie, date, dispositif, dose, duree, examen, fonction, frequence, mode, moment, organisme, pathologie, poids, sosy, substance, taille, temperature, traitement, valeur), et 2021 (blessures, cardiovasculaires, chimiques, digestif, endocriniennes, etatsosy, femme, genetique, hemopathies, homme, immunitaire, infections, nerveux, nutritionnelles, oeil, ORL, osteomusculaires, parasitaires, peau, respiratoire, stomatognathique, tumeur, virales). Les annotations de 2021 nous ont permis de produire le fichier de référence classe-train-v2.txt que nous vous avons distribué. Pour le corpus de test, nous fournirons les fichiers *.ann mais sans les annotations de 2021 (seules seront fournies les annotations 2019 et 2020).
Question : Vous dites « Vérifiez que votre apprentissage ne se fonde pas sur les annotations de référence de 2021 ! ». Peut-on avoir plus de précisions ? Plus particulièrement, nous pensions que tous les éléments se trouvant dans les fichiers *.ann sont autorisés à être utilisés pour l’apprentissage.
Réponse : Je comprends la confusion : vous avez le droit d'entraîner un système sur les annotations de 2021 du train pour les prédire sur le test. Aucun problème, c'est autorisé. Par contre, si votre système utilise les annotations 2021 comme caractéristiques pour faire ses prédictions, comme ces annotations seront absentes du test, les utiliser comme caractéristiques sera impossible.
Question : Nous avons noté deux petites différences dans le nom des classes entre ce qu'il y a sur le site et le fichier classes-train-v2.txt : "genetique" au lieu de "congenitales" et "osteomusculaire" au pluriel. Peux-tu me confirmer que nous devons utiliser les noms des classes donnés sur le site ?
Réponse : Ce sont les intitulés dans classe-train-v2.txt qu'il faut prédire : genetique, osteomusculaires
Feuilles de style des articles : taln2021-style.tgz (10 à 12 pages hors références)
Site de soumission des articles : https://easychair.org/conferences/?conf=talnrecital2021 (choisir le track DEFT)
Chaque participant dispose d'un créneau d'une demi-heure, avec 10 à 15 minutes de présentation (prévoir une présentation au format PDF), suivie d'échanges avec l'audience.
10h00-10h30 Classification de cas cliniques et évaluation automatique de réponses d'étudiants : présentation de la campagne DEFT 2021 (Cyril Grouin, Natalia Grabar, Gabriel Illouz) [présentation]
Pause
Pause repas (1h30)
Pause
17h30-18h.. Discussion et conclusion