DEFT 2020

Défi Fouille de Textes@JEP-TALN 2020

similarité sémantique et extraction d'information fine

Présentation

Dans la continuité de DEFT 2019, l'édition 2020 du défi fouille de textes (DEFT 2020) continue d'explorer les cas cliniques rédigés en français. Cette nouvelle édition porte sur l'extraction d'information fine autour d'une douzaine de catégories (à l'image des campagnes internationales i2b2 2009, 2012 et 2014, ou SemEval 2014). En dehors du domaine clinique, nous proposons également deux nouvelles tâches sur la similarité sémantique entre phrases.

Informations globales sur le corpus
L'un des corpus du défi provient d'un ensemble plus vaste composé de cas cliniques, porteur d'annotations plus complètes [1]. Les cas cliniques couvrent différentes spécialités médicales (cardiologie, urologie, oncologie, obstétrique, pulmonaire, gasto-entérologie, etc.). Ils décrivent des cas qui se sont produits dans différents pays francophones (France, Belgique, Suisse, Canada, pays africains, pays tropicaux, etc.). Le deuxième corpus utilisé provient du projet CLEAR [2]. Le projet CLEAR se compose de trois sous-corpus (articles d'encyclopédie, notices de médicaments, et résumés Cochrane) dont le contenu est comparable. Chaque corpus fournit des versions techniques et simplifiées sur un sujet donné en français. Les phrases proposées dans les tâches 1 et 2 proviennent de ce corpus. Les annotations de référence ont fait l'objet d'un consensus après une double annotation indépendante.

[1] N Grabar, V Claveau, C Dalloux. CAS: French Corpus with Clinical Cases. LOUHI 2018, p. 1-7

[2] N Grabar, R Cardon. CLEAR -- Simple Corpus for Medical French. ATA 2018, p 1-7

Accès aux données
L'accès aux données ne sera rendu possible qu'après signature d'un accord d'utilisation des données DEFT 2020 par l'ensemble des membres de l'équipe. Les participants sont libres de participer à une ou plusieurs tâches. En accédant aux données, ils s'engagent moralement à participer jusqu'au bout (soumettre des résultats et présenter les résultats pendant l'atelier).

Accès aux données hors challenge (DEFT 2019, 2020) : corpus de 717 cas cliniques rédigés en français, annotés avec quatre type d'information démographique (âge, genre) et clinique (origine de la consultation, issue), et pour un sous-ensemble de 167 cas, également annotés avec treize types d'information clinique (anatomie, date, dose, durée, examen, fréquence, mode, moment, pathologie, signe ou symptôme, substance, traitement, valeur) et cinq attributs (assertion, changement, état, norme, prise). La demande d'accès au corpus doit être formulée auprès de Natalia Grabar (natalia.grabar@univ-lille.fr) et Cyril Grouin (cyril.grouin@limsi.fr)

Description des tâches

Les tâches proposées lors de ce défi sont :

  • Tâche 1 : identifier le degré de similarité entre paires de phrases parallèles et non-parallèles sur plusieurs domaines
    • Objectif : déterminer le niveau de similarité entre paires de phrases, sur une échelle de 0 à 5
    • Entrée : les paires de phrases
    • Sortie : le niveau de similarité entre 0 et 5 pour chaque paire de phrases
    • Évaluation : l'écart entre la valeur fournie et la valeur de référence
    • Exemple :
      <paire id="1" vote="4">
        <source>- En l'absence d'amélioration comme en cas de persistance des symptômes, prendre un avis médical.</source>
        <cible>En l'absence d'amélioration comme en cas de persistance des symptômes au-delà de 7 jours de traitement, prenez un avis médical.</cible>
      </paire>
      <paire id="2" vote="5">
        <source>- En l'absence d'amélioration comme en cas de persistance des symptômes, prendre un avis médical.</source>
        <cible>En l'absence d'amélioration comme en cas de persistance des symptômes, prenez un avis médical.</cible>
      </paire>
      

  • Tâche 2 : identifier les phrases parallèles possible pour une phrase source
    • Objectif : pour une phrase source donnée et plusieurs phrases cibles fournies, identifier parmi les phrases cibles celle qui est parallèle
    • Entrée : une phrase source et plusieurs phrases cibles possibles
    • Sortie : la/les phrases parallèles correspondant à la phrase source
    • Évaluation : booléenne
    • Exemple :
        <ensemble id="1" cible="2">
          <source>compte tenu des données disponibles , l' utilisation chez la femme enceinte ou qui allaite est possible ponctuellement</source>
          <cible num="1">ce médicament est un laxatif utilisé par voie orale</cible>
          <cible num="2">ce médicament , dans les conditions normales d' utilisation , peut être utilisé ponctuellement pendant la grossesse et l' allaitement</cible>
          <cible num="3">boîte de 1 flacon de 250 ml ou 500 ml</cible>
        </ensemble>
        <ensemble id="2" cible="3">
          <source>il convient d' attirer l' attention des conducteurs ou utilisateurs de machines sur les risques de troubles visuels attachés à l' utilisation de ce médicament</source>
          <cible num="1">- des kystes de l' ovaire</cible>
          <cible num="2">- des pertes gynécologiques peu importantes ,</cible>
          <cible num="3">les risques de troubles visuels peuvent rendre dangereux la conduite automobile ou l' utilisation de certains machines</cible>
        </ensemble>
      

  • Tâche 3 : extraction d'information
    • Objectif : dans cette tâche d'extraction d'informations, il est nécessaire de repérer, dans les cas cliniques, les informations fines autour d'une dizaine de catégories.
      Quatre domaines sont couverts :
      • autour des patients : anatomies
      • autour de la pratique clinique : examen, pathologie, signe ou symptôme
      • autour des traitements médicamenteux et chirurgicaux : substance, dose, durée, fréquence, mode d'administration, traitement (chirurgical ou médical), valeur
      • autour du temps : date, moment
      Le guide d'annotation utilisé est consultable : https://deft.limsi.fr/2020/guide-deft.html
    • Entrée : un ensemble de cas cliniques au format texte (fichiers *.txt)
    • Sortie : les informations correspondant aux catégories visées pour chaque cas, au format BRAT (voir exemple ci-dessous, fichiers *.ann)
    • Remarques :
      • deux sous-tâches sont proposées :
        1. identifier les pathologies et signe ou symptômes (portions assez vastes à traiter)
        2. identifier les informations associées (anatomie, dose, examen, mode, moment, substance, traitement, valeur)
        3. Des annotations et informations complémentaires seront fournies, sans qu'il ne soit nécessaire de les identifier (catégories date, durée, fréquence ; attributs et valeurs sur certaines catégories, tels que assertion, norme, prise, etc.).
      • Les fichiers fournis sont au format BRAT (fichiers *.txt et d'annotations déportées *.ann avec offsets de caractère de début et de fin). Le corpus se compose de 100 fichiers pour l'entraînement (8350 annotations) et 67 fichiers pour le test (3800 annotations).
    • Évaluation : correspondance du type d'information et des frontières d'annotation par rapport à la référence
    • Exemple :

      T11	sosy 35 67	douleurs périombilicale intenses
      T12	anatomie 44 58	périombilicale
      T4	duree 68 85	depuis trois mois
      T13	sosy 91 99	douleurs
      T14	sosy 124 136	vomissements
      T15	sosy 142 161	troubles du transit
      A2	assertion T15 absent
      T17	sosy 177 197	hémorragie digestive
      A3	assertion T17 absent
      T1	anatomie 188 197	digestive
      T6	examen 203 218	examen clinique
      T18	sosy 231 255	empâtement sus-ombilical
      T19	anatomie 242 255	sus-ombilical
      T20	sosy 261 291	pâleur cutanéomuqueuse diffuse
      T21	anatomie 268 283	cutanéomuqueuse
      T22	examen 296 312	bilan biologique
      T23	pathologie 326 354	anémie à 9g/dl d’hémoglobine
      T24	valeur 335 340	9g/dl
      T25	substance 343 354	hémoglobine
      T26	pathologie 362 386	hypo albuminémie à 28g/l
      T27	valeur 381 386	28g/l
      T7	examen 391 423	fibroscopie oeso-gastroduodénale
      T28	anatomie 403 423	oeso-gastroduodénale
      T29	pathologie 440 459	gastrite congestive
      T30	sosy 465 498	atrophie des villosités duodénale
      T31	anatomie 478 498	villosités duodénale
      T5	examen 507 514	biopsie
      T32	pathologie 537 553	maladie cœliaque
      A1	assertion T32 possible
      

Scripts d'évaluation

  • Tâche 1 : eval-deft.tar.gz, utilisation : python3 evalT1.py -r reference-t1.csv -s predictions-t1.csv (option -x si données au format XML)
  • Tâche 2 : eval-deft.tar.gz + pip3 install ml_metrics, utilisation : python3 evalT2.py -r reference-t2.csv -s predictions-t2.csv (option -x si données au format XML)
  • Tâche 3 : BRATEval-0.0.2-SNAPSHOT.tar.gz, utilisation : java -cp BRATEval-0.0.2-SNAPSHOT.jar au.com.nicta.csp.brateval.CompareEntities repertoirePredictions/ goldStandard/ true

Articles DEFT

Feuilles de style des articles : jeptaln2020-style.zip (10 à 12 pages hors références)

Site de soumission des articles : https://easychair.org/conferences/?conf=jeptalnrecital2020 (choisir le track DEFT)

Programme de l'atelier

bientôt

Actes de l'atelier

bientôt

Comités

Comité scientifique

Comité d'organisation

  • Rémi CARDON (STL, CNRS, Université de Lille)
  • Natalia GRABAR (STL, CNRS, Université de Lille)
  • Cyril GROUIN (LIMSI, CNRS, Université Paris-Saclay)
  • Thierry HAMON (LIMSI, CNRS, Université Paris-Saclay ; Université Paris XIII)