Dans la continuité de DEFT 2019, l'édition 2020 du défi fouille de textes (DEFT 2020) continue d'explorer les cas cliniques rédigés en français. Cette nouvelle édition porte sur l'extraction d'information fine autour d'une douzaine de catégories (à l'image des campagnes internationales i2b2 2009, 2012 et 2014, ou SemEval 2014). En dehors du domaine clinique, nous proposons également deux nouvelles tâches sur la similarité sémantique entre phrases.
Informations globales sur le corpus
L'un des corpus du défi provient d'un ensemble plus vaste composé de cas cliniques, porteur d'annotations plus complètes [1]. Les cas cliniques couvrent différentes spécialités médicales (cardiologie, urologie, oncologie, obstétrique, pulmonaire, gasto-entérologie, etc.). Ils décrivent des cas qui se sont produits dans différents pays francophones (France, Belgique, Suisse, Canada, pays africains, pays tropicaux, etc.).
Le deuxième corpus utilisé provient du projet CLEAR [2]. Le projet CLEAR se compose de trois sous-corpus (articles d'encyclopédie, notices de médicaments, et résumés Cochrane) dont le contenu est comparable. Chaque corpus fournit des versions techniques et simplifiées sur un sujet donné en français. Les phrases proposées dans les tâches 1 et 2 proviennent de ce corpus.
Les annotations de référence ont fait l'objet d'un consensus après une double annotation indépendante.
[1] N Grabar, V Claveau, C Dalloux. CAS: French Corpus with Clinical Cases. LOUHI 2018, p. 1-7
[2] N Grabar, R Cardon. CLEAR -- Simple Corpus for Medical French. ATA 2018, p 1-7
Accès aux données
L'accès aux données ne sera rendu possible qu'après signature d'un accord d'utilisation des données DEFT 2020 par l'ensemble des membres de l'équipe. Les participants sont libres de participer à une ou plusieurs tâches. En accédant aux données, ils s'engagent moralement à participer jusqu'au bout (soumettre des résultats et présenter les résultats pendant l'atelier).
Accès aux données hors challenge (DEFT 2019, 2020) : corpus de 717 cas cliniques rédigés en français, annotés avec quatre type d'information démographique (âge, genre) et clinique (origine de la consultation, issue), et pour un sous-ensemble de 167 cas, également annotés avec treize types d'information clinique (anatomie, date, dose, durée, examen, fréquence, mode, moment, pathologie, signe ou symptôme, substance, traitement, valeur) et cinq attributs (assertion, changement, état, norme, prise). La demande d'accès au corpus doit être formulée auprès de Natalia Grabar (natalia.grabar@univ-lille.fr) et Cyril Grouin (cyril.grouin@limsi.fr)
Les tâches proposées lors de ce défi sont :
<paire id="1" vote="4"> <source>- En l'absence d'amélioration comme en cas de persistance des symptômes, prendre un avis médical.</source> <cible>En l'absence d'amélioration comme en cas de persistance des symptômes au-delà de 7 jours de traitement, prenez un avis médical.</cible> </paire> <paire id="2" vote="5"> <source>- En l'absence d'amélioration comme en cas de persistance des symptômes, prendre un avis médical.</source> <cible>En l'absence d'amélioration comme en cas de persistance des symptômes, prenez un avis médical.</cible> </paire>
<ensemble id="1" cible="2"> <source>compte tenu des données disponibles , l' utilisation chez la femme enceinte ou qui allaite est possible ponctuellement</source> <cible num="1">ce médicament est un laxatif utilisé par voie orale</cible> <cible num="2">ce médicament , dans les conditions normales d' utilisation , peut être utilisé ponctuellement pendant la grossesse et l' allaitement</cible> <cible num="3">boîte de 1 flacon de 250 ml ou 500 ml</cible> </ensemble> <ensemble id="2" cible="3"> <source>il convient d' attirer l' attention des conducteurs ou utilisateurs de machines sur les risques de troubles visuels attachés à l' utilisation de ce médicament</source> <cible num="1">- des kystes de l' ovaire</cible> <cible num="2">- des pertes gynécologiques peu importantes ,</cible> <cible num="3">les risques de troubles visuels peuvent rendre dangereux la conduite automobile ou l' utilisation de certains machines</cible> </ensemble>
T11 sosy 35 67 douleurs périombilicale intenses T12 anatomie 44 58 périombilicale T4 duree 68 85 depuis trois mois T13 sosy 91 99 douleurs T14 sosy 124 136 vomissements T15 sosy 142 161 troubles du transit A2 assertion T15 absent T17 sosy 177 197 hémorragie digestive A3 assertion T17 absent T1 anatomie 188 197 digestive T6 examen 203 218 examen clinique T18 sosy 231 255 empâtement sus-ombilical T19 anatomie 242 255 sus-ombilical T20 sosy 261 291 pâleur cutanéomuqueuse diffuse T21 anatomie 268 283 cutanéomuqueuse T22 examen 296 312 bilan biologique T23 pathologie 326 354 anémie à 9g/dl d’hémoglobine T24 valeur 335 340 9g/dl T25 substance 343 354 hémoglobine T26 pathologie 362 386 hypo albuminémie à 28g/l T27 valeur 381 386 28g/l T7 examen 391 423 fibroscopie oeso-gastroduodénale T28 anatomie 403 423 oeso-gastroduodénale T29 pathologie 440 459 gastrite congestive T30 sosy 465 498 atrophie des villosités duodénale T31 anatomie 478 498 villosités duodénale T5 examen 507 514 biopsie T32 pathologie 537 553 maladie cœliaque A1 assertion T32 possible
Feuilles de style des articles : jeptaln2020-style.zip (10 à 12 pages hors références)
Site de soumission des articles : https://easychair.org/conferences/?conf=jeptalnrecital2020 (choisir le track DEFT)
bientôt
bientôt