Programme de l'atelier de clôture et présentations PDF (mardi 2 juillet 2019)
L'édition 2019 du défi fouille de textes (DEFT 2019) porte sur l'analyse de cas cliniques rédigés en français. Cette édition se compose de trois tâches autour de la recherche d'information et de l'extraction d'information. Bien que ces tâches aient déjà fait l'objet de campagnes d'évaluation dans le passé (l'identification de mots-clés dans DEFT 2012 et DEFT 2016, l'appariement entre une recette et ses ingrédients lors de DEFT 2013), c'est la première fois qu'une campagne d'évaluation porte sur des textes cliniques en français.
Que sont les cas cliniques ?
Les cas cliniques décrivent les situations cliniques de patients, réels ou fictifs. Les cas cliniques sont publiés dans différentes sources de données (scientifique, didactique, associatif, juridique...), de manière anonymisée. Leur objectif consiste à présenter des situations typiques (cadre didactique) ou bien des situations rares (cadre scientifique).
Informations globales sur le corpus
Le corpus mis à disposition dans cette compétition DEFT 2019 fait partie d'un corpus de cas cliniques plus grand, avec des annotations et informations associées plus riches [1]. Pour DEFT 2019, les organisateurs se sont concentrés sur les cas cliniques qui sont associés avec des mots-clés et une discussion. Les cas cliniques proposés sont liés à différentes spécialités médicales (cardiologie, urologie, oncologie, obstétrique, pneumologie, gastro-entérologie, etc.). Ils ont été publiés dans différents pays francophones (France, Belgique, Suisse, Canada, pays africains, pays tropicaux, etc.).
Les données de référence de la compétition sont consensuelles et obtenues à partir de deux annotations effectuées de manière indépendante.
[1] N Grabar, V Claveau, C Dalloux. CAS: French Corpus with Clinical Cases. LOUHI 2018, p. 1-7
Accès aux données
L'accès aux données ne sera rendu possible qu'après signature d'un accord d'utilisation des données DEFT 2019 par l'ensemble des membres de l'équipe. Les participants sont libres de participer à une ou plusieurs tâches. En accédant aux données, ils s'engagent moralement à participer jusqu'au bout et à soumettre des résultats.
Les tâches proposées lors de ce défi sont :
- Tâche 1 : Indexation des cas cliniques
- Objectif : identifier, dans une liste de mots-clés, les mots-clés correspondant à un couple cas clinique/discussion
- Entrée : les couples cas clinique/discussion, l'indication du nombre de mots-clés attendus, l'ensemble des mots-clés du corpus
- Sortie : appariement des mots-clés avec les cas cliniques/discussions. Le nombre de mots-clés attendus est indiqué, mais les participants peuvent en proposer autant qu'ils veulent. Les mots-clés doivent être listés du plus sûr au moins sûr.
- Remarques : un mot-clé peut être associé à plusieurs cas cliniques/discussions, certains mots-clés de l'ensemble d'entraînement (et de test) n'auront pas de correspondance avec les cas cliniques/discussions. Les mots-clés sont définis et choisis par les auteurs
- Évaluation : la mesure principale de la tâche sera la Mean Average Precision (MAP), la mesure secondaire sera Prec@N, la précision au rang N, avec N le nombre de mots-clés attendus. Une normalisation (flexion, affixation) des mots-clés pour en assurer une meilleure comparaison et évaluation sera effectuée.
- Tâche 2 : Similarité sémantique entre les cas cliniques et les discussions
- Objectif : apparier un cas clinique avec la discussion correspondante
- Entrée : un ensemble de cas cliniques, un ensemble de discussions
- Sortie : appariement des cas cliniques et des discussions
- Remarques : une discussion peut concerner plus d'un cas clinique
- Évaluation : booléenne
- Tâche 3 : Extraction d'information
- Objectif : dans cette tâche d'extraction d'informations, il est nécessaire de repérer, dans les cas cliniques, les informations démographiques et cliniques.
Quatre types d'information doivent être identifiés :
- l'âge de la personne dont le cas est décrit, au moment du dernier élément clinique rapporté dans le cas clinique, normalisé sous la forme d'un entier (par exemple, 0 pour un nourrisson de moins d'un an, 1 pour un enfant de moins de deux ans, y compris un an et demi, 20 pour un patient d'une vingtaine d'années, etc.).
- le genre de la personne dont le cas est décrit, parmi deux valeurs normalisées : féminin, masculin (il n'existe aucun cas de dysgénésie ou d'hermaphrodisme dans le corpus).
- l'origine (motif de la consultation ou de l'hospitalisation) pour le dernier événement clinique ayant motivé la consultation. Cette catégorie intègre généralement les pathologies, signes et symptômes (par exemple, "une tuméfaction lombaire droite, fébrile avec frissons" ou "un contexte d'asthénie et d'altération de l'état général"), plus rarement les circonstances d'un accident ("une chute de 12 mètres, par défénestration, avec réception ventrale", "un AVP moto" ou "pense avoir été violée"). Le suivi clinique se trouve dans la continuité d'événements précédents. Il ne constitue pas un motif de consultation.
- l'issue parmi cinq valeurs possibles : guérison (le problème clinique décrit dans le cas a été traité et la personne est guérie), amélioration (l'état clinique est amélioré sans qu'on ne puisse conclure à une guérison), stable (soit l'état clinique reste stationnaire, soit il est impossible de déterminer entre amélioration et détérioration), détérioration (l'état clinique se dégrade), ou décès (lorsque le décès concerne directement le cas clinique décrit).
- Entrée : un ensemble de cas cliniques
- Sortie : valeurs extraites pour les 4 types d'information visés
- Remarques : dans le cas de documents se rapportant à plusieurs patients, les âges et genres de chacun devront être identifiés (par exemple, dans le cas d'un greffon issu d'un même donneur qui aura été greffé à deux patients successifs, l'âge et le genre des deux personnes greffées devront être identifiés). Il n'est pas nécessaire de relier l'âge avec le genre. Pour le cas où seraient mentionnés plusieurs âges se rapportant à une même personne (l'âge actuel et un âge dans les antécédents), seul l'âge au moment du cas clinique décrit doit être rapporté. Quelques rares documents ne permettent cependant pas d'instancier l'ensemble des quatre catégories. Dans cette situation, la valeur est NUL.
- Évaluation : les valeurs d'âge, genre et issue, seront évaluées de manière stricte (même valeur entre hypothèse et référence). Il n'est pas demandé de rapporter la portion textuelle ayant permis de fournir ces valeurs. L'origine de la consultation sera évaluée en tenant compte d'un taux de recouvrement de la portion textuelle fournie par rapport à la portion textuelle de référence.
Chaque intervention comprend 20 minutes de présentation et 10 minutes d'échanges
Accueil |
9h30 |
Natalia Grabar, Cyril Grouin, Thierry Hamon, Vincent Claveau. Recherche et extraction d'information dans des cas cliniques. Présentation de la campagne d'évaluation DEFT 2019 [présentation] |
Pause |
10h30 |
Damien Sileo, Tim Van de Cruys, Philippe Muller, Camille Pradel. Aprentissage non-supervisé pour l'appariement et l'étiquetage de cas cliniques en français - DEFT2019 ◉◉ |
11h00 |
Jean-Christophe Mensonides, Pierre-Antoine Jean, Andon Tchechmedjiev, Sébastien Harispe. DÉfi Fouille de Textes 2019: indexation par extraction et appariement textuel ◉◉ [présentation] |
11h30 |
Davide Buscaldi, Dhaou Ghoul, Joseph Le Roux, Gaël Lejeune. Indexation et appariements de documents cliniques pour le Deft 2019 ◉◉ [présentation] |
12h00 |
Mérième Bouhandi, Florian Boudin, Ygor Gallina. DeFT 2019 : Auto-encodeurs, Gradient Boosting et combinaisons de modèles pour l'identification automatique de mots-clés. Participation de l'équipe TALN du LS2N ◉ |
Pause repas |
14h00 |
Khadim Dramé, Ibrahima Diop, Lamine Faty, Birame Ndoye. Indexation et appariement de documents cliniques avec le modèle vectoriel ◉◉ (présentation à distance) (annulé) |
14h30 |
Philippe Suignard, Meryl Bothua, Alexandra Benamar. Participation d'EDF R&D à DEFT 2019 : des vecteurs et des règles ! ◉◉◉ [présentation] |
15h00 |
Estelle Maudet, Oralie Cattan, Maureen de Seyssel, Christophe Servan. Qwant Research @DEFT 2019 : appariement de documents et extraction d'informations à partir de cas cliniques ◉◉ (présentation à distance) |
15h30 |
Jacques Hilbey, Louise Deléger, Xavier Tannier. Participation de l'équipe LAI à DEFT 2019 ◉ (présentation à distance) [présentation] |
Pause |
16h30 |
Discussion sur l'édition 2019 et les prochaines éditions |
◉ Tâche 1 (indexation) ◉ Tâche 2 (similarité sémantique) ◉ Tâche 3 (extraction d'information)