DEFT 2019

Défi Fouille de Textes@TALN 2019

Recherche et extraction d'information dans des cas cliniques

Présentation

Programme de l'atelier de clôture et présentations PDF (mardi 2 juillet 2019)

L'édition 2019 du défi fouille de textes (DEFT 2019) porte sur l'analyse de cas cliniques rédigés en français. Cette édition se compose de trois tâches autour de la recherche d'information et de l'extraction d'information. Bien que ces tâches aient déjà fait l'objet de campagnes d'évaluation dans le passé (l'identification de mots-clés dans DEFT 2012 et DEFT 2016, l'appariement entre une recette et ses ingrédients lors de DEFT 2013), c'est la première fois qu'une campagne d'évaluation porte sur des textes cliniques en français.

Que sont les cas cliniques ?
Les cas cliniques décrivent les situations cliniques de patients, réels ou fictifs. Les cas cliniques sont publiés dans différentes sources de données (scientifique, didactique, associatif, juridique...), de manière anonymisée. Leur objectif consiste à présenter des situations typiques (cadre didactique) ou bien des situations rares (cadre scientifique).

Informations globales sur le corpus
Le corpus mis à disposition dans cette compétition DEFT 2019 fait partie d'un corpus de cas cliniques plus grand, avec des annotations et informations associées plus riches [1]. Pour DEFT 2019, les organisateurs se sont concentrés sur les cas cliniques qui sont associés avec des mots-clés et une discussion. Les cas cliniques proposés sont liés à différentes spécialités médicales (cardiologie, urologie, oncologie, obstétrique, pneumologie, gastro-entérologie, etc.). Ils ont été publiés dans différents pays francophones (France, Belgique, Suisse, Canada, pays africains, pays tropicaux, etc.).
Les données de référence de la compétition sont consensuelles et obtenues à partir de deux annotations effectuées de manière indépendante.

[1] N Grabar, V Claveau, C Dalloux. CAS: French Corpus with Clinical Cases. LOUHI 2018, p. 1-7

Accès aux données
L'accès aux données ne sera rendu possible qu'après signature d'un accord d'utilisation des données DEFT 2019 par l'ensemble des membres de l'équipe. Les participants sont libres de participer à une ou plusieurs tâches. En accédant aux données, ils s'engagent moralement à participer jusqu'au bout et à soumettre des résultats.

Description des tâches

Les tâches proposées lors de ce défi sont :

  1. Tâche 1 : Indexation des cas cliniques
    • Objectif : identifier, dans une liste de mots-clés, les mots-clés correspondant à un couple cas clinique/discussion
    • Entrée : les couples cas clinique/discussion, l'indication du nombre de mots-clés attendus, l'ensemble des mots-clés du corpus
    • Sortie : appariement des mots-clés avec les cas cliniques/discussions. Le nombre de mots-clés attendus est indiqué, mais les participants peuvent en proposer autant qu'ils veulent. Les mots-clés doivent être listés du plus sûr au moins sûr.
    • Remarques : un mot-clé peut être associé à plusieurs cas cliniques/discussions, certains mots-clés de l'ensemble d'entraînement (et de test) n'auront pas de correspondance avec les cas cliniques/discussions. Les mots-clés sont définis et choisis par les auteurs
    • Évaluation : la mesure principale de la tâche sera la Mean Average Precision (MAP), la mesure secondaire sera Prec@N, la précision au rang N, avec N le nombre de mots-clés attendus. Une normalisation (flexion, affixation) des mots-clés pour en assurer une meilleure comparaison et évaluation sera effectuée.

  2. Tâche 2 : Similarité sémantique entre les cas cliniques et les discussions
    • Objectif : apparier un cas clinique avec la discussion correspondante
    • Entrée : un ensemble de cas cliniques, un ensemble de discussions
    • Sortie : appariement des cas cliniques et des discussions
    • Remarques : une discussion peut concerner plus d'un cas clinique
    • Évaluation : booléenne

  3. Tâche 3 : Extraction d'information
    • Objectif : dans cette tâche d'extraction d'informations, il est nécessaire de repérer, dans les cas cliniques, les informations démographiques et cliniques.
      Quatre types d'information doivent être identifiés :
      • l'âge de la personne dont le cas est décrit, au moment du dernier élément clinique rapporté dans le cas clinique, normalisé sous la forme d'un entier (par exemple, 0 pour un nourrisson de moins d'un an, 1 pour un enfant de moins de deux ans, y compris un an et demi, 20 pour un patient d'une vingtaine d'années, etc.).
      • le genre de la personne dont le cas est décrit, parmi deux valeurs normalisées : féminin, masculin (il n'existe aucun cas de dysgénésie ou d'hermaphrodisme dans le corpus).
      • l'origine (motif de la consultation ou de l'hospitalisation) pour le dernier événement clinique ayant motivé la consultation. Cette catégorie intègre généralement les pathologies, signes et symptômes (par exemple, "une tuméfaction lombaire droite, fébrile avec frissons" ou "un contexte d'asthénie et d'altération de l'état général"), plus rarement les circonstances d'un accident ("une chute de 12 mètres, par défénestration, avec réception ventrale", "un AVP moto" ou "pense avoir été violée"). Le suivi clinique se trouve dans la continuité d'événements précédents. Il ne constitue pas un motif de consultation.
      • l'issue parmi cinq valeurs possibles : guérison (le problème clinique décrit dans le cas a été traité et la personne est guérie), amélioration (l'état clinique est amélioré sans qu'on ne puisse conclure à une guérison), stable (soit l'état clinique reste stationnaire, soit il est impossible de déterminer entre amélioration et détérioration), détérioration (l'état clinique se dégrade), ou décès (lorsque le décès concerne directement le cas clinique décrit).
    • Entrée : un ensemble de cas cliniques
    • Sortie : valeurs extraites pour les 4 types d'information visés
    • Remarques : dans le cas de documents se rapportant à plusieurs patients, les âges et genres de chacun devront être identifiés (par exemple, dans le cas d'un greffon issu d'un même donneur qui aura été greffé à deux patients successifs, l'âge et le genre des deux personnes greffées devront être identifiés). Il n'est pas nécessaire de relier l'âge avec le genre. Pour le cas où seraient mentionnés plusieurs âges se rapportant à une même personne (l'âge actuel et un âge dans les antécédents), seul l'âge au moment du cas clinique décrit doit être rapporté. Quelques rares documents ne permettent cependant pas d'instancier l'ensemble des quatre catégories. Dans cette situation, la valeur est NUL.
    • Évaluation : les valeurs d'âge, genre et issue, seront évaluées de manière stricte (même valeur entre hypothèse et référence). Il n'est pas demandé de rapporter la portion textuelle ayant permis de fournir ces valeurs. L'origine de la consultation sera évaluée en tenant compte d'un taux de recouvrement de la portion textuelle fournie par rapport à la portion textuelle de référence.

Scripts d'évaluation

Archive : scripts-eval-deft2019.tar.gz
Utilisation :
  • Tâche 1 : python3 eval_DeFT19_T1.py -i file-t1.csv -r TRAIN-T1/donnees-t1-ref.csv -b baseline.csv
  • Tâche 2 : python3 eval_DeFT19_T2.py -i file-t2.csv -r TRAIN-T2/donnees-t2-ref.csv -d TRAIN-T2/donnees-t2-disc.csv
  • Tâche 3 : python3 eval_DeFT19_T3.py -i file-t3.csv -r TRAIN-T3/donnees-t3-ref.csv

FAQ

  • Autour des données supplémentaires
    • Est-ce que les tâches sont contraintes par les données fournies ou on pourra utiliser d’autres données ?

      Il est possible d'utiliser d'autres données que celles fournies dans le corpus avec deux réserves : (1) dans l'article qui décrira l'approche utilisée et lors de la présentation pendant l'atelier de clôture, il faudra préciser quelles sont les resources externes utilisées, et (2) si jamais il s'agit de données issues du web, il faut s'assurer que les données récupérées ne correspondent pas aux données originales ayant servi à constituer le corpus (cf. point n° 6 de l'accord : "ne pas rechercher sur internet les originaux des données fournies").

    • Nous envisageons de collecter des cas de pubmed pour nous créer un corpus un peu plus gros, histoire d'avoir des meilleures statistiques sur les mots, voire des embeddings. Mais nous supputons que nous risquons de retomber sur les cas du train et du test... même si nous ne les "cherchons" pas. Bref, on a le droit ou pas ?

      Vous pouvez bien sur utiliser les ressources externes. L'accord signé indique qu'il n'est pas possible utiliser les originaux pour effectuer l'appariement direct. A part cela, rien n'empêche d'utiliser des données supplémentaires, comme PubMed, pour faire des plongements lexicaux ou construire des lexiques. Il faudra préciser dans votre article quelles sont les ressources externes et comment vous les avez utilisées. Eventuellement, vous pouvez aussi différencier les soumissions avec et sans ces données supplémentaires, de manière à permettre une meilleure comparaison des résultats.

  • Autour de la tâche 1
    • Est-ce que tous les mots-clés du test sont déjà présents dans le train ? On a "clonazépam" est dans la liste de mots-clés possibes mais pas dans le fichier de référence.
      Cardiomyopathies (pluriel) figure dans la référence mais existe seulement au singulier dans le corpus


      Il existe un seul fichier de mots-clés pour le train et le test.

    • Le document "1161237268.txt" n'a qu'un mot-clé dans le comptage du fichier de référence mais a en fait plusieurs mots-clés (semble-t-il) dans la dernière colonne, séparés par des virgules

      Il y a sans doute un pb de format avec le fichier 1161237268.txt. peut-etre ne pas le prendre en compte.

  • Autour de la tâche 2
    • Comment sont gérés les doublons dans les discussions. On a des fichiers avec le même contenu mais des noms différents. Comment déterminer le nom de fichier à prédire ?

      Comme expliqué dans le README, certaines discussions se rapportent à plus d'un cas clinique. Comme pour d'autres paires cas/discussion, c'est le contenu qui est important. Je ne pense pas qu'il faut se focaliser sur les noms de fichiers.

    • J'ai remarqué qu'il y a des discussions dont le contenu est strictement similaire, par exemple dans le fichier d'entraînement donnees-t2-ref.csv nous pouvons retrouver ces deux lignes:
        1244725404.txt 22508536184.txt
        1304959600.txt 22513190240.txt
      Les discussions associées 22508536184.txt et 22513190240.txt sont strictement similaire (diff TRAIN-T2/22508536184.txt TRAIN-T2/22513190240.txt --> fournit aucun résultat). Ce n'est pas le seul exemple au sein de ce fichier. Par conséquent, le fait de ne pas lister les deux fichiers de discussion dans le gold standard revient à prendre une décision arbitraire sur les données. Pouvez vous me confirmer que ce n'est pas une erreur et que nous devons tenir compte de ce biais ?


      Comme expliqué dans le README, certaines discussions se rapportent à plus d'un cas clinique. Ces discussions peuvent avoir des identifiants différents, mais un contenu identique. Ce n'est pas un bug a priori.

    • Sur l'évaluation de la tâche 2 : dans le train on voit que plusieurs fichiers discussion avec des identifiants différents contiennent la même discussion, du coup est-ce que le script d'évaluation gérera ça ? (puisqu'on ne peut pas deviner lequel des fichiers redondants on doit associer à quel cas)

Programme de l'atelier

Chaque intervention comprend 20 minutes de présentation et 10 minutes d'échanges

Accueil
9h30 Natalia Grabar, Cyril Grouin, Thierry Hamon, Vincent Claveau. Recherche et extraction d'information dans des cas cliniques. Présentation de la campagne d'évaluation DEFT 2019 [présentation]
Pause
10h30 Damien Sileo, Tim Van de Cruys, Philippe Muller, Camille Pradel. Aprentissage non-supervisé pour l'appariement et l'étiquetage de cas cliniques en français - DEFT2019
11h00 Jean-Christophe Mensonides, Pierre-Antoine Jean, Andon Tchechmedjiev, Sébastien Harispe. DÉfi Fouille de Textes 2019: indexation par extraction et appariement textuel [présentation]
11h30 Davide Buscaldi, Dhaou Ghoul, Joseph Le Roux, Gaël Lejeune. Indexation et appariements de documents cliniques pour le Deft 2019 [présentation]
12h00 Mérième Bouhandi, Florian Boudin, Ygor Gallina. DeFT 2019 : Auto-encodeurs, Gradient Boosting et combinaisons de modèles pour l'identification automatique de mots-clés. Participation de l'équipe TALN du LS2N
Pause repas
14h00 Khadim Dramé, Ibrahima Diop, Lamine Faty, Birame Ndoye. Indexation et appariement de documents cliniques avec le modèle vectoriel (présentation à distance) (annulé)
14h30 Philippe Suignard, Meryl Bothua, Alexandra Benamar. Participation d'EDF R&D à DEFT 2019 : des vecteurs et des règles ! [présentation]
15h00 Estelle Maudet, Oralie Cattan, Maureen de Seyssel, Christophe Servan. Qwant Research @DEFT 2019 : appariement de documents et extraction d'informations à partir de cas cliniques (présentation à distance)
15h30 Jacques Hilbey, Louise Deléger, Xavier Tannier. Participation de l'équipe LAI à DEFT 2019 (présentation à distance) [présentation]
Pause
16h30 Discussion sur l'édition 2019 et les prochaines éditions

Tâche 1 (indexation) – Tâche 2 (similarité sémantique) – Tâche 3 (extraction d'information)

Comités

Comité scientifique

  • Patrice BELLOT (LSIS, Aix-Marseille Université)
  • Leonardo CAMPILLOS LLANOS (LIMSI, CNRS, Université Paris-Saclay ; Madrid)
  • Vincent CLAVEAU (IRISA, CNRS)
  • Natalia GRABAR (STL, CNRS, Université de Lille)
  • Cyril GROUIN (LIMSI, CNRS, Université Paris-Saclay)
  • Vincent GUIGUE (LIP6, Sorbonne Université)
  • Thierry HAMON (LIMSI, CNRS, Université Paris-Saclay ; Université Paris XIII)
  • Véronique MORICEAU (LIMSI, Université Paris-Sud, Université Paris-Saclay ; IRIT)
  • Fleur MOUGIN (Bordeaux Population Health, Université de Bordeaux)
  • Mathieu ROCHE (TETIS, CIRAD)
  • Patrick RUCH (HEG Geneva, BiTeM)
  • Frantz THIESSARD (Bordeaux Population Health, Université de Bordeaux, Inserm ; CHU de Bordeaux, SIM pôle santé publique, unité médicale Informatique et archivistique médicales)

Comité d'organisation

  • Vincent CLAVEAU (IRISA, CNRS)
  • Natalia GRABAR (STL, CNRS, Université de Lille)
  • Cyril GROUIN (LIMSI, CNRS, Université Paris-Saclay)
  • Thierry HAMON (LIMSI, CNRS, Université Paris-Saclay ; Université Paris XIII)