DEFT2011

accueilprésentationcorpusformatsévaluationsfaqactes

Évaluation

Scripts d'évaluation des résultats

 A. Tâche chronologique DEFT 2011

Mesures de performance

-Revision : 1.2 -
-Date : 2011/03/25 09 :42 :19 -

Table des matières

1 Définir une tâche pour définir le mode d’évaluation
 1.1 La tâche chronologique de DEFT 2011
 1.2 Un espace linéaire
 1.3 Une ou plusieurs hypothèses par fragment d’article
2 Détermination de l’année de parution d’un article : similarité et gain total
 2.1 Hypothèse unique pour chaque fragment d’article
 2.2 Extension à des hypothèses multiples avec score de confiance
3 Détermination de l’année de parution d’un article : surface sous une courbe de type ROC

1 Définir une tâche pour définir le mode d’évaluation

1.1 La tâche chronologique de DEFT 2011

La tâche chronologique de DEFT consiste à « identifier l’année de parution (entre 1801 et 1944) d’une portion de journal ». On peut donc définir la tâche ainsi :

1.2 Un espace linéaire

Une particularité de la tâche est que l’espace des années de parution possède une structure : deux années peuvent être plus ou moins proches l’une de l’autre. Plus précisément, les années sont organisées en un espace à une dimension (le temps). Il est souhaitable que l’évaluation d’un système reflète cette structure : se tromper de quelques années dans l’année de parution d’un fragment d’article devrait être moins pénalisé que se tromper de beaucoup d’années. La différence de pénalité devrait de plus être continue.

Bien sûr, l’exigence sur la précision de l’année peut être plus ou moins grande dans l’évaluation.

1.3 Une ou plusieurs hypothèses par fragment d’article

Étant donné un fragment d’article, la réponse du système peut être fournie sous deux formes :

  1. Une hypothèse unique de date pour ce fragment d’article (réponse unique catégorique). C’est la forme attendue pour calculer le score officiel qui servira à classer les systèmes.
  2. Plusieurs hypothèses peuvent être fournies, pondérées par un indice de confiance attribué par le système (réponse multiple graduée). La somme des indices de confiance doit être égale à un.

Nous précisons le mode d’évaluation correspondant à cette tâche, dans sa forme à hypothèse unique (section 2.1) et dans sa forme à hypothèse multiple (section 2.2).

2 Détermination de l’année de parution d’un article : similarité et gain total

2.1 Hypothèse unique pour chaque fragment d’article

Étant donné un fragment d’article ai dont la date de parution indiquée dans la référence est dr(ai), un système prédit une date de parution dp(ai). Le système reçoit pour cette tâche un gain qui est d’autant plus grand que l’année prédite est proche de l’année de référence.

Nous choisisons pour calculer la similarité entre date prédite et date de référence la fonction gaussienne (2) :
  (     )     π      2
sg dp,dr =  e- 102(dp-dr)
(2)

Le maximum de sg vaut 1 pour dp = dr. La fonction tend vers 0 lorsque dp s’éloigne de dr. Le tableau 1 donne les valeurs de sg en fonction de la valeur absolue de la différence dp -dr. L’aire sous la courbe (intégrale) de sg est égale à 10 : la masse totale de score de tolérance offerte à dp est la même que celle qui serait produite par un intervalle de tolérance de 10 ans centré sur la date de référence dr et à l’intérieur duquel le score de dp vaudrait 1 (configuration de DEFT 2010). La fonction sg remplace le score de similarité binaire de DEFT 2010 (1 si on est dans ces 10 ans, 0 sinon) par une décroissance plus graduelle.

C’est cette fonction de similarité sg, moyennée sur l’ensemble des N fragments d’articles du corpus (formule 1, précisée en 3), qui est utilisée pour calculer le score officiel d’un système p dans la tâche chronologique de DEFT 2011 :

           N
S (p) = 1-   e- π102(dp(ai)-dr(ai))2
        N i∑=1
(3)




|      |
|dp - dr|sg(dp, dr)


0 1,000
1 0,969
2 0,882
3 0,754
4 0,605
5 0,456
6 0,323
7 0,215
8 0,134
9 0,078
10 0,043
11 0,022
12 0,011
13 0,005
14 0,002
15 0,001
> 15 0,000


Tableau 1: Valeur du score de similarité sg selon la distance entre deux années. On peut vérifier que la somme de ces valeurs pour dp -dr variant entre -15 et +15 est 10.

2.2 Extension à des hypothèses multiples avec score de confiance

Dans la situation où un système donne plusieurs hypothèses de dates pour un fragment d’article, le gain assigné à cet ensemble d’hypothèses est la combinaison linéaire des gains de chaque hypothèse, pondérée par les scores de confiance donnés par le système.

Mis en formules : pour un fragment d’article ai, le système p prédit ni dates dpj :

         (             )
Dp (ai) =   d1p,d 2p,...,dnpi

Le système p attribue la confiance cpj à la prédiction dpj :

         (            )       ni
Cp (ai) =  c1p,c2p,...,cnpi  avec ∑  cjp = 1
                             j=1

Le score pondéré obtenu pour ce fragment d’article est alors :
                          ni     (            )
s (a ) = C (a )⋅D  (a) =    cj⋅s  dj(a ),d (a )
 c  i     p  i    p  i   ∑j=1 p     p  i   r  i
(4)

ce qui donne la formule (5) pour l’évaluation d’un fragment d’article avec ni hypothèses dpj pondérées par les scores de confiance cpj :
        n         (          )2
         i  j  -1π02djp(ai)-dr(ai)
sc (ai) = ∑  cp ⋅e
        j= 1
(5)

et la formule (6) pour l’évaluation globale des résultats d’un système p produisant des hypothèses multiples pondérées par score de confiance :
           N  ni        ( j       )2
Sc(p) = -1 ∑  ∑ cjp ⋅e-1π02 dp(ai)-dr(ai)
        N  i=1 j=1
(6)

3 Détermination de l’année de parution d’un article : surface sous une courbe de type ROC

La courbe ROC trace l’évolution du taux de vrais positifs parmi les positifs (rappel ou sensibilité) et du taux de faux positifs parmi les négatifs (1 - spécificité) lorsque l’on fait varier le seuil de discrimination entre positifs et négatifs. Ici, nous pouvons faire varier l’écart entre date prédite et date de référence en-dessous duquel on considère que la date prédite est acceptable. Cependant, la tâche définie ici n’oppose pas des positifs et des négatifs (classification binaire), mais un ensemble de D dates (dans le cas de DEFT 2011, D ~ 150). Nous proposons d’examiner une autre courbe, qui trace l’évolution de la proportion de prédictions acceptables en fonction de l’écart maximal autorisé entre date prédite et date de référence.

Lorsque cet écart maximal est nul, on exige de trouver la date exacte. Cela donne une certaine proportion de prédictions correctes (par exemple 2 % des fragments d’articles ont une date correcte). Si l’écart maximal vaut 1, on demande de trouver la date à 1 an près. Cela donne davantage de prédictions acceptables (par exemple 5 % des fragments d’articles ont une date à au plus un an de distance de leur date de référence). Et ainsi de suite à mesure que l’on augmente l’écart maximal e, jusqu’à arriver à une valeur plafond fixée E. On obtient ainsi une courbe qui augmente avec e. Cette courbe reflète une prédiction d’autant plus fiable qu’elle commence par longer l’axe des y puis suit la droite d’équation y = 1. Une façon de mesurer cette fiabilité est de calculer l’aire sous cette courbe, que l’on approxime de façon discrète en (7) :
              E     N
AUC  (p) = -1 ∑  1-∑  1e
           E e=0 N i= 1 |dp(ai)-dr(ai)|
(7)

1|dp(ai)-dr(ai)|e vaut 1 si ||dp (ai)-  dr(ai)||e, et 0 sinon. Le score ainsi calculé varie entre 0 (aucune date prédite à l’intérieur de l’intervalle d’acceptabilité maximal E) et 1 (rappel maximal dès l’écart e = 0).

Note : Ce score est équivalent à celui que l’on obtiendrait avec le score défini à l’équation (1) en prenant pour calculer la similarité s une fonction affine par morceaux définie comme suit :

            (
  (     )   |{ 1(    |       |)         |      |  sidp =|dr     |
sa dp,dr =    1E  E- |dp - dr| = 1 - 1E |dp - dr|  si0 < |dp - dr| < E
            |( 0                                 si ||dp - dr|| ≥ E

Si l’on veut conserver le principe proposé en section 2.1 d’une intégrale égale à 10, il faut fixer E = 10 (ce qui donne deux triangles d’aire 5 chacun).

 B. Tâche d'appariement de résumés à DEFT 2011

Table des matières

1 Définir une tâche pour définir le mode d’évaluation
 1.1 La tâche d’appariement de résumé de DEFT 2011
 1.2 Une ou plusieurs hypothèses par résumé
2 Évaluation d’une tâche d’étiquetage
 2.1 Une seule hypothèse d’étiquette
 2.2 Extension à des hypothèses multiples avec indice de confiance

1 Définir une tâche pour définir le mode d’évaluation

1.1 La tâche d’appariement de résumé de DEFT 2011

La tâche d’appariement de résumés de DEFT consiste à « identifier à quel article scientifique correspond un résumé ». Une réponse doit être fournie pour chaque résumé. On peut donc définir la tâche ainsi :

1.2 Une ou plusieurs hypothèses par résumé

Étant donné un résumé, la réponse du système peut être fournie sous deux formes :

  1. Une hypothèse unique de texte pour ce résumé (réponse unique catégorique). C’est la forme attendue pour calculer le score officiel qui servira à classer les systèmes.
  2. Plusieurs hypothèses peuvent être fournies, pondérées par un indice de confiance attribué par le système (réponse multiple graduée). La somme des indices de confiance doit être égale à un.

Nous précisons le mode d’évaluation correspondant à cette tâche, dans sa forme à hypothèse unique (section 2.1) et dans sa forme à hypothèse multiple (section 2.2).

Note : plusieurs variantes de cette tâche sont définies à DEFT 2011 : résumé article, article résumé, article entier, article sans introduction ni conclusion. Elles sont toutes évaluées sur le même mode (en échangeant article et résumé le cas échéant).

2 Évaluation d’une tâche d’étiquetage

2.1 Une seule hypothèse d’étiquette

L’hypothèse est correcte ou pas. On peut compter la proportion de résumés pour lesquels l’hypothèse fournie est correcte. Comme tout résumé doit recevoir une réponse, et que cette réponse est unique, cette proportion peut être vue aussi bien comme une précision (proportion des réponses proposées qui sont correctes) que comme un rappel (proportion des réponses attendues qui sont correctement proposées par le système) ou encore une correction (proportion des décisions qui sont correctes).

    |r´ep-on-sescorrectes|   |r´eponses-correctes|   |r´eponses corre&
S = |r´eponsespropos´ees| = |r´eponsesatten dues| =     |r´esum e´s|    =      |articles�

Si l’on définit un score élémentaire pour chaque résumé qui vaut 1 ou 0 selon que l’article trouvé est correct ou pas, cela revient à calculer la moyenne de ce score sur l’ensemble des résumés. Mis en formules, pour chacun des n résumés ri, le système prédit quel article ap(ri) parmi les N articles aj lui correspond. Le score s(            )
 ap(ri),ar(ri) donné à chaque prédiction vaut 0 ou 1 selon que l’article prédit ap(ri) est ou pas l’article de référence ar(ri) :

                  {
 (            )    1   siap (ri) = ar(ri)
s ap(ri) ,ar(ri) =   0   sinon

Le score global est la moyenne des scores obtenus par le système p :
        1  n  (            )    1  N |{                 }|
S (p) = N-∑  s ap (ri),ar(ri) =  N-∑  | ri; ap(ri) = ar(ri) |
          i=1                     i= 1
(1)

2.2 Extension à des hypothèses multiples avec indice de confiance

Dans cette variante, le système peut donner plusieurs hypothèses d’articles pour chaque résumé, en associant un indice de confiance à chaque hypothèse. Si l’une de ces hypothèses est correcte, le score attribué au système est l’indice de confiance que le système a associé à cette hypothèse ; si aucune hypothèse n’est correcte, le score est nul. Comme dans le cas à une seule étiquette, le score global pour l’ensemble des résumés est la moyenne des scores par résumé :

S =  |r´eponsescorrectesp-on-d´er´ees|= ...=  |re´ponsescorrectesp&
 c       |r´eponsespropos´ees|                    |r´esum ´es|

Mis en formules : pour un résumé ri, le système p prédit ni étiquettes apj :

         (  1 2      ni)
Ap (ri) =   ap,ap,...,ap

Le système attribue la confiance cpj à la prédiction apj :

                              n
         ( 1  2     ni)       i  j
Cp (ri) =  cp,cp,...,cp   avec ∑  cp = 1
                             j= 1

Le score pondéré obtenu pour ce résumé est alors :
                           {
  (                    )     cjip(ri)  si∃ji ∈ {1 ...ni} ; ajpi(ri) = ar(ri)
sc Ap (ri),Cp (ri),ar(ri)  =
                             0      sinon
(2)

ce qui donne la formule (3) pour l’évaluation globale des résultats d’un système p produisant des hypothèses multiples pondérées par score de confiance :
           N
S (p) = -1    s (A  (r ),C  (r),a (r)) = -1                      cji(r)
 c      N  ∑i=1 c   p  i   p  i   r  i    N  {        ∑  j       } p  i
                                            i;∃ji∈{1...ni} ;aip(ri)=ar(ri)
(3)