Evaluation

Mesures d'évaluation

Les mesures d'évaluation utilisées sont les suivantes :

NB : certains tweets ayant pu disparaître entre le moment où ils ont été collectés pour l'annotation de référence et le moment où ils sont récupérer par les participants, l'évaluation ne portera que sur les tweets disponibles à la fin de la phase de test.

Scripts d'évaluation

Les scripts d'évaluation sont disponibles dans l'archive evaldeft2015_20150513.tar.gz (mise à jour). Pour utiliser les scripts, il faut les extraire :
tar xzvf evaldeft2015_20150513.tar.gz
    
Les sorties à produire doivent être dans le même format que les références. Les scripts sont dans les répertoires Programs. Des exemples de fichiers de données sont dans le répertoire Test. Une aide est disponible avec les options --help et --man.

Script d'évaluation pour les tâches 1, 2.1 et 2.2

Exécution du script Perl Programs/evalT1-T2.pl pour la tâche 1 :

Programs/evalT1-T2.pl -g Test/T1.txt -s Test/T1-r1.txt -r run1
Le script retourne le résultat suivant :
Test/T1.txt: 5 lines read
Test/T1-r1.txt: 5 lines read
P(487360225654374401) = 0
P(487354248959918080) = 1
P(487349133460918272) = 0
P(487387097222098944) = 1
P(487387321537269761) = 0
Micro precision (run run1): 0.4
	TP: 2
	FP: 3
Per class
	P(-): 1
		TP: 2
		FP: 0
	P(=): 0
		TP: 0
		FP: 1
	P(+): 0
		TP: 0
		FP: 2
Macro precision (run run1): 0.333333333333333

Script d'évaluation pour la tâche 3

Exécution du script Perl Programs/evalT3.pl pour la tâche 3 (avec un matching exact)  :

Programs/evalT3.pl -g Test/T3.txt -s Test/T3-2.txt -r run1 -R --exact 
Le script retourne le résultat suivant :
Matching mode: exact
------------------------------
Micro
  Precision: 0.875
  Recall: 0.777777777777778
  F-Measure1: 0.823529411764706
Macro (class=doc)
  Precision: 0.666666666666667
  Recall: 0.666666666666667
  F-Measure1: 0.666666666666667
L'évaluation pour les groupes est obtenue à l'aide de la commande suivante :
Programs/evalT3.pl -g Test/T3.txt -s Test/T3-2.txt -r run1 -G --exact 
Le script retourne le résultat suivant :
Matching mode: exact
------------------------------
Micro
  Precision: 0.9375
  Recall: 0.882352941176471
  F-Measure1: 0.909090909090909
Macro (class=doc)
  Precision: 0.928571428571429
  Recall: 0.857142857142857
  F-Measure1: 0.880952380952381