EvALL

EvALL 2.0 (Evaluate ALL 2.0), es una herramienta de evaluación para sistemas de información que permite evaluar un conjunto extenso de métricas que abarcan multitud de contextos de evaluación, entre los que se incluyen clasificación, ranking, o LeWeDi.

Persistencia

El usuario puede guardar evaluaciones, así como recuperar evaluaciones pasadas.
Replicabilidad

Todas las evaluaciones son realizadas siguiendo la misma metodología, por lo que son estrictamente comparables.
Efectividad

Todas las métricas se engloban bajo la teoría de la medida y han sido doblemente implementadas y comparadas.
Generalización

La generalización viene dada por el uso de un formato estandarizado de entrada que permita al usuario evaluar todos los contextos de evaluación.

¿Qué puedo hacer con EvALL?

Evaluación contra repositorio
Evalúa tus predicciones contra cualquiera de las tareas incluidas en el repositorio EvALL 2.0.
Evaluación contra tu propio Gold Standard
Evalúa tus predicciones contra tu propio Gold Standard en dos simples pasos: sube tus archivos y selecciona tus métricas.
Dashboard de evaluación
Visualiza tus resultados en un completo dashboard de evaluación donde puedes comparar todos tus resultados: pasados, presentes y futuros.
Métricas
Selecciona entre un amplio conjunto de métricas y contextos de evaluación.
Analiza tus resultados
Visualiza gráficamente tus resultados desde diferentes perspectivas y captura las imágenes para incluirlas en tus artículos o proyectos.
Consola de análisis
Analiza tus resultados en detalle mediante la consola de PyEvALL, donde puedes ver errores en formatos, análisis de precondiciones de las métricas, y mucho más.
Publica tus resultados
Publicar tus mejores resultados en el leaderboard de cada tarea del repositorio EvALL 2.0 para que todo el mundo pueda compararse.
Publica tus Gold Standard
¿Quieres que tu tarea aparezca en el repositorio EvALL 2.0? Mándanos la información necesaria y lo incluiremos para que todo el mundo pueda evaluarse contra él.

Contextos de evaluación

Clasificación mono-label
Accuracy System Precision Kappa Precision Recall FMeasure ICM ICM Norm
Clasificación mono-label jerárquico
ICM ICM Norm
Clasificación multi-label
Precision Recall FMeasure
Clasificación multi-label jerárquico
ICM ICM Norm
Ranking
Precision at k R Precision MRR MAP DCG nDCG
LeWiDi

Cross Entropy ICM-Soft ICM-Soft Norm

Dashboard de evaluación

El Dashboard de EvALL 2.0 ofrece una interfaz intuitiva para explorar y comparar los resultados obtenidos sobre las distintas métricas seleccionadas y ejecutadas sobre las predicciones de sistemas de información.
Mediante gráficos dinámicos y personalizables, el Dashboard permite analizar datos desde diferentes perspectivas y ajustar las visualizaciones según tus necesidades de investigación.
Además, la capacidad de hacer zoom y tomar capturas de los gráficos te permite documentar y compartir tus hallazgos de manera efectiva en artículos o proyectos de investigación.

Consola EvALL

La consola PyEvALL ofrece una experiencia completa para visualizar y abordar errores de formato detectados en tus ficheros de predicciones. Desde la detección de duplicación de identificadores de instancias hasta formatos incorrectos y tipos de datos inconsistentes. Además, PyEvALL te permite explorar los errores producidos en el análisis de las precondiciones de las métricas, lo que te ayuda a comprender y corregir de manera efectiva cualquier inconsistencia en tus sistemas.