DIANN-2023-ES

El corpus contiene resúmenes de artículos científicos de revistas de Elsevier  del dominio biomédico. En concreto, los textos se recopilaron entre 2017 y 2018. El corpus se proporciona en dos particiones, una de entrenamiento y otra de evaluación. La partición de entrenamiento contiene 500 textos. Estos textos se corresponden con las particiones de entrenamiento y evaluación hechas públicas para la competición DIANN en Iberlef 2018. Además se proporciona una partición privada de test que contiene 100 textos. Puesto que esta es la partición que se usa para evaluar sistemas en el Leaderboard ODESIA, esta partición no se hará pública. En el corpus se han anotado todas las discapacidades mencionadas en los textos.

Idioma(s)
Español
Inglés
Año
2023
Dominio
Salud
Tipo Textos
Resúmenes de artículos científicos
Formato
json

Número de unidades
600
Tipo de unidades
Documentos
Tokens
120051
Documentos
600
Tamaño set entrenamiento
500
Tamaño set evaluación
100