sistemas de pregunta-respuesta

SQAC

El Spanish Question Answering Corpus (SQAC) es un conjunto de datos de preguntas-respuesta  extractivas. No contiene preguntas que no tengan respuesta. Se ha creado a partir de textos extraídos de la Wikipedia en español, artículos enciclopédicos, artículos de noticias de Wikinews y la sección española del corpus AnCora, que es una mezcla de diferentes fuentes de noticias y literatura. Se creó encargando la creación de 18.817 preguntas con la anotación de sus tramos de respuesta a partir de 6.247 contextos textuales.

SQuAD 1.1

Un conjunto de datos de comprensión lectora compuesto por más de 100.000 preguntas formuladas por crowdworkers sobre un conjunto de artículos de Wikipedia, donde la respuesta a cada pregunta es un segmento de texto del pasaje de lectura correspondiente. SQuAD contiene 107.785 pares pregunta-respuesta sobre 536 artículos.