AuTexTification: Automated Text Identification

Esta competición se propone estudiar: (i) la detección automática de texto generado por máquina, (ii) las capacidades de generalización de los detectores de MGT a nuevos dominios, y (iii) la viabilidad de la atribución de MGT a uno de los muchos modelos de generación. Además, se proporciona un conjunto de datos anotado, multidominio, de textos de autoría humana y MGT generados por varios LLM, que constituye un recurso para el análisis lingüístico exploratorio de textos de autoría humana y generados por máquinas. AuTexTification consta de dos subtareas:

  • Subtarea 1, consistente en determinar si un texto fue escrito por un humano o generado por un modelo de lenguaje masivo.
  • Subtarea 2, consistente en atribuir un texto generado automáticamente a uno de seis modelos de generación de texto diferentes.

El conjunto de datos AuTexTification contiene más de 160.000 textos en dos idiomas (inglés y español) y cinco dominios (tweets, reseñas, noticias, legislación y artículos instructivos)