Un nuevo instrumento basado en aprendizaje automático ha identificado más de 250.000 artículos de investigación sobre cáncer que podrían haber sido producidos por las denominadas "paper mills", según un estudio reciente. El desarrollo fue liderado por el profesor Adrian Barnett de la QUT, en colaboración con un equipo internacional, y analizó 2,6 millones de estudios publicados entre 1999 y 2024.
El estudio, divulgado en la revista The BMJ, encontró que estos artículos sospechosos compartían patrones textuales similares a trabajos ya retractados por presunta fabricación de datos. Las paper mills operan a escala industrial, vendiendo autorías o manuscritos completos que a menudo utilizan texto reciclado, frases forzadas o datos e imágenes falsificados.
El profesor Barnett explicó que estas operaciones fraudulentas dependen de plantillas estandarizadas que los modelos de lenguaje grandes pueden detectar eficazmente. El equipo entrenó un modelo BERT para reconocer las huellas dactilares textuales recurrentes en el material conocido de estas fábricas de publicaciones.
Cuando se puso a prueba con ejemplos verificados, el modelo demostró una precisión del 91% en la identificación de manuscritos sospechosos. Barnett comparó la herramienta con un "filtro de spam científico", capaz de señalar documentos que coinciden con la estructura y estilo de trabajos fraudulentos previamente confirmados.
Tres revistas científicas ya están probando la herramienta como parte de sus procesos de selección editorial inicial. Esto permitiría a los editores señalar manuscritos potencialmente fabricados antes de que entren en la costosa y lenta fase de revisión por pares.
Los autores enfatizan que estos resultados son indicadores de patrones sospechosos y no constituyen una prueba definitiva de fraude, requiriendo verificación humana especializada. La integridad de la investigación oncológica es crucial, ya que influye directamente en ensayos clínicos, desarrollo de fármacos y atención al paciente.
El equipo planea ahora expandir la aplicación de este clasificador a otros campos de investigación científica. La mejora continua del modelo dependerá de la incorporación de nuevos casos confirmados de actividad de paper mills a medida que se descubran.