La IA pone en jaque a los servidores científicos: crece la avalancha de papers falsos
La proliferación de papers falsos o de baja calidad, generados o asistidos por inteligencia artificial (IA), se ha convertido en una preocupación creciente para la investigación académica. El problema, ampliamente documentado en diversas plataformas de divulgación científica, ahora apunta a los servidores de preimpresión, de acuerdo con un análisis publicado en Nature.
Estos servidores son plataformas en línea, en su mayoría gestionadas por organizaciones sin fines de lucro, que permiten a los investigadores difundir versiones preliminares de sus trabajos (preprints) antes de someterlos a revisión por pares y publicarlos en revistas académicas reconocidas.
Los servidores preprint ofrecen múltiples ventajas tanto para los autores como para la comunidad científica, al posibilitar la difusión rápida y abierta de miles de investigaciones, así como la divulgación de nuevas técnicas o conocimientos que podrían conducir a descubrimientos relevantes. Además, fomentan la colaboración y el intercambio de ideas en beneficio de la investigación académica.
No obstante, su papel en la difusión de contenido científico se ha visto cuestionado en los últimos años debido a una creciente avalancha de envíos sospechosos. Entre ellos figuran los provenientes de “fábricas de papers”, dedicadas a producir trabajos científicos falsificados para vender autorías, y artículos que muestran indicios de haber sido generados total o parcialmente mediante IA.
Este fenómeno plantea dudas sobre la viabilidad y eficiencia futura de los servidores preprint, ya que identificar contenidos fraudulentos requiere recursos considerables que pueden resultar incosteables para organizaciones sin fines de lucro. Además, la implementación de verificaciones más estrictas ralentizaría la publicación, afectando la principal ventaja de estas plataformas: la rapidez en la difusión.
Los administradores de estos servicios reconocen el problema, aunque aseguran que los casos detectados representan una proporción mínima del total. Por ejemplo, arXiv estima que cerca del 2% de los documentos que recibe son rechazados “por ser productos de IA, fábricas de papers o ambos”, según Nature. De forma similar, bioRxiv y medRxiv calculan que rechazan poco más de 10 manuscritos diarios por estas razones, una fracción reducida frente a los 7,000 envíos que reciben al mes.
Aunque las cifras parecen bajas, especialistas y organizaciones han advertido sobre un incremento de textos creados con IA desde el lanzamiento de ChatGPT. El 25 de julio, el Centro para la Ciencia Abierta —organización sin fines de lucro que administra PsyArXiv— informó haber observado un aumento notable de artículos que parecen generados en su totalidad o con amplia asistencia de herramientas de IA.
“Con la aparición de la IA generativa, se ha vuelto muy fácil crear material que parece un artículo de investigación real, pero que no lo es. Esto representa un problema para las revistas y, especialmente, para servicios gratuitos como OSF, que reducen las barreras para compartir investigaciones abiertamente. Una creciente avalancha de contenido generado por IA podría saturar estos servicios y dificultar a los lectores diferenciar entre material legítimo e ilegítimo. Si bien muchos investigadores utilizan IA para mejorar la claridad o resumir datos, nos preocupan especialmente los envíos que falsifican métodos, resultados o autoría por completo”, advirtió la organización.
Preprints creados con IA invaden la web
El aumento ha sido documentado en un estudio publicado en Nature Human Behaviour, que señala que, en septiembre de 2024 —casi dos años después del lanzamiento de ChatGPT—, los modelos de lenguaje generaron el 22% de los resúmenes de informática en arXiv y alrededor del 10% de los resúmenes de biología en bioRxiv.
James Zou, científico informático de la Universidad de Stanford y coautor del estudio, matiza que parte de estos contenidos pueden ser usos legítimos de IA en la labor científica. Por ejemplo, muchos autores que envían preprints de informática a arXiv no son hablantes nativos de inglés y suelen emplear herramientas automáticas para mejorar su redacción. Thomas Dietterich, presidente de la sección de informática de arXiv, considera plausible la cifra del 22%, pero aclara que no necesariamente implica fraude.
Share this content:
Publicar comentario