
McMurray, Calli. “Exclusive: Springer Nature retracts, removes nearly 40 publications that trained neural networks on ‘bonkers’ dataset.” The Transmitter, 8 diciembre 2025. https://www.thetransmitter.org/retraction/exclusive-springer-nature-retracts-removes-nearly-40-publications-that-trained-neural-networks-on-bonkers-dataset/
Springer Nature ha comenzado a retractar decenas de trabajos — unos 38 en total — que se basaban en un conjunto de datos extremadamente polémico, conocido coloquialmente como “dataset bonkers”. Este conjunto incluía más de 2.900 fotografías de rostros de niños, supuestamente divididas en quienes tenían diagnóstico de Autismo y quienes no. Lo que generó alarma es que muchas de esas imágenes fueron extraídas de sitios web dedicados al autismo, sin evidencia de consentimiento explícito de las familias ni confirmación clínica de los diagnósticos.
La preocupación se intensificó cuando especialistas revisaron el origen y la calidad del dataset. Una de ellas, la neuropsicóloga infantil Dorothy Bishop, declaró que, tras examinar los métodos de recolección, consideró el proyecto “absolutamente bonkers”: la variabilidad en ángulos, iluminación, expresiones y condiciones de las fotos hace imposible garantizar que las imágenes representen realmente a niños con y sin autismo, lo que invalida cualquier intento de diagnóstico facial. Además, desde el punto de vista ético, hay dudas serias sobre si los menores y sus familias otorgaron consentimiento informado para que sus rostros fueran utilizados con fines de investigación.
Ante estos problemas éticos y metodológicos, Springer Nature decidió actuar: desde el 16 de noviembre comenzaron las primeras retracciones y han anunciado la retirada de decenas más. Los artículos afectados, que previamente afirmaban entrenar redes neuronales para distinguir entre niños autistas y no autistas, dejan de considerarse válidos. La casa editorial justifica su decisión señalando que “este serio problema metodológico socava los resultados y conclusiones de las publicaciones”.
El caso ha generado además un efecto dominó: se identificaron al menos 90 publicaciones que citaban alguna versión del dataset, muchas de ellas en revistas de prestigio e incluso conferencias organizadas por entidades como IEEE. Springer Nature ha comenzado a contactar a otros editores para alertarles del problema, en un intento por evitar que este dataset contaminado siga siendo usado en nuevos trabajos













