Investigadores de los cinco continentes reportaron haber podido replicar solo cerca de 40% de los resultados de 100 estudios publicados con anterioridad en las áreas de psicología cognitiva y social, de acuerdo con lo descrito en un informe publicado la última edición de Science.

La gran colaboración, denominada “Proyecto Reproducibilidad: Psicología”, podría servir como un modelo para examinar la reproducibilidad de investigaciones realizadas en otros campos. Un esfuerzo similar para escudriñar estudios sobre biología del cáncer ya está en práctica.

En el foco central del método científico está que los experimentos “deben ser reproducibles”, dice Gilbert Chin, editor senior de Science. “Esto significa que una persona diferente al investigador original debería ser capaz de obtener los mismos resultados siguiendo el mismo protocolo experimental”. Mientras más se pueda replicar un estudio sin inconvenientes, más confiables serán sus resultados. Pero “ha habido una preocupación creciente de que la reproducibilidad podría ser menor a la deseada o esperada”, dice el autor principal del proyecto y profesor de psicología de la Universidad de Virginia, Brian Nosek.

Para abordar el problema, científicos de muchas disciplinas establecieron el Centro para la Ciencia Abierta (COS, por sus siglas en inglés), en Charlottesville, Virginia. El Proyecto Reproducibilidad: Psicología, su primera iniciativa de investigación, comenzó a reclutar voluntarios en 2011. Pidieron a grupos de investigadores, 270 colaboradores en total, que escogieran un trabajo de entre una gama de estudios —todos ellos reflejaban ciencias básicas y no requerían de muestras ni equipos especializados— que hubieran aparecido en 2008 en una de tres respetadas revistas de psicología: Psychological Science; Journal of Personality and Social Psychology; y Journal of Experimental Psychology: Learning, Memory and Cognition.

En general, el nivel de evidencia fue más débil en la réplica. Sin embargo, mientras más fuerte era el nivel de evidencia al inicio, incluyendo un mayor tamaño del efecto, hubo más probabilidad de reproducir los resultados.

Durante una teleconferencia ofrecida para discutir los resultados del proyecto, Chin dijo que aunque estos habían sido “un tanto decepcionantes”, no hablaban necesariamente de la validez de las teorías analizadas o incluso de las conclusiones generadas. El proceso científico incluye “un continuo cuestionamiento y evaluación de teorías y experimentos”. Incluso experimentos no reproducibles contribuyen a nuestro entendimiento de la ciencia porque ayudan a descartar explicaciones alternativas. En su lugar, el estudio sugiere que “deberíamos confiar menos en muchos de los resultados experimentales que se proveyeron como evidencia empírica en apoyo a esas teorías”.

En la misma teleconferencia, Alan Kraut, director ejecutivo de la Asociación para la Ciencia Psicológica y miembro de la junta directiva de COS, apuntó algo similar: inevitables variaciones en los participantes de los estudios, el momento en que fueron realizados, la ubicación, las habilidades del equipo de investigadores y muchos otros factores influenciarán siempre los resultados. “El único hallazgo que se replicará el 100% de las veces”, dijo Kraut, “es uno que posiblemente sea trivial y aburrido”.

Los equipos recibieron los protocolos establecidos y planes de análisis y consultaron con los autores originales para igualar el diseño de sus estudios tanto como fuera posible. Luego de que los experimentos concluyeron, los coordinadores de proyecto añadieron la data y analizaron las revisiones de forma independiente.

Los autores de los estudios estimaron el éxito de replicación utilizando cinco criterios: significación estadística y valores P —una evaluación de la probabilidad de un evento dentro de una posibilidad predeterminada (generalmente 95%, o un valor P de 0,05); el tamaño del efecto, el cual indica la fuerza de un fenómeno evaluado; el juicio subjetivo del equipo que hace la replicación; y un meta análisis de los tamaños del efecto de todos los 100 experimentos. También consideraron varias otras características, entre ellas el tamaño de la muestra, el llamado “efecto sorpresa” y la experticia del equipo original, situaciones que potencialmente podrían haber afectado los resultados.

En el análisis final encontraron que mientas el 97% de los estudios originales reportaron resultados estadísticamente significantes (obteniendo un valor P de 0,05 o menos), solo el 36% de las réplicas logró lo mismo. Sin embargo, una debilidad de usar valores P es que trata a 0,05 como una “línea de fuego” entre resultados significativos y no significativos. Para abordar este problema, los investigadores también examinaron el tamaño del efecto. Los experimentos replicados se desempeñaron ligeramente mejor cuando se les midió de esta manera. En total, 47% de las réplicas mostraron un efecto que igualó a los resultados originales con un margen de confianza de 95%, aunque generalmente la fuerza del efecto había decrecido. Subjetivamente, el 39% de los equipos de investigación consideraron su réplica como un éxito.

Como dato interesante, los autores encontraron que algunos de los estudios fueron más probables de ser replicados que otros. Solo cerca de 25% de los 57 estudios en psicología social incluidos en el proyecto fueron replicados de manera exitosa, mientras que 50% de los estudios en psicología cognitiva tuvo el mismo desenlace. Adicionalmente, mientras más sencillo era el diseño del experimento original, más fiables fueron sus resultados. Los investigadores también encontraron que efectos “sorpresivos” eran menos reproducibles.

En este estudio, los autores excluyeron investigaciones que requerían de neuroimágenes avanzadas, excluyendo también tal vez los tipos de experimentos de precisión que pudieron haber sido replicados más fácilmente. Pero los autores notan que el problema de la reproducibilidad persiste a lo largo y ancho de todos los campos de la ciencia, tal vez en parte debido a un sesgo hacia la publicación.

“Publicación es la moneda de la ciencia”, dice Nosek. “Para triunfar, mis colaboradores y yo necesitamos publicar regularmente y en las revistas más prestigiosas posibles”. Pero las revistas académicas priorizan rutinariamente “resultados novedosos, positivos y pulcros”, añade. Estudios que fallan en encontrar un resultado significativo, raramente logran ver la luz. Adicionalmente, réplicas de experimentos publicados previamente, los cuales son de vital importancia para que la ciencia continúe su rumbo hacia adelante, tienen muchas menos probabilidades de sobrevivir la revisión de sus pares.

Para cambiar eso, Marcia McNutt, editora en jefe de Science, señala que la publicación que dirige y otras han emitido recientemente lineamientos que promueven mayor transparencia y amplitud en sus procesos de revisión y selección. Ella añade que los “autores y editores de revistas deben ser cautelosos con la publicación de resultados significativamente marginales, debido a que esos son los menos probables de ser reproducidos”. Si se ignora este hecho, concluye Nosek, “la literatura publicada podría convertirse en algo más hermoso que la realidad”.