¿Las métricas alternativas cambiarán la forma de evaluar los resultados de la investigación?
Las altmetrics o métricas alternativas han concitado mucha atención a causa de su visibilidad en las redes sociales. Eso es interesante, pero es un sucedáneo más bien superficial para entender realmente si la investigación tiene un impacto en problemas sociales importantes, como, por ejemplo, cambiar la práctica del sistema judicial penal. Lo que sucede en las redes sociales nos proporciona algunas informaciones útiles, pero creo que sería peligroso vincular la financiación a estos indicadores.
En general, estamos en una etapa muy temprana del desarrollo de indicadores eficaces para medir qué efectos causa la investigación en la sociedad. Tenemos que darnos tiempo para elaborar nuevas métricas de impacto que sean más útiles.
¿Qué es the Metric Tide?
The Metric Tide [La marea métrica] era el informe final de un estudio independiente sobre el papel de las métricas y los indicadores cuantitativos en la gestión y evaluación de la investigación realizada en el Reino Unido. Era un encargo del Gobierno británico; presidí una comisión de 12 expertos –científicos, científicos sociales, especialistas en bibliometría, responsables de financiación en investigación– que trabajó un año y medio aproximadamente. El informe se publicó en el verano de 2015. En aquel entonces había un animado debate en la comunidad investigadora global sobre el empleo de las métricas. Dos iniciativas que habían impulsado dicho debate fueron el manifiesto de Leiden y la Declaración de San Francisco sobre la Evaluación de la Investigación (DORA).
¿Por qué encargó el Gobierno británico este estudio?
La idea surgió a partir del Marco de Excelencia en Investigación (REF). Cada cinco o seis años, el REF evalúa el sistema de investigación nacional del Reino Unido basándose en grupos temáticos de evaluación de expertos y asigna aproximadamente un tercio del presupuesto de investigación entre universidades y disciplinas. En 2014 el Gobierno quería examinar si se podía mejorar la eficiencia de esta evaluación usando únicamente indicadores numéricos, de modo que se iniciaron los trabajos del Metric Tide.
Comprobamos que, en general, se otorgaba mayor importancia a los indicadores cuantitativos y a los distintos tipos de métricas en la gestión de la investigación, la asignación de fondos y la evaluación de individuos y grupos de investigación en las universidades. Queríamos fijarnos en este fenómeno de una forma más amplia y global y ver qué significa esta creciente «marea métrica» para el entorno y la práctica de la investigación, así como para la gestión de nuestro sistema científico y de investigación. El informe también despertó interés fuera del Reino Unido.
Una de las conclusiones del informe es que no solo hacen falta más indicadores métricos, sino que deben ser responsables. ¿Qué significa esto?
Propusimos este término, «métricas responsables», con la idea de recoger tanto las posibilidades como las dificultades del uso de estos indicadores. Todos somos conscientes de los múltiples casos en los que ciertos indicadores se utilizan inapropiadamente en los procesos de gestión y evaluación de la investigación. El ejemplo más obvio y notorio es el empleo incorrecto de los factores de impacto de las revistas. A partir de una gran cantidad de trabajos empíricos sabemos que la correlación entre la calidad de un artículo en particular y el factor de impacto de la revista en la que se publicó no es buena. Y aun así vemos a cada momento que los factores de impacto se utilizan inadecuadamente.
Las métricas responsables se emplean con firmeza y prudencia a la vez, de modo que pueden ser una parte valiosa de la gestión del sistema de investigación. Pero hay que estar muy alerta y atender al contexto en el que se utilizan.
¿Cómo son las métricas responsables?
Los datos tienen que ser todo lo sólidos que sea posible. Queremos asegurarnos de que haya una cobertura suficiente de las distintas disciplinas y de que los diferentes resultados de las investigaciones tengan su explicación. Y necesitamos humildad al utilizar las métricas: deben apoyar la revisión científica, pero no sustituirla. La investigación académica es un esfuerzo de naturaleza compleja; puede conseguirse una evaluación más matizada de la investigación si se combinan estos indicadores con la revisión científica.
Además, hay otros factores como la transparencia, es decir, que los que son evaluados comprendan la naturaleza de las mediciones y los indicadores que se emplean para evaluar su trabajo. Asimismo se necesita diversidad: un conjunto variado de indicadores y resultados de investigación –desde artículos a exposiciones, pasando por bases de datos–, pero también de distintas trayectorias profesionales.
¿Cuáles podrían ser buenos ejemplos de métricas no responsables en comparación con las responsables?
Un ejemplo de mala práctica podría ser la puntuación de ResearchGate. Numerosos académicos utilizan el portal ResearchGate como una manera práctica de compartir su trabajo con otros colegas. Esta web también te da una puntuación, pero no está nada claro a partir de qué algoritmo se calcula esta puntuación. Por lo tanto, no es una métrica responsable. Otro ejemplo obvio serían muchas de las clasificaciones internacionales de universidades y centros de investigación, que no son muy fiables tanto desde un punto de vista metodológico como estadístico.
En cambio, un ejemplo de una buena práctica al contratar o evaluar a personas (por ejemplo, para una promoción) sería pedir a los investigadores que destacaran por escrito las dos o tres contribuciones a la investigación que consideran más importantes hasta ahora en su trayectoria académica y por qué. Entonces el comité de evaluación puede leer este resumen y hacerse una idea más completa. No importa en qué revistas se publicaron los artículos; con este método se añade una dimensión más cualitativa y evaluativa al proceso.
¿Y qué opina de la revisión por pares? Hay quien está preocupado porque considera que es muy vulnerable a sesgos intrínsecos y sistémicos.
Idealmente, se necesita una mezcla de indicadores cuantitativos y la opinión cualitativa de los expertos. La revisión por pares no es perfecta; todos somos conscientes de sus puntos débiles. Pero al mismo tiempo es un poco como la democracia: es el sistema menos malo que hemos desarrollado para gobernarnos en la comunidad académica.
La revisión por pares, cuando se hace bien, es formativa y aditiva, es decir, no solo intentamos evaluar sino también mejorar la calidad del trabajo que realizamos unos y otros, mientras que las métricas suelen ser meramente aditivas.
No obstante, es cierto que dichos indicadores también pueden actuar como un contrapeso positivo y objetivo en lugares donde se dan casos de nepotismo, clientelismo o sexismo. De hecho, este sería un empleo responsable de las métricas.
¿Observa cambios rápidos a raíz del Metric Tide y otras iniciativas relacionadas?
Definitivamente, ha habido un debate muy visible e interesante sobre esta cuestión en los últimos cinco o seis años, de modo que ahora somos más conscientes de ella. Y esto es positivo. Pero seríamos ingenuos si pensáramos que se ha producido un giro copernicano en la materia. Estamos en un período de transición, de controversia y debate. Supongo que llevará algún tiempo antes de que los distintos actores se pongan de acuerdo y pasen a la acción. Y en ningún caso podemos tener la certidumbre de que todo se resolverá de una manera óptima.