viernes, 30 de septiembre de 2016

Conoce el alcance de tus resultados: el tamaño importa


¿Eres capaz de explicar el significado real (práctico) de los resultados de tu investigación?



El tamaño del efecto



El significado práctico de los resultados de una investigación se describe según el tamaño del efecto observado. Un efecto es el resultado de algo, un desenlace, una reacción o cambio. El tamaño del efecto es la magnitud del resultado. Es decir, permite dar una estimación del alcance de nuestros hallazgos. 

Muchas de nuestras decisiones diarias se basan en un análisis del tamaño del efecto. Tomamos un paraguas si percibimos una alta probabilidad de lluvia, por ejemplo.

La interpretación de los tamaños del efecto es cómo damos sentido al mundo.

En este sentido, los investigadores no son diferentes de cualquier otra persona. Lo que diferencia a un investigador es el cuidado que tiene éste para generar estimaciones precisas del tamaño del efecto. Pasamos una gran parte de nuestro tiempo buscando formas de reducir los errores de muestreo y medición, entre otras cosas, pero en última instancia, nuestro objetivo es una mejor comprensión de los efectos del mundo real.

Es esencial que interpretemos no sólo la significación estadística de los resultados (el ya archiconocido p-valor), sino también su significación práctica o real.

3 razones para informar sobre el tamaño del efecto:
  • El p-valor le puede decir la dirección de un efecto, pero sólo la estimación del tamaño del efecto le dirá lo grande que es.
  • Sin una estimación del tamaño del efecto, ninguna interpretación significativa puede tener lugar.
  • Permite comparar cuantitativamente los resultados de estudios realizados en diferentes situaciones.

Se trata de un paso esencial para interpretar los resultados de nuestro estudio y su ausencia en los artículos científicos se ha identificado como uno de los 7 fallos más comunes en investigación (según la APA).


Cuestiones como el tamaño muestral necesario para realizar un estudio, la intepretación de los resultados, la significación estadística y práctica de nuestros resultados, dependen del tamaño del efecto. La significación estadística depende del tamaño del efecto y del tamaño de la muestra que tenemos para estimarlo. 

Evaluar e informar sobre el alcance de los resultados de una investigación es esencial tanto para el progreso científico como para sus implicaciones prácticas.



¿Cómo se calcula el tamaño del efecto?



Podemos agrupar los tipos de tamaño de efecto en 2 familias de efectos:
  1. diferencias entre grupos (llamada "d")
  2. medidas de asociación (llamada "r").


Familia "d": diferencias entre grupos.


Podemos querer comparar variables dicotómicas o variables continuas entre grupos.

  • I) Cuando comparamos grupos según cierta variable numérica (e.g. edad, altura, coeficiente intelectual, recuento celular, etc.) la manera más sencilla es informar de la diferencia en las medias de cada grupo, pero debemos considerar cómo es la dispersión de los datos (la desviación típica) para evaluar qué tan grande es la diferencia (es una forma de estandarizarlo).

EJEMPLO: en un estudio sobre Alzheimer encontramos que el IQ medio para el grupo tratamiento es 13 puntos superior a la media del grupo control. Debemos preguntarnos sobre la dispersión de los valores IQ ya que si hay gran variabilidad en los datos entonces la diferencia de 13 puntos no es tan inusual, pero si la variabilidad es pequeña los 13 puntos reflejarán una diferencia sustancial entre los grupos.

Entonces, la manera más sencilla es calcular (M1-M2)/SD, la SD corresponde a la población de estudio.

Si desconocemos SD podemos utilizar valores aproximados. Existen 3 soluciones posibles:
    • 1) la "d" de Cohen: d=(M1-M2)/SDpooled
    • 2) la "delta" de Glass: delta=(M1-M2)/SDcontrol
    • 3) la "g" de Hedges: g=(M1-M2)/SD*pooled

Para elegir qué opción utilizar debemos evaluar la SD de cada grupo:
    • Si las SD de cada grupo son bastante similares, utilizar la "d" de Cohen. 
    • Si las SD difieren, no podemos asumir homogeneidad de varianza y no tiene sentido calcular una SD para el pool, por lo cual es mejor utilizar la SD del grupo control (que refleja la SD poblacional) como referencia y calcular la "delta" de Glass.
    • Si los grupos son de distinto tamaño habrá que calcular la SD poblacional ponderando por la cantidad de información que tenemos de cada grupo, en este caso utilizamos la "g" de Hedges.

Para la "d" de Cohen, que es el cálculo más habitual, un valor de 0.5 significa que las diferencias entre los dos grupos es equivalente a 1/2 de la SD, mientras que un valor de 1 significa que la diferencia es igual a la SD. Cuanto mayor sea el valor mayor es el efecto. Al estar estandarizada no tiene unidades, por lo cual podemos comparar los valores con otros estudios.


  • II) Cuando comparamos grupos según cierta variable dicotómica (e.g. tratamiento vs. control, éxito vs. fracaso, sí vs no, etc), las comparaciones se basan en la probablidad de que los miembros del grupo estén clasificados en una de las dos categorías.

EJEMPLO: tenemos un experimento médico donde tenemos la probabilidad de recuperación "p" en el grupo tratamiento y "q" en el control. Tenemos 3 formas de comparar estos grupos:
    • 1) calcular la diferencia de riesgo (p-q)
    • 2) calcular la proporción de riesgo o riesgo relativo (p/q)
    • 3) calcular la proporción de ventaja "odds ratio" (p/(1-p))/(q/(1-q))

Para elegir qué opción utilizar debemos evaluar:
    • La 1) es la más simple pero es la menos utilizada debido a que puede dar lugar a confundir la interpretación.
    • La 2) y la 3) son similares pero dan valores distintos, ambos comparan la verosimilitud de que un resultado ocurra en un grupo en comparación con el otro grupo, pero el definen esta probabilidad de manera distinta.
    • El 2) define la verosimilitud en términos de probabilidad mientras que 3) lo hace en términos de ventajas.

Familia "r": medir la fuerza de una relación.


Para evaluar el tamaño del efecto de una medida de asociación entre 2 o más variables utilizaremos el coeficiente de correlación "r".

  • El coeficiente de correlación "r" lineal de Pearson cuantifica la fuerza y dirección de la relación entre dos variables X e Y. Toma valores entre -1 (relación negativa) y 1 (relación positiva), donde el 0 indica que no existe relación lineal. Se trata de una métrica estandarizada por lo que nos permite compararla con otros estudios.
  • Existen otras medidas de tamaño del efecto para estos casos, por ejemplo: la correlación de Spearman (para variables numéricas, relaciones monotónicas o datos no normales; [-1,1]), la V de Cramer (para variables categóricas, tablas de contingencia; [0,1]), etc.
  • Cuando tenemos un análisis de regresión e identificamos la variable dependiente y la variable independiente podemos calcular el coeficiente de determinación "R2" como medida del tamaño del efecto. Este valor va de 0 a 100 y se expresa como % por lo cual también es una medida estandarizada que nos permite comparar los resultados con otros estudios.
  • Cuando tenemos un ANOVA e identificamos VD y VI podemos utilizar el valor de "eta2" que refleja la proporción de variación en la VD que viene explicada por la VI. También es una medida estandarizada.
  • Finalmente, en estos dos últimos casos existe una alternativa que es utilizar la "f" de Cohen que mide la dispersión de las medias entre los grupos de estudio en el ANOVA o el efecto de cada VI en el análisis de regresión.



¿Qué tan grande es grande?



Tenemos que contextualizar el tamaño del efecto según alguna referencia pero estos valores no deben ser arbitrarios sino que deben venir de la propia escala de medida con la que estemos trabajando.

Existen 3 métodos para la correcta interpretación del tamaño del efecto, llamadas las tres Cs:
  1. el contexto,
  2. la contribución
  3. el criterio de Cohen


1. El contexto.

En el contexto correcto un efecto pequeño puede ser significativo:
+ si desencadena grandes consecuencias o respuestas (e.g. devaluar la moneda puede desencadenar una crisis financiera, o cuando el aspecto físico influye en los votantes),
+ si cambia la idea de que grandes resultados pueden ocurrir (e.g. un caso de enfermedad por sika puede interpretarse como una señal de que está por ocurri una brote/epidemia)
+ si pequeños efectos pueden acumularse y producir grandes efectos (e.g. inflar correctamente las llantas de un coche mejora el consumo de gasolina en un 3%, pero si todos realizamos esta operación el ahorro energético del país será enorme).
+ si conduce a un cambio de paradigma (a nuevas formas de entender el mundo) o a un quiebre tecnológico (e.g. el descubrimiento de la penicilina por Fleming).

Esto ocurre, por ejemplo, cuando estamos probando un medicamento novedoso con implicaciones sociales importantes como en la cura del cáncer.

2. La contribución.

Una forma de interpretar los resultados de nuestra investigación es evaluar su contribución al conocimiento.
En este caso nos preguntamos si el efecto observado difiere de lo que otros investigadores han encontrado y si es así, en cuánto. Comparamos la bibliografía existente con nuestros resultados y damos explicaciones alternativas para nuestros hallazgos.
La importancia de un efecto depende de cuando ocurre, dónde ocurre y para quienes ocurre.

3. El criterio de Cohen.

Este criterio establece 3 puntos de corte para interpretar el tamaño del efecto según los valores del estadístico "d" de Cohen. Sin embargo, estos cortes han sido elaborados para el mundo de la psicología y no están libres de controversia.




¿Cómo informar del tamaño del efecto?



Cuestiones como el tamaño muestral necesario para realizar un estudio, la intepretación de los resultados, la significación estadística y práctica de nuestros resultados, dependen del tamaño del efecto. Por ello siempre debemos evaluar e informar del tamaño y dirección de los efectos estimados aún si los resultados no son significativos y si su efecto es pequeño.

Puedes informar del tamaño muestral en formato estándar (valores de correlación "r" o la "d" de Cohen, indicando claramente el tipo de medición que utiliza) o, si la variable que mides es importante en términos prácticos (e.g. número de vidas salvadas por el tratamiento), también menciona su efecto en términos no estandarizados. Esto permitirá que tus resultados sean "meta-analytically friendly", es decir, que quién lea tu investigación sea capaz de entender el alcance de tus resultados.

En definitiva, es importante realizar investigaciones rigurosas con estimaciones precisas del tamaño del efecto para transmitir adecuadamente nuestros resultados al resto de la población. Debemos ser claros en el significado práctico de nuestras investigaciones.



En este post te he resumido las principales recomendaciones que el profesor Paul D. Ellis nos cuenta en su libro "The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results." sobre cómo diseñar y llevar a cabo una buena investigación, para evaluar e informar sobre nuestros resultados. Puedes ver su impresionante currículum aquí ya que es considerado uno de los estudiosos más prolíficos en el mundo de los negocios internacionales.

Y tú, ¿informas del alcance de tus resultados? ¿cómo?