Tamaño muestral y potencia estadística

¿Puedo confiar en mis resultados estadísticos?.

Cuando mis resultados no son significativos, ¿realmente no existe un efecto o es que el estudio no fue capaz de detectarlo?

O, por el contrario, cuando tengo resultados significativos ¿son realmente tan positivos o es que el experimento sobreestima los efectos del tratamiento?

Y finalmente, ¿cómo necesitamos plantear nuestro estudio para obtener más chance de detectar efectos significativos?.

Seguro que en algún momento te has tropezado con estas preguntas. ¡Quién no! Todas ellas tienen relación con la potencia estadística, que hoy intentaré explicarte en este post.

¿Qué es la potencia estadística?

Describe la probabilidad de que una prueba identifique correctamente un efecto genuino, real. Dicho de una manera más sencilla, es la capacidad de distinguir la señal del ruido. La señal que buscamos es el impacto de un tratamiento sobre algún resultado que nos interesa.
Imagina que se quiere estudiar la efectividad de un nuevo fármaco para la gripe. Buscamos probar su efectividad (señal). El ruido que nos preocupa proviene de la complejidad de los datos (qué tan variables son). Por ejemplo, habrá ruido en los resultados si la eficacia del fármaco depende fuertemente de la edad del individuo o de su sexo.

¿Para qué necesitamos conocer la potencia?

¿Realmente no hay efecto o es que el estudio no fue capaz de detectarlo? ¿los resultados son realmente tan positivos o es que el experimento sobreestima los efectos del tratamiento? si tu análisis tiene una baja potencia estadística los resultados suelen ser difíciles de interpretar.

Debemos plantear nuestros experimentos de tal manera de obtener un gran poder de contraste, y así estar seguros de que seremos capaces de evidenciar el efecto estudiado.

¿Cuál sería un valor aceptable de potencia?

Generalmente un valor de potencia de 0.80 es aceptable y se puede usar como punto de referencia. Los investigadores suelen diseñar sus experimentos de tal manera de que sus resultados sean significativos el 80% de las veces.

¿Cómo mejorar la potencia?

Los ruidos de tratamiento (problemas experimentales o de instrumento) y de fondo (respuestas con alta variabilidad) no se pueden controlar, pero sí podemos diseñar adecuadamente nuestro experimento de tal manera que obtengamos una potencia alta.

La potencia de una prueba estadística está relacionada con:

El tamaño de la muestra "n": el número de casos o sujetos que participan del estudio.
El nivel de significación "alfa": la probabilidad de rechazar la hipótesis nula cuando ésta es verdadera (error tipo I o falso positivo). Se suele asumir un 5% o, lo que es lo mismo, un nivel de confianza del 95% (1-alfa).
El tamaño del efecto "d" o "r": es una medida del cambio en una respuesta. Simplificando un poco podemos calcular medidas que reflejen las diferencias de medias entre grupos (la diferencia de medias dividido la desviación estándar) o medidas que indiquen la relación entre variables (coeficiente de correlación), según nuestro objetivo.

Una baja potencia podría indicar un tamaño de muestra pequeño, un alfa menor o un tamaño del efecto pequeño, y lo contrario para una potencia alta.

Las dos caras de una misma moneda

Podemos afrontar el problema de la potencia estadística de dos maneras alternativas:

Planteamiento a priori. Asumimos un nivel de significación (e.g. el 5%), un valor para la potencia deseada (e.g. 80%) y conocemos de estudios previos estimaciones del tamaño del efecto que se desea detectar. Por tanto, el objetivo es determinar cuántos sujetos necesitamos considerar en la investigación para cumplir con estos criterios.
Planteamiento a posteriori. Asumimos un nivel de significación (e.g. el 5%), tenemos una muestra de un tamaño determinado (lo que hemos podido realizar) y calculamos el tamaño del efecto observado en nuestro estudio. Deseamos conocer la potencia que ha tenido nuestro análisis para detectar ese tamaño del efecto en la investigación que hemos realizado.

UN EJEMPLO: CÁLCULOS A PRIORI Y A POSTERIORI

El siguiente ejemplo es una adaptación del libro "R in Action" de Robert Kabacoff (2011).

Imagine que medimos el tiempo de reacción de las personas ante unos cambios que se producen en un simulador. Tenemos dos grupos de sujetos, uno en los cuales los sujetos están a la vez hablando por teléfono y otros que no.

Queremos comparar el tiempo medio de reaccion de los participantes en ambos grupos.
Conocemos de la bibliografía que el tiempo de reacción tiene una desviación estándar (SD) de 1.25 segundos y que una diferencia en 1 segundo en el tiempo de reacción se considera una diferencia importante (el tamaño del efecto sería d=1/1.25=0.8 -la diferencia de medias dividido la SD-).

Para una potencia del 90% y un nivel de confianza del 95%, ¿cuántos participantes necesitamos en nuestro estudio?

Si realizamos los cálculos, por ejemplo, con el paquete "pwr" de R, obtenemos:

library(pwr)
pwr.t.test(d=.8, sig.level=.05, power=.9, type="two.sample",alternative="two.sided")

34 sujetos en cada grupo (en total 68 sujetos) para detectar un tamaño de efecto de 0.8, con una potencia del 90% y un nivel de confianza del 95%. Este sería entonces un planteamiento a priori.

Supongamos ahora que consideramos que detectar un efecto de 0.5 en la diferencia entre las medias poblacionales es suficiente, que solo podemos incluir 40 participantes en el estudio y que utilizaremos un nivel de confianza del 99%. ¿cuál es la probabilidad de detectar diferencias entre las medias poblacionales?

Asumiendo igual número de participantes en cada condición:

pwr.t.test(n=20, d=.5, sig.level=.01, type="two.sample",alternative="two.sided")

Tenemos menos de un 14% de probabilidad de encontrar diferencias de 0.625 segundos o menos (d=0.5=0.625/1.25) con 20 participantes en cada grupo, y un nivel de significación del 0.01. Es decir, tenemos 86% de probabilidad de no detectar el efecto que estamos buscando.

Esto nos hace replantearnos el tiempo y esfuerzo de nuestro estudio tal y como está planteado. Este sería un planteo a posteriori.

SITUACIONES NUEVAS: ¿cómo elegir el tamaño de efecto apropiado?

Determinar el tamaño del efecto es el paso más difícil en el análisis de la potencia y tamaño muestral.

Lo ideal es utilizar la experiencia en el tema investigado.

Sin embargo, en algunas situaciones la investigación es completamente nueva y no tenemos datos de investigaciones previas.

En estos casos Cohen (1988) propone ciertas reglas para esablecer lo que llamaremos efectos de tamaños pequeño, medio y largo para las pruebas estadísticas.

Sin embargo hay que tener cuidado ya que es un rango creado para investigaciones sociales y puede que no sean aplicables a vuestro campo de investigación.

Una alternativa es variar los parámetros y observar el impacto de estos campos en el tamaño muestral y el poder estadístico.

OTRO EJEMPLO: SITUACIONES NUEVAS

Queremos comparar 5 grupos, con 25 sujetos por grupo, para un nivel de significación del 5%.

Calculamos la potencia de la prueba para distintos valores de tamaño de efecto (f):

pwr.anova.test(k=5,n=25,f=0.10,sig.level=.05) #power = 0.1180955
pwr.anova.test(k=5,n=25,f=0.25,sig.level=.05) #power = 0.5738
pwr.anova.test(k=5,n=25,f=0.40,sig.level=.05) #power = 0.9569163

La potencia será de 11.8% para detectar un efecto pequeño, 57.4% para detectar un efecto moderado y 95.7% para detectar un efecto grande.

Dada la limitación de los tamaños muestrales, solo podremos tratar de encontrar un efecto grande.

Veamos ahora la sensibilidad de nuestros parámetros.

Calculemos los tamaños muestrales necesarios para detectar el rango del tamaño del efecto.

library(pwr)
es <- seq(.1, .5, .01)
nes <- length(es)
samsize <- NULL
for (i in 1:nes){
result <- pwr.anova.test(k=5, f=es[i], sig.level=.05, power=.9)
samsize[i] <- ceiling(result$n)
}
plot(samsize,es, type="l", lwd=2, col="red",ylab="Effect Size",xlab="Sample Size (per cell)", main="One Way ANOVA with Power=.90 and Alpha=.05")

Este gráfico nos permite estimar el impacto de cambiar las condiciones de nuestro diseño experimental.

Podemos ver que en este caso, para 5 grupos experimentales, invertir dinero en aumentar el tamaño muestral encima de 200 observaciones por grupo no es útil.

GRÁFICOS DE LA POTENCIA ESTADÍSTICA

ÚLTIMO EJEMPLO: Tamaño muestral

Vamos a utilizar un ejemplo para graficar el tamaño muestral que necesitaríamos utilizar en una investigación según los valores del tamaño del efecto (en este caso medido mediante el coeficiente de correlación) y la potencia estadística asumida.

Es decir, queremos determinar el tamaño muestral necesario para decidir si el coeficiente de correlación es estadísticamente significativo, según un rango de valores de tamaño de efecto y poder estadístico:

library(pwr)

# Set range of correlations & power values
r <- seq(.1,.5,.01)
nr <- length(r)
p <- seq(.4,.9,.1)
np <- length(p)

# Obtain sample sizes
samsize <- array(numeric(nr*np), dim=c(nr,np))
for (i in 1:np){
for (j in 1:nr){
result <- pwr.r.test(n = NULL, r = r[j],sig.level = .05, power = p[i], alternative = "two.sided")
samsize[j,i] <- ceiling(result$n)
}
}

# Set up graph
xrange <- range(r)
yrange <- round(range(samsize))
colors <- rainbow(length(p))
plot(xrange, yrange, type="n",xlab="Correlation Coefficient (r)",ylab="Sample Size (n)" )
# Add power curves
for (i in 1:np){
lines(r, samsize[,i], type="l", lwd=2, col=colors[i])
}
# Add annotations
abline(v=0, h=seq(0,yrange[2],50), lty=2, col="grey89")
abline(h=0, v=seq(xrange[1],xrange[2],.02), lty=2,col="gray89")
title("Sample Size Estimation for Correlation Studies\n
Sig=0.05 (Two-tailed)")
legend("topright", title="Power", as.character(P), fill=colors)

Observamos que necesitamos un tamaño muestral de aproximadamente 75 para detectar una correlación de 0.20 con un 40% de confianza.

También necesitamos 185 observaciones más (n=260) para detectar la misma correlación con 90% de confianza.

Este gráfico puede utilizarse también para otro tipo de pruebas estadísticas, solo basta con modificar algunos pasos.

¿Te ha parecido útil el post? ¿conocías la importancia de la potencia estadística? ¿cómo calculas el tamaño muestral de tu investigación? ¡deja tu comentario!

Referencias de interés:

* Cohen, Jacob (1988). "Statistical power analysis for the behavioral sciences" (2nd ed.). Hillsdale, NJ: Lawrence Earlbaum Associates.

Rosana Ferrero

Buscar este blog