Test de asociación o independencia Chi-cuadrado

Los test de asociación o independencia Chi-cuadrado sirven para determinar si existe una relación entre dos o más variables. Existen numerosas pruebas estadísticas de asociación (por ejemplo: Chi-cuadrado de Pearson, Chi-cuadrado de Yates, Chi-cuadrado de la razón de verosimilitud, prueba exacta de Fisher, r de Pearson, rho de Spearman, etc.), aunque por ahora nos centraremos en las pruebas Chi-cuadrado y la asociación entre variables categóricas.

Para evaluar si dos variables categóricas están asociadas (relacionadas) es necesario comprobar si la distribución de los valores de una variable difiere en función de los valores de la otra. Para ello, debemos partir de las siguientes hipótesis estadísticas:

  • Hipótesis nula, Ho: No existe relación entre las variables (los resultados de las categorías de una variable no se ven afectados o influenciados por las categorías de la segunda variable).
  • Hipótesis alterna, Ha: Existe asociación o relación entre las variables.

Si se acepta la hipótesis nula (p>0.05) significa que ambas distribuciones se encuentran no asociadas (son independientes).

EN R

La función requerida en R para realizar una prueba de asociación es chisq.test(). En este caso, aprovecharemos la interfaz de Rcmdr para introducir nuestros datos de forma sencilla y obtener los resultados.

Captura de pantalla - Test de asociación o independencia Chi-cuadrado

Captura de pantalla – Test de asociación o independencia Chi-cuadrado

 

EJEMPLO

Vamos analizar una muestra de 200 ornitólogos aficionados (menos de dos años de experiencia en la observación de aves). De ellos, 100 participaron en un curso de identificación sobre aves rapaces en el último año. Sometidos a una prueba de identificación de aves conjunta, se consideraron “aprobados” aquellos que identificaron específicamente más de la mitad de los individuos (sobre un total de 14 individuos observados mediante diapositivas, cada uno durante 3 segundos). ¿Hay relación entre la participación en el curso y la mejora en sus destrezas ornitológicas? Los resultados obtenidos se reflejan en la siguiente tabla:

 APROBADOS SUSPENDIDOS
CON CURSO  77  33
SIN CURSO  50  50

EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (amarillo) Y RESULTADOS (azul)

En R Commander nos dirigiremos directamente al menú: Estadísticos->Tablas de contingencia->Introducir y analizar una tabla de doble entrada.

Allí indicamos el número de filas y columnas (en nuestro caso 2×2) e introducimos las etiquetas y frecuencias. Además, pedimos porcentajes (si es que nos interesa) y seleccionamos Test de independencia Chi-cuadrado, Componentes del estadístico Chi-cuadrado e Imprimir las frecuencias esperadas. Finalmente aplicamos.

Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.

> .Table <- matrix(c(77,33,50,50), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
> rownames(.Table) <- c(‘CON.CURSO’, ‘SIN.CURSO’) # Las etiquetas dadas a la fila.
> colnames(.Table) <- c(‘APROBADOS’, ‘SUSPENDIDOS’) # Las etiquetas dadas a la columna.
> .Table  # Se piden los datos tabulados.

APROBADOS SUSPENDIDOS
CON.CURSO        77          33
SIN.CURSO          50          50

> colPercents(.Table) # Los porcentajes por columnas.

APROBADOS SUSPENDIDOS
CON.CURSO      60.6        39.8
SIN.CURSO        39.4        60.2
Total                    100.0       100.0
Count                  127.0        83.0

> .Test <- chisq.test(.Table, correct=FALSE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=FALSE indica que no se aplique la corrección de Yates).
> .Test # Pedimos los resultados del análisis.

Pearson’s Chi-squared test

data:  .Table
X-squared = 8.7658, df = 1, p-value = 0.003069

> .Test$expected # Pedimos los datos de las frecuencias esperadas.

APROBADOS SUSPENDIDOS
CON.CURSO  66.52381    43.47619
SIN.CURSO    60.47619    39.52381

> round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.
APROBADOS SUSPENDIDOS
CON.CURSO      1.65        2.52
SIN.CURSO        1.81        2.78

Por tanto, aceptamos la hipótesis alternativa con un nivel de significación p<0.01 (p = 0.003069). Existe una relación altamente significativa entre la asistencia al curso y el resultado en la prueba, por lo que habría que considerar que se ha mejorado, al menos, en la identificación de rapaces.

Originalmente publicado el 10 de abril de 2013 en enelcueto.blogspot.com.es por Antonio Fernández Martínez

Facebooktwittergoogle_pluslinkedinmail