Test de asociación o independencia Chi-cuadrado (la corrección de Yates)

La distribución Chi-cuadrado es continua, pero nosotros estamos aplicando sus resultados a datos discretos (frecuencias de las celdas de nuestras tablas de contingencia). En general, en el test de asociación o independencia Chi-cuadrado se aplica la corrección por continuidad de Yates (una corrección conservadora) cuando aproximamos una variable discreta a una distribución continua. La distribución continua de Chi-cuadrado es una buena aproximación del estadístico Chi-cuadrado cuando el número de grados de libertad es mayor que 1. Si el número de grados de libertad es igual a 1 (sólo hay dos categorías en la distribución), el valor del estadístico está sobreestimado.

¿Cuándo utilizar la corrección de Yates?

  • Cuando el número de grados de libertad es 1 (cuando la muestra es grande, los resultados son prácticamente iguales con o sin corrección de Yates).
  • Cuando el valor de una frecuencia observada es menor que 5 (si es posible, podemos agrupar clases contiguas para evitarlo). En el caso de que el valor de una frecuencia esperada sea menor que 5 es mejor recurrir al test de Probabilidad Exacta de Fisher.

EN R

La función requerida en R para realizar una prueba de asociación es chisq.test(). Reharemos un ejemplo tratado con anterioridad (aquí) y veremos uno nuevo introduciendo, mediante el parámetro correct=TRUE, la orden para que se aplique la corrección de Yates.

Captura de pantalla - Test de asociación o independencia Chi-cuadrado (la corrección de Yates)

Captura de pantalla – Test de asociación o independencia Chi-cuadrado (la corrección de Yates)

 

EJEMPLO 1

Vamos analizar una muestra de 200 ornitólogos aficionados (menos de dos años de experiencia en la observación de aves). De ellos, 100 participaron en un curso de identificación sobre aves rapaces en el último año. Sometidos a una prueba de identificación de aves conjunta, se consideraron “aprobados” aquellos que identificaron específicamente más de la mitad de los individuos (sobre un total de 14 individuos observados mediante diapositivas, cada uno durante 3 segundos). ¿Hay relación entre la participación en el curso y la mejora en sus destrezas ornitológicas? Los resultados obtenidos se reflejan en la siguiente tabla:

APROBADOS SUSPENDIDOS
CON CURSO 77 33
SIN CURSO 50 50

EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (amarillo) Y RESULTADOS (azul)

En R Commander nos dirigiremos directamente al menú: Estadísticos->Tablas de contingencia->Introducir y analizar una tabla de doble entrada.

Allí indicamos el número de filas y columnas (en nuestro caso 2×2) e introducimos las etiquetas y frecuencias. Además, pedimos porcentajes (si es que nos interesa) y seleccionamos Test de independencia Chi-cuadrado, Componentes del estadístico Chi-cuadrado e Imprimir las frecuencias esperadas. Finalmente aplicamos.

Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.

> .Table <- matrix(c(77,33,50,50), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
> rownames(.Table) <- c(‘CON.CURSO’, ‘SIN.CURSO’) # Las etiquetas dadas a la fila.
> colnames(.Table) <- c(‘APROBADOS’, ‘SUSPENDIDOS’) # Las etiquetas dadas a la columna.
> .Table # Se piden los datos tabulados.

APROBADOS SUSPENDIDOS
CON.CURSO 77 33
SIN.CURSO 50 50

> colPercents(.Table) # Los porcentajes por columnas.

APROBADOS SUSPENDIDOS
CON.CURSO 60.6 39.8
SIN.CURSO 39.4 60.2
Total 100.0 100.0
Count 127.0 83.0

> .Test <- chisq.test(.Table, correct=TRUE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=TRUE indica que se aplique la corrección de Yates).
> .Test # Pedimos los resultados del análisis.

Pearson’s Chi-squared test with Yates’ continuity correction

data: .Table
X-squared = 7.949, df = 1, p-value = 0.004811

> .Test$expected # Pedimos los datos de las frecuencias esperadas.

APROBADOS SUSPENDIDOS
CON.CURSO 66.52381 43.47619
SIN.CURSO 60.47619 39.52381

> round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.
APROBADOS SUSPENDIDOS
CON.CURSO 1.65 2.52
SIN.CURSO 1.81 2.78

Por tanto, aceptamos la hipótesis alternativa con un nivel de significación p<0.01 (p = 0.004811). Existe una relación altamente significativa entre la asistencia al curso y el resultado en la prueba, por lo que habría que considerar que se ha mejorado, al menos, en la identificación de rapaces.

EJEMPLO 2

Un ornitólogo tiene asignadas dos cuadrículas del Programa SACRE, una de ellas situada en un bosque de coníferas y la otra en un bosque caducifolio. En la tabla se presenta el número de territorios de Carbonero Garrapinos (Periparus ater) y de Herrerillo Común (Cyanistes caeruleus). ¿Existe algún tipo de asociación entre las especies y el tipo de bosque? Extraído de Fowler, J. & Cohen, L. 1999. Estadística básica en Ornitología. SEO/BirdLife. Madrid.

Herrerillo común Carbonero garrapinos
BOSQUE CADUCIFOLIO
77 33
BOSQUE DE CONÍFERAS
50 50

EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (amarillo) Y RESULTADOS (azul)

Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.

> .Table <- matrix(c(14,6,22,46), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
> rownames(.Table) <- c(‘CADUCIFOLIO’, ‘CONIFERAS’) # Las etiquetas dadas a la fila.
> colnames(.Table) <- c(‘HERRERILLO’, ‘CARBONERO’) # Las etiquetas dadas a la columna.
> .Table  # Se piden los datos tabulados.

HERRERILLO CARBONERO
CADUCIFOLIO       14          6
CONIFERAS           22        46

> colPercents(.Table) # Los porcentajes por columnas.

                            HERRERILLO CARBONERO
CADUCIFOLIO         38.9                 11.5
CONIFERAS             61.1                 88.5
Total                           100.0              100.0
Count                           36.0                52.0

> .Test <- chisq.test(.Table, correct=TRUE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=TRUE indica que se aplique la corrección de Yates).
> .Test # Pedimos los resultados del análisis.

Pearson’s Chi-squared test with Yates’ continuity correction
data: .Table
X-squared = 7.5706, df = 1, p-value = 0.005933

> .Test$expected # Pedimos los datos de las frecuencias esperadas.

                             HERRERILLO CARBONERO
CADUCIFOLIO       8.181818         11.81818
CONIFERAS         27.818182         40.18182

> round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.

                            HERRERILLO CARBONERO
CADUCIFOLIO         4.14                  2.86
CONIFERAS             1.22                  0.84

A la vista de los resultados, existe una asociación altamente significativa entra las especies y el tipo de bosque. Los Herrerillos Comunes están asociados con los bosques caducifolios y los Carboneros Garrapinos con los bosques de coníferas.

Originalmente publicado el 23 de mayo de 2013 en enelcueto.blogspot.com.es por Antonio Fernández Martínez

Facebooktwittergoogle_pluslinkedinmail