RINCÓN INFORMÁTICO: EL USO DE LA VARIANZA Y LA COVARIANZA

Elementos de Estadística Inferencial

Esp. Fabián Orozco Méndez

a) Análisis de Varianza. El análisis de varianza (ANOVA) es una técnica estadística diseñada para comparar la varianza de dos poblaciones a partir del análisis de las varianzas de las muestras respectivas. Webster (1998) aplica el concepto de ANOVA al contexto de un experimento y la define como “... el procedimiento [que] se puede aplicar a la determinación de si un tratamiento en particular aplicado a una población tendrá efecto significativo sobre su media,” (p. 595). Aplicar el ANOVA requiere cumplir con dos criterios específicos:

a1) Las poblaciones de estudio deber ser normales y tener varianzas iguales.

a2) Seleccionar las muestras independientemente.

La varianza total de todos los tratamientos (observaciones) se puede dividir en dos fuentes:

a) Variación Intermuestral. Factor que representa la variación entre los diversos tratamientos administrados durante el desarrollo de un experimento.

b) Variación Intramuestral o debida al Error. Factor que representa la variación dentro de un mismo tratamiento administrado durante la realización de un experimento.

En este contexto se entiende que la variación total es igual a la variación intermuestral + la variación intramuestral o debida al error. Para obtener la comprobación de una hipótesis de nulidad mediante el ANOVA se tienen que calcular los siguientes factores:

a) La suma total de cuadrados expresada por la ecuación:

dónde:

b) La suma de los cuadrados entre grupos (varianza intermuestral) se expresa por la ecuación:

dónde:

Sxi2 = Suma de los cuadrados entre los grupos

(SX1)2 = Suma de las puntuaciones elevadas al cuadrado del tratamiento1

n = Número de casos

c) La suma de cuadrados dentro de grupos (varianza intramuestral) se expresa por la ecuación:

dónde:

SXd2 = Suma de cuadrados dentro de grupos

SX12 = Suma de los cuadrados de las puntuaciones del grupo 1

(SX1)2 = Suma de las puntuaciones elevadas al cuadrado del tratamiento1

Lo anterior refleja que se encuentra con tres varianzas y solo es posible realizar la comparación de la varianza intermuestral con la varianza intramuestral mediante el análisis del comportamiento de las mismas con respecta a la distribución F que supone la independencia de las varianzas. La distribución F se expresa por la ecuación:

dónde:

F = Distribución F.

d) Los grados de libertad para la varianza del error se obtienen mediante la ecuación:

dónde:

gl = grados de libertad

c = columnas

e) Los grados de libertad para la varianza intramuestral se obtienen por medio de la ecuación:

dónde:

gl = grados de libertad

c = columnas

n = número de casos

Para ejemplificar el ANOVA se tomarán los datos siguientes: Con el propósito de determinar que las medias de las puntuaciones obtenidas por tres grupos de menonitas provenientes de los campos menonitas del municipio de Riva Palacio, Chih., en un experimento de lectura veloz en idioma español utilizando un vocabulario técnico-científico. El rendimiento de cada uno de los grupos se muestra en la Tabla 4.5.

Para obtener la razón F se recomienda elaborar la siguiente tabla a fin de facilitar el análisis de resultados:

La razón F crítica para 2 y 15 grados de libertad a un nivel a = 0.05 se obtiene

consultando el apéndice B. Para el presente caso tiene un valor de F = 3.68. La interpretación requiere de aplicar la regla de decisión: Si la razón F calculada es mayor que la razón F crítica entonces se rechaza la hipótesis nula, en caso contrario se acepta.

Para el problema anterior la razón F calculada es de 0.44 valor que esta muy por debajo de la razón F crítica con valor de 3.68 para a = 0.05 por consiguiente es posible aceptar la hipótesis de nulidad concluyendo que no existe evidencia de que las tres medias de calificaciones obtenidas por los grupos en lectura veloz sean diferentes.

b) Análisis Multifactorial de Varianza. El análisis multifactorial de varianza (ANCOVA) también denominado análisis de covarianza permite la comparación de más de dos variables entre si con el propósito de comprobar tanto el efecto de las variables como el efecto de interacción entre ellas.

El ANCOVA es utilizado para analizar los resultados de investigaciones de tipo experimental que aplican un diseño factorial (ver sección 3.4 del capítulo III). En este tipo de diseños se analizan los efectos combinados de dos o más variables independientes. Para realizar un ANCOVA se necesita obtener:

b1) La suma total de cuadrados mediante la ecuación 4.11.

b2) La suma de cuadrados entre grupos mediante la ecuación 4.12.

b3) La suma de cuadrados dentro de grupos mediante la ecuación 4.13.

b4) La suma de cuadrados entre columnas que se define por la ecuación:

dónde:

SXec2 = suma de cuadrados entre columnas

nc1 = número de casos en la columna 1.

N = número total de casos

b5) La suma de cuadrados entre hileras que se expresa matemáticamente mediante la ecuación:

dónde:

SXer2 = suma de cuadrados entre hileras

nr1 = número de casos en la hilera 1.

N = número total de casos

b6) La suma de la interacción de los cuadrados “... es la parte de la desviación entre las medias de los grupos y la media total que no se debe ni a las diferencias de las hileras ni a las diferencias de las columnas,” (D”Ary, Jacobs y Razavieh, 1982, p. 164). Se define matemáticamente mediante la expresión:

dónde:

SXint2 = suma de cuadrados entre hileras

SXi2 = suma de cuadrados entre grupos

SXec2 = suma de cuadrados entre columnas

SXer2 = suma de cuadrados entre hileras

b7) Determinar el número de grados de libertad asociados a cada puntuación de variación:

1 Suma de cuadrados entre columnas utilizando la ecuación 4.15

2 Suma de cuadrados entre hileras mediante la ecuación:

dónde:

gl = grados de libertad

r = hileras

3 Suma de la interacción de los cuadrados por medio de la expresión:

dónde:

gl = grados de libertad

c = columnas

r = hileras

4 Suma de cuadrados entre grupos mediante la ecuación:

dónde:

gl = grados de libertad

G = grupos

5 Suma total de cuadrados definido por la expresión:

dónde:

gl = grados de libertad

N = columnas

b8) Obtención de la razón F mediante la ecuación 4.14.

Para ejemplificar el ANCOVA se aplicará el procedimiento al siguiente caso: Se desea investigar cómo influye un programa de incentivación económica en la productividad de la mano de obra de una compañía de servicios de impresión, formando cuatro grupos de trabajadores aleatoriamente. Los integrantes de dos de los grupos son menores de 24 años y los integrantes del resto del grupo mayores de 24 años. Los datos obtenidos se muestran en la Tabla 4.7.

los calculos son:

para obtener la razón F se sugiere diseñar la siguiente tabla con el propósito de facilitar el análisis:

Para la varianza entre columnas la razón Fo = 5.69 ñ Fc = 4.49 por consiguiente no se acepta la hipótesis de nulidad. La razón F calculada (Fo) es significativa a nivel a = 0.05. Para la varianza entre hileras la razón Fo = 15.13 ñ Fc = 4.49 por lo que no se acepta la hipótesis nula. La razón F es altamente significativa a nivel a = 0.05. Para la varianza de la interacción la razón Fo = 15.03 ñ Fc = 4.49 por lo que no se acepta la hipótesis de nulidad. La razón F es altamente significativa a nivel a = 0.05. Los anteriores resultados permiten concluir que existe evidencia estadística para establecer como conclusión que la incentivación económica tiene influencia significativa en el aumento de la productividad de los empleados de la compañía de servicios de impresión. Este efecto se presenta tanto en trabajadores menores de 24 años como en los mayores de 24 años.

c) La Distribución Xi2. La Xi2 (chi cuadrada) es una prueba de estadística no paramétrica que se utiliza para la contrastación de hipótesis. De acuerdo con Webster (1998) “las pruebas no paramétricas son procedimientos estadísticos que se pueden utilizar para contrastar hipótesis cuando no es posible fijar ningún supuesto sobre parámetros o distribuciones poblacionales,” (p. 836). Las aplicaciones de la prueba Xi2 son dos: c1) las pruebas de bondad del ajuste y c2) las pruebas de independencia.

c1) Xi2 de bondad del ajuste. Esta prueba se utiliza para apreciar si las distribuciones observadas se ajustan a las esperadas. La prueba es adecuada para realizar pruebas de variancia sin que interese el tipo de distribución que tiene (Glass y Stanley, 1994; Kazmier, 1998).

Lo anterior significa que esta prueba permite determinar si los datos empíricos de alguna distribución específica corresponde a una distribución teórica como la binomial, la poisson o la normal. Se emplea en el muestreo con el propósito de precisar si los valores obtenidos de una muestra corresponden a las frecuencias poblacionales (ver Hopkins, Hopkins y Glass, 1997; Kazmier, 1998).

Para Webster (1998) presenta una definición muy completa de las pruebas de bondad del ajuste. “... estas pruebas miden el grado en que los datos muestrales observados cumplen una distribución hipotética determinada. Si el grado de cumplimiento es razonable, se puede deducir que la distribución hipotética existe,” (p. 838).

La hipótesis de nulidad en la prueba de bondad del ajuste se expresa:

Ho: fo = fe. (No hay diferencia entre las frecuencias observadas y las esperadas)

H1: fo = fe. (Existe diferencia entre las frecuencias observadas y las esperadas.

Para someter a prueba estas hipótesis se utiliza la expresión matemática:

dónde:

Xi2= prueba chi cuadrada

k = número de categorías o clases

fo = frecuencias observadas

fe = frecuencias esperadas

Para ejemplificar la Xi2 de bondad del ajuste se utilizarán los siguientes datos: El Sr. David Neufeld es gerente de ventas de la fábrica de queso menonita tipo chester ubicada en la Colonia Manitoba en la región noroeste del Estado de Chihuahua. En particular el Sr. Neufeld tiene que desplazar la producción de queso en el mercado nacional. Recientemente se da cuenta de la existencia de una fuerte competencia de otras marcas de queso provenientes de otras entidades del país y del extranjero. Le resulta cada vez más difícil comercializar la producción de queso y decide someter a comprobación la hipótesis de nulidad a un nivel a = 0.05:

Ho: fo = fe. La demanda real es uniforme a la esperada

H1: fo = fe. La demanda real no es uniforme a la esperada.

el Sr. Neufeld toma como muestra el volumen de ventas mensual en toneladas de queso correspondientes a un periodo de 12 meses. Las frecuencias son:

El valor de Xi2 es:

Con el propósito de analizar e interpretar el valor encontrado de Xi2 se necesita obtener los grados de libertad. Para ello se utiliza la expresión matemática:

dónde:

gl = grados de libertad

n = número de casos

para el anterior problema los gl = 11. Posteriormente se obtiene el valor de Xi2 crítica(consultar apéndice C) aplicando la regla de decisión: Se rechaza la hipótesis nula sí Xi2 calculada ñ Xi2 crítica, no se rechace en caso contrario. Para el caso anterior se puede concluir que Xi2 calculada = 42.57 ñ Xi2 crítica =19.675 a nivel a = 0.05 por consiguiente no se acepta la hipótesis de nulidad que expresa que la demanda de queso menonita tipo chester en el mercado nacional es uniforme. Las diferencias entre la demanda observada y la esperada son significativas por lo que es posible refutar la hipótesis de nulidad.

c2) Xi2 de Independencia. Es una excelente herramienta estadística para comprobar la independencia de variables categóricas. Analiza dos factores con el propósito de determinar la existencia o no de relación entre ellos. Para lo anterior utiliza tablas de tabulaciones cruzadas o de contingencia (ver sección 4.3 del capítulo IV).

Así por ejemplo si se analizará el rendimiento de alumnos con resultados por arriba o por debajo del promedio en la prueba coeficiente intelectual se estarían comparando dos factores: rendimiento y coeficiente intelectual. La Xi2 de independencia aplica la ecuación 4.23 para analizar la diferencia entre las frecuencias observadas y las esperadas.

Para ilustrar esta prueba se utilizará un ejemplo según el cual a una muestra aleatoria de 90 estudiantes recién egresados y próximos a egresar de educación media superior se les pregunta si prefieren estudiar una carrera profesional en la Universidad Autónoma de Chihuahua (UACH), en el Instituto Tecnológico de Cd. Cuauhtémoc (ITCC) o si tienen preferencia por alguna Institución de Educación Superior Particular. Los resultados se muestran en la Tabla 4.9.

como puede observarse la Tabla 4.9 contiene 6 casillas integradas por tres columnas y dos hileras. Para realizar la comparación se plantea la hipótesis:

Ho: fo = fe. No existe preferencia por alguna institución específica

H1: fo = fe. Existe preferencia por alguna institución específica.

para someter a comprobación la hipótesis de nulidad se elige un nivel de

a = 0.05 procediéndose a obtener las frecuencias esperadas en función de las frecuencias observadas por medio de operaciones aritméticas. Se multiplica el valor de cada casilla por el total de la columna dividido por el total de casos.

Así por ejemplo la frecuencia esperada de los estudiantes que prefieren la UACH es 20 (36/90) = 8. Se realiza la misma operación para obtener el resto de frecuencias esperadas. La Tabla 4.10 presenta las frecuencias esperadas.

el valor de Xi2 es:

Finalmente se compara el valor de Xi2 observada con el valor de Xi2 crítica. Para lo cual se requiere obtener los grados de libertad mediante la expresión:

dónde:

gl = grados de libertad

r = número de renglones en la tabla

c = número de columnas en la tabla

por consiguiente los grados de libertad son gl = (2 – 1) (3 – 1) = 2 que a un nivel a = 0.05 el valor de Xi2 crítica es de 5.99. Como Xi2=87.20 ñ Xi2 crítica = 5.99 es posible afirmar con cierto grado de confianza que existen diferencias significativas acerca de la relación de la variable estudiantes recién egresados y próximos a egresar de educación media superior y la variable preferencia por alguna institución de educación superior. La hipótesis de nulidad no se acepta.

¿Qué es covarianza?ANCOVA

La covarianza mide la relación lineal entre dos variables. Aunque la covarianza es similar a la correlación entre dos variables, difieren de las siguientes maneras:

· Los coeficientes de correlación están estandarizados. Por lo tanto, una relación lineal perfecta da como resultado un coeficiente de 1. La correlación mide tanto la fuerza como la dirección de la relación lineal entre dos variables.

· Los valores de covarianza no están estandarizados. Por consiguiente, la covarianza puede ir desde infinito negativo hasta infinito positivo. Por lo tanto, el valor de una relación lineal perfecta depende de los datos. Puesto que los datos no están estandarizados, es difícil determinar la fuerza de la relación entre las variables.

Usted puede utilizar la covarianza para comprender la dirección de la relación entre las variables. Los valores de covarianza positivos indican que los valores por encima del promedio de una variable están asociados con los valores por encima del promedio de la otra variable y los valores por debajo del promedio están asociados de manera similar. Los valores de covarianza negativos indican que los valores por encima del promedio de una variable están asociados con los valores por debajo del promedio de la otra variable.

El coeficiente de correlación depende de la covarianza. El coeficiente de correlación es igual a la covarianza dividida entre el producto de las desviaciones estándar de las variables. Por lo tanto, una covarianza positiva siempre producirá una correlación positiva y una covarianza negativa siempre generará una correlación negativa.

ACTIVIDAD EN GRUPOS DE 4 ESTUDIANTES:

1.DEFINA VARIANZA Y COVARIANZA, SU UTILIDAD EN LA PRÁCTICA

2. CONSULTE LAS FÓRMULAS PARA CALCULAR LA VARIANZA Y LA COVARIANZA

3. ORGANICE LA SIGUIENTE INFORMACIÓN EN UNA TABLA Y CALCULE LA VARIANZA Y LA COVARIANZA: Se desea investigar cómo influye un programa de incentivación económica en la productividad de la mano de obra de una compañía de servicios de impresión, formando cuatro grupos de trabajadores aleatoriamente. Los integrantes de dos de los grupos son menores de 24 años y los integrantes del resto del grupo mayores de 24 años.

RINCÓN INFORMÁTICO

Páginas

viernes, 20 de septiembre de 2019

EL USO DE LA VARIANZA Y LA COVARIANZA

No hay comentarios:

Profesor Fabiàn Orozco Mèndez

Archivo del blog

Datos personales