Elementos
de Estadística Inferencial
Esp. Fabián Orozco Méndez
a) Análisis de Varianza. El
análisis de varianza (ANOVA) es una técnica estadística diseñada para comparar
la varianza de dos poblaciones a partir del análisis de las varianzas de las
muestras respectivas. Webster (1998) aplica el concepto de ANOVA al contexto de
un experimento y la define como “... el procedimiento [que] se puede
aplicar a la determinación de si un tratamiento en particular aplicado a una
población tendrá efecto significativo sobre su media,” (p. 595). Aplicar el
ANOVA requiere cumplir con dos criterios específicos:
a1) Las poblaciones de estudio
deber ser normales y tener varianzas iguales.
a2) Seleccionar las muestras
independientemente.
La varianza total de todos los
tratamientos (observaciones) se puede dividir en dos fuentes:
a) Variación Intermuestral.
Factor que representa la variación entre los diversos tratamientos
administrados durante el desarrollo de un experimento.
b) Variación Intramuestral o
debida al Error. Factor que representa la variación dentro de un mismo
tratamiento administrado durante la realización de un experimento.
En este contexto se entiende que
la variación total es igual a la variación intermuestral + la variación
intramuestral o debida al error. Para obtener la comprobación de una hipótesis
de nulidad mediante el ANOVA se tienen que calcular los siguientes factores:
a) La suma total de cuadrados
expresada por la ecuación:
dónde:
b) La suma de los cuadrados entre
grupos (varianza intermuestral) se expresa por la ecuación:
dónde:
Sxi2 =
Suma de los cuadrados entre los grupos
(SX1)2 = Suma de las puntuaciones
elevadas al cuadrado del tratamiento1
n = Número de casos
c) La suma de cuadrados dentro de
grupos (varianza intramuestral) se expresa por la ecuación:
dónde:
SXd2 =
Suma de cuadrados dentro de grupos
SX12 = Suma
de los cuadrados de las puntuaciones del grupo 1
(SX1)2 = Suma de las puntuaciones
elevadas al cuadrado del tratamiento1
Lo anterior refleja que se encuentra
con tres varianzas y solo es posible realizar la comparación de la varianza
intermuestral con la varianza intramuestral mediante el análisis del
comportamiento de las mismas con respecta a la distribución F que supone la
independencia de las varianzas. La distribución F se expresa por la ecuación:
dónde:
F = Distribución F.
d) Los grados de libertad para la
varianza del error se obtienen mediante la ecuación:
dónde:
gl = grados de libertad
c = columnas
e) Los grados de libertad para la
varianza intramuestral se obtienen por medio de la ecuación:
dónde:
gl = grados de libertad
c = columnas
n = número de casos
Para ejemplificar el ANOVA se
tomarán los datos siguientes: Con el propósito de determinar que las medias de
las puntuaciones obtenidas por tres grupos de menonitas provenientes de los
campos menonitas del municipio de Riva Palacio, Chih., en un experimento de
lectura veloz en idioma español utilizando un vocabulario técnico-científico.
El rendimiento de cada uno de los grupos se muestra en la Tabla 4.5.
Para obtener la razón F se
recomienda elaborar la siguiente tabla a fin de facilitar el análisis de
resultados:
La razón F crítica para 2 y 15
grados de libertad a un nivel a = 0.05
se obtiene
consultando el apéndice B. Para
el presente caso tiene un valor de F = 3.68. La interpretación requiere de
aplicar la regla de decisión: Si la razón F calculada es mayor que la razón F
crítica entonces se rechaza la hipótesis nula, en caso contrario se acepta.
Para el problema anterior la
razón F calculada es de 0.44 valor que esta muy por debajo de la razón F
crítica con valor de 3.68 para a = 0.05
por consiguiente es posible aceptar la hipótesis de nulidad concluyendo que no
existe evidencia de que las tres medias de calificaciones obtenidas por los
grupos en lectura veloz sean diferentes.
b) Análisis Multifactorial de
Varianza. El análisis multifactorial de varianza (ANCOVA) también denominado
análisis de covarianza permite la comparación de más de dos variables entre si
con el propósito de comprobar tanto el efecto de las variables como el efecto
de interacción entre ellas.
El ANCOVA es utilizado para
analizar los resultados de investigaciones de tipo experimental que aplican un
diseño factorial (ver sección 3.4 del capítulo III). En este tipo de diseños se
analizan los efectos combinados de dos o más variables independientes. Para
realizar un ANCOVA se necesita obtener:
b1) La suma total de cuadrados
mediante la ecuación 4.11.
b2) La suma de cuadrados entre
grupos mediante la ecuación 4.12.
b3) La suma de cuadrados dentro
de grupos mediante la ecuación 4.13.
b4) La suma de cuadrados entre
columnas que se define por la ecuación:
dónde:
SXec2 =
suma de cuadrados entre columnas
nc1 = número de casos en la
columna 1.
N = número total de casos
b5) La suma de cuadrados entre
hileras que se expresa matemáticamente mediante la ecuación:
dónde:
SXer2 =
suma de cuadrados entre hileras
nr1 = número de casos en la
hilera 1.
N = número total de casos
b6) La suma de la interacción de
los cuadrados “... es la parte de la desviación entre las medias de los grupos
y la media total que no se debe ni a las diferencias de las hileras ni a las
diferencias de las columnas,” (D”Ary, Jacobs y Razavieh, 1982, p. 164). Se
define matemáticamente mediante la expresión:
dónde:
SXint2 =
suma de cuadrados entre hileras
SXi2 =
suma de cuadrados entre grupos
SXec2 =
suma de cuadrados entre columnas
SXer2 =
suma de cuadrados entre hileras
b7) Determinar el número de
grados de libertad asociados a cada puntuación de variación:
1 Suma de cuadrados entre
columnas utilizando la ecuación 4.15
2 Suma de cuadrados entre hileras
mediante la ecuación:
dónde:
gl = grados de libertad
r = hileras
3 Suma de la interacción de los
cuadrados por medio de la expresión:
dónde:
gl = grados de libertad
c = columnas
r = hileras
4 Suma de cuadrados entre grupos
mediante la ecuación:
dónde:
gl = grados de libertad
G = grupos
5 Suma total de cuadrados
definido por la expresión:
dónde:
gl = grados de libertad
N = columnas
b8) Obtención de la razón F
mediante la ecuación 4.14.
Para ejemplificar el ANCOVA se
aplicará el procedimiento al siguiente caso: Se desea investigar cómo influye
un programa de incentivación económica en la productividad de la mano de obra
de una compañía de servicios de impresión, formando cuatro grupos de
trabajadores aleatoriamente. Los integrantes de dos de los grupos son menores
de 24 años y los integrantes del resto del grupo mayores de 24 años. Los datos
obtenidos se muestran en la Tabla 4.7.
los calculos son:
para obtener la razón F se
sugiere diseñar la siguiente tabla con el propósito de facilitar el análisis:
Para la varianza entre columnas
la razón Fo = 5.69 ñ Fc =
4.49 por consiguiente no se acepta la hipótesis de nulidad. La razón F
calculada (Fo) es significativa a nivel a = 0.05.
Para la varianza entre hileras la razón Fo = 15.13 ñ Fc = 4.49 por lo que no se
acepta la hipótesis nula. La razón F es altamente significativa a nivel a = 0.05. Para la varianza de la
interacción la razón Fo = 15.03 ñ Fc =
4.49 por lo que no se acepta la hipótesis de nulidad. La razón F es altamente
significativa a nivel a = 0.05.
Los anteriores resultados permiten concluir que existe evidencia estadística
para establecer como conclusión que la incentivación económica tiene influencia
significativa en el aumento de la productividad de los empleados de la compañía
de servicios de impresión. Este efecto se presenta tanto en trabajadores
menores de 24 años como en los mayores de 24 años.
c) La Distribución Xi2. La Xi2
(chi cuadrada) es una prueba de estadística no paramétrica que se utiliza para
la contrastación de hipótesis. De acuerdo con Webster (1998) “las pruebas no
paramétricas son procedimientos estadísticos que se pueden utilizar para
contrastar hipótesis cuando no es posible fijar ningún supuesto sobre
parámetros o distribuciones poblacionales,” (p. 836). Las aplicaciones de la
prueba Xi2 son dos: c1) las pruebas de bondad del ajuste y c2) las pruebas de
independencia.
c1) Xi2 de bondad del ajuste.
Esta prueba se utiliza para apreciar si las distribuciones observadas se
ajustan a las esperadas. La prueba es adecuada para realizar pruebas de
variancia sin que interese el tipo de distribución que tiene (Glass y Stanley,
1994; Kazmier, 1998).
Lo anterior significa que esta
prueba permite determinar si los datos empíricos de alguna distribución
específica corresponde a una distribución teórica como la binomial, la poisson
o la normal. Se emplea en el muestreo con el propósito de precisar si los
valores obtenidos de una muestra corresponden a las frecuencias poblacionales
(ver Hopkins, Hopkins y Glass, 1997; Kazmier, 1998).
Para Webster (1998) presenta una
definición muy completa de las pruebas de bondad del ajuste. “... estas pruebas
miden el grado en que los datos muestrales observados cumplen una distribución
hipotética determinada. Si el grado de cumplimiento es razonable, se puede
deducir que la distribución hipotética existe,” (p. 838).
La hipótesis de nulidad en la
prueba de bondad del ajuste se expresa:
Ho: fo = fe. (No hay diferencia
entre las frecuencias observadas y las esperadas)
H1: fo = fe. (Existe diferencia
entre las frecuencias observadas y las esperadas.
Para someter a prueba estas
hipótesis se utiliza la expresión matemática:
dónde:
Xi2= prueba chi cuadrada
k = número de categorías o clases
fo = frecuencias observadas
fe = frecuencias esperadas
Para ejemplificar la Xi2 de
bondad del ajuste se utilizarán los siguientes datos: El Sr. David Neufeld es
gerente de ventas de la fábrica de queso menonita tipo chester ubicada en la
Colonia Manitoba en la región noroeste del Estado de Chihuahua. En particular
el Sr. Neufeld tiene que desplazar la producción de queso en el mercado
nacional. Recientemente se da cuenta de la existencia de una fuerte competencia
de otras marcas de queso provenientes de otras entidades del país y del extranjero.
Le resulta cada vez más difícil comercializar la producción de queso y decide
someter a comprobación la hipótesis de nulidad a un nivel a = 0.05:
Ho: fo = fe. La demanda real es
uniforme a la esperada
H1: fo = fe. La demanda real no
es uniforme a la esperada.
el Sr. Neufeld toma como muestra
el volumen de ventas mensual en toneladas de queso correspondientes a un
periodo de 12 meses. Las frecuencias son:
El valor de Xi2 es:
Con el propósito de analizar e
interpretar el valor encontrado de Xi2 se necesita obtener los grados de
libertad. Para ello se utiliza la expresión matemática:
dónde:
gl = grados de libertad
n = número de casos
para el anterior problema los gl
= 11. Posteriormente se obtiene el valor de Xi2 crítica(consultar apéndice C)
aplicando la regla de decisión: Se rechaza la hipótesis nula sí Xi2 calculada ñ Xi2 crítica, no se rechace en
caso contrario. Para el caso anterior se puede concluir que Xi2 calculada =
42.57 ñ Xi2 crítica =19.675 a
nivel a = 0.05 por consiguiente
no se acepta la hipótesis de nulidad que expresa que la demanda de queso
menonita tipo chester en el mercado nacional es uniforme. Las diferencias entre
la demanda observada y la esperada son significativas por lo que es posible
refutar la hipótesis de nulidad.
c2) Xi2 de Independencia. Es una
excelente herramienta estadística para comprobar la independencia de variables
categóricas. Analiza dos factores con el propósito de determinar la existencia
o no de relación entre ellos. Para lo anterior utiliza tablas de tabulaciones cruzadas
o de contingencia (ver sección 4.3 del capítulo IV).
Así por ejemplo si se analizará
el rendimiento de alumnos con resultados por arriba o por debajo del promedio
en la prueba coeficiente intelectual se estarían comparando dos factores:
rendimiento y coeficiente intelectual. La Xi2 de independencia aplica la
ecuación 4.23 para analizar la diferencia entre las frecuencias observadas y
las esperadas.
Para ilustrar esta prueba se
utilizará un ejemplo según el cual a una muestra aleatoria de 90 estudiantes
recién egresados y próximos a egresar de educación media superior se les
pregunta si prefieren estudiar una carrera profesional en la Universidad
Autónoma de Chihuahua (UACH), en el Instituto Tecnológico de Cd. Cuauhtémoc
(ITCC) o si tienen preferencia por alguna Institución de Educación Superior
Particular. Los resultados se muestran en la Tabla 4.9.
como puede observarse la Tabla
4.9 contiene 6 casillas integradas por tres columnas y dos hileras. Para
realizar la comparación se plantea la hipótesis:
Ho: fo = fe. No existe
preferencia por alguna institución específica
H1: fo = fe. Existe preferencia
por alguna institución específica.
para someter a comprobación la
hipótesis de nulidad se elige un nivel de
a = 0.05
procediéndose a obtener las frecuencias esperadas en función de las frecuencias
observadas por medio de operaciones aritméticas. Se multiplica el valor de cada
casilla por el total de la columna dividido por el total de casos.
Así por ejemplo la frecuencia
esperada de los estudiantes que prefieren la UACH es 20 (36/90) = 8. Se realiza
la misma operación para obtener el resto de frecuencias esperadas. La Tabla
4.10 presenta las frecuencias esperadas.
el valor de Xi2 es:
Finalmente se compara el valor de
Xi2 observada con el valor de Xi2 crítica. Para lo cual se requiere obtener los
grados de libertad mediante la expresión:
dónde:
gl = grados de libertad
r = número de renglones en la
tabla
c = número de columnas en la
tabla
por consiguiente los grados de
libertad son gl = (2 – 1) (3 – 1) = 2 que a un nivel a = 0.05 el valor de Xi2 crítica
es de 5.99. Como Xi2=87.20 ñ Xi2 crítica = 5.99 es posible
afirmar con cierto grado de confianza que existen diferencias significativas
acerca de la relación de la variable estudiantes recién egresados y próximos a
egresar de educación media superior y la variable preferencia por alguna
institución de educación superior. La hipótesis de nulidad no se acepta.
¿Qué es covarianza?ANCOVA
La covarianza mide la relación lineal entre dos variables. Aunque la
covarianza es similar a la correlación entre dos variables, difieren de las
siguientes maneras:
·
Los coeficientes de correlación están estandarizados. Por lo tanto, una
relación lineal perfecta da como resultado un coeficiente de 1. La correlación
mide tanto la fuerza como la dirección de la relación lineal entre dos variables.
·
Los valores de covarianza no están estandarizados. Por consiguiente, la
covarianza puede ir desde infinito negativo hasta infinito positivo. Por lo
tanto, el valor de una relación lineal perfecta depende de los datos. Puesto
que los datos no están estandarizados, es difícil determinar la fuerza de la
relación entre las variables.
Usted puede
utilizar la covarianza para comprender la dirección de la relación entre las
variables. Los valores de covarianza positivos indican que los valores por
encima del promedio de una variable están asociados con los valores por encima
del promedio de la otra variable y los valores por debajo del promedio están
asociados de manera similar. Los valores de covarianza negativos indican que
los valores por encima del promedio de una variable están asociados con los
valores por debajo del promedio de la otra variable.
El coeficiente de
correlación depende de la covarianza. El coeficiente de correlación es igual a
la covarianza dividida entre el producto de las desviaciones estándar de las
variables. Por lo tanto, una covarianza positiva siempre producirá una
correlación positiva y una covarianza negativa siempre generará una correlación
negativa.
ACTIVIDAD EN GRUPOS DE 4 ESTUDIANTES:
1.DEFINA VARIANZA Y COVARIANZA, SU UTILIDAD EN LA PRÁCTICA
2. CONSULTE LAS FÓRMULAS PARA CALCULAR LA VARIANZA Y LA COVARIANZA
3. ORGANICE LA SIGUIENTE INFORMACIÓN EN UNA TABLA Y CALCULE LA VARIANZA Y LA COVARIANZA: Se desea investigar cómo influye un programa de incentivación
económica en la productividad de la mano de obra de una compañía de servicios
de impresión, formando cuatro grupos de trabajadores aleatoriamente. Los integrantes
de dos de los grupos son menores de 24 años y los integrantes del resto del
grupo mayores de 24 años.