viernes, 16 de febrero de 2018

CARACTERÍSTICAS DE LA CENTRALIZACIÓN DE DATOS

ESCUELA SUPERIOR DE ADMINISTRACIÓN PÚBLICA ESAP
ESTUDIANTES DE TERCER SEMESTRE DE APT

Esp. Fabián Orozco M.
Tutor.


Medidas de tendencia central

Supóngase que un determinado alumno obtiene 35 puntos en una prueba de matemática. Este puntaje, por sí mismo tiene muy poco significado a menos que podamos conocer el total de puntos que obtiene una persona promedio al participar en esa prueba, saber cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas calificaciones.
En otras palabras, para que una calificación tenga significado hay que contar con elementos de referencia generalmente relacionados con ciertos criterios estadísticos.

Volviendo a nuestro ejemplo, digamos que la calificación promedio en la prueba que hizo el alumno  fue de 20 puntos. Con este dato podemos decir que la calificación del alumno se ubica notablemente sobre el promedio. Pero si la calificación promedio fue de 65 puntos, entonces la conclusión sería muy diferente, debido a que se ubicaría muy por debajo del promedio de la clase.
En resumen, el propósito de las medidas de tendencia central es:
Mostrar en qué lugar se ubica la persona promedio o típica del grupo.
Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico.
Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones.
Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.
Las medidas de tendencia central más comunes son:
La media aritmética : comúnmente conocida como media o promedio . Se representa por medio de una letra o por una con una línea en la parte superior.
La mediana : la cual es el puntaje que se ubica en el centro de una distribución. Se representa como Md .

La moda : que es el puntaje que se presenta con mayor frecuencia en una distribución. Se representa Mo .


De estas tres medidas de tendencia central, la media es reconocida como la mejor y más útil. Sin embargo, cuando en una distribución se presentan casos cuyos puntajes son muy bajos o muy altos respecto al resto del grupo, es recomendable utilizar la mediana o la moda. (Porque dadas las características de la media, esta es afectada por los valores extremos).
La media es considerada como la mejor medida de tendencia central, por las siguientes razones:
Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media.
Es la medida de tendencia central más conocida y utilizada.
Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras que las medianas y las modas de las distribuciones no se promedian.
La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la mediana y la moda en muy pocos casos.
Cómo calcular, la media, la moda y la mediana
Media aritmética  o promedio
Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total . En palabras más simples, corresponde a la suma de un conjunto de datos dividida por el número total de dichos datos.

Ejemplo 1:
En matemáticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3
n = 6 (número total de datos)
La media aritmética de las notas de esa asignatura es 4,8. Este número representa el promedio .
Ejemplo 2:
Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de frecuencias y luego calcular la media aritmética. El siguiente cuadro con las medidas de 63 varas de pino lo ilustra.
Largo (en m)
Frecuencia absoluta
Largo por Frecuencia absoluta
5
10
5          .       10  =   50
6
15
6          .        15 =   90
7
20
7          .        20 =  140
8
12
8          .        12 =    96
9
6
9            .          6 = 54
Frecuencia total = 63
430

Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor, por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces).
Moda (Mo)
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o sea, cual se repite más.
Ejemplo 1:
Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de niñas de un Jardín Infantil.
5, 7, 3, 3 , 7, 8, , 5, 9, 5, , 4, 3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3)
Ejemplo 2:
20, 12, 14, 23, 78, 56, 96
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de valores no tiene moda.
Mediana (Med)
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante corresponde al número del caso que representa la mediana de la distribución.
Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores antes y después de él en un conjunto de datos agrupados.
Según el número de valores que se tengan se pueden presentar dos casos:
Si el número de valores es impar, la Mediana corresponderá al valor central de dicho conjunto de datos.
Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2).
Ejemplo 1:
Se tienen los siguientes datos:  5, 4, 8, 10, 9, 1, 2
Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene:  1, 2, 4, , 8, 9, 10
El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares.
Ejemplo 2:
El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med será el promedio de los valores centrales.
21, 19, 18, 15, 13, 11 , 10, 9, 5, 3
Ejemplo 3 :

Interpretando el gráfico de barras podemos deducir que:
5 alumnos obtienen puntaje de 62
5 alumnos obtienen puntaje de 67
8 alumnos obtienen puntaje de 72
12 alumnos obtienen puntaje de 77
16 alumnos obtienen puntaje de 82
4 alumnos obtienen puntaje de 87
lo que hace un total de 50 alumnos
Sabemos que la mediana se obtiene haciendo
lo cual significa que la mediana se ubica en la posición intermedia entre los alumnos 25 y 26 (cuyo promedio es 25,5), lo cual vemos en el siguiente cuadro:
puntaje
alumnos
62
1
62
2
62
3
62
4
62
5
67
6
67
7
67
8
67
9
67
10
72
11
72
12
72
13
72
14
72
15
72
16
72
17
72
18
77
19
77
20
77
21
77
22
77
23
77
24
77
25
77
26
77
27
77
28
77
29
77
30
82
31
82
32
82
33
82
34
82
35
82
36
82
37
82
38
82
39
82
40
82
41
82
42
82
43
82
44
82
45
82
46
87
47
87
48
87
49
87
50
El alumno 25 obtuvo puntaje de 77 
El alumno 26  obtuvo puntaje de 77
Entonces, como el total de alumnos es par debemos promediar esos puntajes:

La mediana es 77, lo cual significa que 25 alumnos obtuvieron puntaje desde 77 hacia abajo (alumnos 25 hasta el 1 en el cuadro)  y 25 alumnos obtuvieron puntaje de 77 hacia arriba (alumnos 26 hasta el 50 en el cuadro).
ACTIVIDAD EN GRUPOS: 

1. Ordene de menor a mayor los datos de la tabla anterior, organícelos en intervalos de Clase, Calcule Marca de Clase, frecuencia Absoluta, frecuencia relativa, Frecuencia Acumulada , Frecuencia Acumulada Relativa.

2. Halle la Sumatoria de las frecuencias absolutas

Nota: Entregar en hoja cuadriculada


"En política sucede como en las matemáticas: todo lo que no es totalmente correcto, está mal". Faom.

viernes, 9 de febrero de 2018

LA DISTRIBUCIÓN DE FRECUENCIAS


ESCUELA SUPERIOR DE ADMINISTRACIÓN PÚBLICA ESAP TERRITORIAL CAUCA
ESTUDIANTES DE III. SEMESTRE CETAP POPAYÁN

Profesor: Fabián Orozco Méndez
Tutor
DISTRIBUCIÓN DE FRECUENCIAS
Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.
Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la exhibición de imágenes violentas por televisión, para lo cual han recogido los siguientes datos:
ESCUELA SUPERIOR DE ADMINISTRACIÓN PÚBLICA ESAP TERRITORIAL CAUCA

ESTUDIANTES DE III. SEMESTRE CETAP POPAYÁN

Profesor: Fabián Orozco Méndez
Tutor
DISTRIBUCIÓN DE FRECUENCIAS
Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos.
Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la exhibición de imágenes violentas por televisión, para lo cual han recogido los siguientes datos:

La inspección de los datos originales no permite responder fácilmente a cuestiones como cuál es la actitud mayoritaria del grupo, y resulta bastante más difícil determinar la magnitud de la diferencia de actitud entre hombres y mujeres.
Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable acompañados del número de veces (la frecuencia) que aparece cada valor:

X: Símbolo genérico de la variable.
f: Frecuencia (también se simboliza como ni).
La distribución de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria de los individuos del grupo estudiado es indiferente.
La interpretación de los datos ha sido facilitada porque se ha reducido el número de números a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la variable y 5 frecuencias).
Generalmente las tablas incluyen varías columnas con las frecuencias relativas (son el número de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"), frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias de los valores iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No obstante la frecuencia acumulada también es definida incluyendo al valor de referencia), frecuencias acumuladas relativas (la frecuencia acumulada relativa es el total de frecuencias relativas de los valores iguales o inferiores al de referencia, y se simbolizan "fr" o "pa")
Ejemplo: Consideremos el siguiente grupo de datos:

La distribución de freciemcias es:

La reducción de datos mediante el agrupamiento en frecuencias no facilita su interpretación: La tabla es demasiado grande. Para reducir el tamaño de la tabla agrupamos los valores en intervalos, y las frecuencias son las de los conjuntos de valores incluidos en los intervalos:

Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar inmediatamente que el intervalo con mayor número de datos es el 34-39, o que el 75% de los datos tiene valor inferior a 46.
Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".
Elementos básicos de las tablas de intervalos:
  • Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una distribución de frecuencias
  • Límites aparentes: Valores mayor y menor del intervalo que son observados en la tabla. Dependen de la precisión del instrumento de medida. En el ejemplo, los límites aparentes del intervalo con mayor número de frecuencias son 34 y 39.
  • Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse si se contara con un instrumento de precisión perfecta. En el intervalo 34-39, estos límites son 33.5 y 39.5
  • Punto medio del intervalo (Mco Marca de clase): Suma de los límites dividido por dos. Mc del intervalo del ejemplo= 36.5
  • Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite exacto inferior. En el ejemplo es igual a 6.



Distribución de frecuencias mediante la Regla de Sturgess

Para construir una distribución de frecuencias mediante la regla de Sturgess se necesita encontrar tres datos.

1. La cantidad de clases (k).

Para calcular la cantidad de clases necesarias en  nuestra distribución se utiliza la siguiente fórmula

   k = 1 + 3.322 log n

Donde n es la cantidad de datos de nuestra muestra, el valor de k debe ser un número entero, por lo tanto, siempre se debe redondear al número entero próximo. 

2. El rango de nuestros datos (R).

El rango se encuentra de la siguiente manera:

R = valor mayor - valor menor


3. La amplitud de cada clase. (A).

Para la amplitud se realiza lo siguiente:

A = R/K


La inspección de los datos originales no permite responder fácilmente a cuestiones como cuál es la actitud mayoritaria del grupo, y resulta bastante más difícil determinar la magnitud de la diferencia de actitud entre hombres y mujeres.
Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable acompañados del número de veces (la frecuencia) que aparece cada valor:
X: Símbolo genérico de la variable.
f: Frecuencia (también se simboliza como ni).
La distribución de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria de los individuos del grupo estudiado es indiferente.
La interpretación de los datos ha sido facilitada porque se ha reducido el número de números a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la variable y 5 frecuencias).
Generalmente las tablas incluyen varías columnas con las frecuencias relativas (son el número de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"), frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias de los valores iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No obstante la frecuencia acumulada también es definida incluyendo al valor de referencia), frecuencias acumuladas relativas (la frecuencia acumulada relativa es el total de frecuencias relativas de los valores iguales o inferiores al de referencia, y se simbolizan "fr" o "pa")
Ejemplo: Consideremos el siguiente grupo de datos: Las Edades de 20 estudiantes de III Semestre de APT. 16, 17, 20, 20 , 22 , 23, 25, 25, 27, 28, 29, 30, 20, 23, 26, 31, 35, 37, 31, 30.

La distribución de frecuencias es: ELABORE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIAS CON LOS DATOS ANTERIORES.

Agrupamos los valores en intervalos, y las frecuencias son las de los conjuntos de valores incluidos en los intervalos:

  • Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una distribución de frecuencias
  • Límites aparentes: Valores mayor y menor del intervalo que son observados en la tabla. Dependen de la precisión del instrumento de medida. En el ejemplo, los límites aparentes del intervalo con mayor número de frecuencias son 34 y 39.
  • Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse si se contara con un instrumento de precisión perfecta. En el intervalo 34-39, estos límites son 33.5 y 39.5
  • Punto medio del intervalo (Mco Marca de clase): Suma de los límites dividido por dos. Mc del intervalo del ejemplo= 36.5
  • Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite exacto inferior. En el ejemplo es igual a 6.

 Distribución de frecuencias mediante la Regla de Sturgess

Para construir una distribución de frecuencias mediante la regla de Sturgess se necesita encontrar tres datos.

1. La cantidad de clases (k).

Para calcular la cantidad de clases necesarias en  nuestra distribución se utiliza la siguiente fórmula

   k = 1 + 3.322 log n

Donde n es la cantidad de datos de nuestra muestra, el valor de k debe ser un número entero, por lo tanto, siempre se debe redondear al número entero próximo. 

2. El rango de nuestros datos (R).

El rango se encuentra de la siguiente manera:

R = valor mayor - valor menor


3. La amplitud de cada clase. (A).

Para la amplitud se realiza lo siguiente:

A = R/K

"Obra de tal forma, que tu obrar, se convierta en norma universal"FAOM