miércoles, 2 de octubre de 2013

ESTADÍSTICA PARTE 2


Distribución de frecuencias
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.

Tipos de frecuencias

Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.

Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.


Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.

Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.
Se representa por Fi.

Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
Ejemplo:
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.

xi
fi
Fi
ni
Ni
27
1
1
0.032
0.032
28
2
3
0.065
0.097
29
6
9
0.194
0.290
30
7
16
0.226
0.516
31
8
24
0.258
0.774
32
3
27
0.097
0.871
33
3
30
0.097
0.968
34
1
31
0.032
1
31
1

Distribución de frecuencias agrupadas

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.

Límites de la clase

Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.

Amplitud de la clase

La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.

Marca de clase

La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo e intervalo para el cálculo de algunos parámetros.

Construcción de una tabla de datos agrupados
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1º Se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48.
2º Se restan y se busca un número entero un poco mayor que la diferencia y que sea divisible por el número de intervalos queramos establecer.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo.

ci
fi
Fi
ni
Ni
[0, 5)
2.5
1
1
0.025
0.025
[5, 10)
7.5
1
2
0.025
0.050
[10, 15)
12.5
3
5
0.075
0.125
[15, 20)
17.5
3
8
0.075
0.200
[20, 25)
22.5
3
11
0.075
0.275
[25, 30)
27.5
6
17
0.150
0.425
[30, 35)
32.5
7
24
0.175
0.600
[35, 40)
37.5
10
34
0.250
0.850
[40, 45)
42.5
4
38
0.100
0.950
[45, 50)
47.5
2
40
0.050
1
40
1
  
HISTOGRAMA

Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.

Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

Ejemplo:












Marca de clase o valor medio
Se determina calculando el promedio entre los límites inferior y superior. La marca de clase representa a todos los datos pertenecientes al intervalo de clase correspondiente.



POLÍGONO DE FRECUENCIA

Variables discretas

Los polígonos de frecuencias se realizan trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos.

Ejemplo
Las temperaturas en un día de otoño de una ciudad han sufrido las siguientes variaciones:

Hora
Temperatura
6
9
12°
12
14°
15
11°
18
12°
21
10°
24
  



Variables continuas o datos agrupados

Los polígonos de frecuencias se realizan trazando los puntos formados las marcas de clase y las frecuencias, y uniéndolos mediante segmentos
.
También se puede construir el polígono de frecuencia uniendo los puntos medios de cada rectángulo de un histograma.

Ejemplo
El peso de 65 personas adultas viene dado por la siguiente tabla:





ci
fi
Fi
[50, 60)
55
8
8
[60, 70)
65
10
18
[70, 80)
75
16
34
[80, 90)
85
14
48
[90, 100)
95
10
58
[100, 110)
110
5
63
[110, 120)
115
2
65


65




Moda
La moda se refiere al dato más repetido, el valor de la variable con mayor frecuencia absoluta.2 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.

Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:


Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones
1
2
3
4
5
6
7
8
9
Número de alumnos
2
2
4
5
8
9
3
4
2
Propiedades
Sus principales propiedades son:
·         Cálculo sencillo.
·         Interpretación muy clara.
·         Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".
Mediana
La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.4 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

Se toma como mediana 

Existen métodos de cálculo más rápidos para datos más numerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Cálculo de la mediana para datos agrupados

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).
Así, aplicando la formula asociada a la mediana para n impar, obtenemos X (39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:
Ni-1< n/2 < Ni = N19 < 19.5 < N20
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos)
La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.
Ejemplo (N par)
Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones
1
2
3
4
5
6
7
8
9
Número de alumnos
2
2
4
5
6
9
4
4
2
Calculemos la Mediana:
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar.
En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo) Con lo que Me = (5+6)/2 = 5,5 puntos.

xi
fi
Fi
1
2
2
2
2
4
3
4
8
4
5
13
5
6
19 = 19
6
9
28
7
4
32
8
4
36
9
2
38














                                                           

Media aritmética]

La media aritmética es un promedio estándar que a menudo se denomina "promedio".


La media se confunde a veces con la mediana o moda. La media aritmética es el promedio de un conjunto de valores, o su distribución; sin embargo, para las distribuciones con sesgo, la media no es necesariamente el mismo valor que la mediana o que la moda. La media, moda y mediana son parámetros característicos de una distribución de probabilidad. Es a veces una forma de medir el sesgo de una distribución tal y como se puede hacer en las distribuciones exponencial y de Poisson.
Por ejemplo, la media aritmética de 34, 27, 45, 55, 22, 34 (seis valores) es 

 

 

 

Media aritmética ponderada



La media es invariante frente a transformaciones lineales, cambio de origen y escala, de las variables, es decir si X es una variable aleatoria e Y es otra variable aleatoria que depende linealmente de X, es decir, Y = a·X + b (donde a representa la magnitud del cambio de escala y b la del cambio de origen) se tiene que:






No hay comentarios:

Publicar un comentario