Distribución de
frecuencias
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Tipos de
frecuencias
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un
determinado valor en
un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es
igual al número total de datos, que se representa por N.
Para
indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee
suma o sumatoria.
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un
determinado valor y el número total de
datos.
Se
puede expresar en tantos por ciento y se representa por ni.
La
suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de
todos los valores inferiores o
iguales al valor considerado.
Se representa por Fi.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es
el cociente entre la frecuencia acumulada de un
determinado valor y el número total de datos. Se puede
expresar en tantos por ciento.
Ejemplo:
Durante el mes de julio, en una ciudad se han
registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29,
30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la
variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la
tercera anotamos la frecuencia absoluta.
xi
|
fi
|
Fi
|
ni
|
Ni
|
27
|
1
|
1
|
0.032
|
0.032
|
28
|
2
|
3
|
0.065
|
0.097
|
29
|
6
|
9
|
0.194
|
0.290
|
30
|
7
|
16
|
0.226
|
0.516
|
31
|
8
|
24
|
0.258
|
0.774
|
32
|
3
|
27
|
0.097
|
0.871
|
33
|
3
|
30
|
0.097
|
0.968
|
34
|
1
|
31
|
0.032
|
1
|
31
|
1
|
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman
un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que
tengan la misma amplitud denominados clases. A cada clase se le
asigna su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Amplitud de la clase
La amplitud de la clase es
la diferencia entre
el límite superior e inferior de la clase.
Marca de clase
La marca de clase es
el punto medio de
cada intervalo y
es el valor que
representa a todo e intervalo para el cálculo de algunos parámetros.
Construcción
de una tabla de datos agrupados
3,
15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31,
26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1º
Se localizan los valores menor y mayor de la distribución. En este caso son 3 y
48.
2º
Se restan y se busca un número entero un poco mayor que la diferencia y que sea
divisible por el número de intervalos queramos establecer.
Es
conveniente que el número de intervalos oscile entre 6 y 15.
En
este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.
Se
forman los intervalos teniendo presente que el límite inferior de una clase
pertenece al intervalo, pero el límite superior no pertenece intervalo, se
cuenta en el siguiente intervalo.
ci
|
fi
|
Fi
|
ni
|
Ni
|
|
[0, 5)
|
2.5
|
1
|
1
|
0.025
|
0.025
|
[5, 10)
|
7.5
|
1
|
2
|
0.025
|
0.050
|
[10, 15)
|
12.5
|
3
|
5
|
0.075
|
0.125
|
[15, 20)
|
17.5
|
3
|
8
|
0.075
|
0.200
|
[20, 25)
|
22.5
|
3
|
11
|
0.075
|
0.275
|
[25, 30)
|
27.5
|
6
|
17
|
0.150
|
0.425
|
[30, 35)
|
32.5
|
7
|
24
|
0.175
|
0.600
|
[35, 40)
|
37.5
|
10
|
34
|
0.250
|
0.850
|
[40, 45)
|
42.5
|
4
|
38
|
0.100
|
0.950
|
[45, 50)
|
47.5
|
2
|
40
|
0.050
|
1
|
40
|
1
|
HISTOGRAMA
Un histograma es una
representación gráfica de una variable en forma de barras, donde la superficie
de cada barra es proporcional a la frecuencia de los valores representados. En
el eje vertical se representan las frecuencias, y en el eje horizontal los
valores de las variables, normalmente señalando las marcas de clase, es decir,
la mitad del intervalo en el que están agrupados los datos.
Se utiliza cuando se estudia una variable continua, como
franjas de edades o altura de la muestra, y, por comodidad, sus valores se
agrupan en clases, es decir, valores continuos. En los casos en los que los
datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de
estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales,
humanas y económicas que en ciencias naturales y exactas. Y permite la
comparación de los resultados de un proceso.
Ejemplo:
Marca de clase o valor medio
Se determina calculando el promedio entre los límites
inferior y superior. La marca de clase representa a todos los datos
pertenecientes al intervalo de clase correspondiente.
POLÍGONO DE FRECUENCIA
Variables discretas
Los polígonos
de frecuencias se realizan trazando los puntos que representan las frecuencias
y uniéndolos mediante segmentos.
Ejemplo
Las
temperaturas en un día de otoño de una ciudad han sufrido las siguientes
variaciones:
Hora
|
Temperatura
|
6
|
7º
|
9
|
12°
|
12
|
14°
|
15
|
11°
|
18
|
12°
|
21
|
10°
|
24
|
8°
|
Variables
continuas o datos agrupados
Los polígonos
de frecuencias se realizan trazando los puntos formados las marcas de clase y
las frecuencias, y uniéndolos mediante segmentos
.
También se
puede construir el polígono de frecuencia uniendo los puntos medios de cada
rectángulo de un histograma.
Ejemplo
El peso de 65
personas adultas viene dado por la siguiente tabla:
ci
|
fi
|
Fi
|
|
[50, 60)
|
55
|
8
|
8
|
[60, 70)
|
65
|
10
|
18
|
[70, 80)
|
75
|
16
|
34
|
[80, 90)
|
85
|
14
|
48
|
[90, 100)
|
95
|
10
|
58
|
[100, 110)
|
110
|
5
|
63
|
[110, 120)
|
115
|
2
|
65
|
65
|
Moda
La
moda se refiere al dato más repetido, el valor de la variable con mayor
frecuencia absoluta.2 En cierto sentido la definición matemática corresponde
con la locución "estar de moda", esto es, ser lo que más se lleva.
Su
cálculo es extremadamente sencillo, pues sólo necesita un recuento. En
variables continuas, expresadas en intervalos, existe el denominado intervalo
modal o, en su defecto, si es necesario obtener un valor concreto de la
variable, se recurre a la interpolación.
Por
ejemplo, el número de personas en distintos vehículos en una carretera:
5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
La moda, cuando los datos están agrupados, es un
punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c
la amplitud del intervalo, que verifiquen que:
Las calificaciones en la asignatura de Matemáticas
de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
Número
de alumnos
|
2
|
2
|
4
|
5
|
8
|
9
|
3
|
4
|
2
|
Propiedades
Sus principales propiedades son:
·
Cálculo
sencillo.
·
Interpretación
muy clara.
·
Al
depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es
por ello el parámetro más utilizado cuando al resumir una población no es
posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios
periodísticos las características más frecuentes de determinado sector social.
Esto se conoce informalmente como "retrato robot".
Mediana
La mediana es un
valor de la variable que deja por debajo de sí a la mitad de los datos, una vez
que éstos están ordenados de menor a mayor.4 Por ejemplo, la mediana del número de
hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2,
3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos:
1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:
En caso de un número
par de datos, la mediana no correspondería a ningún valor de la variable, por
lo que se conviene en tomar como mediana el valor intermedio entre los dos
valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:
Se toma como mediana
Existen métodos de
cálculo más rápidos para datos más numerosos (véase el artículo principal dedicado a este parámetro). Del mismo
modo, para valores agrupados en intervalos, se halla el "intervalo
mediano" y, dentro de éste, se obtiene un valor concreto por
interpolación.
Cálculo
de la mediana para datos agrupados
Primero hallamos las
frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).
Así, aplicando la
formula asociada a la mediana para n impar, obtenemos X (39+1)/2 = X20 y
basándonos en la fórmula que hace referencia a las frecuencias absolutas:
Ni-1< n/2 < Ni
= N19 < 19.5 < N20
Por tanto la mediana
será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo,
21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5
puntos (es aconsejable no olvidar las unidades; en este caso como estamos
hablando de calificaciones, serán puntos)
La mitad de la clase
ha obtenido un 5 o menos, y la otra mitad un 5 o más.
Ejemplo (N par)
Las calificaciones en
la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la
siguiente tabla (debajo):
Calificaciones
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
Número de alumnos
|
2
|
2
|
4
|
5
|
6
|
9
|
4
|
4
|
2
|
Calculemos la Mediana:
Primero hallamos las
frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
Si volvemos a
utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y
basándonos en la fórmula que hace referencia a las frecuencias absolutas -->
Ni-1< n/2 < Ni = N18 < 19 < N19
Con lo cual la
mediana será la media aritmética de los valores de la variable que ocupen el
decimonoveno y el vigésimo lugar.
En nuestro ejemplo,
el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo
hasta el vigésimo octavo) Con lo que Me = (5+6)/2 = 5,5 puntos.
xi
|
fi
|
Fi
|
1
|
2
|
2
|
2
|
2
|
4
|
3
|
4
|
8
|
4
|
5
|
13
|
5
|
6
|
19 = 19
|
6
|
9
|
28
|
7
|
4
|
32
|
8
|
4
|
36
|
9
|
2
|
38
|
Media
aritmética]
La media aritmética es un promedio estándar que a menudo
se denomina "promedio".
Por ejemplo, la media
aritmética de 34, 27, 45, 55, 22, 34 (seis valores) es
Media
aritmética ponderada
La media es
invariante frente a transformaciones lineales, cambio de origen y escala, de
las variables, es decir si X es una variable aleatoria e Y es otra variable aleatoria que depende
linealmente de X, es
decir, Y = a·X
+ b (donde a representa la magnitud del cambio de
escala y b la del cambio de origen) se tiene que: