ESTADÍSTICA DESCRIPTIVA

 

ESTADÍSTICA DESCRIPTIVA

Lo primero que se debe de tomar en cuenta en la Estadística Descriptiva es la Obtención de Datos, para luego poder aplicar las Medidas Descriptivas.

OBTENCIÓN DE DATOS Y CLASIFICACION

Los datos al tenerlos tabulados podemos clasificarlos en una tabla de distribución de frecuencias, para ello debemos de elaborar una tabla en donde tengamos definidas cada una de las siguientes frecuencias para cada columna de la tabla.

 

FRECUENCIA ABSOLUTA ( f )

Esta columna nos define la frecuencia o las repeticiones con la que aparecen cada uno de los datos que estamos trabajando en la distribución general de datos.

 

FRECUENCIA ACUMULADA ( fa )

Esta columna se refiere a los valores que van resultando de sumar a la frecuencia absoluta del valor la frecuencia acumulada del dato anterior. El total de todas las frecuencias acumuladas debe de ser igual al número total de datos. Se puede calcular por la fórmula siguiente:

FRECUENCIA RELATIVA ( fr )

Esta frecuencia de define como la relación o proporción que existe entre cada una de las frecuencias de nuestra distribución y el número total de datos o la sumatoria de las frecuencias, se puede trabajar con cuatro decimales. Se puede calcular con la siguiente fórmula:

 

FRECUENCIA RELATIVA ACUMULADA ( fra )

Esta frecuencia se define como la suma acumulada de cada una de las frecuencias relativas de los datos de nuestra distribución. La suma de la todas ellas al final debe ser igual a uno y se puede trabajar con cuatro decimales. Se calcula utilizando la siguiente fórmula:

 

PORCENTAJE ( % )

Esta columna nos indica la cantidad porcentual que cada uno de nuestros datos ocupa dentro de la distribución, se calcula por medio de una simple regla de tres o multiplicando la frecuencia relativa de cada dato por 100, puede trabajarse sin decimales. Se calcula por medio de la siguiente fórmula:

 

 

GRADOS ( °G )

Esta columna nos indica la proporción dentro de un diagrama de sectores que es ocupada por cada uno de nuestros datos, se calcula sobre los 360° de ángulo que posee una circunferencia completa y se puede trabajar sin decimales. Se pueden hallar utilizando la siguiente fórmula:

EJEMPLO No. 1:

     En la siguiente tabla se muestra se muestra los datos de 48 personas y que se clasifica según su edad.  Se debe de calcular la distribución de frecuencias, un diagrama sectores, un diagrama de barras y un polígono de frecuencias o histograma.

Ahora procedemos a ordenar nuestra tabla en donde:  Xi son los datos (la edad) la cual ordenaremos de forma ascendente y f será la frecuencia (No. De Personas) con la que estos datos se repiten, entonces la tabla queda de la siguiente manera:

 

Tenemos que la muestra (n) es igual a 48. La Frecuencia Relativa debe de sumar 1.  Observe que en la ultima fila de la Frecuencia Relativa Acumulada (fra) el valor es de 1.  El porcentaje debe de sumar 100 y los grados deben de sumar 360.

Posteriormente se realizan las Graficas de la siguiente manera:

La grafica del Histograma se realiza en Excel por medio del siguiente procedimiento: seleccionamos la columna de Datos (Xi) y la columna de Frecuencia (f), posteriormente vamos al menú insertar y seleccionamos Gráfico..., emergerá una ventana con el nombre Asistente para gráficos y encontraremos dos pestañas siendo estas: Tipos estándar y Tipos Personalizados, la que nos interesa es la primera (tipos estándar), ahí encontraremos distintos tipos de gráficos, las que se van a utilizar serán gráfico de Columnas, Circular y  XY (Dispersión).    Para obtener el Histograma  se seleccionan tipo de gráfico XY (Dispersión) y el subtipo de gráfico será: Dispersión con líneas suavizadas y sin marcadores de datos, le damos un clic en siguiente, volvemos a darle clic en siguiente y aparecen varias pestañas, nos posicionamos en la pestaña de Títulos y en Título del gráfico escribimos Histograma; nos posicionamos en la pestaña de Leyenda y deshabilitamos la casilla de verificación Mostrar leyenda por medio de clic.  Damos un clic en Finalizar y tendremos nuestra gráfica.

La grafica del Diagrama de Sectores lleva casi los mismos paras que el Histograma la diferencia entre una y otra es que la columna a seleccionar será la de Grados (°G) y el tipo de Grafico a utilizar va ha ser el Circular y el Subtipo de gráfico  el que yo utilizo es el Circular seccionado con efecto 3D, todo lo demás se realiza de la misma forma a la planteada anteriormente.

Para la gráfica del Diagrama de Barras la columna a utilizar será la de Frecuencia (f), el tipo de gráfico es el de Columnas y se escoge el subtipo Columna agrupada.   Se utiliza el mismo procedimiento que con las anteriores.  Al tener nuestra grafica terminada nos aparece un cuadro, le damos doble clic sobre una de las columnas (se seleccionan todas) emergerá una ventana con el nombre de Formato de serie de datos...,  buscamos la pestaña de Opciones y habilitamos la casilla de verificación Variar colores entre puntos, de esta manera cambiamos los colores de todas las columnas de nuestro gráfico.

 

 

 

 

Medidas de tendencia Central  y  Medidas de Dispersión

Tanto las medidas de tendencia central como las medidas de dispersión se clasificaran según el numero de datos obtenidos, si los datos son menores o iguales a 40 entonces los clasificaremos como Datos No Agrupados y si los datos son mayores a 40 se clasificaran como Datos Agrupados.

A continuación se estudiara la forma en que se clasifica la medida de Tendencia Central y la de Dispersión, y dando la definición de su clasificación.

 

MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS

La característica que mas sobresale de una distribución de datos, es que tiende a acumularse hacia el centro de la misma, y ha esto se le denomina Tendencia Central.

Las medidas de Tendencia Central Son:

·          MEDIA ARITMÉTICA (X), EL VALOR MEDIO

·          MEDIANA, EL VALOR CENTRAL

·          MODA, EL VALOR MÁS FRECUENTE

LA MEDIA ARITMETICA 

La media aritmética o media se obtiene sumando todos los valores de una población o muestra y dividiendo el valor obtenido entre el número de valores que se sumaron o el número total de datos. Cuando se calcula la media de una muestra de valores se utiliza la siguiente fórmula donde n nos indica el número de valores de la muestra. 

 nos indica la suma de todos los elementos de la muestra, y se lee la sumatoria desde que i es igual a 1 hasta n.

 

LA MEDIANA 

La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales tales que el número de valores iguales a la mediana o mayores que ella es igual al número de valores iguales o menores que ella. Si el número de valores es impar, la mediana será el valor que esta en medio, cuando los valores se han arreglado en orden de magnitud. Cuando el número de valores es par, no se tiene una sola observación en medio, sino que dos, en este caso se toma la mediana como la media de estas dos observaciones de en medio, cuando los valores se han arreglado en orden de magnitud. De manera que la mediana nos mide una posición y luego se determina el dato que esta ocupando esta posición, dicha posición se debe buscar en la frecuencia acumulada. 

 

LA MODA

La moda de un conjunto de valores es aquel que ocurre con más frecuencia. Si todos los valores son distintos no hay moda, pero en una distribución también puede haber más de una moda. 

MEDIDAS DE DISPERSION

Existe otro tipo de medidas que indican la tendencia de los datos a dispersarse respecto al valor central.

La dispersión de  un conjunto de observaciones se refiere a la variedad que exhiben los valores de las observaciones. Si todos los valores son iguales no hay dispersión si no todos son iguales hay dispersión en los datos.

Entre las medidas de dispersión se encuentran las siguientes:

EL RECORRIDO (R)

LA VARIANZA (S2))

LA DESVIACIÓN ESTANDAR (S)

EL COEFICIENTE DE VARIACIÓN (C.V)

 

EL RECORRIDO ( R ) 

Es la diferencia que existe entre el dato mayor y dato menor de un conjunto de observaciones, se denota el recorrido por R y para calcularlo se aplica la siguiente fórmula: 

LA VARIANCIA (s²)

La variancia es la que mide la dispersión con respecto a la diseminación de los datos con respecto a su media. También llamada varianza y para calcularla se resta a la media cada uno de los valores de la distribución, se elevan al cuadrado las diferencias y, se suman todas ellas. Esta suma de los cuadrados se divide entre el tamaño de la muestra menos 1. Las fórmula se calcula con la siguiente formula:

 

 

LA DESVIACION ESTANDAR ( s ) 

Se define como una medida de dispersión en unidades originales, se calcula tomando la raíz cuadrada del valor de la variancia.  La fórmula de la desviación es la siguiente:

      

EL COEFICIENTE DE VARIACION ( CV ) 

Es una medida de variación relativa que expresa la desviación estándar como un porcentaje de la media. La fórmula esta dada por la expresión:

 

Continuando con el estudio de los datos no agrupados, pondremos en practica la distribución de frecuencias de la tabla anterior y obtendremos tanto las Mediadas de Tendencia Central como las Medidas de Dispersión.

Ejemplo 2:

Con la tabla de distribución de frecuencias realizada anteriormente, obtenga las medidas de Tendencia Central y las Medidas de Dispersión.

 

Obtención de Las Medidas de Tendencia Central:

Media Aritmética:  Para obtener la media aritmética se realiza el siguiente procedimiento.  La sumatoria de Xi f  se divide entre la sumatoria de la frecuencia f (n).

Mediana:  para la obtención de la mediana se debe de tomar en cuenta las opciones siguientes:

Primero: si n es par entonces se calcula así.  A. La sumatoria de f (n) se divide entre 2.  B. Al resultado obtenido en el inciso A se le suma la unidad (1).  C. El resultado obtenido en el inciso A se suma al resultado obtenido en el inciso B y el resultado obtenido  de la sumatoria de estos dos se divide entre 2.   Siguiendo los pasos anteriores se obtiene la mediana.

Moda:  La moda se calcula yendo a la tabla y posesionándonos en la columna de f y buscamos el numero mayor, en este ejemplo el numero mayor en la tabla de f es 12 y este corresponde al dato 24 en la columna de Xi ; es probable que se pueda encontrar más de una moda.

 

Obtención de las Medidas de Dispersión.

Recorrido: el recorrido se obtiene con la columna de Xi, al dato mayor se le resta el dato menor. En este ejemplo el dato mayor es 60  y el menor es 14 obteniendo un resultado de 46.

 

Varianza:  par la obtención de la varianza en este ejemplo se realizaron adicionaron tres columnas.  La primera se obtuvo de  la diferencia de la columna de Xi y la media aritmética;  La segunda columna es la elevación al cuadrado de la columna anterior;  La tercera es el producto de la frecuencia con la columna dos.  Ahora podemos calcular la varianza,  la sumatoria de la columna tres se divide entre n-1, entonces queda de la siguiente manera: 9440.67 dividido entre 48 – 1 el resultado es 200.87 siendo esta la Varianza.

 

 

Desviación Estándar:  para obtener el resultado de la desviación estándar lo que se debe de realizar es sacar la raíz cuadrada de la varianza, en este caso seria la raíz cuadrada de 200.87 dando un resultado de 14.17

 

 

Coeficiente de Variación: para obtener el resultado del coeficiente de variación se procede de la siguiente manera:  el resultado de la desviación estándar se divide entre el resultado obtenido de la media aritmética y cociente obtenido se multiplica por 100. En el ejemplo seria de la siguiente manera 14.17 dividido entre 32.67 y multiplicado por 100, el resultado es 43.39%

 

A continuación se muestran las imágenes de cómo queda la tabla y la obtención de las medidas de tendencia central y las medidas de dispersión.