⋆GABY⋆: 2. PRESENTACIONES ESTADÍSTICAS Y ANÁLISIS

2.1. ORGANIZACIÓN DE DATOS.

La organización de datos es un conjunto de datos numéricos en orden creciente o decreciente y a la diferencia que existen entre el dato mayor y menor se le llama rango, de ese conjunto de datos.

2.2. DISTRIBUCIONES DE FRECUENCIAS.

Designemos con X la característica (puede ser una variable o un atributo) que deseamos observar en los elementos de una población o de una muestra. Realicemos el siguiente proceso: se observan los distintos valores o modalidades de la característica; si es una variable que admite ordenación se ordena de menor a mayor y como puede haber valores que se repitan se agrupan todos ellos. Si el valor o dato X_i se repite n_i veces a este se le denomina frecuencia absoluta de dicho valor. AI proceso que hemos descrito se le denomina tabulación de datos y cuando se culmina se obtiene un conjunto formado por valores ordenados de menor a mayor que tienen asociados el número de veces que han aparecido (n_i) que llamamos distribución de frecuencias unidimensional de datos o valores no agrupados.

Así pues, pueden haber dos tipos de distribuciones de frecuencias: las que no tienen valores repetidos o de frecuencias unitarias y las que tienen valores repetidos y por tanto, alguna o algunas de sus frecuencias no son unitarias.

Llamamos distribución de frecuencias unidimensional unitaria de la característica X al conjunto de los r datos distintos y ordenados de menor a mayor (X₁, X₂, …, X_i, …, X_r) de forma que ninguno esta repetido.

Este tipo de distribuciones surgen cuando la variable X toma pocos valores y ninguno se repite. Se representa de la siguiente manera:

Ejemplo: Supongamos que la edad de los alumnos de la sección 24 son: 20, 18, 19, 22 y 21, solo se ordenan las variables de menor a mayor.

Llamamos distribución de frecuencias unidimensional de la característica

X al conjunto de los r datos distintos, ordenados de menor a mayor, acompañados de sus respectivas frecuencias absolutas:

X₁, X₂, …, X_i, …, X_r

n₁, n₂, …, n_i, …, n_r

Este tipo de distribuciones se elaboran cuando la característica X toma pocos valores pero se repiten un gran número de veces con lo que las frecuencias ya no son unitarias. Se representa en la siguiente tabla:

Ejemplo: se le pregunta a 10 alumnos de la sección 24 su edad y estos fueron los resultados: 19, 19, 20, 18. 19, 20, 20, 18, 19, 19. Se representa así:

2.2.1. RANGO.

Es el límite dentro del cual están comprendidos todos los valores de la serie de datos, en otras palabras, es el número de diferentes valores que toma la variable en un estudio o investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango es el tamaño del intervalo en el cual se ubican todos los valores que pueden tomar los diferentes datos de la serie de valores, desde el menor de ellos hasta el valor mayor estando incluidos ambos extremos. El rango de una distribución de frecuencia se designa con la letra R.

RANGO = DATO MAYOR - DATO MENOR.

Ejemplo: la edad de los estudiantes esta entre 18 y 21 años.

R = 21 – 18

R = 3.

2.2.2. FRECUENCIA.

Es una medida que se utiliza generalmente para indicar el número de repeticiones de cualquier fenómeno o suceso periódico en la unidad de tiempo. Para calcular la frecuencia de un evento, se contabilizan un número de ocurrencias de este teniendo en cuenta un intervalo temporal, luego estas repeticiones se dividen por el tiempo transcurrido.

Un método alternativo para calcular la frecuencia es medir el tiempo entre dos repeticiones (periodo) y luego calcular la frecuencia (f) recíproca de esta manera:

Donde T es el periodo de la señal.

2.2.3 INTERVALOS DE CLASE

Los intervalos de clase son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre dos limites.

Los intervalos de clase se elaboran cuando el número de valores que puede tomar la característica de interés es muy elevado. Los intervalos pueden construirse con amplitud - diferencia entre el límite superior e inferior - constante o variable.

Para organizar los valores de la serie de datos hay que determinar un número de clases que sea conveniente. En otras palabras, que ese número de intervalos no origine un número pequeño de clases ni muy grande.

Los intervalos de clase pueden ser de tres tipos, según el tamaño que estos presenten en una distribución de frecuencia:

• Clases de igual tamaño.

• Clases desiguales de tamaño

• Clases abiertas.

2.2.4 LÍMITES REALES DE CLASE.

Los límites reales de clase se obtienen sumando al límite superior de un intervalo de clase el límite inferior del intervalo de clase contiguo superior y dividiendo por 2. A veces, los límites reales de clase se utilizan para simbolizar las clases.

2.3 TAMAÑO DE UN INTERVALO DE CLASE.

El tamaño o anchura de un intervalo de clase es la diferencia entre los límites reales de clase que lo forman y se conoce como anchura de clase, tamaño de clase o longitud de clase. Si todos los intervalos de clase de una distribución de frecuencias tienen igual anchura, esta anchura común se representa por c. En tal caso, c es igual a la diferencia entre dos sucesivos límites de clase inferiores o superiores.

Ejemplo: 25 - 22 = 28 – 25 = 3.

2.4 MARCA DE CLASE.

La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites inferior y superior de la clase y dividiendo por 2. La marca de clase se llama también punto medio de la clase.

Para análisis matemáticos posteriores, todas las observaciones pertenecientes a un intervalo de clase dado se suponen coincidentes con la marca de clase.

Ejemplo: la marca de clase en un intervalo de 20-25 es (20 + 24) /2 = 22

2.5. FRECUENCIA RELATIVA.

La frecuencia relativa es aquella que resulta de dividir cada uno de los n_i*(frecuencias absolutas) de las clases de una distribución de frecuencia de clase entre el número total de datos (N) de la serie de valores. Estas frecuencias se designan con las letras f_i, si cada f_i se multiplica por 100 se obtiene la frecuencia relativa porcentual (f_i %).

*La frecuencia absoluta es el número total de valores de las variables que se encuentran presente en una clase determinada, de una distribución de frecuencia de clase.

La frecuencia relativa se representa así:

2.6. FRECUENCIA RELATIVA ACUMULADA.

La frecuencia acumulada relativa es aquella que resulta de dividir cada una de las N_i *(frecuencias acumuladas) de las diferentes clases que integran una distribución de frecuencia de clase entre el número total de datos (N) de la serie de valores, estas frecuencias se designan con las letras F_i. Si las F_i se multiplican por 100 se obtienen las frecuencias acumuladas relativas porcentuales y las mismas se designan así: F_i %.

*Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de las sumas sucesivas de las ni que integran cada una de las clases de una distribución de frecuencia de clase, esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera clase hasta alcanzar la ultima.

La frecuencia acumulada relativa se expresa de la siguiente manera:

2.7. DISTRIBUCIONES EMPIRICAS.

La distribución empírica de una muestra de tamaño n es la lista de las frecuencias de las modalidades que toman los datos.

Es la ley de probabilidad que carga cada uno de los valores de la muestra con la probabilidad 1/n.

La función de distribución empírica asocia a x la frecuencia empírica F(x) de los datos menores o iguales a x.

Los percentiles empíricos se calculan a partir de la función de distribución empírica definida por los valores de la serie con la que se trabaja ordenada desde el valor menor al mayor, y asignando a cada valor ordenado su probabilidad calculada según la expresión:

Prob (C£xi) = i/(N +1)

Donde ”i” representa el número de orden que ocupa el valor “x” en la serie de datos ordenada en orden creciente y “N” el número total de datos. La probabilidad correspondiente al 20, 40, 50, 60 ó 80 por ciento se obtienen por interpolación lineal, considerando las probabilidades asignadas a cada dato ordenado.

2.8. GRAFICAS.

Una gráfica es una representación de datos, generalmente numéricos, mediante líneas, superficies o Símbolos, para ver la relación que esos datos guardan entre sí. También puede ser un conjunto de puntos, que se plasman en coordenadas cartesianas, y sirven para analizar el comportamiento de un proceso, o un conjunto de elementos o signos que permiten la interpretación de un fenómeno.

En la Estadística Descriptiva las representaciones graficas tienen la ventaja de que el impacto visual nos proporciona de forma instantánea una visión global del reparto de los datos observados, pero nunca deben sustituir al estudio analítico que es el que nos proporciona las conclusiones definitivas del fenómeno objeto de estudio. Los distintos tipos de gráficos son simplemente una forma complementaria, nunca sustitutiva, de describir la realidad que nos interesa.

Las graficas se pueden clasificar en:

Numéricas: con imágenes visuales que sirven para representar el comportamiento o la distribución de los datos cuantitativos de una población.
Lineales: en este tipo de gráfico se representan los valores en dos ejes cartesianos ortogonales entre sí.
De barras: se usan cuando se pretende resaltar la representación de porcentajes de datos que componen un total.
Gráficas Circulares: gráficas que nos permiten ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total.
Histogramas: Se emplea para ilustrar muestras agrupadas en intervalos.

2.8.1. HISTOGRAMAS.

Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos.

2.8.2 POLÍGONOS DE FRECUENCIA

Un polígono de frecuencia es un gráfico que se realiza a través de la unión de los puntos más altos de las columnas en un histograma de frecuencia (que utiliza columnas verticales para mostrar las frecuencias).

Los polígonos de frecuencia para datos agrupados, por su parte, se construyen a partir de la marca de clase que coincide con el punto medio de cada columna del histograma. Cuando se representan las frecuencias acumuladas de una tabla de datos agrupados, se obtiene un histograma de frecuencias acumuladas, que permite diagramar su correspondiente polígono.

2.8.3. FRECUENCIA RELATIVA.

Es la relación o cociente entre la frecuencia absoluta y el número total de observaciones.

Es la proporción entre la frecuencia de un intérvalo y el número total de datos.

Se define la frecuencia de un evento a como el cociente que resulta de dividir el número de veces que sucedió el evento entre el número total de veces que se repitió el experimento, bajo el supuesto de que en cada repetición de experimento el evento A tiene la misma oportunidad de ocurrir es decir:

EJEMPLO 1

Se lanza un dado 50 veces, el experimento sale el numero 5 ocurre 8 veces, calcular la frecuencia relativa de dicho evento.

Fa = 8/50=0.16

A la Frecuencia Relativa también se le llama probabilidad empírica o a posteriori ya que en resultados confiables solo se obtienen después de realizar el experimento un gran numero de veces.

2.8.4. FRECUENCIA ACUMULADA

Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de las sumas sucesivas de las ni que integran cada una de las clases de una distribución de frecuencia de clase, esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera clase hasta alcanzar la ultima.

2.8.5. PARETO.

Es una herramienta que se utiliza para priorizar los problemas o las causas que los generan.

Según este concepto, si se tiene un problema con muchas causas, podemos decir que el 20% de las causas resuelven el 80 % del problema y el 80 % de las causas solo resuelven el 20 % del problema.

Se recomienda el uso del diagrama de Pareto:

· Para identificar oportunidades para mejorar.

· Para identificar un producto o servicio para el análisis de mejora de la calidad.

· Cuando existe la necesidad de llamar la atención a los problemas o causas de una forma sistemática.

· Para analizar las diferentes agrupaciones de datos.

· Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones.

· Para evaluar los resultados de los cambios efectuados a un proceso comparando sucesivos diagramas obtenidos en momentos diferentes, (antes y después).

· Cuando los datos puedan clasificarse en categorías.

· Cuando el rango de cada categoría es importante.

Los propósitos generales del diagrama de Pareto:

· Analizar las causas

· Estudiar los resultados

· Planear una mejora continua

La Gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar visualmente en una sola revisión las minorías de características vitales a las que es importante prestar atención y de esta manera utilizar todos los recursos necesarios para llevar a cabo una acción de mejora sin malgastar esfuerzos ya que con el análisis descartamos las mayorías triviales.

⋆GABY⋆

Datos personales

martes, 13 de octubre de 2009

2. PRESENTACIONES ESTADÍSTICAS Y ANÁLISIS

No hay comentarios:

Publicar un comentario

Seguidores

Archivo del blog