Balebona - Pasos a seguir para construir un Histograma.pdf

Pasos a seguir para construir un histograma por Ing. Balebona J. Paso 01: Calcular el intervalo de los datos. el interv

Views 63 Downloads 0 File size 850KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Pasos a seguir para construir un histograma por Ing. Balebona J. Paso 01: Calcular el intervalo de los datos.

el intervalo de datos de la tabla 2.3 es:

1.17 1.23 0.15 0.19 0.92

Tabla 2.3 Datos Sueltos 1.61 1.16 1.38 3.76 1.94 0.96 2.41 0.71 0.02 0.82 0.47 2.16 0.75 2.59 3.07

Tabla 2.3 Datos Ordenados 0.02 0.15 0.19 0.47 0.71 0.75 0.82 0.92 0.96 1.16 1.17 1.23 1.38 1.40 1.59 1.61 1.94 2.01 2.16 2.41 2.59 3.07 3.53 3.76 4.75

3.53 4.75 1.59 2.01 1.40

Paso 02: Seleccionar el número de Clases Dividir entre 5 y 20 clases de igual anchura. El número de clases es arbitrario, pero se obtiene una mejor descripción gráfica si se utiliza pocas clases cuando el número de datos es pequeño y un mayor número de clases cuando el conjunto de datos es grande, podemos seguir la siguiente regla empírica: Tabla 01 Regla empírica para determinar el número de clases en un Histograma Número de observaciones en un conjunto de datos Número de Clases menos de 25 5ó6 de 25 a 50 De 7 a 14 más de 50 De 15 a 20 Otra forma de seleccionar el número de clases en un histograma es la famosa Regla de Sturges. Propuesta por Herbert Sturges en 1926, es una regla práctica acerca del número de clases que deben considerar al elaborarse un histograma. Este número viene dado por la siguiente expresión: (

)

Que puede pasarse a logaritmo base 10 de la siguiente forma: (

)

El valor de número de clases es común redondearlo al entero más cercano.

Ing. Balebona Jenry

Página 1 de 12

The problem with Sturges’ rule for constructing histograms por Rob J Hyndman http://robjhyndman.com/papers/sturges.pdf La frontera de clase más baja (o primera) deberá estar situada por debajo de la medición más pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda quedar exactamente en la frontera de una clase. Para el caso de los 25 datos de la tabla 01 se escoge 7 como número de clases. Paso 03: Determinar la anchura de Clase. La anchura de cada clase vendrá dada por:

Redondearemos esta anchura hacia arriba y utilizaremos una anchura de clase de 0,7. Paso 04: Determinar por donde comenzar con la primera clase. Si observamos los datos de la tabla 2.3 los mismos presentan una precisión de centésimas, es decir, dos decimales siendo el número menor en este ejemplo de 0,02 el cual debe estar contenido en la primera clase por supuesto, para ello deberemos darle una holgura al intervalo de clase para que contenga al mismo. es decir el instrumento de medida con que fue tomado los datos tiene dos centésimas de apreciación siendo la mínima expresión que se puede tener con dos décimas el 0,01, por tanto estas medidas tendrán una incertidumbre debidas al error de apreciación de 0,01/2=0,005

NOTA: Observe lo siguiente, el dato mayor debe estar contenido en el último intervalo de clases:

 Paso 05: Determinar el resto de intervalo SI se comienza por 0,015 al mismo hay que agregarle la anchura de clase, que en nuestro caso es de 7.

y el resto se procede de igual manera, quedando la siguiente distribución:

Ing. Balebona Jenry

Página 2 de 12

Clase 1 2 3 4 5 6 7

Intervalo de Clase 0,0150,715 0,7151,415 1,4152,115 2,1152,815 2,8153,515 3,5154,215 4,2154,915

Paso 06: Determinar la frecuencia de clase para cada intervalo de clase. Para determinar la frecuencia de clase para cada intervalo de clase se procede a contar el número de observaciones, de los datos de la tabla 2.3, que caen en cada clase. (Ver Tabla 2.4) Paso 07: Calcular la frecuencia de cada clase.

Por ejemplo la Frecuencia Relativa (FR) de la primera y segunda clase vendrá dada por:

el resto puede observarlos en la tabla 2.4 siguiente.

Clase 1 2 3 4 5 6 7

Ing. Balebona Jenry

Tabla 2.4 Intervalo de Clase Frecuencia de clase 5 0,0150,715 9 0,7151,415 4 1,4152,115 3 2,1152,815 1 2,8153,515 2 3,5154,215 1 4,2154,915 ∑ 25

Frecuencia de clase Relativa 0.20 0,36 0,16 0,12 0,04 0,08 0,04 ∑ 1

Página 3 de 12

Ing. Balebona Jenry

Página 4 de 12

Criterio que utiliza Scilab para la realización de un histograma.

histplot La instrucción “histoplot” en Scilab se encarga de graficar los datos en forma de histograma. La secuencia de llamada es la siguiente: [cf, ind] = histplot(n, data [,normalization] [,polygon], ) [cf, ind] = histplot(x, data [,normalization] [,polygon], ) donde: n = Número positivo entero (Número de Clases). x = Vector de incremento que define las clases (x debe ser de al menos 2 componentes) data = vector (datos a ser analizados) normalization = una variable booleana (%t = True (valor por defecto) o %f = False) polygon = una variable booleana (%t = True o %f = False (valor por defecto)) = Esta representa una serie de proposiciones key1=value1,key2=value2 ,... donde key1, key2,... puede ser cualquier parámetro opcional de la instrucción “plot2d” (style,strf,leg,rect,nax, logflag,frameflag, axesflag ). cf = este parámetro es un vector cuyos elementos representan el número de datos que hay en cada clase (es decir la frecuencia de Clases). ind = este parámetro es un vector cuyos elementos indica cuantas veces se repiten los datos por cada clase. Esta función traza un histograma del vector de datos utilizando las clases de . Cuando se proporciona el número n de clases en lugar de , las clases se eligen igualmente espaciados y ( )

(

)

con

( )

( ) ( (

( )

)

(

)

( ))

Las clases están definidas por ( ) ( ) y () ( ) para . Observando Nmax el número total de datos (Nmax=longitud(datos)) y el número de componentes de datos que caen en . La amplitud de Clase (No Normalizada) vendrá dada por el valor de

, esto sucede cuando la

normalización esta desactivada (normalization = %f) La amplitud de Clase (Normalizada) vendrá dada por: (

Ing. Balebona Jenry

)

( (

)

( )) Página 5 de 12

esto sucede cuando la normalización esta activada (normalization = %t) Cuando se produce la normalización, es decir cuando normalization = %t, histograma se puede verificar que: donde

( )

(

en

(

)

( )



el

( )

) y

(

)

(

)

Cualquier parámetro (opcional) se puede utilizar los parámetros usados en plot2d; por ejemplo, para trazar un histograma con el número del color 2 (azul si se utiliza mapa de colores std). Si se quiere restringir la trama dentro del rectángulo [-3,3] x [0,0.5], es posible utilizar histplot (n, datos, el style= 2, rect = [- 3,0,3,0.5]). Para representar un polígono de frecuencias el cual consiste en un gráfico de línea que se obtendría uniendo todos los puntos medios de la parte superior de los contenedores de un histograma. Por lo tanto podemos utilizar histplot función para trazar un gráfico de frecuencias polígono. El argumento opcional para polígono conecta el punto medio de la parte superior de cada barra de un histograma con líneas rectas. Si polígono=%t tendremos un histograma con la carta polígono de frecuencias (%t representa True (verdadero) caso contrario (%f) False (Falso)). histplot (n, datos, el style = 2, rect = [- 3,0,3,0.5], polígono =% t ). Del ejemplo que hemos estado trabajando y utilizando este comando: histplot(Num_Clases,x2, normalization=%f, style=1, polygon=%t, rect = [- 0.5,0.5,0,9.5]) se obtiene la siguiente gráfica:

Ing. Balebona Jenry

Página 6 de 12

A continuación ejemplo en forma de Script, en Scilab, que podéis utilizar. Presta cuidado en el momento de copiar de este PDF y pegar en el Editor de Scilab (SciNotes), ya que algunos signos de puntuación, como apostrofes y comillas, no se transfieren en la copia correctamente. El archivo plano extensión “.sce” (Script) será suministrado con esta guía. // Copyright (C) {$2016} - Corporation - Ing. Jenry Balebona // About your license if you have any Date of creation: 07/10/2016 //Programa No. 01 (Histograma) clc; // Limpia la consola clf; // Borra gráficas Num_Clases=7; //Número de Intervalos de Clases Num_Muestras=25; //Número de Muestras de la Data //********************Lee Archivo de Datos****************** fd=mopen('C:\Estadistica01\Scilab\Tabla2_3.txt','r') ; //Lectura de datos de archivo texto Muestra_txt=mgetl(fd,Num_Muestras) ; // Datos en forma de texto //**********************Ordena los Datos********************* Muestra_num = strtod(Muestra_txt) ; //Convierte texto en número x2=gsort(Muestra_num,'g','i') ; //Ordena los Número de Muestras Num_Muestras=max(size(x2)) ; //Verificamos Número de Muestras //*************************Calculos**************************** Media=mean(Muestra_num) ; //Calcula la media Mediana=median(Muestra_num) ; //Calcula la mediana Desv_Estandar=stdev(Muestra_num) ; //Calcula la desviación estándar N=size(Muestra_num) ; //Calcula el tamaño de la muestra xClases=[0.015,00.715,1.415,2.115,2.815,3.515,4.215,4.915]; //Intervalos de Clase //*************************Gráficas***************************** [cf, ind] =histplot(xClases,x2, normalization=%f,style=2,polygon=%f) xtitle('Histograma de frecuencias', 'Eje X', 'Eje Y' ) ; xgrid() //*************************Escritura***************************** write(%io(2),Media,'(''Media =|'',f10.7,''|'')') ; write(%io(2),Mediana,'(''Mediana =|'',f10.7,''|'')') ; write(%io(2),Desv_Estandar,'(''Desviación Estándar =|'',f10.7,''|'')') ; ; write(%io(2),max(N),'(''Número de Datos =|'',f10.0,''|'')') ; mclose all ; // cierre de archivos abiertos que fueron leídos

Ing. Balebona Jenry

Página 7 de 12

Tipos de Curvas de Frecuencias. Las curvas de frecuencia se clasifican según su simetría y su forma en: (

) (

)

{ Sesgada (Skewed)

Si la Media > Mediana indica que la distribución esta sesgada hacia derecha o sesgada positivamente, si por el contrario Media < Mediana se dice que la la distribución esta sesgada hacia izquierda o sesgada negativamente.

Ing. Balebona Jenry

Página 8 de 12

Calculo de la Media para Datos Agrupados Si

números tienen media , Si números tienen media , entonces la media de todos los números es:

números tienen media

̅ es decir la media aritmética ponderada de todas las medias. Si A es una media aritmética supuesta y si y sabiendo que la media de un grupo de datos es: ̅

son las desviaciones de

respecto a A,



se tiene que: ̅



(

)



( )

̅



( )

∑ (



( )



( )

)

Calculo de la Mediana para Datos Agrupados Geométricamente la Mediana es el valor de X (abscisa), que corresponde a la recta vertical que divide un histograma en dos partes de áreas iguales. Matemáticamente puede hallarse así:

(

(∑ )

)

donde Frontera inferior de la clase que contiene a la mediana. (∑ ) Suma de frecuencias de las clases inferiores a la clase de la Mediana. N= Número de Datos, es decir la frecuencia total. fmediana= frecuencia de la clase mediana. c = tamaño del intervalo de clase de la mediana.

Ing. Balebona Jenry

Página 9 de 12

Calculo de la Moda para Datos Agrupados La Moda es el valor que ocurre con más frecuencia; es decir el valor que más se repite. La moda puede no existir e incluso no ser única. (

)

Frontera inferior de la clase que contiene a la mediana. Diferencia de la clase modal con la frecuencia de la clase Inferior inmediata. Diferencia de la clase modal con la frecuencia de la clase Superior inmediata. c = tamaño del intervalo de clase modal.

Geométricamente la Moda puede hallarse si trazamos dos rectas en la clase modal de tal forma que hagan una “x” desde los extremos superiores de la clase modal al lado inferior de los extremos superiores de las clases adyacentes inversas. Tal y como lo muestra la figura del lado derecho.

Ing. Balebona Jenry

Página 10 de 12

Glosario. 1. Datos sueltos. Son los datos recolectados que no han sido organizados numéricamente. 2. Ordenación. Es el procedimiento de ordenar los datos numéricos en forma creciente o decreciente. 3. Datos Ordenados. Son los datos que han sido ordenados en forma creciente o decreciente.. 4. Clases o categorías. Es la clasificación de grandes cantidades de datos agrupados bajo ciertas características definidas como categorías o clase. 5. Frecuencia de Clases. Es el número de datos o individuos que pertenecen a una Clase o Categoría. 6. Tabla de Frecuencia Es una disposición tabular de los datos por clase, con su correspondiente frecuencia de clases. 7. Tabla de Frecuencia Relativas Es una Tabla de frecuencia que expresa la frecuencia de cada clases en forma relativa, es decir su frecuencia de clases dividida entre la frecuencia total de clases y expresada generalmente como porcentaje. 8. Datos Agrupados. Son datos clasificados por clase, distribuidos por frecuencias. 9. Intervalo de clase. Son los valores extremos de cada clase. 10. Intervalo de clase inferior. Es el valor extremo inferior de la clase. 11. Intervalo de clase Superior. Es el valor extremo superior de la clase. 12. Intervalo de clase abierto. Es una clase que no posee límite de clase inferior o superior, ejemplo “21 años o más”. 13. Frontera de Clases La frontera de clases va a depender de la exactitud de la medida, por ejemplo si el intervalo de clases es de (6062) mm y los datos recogidos tienen una exactitud de 1 mm, entonces la frontera de clase inferior estará dado por:

y la frontera de clase superior vendrá dado por:

14. Tamaño, Longitud o Amplitud de un intervalo de Clases. Es la diferencia entre la frontera de clase superior e inferior. 15. Marca de Clases Ing. Balebona Jenry

Página 11 de 12

Es el punto medio del intervalo de clases. Se obtiene promediando los límites de clases superiores e inferiores. 16. Histograma de frecuencias. Consiste en un conjunto de rectángulos que tienen  Como base el eje horizontal “x” de las abscisas,  Sus centros en la marca de clase,  La longitud de la base igual al tamaño de clase,  Altura igual a la frecuencia de clase. frecuencia relativa o frecuencia normalizada. 17. Histograma de Frecuencias Relativas. Este histograma se caracteriza representar las alturas de los rectángulos a la frecuencia relativa, es decir, la frecuencia de clases dividida entre la frecuencia total de todas las clases y expresada generalmente como porcentaje. Es de notar que la suma de todas las frecuencias relativas de clase es igual a la unidad (o 100%). 18. Histograma de Frecuencias Normalizada. Este histograma se caracteriza representar las alturas de los rectángulos a la frecuencia Normalizada, es decir, la frecuencia de clases dividida entre la multiplicación de la frecuencia total multiplicada por el intervalo de Clases. Es de notar que la suma de todas las áreas de los rectángulos del Histograma De Frecuencia Normalizado tiene como resultado igual a uno (1). 19. Polígono de Frecuencias. Es una línea que une todos los puntos medios de la parte superior de los rectángulos del histograma de frecuencias, histograma de frecuencias relativas o histograma de frecuencia Normalizada. 20. Frecuencia Acumulada. Es la frecuencia total de todos los valores menores que la frontera de clase superior de un intervalo de clase. 21. Tabla de frecuencias acumuladas o distribución acumulada. Es una tabla que representa las frecuencias acumuladas. 22. Polígono de frecuencia acumulada u ojiva. Es una gráfica que recoge las frecuencias acumuladas por debajo de cualquiera de las fronteras de clases superiores respecto a dicha frontera. El valor del histograma radica en su capacidad para mostrar cómo se distribuyen los datos en un rango. ¿Están agrupados o dispersos? ¿El histograma tiene una forma única o parece ser no informativo? Si el histograma tiene una forma única, ¿hay una distribución de probabilidad adecuada para ello?. Por ejemplo, al analizar los resultados de una prueba de vida útil de confiabilidad, es de esperar que los datos muestren una tendencia central, posiblemente con una cola larga que salga en el tiempo o en las actuaciones. Es útil ajustar una distribución a los datos, ya que esto le permitirá estimar fallas tempranas, una preocupación por la satisfacción de ambos clientes y los gastos de garantía del productor.

Ing. Balebona Jenry

Página 12 de 12