UNIDAD 1. Estadistica Descriptiva

INSTITUTO TECNOLOGICO DE GUTIERREZ MARCO TEORICO UNIDAD I. ESTADISTICA DESCRIPTIVA Hoy día, la recolección de datos sob

Views 373 Downloads 2 File size 688KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

INSTITUTO TECNOLOGICO DE GUTIERREZ

MARCO TEORICO UNIDAD I. ESTADISTICA DESCRIPTIVA Hoy día, la recolección de datos sobre los procesos productivos de una empresa permite mejorarlos e implementar un control de calidad. Para ello, además de recoger los datos de forma sistemática, estos deben ser representados y organizados para su posterior análisis… PROBABILIDAD Y ESTADÍSTICA Integrantes Bautista León Fidel Molina González Carolina Isabel Cárdenas de Paz Jairo Zepeda Rojas Roberto Carlos

01 de marzo de 2011

TUXTLA

Tabla de contenido Introducción ................................................................................................................. 3 Estadística descriptiva .................................................................................................. 4 MEDIDAS DE TENDENCIA CENTRAL O DE POSICIÓN .......................................... 5 La moda ..................................................................................................................... 5 La mediana ................................................................................................................ 6 La media aritmética o promedio ................................................................................ 6 El rango ..................................................................................................................... 6 MEDIDAS DE TENSIÓN CENTRAL PARA DATOS AGRUPADOS .............................. 7 La moda ..................................................................................................................... 7 La mediana ................................................................................................................ 7 La media aritmética o promedio ................................................................................ 8 MEDIDAS DE DISPERSIÓN O VARIABILIDAD ........................................................ 8 Rango de variación .................................................................................................... 8 Desviación media absoluta ........................................................................................ 9 Varianza .................................................................................................................... 9 Desviación estándar .................................................................................................. 9 Medidas de localización .......................................................................................... 10 Diagrama de hojas y tallos ....................................................................................... 11 Histogramas ............................................................................................................ 11 DISTRIBUCIÓN DE FRECUENCIAS ......................................................................... 12 Polígono de frecuencias .......................................................................................... 12 Ojivas ...................................................................................................................... 12 Diagrama de cajas ................................................................................................... 13 BIBLIOGRAFIAS ....................................................................................................... 14

2

INTRODUCCIÓN De todas las ramas de la matemática, ninguna se le ha presentado tantos y tan útiles servicios a las ciencias sociales como la estadística. Su origen está en el estudio de las probabilidades iniciando en forma sistemática por Pascal, Fermat y Laplace. Hoy día, la recolección de datos sobre los procesos productivos de una empresa permite mejorarlos e implementar un control de calidad. Para ello, además de recoger los datos de forma sistemática, estos deben ser representados y organizados para su posterior análisis. La recopilación, el proceso, la interpretación y la presentación de los datos numéricos pertenecen al dominio de la estadística. Estas tareas comprenden el cálculo de los promedios de goles en el futbol, la recopilación de datos sobre los nacimientos y muertes, la evaluación de la efectividad de productos comerciales y el pronóstico del tiempo. La información estadística se nos presenta constantemente en la radio y la televisión. Nuestro entusiasmo por los hechos estadísticos se ve alentado por diarios nacionales... La palabra estadística se usa de varias maneras. El término puede aplicarse no solo a una simple tabulación de información numérica, como informes de transacciones bursátiles, sino también al conjunto de técnicas que se utilizan en el procesamiento o análisis de datos. El término estadística también se refiere a quienes simplemente recopilan datos, asi como a aquellos que elaboran análisis o interpretaciones y también a los académicos que desarrollan la teoría matemática sobre la cual se basa la estadística.

3

ESTADÍSTICA DESCRIPTIVA La estadística descriptiva, proviene del vocablo latín status, esto se refiere a todas las actividades que se desarrollan en diferentes instituciones y organizaciones del estado, especialmente con las que se encuentran vinculadas con la descripción de la situación económica y política de un país. El conjunto de métodos para la recolección y análisis de los datos del estado impulsaron el desarrollo de la estadística. Los primeros en dar sus aportes a la enseñanza de esta ciencia fueron el alemán H. Coring (1606-1681), el belga A. Quetelet (1796-1874) y el alemán K. F. Gauss (17771855). Un ejemplo de lo ya antes mencionado es conocer el número exacto de individuos en edad escolar y la proyección de su crecimiento son factores importantes para pretender definir las políticas de inversión en el sector educativo. Para ciencias como la Sociología y la Psicología, la estadística es una herramienta que les permite estudiar los comportamientos de las poblaciones. La estadística tiene dos grandes partes: la estadística descriptiva la cual se encarga de recolectar, organizar y representar datos mediante tablas y diagramas que describen las características de una población o de una parte de ella, y la estadística inferencial con la que predice el comportamiento de una población, a partir de la información que se conoce de una parte de ella. Algunos términos de uso frecuente en cualquier experimento estadístico son: población, muestra, variable y dato. La población estadística es el conjunto de individuos, objetos o valores cuyas propiedades serán estudiadas estadísticamente. La muestra es un subconjunto o parte de la población; la muestra debe estar compuesta por aquellos elementos de la población que sean más representativos. Las técnicas de selección de muestras son estudiadas por una rama de la estadística llamada muestreo. Generalmente, en las investigaciones no es posible trabajar con toda la población, bien sea por ser numerosa, como el caso de los habitantes de una ciudad o por costos, por tal razón, el investigador es el encargado de seleccionar los elementos que conformarán la muestra. Después de establecer la población o muestra es indispensable determinar las variables o características que se estudiarán. El análisis de cada variable arroja los datos o valores asociados a la muestra o población. El valor numérico que resume todos los datos de una población se denomina parámetro.

4

Consideremos el experimento estadístico de determinar las horas que se le dedica a la lectura en una población de estudiantes de diferentes planteles educativos de la ciudad de Tuxtla Gutiérrez, la variable asociada es el número de horas dedicadas a la lectura diariamente; los datos son los resultados que se obtendrán de la encuesta realizada a los miembros de la muestra, y el parámetro depende de la medida que se quiera representar al conjunto de datos, la cual podría ser el promedio aritmético, la media, la moda o la mediana. En la estadística hay dos clases de variables: cuantitativas y cualitativas. Una variable cuantitativa establece los atributos de un elemento, es decir, informa acerca de las características que se distinguen de un elemento de otro y los ubican en clases independientes y separadas mediante números, en este caso el número de horas diarias de lectura es la variable cuantitativa. Dentro de la variable cualitativa se clasifica o describe un elemento de la población, en el caso presente, esta variable es el tipo de libros que prefieren leer los habitantes de la muestra.

Variable cuantitativa variable (horas dedicadas a la lectura) menos de una

Número de personas

Una

15

7

Dos

8

Tres

10

Cuatro

7

Más de cuatro

3

TABLA 1

Variable cualitativa variable (tipo de lectura)

Número de personas

Informativa

10

Científica

16

Cuentos

4

Novelas

7

Otros

13

TABLA 2

MEDIDAS DE TENDENCIA CENTRAL O DE POSICIÓN Para cada grupo de datos existen números que son valores representativos de la población, como son la moda, la mediana y el rango. Las medidas de tendencia central o de posición de un conjunto de datos buscar dar al investigador alguna medida cuantitativa del centro de los datos de una población o muestra. La moda El valor o característica que más se repite en una población o muestra se llama moda de la población o de la muestra, y corresponde al dato con la mayor frecuencia absoluta. En las tablas 1 y 2 se observa que las frecuencias mayores son 15, que corresponden al valor cuantitativo “una hora”, y 16, que corresponde a la variable cualitativa “lectura científica”. Asó la moda en el primer caso es “una hora” y en segundo es “libro científico”. Si dos datos distintos tienen la misma frecuencia máxima, se dice que el conjunto de datos es bimodal; puede existir incluso conjuntos de datos multimodales.

5

La mediana La mediana de un conjunto de datos es aquel dato central que divide los datos de la muestra o la población en partes iguales. El propósito de esta medida es identificar la tendencia central de la muestra sin que se vea afectada por los valores extremos. Para calcular la mediana es necesario ordenar los datos de menor a mayor. Si el número de datos es impar, la mediana es el dato central; y si el número de datos es par, la mediana es la mitad de la adición de los dos datos centrales. La media aritmética o promedio La media aritmética o promedio de un conjunto de datos es el cociente que resulta entre la adición de los datos y el número total de datos; es el valor de la característica en estudio que tendría todos los elementos de la población si ellos no se diferenciaran. La media aritmética o media se le conoce como media muestral. Esta medida se encuentra afectada por los valores extremos, efecto que no ocurre con la mediana. Un ejemplo común, si las edades de 10 niños son: 6, 7, 8, 9, 8, 6, 10, 6, 9, 7; el promedio de las edades de los niños es:

La mediana se obtiene al ordenar de las edades y promediar los datos del centro: 6, 6, 6, 7, 7, 8, 8, 9, 9, 10

El rango La diferencia entre el mayor valor y el menor valor de la característica en estudio se llama rango. Considérese el siguiente grupo de datos: 12, 13, 12, 11, 13, 14, 15, 15, 15, 11. Organizando los datos de menor a mayor, tenemos: 11, 11, 12, 12, 13, 13, 14, 15, 15, 15. La moda de este grupo de datos es 15, ya que es el valor con la mayor frecuencia absoluta. La media o promedio es 13,1. Como son 10 datos, la mediana corresponde al promedio aritmético de los datos que ocupan los lugares 5 y 6, es decir, la mediana es de (13+13)/2=13. El rango es de 15-11=4.

6

MEDIDAS DE TENCION CENTRAL PARA DATOS AGRUPADOS En ocasiones es especial agrupar los datos correspondientes a una variable, en intervalos o clases. Considérese la tabla 3 de frecuencias de datos agrupados. En cada intervalo o clase escogemos una marca de clase correspondiente al punto medio del intervalo. La frecuencia absoluta es el numero de datos que corresponden a cada intervalo, y la frecuencia acumulada se escribe como .

Distribución de frecuencias del tiempo de atención en una fila Marca de clase

1 3 5 7 9 11 TABLA 3

Intervalo o clase

Frecuencia absoluta

Frecuencia acumulada

0-2 2-4 4-6 6-8 8-10 10-12

5 10 14 12 6 3

5 15 29 41 47 50

La moda La clase con mayor frecuencia absoluta se denomina clase modal. El en ejemplo la clase modal es el intervalo [4-6]. La moda de los datos se encuentra en este intervalo. El valor exacto de la moda se puede calcular como el valor correspondiente al punto de intersección de los segmentos de la figura continua. La mediana A partir de un polígono de frecuencias absolutas o relativas, es posible encontrar la mediana. Para el caso de frecuencias absolutas, se calcula el valor correspondiente al dato 25. Para las frecuencias relativas, se puede hallar mediante el valor correspondiente al 50%. En la figura se muestra el valor correspondiente a la mediana de este grupo de datos.

7

La media aritmética o promedio Para un conjunto de datos agrupados, la media aritmética o promedio se calcula mediante la expresión:

Para el ejemplo se tiene:

MEDIDAS DE DISPERSION O VARIABILIDAD Las medidas de tendencia central proporcionan información valiosa adecuada para los datos de la muestra; sin embargo, para distintas muestras de la misma población, estas medidas no son suficientes para su estudio. Por ejemplo, dos muestras distintas pueden tener la misma media o promedio; por tanto, es necesario estudiar la variabilidad o dispersión de los datos. Notas de Carolina y Jairo Carolina Jairo Algebra 4,0 5,0 Biología 3,5 4,0 Ingles 4,0 2,5 Español 4,2 4,0 Historia 4,3 4,5 TABLA 6

Analicemos a dos estudiantes cuyas notas son las siguientes: El promedio de notas de Carolina y Jairo es de 4,0. Sin embargo, se puede apreciar que las notas de Carolina están entre 3,5 y 4,3, mientras que las notas de Jairo están entre 2,5 y 5,0; por tanto el rango de variación de las notas de Jairo es mayor.

Rango de variación El rango de variación es una medida que determina la dispersión de los datos de una distribución de frecuencias y corresponde a la diferencia entre el mayor de los valores de los datos y el menor. Si se trata de la distribución agrupada de una variable continua, entonces el rango de variación se puede hallar mediante la expresión:

El rango de variación de las notas de Carolina es de 0,8, mientras que el rango de variación de las notas de Jairo es de 2,5.

8

Desviación media absoluta La desviación media absoluta promedio, respecto a la media aritmética, es una medida de dispersión de un conjunto de datos, que se define como el promedio de las distancias de los datos a la media aritmética; también se le denomina desviación media, sin olvidar que no se toman desviaciones, sino distancias. Para el caso de las notas de Carolina y Jairo NOTA DESVIACIÓN (VALOR ABSOLUTO DE LA la desviación absoluta se presenta a DIFERENCIA ENTRE continuación: LA MEDIA Y LA NOTA)

NOTA

Algebra Biología Ingles Español historia

DESVIACIÓN (VALOR ABSOLUTO DE LA DIFERENCIA ENTRE LA MEDIA Y LA NOTA)

Algebra Biología Ingles Español historia

4,0 3,5 4,0 4,2 4,3 TABLA 7

5,0 4,0 2,5 4,0 4,5

La desviación media o desviación absoluta promedio respecto de la media aritmética de los datos de una distribución agrupada de frecuencias, es el promedio de las distancias TABLA 8 de los datos de la distribución. Es una medida de dispersión que mide cuanto se alejan los datos de su media y sirve para comparar la desviación de dos distribuciones de frecuencias. Las medidas más importantes de variabilidad son la varianza y la desviación estándar. Varianza La varianza muestral es la suma de los cuadrados de las desviaciones divididas entre . Si es una muestra de observaciones y es la media, la varianza muestral se calcula mediante la expresión:

Desviación estándar La desviación estándar muestral es la raíz cuadrada de la varianza. Coeficiente de variación. El coeficiente de variación, CV, se calcula con la expresión:

9

CAROLINA NOTA Algebra Biología Inglés Español Historia

4,0 3,5 4,0 4,2 4,3

0 0,5 0 0,2 0,3 Suma Varianza Desviación estándar

0 0,25 0 0,04 0,09 0,38 0,095 0,308 TABLA 9

La varianza y la desviación estándar de las notas de Carolina y Jairo se muestran en las siguientes tablas: El coeficiente de variación en los dos casos es: , para las notas de Carolina.

, para las notas de Jairo. Como puede verse la varianza, la desviación estándar y el coeficiente de variación son medidas de la dispersión de los datos de las dos muestras. JAIRO NOTA Algebra Biología Inglés Español Historia

5,0 4,0 2,5 4,0 4,5

1,0 0 1,5 0 0,5 Suma Varianza Desviación estándar

1,0 0 2,25 0 0,25 3,5 0,875 0,935 TABLA 10

Medidas de localización Los cuartiles, al igual que los deciles y los percentiles, son medidas de localización, similares a la mediana, que subdividen un conjunto de mediciones (datos) de acuerdo con la proporción de frecuencias observadas. La mediana divide el conjunto de datos de dos subconjuntos de igual número de datos; los cuartiles dividen el conjunto en cuatro subconjuntos de igual número de datos, los deciles dividen el conjunto en diez subconjuntos de datos de igual número de datos. Cuando un conjunto de datos se divide en cien partes iguales, los puntos de división se llaman percentiles. El k-ésimo percentil, es un valor tal que al menos el k% de las observaciones están en el valor o por debajo de él, y al menos (1-k) % de las observaciones están en el valor o por encima. Para los siguientes 20 datos ordenados de menor a mayor: 20, 22, 25, 30, 32, 44, 62, 72, 81, 91, 116, 129, 139, 145, 151, 205, 252, 285, 310, 320, el primer cuartil o percentil 25 es igual al promedio de las observaciones 32 y 44:

10

El segundo cuartil, percentil 50 o mediana, es

igual a:

DIAGRAMA DE TALLO Y HOJAS Fue creado por el estadístico norteamericano John Tukey. Este tipo de diagramas busca proporcionar una impresión visual de la distribución de un conjunto de datos. Organiza los datos en dígitos primarios o tallos, que son los dígitos de mayor valor posicional, y dígitos secundarios u hojas que corresponden al resto de los dígitos que se encuentran en cada dato. Se emplea cuando el número de observaciones es moderadamente grande. Para su construcción se escriben los datos en una columna en la parte izquierda y, a la derecha separadas por una línea vertical las correspondientes hojas de cada tallo. Los datos de la siguiente tabla representan 25 observaciones del rendimiento de un proceso. Puesto que los datos están desde el 61 y 95, los tallos corresponden a los dígitos de las decenas 6, 7, 8 y 9; y las hojas, por ejemplo, para el numero 6, son los dígitos de las unidades de cada uno de los datos que empiezan con 6.

Rendimiento de un proceso 81 77 88 66 84 65 75 95 83 78 61 70 64 87 92 88 84 71 78 79

6…

TABLA 11

1

3

4

5

6

Tallos El diagrama de tallos y hojas para los datos se muestra en la figura continua.

HISTOGRAMAS Un histograma es una grafica de barras que representa la distribución de frecuencias de una variable cuantitativa.

hojas

6

1-3-4-5-5-6

7

0-1-1-3-4-7-8-8-9

8

1-3-4-4-7-8-8

9

2-3-5

TABLA 12

Histograma 16 14 12 10 8 6 4 2 0

Horas dedicadas a la lectura

TABLA 13

11

DISTRIBUCION DE FRECUENCIAS La distribución de frecuencias ofrece un resumen más compacto de los datos que el diagrama de tallo y hojas. Para construir una distribución de frecuencias, primero se divide el rango de los datos en intervalos, los cuales se conocen como intervalos de clases o celdas. Si es posible las clases deben tener el mismo ancho con la finalidad de mejorar la información visual en la distribución de frecuencias. Para la selección del numero de clases debe emplearse cierto criterio de modo que pueda desarrollarse un diagrama razonable. El numero de clases depende del numero de observaciones y de la dispersión de los datos. En general, una distribución de frecuencias que emplea muy pocas o demasiadas clases no contienen mucha información. Hemos visto que, en muchos casos, resulta satisfactorio usar entre 5 y 20 clases, y que el numero de clases debe aumentar en función de n.

POLÍGONO FRECUENCIAS

DE

El polígono de frecuencias se construye uniendo con segmentos de recta los puntos representados por una pareja ordenada, en la que el primer elemento es un dato de la variable y como segundo elemento su correspondiente frecuencia.

Polígono de frecuencias 20 15 10 5 0

Horas dedicadas a la lectura

TABLA 14

OJIVAS Si aplicamos una técnica similar a una distribución acumulativa, obtenemos lo que se conoce como una ojiva. Sin embargo, en una ojiva, las frecuencias acumulativas se trazan en las fronteras de clase en lugar de hacerlo en las marcas de clase.

12

DIAGRAMAS DE CAJA El diagrama de caja es una representación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, la desviación de la simetría y la identificación de observaciones que se alejan de manera poco usual del resto de los datos. Este tipo de valores se le conoce como “valores atípicos”. El diagrama de caja presenta los tres cuartiles, y los valores mínimo y máximo de los datos sobre un rectángulo, alineado horizontal o verticalmente. El rectángulo delimita el rango intercuartílico con la arista izquierda o inferior; ubicada en el primer cuartil, , y la arista derecha o superior en el tercer cuartil, . Se dibuja una línea a través del rectángulo en la posición que corresponde al segundo cuartil; que es igual al 50% o la mediana, . De cualquiera de las aristas del rectángulo se extiende una línea o bigote, que va hacia los valores extremos. Estas son observaciones que se observan entre el cero y 1.5 veces el rango intercuartílico a partir de las aristas del rectángulo. Las observaciones que están entre 1.5 y 3 veces el rango intercuartílico a partir de las aristas del rectángulo reciben el nombre de valores atípicos. Las observaciones que están más allá de 3 veces el rango intercuartílico a partir de las aristas del rectángulo se conocen como valores atípicos extremos. En ocasiones se emplean diferentes símbolos, como círculos vacios o llenos, para identificar los dos tipos de valores atípicos. A veces, los diagramas de caja reciben el nombre de diagramas de caja o bigotes.

13

Bibliografía Castellanos, C. B. (2006). SUMMA Enciclopedia Universal (2006 ed., Vol. 3). Bogotá: Grupo Editorial Norma. Freund John E., S. G. (1994). ESTADÍSTICA ELEMENTAL (octava edicion ed.). (C. R. Angel, Ed., & D. D. Julian, Trad.) Edo. de México, Naucalpan de Juárez, México: PRENTICE HALL HISPANOAMERICANA S.A. Montogomery Douglas C., R. G. (1996). Probabilidad y Estadística aplicadas a la Ingeniería. (U. M. G., Trad.) México D.F., México: Mc Graw Hill.

14