Tratamiento de Datos

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN. FACULTAD DE CIENCIAS FÍSICO MATEMÁTICAS. LCC Probabilidad Trabajo de investigació

Views 177 Downloads 5 File size 403KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN. FACULTAD DE CIENCIAS FÍSICO MATEMÁTICAS.

LCC

Probabilidad

Trabajo de investigación sobre el tratamiento de datos

Equipo: Juan Carlos Arredondo Herrera

1756544

Alberto Baltazar Gutiérrez Ortega

1887970

Josué Reyna Valdez

1800822

Christopher Antonio Vega Martínez

1793788

Viernes 27 de septiembre de 2019

Índice

1.-Tratamiento de datos

3

2.¿Qué es la estadística? Conceptos Ejemplo: Velocidades del viento Ejemplo: Velocidades del viento 2.0

3 4 4 5

3. Medidas de tendencia central Definiciones Media muestral/aritmética ( x ) Mediana Moda ( x ) Varianza Desviación estándar ( s)

6 6 6 7 7 7 7

4. Medidas de Tendencia Central para datos agrupados Media para datos agrupados Mediana para datos agrupados Varianza para datos agrupados

9 9 9 10

5. Regla empírica

12

1. Tratamiento de datos El tratamiento de datos realiza el tratamiento estadístico de todos los datos seleccionados, que consiste en afirmaciones estadísticas de los datos. Sin embargo, en la vida real el análisis no puede quedar reducido a una operación contable de obtención de promedios, medias e índices, etc. Hay que analizarlos, interpretarlos y darles sentido.

El propósito del análisis es resumir y comparar las observaciones llevadas a cabo de tal forma que sea posible materializar los resultados de la investigación con el fin de dar respuesta a las interrogantes formuladas en la investigación.

El objetivo de la interpretación es buscar un significado más amplio a las respuestas mediante su conjugación con otros conocimientos disponibles, generalizaciones, leyes, teorías, etc.

2. ¿Qué es la estadística? ● La rama de las matemáticas que estudia la recolección, análisis, interpretación y presentación de masas de información numérica (Webster´s New Collegiate Dictionary) ● Estadística es la rama del método científico que estudia los datos obtenidos por contar o medir las propiedades de poblaciones. Stuart y Ort (1991) Ejercicio: Para cada una de las siguientes situaciones, identifique la población de interés la meta inferencial y diga como emprendería la recolección de una muestra. a) Un investigador universitario desea estimar la proporción de ciudadanos estadounidenses de la generación X que están interesados en iniciar sus propios negocios. Población de interés: Generación X de Estados Unidos Meta inferencial: % de personas que quieren iniciar un negocio Recolección: Metro b) Un ingeniero municipal desea estimar el promedio de consumo semanal de agua para unidades habitacionales unifamiliares en la ciudad.

Población de interés: Habitantes de la ciudad Meta inferencial: % de consumo semanal de agua Recolección: Base de datos

Conceptos Tabla de frecuencia: Representa la “distribución” de la población con respecto a una característica específica. Histograma: Es una representación gráfica de la distribución de la población con respecto a una característica específica.

Ejemplo: Velocidades del viento Promedio de velocidades del viento (en millas por hora) para 45 ciudades de Estados Unidos. vientos = [8.9, 7.1, 9.1, 8.8, 10.2, 12.4, 11.8, 10.9, 12.7, 10.3, 8.6, 10.7, 10.3, 8.4, 7.7, 11.3, 7.6, 9.6, 7.8, 10.6, 9.2, 9.1, 7.8, 5.7, 8.3, 8.8, 9.2, 11.5, 10.5, 8.8, 35.1, 8.2, 9.3, 10.5, 9.5, 6.2, 9.0, 7.9, 9.6, 8.8, 7.0, 8.7, 8.8, 8.9, 9.4] Para obtener el límite (L) con el que vamos a trabajar, se debe encontrar el valor más pequeño y el más grande y dividirlo entre el número de intervalos deseados.

L=

35.1 − 5.7 6

=

4.9

Intervalo

Límite Inferior

Límite Superior

Marca de la clase

Frecuencia absoluta

Frecuencia relativa

Frecuencia relativa

1

5.7

10.6

8.15

37

37 / 45

37 / 45

2

10.7

15.6

13.15

7

7 / 45

44 / 45

3

15.7

20.6

18.15

0

0

44 / 45

4

20.7

25.6

23.15

0

0

44 / 45

5

25.7

30.6

28.15

0

0

44 / 45

6

30.7

35.6

33.15

1

1 / 45

45 / 45

Histograma

Ejemplo: Velocidades del viento 2.0 Si removemos el valor de 35.1, la tabla y el histograma se ven diferentes. Esto comprueba que en ocasiones un solo valor puede afectar mucho el análisis.

L=

12.7 − 5.7 6

Intervalo

Límite inferior

Límite Superior

Marca de la clase

Frecuencia absoluta

Frecuencia relativa

Frecuencia acumulada

1

5.7

7.1

6.4

4

4 / 44

4 / 44

2

7.2

8.5

7.85

9

9 / 44

13 / 44

3

8.6

10

9.3

18

18 / 44

31 / 44

4

10.1

11.5

10.8

10

10 / 44

41 / 44

5

11.6

13

12.3

3

3 / 44

44 / 44

Histograma

3. Medidas de tendencia central

Definiciones

Media muestral/aritmética (x ̅) La media de una muestra de n medidas X1, X2, … , Xn está dada por

∑𝑛𝑖= 1 𝑋𝑖 𝑋1 + 𝑋2 + . . . + 𝑋𝑛 x̅ = = 𝑛 𝑛

Mediana En un conjunto de datos ordenados en forma creciente la mediana es el dato que se encuentra en la posición de enmedio cuando el número de datos es impar y es el promedio de los datos centrales cuando el número de datos es par.

Moda ( 𝑥̂ ) Es el dato que se repite con mayor frecuencia.

Varianza La varianza de una muestra de mediciones 𝑋1 + 𝑋2 , . . . , 𝑋𝑛 denotada por 𝑠 2 se define por:

2

𝑠 =

2 ∑𝑛 𝑖 = 1 (𝑋𝑖 − 𝑋 )

𝑛−1

Desviación estándar ( s ) La desviación estándar de una muestra de mediciones, es la raíz cuadrada positiva de la varianza.

Entonces con el ejemplo visto anteriormente “Velocidades del viento 2.0” se determinarán estos conceptos (media, moda, etc..)

4. Medidas de Tendencia Central para datos agrupados Cuando se trabaja con datos que han sido agrupados en una distribución de frecuencias, no se sabe con certeza los valores individuales de cada dato. Por lo que se utilizan métodos alternos para aproximar los valores de las medidas descriptivas.

Media para datos agrupados Se supone que las observaciones en cada clase son iguales al punto medio de la clase



=

∑𝑐𝑖 = 1 𝑓𝑖

∗ 𝑚𝑖

𝑛

donde c : número de clases (o intervalos) 𝑓𝑖 : frecuencia absoluta de la clase i 𝑚𝑖 : marca de la clase i n : número total de clases

Mediana para datos agrupados Primero se encuentra la clase mediana, la cual es la clase cuya frecuencia 𝑛 acumulada es mayor o igual a y puede determinarse mediante la siguiente 2

fórmula:

donde 𝐿𝑖 : límite inferior del intervalo de la mediana n : tamaño de la muestra

𝐹𝑖 − 1: Frecuencia absoluta acumulada del intervalo anterior, al intervalo de la mediana 𝑓𝑖 : frecuencia absoluta simple del intervalo de la mediana a : amplitud del intervalo de la mediana. Se le resta al limite superior el limite inferior del intervalo de la mediana.

Varianza para datos agrupados Es un método para estimar la varianza de varias poblaciones diferentes.

𝑐 2 2 ∑ 𝑓 ∗ (𝑚 ) − 𝑛 ( x ̅ ) 𝑖 𝑖 𝑖 = 1 𝑠2 = 𝑛 − 1 donde 𝑥 : media agrupada c : número de clases (o intervalos) 𝑓𝑖 : frecuencia absoluta de la clase i 𝑚𝑖 : marca de la clase i n : número total de clases

Considerando el ejemplo Velocidades del viento 2.0

Marca de la clase

𝑓𝑖

6.4

4

7.85

9

9.3

18

10.8

10

12.3

3

5. Regla empírica Muchas distribuciones de datos de la vida real tienen forma de montículo; esto es, se pueden aproximar por medio de una distribución de frecuencia en forma de campana conocida como curva normal. Los datos que poseen distribuciones en forma de montículo tienen características definidas de variación.

Regla empírica Para una distribución de mediciones que sea aproximadamente normal (forma de campana), se deduce que el intervalo con puntos extremos μ ± 𝝈 contiene aproximadamente 68% de las mediciones μ ± 2𝝈 contiene aproximadamente 95% de las mediciones μ ± 3𝝈 contiene casi todas las mediciones

Ejemplo Suponga que se sabe que las calificaciones de un examen de preparatoria en un estado tienen, aproximadamente, una distribución normal con media de μ = 64 y desviación estándar 𝝈 = 10. Entonces se puede deducir que aproximadamente 68% de las calificaciones están entre 54 y 74, que aproximadamente 95% de las calificaciones están entre 44 y 84 y que casi todas las calificaciones están entre 34 y 94. Así, el conocimiento de la media y la desviación estándar nos da una imagen más o menos buena de la distribución de frecuencia de las calificaciones.