Muest Reo

UNIVERSIDAD AUTÓNOMA DE COAHUILA FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN LICENCIATURA EN CONTADURIA PÚBLICA PORTAFOLIO

Views 93 Downloads 3 File size 783KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD AUTÓNOMA DE COAHUILA

FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN LICENCIATURA EN CONTADURIA PÚBLICA

PORTAFOLIO DE EVIDENCIAS NOMBRE DE LOS ALUMNOS: JAQUELINE SIFUENTES VALENZUELA. WILBERT OMAR ACOSTA BARRERA. SEMESTRE: 3

SECCION: C.

FACILITADOR: DOC. JUAN GABRIEL CONTRERAS MARTINEZ

MATERIA: APLICAR ESTADISTICA BASICA MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la población. El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población. La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar las características de ésta. Los errores más comunes que se pueden cometer son: 1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población, se denomina error de muestreo. 2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomó la muestra. Error de Inferencia. En la estadística se usa la palabra población para referirse no sólo a personas sino a todos los elementos que han sido escogidos para su estudio y el término muestra se usa para describir una porción escogida de la población. TIPOS DE MUESTREO Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos

grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. I.

Muestreo probabilístico

Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: 1.- Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. 2.- Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,..., i+(n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k=

N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. 3.- Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales.

Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. 4.- Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. Distribución de muestreo Distribución t Distribución F ¿Qué es la distribución de muestreo? Muestreo es definido como el proceso de seleccionar un número de observaciones (sujetos) de un grupo en particular de la población. Distribución de muestreo mes definida como la distribución de frecuencias de la estadística de muchas muestras.

Es la distribución de medias y es llamada la distribución de muestreo de la media. Hechos de la distribución de muestreo Los cuatro hechos de la distribución de muestreo, incluyen: 1. La estadística de interés (proporción, desviación estándar, o media) 2. Selección aleatoria de la muestra 3. Tamaño de la muestra aleatoria (muy importante) 4. Las características de la población siendo muestreada. 5. Características de la distribución de muestreo Teorema del límite central Cuando muestras aleatorias del mismo tamaño son tomadas de la población, la distribución de las medias de las muestras se acercará a la distribución Normal. Cuando la distribución de muestreo de la media tiene muestras de tamaño de 30 o mayores se dice que están Normalmente distribuidas.

Características estadísticas de la distribución de muestreo Las estadísticas principales son: Media Desviación estándar Error estándar El error estándar (ES o ESM) de la distribución de muestreo es dado por la fórmula: S √n Donde, n = tamaño de muestra s- desviación estándar de la muestra x – media de la muestra

Características estadísticas de la distribución de muestreo cont.… SE de una proporción = √ p (1-p)/n Donde, p es la proporción de la muestra SE de un porcentaje =√ p (100-p)/n Donde, p es el porcentaje de la muestra Características estadísticas de la distribución de muestreo cont.… Intervalo de confianza IC = p ± z α/2 √ p (1-p)/n IC= p ± z α/2 √ p (100-p)/n Características estadísticas de la distribución de muestreo cont.… Puntaje Z (Puntaje estándar) Z = x- μ σ /√n Donde, X es la media de la muestra μ es la media de la distribución de muestreo σ es el ES de la distribución de muestreo √n Ejercicios Un epidemiólogo estudió un grupo aleatorio de 25 individuos (hombres y mujeres) entre 30-49 años de edad y encontró que la frecuencia cardiaca media es de 70 latidos por minuto. Ejercicio # 1 ¿Cuán frecuentemente la muestra de 25 individuos tiene una frecuencia cardiaca media de 74 latidos por minuto o más?

En otras palabras ¿Qué proporción de la muestra tendrá valor medio de 74 latidos por minuto o mayor, si muestras repetidas de 25 individuos son aleatoriamente seleccionadas de la población? Ejercicio # 2 Investigación adicional mostró que 25 individuos parecían haber usado un medicamento para tratamiento y ahora el epidemiólogo quiere detectar los eventos adversos del medicamento sobre la tasa de frecuencia cardiaca. El epidemiólogo asume que la frecuencia cardiaca media está en el 5% superior de la distribución y será la causa de interés. Determine el valor que divide el 5% superior del 95% inferior de la distribución de muestreo. El uso de la curva Normal para resolver problemas

Ejercicio # 3 El “detective de enfermedades” (epidemiólogo) quiere saber cuántos pacientes serán incluidos en el estudio para determinar el efecto del medicamento. El epidemiólogo asume que la frecuencia cardiaca media deberá no ser mayor a 72 latidos por minuto, 90% de las veces. En otras palabras

Para incluir a individuos en el estudio, ¿cuál será el tamaño de muestra para que el 90% de las medias de las muestras será de 72 latidos por minuto o menos? Soluciones/respuestas 1) 2.3% 2) 73.29 3) 40.96 Otros tipos de distribución de muestreo Distribución F Es una distribución de muestreo de la media con una desviación estándar estimada. Distribución t Es una distribución de muestreo de dos varianzas (desviaciones estándar al cuadrado). Aplicación de la distribución de muestreo La distribución de muestreo, como la distribución Normal, es un modelo descriptivo, que es usado para describir situaciones del mundo real. Es muy útil para hacer señalamientos acerca de la probabilidad de que ocurran observaciones específicas. Investigadores/modeladores la usan para estimaciones y pruebas de hipótesis.

DISTRIBUCION DEL MUESTREO Una distribución de muestreo describe la probabilidad de obtener cada valor posible de un estadístico de una muestra aleatoria de una población, en otras palabras, qué proporción de todas las muestras aleatorias de ese tamaño ofrecerá ese valor.

Las propiedades de la distribución de muestreo pueden variar dependiendo de cuán pequeña sea la muestra en comparación con la población. Se supone que la población se distribuye normalmente como generalmente sucede. Si el tamaño de la muestra es lo suficientemente grande, la distribución de muestreo también estará cerca de lo normal. Si éste es el caso, entonces la distribución de muestreo puede ser totalmente determinada por dos valores: la media y la desviación estándar. Estos dos parámetros son importantes para calcular la distribución de muestreo si se nos da la distribución normal de toda la población.

CARACTERÍSTICAS DE LA DISTRIBUCIÓN DE MUESTREO  Teorema del límite central Cuando muestras aleatorias del mismo tamaño son tomadas de la población, la distribución de las medias de las muestras se acercará a la distribución Normal.  Cuando la distribución de muestreo de la media tiene muestras de tamaño de 30 o mayores se dice que están Normalmente distribuidas.

CARACTERÍSTICAS ESTADÍSTICAS DE LA DISTRIBUCIÓN DE MUESTREO Las estadísticas principales son:

 Media  Desviación estándar  Error estándar

El error estándar (ES o ESM) de la distribución de muestreo es dado por la fórmula: s √n Donde, n = tamaño de muestra s- desviación estándar de la muestra x – media de la muestra a) SE de una proporción = √ p (1-p)/n Donde, p es la proporción de la muestra b) SE de un porcentaje =√ p (100-p)/n Donde, p es el porcentaje de la muestra

REGRESION Y CORRELACION LINEAL • La regresión lineal es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos

variables, cuya tendencia general es rectilínea; relación que cabe compendiar mediante una ecuación “del mejor ajuste” de la forma: y = a + bx • En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje vertical en el gráfico (ordenada). • en tanto que “x” indica la magnitud de la coordenada sobre el eje horizontal (abscisa). •

El valor de “a” (que puede ser negativo, positivo o igual a cero) es llamado el intercepto.

• en tanto que el valor de “b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente de regresión.

Objetivos que tiene el uso de la regresión lineal simple: • Saber construir un modelo de regresión lineal simple que describa Como influye una variable X sobre otra variable Y •

Saber obtener estimaciones puntuales de los parámetros de dicho modelo



Saber construir intervalos de confianza y resolver contrastes sobre dichos parámetros



Saber estimar el valor promedio de Y para un valor de X

• Saber predecir futuros de la variable respuesta, Y El modelo de regresión lineal simple supone que, yi = β0 + β1xi + u

donde: yi= representa el valor de la variable respuesta para la observación i-esima. xi = representa el valor de la variable explicativa para la observación i-esima. ui = representa el error para la observación i-esima que se asume normal, ui ∼ N(0, σ) β0 y β1 son los coeficientes de regresión: β0 : intercepto β1 : pendiente Los parámetros que hay que estimar son: β0, β1 y σ El objetivo es obtener estimaciones βˆ0 y βˆ1 de β0 y β1 para calcular la recta de regresión: yˆ = βˆ0 + βˆ1x que se ajuste lo mejor posible a los datos. Ejemplo: Supongamos que la recta de regresión del ejemplo anterior es: Costo = −15,65 + 1,29 Volumen

Se estima que una empresa que produce 25 mil unidades tendrá un costo: costo = −15,65 + 1,29 × 25 = 16,6 mil euros ECUACIÓN DE REGRESIÓN. • La ecuación de la recta de regresión permite pronosticar la puntuación que alcanzará cada sujeto en una variable Y conociendo su puntuación en otra variable X. A la variable Y se le denomina criterio y a la variable X predictor.

SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL

• Que la relación entre las variables sea lineal. • Que los errores en la medición de las variables explicativas sean independientes entre sí. • Que los errores tengan varianza constante. • Que los errores tengan una esperanza matemática igual a cero. • Que el error total sea la suma de todos los errores. EJEMPLO DE REGRESION Y CORRELACION LINEAL Un conjunto de datos bidimensionales (X, Y) tiene Coeficiente de correlación r= -0.9, siendo las medias de las distribuciones marginales = 1, = 2. Se sabe que una delas cuatro ecuaciones siguientes corresponde a la Recta de regresión de Y sobre X:y = -x + 2 3x - y = 1 2x + y = 4 y = x + 1Seleccionar razonadamente esta recta .Como el coeficiente de correlación lineal es negativo , la pendiente de la recta también será

negativa , por tanto descartamos la 2ª y 4ª.U n p u n t o d e l a re c t a h a d e s e r ( , ) , e s d e c i r , ( 1, 2 ). 2≠ - 1 + 22 . 1 + 2 = 4La recta pedida es:2x + y = 4

Error Estándar de la Regresión (EER) No sólo es cierto que la esperanza matemática de la distribución de probabilidad de cada uno de los residuos MCO es igual a cero. También se cumple que su media muestral es igual a cero, puesto que la suma de todos ellos lo es, como vimos en las ecuaciones normales. Esta es una peculiaridad del método de estimación MCO, que otro procedimiento de estimación no tiene. Si, considerados a lo largo de toda la muestra, los residuos tienen media cero, entonces su desviación típica muestra ser· un indicador del tamaño promedio de cada uno de ellos. Esto es importante, porque si la recta estimada se ajusta bien a la nube de puntos, entonces los residuos deberían ser pequeños en algún sentido. Utilizar la desviación típica muestra de los residuos parece un criterio razonable de ajuste. Además, sabemos que si utilizamos n 2 en el denominador, su cuadrado es un estimador insesgado de . La ausencia de sesgo en este estimador puede demostrarse sin necesidad de obtener previamente los residuos de la regresión, tomando esperanzas en la expresión:

Su raíz cuadrada, la desviación típica estimada, recibe el nombre de error estándar de la regresión EER:

Es claro que minimizar la varianza residual equivale a minimizar el error estándar de la regresión, EER. Sin embargo, recordemos que la desviación típica tiene, respecto a la varianza, la ventaja de estar medida en las mismas unidades que la variable a la que se reitere, el residuo, que tiene, a su vez, las mismas unidades que la variable endógena ya. Para valorar si el ajuste obtenido por la recta MCO a la nube muestra de puntos es bueno, es conveniente utilizar el valor numérico del EER en relación con alguna referencia, y la media muestral de la variable endógena es un buen indicador. Ello nos permite presentar el porcentaje que de la media de yi representa el EER, pudiendo decir, por ejemplo: el modelo estimado es bueno, puesto que el EER es tan solo un 4% de la media de la variable endógena o, por el contrario: "el ajuste obtenido no es muy bueno, porque el tamaño medio de los residuos, indicado por el EER, es de un 65% de la media de Y”.

Determinación de los coeficientes de correlación y de determinación Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación, definido como sigue (6.1 5) O bien

Como scE < scG, se verifica que 0 < R2 < 1. El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien. Por otra parte, teniendo en cuenta que obtiene

i

- =

1

, se se (6.1 6)

Dadas dos variables aleatorias cualesquiera X e Y , una medida de la relación lineal que hay entre ambas variables es el coeficiente de correlación definido por (6.1 7) donde representa la desviación típica de la variable X (análogamente para ). Un buen estimador de este parámetro es el coeficiente de correlación lineal

muestral (o coeficiente de correlación de Pearson), definido por (6.1 8) Por tanto, r . Este coeficiente es una buena medida de la bondad del ajuste de la recta de regresión. Evidentemente, existe una estrecha relación entre r y 1 aunque estos estimadores proporcionan diferentes interpretaciones del modelo: * r es una medida de la relación lineal entre las variables X e Y. * 1 mide el cambio producido en la variable Y al realizarse un cambio de una unidad en la variable X. De las definiciones anteriores se deduce que:

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el modelo de regresión lineal es significativo. Desafortunadamente la distribución de r es complicada pero para tamaños muestrales mayores que 30 su desviación típica es 1/ , y puede utilizarse la siguiente regla

En la interpretación del coeficiente de correlación se debe tener en cuenta que: · r = ±1 indica una relación lineal exacta positiva (creciente) o negativa (decreciente), · r = 0 indica la no existencia de relación lineal estocástica, pero no indica independencia de las variables ya que puede existir una relación no lineal incluso exacta,

· valores intermedios de r (0 < r < 1 ó -1 < r < 0) indican la existencia de una relación lineal estocástica, más fuerte cuanto más próximo a +1 (ó -1) sea el valor der. Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido: Figura 6.7. Existe una dependencia funcional lineal, las observaciones están sobre la recta de regresión. r = R 2 = 1, recta de regresión: y = x.

Figura Dependencia funcional lineal. Figura 6.8. La relación lineal entre las variables es muy pequeña y no parece que exista otro tipo de relación entre ellas, la nube de puntos indica que las variables son “casi” independientes. r = 0'192, R2 = 0'037, recta de regresión: y = 6'317 + 0'086x.

Contraste de regresión: R = 0'687 F1,18 p - valor = 0'418. Se acepta la no influencia de la variable regresora en Y.

Figura Observaciones “casi”independientes. Figura 6.9. Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por tanto la correlación es muy pequeña r = 0'391, R2 = 0'153, recta de regresión: y = 32'534 - 1'889x. Contraste de regresión: R = 3'252 F1,18 p-valor = 0'088. Se acepta que no existe relación lineal con = 0'05. En base a la Figura 6.6. se debe de hacer un ajuste del tipo parabólico Y = 0 + 1x + 2x2.

Figura Existe una relación cuadrática. Figura 6.10. La nube de datos se ajusta razonablemente a una recta con pendiente positiva. r = 0'641, R2 = 0'410, recta de regresión: y = -3' 963 + 1'749x. Contraste de regresión: R = 12'522 F1,18 p - valor = 0'002. Se rechaza la no influencia lineal de la variable x.

Relación estocástica lineal. Figura 6.11. Existe una fuerte dependencia lineal negativa entre las dos variables y la correlación es muy alta (próxima a 1). r = 0'924, R2 = 0'846, recta de regresión: y = 2'528 - 2'267x Contraste de regresión: R = 105'193 F1,18 p - valor = 0'000. Se acepta la existencia de una relación lineal.

Fuerte relación estocástica lineal.