2 - Grupos Aleatorios - Tito

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMATICAS “METODO DE GRUPOS ALEATORIOS” EAP : Escuela

Views 66 Downloads 2 File size 547KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS MATEMATICAS

“METODO DE GRUPOS ALEATORIOS” EAP

: Escuela Académico Profesional de Estadística

CURSO

: Muestreo 2

PROFESORA

: Gregoria Natividad Ramón Quispe

INTEGRANTE: ➢ Sullca Damián José Tito

2019

INTRODUCCION A medida que la aplicación y teoría de muestreo han cobrado terreno, son cada vez más los estudios encaminados a establecer y comparar métodos para calcular la varianza de un estimador cuando no se tiene una expresión para su estimación. En casi todos los diseños de muestreo complejos, es posible conseguir un estimador insesgado de la varianza, cuando la estadística de interés es una combinación lineal de las observaciones. Sin embargo, es muy común el hecho de que la función de los datos de la muestra con la que se construye el estimador sea una función no lineal, como son las razones, diferencia de razones, coeficientes de regresión y correlación, entre otros. En estos casos, no se cuenta con una expresión para el estimador de la varianza, por lo que se hace necesario el apoyo de otras formas para estimarla. Existen varios métodos para estimar la varianza en muestreos complejos. Quizás algunos de los métodos más usados e importantes, se basan en el remuestreo, entre los cuales destacamos el de los Grupos Aleatorios Dependientes y el de Jackknife. El método de los grupos aleatorios dependientes (GAD), fue una de las primeras técnicas para estimar la varianza de un estimador en diseño de muestras complejas. Las primeras ideas fueron introducidas por Mahalanobis (1946), se vio en la necesidad de reducir las fuentes de error en sus encuestas. Por tal razón, comenzó a diseñar muestras a las que llamó interpenetrantes, o muestras a la mitad

(“half-sampling”).

Básicamente

su

técnica

consistía

en

numerar

consecutivamente las unidades de muestreo dentro de cada estrato o unidad primaria; posteriormente, separaba la muestra de acuerdo a dicho número en impares y pares, formando dos conjuntos de datos que daban dos estimaciones. El término interpenetrante alude a la aplicación del método al evaluar márgenes de error diferentes a la variabilidad del fenómeno que se observa. Sin embargo, la idea de Mahalanobis fue considerada por autores como Hansen, Hurwitz y Madow (1953), llamándole la técnica del conglomerado último o del grupo aleatorio, dándole un carácter más general. Deming (1956), la utilizó con el simple propósito

de obtener un estimador de varianza sin importar lo complicado que fuera el estimador o el diseño muestral y le llamó Muestreo replicado El método de los grupos aleatorios dependientes, es una técnica para estimar varianzas en muestras complejas de. El método consiste en extraer una muestra probabilística S con un diseño sin restitución, dividirla en R grupos aleatorios dependientes disjuntos y estimar con cada uno de ellos el parámetro poblacional

𝜃, el promedio que resulta de estas estimaciones también se considera un estimador de 𝜃 . Un estimador para la varianza del estimador de 𝜃 es la varianza

̂ r respecto al promedio de los mismos. de los estimadores θ Las ventajas del método de los GAD es que no se requiere de Software especial para estimar la varianza, siendo fácil calcular la estimación de la varianza. Es adecuado para los problemas multiparamétricos o no paramétricos; puede servir para estimar varianza de percentiles y de funciones no suaves, así como para varianzas de funciones suaves de los totales de la población. No es necesario conocer las probabilidades de inclusión de segundo orden para estimar la varianza de un estimador. Puede ser utilizado fácilmente después de los ajustes de ponderación para la ausencia de respuestas y la subcobertura. Pero también tiene algunas desventajas, entre las que se destacan la cantidad de grupos aleatorios que por lo menos deben ser 10 para no obtener estimaciones imprecisas de la varianza. La otra dificultad al aplicar el método GAD, es el establecimiento de los grupos aleatorios que puede ser difícil en los diseños complejos, ya que cada grupo debe tener la misma estructura de diseño que la encuesta completa.

Los Métodos de Estimación De varianzas ➢ Método de Replicación Simple ➢ Método de Grupos Aleatorios ➢ Método de los Conglomerados Últimos ➢ Método de Replicación Repetida Balanceada ➢ Método de Jacknife ➢ Método Bootstrap



Supongamos una muestra de n elementos extraídos de una Población de N elementos



Se subdivide la muestra (MUESTRA MATRIZ) en k submuestras (Grupos) de tamaño m, de tal manera que se cumple que n=km



Cada grupo formado es una submuestra aleatoria de la muestra matriz, la muestra matriz es a su vez una muestra aleatoria de la población,



Entonces cada submuestra posee las mismas propiedades probabilística de la muestra matriz pero de menor tamaño.



En tales circunstancias, cada submuestra proporciona una estimación si se utiliza la misma expresión que se utilizo para la muestra completa

METODO DE GRUPOS ALEATORIOS Se extrae una muestra de n unidades de una población de tamaño N. Dicha muestra se subdivide en k submuestras de igual tamaño m, de modo que n=k.m Estas submuestras se denominan grupos aleatorios, y además de ser submuestras de grupos aleatorios de tamaño m dentro de una muestra w de tamaño n puede realizarse considerando una permutación aleatoria de los números 1,2,…, n y eligiendo el primer grupo aleatorio formado por los elementos de la muestra que ocupan los lugares definidos por los m primeros números aleatorios de la permutación. El segundo grupo aleatorio se formara con los elementos de la muestra que ocupan los lugares definidos por el segundo conjunto de m números de la permutación. Así sucesivamente se formaran los k grupos aleatorios correspondientes a la muestra. Si

𝜃̂ : es un estimador insesgado de la característica poblacional 𝜃 basado en la muestra completa w

𝜃̂𝑟 : es un estimador insesgado de la característica poblacional 𝜃 basado en el résimo grupo aleatorio

un estimador insesgado de la varianza de 𝜃̂ es el siguiente: k

Vˆ (ˆ) =

 (ˆ − ˆ) r =1

r

k (k − 1)

2

Estimadores aplicados: θ̂ =

∑kr=1(θ̂r ) k

̂ 𝒆𝒔 𝒖𝒏 𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓 𝒊𝒏𝒔𝒆𝒔𝒈𝒂𝒅𝒐 de 𝜽 Demostración que 𝜽 ∑kr=1(θ̂r ) E(θ̂) = E [ ] k k

1 E(θ̂) = E [∑(θ̂r )] k r=1

k

1 E(θ̂) = [∑ E(θ̂r )] k r=1

1 E(θ̂) = [k. θ] k E(θ̂) = θ

II.

METODO DE GRUPOS ALEATORIOS EN GENERAL

II.1 El teorema anterior puede extenderse a diseños más complejos. Supongamos que para un diseño muestral dado, 𝜃̂ es un estimador insesgado del parámetro 𝜃 . Supongamos también que la muestra completa, de tamaño n, obtenida según el 𝑛

citado diseño, se divide aleatoriamente en k submuestras de tamaño 𝑚 = 𝑘 , de modo que cada una de esta conserva las mismas propiedades que aquella (estratificación, probabilidades de selección, etc.) aunque es de menor tamaño. Designemos por 𝜃̂ el estimador aplicado a la muestra completa y por 𝜃̂𝑟 (𝑟 = 1,2,3, . . , 𝑘) el aplicado a cada grupo aleatorio.

Forma general: Estimador de 𝜃 con la muestra matriz 𝑘

1 𝜃̂ = ∑ 𝜃̂𝑖 𝑘 𝑖=1

Estimador de con el grupo i: 𝑉(𝜃̂𝑟 )= 𝑘𝑉(𝜃̂ ) Luego 2 2 𝑉(𝜃̂𝑟 ) = 𝐸(𝜃̂𝑟 − 𝜃̂ ) + 𝐸(𝜃̂ − 𝜃)

Entonces 2 𝑘𝑉(𝜃̂ ) = 𝐸(𝜃̂𝑟 − 𝜃̂ ) + 𝑉(𝜃̂ )

Despejando 2 𝐸(𝜃̂𝑟 − 𝜃̂ ) = 𝑘𝑉(𝜃̂ ) − 𝑉(𝜃̂ ) = (𝐾 − 1)𝑉(𝜃̂ )

Despejando 2 𝐸(𝜃̂𝑟 − 𝜃̂ ) = 𝑘𝑉(𝜃̂ ) − 𝑉(𝜃̂ ) 2 𝐸(𝜃̂𝑟 − 𝜃̂ ) = (𝑘 − 1)𝑉(𝜃̂ )

Y sumando en r=1, 2, 3,…., k los dos términos de la última igualdad tenemos 𝑘

𝑘 2

∑ [𝐸(𝜃̂𝑟 − 𝜃̂ ) ] = ∑(𝑘 − 1)𝑉(𝜃̂ ) 𝑟=1

𝑟=1 𝑘

2 𝐸 [∑(𝜃̂𝑟 − 𝜃̂ ) ] = 𝑘[(𝑘 − 1)𝑉(𝜃̂ )] 𝑟=1 2 ∑𝑘𝑟=1(𝜃̂𝑟 − 𝜃̂ ) 𝐸[ ] = 𝑉(𝜃̂ ) 𝑘(𝑘 − 1)

Por lo tanto

Es un estimador insesgado de 𝑉(𝜃̂) La condición 𝑉(𝜃̂𝑟 ) = 𝐾𝑉(𝜃̂) se cumple siempre que el muestreo sea con reposición y la condición 𝐸𝑤 (𝜃̂𝑟 ) = 𝜃̂ , se cumple siempre que 𝜃̂𝑟 sea una copia de 𝜃 aplicada a grupo aleatorio de tamaño m.

Grupos Aleatorios Dependientes (Grupos de tamaños iguales)

Grupos Aleatorios Dependientes (Grupos de tamaños diferentes)

Ejemplo The 1991 Information Please Almanac indica los costos de inscripción, colegiaturas y hospedaje de todas las instituciones de educación superior de Estados Unidos. Suponga que queremos estimar la proporción entre colegiatura para no residentes y la colegiatura para residentes de las universidades públicas de estados

unidos. En una típica puesta en práctica del método de grupos

aleatorios, se extraerían muestras independientes usando el mismo diseño, ̂ para cada muestra. Consideremos cuatro muestras aleatorias determinando ϴ simples, cada una de tamaño 10. Las cuatro son sin reemplazo Institución COLUMBUS COLELGE SOUTHEASTERN MASSACHUSETTS UNIVERSITY U.S NAVAL ACADEMY ATHENS STATE COLLEGE UNIVERSITY SOUTH ALABAMA VIRGINIA STATE UNIVERSITY SUNY COLLEGE OF UNIVERSITY UNIVERSITY OF HOUSTON CUNY-LEHMAN COLLEGE AUSTIN PEAY STATE UNIVERSITY promedio institución SUNY NEW PALTZ INDIANA UNIVERSITY UNIVERSITY OF WISCONSIN UNIVERSITY OF CALIFORNIA WEBER STATE COLLEGE KENNESAW COLLEGE SOUTH DAKOTA STATE UNIVERSITY DICKINSON STATE UNIVERSITY CHADRON STATE COLLEGE UNIVERSITY OF ALASKAFAIRBANKS promedio

inscripción

colegiatura para colegiatura para residentes no residentes 3482 1348 3747 5354 1677 4983 4500 1392 9195 3308 10801 18648 7841 4784 6934.2

inscripción 4696 4931 5080 16853 12783 8404 6366

1500 1500 1080 2160 1875 2475 3071 5135 1542 3950 930 4050 1340 4140 1210 4166 1559 3630.6 colegiatura para colegiatura para residentes no residentes 1495 4095 1350 3342 1658 4740 1578 5799 1308 3513 1296 3678 1835 3363

1402 2143 7028

1659 1361 1512

473 2036 3540

6968.6

1505.2

3883.7

institución UNIVERSITY OF ALASKAANCHORAGE UNIVERSITY OF MAINE SOUTHERN UNIVERSITY-baton UNIVERSITY OF OREGON VIRGINIA STATE UNIVERSITY GLENVILLE SATATE COLLEE WISCONSIN-SALEM STATE UNIVERSITY FRAMINGHAM STATE COLLEGE SUNY-OLD WESTBURY NORTHWEST MISSOURI STATE UNIVERSITY promedio institución CENTRAL WASHINGTO UNIVERSITY WORCESTER STATE COLLEGE UNIVERSITY OF CALIFORNIA DAVIS SAM HOUSTON STATE UNIVERSITY UNIVERSITY OF TEXAS-TYLER SOUTHESATERN OKLAHOMAS STATE UNIVERSITY UNIVERSITY OF SOUTHERN COLORADO PENSSYLVANIA STATE UNIVERSITY EAST CENTRAL UNIVERSITY UNIV OF ARKANSAS MONTICELLO promedio

𝑅̂𝑟 =

inscripción

colegiatura para colegiatura para residentes no residentes 4091 941 2765 594 9448 13786 3308 2185 2532

1710 1354 1782 3071 1150 896

4140 2876 5043 5135 2900 4268

3359 3999 4600

1701 1350 1320

4729 3292 2415

4790.6

1527.5 3756.3 inscripción colegiatura para colegiatura para residentes no residentes 6398 1674 5712 3600 17202

1296 1696

3792 7592

12359

1060

4180

2335 3616

861 804

3695 1992

3909

1536

5275

31251

3754

7900

3606 1854

1200 1410

4140 3230

8613

1527.1

4750.8

𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑒𝑔𝑖𝑎𝑡𝑢𝑟𝑎𝑠 𝑝𝑎𝑟𝑎 𝑛𝑜 𝑟𝑒𝑠𝑖𝑑𝑒𝑛𝑡𝑒𝑠 𝑒𝑛 𝑒𝑙 𝑟 − é𝑠𝑖𝑚𝑜 𝑔𝑟𝑢𝑝𝑜 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑐𝑜𝑙𝑒𝑔𝑖𝑎𝑡𝑢𝑟𝑎𝑠 𝑝𝑎𝑟𝑎 𝑟𝑒𝑠𝑖𝑑𝑒𝑛𝑡𝑒𝑠 𝑒𝑛 𝑒𝑙 𝑟 − é𝑠𝑖𝑚𝑜 𝑔𝑟𝑢𝑝𝑜 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜

Así 𝑅̂1 =

(3747 + 4983 + 1500 + 2160 + 2475 + 5135 + 3950 + 4050 + 4140 + 4166)/10 (1348 + 1677 + 1500 + 1080 + 1875 + 3071 + 1542 + 930 + 1340 + 1210)/10

3630.6 𝑅̂1 = 1559

→ 𝑅̂1 = 2.3288 → 𝑅̂2 = 2.5802 → 𝑅̂3 = 2.4591 → 𝑅̂4 = 3.1110 El promedio muestral de las cuatro estimaciones independientes de 𝑌̅ es 𝑦̅ 𝑦̅ =

𝑦̅ =

𝑆(𝑅̂𝑟 ) ; 𝑘

𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑟 = 1,2,3,4

(2.3288 + 2.5802 + 2.4591 + 3.1110 ) 4 𝑦̅ = 2.6198

̂ 𝑉(𝑦 ̅) =

̂ 𝑉(𝑦 ̅) =

𝑆(𝑦̅𝑟 − 𝑦̅)2 𝑘(𝑘 − 1)

(2.3288 − 2.6168)2 + (2.5802 − 2.6168)2 + (2.4591 − 2.6168)2 + (3.111 − 2.6168)2 4(4 − 1)

De modo que el error estándar muestral es ̂ √𝑉(𝑦 ̅) =

√0.117649 √4

̂ √𝑉(𝑦 ̅) = 0.1702

de modo que un intervalo de confianza de 90% para la razón en cuestión

INTERVALOS DE CONFIANZA

Ademas

= 0.06496741

Reemplazando los valores obtenidos

BIBLIOGRAFIA ➢ Estimación de errores de muestreo ,Julio Miras Amor INE, España ➢ Métodos de estimación de la varianza, con aplicación a la encuesta nacional de hogares ampliada ;Fiorella Cavalleri Ferrari ,diciembre de 2008 ➢ Método de remuestreo para el cálculo de varianzas en muestreos complejos; Catalina Palmer Alache UNAM volumen 10 n° 25 ,2001 ➢ Técnicas de Muestreo Estadístico ;Cesar Pérez López,2000 ➢ Técnicas de Muestreo, Sharon Lohr,2000