Estadistica Ii - Guia Teorica

Prof.: Jezabel Fermín ASIGNATURA: ESTADISTICA II (0913863) UNIDAD I: TEORIA DE MUESTREO Y ESTIMACION La teoría del muest

Views 91 Downloads 1 File size 677KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Prof.: Jezabel Fermín ASIGNATURA: ESTADISTICA II (0913863) UNIDAD I: TEORIA DE MUESTREO Y ESTIMACION La teoría del muestreo es el estudio de las relaciones existentes entre una población y muestras extraídas de la misma. Muestreo: Es el procedimiento por medio del cual se estudia una parte de la población llamada muestra, con el objetivo de inferir con respecto a toda la población. Ventajas del Muestreo:  Costos reducidos.  Mayor rapidez para obtener resultados.  Mayor exactitud o mejor calidad de la información.  Factibilidad de hacer el estudio cuando la toma de datos implica técnicas destructivas. Calculo del tamaño de la muestra El tamaño de la muestra depende de los siguientes elementos: 1. Tamaño de la población. 2. Nivel de confianza adoptado. 3. Error de estimación permitido. 4. Proporción en que se encuentre en el universo la característica estudiada (p) Nota: Cuando no es posible estimar la característica mediante un ensayo piloto (p en %) adoptará la suposición de que dicho porcentaje es igual al 50%. La población se considera finita cuando no pasa de 100000 elementos e infinita cuando supera esa cantidad. Fórmulas para determinar el tamaño de la muestra: 1. Para Poblaciones Finitas:

2 Z p(1  p) N

n

2

2 e 2 ( N  1)  Z  p(1  p) 2

2. Para Poblaciones Infinitas:

n

Z2 p(1  p) 2

e2

1

Tipos de Muestreo: 1. Muestreos No Probabilísticos: Los elementos o individuos de la muestra se eligen sin tomar en cuenta su probabilidad de ocurrencia. Por tanto, es imposible determinar el grado de representatividad de la muestra. Estas pueden ser: a. Muestreo por Juicio: También conocido como muestreo por selección experta o selección intencional. El investigador toma la muestra seleccionando los elementos que a él le parecen representativos o típicos de la población. b. Muestreo Casual o fortuito: Se utiliza en los casos en que no es posible seleccionar los elementos, y deben sacarse conclusiones con los elementos que estén disponibles. c. Muestreo de Cuota: Se utiliza en el estudio de opinión de mercado. d. Muestreo de Poblaciones Móviles: En este tipo de muestreo se utiliza métodos de captura, marca y recaptura. Se utiliza mucho en el estudio de migración de poblaciones de animales y otras características. 2. Muestreos Probabilísticos: Los elementos de la muestra son seleccionados siguiendo un procedimiento que brinde a cada uno de los elementos de la población una probabilidad conocida de ser incluidos en la muestra. Dentro de este tipo tenemos: a. Muestreo Aleatorio Simple: Es seleccionado de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionado de la población. b. Muestreo Sistemático: Este tipo de muestreo se obtiene cuando los elementos son seleccionados en una manera ordenada. La manera de selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de elementos en la población es dividido por el número deseado en la muestra y el cociente (resultado) se redondea al entero más cercano, el cual indicará si cada décimo, cada onceavo, o cada centésimo elemento en la población va a ser seleccionado.

N población   cociente n muestra El primer elemento de la muestra es seleccionado al azar. c. Muestreo Estratificado: Para este tipo de muestreo se divide la población en grupos, llamados estratos, que son más homogéneos que la población como un todo. Los elementos de la muestra son seleccionados al azar o por un método sistemático de cada estrato. El número de elementos seleccionado de cada estrato puede ser proporcional al tamaño del estrato en relación con la población. 2

n n  E NT N E



nE 

NE  n NT

d. Muestreo Por Conglomerado: Para este tipo de muestreo se divide la población en grupos que son convenientes para el muestreo. Se selecciona una porción de los grupos al azar o por un método sistemático y se toma todos los elementos o parte de ellos al azar o por un método sistemático de los grupos seleccionados para obtener una muestra. Este tipo de muestreo produce un mayor error muestral que una muestra aleatoria simple del mismo tamaño.

Distribuciones Muéstrales La estadística inferencial involucra el uso de un estadístico para sacar una conclusión o inferencia sobre el parámetro correspondiente. El estadístico es una medida usada para describir alguna característica de una muestra, tal como una media aritmética, una desviación típica o estándar de una muestra. El parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una desviación típica o estándar de una población. El estadístico se utiliza como estimador del parámetro. Los símbolos utilizados para representar los estadísticos y los parámetros son los siguientes: Medida Parámetro Estadístico  Media Aritmética x Varianza Desviación Típica o Estándar Proporción Nº de Elementos

2

  N

s2 s

p

n

Distribución muestral de un estimador La distribución del estimador de todas las posibles muestras del mismo tamaño, que pueden ser extraídas de una población, se le denomina Distribución muestral del estimador, puesto que el estimador es una variable aleatoria, ya que su valor cambia de muestra a muestra. Debe quedar claro que si tomamos una segunda muestra aleatoria 3

de una población, sería casi imposible esperar el mismo valor para el estimador. Si por ejemplo el estimador es 𝑋̅y tomamos varias muestras, lo más probable es que ninguna de las 𝑋̅ de cada una de las muestras sería igual a las otras. Esas diferencias se deben precisamente a que se trata de un proceso aleatorio en la selección de las muestras. Distribución en el muestreo Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), dos o más muestras pueden ser extraídas de la misma población. Un cierto estadístico puede ser calculado para cada una de las muestras posibles extraídas de la población. La distribución muestral es una lista de todos los valores posibles para un estadístico y la probabilidad relacionada con cada valor. Error Muestral o Error de Muestreo: Es la diferencia entre el parámetro poblacional y el estadístico de la muestra utilizado para estimar el parámetro. Un error de muestreo usualmente ocurre cuando no se lleva a cabo la encuesta completa de la población, sino que se toma una muestra para estimar las características de la población. Media de las Medias Muéstrales: La distribución muestral de las medias muéstrales es una lista de todas las medias muéstrales posibles. Estas medias muéstrales al igual que cualquier lista de números, tienen una media denominada la media de las medias muéstrales o la gran media. Esta media de las medias se obtiene aplicando la siguiente formula:

X

x K

De una población que contiene “N” elementos, podemos extraer o seleccionar “K” muestras diferentes de igual tamaño “n”. El número de muestras posibles de tamaño “n” se obtiene a través de la fórmula de combinación:

K  N Cn 

N! n!( N  n)!

Dónde: N: tamaño de la población.n: tamaño de la muestra. K: número posible de muestras de tamaño n, que pueden ser obtenidas de una población de tamaño N.

4

La media de la distribución muestral X es igual a la media de la población original 

X   

Se recuerda:

 : Media aritmética de la población. 𝜇 =

∑𝑥 𝑁

 : Desviación estándar de la población.𝜎 = √

∑(𝑥−𝜇)2 𝑁

Varianza y Error Estándar de las medias muéstrales: La varianza en las medias muéstrales mide la dispersión de las observaciones individuales (medias muéstrales) alrededor de su media (la gran media X ) y el error estándar de la distribución muestral es una medida de la dispersión de las medias muéstrales alrededor de  . Por tanto, el error estándar  x , mide la tendencia a sufrir del error de muestreo en el esfuerzo por estimar  .

Este se obtiene de la raíz

cuadrada de la varianza de la distribución de las medias muéstrales. Estas se determinan de la siguiente manera:

 f (x  X ) 2  x K

2

2  f (x  X ) . x  K

2

x

x:



 f (x  ) 2  x K



2

x  2 x

Varianza de las medias muéstrales Desviación estándar de las medias muéstrales, que se le da el nombre de error

estándar. Teorema del Límite Central Si la población o proceso del cual se toma una muestra tiene una distribución normal, también la distribución de muestreo de la media tendrá distribución normal, sin importar el tamaño de la muestra. El teorema de límite central establece que cuando el tamaño de la muestra se incrementa la distribución de muestreo de la media así como de otros estadísticos muéstrales se aproxima en cuanto a su forma a la distribución normal,

5

independientemente de la forma de la distribución de la población de la que fue tomada la muestra. Uso de la distribución muestral Es importante ya que se pueden tomar decisiones con base en los resultados muéstrales. Una aplicación de la distribución muestral es la de determinar la probabilidad de que una media muestral clasifique dentro de un rango dado. La distribución muestral está distribuido normalmente si la muestra se toma de una población normal (n  30) y el teorema del límite central garantiza la normalidad en el proceso de muestreo, mientras que la desviación normal puede utilizarse para el proceso de toma de decisiones. Ahora bien, si a cada una de las K muestras posibles, le calculamos un estimador como la media o la proporción, obtenemos una variable aleatoria cuya distribución denominamos DISTRIBUCIÓN MUESTRAL DEL ESTIMADOR. Si un estimador, es por ejemplo la media aritmética, entonces podemos hablar de DISTRIBUCIÓN EN EL MUESTREO DE LA MEDIA, pero si el estimador es la proporción, hablaremos de DISTRIBUCIÓN EN EL MUESTREO DE LA PROPORCIÓN, etc. Distribución en el muestreo de la Media Si a cada una de las K muestras de igual tamaño “n”, que podemos seleccionar de una población “N”, le calculamos su respectivos estimadores (medias aritméticas), se puede observar que la mayoría de estas medias muéstrales ( x ) difieren entre sí. La distribución de probabilidad de estas medias muéstrales se denomina distribución muestral de la media, la cual tiene una media y una desviación estándar o error



estándar  , entonces: x 1. La distribución muestral de la media ( x ) tiene media



 , es decir:

E x  X  2. La distribución muestral de la media tiene desviación estándar o error estándar:

x 

 n

Si el tamaño muestral n no es una fracción pequeña del tamaño poblacional N, entonces, al error estándar se le aplicará un factor de corrección, es decir, cuando se

6

 N n   N  1  

conoce la población, al error estándar se le aplica factor de corrección  siempre y cuando se cumpla la siguiente condición, si n  0.05  N factor de corrección, por lo tanto, el error estándar a utilizar sería:

x 

 n



se requiere del

N n N 1

Distribución muestral de X en una población normal con media y desviación estándar conocida: :Z 

x



n Si la población está normalmente distribuida y se conoce µ pero se desconoce σ, entonces el valor de “σ”, puede reemplazarse por la desviación estándar de la muestra “S”, siempre y cuando el tamaño de la muestra sea grande(n ≥ 30). En estas condiciones el valor de “Z” sería: Z 

x S n

Distribución de las Proporciones Muéstrales La distribución en el muestreo de la proporción, consiste en la distribución de las proporciones de todas las posibles muestras que pueden ser seleccionadas de una población.Cada muestra tendrá su propia proporción de éxitos (p).Sin embargo, al igual que con las medias, el valor esperado de la distribución muestral de las proporciones será igual a la proporción de éxitos en la población.

E ( p)   Dónde: p es la proporción de éxito de la muestra es la proporción de éxito de la población



El valor esperado (medias) de la distribución muestral es: El error estándar es:

p 

E ( p) 

p k

 (1   ) n

7

Cuando se conoce la población, al error estándar se le aplica factor de corrección

 N n    siempre y cuando se cumpla la siguiente condición, si n  0.05  N N  1  

se

requiere del factor de corrección, por lo tanto el error estándar se determina de la siguiente manera:

p 

 (1   ) n



N n N 1

El teorema del límite central también se cumple en la distribución en el muestreo de la proporción, es decir, que si una población no es normal o no sabemos nada de ella, las proporciones muéstrales se distribuirán aproximadamente como una distribución normal, si el tamaño de la muestra n ≥ 30.

Z

p   1    n

ESTIMACIONES Debido al coste, al tiempo y a la viabilidad, se suelen estimar los parámetros de la población a partir de los estadísticos de una muestra. Un estimador de un parámetro poblacional es una variable aleatoria que depende de la información de la muestra y cuyas realizaciones proporcionan aproximaciones al valor desconocido del parámetro. Estimación Puntual Un estimador puntual de un parámetro poblacional es una función de la muestra que da como resultado un único valor. Por ejemplo, la media muestral (X ) es un estimador puntual de la media poblacional (  ) Formulas: Media muestral: X 

 Xi n

8

2 2 (Xi  X )  Xi  nX  Varianza muestral: S  n 1 n 1

2

2

Desviación estándar o típica muestral:

S  S2

Proporción muestral:

p

X n

donde :

X : nº de éxito en la muestra n : nº de elementos en la muestra

Propiedades de un estimador Un buen estimador debe tener las siguientes propiedades: a) Insesgado.Un estimador es “insesgado”, cuando el valor promedio de las estimaciones para todas las posibles muestras de igual tamaño, es igual al verdadero parámetro poblacional. Por ejemplo, la media muestral, la varianza muestral y la proporción muestral son estimadores insesgado de sus correspondientes parámetros poblacionales: b) Consistente. Se dice que un estimador es “consistente”, cuando la magnitud de los errores de estimación, se pueden reducir a medida que se aumenta el tamaño de la muestra, hasta eliminarlos completamente cuando el tamaño de la muestra iguala al tamaño de la población. Cuando se hace una estimación, necesariamente se genera un ERROR que aspiramos sea mínimo. En cualquier investigación, es necesario especificar con anticipación el nivel máximo de error que estamos dispuestos a aceptar en la estimación. El tamaño de la muestra, depende en buena parte del error que estemos dispuestos a tolerar en la estimación. Si estamos dispuestos a aceptar un mínimo error en la estimación, entonces el tamaño de la muestra deberá ser muy grande. Entre mayor sea el error que estamos dispuestos a tolerar, más pequeña será la muestra necesaria para la respectiva estimación ahorrando con esto tiempo y dinero, además los errores no muéstrales serán menores. c) Eficiente. La raíz cuadrada positiva de la varianza del estimador, se denomina “ERROR ESTÁNDAR”, el cual es una medida de la variabilidad del estimador. Cuando el error estándar es menor para un estimador que para otro, se dice que el primero es más eficiente que el segundo. Por ejemplo, si se trata de estimar un promedio, la media aritmética es un estimador más eficiente que la mediana.

9

Estimación con Intervalos de Confianza Una forma de estimar un parámetro poblacional consiste en estimar con algún grado de confianza, un intervalo que incluya un límite inferior y un límite superior dentro de los cuales esperamos que se encuentre el verdadero valor del parámetro. Con esto, estamos admitiendo que existe una probabilidad “  ” de que esto no ocurra y por consiguiente una probabilidad “1 –  ” de que ello si ocurra. Es decir, “  ” es la probabilidad de fallar en la estimación y “1 –  ” es la confiabilidad que merece la estimación. Un intervalo de confianza (estimación por intervalo) denota un rango dentro del cual puede encontrarse el parámetro, y el nivel de confianza que el intervalo contiene del parámetro. Este tiene un límite inferior de confianza (LIC) y un límite superior de confianza (LSC). Estos límites se determinan calculando primero al estadístico (la media muestral (X ) o la proporción) luego se suma una cierta cantidad al estadístico para obtener el límite superior de confianza (LSC), y la misma cantidad se resta del estadístico para obtener el límite inferior de confianza (LIC). El nivel de confianza es la probabilidad específica y se denota por (1   ) 100% , donde  es la proporción de las colas de la distribución que queda fuera del intervalo de confianza. La proporción en la cola superior de la distribución es 

2

y la proporción

en la cola inferior que queda fuera del intervalo de confianza también es 

2

Podemos calcular intervalos de confianza para estimar algunos parámetros poblacionales tales como: la media, la proporción, la diferencia de medias, la diferencia de proporciones y para la desviación estándar. Para tal efecto, nos basaremos en los conceptos estudiados sobre distribuciones muéstrales vistas anteriormente: Intervalos de confianza para la media de una población con varianza ( 2 ) o desviación estándar poblacional ( ) conocida y desconocida Si una población es normal, las medias muéstrales ( X ) de todas las muestras de tamaño “n”, que pueden tomarse de una población “N”, se distribuyen normalmente, sin importar el tamaño de la muestra. Por otra parte, si una población no está normalmente distribuida o no se sabe nada de ella, según el teorema del límite central, las medias muéstrales se distribuirán aproximadamente de acuerdo a una distribución normal, siempre y cuando el tamaño de la muestra sea mayor que 30 (n>30).

10

Consideremos una muestra aleatoria de n observaciones extraídas de una población que sigue una distribución normal de media  y varianza  2 . Si la media muestral es X , entonces el intervalo de confianza al (1   ) 100% de la media poblacional, cuando

la varianza es conocida, viene dado por:

 : X  Z

 2

n

→ X  Z

 2

n

   X  Z

 2

n

Si el tamaño de la muestra es mayor que 30 (n >30) y el valor de  es desconocida, entonces, la desviación estándar de la muestra “S”, puede reemplazar al valor de  . Por lo tanto,

 : X  Z

S S S    X  Z → X  Z 2 n 2 n 2 n

Se puede observar que para estimar el parámetro poblacional, se está creando un intervalo cuyo límite inferior corresponde al lado izquierdo de la fórmula, mientras que el límite superior corresponde al lado derecho de la fórmula. Esto quiere decir, que para la referida estimación, aceptamos un margen de error por defecto o por exceso máximo de𝑍𝛼⁄

𝜎

2 √𝑛

Por lo tanto, entre mayor nivel confianza (1   ) queramos tener en la estimación, mayor amplitud presentará el intervalo, por cuanto mayor será el valor de Z y como consecuencia más débil será la estimación, a menos que aumentemos el tamaño de la muestra “n”.

11

Distribución t de Student Cuando debe tomarse una muestra pequeña, la distribución normal puede no aplicarse. El teorema del límite central asegura normalidad en el proceso de muestreo solo si la muestra es grande. Cuando se utiliza una muestra pequeña, puede ser necesaria una distribución alternativa, la distribución t de Student. Esta se utiliza cuando se cumple las tres (3) condiciones siguientes: 1. La muestra es pequeña (n < 30) 2. La desviación estándar poblacional ( ) es desconocida 3. La población proviene de una distribución normal o casi normal Si la desviación poblacional ( ) es conocida la distribución normal se usa inclusive si la muestra es pequeña. Al igual que la distribución normal estándar, la distribución t tiene forma de campana, presenta una media igual a cero, es simétrica con respecto a la media y oscila entre   y   . Sin embargo, mientras que la distribución Z tiene una varianza igual a 1

( 2  1) , la varianza de la distribución t es mayor que 1, por tanto, la distribución es platicurtica o más plana y más dispersa que la distribución Z. Aunque sólo hay una distribución normal estándar, hay una distribución t distinta por cada tamaño muestral n. Sin embargo, a medida que n se hace más grande, la distribución t se aproxima a la distribución normal estándar hasta que, cuando n  30 , son aproximadamente iguales. El estadístico t se calcula en gran parte como el estadístico Z.

t

X  S n

Sigue una distribución t de Student con n – 1 grados de libertad

La distribución t de Student utiliza una tabla de probabilidad especial, cuyo uso sugiere como compensación el cálculo previo de los grados de libertad (g.l), que se define como el tamaño de la muestra “n”, al cual se le ha restado tantas unidades como parámetros de la población halla que estimar a partir de la muestra.

12

Intervalo de confianza para la media de una población con varianza poblacional ( 2 ) desconocida y muestra pequeña (n < 30)

S

S

S

→ X  tn 1;  : X  tn 1;    X  tn 1; n n 2 2 2 n Determinación del tamaño de la muestra para estimar la media poblacional Para resolver cualquier problema de estimación de intervalo de confianza o de prueba de hipótesis, es necesario calcular previamente el tamaño de la muestra sobre la cual se va a basar la inferencia. El tamaño de la muestra depende en buena parte del propósito del estudio. Para poder conocer el tamaño de la muestra adecuado, es necesario conocer la mitad de la amplitud del intervalo de confianza es decir el error por defecto o por exceso que estamos dispuestos a aceptar en la estimación. Este valor, previamente lo fijamos nosotros mismos de acuerdo a nuestro criterio, es decir, si queremos una precisión muy fina en la estimación, el intervalo de confianza será estrecho, pero si no es necesaria mucha precisión, el intervalo de confianza será amplio. Igualmente según nuestro criterio, para conocer el tamaño de la muestra debemos definir el nivel de confianza que queremos en la estimación, es decir, (1   ) =0.90 ó 0.95 ó 0.99, etc. A mayor nivel de confianza deseado, mayor será el tamaño de muestra requerida. Partiendo de la base de que las medias muéstrales se distribuyen normalmente, la fórmula para el tamaño de la muestra puede ser obtenida del valor que toma Z en la distribución de las medias muéstrales así:

Z

X 





Z

X   

n



n El error que estamos dispuestos a aceptar en la estimación, es la diferencia entre la media de la muestra (estimador) y la verdadera media poblacional (parámetro), es decir la mitad de la amplitud del intervalo, lo cual es:

𝑒 = 𝑋̅ − 𝜇

̅ − 𝜇y despejando a “n” en la expresión anterior En consecuencia, reemplazando 𝑋 tenemos: 2  Z  n   e 

13

Intervalo de confianza para la proporción de una población Sea p la proporción observada de éxito en una muestra aleatoria de n observaciones procedentes de una población con una proporción  de éxitos. Entonces, si n es grande, un intervalo de confianza del (1   ) 100% para la proporción poblacional viene dado por:

 : p  Z

p1  p  → p  Z n 2

2

p1  p     p  Z n 2

p1  p  n

Determinación del tamaño de la muestra requerido para la estimación de la proporción Antes de recolectar la muestra, el tamaño de muestra mínimo requerido puede determinarse especificando el nivel de confianza y el error de muestreo o error de estimación aceptable y haciendo una estimación inicial de  la proporción poblacional desconocida.

Z

p 

p

donde

 (1   ) n

Para Poblaciones Finitas:

Para Poblaciones Infinitas:

n

p 

Z2    (1   )

𝑛=

2

𝜋(1 − 𝜋) 𝑒2 𝑍𝛼2⁄ 2

e2

+

𝜋(1−𝜋) 𝑁

Si no es posible determinar un estimado inicial de la proporción poblacional (  ), se le deberá estimar en 50% (0,5). Esta estimación representa el valor para el que se requeriría del tamaño de muestra mayor. Distribución Ji cuadrada e intervalos de confianza para la varianza y desviación estándar Dada una población de valores con distribución normal, puede demostrarse que la distribución ji cuadrada (  2 ) son las distribuciones de probabilidad adecuada para la razón:

(n  1) S 2

2

14

Hay una distribución ji cuadrada diferente según el valor de n – 1, lo cual representa los grados de libertad. Dado que la varianza muestral es un estimador in sesgado de la varianza poblacional, el valor esperado a largo plazo de la razón anterior es igual a los grados de libertad (n – 1). Sin embargo, en cualquier muestra dada por lo general la varianza muestral no es idéntica en valor a la varianza poblacional. Las distribuciones ji cuadrada no son simétricas, en consecuencia, un intervalo de confianza de dos extremos para una varianza o desviación estándar implica el uso de dos valores diferentes de ji cuadrado.

Intervalo de confianza para la varianza poblacional

(n  1) S 2

 g2.l superior

  2

(n  1) S 2

 g2.l inferior



(n  1) S 2

2

n 1;

  2



(n  1) S 2

2

n 1; 1

2

 2

Intervalo de confianza para la desviación poblacional

(n  1) S 2

 g2.l superior

 

(n  1) S 2

 g2.l inferior



(n  1) S 2

2

n 1;

 2

 

(n  1) S 2

2

n 1; 1

 2

Intervalos de confianza para la diferencia de medias de dos poblaciones normales Con desviación estándar poblacional (  )conocida:

( X 1  X 2 )  Z  X  X  1  2  ( X 1  X 2 )  Z  X  X 1 2 1 2 2 2 Dónde:

 X 1 X 2   2   2 X1

X2

X 

 n 15

Con desviación estándar poblacional (  )desconocida:

( X 1  X 2 )  Z S X  X  1  2  ( X 1  X 2 )  Z S X  X 1 2 1 2 2 2 Dónde:

S SX X  S2  S2 SX  1 2 X1 X2 n

Intervalos de Confianza para la diferencia entre dos medias para muestras pequeñas (Distribución t de Student) Se debe cumplir las siguientes cuatro condiciones: 1. La muestra es pequeña (n < 30) 2. La desviación estándar poblacional ( ) es desconocidas 3.

La población proviene de una distribución normal o casi normal

4.

Las dos varianzas poblacionales (desconocidas) son iguales (  12   22 )

Por tanto, el error estándar de la diferencia entre medias cuando procede el uso de la distribución t es combinar las dos varianzas muéstrales: 2 SX 

(n1  1) S12  (n2  1) S22 n1  n2  2

El error estándar de la diferencia entre muestras basadas en el uso de la varianza combinada estimada es:

2 2 SX SX SX X   1 2 n1 n2

1  2  1  SX X  SX   n n  con g.l  n1  n2  2 1 2  1 2

El intervalo de confianza es:

( X 1  X 2 )  t g.l ; S X  X  1  2  ( X 1  X 2 )  t g.l ; S X  X 1 2 1 2 2 2 Intervalos de confianza para la diferencia entre dos proporciones:

( p1  p2 )  Z S p1  p2  1   2  ( p1  p2 )  Z S p1  p2 2 2 Dónde:

16

S p1  p2  S 2p  S 2p 1 2

p2 (1  p2 ) p (1  p1) 2 yS S 2p  1  p2 1 n2 n1

17

UNIDAD II: PRUEBAS DE HIPÓTESIS En la inferencia estadística es muy común, en tener que tomar decisiones sobre la población, partiendo de las características de las muestras extraídas de la misma. A estas decisiones se le denominan decisiones estadísticas. HIPÓTESIS ESTADÍSTICAS Para tomar decisiones, es conveniente hacer ciertos supuestos acercas de las poblaciones objeto de investigación. Estos supuestos que pueden ser ciertos o falsos, en base a distribuciones de probabilidad de las poblaciones se le llaman hipótesis estadística. Una Hipótesis Estadística es un enunciado provisional referente a uno o más parámetros de una población o grupo de poblaciones. PRUEBAS DE HIPÓTESIS Tiene como propósito determinar si el valor supuesto de un parámetro poblacional, como la media de la población (µ), debe aceptarse como verosímil (como verdadera) con base en evidencias muéstrales. ERROR DE TIPO I Y ERROR DE TIPO II ERROR DE TIPO I O RIESGO DE PRIMERA ESPECIE (α): es considerado como aquel que se comete al rechazar la hipótesis nula a nivel de la muestra, siendo verdadera a nivel de la población. La probabilidad de cometer este tipo de error se llama nivel de significación de la prueba y se denota con la letra griega alfa (α). ERROR DE TIPO II (β): ocurre cuando a nivel de la muestra se acepta la hipótesis nula siendo esta falsa a nivel de la población. Este tipo de error se comete cuando la hipótesis nula no se rechaza y la hipótesis de investigación es verdadera. La probabilidad de cometer un error tipo II se denota con la letra griega (β) POTENCIA DE UNA PRUEBA (1 – β): se denomina así a la probabilidad de aceptar la hipótesis nula cuando en realidad es falsa. HIPÓTESIS NULA (H0): es el valor paramétrico hipotético que se compara con el resultado muestral. Se le rechaza sólo si es poco probable que el resultado muestral haya ocurrido dado lo correcto de la hipótesis. HIPÓTESIS ALTERNA (H1 ó Ha): se acepta sólo si la hipótesis nula es rechazada.

ZONAS DE RECHAZO, CONTRASTE BILATERAL Y UNILATERAL La ZONA DE RECHAZO consiste en un conjunto de valores, tales que, cuando la hipótesis nula es cierta, su probabilidad es muy pequeña. Esto también suele llamarse coeficiente de riesgo o nivel de significación. 18

La hipótesis alternativa es la que define la ubicación de la zona de rechazo, es decir, si la hipótesis alternativa señala la dirección de la diferencia, entonces se tiene una prueba unilateral y habrá una zona de rechazo que estará situada a la derecha o a la izquierda de la curva correspondiente a la distribución, según sea la dirección ubicada por la hipótesis alternativa. Si la hipótesis alternativa no señala la dirección de la diferencia, entonces se habla de una prueba, ensayo o contraste bilateral. CONTRASTE BILATERAL: En este caso la hipótesis alternativa indica que existe diferencia entre las medidas comparadas. Si la comparación es entre dos medias, las dos hipótesis y el gráfico serían:

H 0 :   0 H1 :    0 - Z0

Z0

CONTRASTE UNILATERAL: En este caso la hipótesis alternativa indica la dirección en que se presenta la diferencia, si esta es hacia la derecha o hacia la izquierda.

H 0 :   0 H1 :    0

ó

H 0 :   0 Z0

H 0 :   0 H1 :    0

ó

H 0 :   0 - Z0

Z0 = Representa el valor crítico, es decir, el límite de separación de las dos zonas de contraste (Zona de Rechazo y Zona de Aceptación). PASOS BÁSICOS DE LA PRUEBA DE HIPÓTESIS: Paso 1:Formule la hipótesis nula (H0) y la hipótesis alternativa (H1 ó Ha) Paso 2:Especifique el nivel de significancia por aplicar. El nivel de significancia es el estándar estadístico que se especifica para rechazar la hipótesis nula. Paso 3:Seleccione la estadística de prueba.y determine el valor del estadístico de prueba. Paso 4:Establezca el valor o valores crítico de la estadística de prueba.

19

Estos valores pueden ser uno o dos, dependiendo de si están implicadas las así llamadas pruebas unilaterales o bilaterales. Un valor crítico identifica el valor de la estadística de prueba requerido para rechazar o aceptar la hipótesis nula (H0) Paso 5:Decisión. El valor observado de la estadística muestral se compara con el valor (o valores) crítico (s) de la estadística de prueba. Se rechaza o no entonces la hipótesis nula. Si la hipótesis nula es rechazada se acepta la hipótesis alterna. PRUEBA DE HIPÓTESIS SOBRE LA MEDIA (µ) DE UNA POBLACIÓN PRUEBA DE HIPÓTESIS PARA LA MEDIA CON σ CONOCIDA Y σ DESCONOCIDA Estadístico de Prueba Hipótesis Nula

H o :   o

CON σ CONOCIDA

Zc 

CON σ DESCONOCIDA

X  0

Zc 



n

PRUEBA

Hipótesis Alterna

Criterio de Rechazo

H1 :    o H1 :    o H1 :    o

Z c  Z Z c   Z Z c   Z

DE HIPÓTESIS PARA LA MEDIA CON

X  0 S n

2

n < 30 (MUESTRAS

PEQUEÑAS) Y

σ

DESCONOCIDA

Estadístico de Prueba Hipótesis Nula

H o :   o

tc 

X  0  Tn1 S n

Hipótesis Alterna

Criterio de Rechazo

H1 :    o H1 :    o H1 :    o

t c  t t c  t t c  t

2

20

PRUEBA DE HIPÓTESIS SOBRE LA PROPORCIÓN (Π) DE UNA POBLACIÓN La prueba es apropiada cuando n  5 y n(1   )  5 , donde n es el tamaño de la muestra y π es la proporción poblacional. Estadístico de Prueba Hipótesis Nula

Zc 

Ho :   o

p 0  0 (1   0 ) n

Hipótesis Alterna

Criterio de Rechazo

H1 :    o H1 :    o H1 :    o

Z c  Z Z c   Z Z c   Z

2

 

PRUEBA DE HIPÓTESIS SOBRE LA VARIANZA  2 DE UNA POBLACIÓN

Hipótesis Nula

Ho :

2

  o2

Estadístico de Prueba

 c2

 n  1S 2   o2

Hipótesis Alterna

Criterio de Rechazo

H1 :  2   o2

 c2   n21,

H1 :  2   o2

 c2   n21,1  c2   n21,

H 0 :  2   o2

2

 c2   n21,1

2

21

PRUEBAS DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS MEDIAS POBLACIONALES CONσ CONOCIDA Yσ DESCONOCIDA Hipótesis Nula

H 0 : 1   2

H 0 : 1   2

Estadístico de Prueba CON σ CONOCIDA

ZC 

H 0 : 1   2

CON σ DESCONOCIDA

X1  X 2

 12 n1

Hipótesis Alterna



ZC 

 22 n2

X1  X 2 S12 S 22  n1 n2

Criterio de Rechazo

Z c  Z

H 1 : 1   2

Z c   Z

H 1 : 1   2

Z c  Z

H 1 : 1   2

2

PRUEBAS DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS MEDIAS POBLACIONALES CON MUESTRAS PEQUEÑAS Y VARIANZAS DESCONOCIDAS IGUALES:

S2 

(n1  1) S12  (n2  1) S 22 n1  n2  2 Estadístico de Prueba

Hipótesis Nula

H 0 : 1   2

tC 

H 0 : 1   2

H 0 : 1   2 Hipótesis Alterna

X1  X 2 1 1  S 2     n1 n2 

Criterio de Rechazo

t c  t ,n1 n2 2

H 1 : 1   2 H 1 : 1   2

t c  t ,n1n2 2

H 1 : 1   2

t c  t

PRUEBA DE HIPÓTESIS PARA PROPORCIONES POBLACIONALES



LAS

,n  n  2 2 1 2

DIFERENCIAS

ENTRE

DOS

n1 p1  n2 p2 n1  n2

22

Estadístico de Prueba

Hipótesis Nula

H 0 : 1   2

ZC 

H 0 : 1   2

p1  p 2

 (1   )  (1   )

H 0 : 1   2

n1

Hipótesis Alterna



n2

Criterio de Rechazo

Z c  Z

H1 :  1   2

Z c   Z

H1 :  1   2

Z c  Z

H1 :  1   2

2

DISTRIBUCION F Se define como la distribución que sigue el cociente de dos variables aleatorias independientes con distribución Ji cuadrada (  2 ), cada una dividida por sus grados de libertad. Suponga que se toman muestras aleatorias independientes de n x y n y observaciones de dos poblaciones normales con varianzas  x2 y  y2 , y varianzas muéstrales S x2 y S 2y , entonces, la variable aleatoria:

S x2 F

 x2

 F( nx 1),( n y 1)

S y2

 y2  F(nx 1),(n y 1) :

tiene distribución F con ( n x  1 ) grados de libertad en el

numerador y ( n y  1) grados de libertad en el denominador.

Si se asume que las

varianzas poblacionales  x2 =  2y , entonces:

F

S x2 S y2

 F( nx 1),( n y 1)

La distribución F tiene una función de densidad asimétrica, definida solo para valores no negativos. CONTRASTES DE IGUALDAD DE VARIANZAS DE DOS POBLACIONES NORMALES Sean S x2 y S 2y las varianzas muéstrales observadas en dos muestras aleatorias independientes de n x y n y observaciones de poblaciones normales con varianzas  x2 y  2y . Si S x2 es mayor que S 2y , entonces:

23

Hipótesis Nula

H 0 :  x2   y2 H 0 :  x2

  y2

Estadístico de Prueba

Fc 

S x2 S y2

Hipótesis Alterna

Criterio de Rechazo

H1 :  x2   y2

Fc  F( nx 1),( n y 1),

H1 :  x2   y2

Fc  F

( nx 1),( n y 1),

 2

Donde S x2 es la mayor de las dos varianzas muéstrales

ANALISIS DE VARIANZA (ANOVA) Muchas decisiones en los negocios requieren de la comparación de más de dos poblaciones. Es aquí donde el análisis de varianza (ANOVA) es de gran utilidad. El análisis de varianza está diseñado específicamente para probar si dos o más poblaciones tienen la misma media. Aun cuando el propósito de ANOVA es hacer pruebas para hallar las diferencias en las medias poblacionales, implica un examen de las varianzas muéstrales; de allí el término análisis de varianza. En el estudio del ANOVA, las unidades experimentales son los objetos que reciben el tratamiento. El factor es la fuerza o variable cuyo impacto en tales unidades experimentales se desea medir. La forma como se seleccionan los tratamientos determina si se está utilizando un modelo de efectos fijos o un modelo de efectos aleatorios. Modelo de Efectos Fijos: son aquellos en el cual se seleccionan tratamientos específicos o se fijan antes del estudio. Modelo de Efectos Aleatorios: son aquellos en el cual los niveles (tratamientos) utilizados en el estudio se seleccionan aleatoriamente de una población de niveles posibles. Para este tema nos concentraremos en los modelos de efectos fijos. Para la aplicación de ANOVA son esenciales tres suposiciones: 1.- Todas las poblaciones involucradas son normales. 2.- Todas las poblaciones tienen la misma varianza. 3.- Las muestras se seleccionan independientemente. 24

ANÁLISIS DE VARIANZA (ANOVA) A UNA VÍA: DISEÑO COMPLETAMENTE ALEATORIZADO. El término proviene del hecho que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales) pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes) de un programa de capacitación (factor). El análisis de varianza se basa en una comparación de la cantidad de variación en cada uno de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta, puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones. Variación total: existe variación entre el número total de las observaciones. Variación entre muestras: existe variación entre los diferentes tratamientos (muestras). Variación dentro de la muestra: existe variación dentro de un tratamiento dado (muestra). Al comparar estas fuentes diferentes de variación es que se puede utilizar el análisis de varianza para probar la igualdad de las medias de poblaciones diversas. FUNDAMENTOS DEL ANOVA: Efecto del tratamiento: Como las muestras diferentes tienen tratamientos distintos, la variación entre las muestras puede ser producida por los efectos de tratamientos diferentes. Si un efecto del tratamiento existe, puede detectarse comparando la variación entre las muestras y la variación dentro de las muestras. Si la variación entre las muestras es significativamente mayor que la variación dentro de las muestras, un fuerte efecto de tratamiento está presente. Esta diferencia entre la variación entre muestras y la variación dentro de las muestras es lo que mide el análisis de varianza. El análisis de varianza es una relación de la variación entre muestras con la variación dentro de las muestras. Si los tratamientos diferentes tienen efectos diferentes, la variación entre muestra crecerá, haciendo que la razón aumente. Esta razón se basa en la razón F. La razón F es una razón de la variación entre muestras y la variación dentro de las muestras. Cuando las medias poblacionales son diferentes, el efecto del tratamiento está presente y las desviaciones entre las muestras serán grandes comparadas con la desviación del error dentro de una muestra. Por tanto, el valor F aumentará, lo cual es una razón de la variación del tratamiento y de la variación del error.

25

Pasos para el Análisis de varianza: 1.- El análisis de varianza se utiliza para contrastar la hipótesis nula de que las medias de dos o más poblaciones son iguales, frente a la hipótesis de que, al menos, una de las medias es distinta.

H 0 : 1   2  3  ....  c H1 : No todas las medias son iguales 2.- Se estima la varianza de la población a partir de la varianza entre las medias muéstrales (MSA) 3.- Se estima la varianza de la población de cada muestra (MSE) 4.- Se calcula el estadístico F:

Fc 

var ianza entre medias muestrales MSA  var ianza de las medias MSE

Tabla para el Análisis de Varianza (ANOVA): Fuente de la Variación Entre las muestras (explicado por el Factor A) Dentro de las muestras (error o sin explicar)

Suma de Cuadrados

Grados de Libertad

Cuadrado Medio

Estadístico F

SSA

c–1

MSA

MSA MSE

SSE

(r – 1)c

MSE

Total

SST

rc – 1

5.- Si el estadístico F calculado es mayor que el valor tabular de F para el nivel de significatividad y los grados de libertad especificados, la hipótesis nula, H 0, de que las medias de las poblaciones son iguales, debe ser rechazada a favor de la hipótesis alternativa H1. Suma de cuadrados de los tratamientos (explicados por el factor A):



SSA  r  X j  X



2

Suma del cuadrado del error (no explicado por el factor A):



SSE    X ij  X

j

2

Suma de cuadrados total:



SST    X ij  X



2

 SSA  SSE

26

Cuadrado Medio del Tratamiento:

MSE 

Cuadrado Medio del Error:

MSA 

SSA c 1

SSE r  1c Xj

Media de la muestra j compuesta por r observaciones:

Media de todas las muestras (La gran media): Estadístico de Prueba:

F

X 

 X ij r

  Xij rc

MSA MSE

Grados de libertad numerador = c – 1 Grados de libertad denominador = (r – 1)c Dónde: c: es el número de tratamientos r: es el número de observaciones en cada tratamiento

UNIDAD III: ANALISIS DE REGRESION LINEAL Y CORRELACION ANALISIS DE REGRESIÓN: Se utiliza para predecir el valor de la variable dependiente (Y) basada en la variable independiente (X). VARIABLE DEPENDIENTE (Y): Es la variable que se desea explicar o predecir, también se le denomina variable de respuesta. VARIABLE INDEPENDIENTE (X): Es la variable que proporciona la base para la estimación, también se le denomina variable explicativa. REGRESIÓN SIMPLE Y REGRESIÓN MÚLTIPLE: REGRESIÓN SIMPLE: Se establece que Y es una función de sólo una variable independiente. Con frecuencia se le denomina regresión bivariada porque sólo hay dos variables, una dependiente y una independiente, la regresión simple se representa con la siguiente fórmula: 𝑌 𝑒𝑠 𝑢𝑛𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑋 →

𝑌 = 𝑓(𝑋)

En un modelo de REGRESIÓN MÚLTIPLE, Y es una función de dos o más variables independientes. Un modelo de regresión con k variables independientes, se expresa de la siguiente manera: 27

𝑌 = 𝑓(𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑘 ) En donde 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑘 son variables independientes que permiten explicar Y. RELACIONES LINEALES Y CURVILÍNEAS: Si X y Y se relacionan en forma lineal, entonces a medida que X cambia, Y cambia en una cantidad constante. Si existe una relación curvilínea, Y cambia en una cantidad diferente a medida que X cambia. ECUACIÓN DE REGRESIÓN LINEAL: Ecuación que expresa la relación lineal entre dos variables. FORMA GENERAL DE LA ECUACIÓN DE REGRESIÓN LINEAL:

𝑌 ′ = 𝑏0 + 𝑏1 𝑋

En donde: 𝑌 ′ 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑟𝑒𝑑𝑖𝑗𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑌 𝑝𝑎𝑟𝑎 𝑢𝑛 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑋 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜 𝑏0 𝑒𝑠 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜 ó 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑐𝑖ó𝑛 𝑌. 𝑏1 𝑒𝑠 𝑙𝑎 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎. Con frecuencia se encuentra que al utilizar una variable para explicar otra, existe alguna variación en la relación. Por tanto, habrá algún error en el intento por explicar o predecir dicha variable. Se dice que un modelo de esta naturaleza es estocástico, por la presencia de la variación aleatoria y puede expresarse como: 𝑀𝑜𝑑𝑒𝑙𝑜 𝐿𝑖𝑛𝑒𝑎𝑙:

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀

Dicho modelo es la relación poblacional según la cual se hace regresión de Y sobre X. Además, 𝛽0 + 𝛽1 𝑋 es la porción determinística de la relación, mientras que 𝜀 representa el carácter aleatorio que muestra la variable dependiente y por tanto denota el término del error en la expresión. Los parámetros 𝛽0 𝑦 𝛽1 permanecerán desconocidos y se pueden estimar con los datos muéstrales. MODELO LINEAL CON BASE EN DATOS MUÉSTRALES: 𝑌 = 𝑏0 + 𝑏1 𝑋 + 𝑒 En donde los valores de: 𝑏0 𝑦 𝑏1 son estimaciones de 𝛽0 𝑦 𝛽1 𝑒es el término aleatorio y se le denomina residual. MODELO DE REGRESIÓN ESTIMADA: 𝑌̂ = 𝑏0 + 𝑏1 𝑋 En donde: 𝑌̂es el valor estimado de Y 𝑏0 es el intercepto 𝑏1 es la pendiente de la recta de regresión estimada. 28

MÍNIMOS CUADRADOS ORDINARIOS (MCO): La recta de mejor ajuste. MÉTODO DE LOS MÍNIMOS CUADRADOS: Este método calcula lo que comúnmente se conoce como la recta del “mejor ajuste”. Determina la ecuación de la recta de regresión minimizando la suma de los cuadrados de las distancias verticales entre los valores reales de Y y los valores pronosticados para Y. El término de error es la diferencia entre los valores reales de Y (𝑌𝑖 ), y el estimado de Y (𝑌̂𝑖 ) 𝐸𝑟𝑟𝑜𝑟 = (𝑌𝑖 − 𝑌̂𝑖 ) Para determinar la recta de mejor ajuste, MCO requiere que se determine la suma de cuadrados y productos cruzados: SUMA DE LOS CUADRADOS DE X: 𝑆𝐶𝑥 = ∑(𝑋𝑖 − 𝑋̅)2

𝑆𝐶𝑥 = ∑ 𝑋𝑖2 −



(∑ 𝑋𝑖 )2 𝑛

SUMA DE LOS CUADRADOS DE Y: 𝑆𝐶𝑦 = ∑(𝑌𝑖 − 𝑌̅)2



𝑆𝐶𝑦 =

∑ 𝑌𝑖2

(∑ 𝑌𝑖 )2 − 𝑛

SUMA DE LOS PRODUCTOS CRUZADOS DE X Y Y: 𝑆𝐶𝑥𝑦 = ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)



𝑆𝐶𝑥𝑦 = ∑ 𝑋𝑖 𝑌𝑖 −

(∑ 𝑋𝑖 )(∑ 𝑌𝑖 ) 𝑛

LA PENDIENTE DE LA RECTA DE REGRESIÓN: 𝑏1 =

𝑆𝐶𝑥𝑦 𝑆𝐶𝑥

EL INTERCEPTO DE LA RECTA DE REGRESIÓN: 𝑏0 = 𝑌̅ − 𝑏1 𝑋̅ ERROR ESTÁNDAR DE ESTIMACIÓN (Se): Es una medida del grado de dispersión de los valores de Yi alrededor de la recta de regresión. El error estándar de estimación mide la variación de los puntos de datos por encima y por debajo de la recta de regresión. Además, refleja la tendencia a desviarse del valor real de Y cuando se utiliza el modelo de regresión para fines predictivos, es una medida del error típico.

29

2 ∑(𝑌𝑖 − 𝑌̂𝑖 ) √ 𝑆𝑒 = 𝑛−2

Uno de los supuestos básicos del modelo MCO es que la varianza en los errores alrededor de la recta de regresión es la misma para todos los valores de X. Entre menos sea el valor de la varianza poblacional (𝜎 2 ), menos será la dispersión de los puntos de datos alrededor de la recta. Una estimación insesgada de 𝜎 2 es el Cuadrado Medio del Error (CME) SUMAS DE CUADRADOS DEL ERROR: (𝑆𝐶𝑥𝑦)2 𝑆𝐶𝐸 = 𝑆𝐶𝑦 − 𝑆𝐶𝑥 CUADRADO MEDIO DEL ERROR: 𝐶𝑀𝐸 =

𝑆𝐶𝐸 𝑛−2

ERROR ESTÁNDAR: 𝑆𝑒 = √𝐶𝑀𝐸 SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL: 1. Para cada valor de X, hay un grupo de valores de Y. Estos últimos siguen la distribución normal. 2. Las medias de estas distribuciones normales se encuentran en la recta de regresión. 3. Todas las desviaciones estándar de estas distribuciones normales son iguales. A este supuesto se le denomina Homoscedasticidad que significa que las varianzas en los valores de Y son las mismas en todos los valores de X. 4. Los valores Y son estadísticamente independientes. Esto significa, que al seleccionar una muestra en particular X no depende de ningún otro valor de X.

ANALISIS DE CORRELACIÓN: Es el estudio de la relación entre variables. Se utiliza para medir la fuerza de relación o grado de asociación entre dos variables. COEFICIENTE DE CORRELACIÓN: Describe la fuerza de la relación entre dos grupos de variables en escala de intervalo o de razón. En otras palabras, el coeficiente de correlación es una medida de la intensidad de la relación entre dos variables. Se representa con la letra r y a menudo se conoce como r de Pearson y coeficiente de 30

correlación producto-momento de Pearson. Puede asumir cualquier valor de -1 a +1 inclusive, es decir, −1 ≤ 𝑟 ≤ +1  Valores de -1 ó +1 indican correlación fuerte y perfecta.  Valores cerca de -1 ó +1 indican fuerte relación negativa o positiva.  Valores cerca o igual a cero “0” indican poca o ninguna relación entre las variables. DIAGRAMA DE DISPERSIÓN: Es la gráfica que describe la relación entre las dos variables de interés. SUMA DE CUADRADOS TOTAL:𝑆𝐶𝑇

= ∑(𝑌𝑖 − 𝑌̅)2

SUMA DE CUADRADOS DE LA REGRESIÓN:𝑆𝐶𝑅 SUMA DEL CUADRADO DEL ERROR:𝑆𝐶𝐸

COEFICIENTE DE CORRELACIÓN:𝑟

=√

2 = ∑(𝑌̂𝑖 − 𝑌̅)

= ∑(𝑌𝑖 − 𝑌̂𝑖 )

2

𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑇𝑜𝑡𝑎𝑙

=√

𝑆𝐶𝑅 𝑆𝐶𝑇

La desviación explicada es la diferencia entre lo que predice el modelo de regresión 𝑌̂𝑖 y el valor promedio de Y, (𝑌̂𝑖 − 𝑌̅). El coeficiente de correlación proporciona una medida relativa de la capacidad del modelo para explicar las desviaciones en los valores 𝑌𝑖 . Por ende mide la fuerza de la relación entre Y y la variable explicativa X. FÓRMULA PARA CALCULAR EL COEFICIENTE DE CORRELACIÓN:𝑟

=

𝑆𝐶𝑥𝑦

√(𝑆𝐶𝑥)(𝑆𝐶𝑦) COEFICIENTE DE DETERMINACIÓN: Es el porcentaje de la variación total en la variable dependiente Y que se explica, o contabiliza, por la variación en la variable independiente X. (𝑆𝐶𝑥𝑦)2 2 Formula: 𝑟 = (𝑆𝐶𝑥)(𝑆𝐶𝑦)

PRUEBAS PARA LOS PARÁMETROS POBLACIONALES PRUEBA DE HIPÓTESIS PARA 𝛽1 (COEFICIENTE DE REGRESIÓN POBLACIONAL) 31

HIPÓTESIS:𝐻0 : 𝛽1

=0

ESTADÍSTICO DE PRUEBA:𝑡𝑐

𝑣𝑠

𝐻1 : 𝛽1 ≠ 0

𝑏

= 𝑆1

𝑏1

Dónde: 𝑆𝑏1 Es el error estándar del coeficiente de regresión y se determina de la siguiente manera:

𝑆𝑏1 =

𝑆𝑒 √𝑆𝐶𝑥

CRITERIO DE RECHAZO: Se rechaza Ho si |𝑡𝑐 | ≥ |𝑡𝛼⁄ ;𝑔𝑙 | donde 𝑔𝑙 = 𝑛 − 2 2 INTERVALO DE CONFIANZA PARA EL COEFICIENTE DE REGRESIÓN POBLACIONAL (𝛽1)

𝛽1 : 𝑏1 ± (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑏1 )



𝑏1 − 𝑡(𝑆𝑏1 ) < 𝛽1 < 𝑏1 + (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑏1 )

PRUEBAS PARA EL COEFICIENTE DE CORRELACIÓN POBLACIONAL(𝜌) HIPÓTESIS:𝐻0 : 𝜌

=0

ESTADÍSTICO DE PRUEBA:𝑡𝑐

𝑣𝑠

𝐻1 : 𝜌 ≠ 0

𝑟

=𝑆

𝑟

Dónde: 𝑆𝑟 Es el error estándar del coeficiente de correlación y se determina de la siguiente manera:

1 − 𝑟2 𝑆𝑟 = √ 𝑛−2 CRITERIO DE RECHAZO: Se rechaza Ho si |𝑡𝑐 | ≥ |𝑡𝛼⁄ ;𝑔𝑙 | donde 𝑔𝑙 = 𝑛 − 2 2 INTERVALO DE CONFIANZA PARA LA MEDIA CONDICIONADA: Para calcular este intervalo para el valor promedio condicional de Y, se debe hallar primero el Error Estándar de la Media Condicionada (𝑆𝑦 ). El error estándar de la media condicionada reconoce que se utiliza una muestra para calcular 𝑏0 𝑦 𝑏1 en la ecuación de regresión. Por tanto, 𝑏0 𝑦 𝑏1 están sujetos al error de muestreo. El propósito de 𝑆𝑦

32

es tener en cuenta los diferentes valores de 𝑏0 𝑦 𝑏1 que resultan del error de muestreo. Se determina de la siguiente manera: Error Estándar de la Media Condicionada:𝑆𝑦

1

(𝑋𝑖 −𝑋̅)2

𝑛

𝑆𝐶𝑥

= 𝑆𝑒 √ +

En donde: 𝑆𝑒 = es el error estándar de estimación 𝑋𝑖 = es el valor dado para la variable independiente El intervalo de Confianza para la Media Condicionada viene dado por:

𝜇𝑦/𝑥 : 𝑌̂𝑖 ± (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 )



𝑌̂𝑖 − (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 ) < 𝜇𝑦 < 𝑌̂𝑖 + (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 ) 𝑥

INTERVALO DE CONFIANZA PARA EL INTERVALO DE PREDICCIÓN: Para calcular este intervalo de predicción, primero se debe hallar el Error Estándar del Pronóstico (𝑆𝑦𝑖 ). Este error estándar del pronóstico explica el hecho de que los valores individuales estén más dispersos que las medias. El error estándar de pronóstico (𝑆𝑦𝑖 ) refleja el error de muestreo inherente al error estándar de la media condicionada (𝑆𝑦 ) más la dispersión adicional, porque se están tratando con un valor individual de Y. Se determina de la siguiente manera: Error Estándar del Pronóstico:𝑆𝑦𝑖

1

(𝑋𝑖 −𝑋̅)2

𝑛

𝑆𝐶𝑥

= 𝑆𝑒 √1 + +

El Intervalo de Confianza para el Intervalo de Predicción es:

𝑌𝑥 : 𝑌̂𝑖 ± (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 )



𝑌̂𝑖 − (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 ) < 𝑌𝑥 < 𝑌̂𝑖 + (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 )

33