Estadistica 2 Unid. 2,3 y 4

INSTITUTO TECNOLOGICO DE CULIACAN Unidad 2, 3 y 4 Alumno: Castilla Ruiz Gloria Estefania No. Control: 09170482 Fecha

Views 146 Downloads 1 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

INSTITUTO TECNOLOGICO DE CULIACAN

Unidad 2, 3 y 4

Alumno: Castilla Ruiz Gloria Estefania

No. Control: 09170482

Fecha de entrega: 22 de Julio de 2011

UNIDAD 2 VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS

Definición de variable aleatoria discreta. Funcion de probabilidad y de distribución de una variable aleatoria. Valor esperado.Caso Discreto Definición Una variable aleatoria (v.a.) es discreta si los valores que asigna forman un conjunto contable (finito o infinito). Ejemplo Sea son

el número de caras al lanzar dos monedas. Los valores que asigna , el cual es un conjunto contable (finito).

FUNCION DE PROBABILIDAD Sea una variable discreta. La colección de números propiedades:

que satisface las

. Se llamará una función de probabilidad o función de masa de probabilidad de la variable aleatoria discreta

.

Ejemplo de 2 dados Se realiza el siguiente experimento: se lanzan dos dados, uno rojo y otro azul. El espacio muestral para este experimento es:

En una función de probabilidad sobre una sigma álgebra asociada al espacio muestral

es dada por:

:

donde

es definida como

Explicación: Esta es una de las maneras de definir una función de probabilidad sobre la sigma álgebra. En este caso debido a que el espacio muestral es finito, se define la función de probabilidad para cada elemento de

Sea la variable aleatoria

que representa la suma de los números obtenidos en

las caras, entonces la variable aleatoria los elementos de espacio muestral

asigna números reales a cada uno de

como se muestra Aquí

De esta manera se dice que la variable aleatoria

La función de probabilidad para la variable continuación:

El valor

como:

toma los valores

se determina como se muestra a

se obtiene de la función de probabilidad definida sobre la sigma

álgebra que fué denotado anteriormente como

.

Explicación: Observe que la letra

representa l aprobabilidad de un evento para

la variable aleatoria del espacio muestral.

representa la probabilidad para un elemento

y la letra

Análogamente la probabilidad para los otros valores de la variable se presenta en la siguiente tabla:

Probabilid ad = = =

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

Para poder observar mejor el comportamiento de la distribución de la probabilidad de la variable observe la figura que se presenta a continuación.

En la gráfica se observa que la distribución de probabilidad es simétrica esto implica que las medidas de tendencia: Media Aritmética, Mediana y La moda , son iguales. La manera de calcular estas medidas se estudia en la lección Valor esperado. Observe que lo más probable que puede ocurrir al lanzar dos es que la suma de las caras sea 7. VALOR ESPERADO Los promedios son parte de nuestro diario vivir. Nosotros escuchamos el promedio de lluvia en una ciudad en un año, el promedio de temperatura en Agosto, el promedio de edad de los trabajadores de una empresa, entre otros. El objetivo de esta seccióon es mostrar algunas características numéricas de una distribución poblacional. El más comun promedio utilizado en estadística es la media o valor esperado o esperanza matemática. Sea sobre

una variable aleaoria definida sobre . defina

Caso discreto

por

y sea una función real definida

Suponga

que

es

Si

una

variable

aleatoria

es

, entonces se define la media de

esperado de

discreta. o el valor

por

DISTRIBUCION BINOMIAL Notación:

Definición Es una de las distribuciones de probabilidad más útiles ( control de calidad, producción, investigación). Tiene que ver con el experimento aleatorio que produce en cada ensayo o prueba uno de dos resultados posibles mutuamente excluyentes: ocurrencia de un criterio o característica específico (llamado éxito) y no ocurrencia de éste (llamado fracaso). Los términos o calificativos de "éxito y fracaso" son solo etiquétas y su interpretación puede no corresponder con el resultado positivo o negativo de un experimento en la realidad. Ejemplo Éxito podría ser hallar en un ensayo específico que la unidad es defectuosa al examinarla. Cada experimento aleatorio consiste en una serie de ensayos o pruebas repetidas realizadas en idénticas condiciones ( uno de ellos es independiente de los demás. Sea

veces), o sea que cada

la probabilidad de éxito cada vez que el experimento se realiza

y

la probabilidad de fracaso. Sea X la variable aleatoria que

representa el número de éxitos en los

ensayos o pruebas. El interés se centra

en conocer la probabilidad de obtener exactamente

éxitos en esos

ensayos.

Criterios o propiedades para definir la Distribución Binomial

Resumiendo, podemos definir estos criterios: 1- El experimento aleatorio consiste en ensayos o pruebas repetidas, e idénticas y fijadas antes del experimento (pruebas de Bernoulli). Son pruebas con reemplazamiento o con reposición. 2- Cada uno de los ensayos o pruebas arroja solo uno de dos resultados posibles resultados: éxito ó fracaso. 3- La probabilidad del llamado éxito ( cada ensayo o prueba.

, pemanece costante para

4- Cada prueba o ensayo se repite en idénticas condiciones y es independiente de las demás. Cuando estas propiedades se cumplen en el experimento aleatorio se dice que el constituye un proceso de Bernoulli y cada uno de los ensayos que lo conforman se llama experimento de Bernoulli. 5. El interés recae en hallar la probabilidad de obtener realizar

número de éxitos al

ensayos del mismo E.A.

La función de probabilidad de X en esas condiciones será:

Para

entero y

Planteamiento Básico Supongamos

un

proceso

productivo

en

serie

de

una

misma

metalmecánica y en él que: Probabilidad de una unidad defectuosa : probabilidad de unidad no defectuosa:

unidad y

.

Supongamos que el interés está en evaluar el proceso mediante una muestra aleatoria de 4 unidades y por tanto se define la v.a X como el número de unidades defectuosas en la muestra. Para garantizar que los ensayos resulten independientes hacemos la selección con reemplazamiento o sustitución.

Supongamos que centramos nuestro interes en

unidad defectuosa en las

cuatro pruebas o ensayos. Sea B=bueno y D= defectuoso. Por lo tanto el esta conformado por 16 resultados posibles ..... Se puede entonces notar que los eventos favorables a

constiuyen el

subconjunto . Como no importa el orden de aparición de la unidad defectuosa sino que aparezca exactamente una unidad con esa característica tenemos:

o sea: defectuosa

para

cada

posible

resultado

de

una

unidad

Como son cuatro resultados los que satisfacen el interés específico de una unidad defectuosa entonces

Si

generalizamos:

maneras como probabilidad de los

donde:

éxitos se producen dentro de los

son

ensayos;

las

distintas es la

éxitos en cada una de las maneras distintas de producirse

éxitos .

Para el caso del ejemplo: Consideremos el caso ya no de puede asumir X en las cuatro pruebas.

defectuoso; sino todos los valores que

Como

son

de

4

ensayos

y

consideramos

todos

los

posibles

valores

entonces la

Los valores de se pueden calcular por medios electrónicos ó utilizando las tablas de la distribución binomial que proporcionan la solución de estas operaciones, a veces largas o laboriosas. Con los resultados de esos cálculos podemos construir la tabla de distribución de probabilidades, hacer su gráfica y definir sus principales características. Tomemos como ejemplo la distribución binomial de parámetros y

Características de la distribución binomial. Tendencia

central:

=

aplicando

la

definición de valor esperado se obtiene que para esta distribución : Dispersión ó variación:

:

=

lo que conduce a que una v.a. binomial X tiene como varianza Por lo tanto su desviación estandar:

.

Asimetria ó deformacíon (Forma): con base en la razón entre los momentos centrales de orden dos y tres como quedo definido antes:

sobre la base de que si: Generalmente la distribución binomial es sesgada ó asimetrica hacia la derecha, sesgo que se va perdiendo cuanto más grande sea el valor de y en la medida en que se acerque a limite en el cual se torna simétrica

(por lo tanto

(# de pruebas) tienda a

),

Para el caso considerado y utilizando tanto la metodología tradicional de la definición de conceptos como usando las fórmulas simplificadas, tenemos:

Tota l

0 ; tambien ;

Su

función

de

sera: DISTRIBUCION HIPERGEOMETRICA

distribución

acumulada

Notación:

Definición Muchas veces en la práctica es difícil realizar pruebas con reposición ó reemplazamiento. Por ejemplo, si en el control de calidad se pierde el elemento que se prueba, pues no se puede hacer reposición directamente. Se plantéa entonces la prueba sin reposición, donde los elementos de la muestra se toman todos a la vez y no individualmente ó donde el elemento seleccionado no se reintegra al experimento ó a la muestra nuevamente. La diferencia mas simple con la binomial es la forma de aplicar el muestreo. En efecto, en: : Muestreo con reemplazamiento e independencia de pruebas ó ensayos. : Muestreo sin reemplazamiento y sin independeencia entre pruebas ó ensayos. Sus aplicaciones estan en areas con uso considerable de muestreo de aceptación, pruebas electronicas y de aseguramiento de la calidad, fabricación de piezas, etc.

Definición En la distribución Hipergeométrica

cantidad de resultados éxitos en una

muestra aleatoria (sin reposición) de tamaño tamaño

y de la cual

del muestreo y

, tomada de una población de

satisface una caracteristica ó propiedad (éxito) antes

no la satisface (fracaso).

Criterios ó propiedades que la caracterizan. 1. La población

del conjunto de unidades ó elementos es de orden fínito, de

los cuales una parte:

"son éxitos", y otra parte:

son "fracasos".

2. Cada elemento puede ser caracterizado como éxito ó fracaso.

3. Se obtiene una muestra aleatoria de elementos todos a la vez (sin reemplazamiento) y no de forma independiente. No son pruebas repetidas. 4. El tamaño de la muestra aleatoria

es grande relativamente en comparación

con el tamaño de la población. Generalmente: 5. Se busca la probabilidad de resultados ó elementos y

número de éxitos a partir de los fracasos a partir de los

elementos asi

clasificados, al obtener una muestra aleatoria de tamaño

Planteamiento:. Supongamos un lote de

productos de los cuales:

Obtenemos muestra de probabilidad de sacar

productos, todos a la vez. Interesa entonces la

productos defectuosos (Exito), o sea:

Planteado así el (E.A.) Podemos hacer el siguiente raciocinio: De una población de de de

elementos se pueden extraer muestras de tamño

formas diferentes (distintas muestras de tamaño tamaño

productos,

defectuosos de

el

número

de ellos será:

formas de obtener

de

formas

de

y entonces

productos no defectuosos entre

). Al extraer muestras obtener

productos

sera el número de de ellos.

Como es el mismo evento compuesto, entonces el número de formas de seleccionar obtener sera:

productos defectuosos esta ligado con el número de formas de productos no defectuosos. Luego el total de formas posibles

Combinando los casos

Los parámetros de la distribución Hipergeométrica son entonces: Tamaño de población. Número de elementos de (éxitos).

con una caracteristica ó propiedad específica

Tamaño de muestra aleatoria extraida. Nota: Algunos tratadistas simbolizan esta distribución con:

Características de la Distribución Hipergeométrica. En la practica, si

, no se aplica el

pues su valor tendera a

cero La función de distribución acumulativa quedará definida entonces por:

Pueden ser calculos tediosos ó laborosos cuando es grande. Por ello hay quienes aplican la forma simplificada ó de recurrencia:

Ejemplo En una empresa industrial diariamente se producen 90 unidades de unidad metalmecánica, de las cuales generalmente 5 salen defectuosas. Se examina en

un dia cualquiera una muestra de 5 unidades. Hallar la probabilidad de unidades defectuosas.

para

que resolviendo permite definir la tabla de distribución de probabilidad:

Calculamos el valor de sus principales medidas características: Media:

=

Que simplificadamente:

Varianza: ó tambien.

y que aún de forma mas simplificada:

Sesgo: Hacia la derecha ó positivo como se vé graficamente. Además, aqui:

pues

y

pues

DISTRIBUCION DE POISON Notación: X Introducción Llamada asi por su autor Siméon Denis Poisson, probabilista del siglo XIX, pues fue el primero en describirla. Es una generalización de la distribución binomial cuando sobre un . se define una variable aleatoria que representa el número de éxitos independientes que ocurren para intervalos de medida específicos ( tiempos, lugares, espacios) , ademas con una probabilidad de ocurrencia pequeña. Se le llama distribución de los "eventos raros" pues se usa como aproximación a la binomial cuando el tamaño de muestra es grande y la proporción de éxitos es pequeña. Esos intervalos de medida pueden referirse a: Tiempo: (Segundo , minuto, hora, dia, semana, etc.) Area: (Segmento de linea, pulgada cuadrada, Centimetro cuadrado, etc). Volumen:( Litro, galón, onza, etc.) Ejemplo Número de defectos por

.en piezas similares de un material ..

Número de personas que llegan a un taller automotriz en un lapso de tiempo específico. Número de impulsos electrónicos errados transmitidos durante espacio de tiempo específico. Número de llamadas telefónicas que ingresan a un conmutador por minuto. Número de interrupciones en servicios de energía en intervalos de un dia. Cantidad de átomos que se desintegran en sustancia radioactiva. Número de accidentes automovilísticos en un cruce específico durante una semana. Criterios ó propiedades 1. Se da un intervalo de medida que divide un todo de números reales y donde el contéo de ocurrencias es aleatorio. Esa división puede ser un subintervalo de medida.

2. El número de ocurrencias ó de resultados en el intervalo ó subintervalo de medida, es independiente de los demás intervalos ó subintervalos. por eso se dice que el proceso de Poisson no tiene memoria. 3. La probabilidad de que un solo resultado ocurra en un intervalo de medida muy corto ó pequeño es la misma para todos los demás intervalos de igual tamaño y es proporcional a la longitud del mismo ó al tamaño de medida. 4. La probabilidad de que más de un resultado ocurra en un intervalo ó subintervalo corto es tan pequeña que se considera insignificante (cercana ó igual a cero). Procesos que se ajustan a estos criterios, se dice, son procesos de Poisson. Definición Sea una variable aleatoria que representa el número de eventos aleatorios independientes que ocurren con igual rapidez en un intervalo de medida. Se tiene entonces que la función de probabilidad de esta variable, se expresa por:

Donde es parámetro de tendencia central de la distribución y representa el número promedio ó cantidad esperada de ocurrencias (éxitos) del evento aleatorio por unidad de medida ó por muestra; y Número de ocurrencias especificas para el cual se desea conocer la probabilidad respectiva. Segun sea el valor de de

, se define toda una familia de probabilidades de

Poisson. La probabilidad de que una variable aleatoria de Poisson

sea menor ó

igual a un valor de se halla por la función de distribución acumulativa, planteada entonces como:

Los resultados de las probabilidades individuales para valores de serán más pequeños conforme la variable aleatoria toma valores cada vez más grandes. Ejemplo El número promedio de partículas radioactivas que registra un contador en un milisegundo en la realización de un experimento aleatorio es de cinco (5)

partículas. Hallar la probabilidad de que se registre distinto número de partículas en un mismo milisegundo.

Acudiendo a las tablas existentes para tal fín ó a los medios electrónicos, se llega a construir la tabla de distribución de probabilidades, dando:

y valores de

más grandes pero con probabilidad mas pequeña. Se nota el

punto de inflexión entre

y

y no es tan sesgada a la derecha por el

valor Características de la distribución de Poisson Valor Esperado:

, el cual debe ser conocido.

Varianza: Forma ó sesgo: Hacia la derecha ó con sesgo positivo y que se va perdiendo a medida que

crece. Veamos una gráfica de funciones de probabilidad para

diferentes valores de

Se puede calcular un coeficiente de asimetría mediante la expresión observar que mientras en una distribución binomial:

Es de

en Poisson se

puede dar que Alternativa: Si se da la probabilidad de tener, de manera exacta,

ocurrencias

en un intervalo veces mayor que el de refencia en la medición entonces la distribución de probabilidades de Y número de éxitos en la nueva unidad de referencia viene dada por

donde

Promedio de ocurrencias por intervalo ó unidad de medida

considerada en X y especificados. Aqui

Número de intervalos ó unidades de medida

y

Ejemplo El número de pulsos que llegan a un contador GEIGER se presentan en promedio de 6 pulsos por minuto. Hallar la probabilidad de que en 15 minutos se reciban exactamente 20 pulsos.

es decir, que una frecuencia de 6 pulsos por minuto es eqyivalente a una de 1 por

minutos.

Definición de variable aleatoria continua.Función de densidad y acumulativa. Valor esperado. Distribuciones uniforme y exponencial. Distribución normal. Aplicaciones de modelos de variables aleatorias continuas.CASO CONTINUO Una variable

es llamada continua si toma todos sus valores sobre un intervalo

de la recta real. Esto es, el conjunto es un intervalo sobre . Como ejemplo este caso se pueden considerar variables tiempo, edad y estatura.

FUNCION DE DENSIDAD

Sea

una

densidad

variable

aleatoria

definida

sobre

La

es dada por alguna función integrable sobre

para

función

de

tal que

todo

evento Teorema

Sea

una variable aleatoria definida sobre

es integrable sobre

. Toda función

que

y satisface:

es la función de densidad de alguna variable aleatoria continua

.

Este teorema nos sirve para determinar cuando una función integrable sobre es una función de densidad de alguna variable aleatoria continua

.

Ejemplo Sea

una función sobre

dada por

Esta es una función integrable que satisface que como se puede observar en la figura 1.

para todo

Figura 1. Gráfico de función de probabilidad Además

Sea el evento A= como

entonces la probabilidad de A puede ser calculada

VALOR ESPERADO Los promedios son parte de nuestro diario vivir. Nosotros escuchamos el promedio de lluvia en una ciudad en un año, el promedio de temperatura en Agosto, el promedio de edad de los trabajadores de una empresa, entre otros. El objetivo de esta seccióon es mostrar algunas características numéricas de una distribución poblacional. El más comun promedio utilizado en estadística es la media o valor esperado o esperanza matemática. Sea sobre

una variable aleaoria definida sobre . defina

Caso continuo

por

y sea una función real definida

Suponga que de

es una variable aleatoria continua y

. Si

la función de densidad

, entonces se define la media de

esperado de

o el valor

por

DISTRIBUCION UNIFORME Notación: X

UD(

)

Definición Es la más simple de todas las distribuciones modelo y en ella la variable aleatoria asume cada uno de los valores con una probabilidad idéntica. " Sea la variable aleatoria X que puede asumir valores con idéntica probabilidad. Entonces la distribución uniforme discreta viene dada por:

O sea que el parámetro clave en esta distribución es =número de valores que asume la variable aleatoria X y que sería un parámetro de contéo. Así por ejemplo cuando se lanza un dado correcto, cada una de las seis caras posibles conforman el espacio muestral: La v.a X: número de puntos en la cara superior del dado tiene una distribución de probabilidad Uniforme discreta, puesto que: =

para en otro caso.

La representación gráfica de esta distribución de probabilidad puede hacerse con un histograma para v.a. discreta,

es en este caso la altura de

Planteemos sus características principales de tendencia central y dispersión. El valor esperado y varianza de una distribución discreta uniforme se obtienen así: Valor esperado (

)

Varianza (

Para el caso del lanzamiento del dado: el valor esperado y la varianza del número de puntos en la cara superior son:

Ejercicio

(Walpole, pág 122) Selección de un empleado entre equipo de 10 con el fin de supervisar un proyecto especifico. Esa selección se hace al azar utilizando papeleta con números. a- Cuál es la probabilidad de que el número de la papeleta seleccionado sea menor de 4? ( b- Cuál es la media y la varianza de la distribución de probabilidad del número de la papeleta.?

y

DISTRIBUCION EXPONENCIAL Notación:

Introducción Antes de introducir la variable exponencial puede mirarse un origen natural de ésta a partir de una variable aleatoria Poisson, la cual indica el número de veces que ocurre un evento en una unidad de tiempo. Si se escribe la función de probabilidad Poisson de la siguiente manera:

la probabilidad de que no ocurra algún evento, en el periodo hasta el tiempo está dada por:

De esta manera, puede definirse ahora una variable aleatoria continua mide el tiempo que tarda en ocurrir el primer evento de Poisson. Es decir,

Lo que permite construir la función de distribución acumulada así:

que

Al derivar, con respecto a aleatoria exponencial

se tiene la función de densidad de la variable

.

Definición La variable aleatoria

que es igual a la distancia (o tiempo) entre ocurrencias

sucecesivas de un proceso Poisson con media

tiene una distribución

exponencial con parámetro Función de densidad de Probabilidad:

Valor

Varianza:

esperado: Observaciones: 1. En la definición de la variable aleatoria exponencial, ésta se plantea como tiempo que tarda en ocurrir el primer evento Poisson. Sin embargo, esta definición puede hacerse extensiva a las demás unidades de medición consideradas en los eventos de Poisson, por ejemplo, cantidad de metros de carretera que deben recorrerse hasta que aparezca el primer bache, cantidad de que deben inspeccionarse en una hacienda hasta que aparezca el primer cafetal de broca, etc. 2. En el lenguaje de las aplicaciones también se utiliza la distribución exponencial para modelar tiempo entre eventos, distancia entre eventos, volumen entre eventos.

Ejemplo Supóngase que la duración de los instrumentos electrónicos D distribuciones Exponenciales asi : D

D

y D

tienen

Cual se debe preferir para usarlo durante un periodo de 45 horas? Debería preferirse aquel instrumento que de mayor garantía de duración para un mínimo de tiempo como el requerido, es decir, debe calcularse la probabilidad de que el instrumento dure por lo menos 45 horas, en cada caso.

El instrumento dos tiene mayor probabilidad de tener duración de 45 o más horas. Comprueba los anteriores resultados utilizando la función de distribución.

DISTRIBUCION NORMAL Importancia de la distribución normal La distribución normal es de suma importancia en estadística por tres razones principales: 1.Numerosas variables continuas de fenómenos comportarse probabilisticamente mediante ésta.

aleatorios

tienden

a

2.Es el límite al que convergen tanto variables aleatorias continuas como discretas. 3.Proporciona la base de la inferencia estadística clásica debido a su relación con el teorema del límite central.

Propiedades de la distribución normal

1.Su grafica tiene forma acampanada. 2.El valor esperado, la mediana y la moda tienen el mismo valor cuando la variable aleatoria se distribuye normalmente. 3.Su dispersión media es igual a 1.33 desviaciónes estándar. Es decir, el alcance intercuartil está contenido dentro de un intervalo de dos tercios de una desviación estándar por debajo de la media a dos tercios de una desviación estándar por encima de la media.

En la práctica, algunas de las variables que observamos sólo pueden aproximar estas propiedades. Así que si el fenómeno puede mediarse aproximadamente mediante la distribución normal se tendrá: 1.Que el polígono puede verse en forma de campana y simétrico. 2.Sus mediciones de tendencia central tienen bastante parecido. 3.El valor intercuartil puede diferir ligeramente de 1.33 desviaciones estándar. 4.El dominio de la variable aleatoria normalmente distribuida generalmente caerá dentro de 3 desviaciones estándar por encima y por debajo de la media. El modelo matemático

El modelo o expresión matemática que representa una función de densidad de probabilidad se denota mediante el símbolo tiene la siguiente función de probabilidad.

. Para la distribución normal, se

donde es la constante matemática aproximada por 2.71828 es la constante matemática aproximada por 3.14159

Parámetros es cualquier valor de la variable aleatoria continua, donde Así,

A continuación se presentan las gráficas de las funciones de densidad Normal con el objetivo de observar cambios en la distribución de probabilidad:

caso 1: Cuando se mantiene la misma media, pero cambia la varianza. Ejemplo:

caso 2: Cuando se mantiene la misma varianza, pero cambia la media. Ejemplo: (

y

)

Ahora, al examinar la primera y segunda derivada de propiedades de la curva normal:

, se pueden listar otras

1.La moda, que es el punto sobre el eje horizontal donde la curva es un máximo ocurre cuando

.

2.La curva es simétrica alrededor de un eje vertical a través del valor esperado

.

3.La curva tiene sus puntos de inflexión en si

, es cóncava hacia abajo

, y es cóncava hacia arriba en cualquier otro punto.

4.La curva normal se aproxima al eje horizontal de manera asintótica conforme nos alejamos de la media en cualquier dirección. Haciendo una transformación a la variable aleatoria normal

, ésta se puede

llevar a un nuevo conjunto de observaciones de una variable aleatoria normal con media cero y varianza 1. A dicha transformación se le conoce como estadarización de la variable aleatoria normal

:

Definición La distribución de probabilidad de una variable aleatoria normal con media cero y varianza 1 se llama distribución normal estándar. Función de Densidad Normal (0,1)

Gráfico 6.

En la distribución normal estándar se sabe que las áreas se distribuyen de la siguiente manera: Función de Densidad Normal (0,1)

Manejo de tablas La tabla anexa representa las probabilidades o áreas bajo la curva normal calculadas hasta los valores partículares de interés

(Transformados). Al

observar la tabla se observa que todos los valores deben registrarse primero con hasta dos lugares decimales. Por ejemplo, para leer el área de probabilidad bajo la curva hasta

, podemos recorrer hacia abajo la columna Z de la

tabla hasta que ubiquemos el valor de interés detenemos en la fila

(en décimas). Así pues, nos

. A continuación, leemos esta fila hasta que

intersecamos la columna que contiene el lugar de centésimas del valor ( ). Por tanto, en el cuerpo de la tabla, la probabilidad tabulada para z=1.57 corresponde a la intersección de la fila z=1.5 con la columna z=0.07 y es 0.9418.

Teorema de Chebyshev. Si una variable aleatoria tiene una varianza o desviación estándar pequeña, esperaríamos que la mayoría de los valores se agrupan alrededor de la media. Por lo tanto, la probabilidad de que una variable aleatoria tome un valor dentro de cierto intervalo alrededor de la media es mayor que para una variable aleatoria similar con una desviación estándar mayor si pensamos en la probabilidad en términos de una área, esperaríamos una distribución continua con un valor grande de σ que indique una variabilidad mayor y, por lo tanto, esperaríamos que el área este extendida. Sin embargo, una desviación estándar pequeña debería tener la mayor parte de su área cercana a µ. Podemos argumentar lo mismo para una distribución discreta. En el histograma de probabilidad. El área se extiende mucho más que. Lo cual indica una distribución mas variable de mediciones o resultados el matemático ruso P. L. Chebyschev (1821–1894) descubrió que la fracción de área entre cualesquiera dos valores simétricos alrededor de la media esta relacionada con la desviación estándar. Como el área bajo una curva de distribución de probabilidad, o de un histograma de probabilidad, suma 1, el área entre cualesquiera dos números es la probabilidad de que la variable aleatoria tome un valor entre estos números. El siguiente teorema, debido a Chebyshev da una estimación conservadora de la probabi8lidad de que una variable aleatoria tome un valor dentro de κ desviaciones estándar de su media para cualquier numero real κ proporcionaremos la demostración solo para el caso continuo y se deja el caso discreto como ejercicio. Teorema de Chebyshev: La probabilidad de que cualquier variable aleatoria X, tome un valor dentro de la κ desviaciones estándar de la media es al menos 1 – 1 / κ2. Es decir P (µ - κ σ < X < µ + κ σ) ≥ 1 – 1–κ2. Prueba: por nuestra definición anterior de la varianza de X escribimos σ2 = E [ (X - µ)2] = -∞∫∞ (x + µ)2 ƒ (x) dx = -∞∫ µ- k σ (x + µ)2 ƒ (x) dx + µ- k σ∫ µ+ k σ (x + µ)2 ƒ (x) dx + µ+ k σ ∫∞ (x + µ)2 ƒ (x) dx ≥ -∞∫ µ- k σ (x + µ)2 ƒ (x) dx + µ+ k σ∫∞ (x + µ)2 ƒ (x) dx

Ya que la segunda de las tres integrales es no negativa así como | x - µ | ≥ k σ, para cualquier x ≥ µ + k σ o x ≤ µ - k σ tenemos que (x - µ)2 ≥ k2 σ2 en ambas integrales restantes se sigue que σ2 ≥ -∞ ∫ µ- k σ k2 σ2 ƒ (x) dx + µ+ k σ ∫∞ k2 σ2 ƒ (x) dx Y que -∞ ∫ µ- k σ ƒ (x) dx + µ+ k σ ∫∞ ƒ (x) dx ≤ 1_κ2. De aquí P (µ - κ σ < X < µ + κ σ) = µ- k σ∫ µ+ k σ ƒ (x) dx ≥ 1 – 1_κ2. Por lo cual queda establecido el teorema. Para k = 2 el teorema establece que la variable aleatoria x tiene una probabilidad de al menos 1 – 1 /22 = 3/4 de caer dentro de dos desviaciones estándar de la media, es decir tres cuartos o mas de las observaciones de cualquier distribución yacen en el intervalo una µ ± 2 σ. De manera similar, el teorema que al menos ocho novenos de las observaciones de cualquier distribución caen en el intervalo µ ± 3 σ. El teorema de Chebyshev tiene una valides para cualquier distribución de observaciones y, por esta razón los resultados son generalmente débiles el valor que el teorema proporciona es solo un limite inferior. Es decir, sabemos que la probabilidad de una variable aleatoria que cae dentro de dos desviaciones estándar de la media no puede ser menor que 3/4, pero nunca sabemos cuanto podría ser en realidad únicamente cuando se conoce la distribución de probabilidad podemos determinar probabilidades exactas. Por esta razón llámanos al teorema resultado de distribución libre cuando se supongan distribuciones específicas. El uso del teorema de Chebyshev se restringe a situaciones donde se desconoce la forma de la distribución. EJEMPLO: 1.- Una variable aleatoria X tiene una media µ = 8 una varianza σ 2 = 9, y distribución de probabilidad desconocida. Encuentre a) P (−4 < X < 20). b) P (| X - 8 | ≥ 6). Solución a) P (−4 < X < 20) = P[ 8 – (4) (3) < X < 8 + (4) (3) ] ≥ 15/14 b) P (| X - 8 | ≥ 6) = 1 – P (| X - 8 | < 6) = 1 – P (- 6 < X - 8 < 6) = 1 – P [8 – (2) (3) < X < 8 + (2) (3)] 8 < 6) ≤ ¼.’‘’

Distribución T de Student En la generalidad de los casos, no disponemos de la desviación standard de la población, sino de una estimación calculada a partir de una muestra extraída de la misma y por lo tanto no podemos calcular Z. En estos casos calculamos el estadístico T:

con

donde S es la desviación standard muestral, calculada con n-1 grados de libertad. Nótese que utilizamos S, la Desviación Standard de una Muestra, en lugar de m, la Desviación Standard de la Población. El estadístico T tiene una distribución que se denomina distribución T de Student, que está tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calculó la desviación standard. La distribución T tiene en cuenta la incertidumbre en la estimación de la desviación standard de la población, porque en realidad la tabla de T contiene las distribuciones de probabilidades para distintos grados de libertad.

La distribución T es mas ancha que la distribución normal tipificada Para un número de grados de libertad pequeño. Cuando los grados de libertad tienden a infinito, la distribución T tiende a coincidir con la distribución normal standard. Es decir, en la medida que aumentemos el número de observaciones de la muestra, la desviación standard calculada estará mas próxima a la desviación standard de la población y entonces la distribución T correspondiente se acerca a la distribución normal standard. El uso de la distribución T presupone que la población con que estamos trabajando tiene una distribución normal.

Distribucion X2(CHI-CUADRADA) En algunos casos se necesita probar si una variable o unos datos siguen determinada distribución de probabilidad, un método para hacer esta prueba es el de bondad de ajuste o chi-cuadrado. La información debe estar presentada en un cuadro de distribución de frecuencias. Sea m el número de clases y nj el número de observaciones en cada clase (frecuencias observadas). Se trata de comparar los valores o frecuencias observadas (nj ) con las frecuencias que habría en cada grupo o clase o sea el valor esperado (ej ) si se cumple la hipótesis nula (H0 ). Las diferencias entre lo observado y lo esperado dan las discrepancias entre la teoría y la realidad. Si no hay diferencias, la realidad coincidirá perfectamente con la teoría y por el contrario, si las diferencias son grandes indica que la realidad y la teoría no se parecen. Los pasos a seguir son: Hipótesis H0 : La variable tiene distribución X con tales parámetros H1 : La variable no tiene la distribución X

Estadistica de Trabajo

(3.15) nj : frecuencia observada en la muestra ej : frecuencia esperada según la distribución teórica n: tamaño de la muestra Nota. El número de observaciones esperadas en cada clase debe ser mayor o igual a 5, es decir, ej 5. Si esto no ocurre se unen las clases adyacentes hasta cumplir el requisito. Al unir las clases se disminuirán los grados de libertad de la chi-cuadrado.

La regla de decisión se observa en la figura 3.20.

Figura 3.20 Regla de decisión: prueba bondad de ajuste

DISTRIBUCIÓN F DE FISHER Considerando dos muestras aleatorias independientes, de tamaño n1 y n2, extraídas de una población normal, el estadístico F será DEFINICIÓN Una variable F se define como el cociente entre dos variables ji-cuadrado divididas por sus correspondientes grados de libertad. CARACTERISTICAS •

Una variable con distribución F es siempre positiva por lo tanto su campo de variación es 0 " F " "



La distribución de la variable es asimétrica, pero su asimetría disminuye cuando aumentan los grados de libertad del numerador y denominador.



Hay una distribución F por cada par de grados de libertad.



Parámetros: Grados de libertad asociados al numerador y denominador

¿Cómo se deduce una distribución F? •

Extraiga k pares de muestras aleatorias independientes de tamaño n < 30.



Calcule para cada par el cociente de variancias que proporciona un valor de F.



Graficar los valores de F de los k pares de muestras.

Distribución F para diferentes grados de libertad

Bibliografia.http://html.rincondelvago.com/distribuciones-de-probabilidad_1.html http://www.virtual.unal.edu.co/unvPortal/courses/searchCoursesByName.do http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030006/docs_curso/cont enido.html

UNIDAD 3 ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

1.-Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y dicha probabilidad no es nula para ningún elemento. Los métodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población. (En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población.)

Entre los métodos de muestreo probabilísticos más utilizados en investigación encontramos: •

Muestreo aleatorio simple



Muestreo estratificado



Muestreo sistemático



Muestreo polietápico o por conglomerados

Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede

estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos.

2.-ESTIMACIÓN PUNTUAL Si a partir de las observaciones de una muestra se calcula un solo valor como estimación de un parámetro de la población desconocido, el procedimientose denomina estimación puntual. Por ejemplo queremos estimar la nota media de los alumnos de bachiller en la asignatura de matemáticas que notaremos . Sea X la variable aleatoria que indica la nota obtenida por cada estudiante. Tomamos una muestra de tamaño n y denotamos la nota media de la muestra. Si al tomar una muestra de 100 estudiantes obtenemos que la media es 6´2, este número lo tomaríamos como estimativo de

. Decimos que 6´2 es una estimación puntual de

.

Un estimador puntual T de un parámetro es cualquier estadística que nos permita a partir de los datos muestrales obtener valores aproximados del parámetro

.

Para indicar que T es un estimador del parámetro

escribimos

=T .

Con esto queremos decir que empleamos la expresión dada mediante T para obtener valores próximos al valor del parámetro. Es muy probable que haya error cuando un parámetro es estimado. Es cierto que si el número de observaciones al azar se hace suficientemente grande, éstas proporcionarían un valor que casi sería semejante al parámetro; pero a menudo hay limitaciones de tiempo y de recursos y se tendrá que trabajar con unas cuántas observaciones. Para poder utilizar la información que se tenga de la mejor forma posible, se necesita identificar las estadísticas que sean “buenos” estimadores. Hay cuatro criterios que se suelen aplicar para determinar si una estadística es un buen estimador: Insesgamiento, eficiencia,consistencia y suficiencia. PROPIEDADES DE UN ESTIMADOR Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y eficiencia. Se trata del error cuadrático medio. Sea T un estimador del parámetro

. El error cuadrático medio de T,

denotado ECM(T), se define como el valor esperado de (T- )2 . ECM(T) = E[(T- )2] ¿Cuál es la información que nos proporciona el error cuadrático medio? Nos referimos al promedio de los cuadrados de las observaciones. Si éste es pequeño, debemos aceptar que hay una tendencia para que los valores (T- ) sean pequeños, y así lo será también la diferencia (T- ), lo que quiere decir que T tiende a producir respuestas numéricas próximas al parámetro

. El poder que

tenga T para producir valores próximos a depende de dos condiciones básicas. Una es la “fuerza” o intensidad con la que tiende a dar esos valores(insesgamiento) y la otra es la “fuerza” que tenga para no permitir que se aparte de del camino que lo conduce a (eficiencia). Esta dos condiciones matemáticamente quedan establecidas y precisadas en el teorema siguiente: TEOREMA Si T es un estimador del parámetro

, ECM(T) = V[T] – [ -E(T)]2

Demostración: ECM(T) = E[(T- )2] = E[T2 - 2 T + 2

+

2

] = E(T2)-E(2 T)+E(

) = E(T2) – [E(T)]2 + [E(T)]2 - 2 E(T) + 2

) = V(T) + [

2

2

) = E(T2) -2 E(T) + E(

= (E(T2) –[E(T)]2) + ([E(T)]2- 2 E(T)

- E(T)]2.

De esta expresión deducimos que el error cuadrático medio sera pequeño en la medida que lo sea su varianza y lo mismo ocurra con [ -E(T)]2, es decir

-E(T).

El valor pequeño de la varianza quiere decir que T presenta poca variabilidad; el hecho de que -E(T) sea pequeño quiere decir que E(T) tiende al valor a medida que el experimento se repite, lo que indica que T tiende a dar valores próximos al parámetro. La diferencia

-E(T) se llama sesgo del estimador.

Estudiaremos un ejemplo que nos muestra como las dos propiedades anteriores pueden no ser suficientes paradeterminar el mejor estimador: Ejemplo: Sea X1, X2, ..., Xn una muestra aleatoria de una población de media

desconocida y varianza =81. Consideremos T1= yT2= como estimadores de la media, si obtenemos el error cuadrático medio para el primer estimador utilizando el teorema anterior obtenemos

el segundo estimador obtenemos

haciendo lo mismo para

.

Supongamos que tenemos que escoger uno de los dos estimadores. Para ello debemos tomar aquel que tenga menor error cuadrático medio. Trabajando con las fórmulas podemos observar que va a depender del valor de la media. En este ejemplo observamos que para escoger el mejor estimador tendríamos que saber cuál es el verdadero valor de la media poblacional. Pero nosotros pretendemos es contar con criterios que garanticen una buena selección del estimador, sin importar el valor particular del parámetro objeto de estudio. Para precisar estos criterios estudiaremos el error cuadrático medio en sus partes y así iniciamos el estudio de la diferencia

- E(T).

Se dice que una estadística T es un estimador insesgado de E(T)=

para cualquier valor de

, si se cumple que

.

Volviendo al ejemplo anterior tendríamos que la media muestral es un estimador insesgado de la media de la población mientras queT2 no lo es. También podemos decir que un estimador insesgadoes aquel que tiene sesgo igual a cero. TEOREMA: Sea X1, X2, ..., Xn una muestra aleatoria de cierta distribución de media varianza a)T1=

y

. Entonces:

es un estimador insesgado de

.

b)T2=S2 es un estimador insesgado de

.

La propiedad de insesgamiento nos garantiza que las estimaciones que hagamos con el estimador se encuentran alrededor del parámetro en cuestión, de esto podemos deducir la siguienteREGLA DE PROCEDIMIENTO: REGLA 1 : Si tenemos T1 y T2 estimadores del parámetro insesgado, entonces escoja el insesgado.

y uno de ellos es

Continuando con el ejemplo escogeríamos la media muestral como mejor estimador de la media. Los siguientes gráficos ilustran el significado de estimador insesgado y estimador sesgado

Una vez que tenemos dos estimadores con el mismo sesgo deberíamos tener otra regla que nos permita elegir uno en lugar del otro, así llegamos a la SEGUNDA REGLA DE PROCEDIMIENTO : REGLA 2 : Si tenemos T1 y T2 estimadores del parámetro entonces escoja el de menor varianza.

ambos insesgado,

Tenemos que tener en cuenta otras propiedades de los estimadores consistencia y eficiencia. La consistencia se refiere al comportamiento de un estimador, a medida que la muestra se va tomando de un tamaño mayor. T es un estimador consistente para n tiende a infinito.

, si se cumple que

, cuando

Es decir un estimador es consistente si a medida que aumenta el tamaño de la muestra, la probabilidad de que se acerque al parámetro va siendo mayor. Un estimador T del parámetro es suficiente cuando es capaz de sustraer de la muestra toda la información que ésta contengaacerca del parámetro.

3.-ESTIMACIÓN POR INTERVALOS DE CONFIANZA. Nos proponemos determinar dos números entre los cuales se halla el parámetro estudiado con cierta certeza. El procedimiento para obtener un intervalo (de confianza) para un parámetro, la media , por ejemplo, requiere de la determinación de un estimador del parámetro y de la distribución del estimador. Ejemplo Tratamos de obtener un intervalo de confianza para la media de una población normal. Sabemos que si X sigue una normal de media y varianza entonces la media muestral sigue una normal de la misma media y de varianza la varianza poblacional partida por n, tamaño de la muestra. Vamos a determinar a y b tales que P[a
k

ó ó

H0 : H1 :

k >k

- Prueba de hipótesis a una cola inferior H0 :

=k

H1 : < k

ó ó

H0 :

k

H1 : < k

En las distribuciones en el muestreo se vió que para el caso de la media, hay tres situaciones, por consiguiente la estadística de trabajo a utilizar depende de los supuestos de la población y del tamaño de la muestra. Prueba de hipótesis para la media si la población de donde se obtiene la muestra tiene distribución normal con conocida. La estadística de trabajo a usar corresponde a la expresión (1.6):

(3.1) Donde: (H0).

es el valor que se está suponiendo en la hipótesis nula

REGLA DE DECISION - Si se ha planteado la hipótesis alternativa como: H1 : k se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia

en la figura 3.1

Figura 3.1 Regla de decisión para una prueba de hipótesis a dos colas. y pertenecen a una distribución normal estándar. Si el valor de la estadística de trabajo (Zx) está entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir:

- Si se ha planteado la hipótesis alternativa como: H1 : > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2

Figura 3.2 Regla de decisión para una prueba de hipótesis a una cola superior. pertenece a una distribución normal estándar. Si el valor de

la estadística de trabajo (Zx) es menor que no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,

Si se ha planteado la hipótesis alternativa como: H1 : < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3

Figura 3.3 Regla de decisión para una prueba de hipótesis a una cola inferior. Z pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo (Zx) es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,

EJEMPLO Un proceso manufacturero usado por una fábrica durante los últimos años da una producción media de 100 unidades por hora con una desviación estándar de 8 unidades. Se acaba de introducir en el mercado una nueva máquina para realizar ese tipo de producto. Aunque es muy cara comparada con la que está ahora en uso, si la media de producción de la nueva máquina es de más de 150 unidades por hora, su adopción daría

bastantes beneficios. Para decidir si se debiera comprar la nueva máquina, a la gerencia de la fábrica se le permite hacer un ensayo durante 35 horas, hallándose un promedio de 160 unidades por hora. Con ésta información qué decisión se debe tomar si se asume un nivel de confianza del 99 por ciento. Solución . Según el enunciado, solo se compra la máquina si la producción es de mas de 150 unidades por hora, por lo tanto las hipótesis son: H0 :

= 150

H1 : > 150 Para elegir la estadística de trabajo se tiene en cuenta que se conoce la varianza poblacional, por lo tanto se usa la expresión 3.1

por el planteamiento de la hipótesis alternativa se trabaja a una cola superior. En la distribución normal, con una confiabilidad del 99 por ciento el valor de Z es 2,33. como puede observarse en la figura 3.4, la estadística de trabajo está en la zona de rechazo de la hipótesis nula, por lo tanto, se acepta que la producción promedio por hora es superior a las 150 unidades y asumiendo un riesgo del 1 por ciento se puede comprar la nueva máquina.

Figura 3.4 Regla de desición para una prueba de hipótesis a una cola inferior. Prueba de hipótesis para la media si se selecciona una muestra aleatoria de tamaño n 30 de una población con cualquier distribución. La estadística de trabajo a usar es la expresión (1.7):

REGLA DE DECISION Es la misma que en el caso anterior y depende en todo caso de la hipótesis alternativa. EJEMPLO La duración promedio de las llantas producidas por una fábrica de llantas, según experiencias registradas es de 46.050 kms. Se desea probar si el promedio poblacional ha cambiado; para tal efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duración promedio de 45.050 kms. con una desviación estándar de 3.070 kms. Solución H0:

= 46.050

H1 :

46.050

Teniendo en cuenta que el tamaño de la muestra es grande, como estadística de trabajo se utiliza la expresión 3.2

Por la hipótesis alternativa, la regla de decisión es a dos colas. La tabla a utilizar es la de la distribución normal. Asumiendo un nivel de confianza del 95 por ciento, los correspondientes valores de Z son -1,96 y 1,96. Como puede observarse en la figura 3.5, el valor de la estadística de trabajo está en la zona de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 95

por ciento se acepta que la duración promedio de las llantas ha cambiado.

Figura 3.5 Regla de decisión para una prueba de hipótesis a dos colas Prueba de hipótesis para la media si se selecciona una muestra aleatoria de tamaño n k

ó ó

H0 :

k

H1 :

>k

- Prueba de hipótesis a una cola inferior H0 : H1:

=k Z no se rechaza H0 . EJEMPLO Un fabricante afirma que por lo menos el 90 por ciento de las piezas de una maquinaria que suministra a una fábrica guardan las formas especificadas. Un exámen de 200 de esas piezas reveló que 160 de ellas no eran defectuosas. Pruebe si lo que

afirma el fabricante es cierto. Solución H0 :

0,9

H1 :

< 0,9

Para realizar una prueba de hipótesis para la proporción se utiliza la expresión 3.5

Asumiendo una confiabilidad del 95 por ciento, correspondiente a Z en la distribución normal es -1,64

el

valor

Como puede observarse en la figura 3.7, el valor de la estadística de trabajo se encuentra en la zona de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 95 por ciento se concluye que la afirmación del fabricante no es cierta.

Figura 3.7 Regla de decisión para una prueba de hipótesis a una cola inferior

Prueba de hipótesis para la varianza.Es frecuente que se desee comprobar si la variación o dispersión de una variable ha tenido alguna modificación, lo cual se hace con la prueba de hipótesis para la varianza. Hipótesis Se puede plantear uno de los siguientes tres tipos de hipótesis: - Prueba de hipótesis a dos colas H0 :

=k

H1 :

k

- Prueba de hipótesis a una cola superior H0 : H1 :

=k >k

ó ó

H0 : H1 :

k >k

- Prueba de hipótesis a una cola inferior H0 : H1 :

=k 0,2

Para realizar esta prueba de hipótesis se utiliza la expresión 3.6

Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribución chi-cuadrado con 9 grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura 3.11, el valor de la estadística de trabajo se ubica en la zona de no rechazo de la hipótesis nula, por consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no ha aumentado.

Figura 3.11 Regla de decisión para una prueba de hipótesis a una cola superior

Prueba de hipótesis para la diferencia de medias.Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaños n 1 y n 2 , se puede comparar el comportamiento de dichas poblaciones a través de los promedios. Hipótesis Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hipótesis: - Prueba de hipótesis a dos colas H0 :

=

H1 :

ó ó

H0 : H1 :

-

=k k

- Prueba de hipótesis a una cola superior H0 :

=

ó

H0 :

-

k

H1 :

>

ó

H1 :

-

>k

- Prueba de hipótesis a una cola inferior H0 :

=

ó

H0 :

-

k

H1 :


k se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1 y pertenecen a una distribución Normal estándar. Si el valor de la estadística de trabajo está entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir,

- Si se ha planteado la hipótesis alternativa como: H1 : > ó H1 : > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2 pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es menor que se acepta la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir,

- Si se ha planteado la hipótesis alternativa como:

H1 : < ó H1 : < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3 Z pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir,

EJEMPLO Un constructor está considerando dos lugares alternativos para construir un centro comercial. Como los ingresos de los hogares de la comunidad son una consideración importante en ésta selección, desea probar que el ingreso promedio de la primera comunidad excede al promedio de la segunda comunidad en cuando menos $1.500 diarios. Con la información de un censo realizado el año anterior sabe que la desviación estándar del ingreso diario de la primera comunidad es de $1.800 y la de la segunda es de $2.400 Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de la segunda comunidad el ingreso promedio diario es de $34.600. Pruebe la hipótesis con un nivel de confianza del 95 por ciento. Solución Se desea probar si la diferencia entre los ingresos de la comunidad 1 y la 2 es de $1.500 o más, por lo tanto: H0 :

-

1.500

H1 :

-

< 1.500

El tamaño de las muestras es grande y las varianzas poblacionales son conocidas, por consiguiente la estadística de trabajo a utilizar es la expresión 3.9

Para un nivel de confianza del 95 por ciento, en la tabla de la distribución normal se tiene un valor de Z de -1,64. Como puede observarse en la figura 3.13, la estadística de trabajo se ubica en la zona de aceptación de la hipótesis nula; por

lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso promedio por hogar en las dos comunidades es mayor a $1.500 diarios.

Figura 3.13 Regla de decisión para una prueba de hipótesis a una cola inferior Prueba de hipótesis para la diferencia de medias si las muestras se obtienen de poblaciones con distribuciones diferentes a la normal, pero n1 30 y n2 30 y varianzas poblacionales desconocidas , la estadística de trabajo es igual al caso anterior, solo que se reemplaza la varianza poblacional por la muestral:

(3.10) REGLA DE DECISIÓN La regla de decisión es la misma que en caso anterior y en todo caso, depende de la hipótesis alternativa. EJEMPLO Una muestra de 80 alambres de acero producidos por la fábrica A presenta una resistencia promedio a la ruptura de 1.230 lbs . con una desviación estándar de 120 lbs .. Una muestra de 100 alambres de acero producidos por la fábrica B presenta una resistencia promedio a la ruptura de 1.110 lbs . con una desviación estándar de 90 lbs .. Con base en ésta información pruebe si la resistencia promedio a la rotura de los alambres de acero de la marca A es significativamente mayor que la de los alambres de acero de la marca B. Asuma un nivel de confianza del 99 por ciento. Solución

H0 : A = B H1 : A > B El tamaño de las muestras es grande, las varianzas poblacionales son desconocidas, por la tanto la estadística de trabajo a utilizar es la expresión 3.10

Con un nivel del confianza del 99 por ciento, en la tabla de la distribución normal el valor de Z es 2,33. como puede observarse en la figura 3.14, la estadística de trabajo está en la zona de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 99 por ciento se acepta que la resistencia promedio de los alambres de la marca A es significativamente mayor que la resistencia promedio de los alambres de la marca B.

Figura 3.14 Regla de decisión para una prueba de hipótesis a una cola superior Prueba de hipótesis para la diferencia de medias si las muestras se obtienen de poblaciones con distribución normal, con varianzas poblacionales iguales pero desconocidas y n1 2 H1 : 1 - 2 > k

- Prueba de hipótesis a una cola inferior H0 : 1 = 2 ó H0 : 1 - 2

k

H1 : 1 < 2 H1 : 1 - 2 < k

La estadística de trabajo es la expresión 1.14:

(3.14) REGLA DE DECISION Como en los casos anteriores depende del tipo de hipótesis que se haya planteado. - Si se ha planteado la hipótesis alternativa como: H1 : 1 2 ó H1 : p 1 - p 2 ¹ k se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1 y pertenecen a una distribución Normal estándar. Si el valor de la estadística de trabajo (Zp1-p2 ) está entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si < Zp1-p2 < no se rechaza H0 . - Si se ha planteado la hipótesis alternativa como: H1 : 1 > 2 ó H1 : 1 - 2 > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2

pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es menor que no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si Zp1-p2 < no se rechaza H0 . - Si se ha planteado la hipótesis alternativa como: H1 : 1 < 2 ó H1 : 1 - 2 < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3 Z pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo (Zp1-p2) es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H1 . Es decir, si Zp1-p2 > Z no se rechaza H0 .

Prueba de hipótesis para la relación de varianzas.Si de dos poblaciones con distribución normal se seleccionan dos muestras aleatorias independientes de tamaños n1 y n2 , se puede comparar la homogeneidad o variabilidad de dichas poblaciones a través de una prueba de hipótesis para el cociente de varianzas. Cuando se planteen las hipótesis debe quedar en el numerador la población cuya muestra tenga mayor varianza. Es decir que la población 1 será la que tenga mayor varianza muestral.

Hipótesis Se puede plantear uno de los siguientes tres tipos de hipótesis: - Prueba de hipótesis a dos colas H0 :

=

H1 :

ó ó

H0 : H1 :

/ /

=1 1

- Prueba de hipótesis a una cola superior H0 : H1 :

= >

ó ó

H0 : H1 :

/ /

1 >1

- Prueba de hipótesis a una cola inferior H0 :

=

H1 :


1 , se tiene una prueba de hipótesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.9

Z 1- a pertenece a una distribución F con (n 1 -1) grado de libertad en el numerador y (n 2 -1) grado de libertad en el denominador. Si el valor de la estadística de trabajo (T) es menor que Z 1- a no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T < Z 1- a no se rechaza H o . - Si se ha planteado la hipótesis alternativa como: H1 : < ó H1 : / < 1 , se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.10 Z a pertenece a una distribución F con (n1 -1) grado de libertad en el numerador y (n2 -1) grado de libertad en el denominador. Si el valor de la estadística de trabajo (T) es mayor que Z a no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T > Z a no se rechaza H0 . EJEMPLO Dos fuentes de materias primas están siendo consideradas. Ambas fuentes parecen tener características similares, pero no se está seguro de su homogeneidad. Una muestra de 10 grupos de la fuente A produce una varianza de 250 y una muestra de 11 grupos de la fuente B produce una varianza de 195. Con base en ésta información se puede concluir que la varianza de la fuente A es significativamente mayor que la de la fuente B?. Asuma un nivel de confianza del 99 por ciento. Solución H0: H1 :

A= A>

B B

Con un nivel de confianza del 99 por ciento, en la tabla de la distribución F con 9 grados de libertad en el numerador y 10 grados de libertad en el denominador, se obtiene un valor para Z de 4,94. Como puede observarse en la figura 3.12, el valor de la estadística de trabajo está en la zona de no rechazo de la hipótesis nula, por lo tanto, con una confiabilidad del 99 por ciento, no se puede rechazar que la variabilidad de las dos fuentes de materia prima es igual.

Figura 3.12 Regla de decisión para una prueba de Hipótesis a una cola superior

Ajuste de distribuciones de frecuencia a distribuciones de probabilidad. AJUSTE DE UNA SERIE DE DATOS A UNA DISTRIBUCIÓN BINOMIAL: Disponemos de una serie de k datos que toman los valores 0, 1, ... ,n. Para saber si estos datos siguen pueden aproximarse por una distribución binomial: 1. Calculamos la media de los k datos y la igualamos a la Esperanza teórica de la Binomial (n · p). Despejamos de aquí el valor de p. 2. Calculamos los valores teóricos de p (X = r), multiplicándolos por k para obtener los valores teóricos de cada posible valor de la variable aleatoria en series de k datos. 3. Si la diferencia es "suficientemente pequeña" aceptamos como buena la aproximación Binomial, si no, la rechazamos. (nota: la fundamentación estadística que nos permitiría decidir de manera objetiva si la diferencia entre los datos teóricos y los reales es "suficientemente pequeña" escapa de los objetivos de esta unidad didáctica, con lo cual la decisión se deberá tomar de manera subjetiva).

Estadistica no paramétrica.-

• Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y prueba de hipótesis son, en conjunto, denominadas ESTADÍSTICA PARAMÉTRICA y son aplicadas básicamente a variables contínuas. Estas técnicas se basan en especificar una forma de distribución de la variable aleatoria y de los estadísticos derivados de los datos. • En ESTADÍSTICA PARAMÉTRICA se asume que la población de la cual la muestra es extraída es normal o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hipótesis sea válida. • Sin embargo, en un gran numero de casos no se puede determinar la distribución original ni la distribución de los estadísticos por lo que en realidad no tenemos parámetros a estimar. Tenemos solo distribuciones que comparar. Esto se llama estadística no paramétrica. Prueba de los Signos Se usa para hacer pruebas de hipótesis acerca de la mediana de una población. Ho: La Mediana poblacional es igual a un valor dado. Ha: La mediana es menor (mayor ó distinta) del valor dado. La prueba estadística está basada en la distribución Binomial con probabilidad de éxito p=½, puesto que la probabilidad de que un dato sea mayor o menor que la mediana es ½. Para calcularla se determinan las diferencias de los datos con respecto al valor dado de la mediana y se cuentan los signos positivos y negativos. Si la hipótesis alterna es "menor que" y el número de diferencias positivas es mayor que el número de diferencias negativas entonces “valor-p” = P2 en caso contrario “valor-p” = P1 . Cuando la hipótesis alterna es de dos lados y el número de diferencias positivas son mayores que el número de diferencias negativas entonces el “valor-p” = 2P2, si hay menor número de diferenciaspositivas entonces “valor-p”=2P1 y si hay igual número de diferencias positivas y negativas entonces, “valor-p”=1. Si n>20 se puede usar aproximación Normal a una Binomial con p = q = 0.5, para calcular los “valores-p”.

Prueba de Wilcoxon de los rangos con signo Esta prueba nos permite comparar nuestros datos con una mediana teórica (por ejemplo un valor publicado en un artículo). Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2M0, ..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se distribuirían de forma simétrica en torno a cero. Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los rangos correspondientes a las diferencias negativas. Si la hipótesis nula es cierta ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a ser más altos que la mediana M0, se reflejará en un valor mayor de R+, y al contrario si son más bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequeña para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande. Prueba de Wilcoxon para contrastar datos pareados El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de valores, por ejemplo antes y después del tratamiento, que podemos denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en valor absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la hipótesis nula es que esas diferencias proceden de una distribución simétrica en torno a cero y si fuera cierta los valores deR+ y R- serán parecidos.

Prueba de Kruskal-Wallis La prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un método no paramétrico para probar si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por categorías. Es una extensión de la prueba de la U de MannWhitney para 3 o más grupos. Ya que es una prueba no paramétrica, la prueba de Kruskal-Wallis no asume normalidad en los datos, en oposición al tradicional ANOVA. Sí asume, bajo la hipótesis nula, que los datos vienen de la misma distribución. Una forma común en que se viola este supuesto es con datos heterocedásticos.

1. El estadístico donde:

está

,

ni es el número de observaciones en el grupo i



rij es el rango (entre todas las observaciones) de la observación j en el grupo i



N es el número total de observaciones entre todos los grupos

, es el promedio de rij.



que

el

denominador

exactamente 2. Se

por:





Note

dado

puede

de

la

expresión

. Luego realizar

una

corrección

para K es

. para

los

valores

repetidos

dividiendo K por , donde G es el número de grupos de diferentes rangos repetidos, y ti es el número de observaciones repetidas dentro del grupo i que tiene observaciones repetidas para un determinado

valor. Esta corrección hace cambiar a K muy poco al menos que existan un gran número de observaciones repetidas. 3. Finalmente, el p-value es aproximado por . Si algún ni es pequeño ( < 5) la distribución de K puede ser distinta de la chi-cuadrado.

Bibliografía.http://recursostic.educacion.es/descartes/web/materiales_didacticos/Distribucion _binomial/binomial.htm http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/capitulo_5/leccion_ 05_02.html http://www.est.uc3m.es/esp/nueva_docencia/colmenarejo/ciencias_actuariales/es tad_actuarial_I/doc_grupo15/archivos/Problemas3.pdf http://www.seh-lelha.org/noparame.htm

UNIDAD 4 ANÁLISIS DE LA REGRESIÓN

Terminologia de la regresión.Se conoce como análisis de regresión multivariante al método estadístico que permite establecer una relación matemática entre un conjunto de variables X1, X2 .. Xk (covariantes o factores) y una variable dependiente Y. Se utiliza fundamentalmente en estudios en los que no se puede controlar por diseño los valores de las variables independientes, como suele ocurrir en los estudios epidemiológicos y observacionales. Los objetivos de un modelo de regresión puede ser dos: •

Obtener una ecuación que nos permita "predecir" el valor de Y una vez conocidos los valores de X1, X2 .. Xk. Se conocen como modelos predictivos.



Cuantificar la relación entre X1, X2 .. Xk y la variable Y con el fin de conocer o explicar mejor los mecanismos de esa relación. Se trata de modelos explicativos, muy utilizados cuando se busca encontrar qué variables afectan a los valores de un parámetro fisiológico, o cuáles son los posibles factores de riesgo que pueden influir en la probabilidad de que se desarrolle una patología.

La disponibilidad y facilidad de uso del software que permite la construcción de modelos de regresión nos ha hecho olvidar que se trata de técnicas complejas, que requieren un cierto conocimiento de la metodología estadística subyacente, por lo que nos encontramos con excesiva frecuencia una pobre utilización de las técnicas de regresión y una peor descripción de cómo se emplearon en cada caso concreto, e incluso una ausencia total de esa explicación, y se comunica los resultados como si la propia ecuación de regresión fuera sin más un "artículo de fe" que no necesitara de una cuidadosa validación. Un problema fundamental que se plantea a la hora de construir un modelo multivariante es qué factores X1, X2 .. Xk incluir en la ecuación, de tal manera que estimemos el mejor modelo posible a partir de los datos de nuestro estudio. Para ello lo primero que habría que definir es qué entendemos por "mejor modelo". Si buscamos un modelo predictivo será aquél que nos proporcione predicciones más fiables, más acertadas; mientras que si nuestro objetivo es construir un modelo explicativo, buscaremos que las estimaciones de los coeficientes de la ecuación sean precisas, ya que a partir de ellas vamos a efectuar nuestras deducciones. Cumplidos esos objetivos es claro que otra característica deseable de nuestro modelo es que sea lo más sencillo posible.

Estimación de parámetros Estimación: El proceso de estimación en inferencia estadística puede ser descrito como el proceso de estimar un parámetro a partir del estadístico correspondiente, tal como usar una media muestral (Estadístico) para estimar la media poblacional, (parámetro). La estimación de parámetros puede ser: •

Puntual o Por Punto.



Por Intervalo.

Estimación Puntual: Objetivo. Dar un valor numérico que aproxime en forma muy cercana al parámetro poblacional. La estimación puntual de un parámetro de una población es un solo valor numérico de un estadístico que corresponde a este parámetro. Un estadístico utilizado para aproximar a un parámetro de una población se denomina Estimador del Parámetro. El número obtenido cuando se evalúa el estimador para una muestra particular, se denomina Estimación del Parámetro. Sea X una variable aleatoria de interés con distribución de probabilidad f (x). θ : Parámetro Desconocido.

: f (X1, X2, X3,…,Xn)

m. a. de tamaño n.

Estadístico.

Estimador.

Por ejemplo:

es un posible estimador de µ.

µ=θ

: : Estimador puntual de µ, porque al evaluarlo para una muestra es concreto, da un solo numero o punto.

: Estimación puntual de µ. Otros Parámetros de Interés:

P: Proporción Poblacional (proporción binomial). “Proporción de elementos con cierta característica de interés en un universo dado.”

= Estimador puntual de P.

X: Nº de elementos en la muestra con característica de interés.

σ2 : Varianza Poblacional.

Estadístico: Estimador puntual de σ2. σ : Desviación estándar de una población.

Estimador puntual de σ.

µ1 - µ2: Diferencia de dos medias poblacionales.

Estimador puntual de µ1 - µ2.

Diferencia entre las medias de dos muestras aleatorias independientes. P1 – P2

Estimador puntual para P1 – P2 Diferencia entre dos proporciones muéstrales, basadas en dos muestras aleatorias independientes.

Razón de dos varianzas poblacionales.

Estimador puntual de Sea X una variable aleatoria con media µ desconocida y varianza σ2. X1, X2,…, Xn

m. a. de tamaño n.

θ=µ

= f (X1, X2,…, Xn)

Estimadores posibles para µ

¿Cuál es el mejor? Antes de responder a esta pregunta debemos decidir que propiedades son deseables en un estimador puntual. Obviamente queremos que el estimador produzca estimaciones que puedan esperarse sean próximas en valor al parámetro que se esta estimando.

Prueba de hipótesis en la regresión lineal simple La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple. "Y es una función de X"

Y = f(X) Como Y depende de X, Y es la variable dependiente, y X es la variable independiente. En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente. En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así: Y = f (X) "Y está regresando por X" La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO ó VARIABLE DE RESPUESTA. La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y. ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación: Y=a+bX+e Donde: a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y. b es el coeficiente de regresión poblacional (pendiente de la línea recta) e es el error SUPOSICIONES DE LA REGRESIÓN LINEAL 1. Los valores de la variable independiente X son fijos, medidos sin error. 2. La variable Y es aleatoria

3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y) 4. Las variancias de las subpoblaciones Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y están sobre la recta. 6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes. ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. Elmétodo de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es

Que se interpreta como: a es el estimador de a Es el valor estimado de la variable Y cuando la variable X = 0 b es el estimador de b , es el coeficiente de regresión Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión). Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

Medición de la adecuación del modelo de regresión lineal simple.Análisis residual. Prueba determinación. Correlación.

de

falta

de

ajuste.

Coeficiente

de

Análisis de Residuales Un residual i r es la diferencia entre el valor observado Yi y el valor estimado por la linea de regresión Yi ˆ , es decir, i Yi Yi r=−ˆ . El residual puede ser considerado como el error aleatorio i e observado. También se acostumbra usar el Residual estandarizado, el cual se obtiene al dividir elresidual entre la desviación estándar del residual (siempre que hagamos análisis de residuales debemos utilizar Residual estandarizado), y el Residual estudentizado "deleted", que es similar al anterior pero eliminando de los cálculos la observación cuyo residual se desea hallar.

El análisis de residuales permite cotejar si las suposiciones del modelo de regresi ón se cumplen. Se puede detectar: a) Si efectivamente la relación entre las variables X e Y es lineal. b) Si hay normalidad de los errores. c) Si hay valores anormales en la distribución de errores (Si se usa Residual estandarizado, cualquier observación con un residual mayor de 2 o menor de 2 es considerado “ outlier”) d) Si hay varianza constante (propiedad de Homocedasticidad) y e) Si hay independencia de los errores. El análisis de residuales se puede llevar a cabo gráficamente o en forma analítica. En este texto sólo consideraremos un análisis gráfico, las cuales pueden obtenerse de dos maneras. La primera manera es escogiendo el botón Graphs de la ventana de diálogo Regression.

Prueba de falta de ajuste FALTA DE AJUSTE La falta de ajuste o prueba de la ``bondad de ajuste'' del modelo de regresión se expresa mediante las siguientes tres hipótesis equivalentes: (1 )

EL MODELO DE REGRESIÓN SIMPLE ES CORRECTO EL MODELO DE REGRESIÓN SIMPLE NO ES CORRECTO

(2 )

NO HAY FALTA DE AJUSTE HAY FALTA DE AJUSTE

(3 )

¿ Qué se requiere para la aplicaci'ón de esta prueba? Los siguientes supuestos sobre la variable error se han cumplido: La normalidad, independencia y homogeneidad de varianza Se tiene duda de: el ajuste a una linea recta Existan: varias observaciones de la variable repuesta

para al menos un valor de

.

¿ Cúal es la estadística de prueba para probar la hipótesis de falta de ajuste? la estadística de prueba es

que sigue una distribución y

con

grados de libertad en el numerador

grados de libertad en el denominador

Suma cuadrados

de

del error puro

Suma cuadrados

de la falta de ajuste

Donde: media de las respuestas en el valor respuesta observada

de

de

valor estimado de la respuesta para el valor

de

en

el

valor , Si el valor calculado de la estadística

es:

1. Significante . Esto indica que el modelo aparentemente es inadecuado. Entonces se debe intentar descubrir donde y como ocurre esta. 2. No significante . Esto indica que aparentemente no existe razón para dudar de la adecuación del modelo bajo esta prueba y tanto los cuadrados medios de la falta de juste y el error puro pueden tomarse como estimados de

.

La falta de ajuste suele utilizarse en diseño experimental cuando los niveles de factor de estudio son cuantitativos. Nota: Idealmente podemos encontrar que la prueba

para falta de ajuste es no

significativa, y la hipótesis de significancia de la regresión es rechazada. Desafortunadamente esto no garantiza que el modelo será satisfactorio como ecuación de predicción. Haga click en los números para conocer sobre:

Modelo de regresión múltiple.En este capítulo se estudiaran los modelos de regresión múltiple. Estos son similares a los modelos de regresión lineal simple, excepto que contienen más términos y pueden servir relaciones más complejas que una línea recta.incluyen más de un término. Un modelo de regresión múltiple se expresa demanera general como

donde es la

observación de la variable aleatoria dependiente. son las

observaciones de las variables fíjas independientes.

son los llamados coeficientes de regresión. es la variable aleatoria error que se supone que tiene que los errores son no correlacionados. Algunos otro modelos como

y

y

Estos modelo se pueden expresar de la forma general de un modelo de de regresión multiple dada en modelo

haciendo

. El modelo y

se puede expresar como el

. De igual manera el el modelo

,

haciendo Ejemplo (tomado de Draper 1998. ejer D pag. 171) Seis ejecuciones fueron hechas a varias condiciones de saturación transisomers

. La respuesta, SCI, es listada abajo como

correspondientes niveles de

66. 0

38

47. 5

43. 0

41

21. 3

36. 0

34

36. 5

23. 0

35

18. 0

22. 0

31

29. 5

14. 0

34

14. 2

12. 0

29

21. 0

7.6

32

10. 0

y

y

para los

.

El gráfico para los datos del ejemplo es dado en la figura 1. Sólo los modelos de regresión múltiple con dos variables independientes pueden ser graficados.

Figura 1. Diagrama de dispersión para los datos del ejemplo

Prueba de hipótesis de regresión lineal multiple Los ejemplos ejemplos 1 y 2 pueden ser probados con la estadística de prueba

dada por :

específicamente par el ejemplo

y para el ejemplo

sería

sería

Las hipótesis de los ejemplos

y

deben ser probados de otra manera. A

continuación se presenta la manera general de probar una Hipótesis Lineal General. Prueba de la Hipótesis Lineal General Suponga que el modelo bajo consideración es asumido correcto, es:

donde

es

estimar a

,

es

y

es

. Si

es no singular se puede

como

La suma de cuadrados residual del modelo completo está dada por

Esta suma tiene

grados de libertad. La hipótesis lineal a ser probada es

Se tiene que representa ecuaciones, de las cuales solamente linealmente independientes. para poceder con la prueba haga lo siguiente: Paso 1. Exprese matricialmente la hipótesis para determinar la matriz funciones lineales de los parámetros Paso 2. Con las

son

y las

ecuaciones linealmente independientes, obtenga la solución de

los parámetros en términos de los otros

parámetros.

Paso 3. Reemplace esas soluciones en el modelo original obtendrá el modelo reducido

y así

donde: es un vector de

parámetros a ser estimados, y es de

orden es la nueva matriz diseño de orden

.

Paso 4. Estime el vector de parámetros del modelo reducido, expresión

mediante la

Paso 5. Si es no singular, obtenga la suma de cuadrados residuales del modelo reducido como

con

grados de libertad.

Observe que: La porque en reducido se tienen menos parámetros que en el modelo completo

el

modelo

Paso 6. Obtenga la suma de cuadrados de la hipótesis nula. La diferencia entre las sumas de cuadrados del modelo reducido y el modelo completo, determinan la llamada Suma de cuadrados debida a la hipótesis nula o

Esto es,

la cual tiene como grados de libertad: grados de libertad. Paso 7. Obtenga la estadística de prueba. La estadística de prueba para probar la hipótesis

es dada por

la cual se distribuye . Si los errores son normalmente distribuidos e independientes, esta es una prueba exacta. Forma General de $H_{0} :C \beta=0$ De manera general estadística es

Luego

la

Prueba

para

Estadística

probar

por

vs.

la

prueba

, tiene una distribución

PRUEBA DE LA SIGNIFICANCIA DE LA REGRESION La prueba de significancia de la regresión es una de la pruebas de hipótesis utilizadas para medir la bondad de ajuste del modelo. Esta prueba determina si existe una relación lineal entre la variable respuesta regresoras

y alguna de las variables

. La hipótesis estadística adecuada es

Al rechazar la hipótesis nula se concluye que al menos una de las variables regresoras contribuye significativamente al modelo. La prueba estadística utilizada es

La cual asumiendo que la hipótesis nula es cierta se distribuye de libertad en el numerador y

con

grados

grados de libertad en el denominador.

Se rechaza la hipótesis nula si el valor calculado de la estadística de prueba es mayor que el valor teórico de la distribución

.

Ejempl o La hipótesis es dada por

La prueba estadística utilizada es

Luego como el valor P=0,00 entonces se rechaza la hipótesis nula lo cual significa que al menos una de las variables regresoras significativamente al modelo. PRUEBA DE REGRESION

LA

SIGNIFICANCIA

PARA

CADA

o

contribuye

COEFICENTE

DE

LA

La prueba individual de un coeficiente de regresión puede se útil para determinar si: Se incluyen otra variable regresora Se elimina una una o más variables regresoras presentes en el modelo La adición de variables regresoras en el modelo implica: La SC incremente La SC

disminuya

pero se debe decidir si el incremento en la SC es tan significativo que justifique la inclusión de otra variable regresora en el modelo, ya que la inclusión de variables que no deberían ser incluidas puede aumentar la SC

.

La hipótesis para probar la significancia dede cualquier coeficiente de regresión es

Si la hipótesis nula no es rechazada, es un indicador de que la variable regresora puede ser eliminada del modelo. La prueba estadística para la hipótesis es

donde

es el elemento de la diagonal de la matriz

a . La prueba estadística se distribuye error. La hipótesis nula se rechaza si:

correspondiente

con grados del libertad del

Importa nte 1. Esta prueba es una prueba marginal, es decir se está determinando la contribución de dado que las otras variables regresoras estan presentes en el modelo. Por ello, no se debe apresurar en eliminar una variable regresora cuando la prueba no sea significativa. 2. También se puede determinar la contribución en la SC

, de la variable

regresora dado que las otras variables regresoras están presentes en el modelo, por medio del método de Suma de Cuadrados Extra (link:cap5\leccion8\suma-extra.tex) Ejemp lo

Los programas estadísticos producen una tabla para la prueba de cada coeficiente Estima Error do estándar CONSTAN -94,552 9,96343 TE

T

Valor p

0,000 9,4899 2 1

X1

2,8015 0,300978 5

9,3081 0,000 6 2

X2

1,0726 11,505 0,000 0,0932349 8 2 1

Los errores estándar de los parámetros son las raíces de los elementos de la diagonal de la matriz de varianza-covarianza del vector de parámetros estimados

hallada en ejemplo de la

Lección anterior La primera fila prueba la hipótesis

de la cual se concluye que el intercepto es significativamente diferente de cero. La segunda fila prueba la hipótesis

de la cual se concluye que el coeficiente de regresión diferente de cero y por tanto la variable modelo. La tercera fila prueba la hipótesis

es significativamente

contribuye significativamente al

de la cual se concluye que el coeficiente de regresión diferente de cero y por tanto la variable modelo.

es significativamente

contribuye significativamente al

EL COEFICIENTE DE DETERMINACION O ESTADISTICA R2 El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:

algunas otras formas de presentar el coeficiente de determinación son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostración de

.

El coeficiente de determinación múltiple, es una generalización del valor de definida en la lección de Rcuadrado definida para una línea recta. Utilid ad Se utiliza para medir la reducción en la variabilidad total de inclusión de las variables regresoras

debido a la

. Un valor grande de

no

necesariamente implica que el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de

, ya sea que las variables contribuyan o no al

modelo. Es posible que modelos con valor de predicción o estimación.

grande sean malos en la

OBSERVACIO NES 1.

mide la correlación entre

y

y

2. Si existe error puro, es imposible que manera en que podría dar datos en el cual 3. Si

,

alcance el valor de

. La única

, sería que se tuviera un perfecto ajuste de los

, lo cual es un improbable evento en la práctica, esto

modelo 4.

.

es

si

ha sido ajustado), entonces

(suponiendo

que

el

.

es

una medida de la utilidad de los términos en el modelo diferentes de La estadística 2 R ajustada Como alternativa al uso de como medida de la idoneidad de un modelo, es común que se informe el coeficiente de determinación múltiple ajustado, denotado por

. esta dado por

Se observa que muestra

toma en cuenta ("ajusta por") tanto el tamaño de la

como el número de parámetros del modelo.

siempre es menor

que y lo que es más importante , no puede "forzarce" hacia con sólo agregar más y más variables independientes al modelo. Por ello, algunos analistas prefieren el valor más conservador de medida de la idoneidad de un modelo.

cuando deben elegir una

Tenga cuenta que:

en

La estadística y son medidas descriptivas, y no debemos depender únicamente de sus valores para decidir si un modelo es útil o no para predir la variable respuesta Ejemp lo Para los datos del ejemplo se tiene que

Lo cual significa que el modelo. Ahora el valor de

de la variabilidad total es explicada por el es

RESIDUALES Y SUS PROPIEDADES Definici ón Si el modelo postulado es

y es no singular, el vector de residuales matricial como :

se puede escribir en forma

Donde la matriz es simétrica e idempotente

es

llamada

matriz

"sombrero",

la

cual

Propieda des Algunas propiedades del vector de residuales son: 1. El valor esperado del vector de residuales es el vector nulo,

.

Demostración: Utilizando el resultado obtenido en del vector de residuales como

reemplazando el valor de

podemos determinar el valor esperado

se tiene

2. La matriz de varianza-covarianza de

es definida como

Demostración: Como el vector

como

entonces

,y

, se sigue que

y la matriz de varianza-covarianza de

es definida como

y utilizando la equivalencia para el vector de residuales dada en

y como

y como

cuando

, tenemos

, entonces

es simétrica es idempotente entonces

Otra manera de obtener el anterior resultado es utilizando la equivalencia dada en

y utilizando

Ahora

se tiene

si

como

es simétrica es idempotente, entonces

Forma explicita (esconder)

3. El vector

se distribuye normal.

De la equivalencia obtenida en

,entonces el vector de residuales

es función del vector aleatorio error el cual se distribuye normal, por tanto el vector de residuales también se distribuirá normal.

Otra manera es observar que el supuesto dado al modelo sobre la normalidad de las variables aleatorias error

, implica la normalidad de las

variables aleatorias del vector

y como el vector de residuales es función

entonces se tiene que el vector

Luego el vector de residuales varianza covarianza

es normal.

se distribuye normal con media cero y matriz de . Esto es,

4. Los residuales son correlacionados De la expresión dada en , y su forma explícita, se observa que si existe covarianza entre dos residuales diferentes, y así la correlación entre el residual

Tenga cuenta que:

y

es dada por

en

Los residuales siempre están correlacionados, aunque se asuma el supuesto de no correlación de las variables aleatorias

.

Bibliografia.http://www.vitutor.com/estadistica/inferencia/estimaciones.html http://www.monografias.com/trabajos27/regresion-simple/regresion-simple.shtml http://math.uprag.edu/residuales1.pdf http://www.virtual.unal.edu.co/cursos/ciencias/2007315/lecciones_html/capitulo_ 6/leccion2/distrib-residuales.html