Trabajo de Estadistica (1)

Universidad De Oriente Núcleo De Anzoátegui Escuela De Ingeniería Y Ciencias Aplicadas Departamento De Electricidad Secc

Views 70 Downloads 1 File size 505KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Universidad De Oriente Núcleo De Anzoátegui Escuela De Ingeniería Y Ciencias Aplicadas Departamento De Electricidad Sección 20

Estadístic as Alumnos: Arias Adriana C.I 23702387 Montoya Arnold C.I 22844799

Barcelona, Marzo 2017 Distribución de Frecuencia: Una distribución de frecuencias es una serie de datos agrupados en categorías, en las cuales se muestra el número de observaciones que contiene cada categoría. Para establecer la distribución de frecuencia son necesarios 10 pasos los cuales son: 1-Rango. 2-Número tentativo de los intervalos de clase. 3-Tamaño de los intervalos de clase (TIC). 4-Límite Inferior. 5-Límite Superior. 6-Límite Superior Real. 7-Marca de clase (X). 8-Clasificación de los datos y conteo de frecuencias. 9-Distribución de frecuencia relativa. 10-Distribuciones de frecuencia acumulada. Para adentrarnos más a los pasos ejecutaremos un ejemplo en el que los siguientes datos son el número de meses de duración de una muestra de 40 baterías para coche.

1. Rango Rango = Dato mayor – Dato menor = 47 – 16 = 31 2. Número tentativo de los intervalos de clase El número de intervalos (nic) puede ser como mínimo 5 y como máximo 15 de acuerdo a la fórmula 2 nic

Como se tienen 40 datos el NIC sería de 6. 3. Tamaño de los Intervalos de Clase (TIC).

Para facilitar la clasificación de los datos, el Tic se redondea a una cifra más cerrada. 4. Límite inferior Usualmente, el límite inferior del primer intervalo de clase es un múltiplo del tamaño del intervalo (tic) igual o menor que el dato más chico. Si el tic es más grande que el dato menor, el primer límite inferior es cero. En este problema el tic es de 5, entonces el primer límite inferior será el mayor múltiplo de 5 pero inferior o igual al dato menor, el 15.

El límite inferior de los siguientes intervalos se calcula sumando el tic al límite inferior del intervalo anterior hasta llegar a un número no mayor al dato más grande. 5. Límite superior El límite suprior se calcula con la siguiente fórmula LS = LI + TIC – 1

6. Límite Superior Real Los límites anteriores son los límites nominales pero no son los reales. Los límites reales son el punto medio entre el límite superior y el límite inferior del siguiente intervalo.

7. Marca de clase (x) La marca de clase, también llamada punto medio del intervalo es la mitad de la distancia entre los límites inferior y superior de cada intervalo. La marca de clase es el valor más representativo de los valores del intervalo.

8. Clasificación de los datos y conteo de frecuencias Clasificar las observaciones en los intervalos. La práctica usual es marcar con una línea ( / ) que representa una observación. En el ejemplo la observación 22 se clasifica en el intervalo 20 – 24 porque se encuentra entre el 20 y el 24 inclusive. Una vez clasificados todos los datos se cuentan las líneas de cada intervalo y el resultado es la frecuencia de cada intervalo de clase.

9. Distribución de frecuencia relativa Se pueden convertir las frecuencias de clase en frecuencias relativas de clase para mostrar los porcentajes de observaciones en cada intervalo de clase. Para convertir una distribución de frecuencia en una distribución de frecuencia relativa cada una de las frecuencias de clase se dividen entre el número total de observaciones.

10. Distribuciones de frecuencia acumulada

Las distribuciones de frecuencia acumulada se usan cuando queremos determinar cuántas observaciones, o que porcentaje de observaciones están debajo de cierto valor. La distribución de frecuencia acumulada de cierto intervalo se calcula sumando las frecuencias de clase desde el primer intervalo hasta la frecuencia de clase del intervalo de interés. Si queremos la frecuencia acumulada del intervalo 25 – 29, sumamos las frecuencias de clase 2 + 1 + 4 = 7. La distribución de frecuencia relativa acumulada de cierto intervalo se calcula dividiendo la frecuencia acumulada entre el número total de observaciones.

a) Variables Discretas Las variables discretas pueden asumir solo ciertos valores, y hay usualmente huecos entre los valores (número de cuartos en una casa, número de carros en el estacionamiento del claustro, número de estudiantes en la clase de estadísticas). Note que cada una de estas variables puede valer un número entero (p.ej. 1, 2,3, etc.) pero no puede valer números fraccionarios (p.ej. 1.5). Típicamente, las variables discretas resultan de un conteo.

b) Variables Continuas Las variables continuas pueden asumir todos los valores dentro de un rango específico (p.ej. presión del aire en una llanta, el tiempo que se toma en viajar de Chihuahua a Juárez, el peso de los jugadores de fútbol americano de las águilas de la U.A.CH., etc.).Típicamente, las variables continuas resultan de medir algo, y lógicamente dependen de la exactitud del instrumento de medición. Ejemplos: Número de águilas en 6 lanzamientos de una moneda Discreta Tiempo para resolver un examen (Continua) Altura del mercurio en un barómetro (Discreta) Número de dientes de un niño (Discreta) Máxima temperatura ambiental durante el día (Continua) Número de juegos ganados por un equipo de basquetbol (Continua) Número de hijos de una familia (Continua) Litros de gasolina vendidos el martes anterior en una gasolinera (Continua) c) Población y Muestra Población El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. "Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una población es un conjunto de elementos que presentan una característica común". Cadenas (1974).

Muestra "Se llama muestra a una parte de la población a estudiar que sirve para representarla". Murria R. Spiegel (1991). "Una muestra es una colección de algunos elementos de la población, pero no de todos". Levin & Rubin (1996). "Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia", Cadenas (1974). Ejemplo: El estudio realizado a 50 miembros del Colegio de Ingenieros del Estado Cojedes. El estudio de muestras es más sencillo que el estudio de la población completa; cuesta menos y lleva menos tiempo. Por último se aprobado que el examen de una población entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población. Los expertos en estadística recogen datos de una muestra. Utilizan esta información para hacer referencias sobre la población que está representada por la muestra. En consecuencia muestra y población son conceptos relativos. Una población es un todo y una muestra es una fracción o segmento de ese todo. d) Media y Varianza (Datos Agrupados) Media Este parámetro lo usamos con tanta cotidianidad que nos será muy familiar, aunque también aprenderemos algunas propiedades y mostraremos un teorema sumamente importante. Si tenemos el siguiente conjunto de datos y deseamos encontrar un valor que represente a todo el conjunto, seguramente lo primero que vendrá a nuestra mente es sumar todos los valores y dividirlos entre el número total de datos. 10, 9, 8, 10, 9, 9, 10, 9, 10, 9 Es decir, un valor representativo del conjunto de valores es

Este valor, promedio aritmético, es conocido como la media y es una de las medidas de tendencia central ya que representa un valor con respecto a toda la información. Para denotar la media de una población utilizaremos la media de una muestra.

cuando se trate de

Generalizando sobre el ejemplo podemos decir que la media de una muestra es igual a:

En ocasiones, en algunas áreas es común denotar la media por (x) el

lugar.

Para un conjunto de datos la media aritmética nos muestra una geometría interesante como lo podemos observar en el siguiente teorema: Teorema: La suma de las diferencias de los datos y la media nos representa un promedio simétrico de la información, es decir, se cumple la siguiente relación:

La demostración es la siguiente:

Valores entonces

Empleando la definición de la media

Tendremos

Es además obvio pensar que también la relación cumple.

se

Esta propiedad limita el hecho de poder obtener promedio sobre las desviaciones por lo que las construcciones de los términos deberá de hacer a través de otro tipo de análisis. Sin perder de vista alguna relación sobre algún promedio de las desviaciones podemos considerar dos posibilidades, una primera posibilidad es considerar el promedio de la suma de los cuadrados de las desviaciones, una segunda posibilidad es considerar el promedio de la suma del valor absoluto de las desviaciones. A la primera la llamaremos varianza y a la segunda desviación absoluta media. Las cuáles serán consideradas como mediadas de dispersión, debidas precisamente a su naturaleza y que serán a bordadas en la sección de medidas de dispersión.

e) Histograma de Frecuencia En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos. En términos matemáticos, puede ser definida como una función inyectiva (o mapeo) que acumula (cuenta) las observaciones que pertenecen a cada subintervalo de una partición. El histograma, como es tradicionalmente entendido, no es más que la representación gráfica de dicha función. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-

numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores. Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

Tipos de Histogramas * Diagramas de barras simples Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa. * Diagramas de barras compuesta Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad. * Diagramas de barras agrupadas Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades. * Ojiva porcentual Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias.

En los gráficos las barras se encuentran juntas y en la tabla los números poseen en el primer miembro un corchete y en el segundo un paréntesis, por ejemplo: Construcción de un Histograma * Paso 1: Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor. * Paso 2: Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de artículos) es mayor que cinco, por lo que se seleccionan seis clases. * Paso 3: Establecer la longitud de clase: es igual al rango dividido por el número de clases. * Paso 4: Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relación al resultado del PASO 2 en intervalos iguales. * Paso 5: Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.

f) Polígono de Frecuencia Un polígono de frecuencia es un gráfico que se realiza a través de la unión de los puntos más altos de las columnas en un histograma de frecuencia (que utiliza columnas verticales para mostrar las frecuencias).

Los polígonos de frecuencia para datos agrupados, por su parte, se construyen a partir de la marca de clase que coincide con el punto medio de cada columna del histograma. Cuando se representan las frecuencias acumuladas de una tabla de datos agrupados, se obtiene un histograma de frecuencias acumuladas, que permite diagramar su correspondiente polígono. Por ejemplo: un polígono de frecuencia permite reflejar las temperaturas máximas promedio de un país en un periodo de tiempo. En el eje X (horizontal), pueden señalarse los meses del año (enero, febrero, marzo, abril, etc.). En el eje Y (vertical), se indican las temperaturas máximas promedio de cada mes (24º, 25º, 21º…). El polígono de frecuencia se crea al unir, con un segmento, todas las temperaturas máximas promedio. Los polígonos de frecuencia se suelen utilizar cuando se desea mostrar más de una distribución o la clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta en un mismo gráfico.

El punto con mayor altura de un polígono de frecuencia representa la mayor frecuencia, mientras que el área bajo la curva incluye la totalidad de los datos existentes. Cabe recordar que la frecuencia es la repetición menor o mayor de un suceso, o la cantidad de veces que un proceso periódico se repite por unidad de tiempo.

Teoría de las probabilidades Se ocupa de asignar un cierto número a cada posible resultado que pueda ocurrir en un experimento aleatorio, con el fin de cuantificar dichos resultados y saber si un suceso es más probable que otro. Suceso Es cada uno de los resultados posibles de una experiencia aleatoria. Espacio muestra Es el conjunto de todos los posibles resultados de una experiencia aleatoria, lo representaremos por E (o bien por la letra griega Ω). Tipos de sucesos * Suceso elemental: es cada uno de los elementos que forman parte del espacio muestra.

* Suceso aleatorio: es cualquier subconjunto del espacio muestra. * Suceso seguro: está formado por todos los posibles resultados (es decir, por el espacio muestra). * Suceso imposible (Φ): es el que no tiene ningún elemento. Por ejemplo al tirar un dado obtener una puntuación igual a 7. * Sucesos compatibles: Dos sucesos, A y B, son compatibles cuando tienen algún suceso elemental común. * Sucesos incompatibles: Dos sucesos, A y B, son incompatibles cuando no tienen ningún elemento en común. * Sucesos independientes: Dos sucesos, A y B, son independientes cuando la probabilidad de que suceda A no se ve afectada porque haya sucedido o no B. * Sucesos dependientes: Dos sucesos, A y B, son dependientes cuando la probabilidad de que suceda A se ve afectada porque haya sucedido o no B. * Suceso contrario: El suceso contrario a A es otro suceso que se realiza cuando no se realiza A., Se denota por �.̅ Unión de sucesos La unión de sucesos, A A y de B.

B, es el suceso formado por todos los elementos de

Intersección de sucesos La intersección de sucesos, A B, es el suceso formado por todos los elementos que son, a la vez, de A y B. Diferencia de sucesos La diferencia de sucesos, A − B, es el suceso formado por todos los elementos de A que no son de B.

Sucesos contrarios El suceso

= E - A se llama suceso contrario o complementario de A.

Axiomas de la probabilidad:

Propiedades de la probabilidad

Ley de Laplace.

Probabilidad de la unión de sucesos incompatibles

Probabilidad de la unión de sucesos compatibles

Probabilidad condicionada

Probabilidad de la intersección de sucesos independientes

Probabilidad de la intersección de sucesos dependientes

Teorema de la probabilidad total Si A 1, A 2,... , A n son sucesos incompatibles 2 a 2, cuya unión es el espacio muestral (A 1 A 2 ... A n = E) y B es otro suceso, resulta que: p(B) = p(A1) · p(B/A1) + p(A2) · p(B/A2 ) + ... + p(An) · p(B/An ) Teorema de Bayes Si A 1, A 2,..., A n son sucesos incompatibles 2 a 2, cuya unión es el espacio muestral (A 1 A 2 ... A n = E) y B es otro suceso, resulta que: p(B) = p(A1) · p(B/A1) + p(A2) · p(B/A2 ) + ... + p(An) · p(B/An ) Teorema de Bayes Si A 1, A 2,..., A n son sucesos incompatibles 2 a 2, cuya unión es el espacio muestral (A 1 A 2 ... A n = E) y B es otro suceso, resulta que:

b. Variables Aleatorias Continua Una variable aleatoria continua es aquella que puede tomar todos los valores posibles dentro de un cierto intervalo de la recta real. Ejemplo: La altura de los alumnos de una clase, las horas de duración de una pila. c. La Distribución Normal La distribución normal o de Gauss es sin duda la más importante de cuantas hay, tanto por razones prácticas como teóricas. En la sección sobre análisis

normal se verán algunas de sus aplicaciones. Formalmente, una variable aleatoria o población X es normal de media m y varianza s2, lo que se expresa como N (m, s), si su función de densidad es

Los valores que toma la función de probabilidad acumulada,

Se pueden calcular a continuación, sin más que introducir los parámetros de media (m) y desviación típica (s), junto con el argumento x. Como ya se ha indicado, la media y la varianza de la variable aleatoria normal X son E[X]=m y V[X]=s2, respectivamente.

Un 50% de los valores están a la derecha de este valor central y otro 50% a la izquierda. Esta distribución viene definida por dos parámetros N (m, s 2), siendo m el valor medio de la distribución y es precisamente donde se sitúa el centro de la curva y s 2: es la varianza. Indica si los valores están más o menos alejados del valor central: si la varianza es baja los valores están próximos a la media; si es alta, entonces los valores están muy dispersos. Cuando la media de la distribución es 0 y la varianza es 1se denomina normal tipificada, y su ventaja reside en que hay tablas donde se recoge la probabilidad acumulada para cada punto de la curva de esta distribución. Además, toda distribución normal se puede transformar en una normal tipificada aplicando

Los parámetros de esta función son E(X)=m y V(X)=s2 En la figura siguiente se muestran distribuciones gaussianas de diferente varianza

Ejercicio: La renta media de los habitantes de un país es de 4 millones de pesos/año, con una varianza de 1,5. Se supone que se distribuye según una distribución Normal. Calcular: a) Porcentaje de la población con una renta inferior a 3 millones de pesos. b) Renta a partir de la cual se sitúa el 10% de la población con mayores ingresos. c) Ingresos mínimo y máximo que engloba al 60% de la población con renta media. a) Porcentaje de la población con una renta inferior a 3 millones de pesos.

El valor de z para 3 millones de pesos es de -0,816. P(X La distribución de bacterias en una placa de microscopio en un milímetro cuadrado. > La distribución de accidentes por semana en una carretera, etc. Propiedades de la distribución de Poisson µ =E(X) = λ σ2=λ Ejercicio: Al inspeccionar la aplicación de estaño por un proceso electrolítico continuo se descubren en promedio 0.8 imperfecciones por minuto. Calcular la probabilidad de descubrir: a) Una imperfección en un minuto. b) 4 imperfecciones en 5 minutos. c) Calcular la media o valor esperado y la varianza correspondiente. Se trata de una distribución de Poisson, puesto que se cumple el proceso de Bernoulli por lo siguiente: Pueden efectuarse un número infinito de observaciones en el intervalo pedido, puesto que dicho intervalo puede dividirse en fracciones de tiempo o de espacio tan pequeños como se quiera y cada vez que transcurre una fracción de éstas, se puede hacer una observación. i) En cada pequeña fracción de tiempo analizada, existe imperfección o no existe, es decir solo hay dos resultados posibles en cada ensayo, éxito y fracaso, opuestos entre sí. ii) Los ensayos son independientes, puesto que si en una primera observación hubo imperfección, no quiere decir que en las siguientes observaciones tenga que haberlas. iii) La probabilidad de imperfección es constante de ensayo a ensayo. Las soluciones al problema son las siguientes: a) Aquí el promedio de imperfecciones es por minuto y la probabilidad pedida se refiere a una imperfección en idéntico intervalo de un minuto, por lo tanto podemos aplicar directamente la fórmula 5.7 de la presente página, así: P (1, 0.8) = (0.81*e-0.8) /1!=0.3595

b) Aquí el promedio de imperfecciones es de 1 por un minuto y la probabilidad pedida se refiere a un intervalo de 5 minutos; por lo cual es necesario calcular el valor del promedio “λ”, acorde con el intervalo solicitado de 5 minutos. Así pues que el nuevo valor de λ es: λ = 0.8 * 5 = 4 imperfecciones por cada 5 minutos. La probabilidad pedida según la fórmula 5.7 será: P(4, 4) = (44*e-4) /4!=0.1954 f. Distribución Chi2 Cuadrado de Pearson Si (X1, X2,..., Xn) son n variables aleatorias normales independientes de media 0 y varianza 1, la variable definida como

Se dice que tiene una distribución CHI con n grados de libertad. Su función de densidad es

Siendo la función gamma de Euler, con P>0. La función de distribución viene dada por

La media de esta distribución es E(X)=n y su varianza V(X)=2n. Esta distribución es básica en un determinado número de pruebas no paramétricas. Si consideramos una variable aleatoria Z~N (0,1), la variable aleatoria X=Z2 se distribuye según una ley de probabilidad distribución CHI con un grado de libertad Si tenemos n variable aleatoria independientes Zi~N(0,1), la suma de sus cuadrados respectivos es una distribución CHI con n grados de libertad,

La media y varianza de esta variable son respectivamente, E(X)=n y V(X)=2n Ejemplo, El espesor de un semiconductor se controla mediante la variación estándar no mayor a s=0.60 mm. Para mantener controlado el proceso se toman muestras aleatoriamente de tamaño de 20 unidades, y se considera que el sistema está fuera de control cuando la probabilidad de que s2 tome valor mayor o igual al valor de la muestra observado es que es 0.01. Que se puede concluir si s=0.84mm? Solución. Existe fuera de control si con n=20 y s=0.60, excede

Entonces,

Por tanto, el sistema está fuera de control La función de distribución CHI tienen importantes variaciones de acuerdo con los grados de libertad y del tamaño muestral (menor tamaño muestral y mayor tamaño muestral respectivamente),

En consecuencia, si tenemos X1,.., Xn, variable aleatoria independientes, donde cada

La distribución Chi muestra su importancia cuando queremos determinar la variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal.

Teorema (Cochran). Sean X1,…Xn con distribución N (m, s) la variable aleatoria independiente, entonces

La función Chi-cuadrado es igual a la función normal elevada al cuadrado. Esto es, el producto de dos distribuciones de Gauss es una distribución de Chi-cuadrado. Si de una población normal, o aproximadamente normal, se extraen muestras aleatorias e independientes, y se le calcula el estadígrafo χ2 usando el valor muestral de la varianza y el poblacional con:

Esta función matemática está caracterizada por el valor del número de grados de libertad υ=n-1 (donde n es el tamaño muestral). Al igual que la t-Student, el valor total del área bajo la curva es igual a la unidad, pero la diferencia principal es que esta no es simétrica respecto al origen, sino que se extiende desde 0 hasta + ∞ porque no puede ser negativa.

A medida que los grados de libertad aumentan, la curva cambia de forma y sus valores se han tabulado en el anexo de tablas estadísticas, donde se muestran los valores del área bajo la curva, para los principales valores de χ2, a la derecha de éste. O sea, se muestra la zona de rechazo para diferentes niveles de significación y de grados de libertad, lo cuales varían entre 1 y 100. Más allá, conviene usar directamente la función de Gauss.

Para cada grado de libertad hay una tabla de valores que pueden obtenerse variando el nivel de significación, parecida a la de Gauss. El problema de calcular los valores críticos, para un nivel de confianza dado, se resuelve de dos maneras: usando computadoras para resolver los cálculos, y la otra más común, usando tablas resumidas, en forma análoga a la vista para el modelo de t-Student. La distribución de χ2 se usa principalmente para analizar dispersiones. Se compara la dispersión muestral expresada a través de sus cuadrados medios contra la dispersión poblacional cuantificada a través de la varianza (σ2). Existen otros criterios, como el de Thonks, que usa un error relativo admisible máximo, y se calcula como un cuarto del rango de los valores normales de referencia, dividido por el valor medio de dicho intervalo (referido a la magnitud clínica en cuestión y expresado en porcentajes). También se emplea a este modelo para realizar la llamada prueba de chi-cuadrado en las comparaciones de frecuencias observadas contra las frecuencias esperadas, con datos de recuento. Más adelante se desarrolla mejor este tema, lo mismo que su so para testear la independencia de dos o más factores en una Tabla de Contingencia.

En la industria farmacéutica se la usa para analizar la dispersión de los componentes de los productos terminados. Todo remedio fabricado debe cumplir estrictas normas de calidad, generalmente referidas al contenido en peso de sus principales componentes. Se usan dos límites: el superior e inferior, dentro de los cuales se los debe mantener controlados. Este rango de valores define la dispersión máxima admisible y lo ideal es que la dispersión de los productos terminados sea bastante inferior a dicho rango. Ese control de la dispersión es muy similar al explicado más arriba, para los bioquímicos. Ejemplo. Un bioquímico sospecha que su micro-centrífuga no mantiene constante su velocidad mientras trabaja, lo cual le da una variabilidad indeseada en sus determinaciones. Para controlarla, consigue un tacómetro regulado y mide cada minuto la velocidad durante 10 minutos. Los resultados fueron: una velocidad promedio en las 10 mediciones de 3098 rpm con una desviación de 100,4 rpm. Testear para un error relativo máximo del 2% o menos, si la centrífuga es estable.

La desviación estándar es smax=2%*3098=62 rpm, luego, H0: smax≤62 rpm H1: smax≥62 rpm

De la Tabla de valores críticos surge: χ20,99;9=21,666 y χ20,991;9=27,877. Por lo tanto, el bioquímico ha encontrado una muy fuerte evidencia que la velocidad del equipo oscila en forma indeseada, tal como sospechaba. Y deberá ajustarlo si desea disminuir la variabilidad de sus mediciones. Los resultados fueron muy significativos χ2 = 23,6

Ejemplo. Un farmacéutico Jefe del Dpto. Control de Calidad en una industria alimenticia, descubre que en su proceso de producción el contenido de ciclamato en su línea de mermeladas dietéticas varía en forma indeseada. Sospechando que se trata de una falla en el dosificador, decide tomar 10 muestras seguidas del mismo. Encuentra un promedio de 20 gramos con una desviación de 8 gramos. Si en su protocolo de fabricación la variación máxima permitida es del 3%, determinar si el dosificador debe ser corregido. El desviación estándar aceptable es: smáx = 3% de 20 g = 6 g. Luego: H0: smáx ≤ 6 g.: el dosificador funciona correctamente H1: smáx > 6 g.: el dosificador debe ser cambiado

De la Tabla de valores críticos surge: c20, 95; 9=16,9. Por lo tanto, el farmacéutico no ha encontrado evidencia que respalde sus sospechas. Sin embargo, el valor hallado es muy cercano al crítico, por lo que le convendría hacer más pruebas. En estadística, la distribución Chi-cuadrado, también denominada Chicuadrado de Pearson, es una distribución de probabilidad continua con un parámetro k que representa los grados de libertad de la variable aleatoria:

Donde Zi son variables de distribución normal, N(0,1) o de media cero y varianza uno. Se suele usar la denominada prueba Chi-cuadrado como test de independencia y como test de bondad de ajuste. La función de densidad Chi-cuadrado es

Γ es la función gamma. La función de distribución es

Donde γ (k, z) es la función gamma incompleta. El valor esperado y la varianza de una variable aleatoria X con distribución Chi-cuadrada son La distribución Chi-cuadrado tiene muchas aplicaciones en inferencia estadística, por ejemplo en el test Chi-cuadrado y en la estimación de varianzas. También está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución tStudent, y participa en todos los problemas de análisis de varianza, por su papel en la distribución F-Snedecor, que es la distribución del cociente de dos variables aleatorias de distribución Chi-cuadrado e independientes. g. La Distribución de Weibull La variable aleatoria X tiene distribución de Weibull de parámetros a > 0 y b > 0 si su función de densidad es

La función de distribución, o de probabilidad acumulada, es

Igual que en el caso de la distribución exponencial, la de Weibull se suele utilizar como modelo paramétrico en problemas de análisis de supervivencia. En este ámbito, es de

interés la probabilidad de que se presente el fallo o muerte después de transcurrido un tiempo x; de ahí que se defina la función de supervivencia

Por último, la esperanza y la varianza de esta distribución son, respectivamente,

Donde siendo la función gamma de Euler con P>0. 3. Regresión y Correlación lineal (concepto y ejercicios) La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación. En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber qué es y cómo se relacionan entre si dos o más variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación. El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas. a. Regresión lineal Expresándolo en forma simple, la regresión lineal es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica un diagrama de puntos dispersos correspondientes a dos variables, cuya tendencia general es rectilínea (Figura la); relación que cabe compendiar mediante una ecuación “del mejor ajuste” de la forma: y = a + bx

En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser negativo, positivo o igual a cero) es llamado el intercepto; en tanto que el valor de “b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente de regresión. Tabla1 Serie de datos para el cálculo de una regresión (“a” y “b”) y del coeficiente de correlación (“r”)

El procedimiento para obtener valores de “a” y “b” para una serie de pares de datos de “x” y de “y” (tal como la presentada en la Figura 1 y/o en la Tabla 1) es como sigue: Paso 1 Calcule, para cada par de valores de “x” e “y”, las cantidades “x²”, “y²”, y “x.y”. Paso 2 Obtenga las sumas (∑) de estos valores para todos los pares de datos de “x” e “y”, así como las sumas del total de los valores de “x” e “y”. Los resultados de los Pasos 1 y 2 aparecerán en forma similar a la siguiente:

Paso 3 Estime la pendiente (b) por medio de la relación:

Paso 4 Estime el intercepto (a) por medio de la relación:

A partir de esos valores de “a” y de “b” obtenidos mediante las Ecuaciones, es posible trazar a lo largo de los puntos dispersos de un gráfico la línea recta mejor ajustada a los mismos, y verificar visualmente si tales puntos están bien “expresados” por la línea (Figura 1b).

Figura 1a Diagrama de puntos dispersos correspondientes a pares de valores de “x” y de “y”. Nótese que “y” tiende a decrecer con el aumento de “x”, lo cual sugiere coeficientes de regresión y de correlación negativos (basado en la Tabla 1).

Figura 1b Los mismos datos que en 1a Fig. 1a, pero ajustados en base a la regresión y = 2,16 - 0,173x, con r = 0,75 b. Correlación lineal El análisis de correlación se encuentra estrechamente vinculado con el análisis de regresión y ambos pueden ser considerados de hecho como dos aspectos de un mismo problema. La correlación entre dos variables es - otra vez puesto en los términos más simples - el grado de asociación entre las mismas. Este es expresado por un único valor llamado coeficiente de correlación (r), el cual puede tener valores que oscilan entre -1 y +1. Cuando “r” es negativo, ello significa que una variable (ya sea “x” o “y”) tiende a decrecer cuando la otra aumenta (se trata entonces de una “correlación negativa”, correspondiente a un valor negativo de “b” en el análisis de regresión). Cuando “r” es positivo, en cambio, esto significa que una variable se incrementa al hacerse mayor la otra (lo cual corresponde a un valor positivo de “b” en el análisis de regresión). Los valores de “r” pueden calcularse fácilmente en base a una serie de pares de datos de “x” e “y”, utilizando la misma tabla y montos que se indican en el Paso 2 de la sección “regresión” de este capítulo. De este modo “r” puede ser obtenido - indirectamente - a partir de la relación:

La cual proporciona el valor del “coeficiente de determinación” (r²). Entonces, lo único necesario es calcular

Es decir, tomar la raíz indicada del coeficiente de determinación a los fines de obtener el valor absoluto de “r”, y luego agregar el signo (+ o -) de acuerdo a que la correlación sea positiva o negativa (lo cual puede ser establecido visualmente a partir del gráfico, o bien en base al cálculo del valor de “b” de la correspondiente regresión y utilizando para “r” el mismo signo). Cuando se calculan los valores de “r” se querrá saber, sin embargo, hasta qué punto la correlación identificada pudiera haber surgido únicamente por casualidad. Esto puede ser establecido verificando si el valor estimado de “r”

es “significativo”, es decir si el valor absoluto de “r” es mayor o igual que un valor “crítico” de “r” indicado en las tablas estadísticas Ejercicios Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:

Calcular: 1 La recta de regresión de Y sobre X. 2 El coeficiente de correlación. 3 El peso estimado de un jugador que mide 208 cm.

Correlación positiva muy fuerte.

A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y a unidades producidas (Y), determinar la recta de regresión de Y sobre X, el coeficiente de correlación lineal e interpretarlo.

Corrección positiva muy fuerte.