Regresion Multiple

ANÁLISIS DE REGRESIÓN TRABAJO FINAL Profesor: Julio Fernando Suarez Universidad Nacional de Colombia Sede Manizales F

Views 393 Downloads 0 File size 633KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ANÁLISIS DE REGRESIÓN

TRABAJO FINAL

Profesor: Julio Fernando Suarez

Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y arquitectura Probabilidad y Estadística Manizales Febrero de 2012

INTRODUCCIÓN

La estadística en general se ha concebido por el hombre como un instrumento de análisis cuantitativo que sirva en lo fundamental para la toma de decisiones. Para ello se utilizan todas las herramientas de la estadística descriptiva e inferencial; principalmente ésta última cimentada en los principios de la probabilidad, proporcionándole al ingeniero una gran cantidad de herramientas que puede utilizar con muy buenas posibilidades de éxito. Una de estas herramientas es el análisis de regresión, el cual permite investigar la relación estadística que existe entre una variable dependiente (Y) y una o más variables independientes ( X 1 , X 2 , X 3 , ... ). Para poder realizar esta investigación, se debe postular una relación funcional entre las variables. Debido a su simplicidad analítica, en este trabajo se desarrollara regresiones lineales múltiples y regresiones no lineales (exponencial y logarítmica). Cuando se tiene múltiples variables independientes, se construyen varios modelos, a cada uno se les aplica las pruebas correspondientes para determinar si dichas variables están asociadas a ir mejorando el modelo; por ultimo, se elige la ecuación de regresión estimada que resulta estadísticamente significativa, y ésta permitirá predecir una medida en función de otras medidas. Debido a que se requieren muchos cálculos en el análisis de regresión, existen varios software que permiten hacerlo de una forma rápida y rigurosa como lo es el Excel que es el utilizado en el trabajo desarrollado. Se realizó un análisis de regresión múltiple a una serie de datos obtenidos en una entidad prestadora de servicios de salud con el fin de prevenir y disminuir los riesgos a las personas que sufren o que puedan tener una futura deficiencia en su salud.

OBJETIVOS

OBJETIVO GENERAL Realizar un análisis de regresión para encontrar la relación que existe entre el riesgo de padecer cáncer con una serie de variables.

OBJETIVOS ESPECÍFICOS  Realizar una regresión lineal, una exponencial y una logarítmica.  Realizar matrices de correlación entre variables independientes y entre dependientes e independientes.

 Realizar análisis de varianza.  Encontrar coeficientes para las variables según la regresión trabajada 

Analizar las pruebas de hipótesis según el p-value y encontrar el modelo apropiado.

TABLA DE DATOS

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Y

X1

X2

X3

X4

Riesgo 12 24 13 56 28 51 18 31 37 15 22 36 15 48 15 36 8 34 3 37

Edad 57 67 58 86 59 76 56 78 80 78 71 70 67 77 60 82 66 80 62 59

Presión 152 163 155 177 196 189 155 120 135 98 152 173 135 209 199 119 166 125 117 207

Fumador No No No Si No Si Si No Si No No Si Si Si No Si No Si No Si

Deporte Si Si Si No Si No Si Si No No Si No No No Si No No No Si Si

Al tener los datos, se procede a identificar las variables del modelo teniendo en cuentas cuales son cualitativas, cuantitativas, dependientes e independientes. Sea Y= Riesgo. Sea X1 = Edad.

Variable dependiente Variable independiente cuantitativa

Sea X2 = Presión.

Variable independiente cuantitativa

Sea X3 = Fumador.

Variable independiente cualitativa

Sea X4 = Deporte.

Variable independiente cualitativa

Para introducir variables del tipo independiente cualitativo se deben crear unas variables ficticias y que su cantidad se determina por número de niveles menos uno. Para introducir las variables condición de Fumador y la práctica de algún deporte en el modelo de regresión se definirán las siguientes variables (variables ficticias o indicadoras): Condición de Fumador: Se tienen dos niveles que son Si y No, por tal razón se tendrá un número de variables ficticias igual a 1 puesto que 2 – 1 = 1 Variable X3. Fumador X3 No 1 Si 0 Condición de Deporte: Se tienen dos niveles que son Si y No por tal razón se tendrá un número de variables ficticias igual a 1 puesto que 2 – 1 = 1 Variable X4. Deporte X4 No 0 Si 1 Tabla con todas las variables incluyendo las independientes cualitativas representadas por la variable ficticia o indicadora X3 para Fumador y X5 para Deporte.

REGRESIÓN LINEAL

Ecuación de la forma Y = 0 + 1 X1 + 2 X2 + …….P XP. En este ejercicio se realiza una regresión lineal múltiple que se analiza con todos los siguientes pasos:

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Y

X1

X2

X3

X4

Riesgo 12 24 13 56 28 51 18 31 37 15 22 36 15 48 15 36 8 34 3 37

Edad 57 67 58 86 59 76 56 78 80 78 71 70 67 77 60 82 66 80 62 59

Presion 152 163 155 177 196 189 155 120 135 98 152 173 135 209 199 119 166 125 117 207

Fumador 1 1 1 0 1 0 0 1 0 1 1 0 0 0 1 0 1 0 1 0

Deporte 1 1 1 0 1 0 1 1 0 0 1 0 0 0 1 0 0 0 1 1

COEFICIENTE DE CORRELACIÓN Ahora mediante el uso de la herramienta de Excel denominada coeficiente de correlación, se determinara si existen problemas de multicolinealidad entre las variables independientes.

A continuación se muestra el resultado obtenido: Riesgo Riesgo Edad Presión Fumador Deporte

1 0,650239601 0,388163473 -0,680448073 -0,459388801

Edad

Presión

1 -0,30895167 -0,41076745 -0,72017671

1 -0,16664607 0,14149195

Fumador

Deporte

1 0,6

1

Observando los resultados arrojados por el análisis de coeficiente de correlación de Excel, podemos concluir que SI existe problema potencial de multicolinealidad, ya que para algunas de las variables independientes como son edad y deporte, presentan un coeficiente de correlación mayor que + 0,70 o menor que -0,70 para dos variables independientes lo cual se considera el factor que determina que existe multicolinealidad entre variables (Todas las celdas que se encuentran en verde). También se puede notar que la variable que más aporta o que mayor poder explicatorio da a la variable dependiente Riesgo es la variable independiente Fumador con una correlación de -0.68, lo que se puede considerar razonable puesto que las personas que fuman se pueden considerar en una escala de mayor riesgo. ANÁLISIS DE REGRESIÓN. Todas las variables (Edad, Presión Arterial, Fumador, Deporte) Como paso siguiente se hará un análisis de regresión a todas las variables para determinara las características de los resultados y así poder obtener y determinar el modelo Aplicando regresión a todas las variables tendremos el siguiente resultado: Estadísticas de la regresión Coeficiente de correlación múltiple 0,964812723 Coeficiente de determinación R^2 0,930863591 R^2 ajustado 0,912427216 Error típico 4,395052005 Observaciones 20

ANÁLISIS DE VARIANZA

Regresión Residuos Total

Grados de libertad 4 15 19

Suma de Promedio de los cuadrados cuadrados 3901,202768 975,300692 289,7472319 19,31648213 4190,95

F 50,49059583

Valor crítico de F 1,58447E-08

Analizando los resultados se tiene que: El coeficiente de determinación R^2 indica que el 93,09% de los datos son representados, es decir, la bondad de ajuste es buena puesto que se pueden explicar el 93,09% de la suma de los cuadrados del total con la ecuación de regresión que se obtiene. Del valor de F podemos concluir que con un nivel de significancia a = 5%, o de confianza del 95%, el valor crítico de F (valor p = 1,58447E-08) con F= 50,4905, indica que existe evidencia estadística suficiente para afirmar que el modelo de regresión representa una relación lineal significativa entre las variables independientes y la variable dependiente, pues el p-value asociado con la prueba F es menor que el alfa (alfa = 0,05).

Riesgo Edad Presión Fumador Deporte

Coeficientes Error típico -109,1070836 14,76612856 1,414607312 0,158825555 0,245896779 0,034569653 -13,0492101 2,596302675 11,41365377 3,234926515

Estadístico t Probabilidad -7,389010814 2,2585E-06 8,90667318 2,24079E-07 7,113082081 3,54688E-06 -5,026074282 0,000150573 3,528257509 0,003041943

Los coeficientes son los valores que forman la ecuación del modelo que se obtiene al hacer regresión a todas las variables: Ŷ = -109,1071 + 1,4146 X1 + 0,24590 X2 - 13,0492 X3 + 11,4137 X4 Siendo, el intercepto: -109,1071; 1: 1,4146; 2:0,24590; 3: 13,0492; 1: 11,4137 La probabilidad equivale al p-value relacionado con la prueba t debe ser menor que el alfa (alfa = 5%) para que los datos sean propicios, lo que nos dice que al

mirar cada una de las variables todas rechazan la hipótesis nula, es decir todas son significativas para el modelo. Cabe resaltar que aunque la variable que mas tiene correlación con el riesgo de tener cáncer de pulmón es el consumo de cigarrillo, para el caso de este modelo resulta equivoco ya que lo que nos muestra la regresión es que al aumentar una unidad el consumo del cigarrillo decrece 13,0492% el riesgo, siendo esto falso por las estadísticas mundiales que dicen que el aumento del consumo de cigarrillo es el factor mas relevante para tener cáncer de pulmón.

REGRESIÓN EXPONENCIAL (SEMI-LOGARITMICO)

Ecuación de la forma: Y = abX1cX2 dX3…. pXp. Para realizar regresiones de este tipo lo que se hace es normalizar la ecuación y trabajarla como una regresión lineal, la normalización se hace de la siguiente manera: LOG Y

= LOG a + X1LOG b + x2 LOG c …… xp LOG p o

1

Paciente

2

p

LOG Y

X1

X2

X3

X4

Riesgo

Edad

Presión

Fumador

Deporte

1 2

1,079181246 1,380211242

57 67

152 163

1 1

1 1

3 4

1,113943352 1,748188027

58 86

155 177

1 0

1 0

5 6 7 8

1,447158031 1,707570176 1,255272505 1,491361694

59 76 56 78

196 189 155 120

1 0 0 1

1 0 1 1

9

1,568201724

80

135

0

0

10 11 12 13 14 15

1,176091259 1,342422681 1,556302501 1,176091259 1,681241237 1,176091259

78 71 70 67 77 60

98 152 173 135 209 199

1 1 0 0 0 1

0 1 0 0 0 1

16 17 18 19

1,556302501 0,903089987 1,531478917 0,477121255

82 66 80 62

119 166 125 117

0 1 0 1

0 0 0 1

20

1,568201724

59

207

0

1

COEFICIENTE DE CORRELACIÓN Ahora mediante el uso de la herramienta de Excel denominada coeficiente de correlación, se determinara si existen problemas de multicolinealidad entre las variables independientes. A continuación se muestra el resultado obtenido: Riesgo Riesgo Edad Presión Fumador Deporte

Edad

Presión

1 0,567086041 1 0,36833029 -0,30895167 1 -0,621866649 -0,41076745 -0,16664607 -0,375811883 -0,72017671 0,14149195

Fumador

1 0,6

Deporte

1

Observando los resultados arrojados por el análisis de coeficiente de correlación de Excel, podemos concluir que SI existe problema potencial de multicolinealidad, ya que para algunas de las variables independientes como son edad y deporte, presentan un coeficiente de correlación mayor que + 0,70 o menor que -0,70 para dos variables independientes lo cual se considera el factor que determina que existe multicolinealidad entre variables (Todas las celdas que se encuentran en verde). También se puede notar que la variable que más aporta o que mayor poder explicatorio da a la variable dependiente Riesgo es la variable independiente

Fumador con una correlación de -0.62, lo que se puede considerar razonable puesto que las personas que fuman se pueden considerar en una escala de mayor riesgo.

ANÁLISIS DE REGRESIÓN. Todas las variables (Edad, Presión Arterial, Fumador, Deporte) Como paso siguiente se hará un análisis de regresión a todas las variables para determinara las características de los resultados y así poder obtener y determinar el modelo Aplicando regresión a todas las variables tendremos el siguiente resultado: Estadísticas de la regresión Coeficiente de correlación múltiple

0,883301546

Coeficiente de determinación R^2 R^2 ajustado Error típico

0,780221621 0,721614053 0,163747242

Observaciones

20

ANÁLISIS DE VARIANZA

Regresión Residuos Total

Grados de libertad 4 15 19

Suma de Promedio de los cuadrados cuadrados 1,427816059 0,356954015 0,40219739 0,026813159

F 13,31264289

Valor crítico de F 7,95579E-05

1,830013449

Analizando los resultados se tiene que: El coeficiente de determinación R^2 indica que el 78,02% de los datos son representados, es decir, la bondad de ajuste es moderadamente buena puesto que se pueden explicar el 78,02% de la suma de los cuadrados del total con la ecuación de regresión que se obtiene. Del valor de F podemos concluir que con un nivel de significancia a = 5%, o de confianza del 95%, el valor crítico de F (valor p = 7,95579E-05) con F= 13,3126, indica que existe evidencia estadística suficiente para afirmar que el modelo de

regresión representa una relación lineal significativa entre las variables independientes y la variable dependiente, pues el p-value asociado con la prueba F es menor que el alfa (alfa = 0,05).

Riesgo Edad Presión Fumador

Coeficientes -1,285057769 0,0273657 0,004686587 -0,27462998

Error típico 0,550144305 0,005917392 0,001287968 0,096730915

Deporte

0,264676393

0,120524238

Estadístico t -2,335855807 4,62462159 3,638745626 -2,839112803

Probabilidad 0,03379399 0,000330459 0,002425149 0,012437349

2,19604286 0,044228243

La probabilidad equivale al p-value relacionado con la prueba t debe ser menor que el alfa (alfa = 5%) para que los datos sean propicios, lo que nos dice que al mirar cada una de las variables todas rechazan la hipótesis nula, es decir todas son significativas para el modelo. Los coeficientes son los valores que forman la ecuación del modelo que se obtiene al hacer regresión a todas las variables: Ya que este es un modelo exponencial la ecuación queda de la siguiente forma: Log Ŷ = log -1,28506 + X1 log 0,0274 + X2 log 0,00469 + X3 log - 0,27463 + X4 log 0,26468 Para hallar la ecuación de la forma general y el verdadero valor de los interceptos en una regresión exponencial se saca el antilogaritmo de cada uno de estos El antilogaritmo de un logaritmo en base 10 es: 10^(n) siendo n el valor de cada coeficiente. TRANSFORMACIÓN o = 10^(-1,28506) 1 = 10^(0,0274) 2 = 10^(0,00469) 3 = 10^(- 0,27463) 4 = 10^(0,26468) X1

Y = 0,05187 * 1,06504

real de la muestra 0,051873103 1,065039463 1,010849701 0,531336952 1,839400894

* 1,01085X2 * 0,53134X3 * 1,83940X4

Al analizar el coeficiente de la variable X1 es decir de la edad nos dice lo siguiente: Tomamos el coeficiente como: p= 1 + i I= p – 1 Donde i es la parte decimal que acompaña la unidad y es el valor a analizar. i1 - 1 i = 1,06504 – 1 =0,06504 Lo que podemos notar es que cuando el X1 aumente en una unidad, Y va a aumentar 6,5%. Si analizamos la variable X3 es decir fumar, obtenemos lo siguiente: Tomamos el coeficiente como: i3 - 1 i = 0,53134 – 1 = - 0,46866 Lo que podemos encontrar al interpretar este valor es que por cada unidad que aumente la variable fumar el (Y) decrecerá 46,86%.

REGRESIÓN LOGARÍTMICA (POTENCIA)

Ecuación de la forma: Y = aX11X22 X3…. Pp. Para realizar regresiones de este tipo lo que se hace es normalizar la ecuación y trabajarla como una regresión lineal, la normalización se hace de la siguiente manera: LOG Y

= LOG a + 1LOG X1 + 2 LOG X2 …… PLOG Xp o

Para la regresión logarítmica que se va realizar se van a excluir las variables que contengan dentro de sus datos valores de cero por no existir su logaritmo. Como variable dependiente esta la que se a tenido durante todo el trabajo riesgo, y como variables independientes se utilizaran edad y presión.

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

log Y

log X1

log X2

Riesgo 1,1 1,4 1,1 1,7 1,4 1,7 1,3 1,5 1,6 1,2 1,3 1,6 1,2 1,7 1,2 1,6 0,9 1,5 0,5 1,6

Edad 1,8 1,8 1,8 1,9 1,8 1,9 1,7 1,9 1,9 1,9 1,9 1,8 1,8 1,9 1,8 1,9 1,8 1,9 1,8 1,8

Presión 2,2 2,2 2,2 2,2 2,3 2,3 2,2 2,1 2,1 2,0 2,2 2,2 2,1 2,3 2,3 2,1 2,2 2,1 2,1 2,3

COEFICIENTE DE CORRELACIÓN Ahora mediante el uso de la herramienta de Excel denominada coeficiente de correlación, se determinara si existen problemas de multicolinealidad entre las variables independientes.

A continuación se muestra el resultado obtenido:

RIESGO RIESGO

EDAD

PRESIÓN

1

EDAD

0,556409799

1

PRESIÓN

0,357971052

-0,32982212

1

Observando los resultados arrojados por el análisis de coeficiente de correlación, podemos concluir que NO existe problema potencial de multicolinealidad, ya que ninguna de las variables independientes presentan un coeficiente de correlación mayor que + 0,70 o menor que -0,70 para dos variables independientes lo cual se considera el factor que determina que existe multicolinealidad entre variables (Todas las celdas que se encuentran en verde). También se puede notar que la variable que más aporta o que mayor poder explicatorio da a la variable dependiente Riesgo es la variable independiente Edad con una correlación de 0,56.

ANÁLISIS DE REGRESIÓN. Como paso siguiente se hará un análisis de regresión a algunas de las variables representativas para determinara las características de los resultados y así poder obtener y determinar el modelo. Aplicando a las variables (Riesgo, Edad, presion tendremos el siguiente resultado:

Estadísticas de la regresión Coeficiente de correlación múltiple

0,799118022

Coeficiente de determinación R^2

0,638589613

R^2 ajustado

0,596070744

Error típico

0,197243634

Observaciones

20

ANÁLISIS DE VARIANZA Grados de libertad

Suma de cuadrados

Promedio de los cuadrados

Regresión

2

1,16862758

0,58431379

Residuos

17

0,661385869

0,038905051

Total

19

1,830013449

F

Valor crítico de F

15,01896985

0,000174987

Analizando los resultados se tiene que: El coeficiente de determinación R^2 indica que el 63,86% de los datos son representados, es decir, la bondad de ajuste es regular puesto que se pueden explicar el 63,86% de la suma de los cuadrados del total con la ecuación de regresión que se obtiene. Del valor de F podemos concluir que con un nivel de significancia a = 5%, o de confianza del 95%, el valor crítico de F (valor p = 0,000174987) con F= 15,01890, indica que existe evidencia estadística suficiente para afirmar que el modelo de regresión representa una relación lineal significativa entre las variables independientes y la variable dependiente, pues el p-value asociado con la prueba F es menor que el alfa (alfa = 0,05).

RIESGO EDAD PRESIÓN

Coeficientes

Error típico

Estadístico t

Probabilidad

-10,21485768

2,114008469

-4,83198522 0,000155966

3,88427401

0,792703301

4,900035111 0,000135141

2,022744644

0,514186241

3,933875474 0,001070106

La probabilidad equivale al p-value relacionado con la prueba t debe ser menor que el alfa (alfa = 5%) para que los datos sean propicios, lo que nos dice que al mirar cada una de las variables todas rechazan la hipótesis nula, es decir todas son significativas para el modelo.

CONCLUSIONES



Para la elección del modelo no solo se tuvo en cuenta el coeficiente de determinación y el de correlación, también se observo el nivel de significancia el cual debe ser pequeño para que garantice un mínimo valor de equivocación.



El modelo de regresión mas indicado para el análisis de la muestra es el que tiene mayor coeficiente de correlación múltiple y coeficiente de determinación que para este estudio fue el caso de regresión lineal.



Los modelos no son del todo representativos ya que el análisis se realizo a una muestra de 20 personas y no a una población.



Fumar es nocivo para la salud, al ser el valor de mayor correlación con el riesgo en el modelo de regresión lineal y no lineal (exponencial), pero como se dijo anteriormente para este ejercicio resulto un poco equivoco el resultado al dar una relación inversa con el riesgo de poseer cáncer de pulmón.



En cada uno de los modelos trabajados se hizo su correspondiente interpretación.