[R-es] colinearidad

Lola Ferrer lfcastan en usal.es
Mie Ene 5 22:36:38 CET 2011


Hola,

Es cierto que la colinealidad tiende a considerarse un problema. Para
curarte en salud, si tienes variables fuertemente correlacionadas entre sí
(por ejemplo, cuando r > 0.8), podrías excluir algunas de ellas (información
redundante) y quedarte sólo con la que explique una mayor variación de los
datos. Otra cosa que podrías hacer, teniendo en cuenta la existencia de
colinealidad (collinearity, en inglés) y las dificultades que esto podría
causar en la selección de variables (???), sería evitar utilizar
procedimientos automáticos de selección de las mismas.

Yo te aconsejaría que utilizaras un proceso de eliminación de variables paso
a paso hacia atrás (backward elimination), además de la selección de
variables paso a paso hacia delante (forward selection) que normalmente se
usa. En principio, el resultado final debería ser el mismo, aunque no
necesariamente.

Cuando incluyes todos los términos en el modelo y luego vas quitando uno a
uno los no significativos (backward elimination), todos aquellos que no
explican nada, los que son redundantes (están fuertemente correlacionados
con otros), también se quitan; o sea, que al final se caen ellos "solitos"
del modelo. 

En cambio, mediante una selección paso a paso hacia delante, la inclusión de
una determinada variable podría impedir que luego otras variables, que en
conjunto explicaran más que esa primera, entraran en el modelo. Por eso, el
modelo obtenido por forward podría ser diferente del modelo obtenido por
backward.

Si con los dos procedimientos obtuvieras el mismo modelo, entonces,
estupendo; eso le daría más solidez a tu modelo. Y si obtienes dos modelos
diferentes, no desestimes ninguno y piensa que todos los modelos son
incorrectos (al fin y al cabo, no son más que una simplificación de la
realidad).

Un saludo, y Feliz Año 2011

Lola
--
Dr. Dolores Ferrer-Castán
Área de Ecología, Facultad de Biología
Universidad de Salamanca
C.U. Miguel de Unamuno
E-37007 Salamanca, Spain

Tel: +34 923 294 464
Fax: +34 923 294 515



-----Mensaje original-----
De: r-help-es-bounces en r-project.org [mailto:r-help-es-bounces en r-project.org]
En nombre de Miguel Lázaro
Enviado el: miércoles, 05 de enero de 2011 20:14
Para: r-help-es en r-project.org
Asunto: [R-es] colinearidad

Hola
quería preguntaros acerca de un problema que se me ha planteado. Normalmente
he realizado estudios con diseños factoriales, pero en este caso,
por distintos motivos, quería hacer un estudio de regresión, En la tabla que
pego se observa (a ojo incluso) cómo varias variables correlacionan
fuertemente (principalmente el problema está en las variables frq, basefq y
cumfrq), introduciendo en los análisis colinearidad. Estudios de otros
colegas en este sentido suelen hablar de un procedimiento que en inglés
llaman "partial out" para eliminar la colinearidad y que consiste en obtener
de las variables que correlacionan fuertemente otros valores que, mientras
que correlacioonan muy fuertemente con los valores originales, sin embargo
pasan a correlacionar muy poco con los otros con los que antes
correlacionaban. De esta manera disminuye la colinearidad aunque los nuevos
valores son fieles a los originales. He leído bastantes documentos sobre R,
alguno  de los cuales trata sobre la colinearidad, pero no observo pistas
que me ayuden en este problema tan práctico. Quizá alguno de vosotros pueda
ayudarme. Pego la tabla por si os guiara en algo.
Gracias y un saludo
 
 
word     freq         basefq      cumfrq     ndnsty  len    stmfs      afxfs
w1         4            14.5         17             1        7         
6           2700
w2         0             5              5             1        9        
 8           650
w3        1             19             23            1       8          7
          1200
w4       11            89            125           1        8        
 6          1200
w5        8             7              32            1        8        
 9           2300
w6        2             74             83            4       7        
 4           850
w7       1             31             72             0        9        
7           2300
w8       7             93             95             3        9        
5           2700
w9       5             7.5           10              0        9        
4           1200 w10     2             6               6              
0        9         6            850
w11     5             5              23              0        9        
6           750
w12     0            73.5          84              
0        10       8           2700
w13     2            45             59              3         7        
6           3000
w14     0            68.5          78              3         6        
8           4400
w15     3            10             11              5         7        
6           2250
w16     8            19             26             1          8        
7           650
w17     1            12            13              1          8        
7           2250
w18     2            11.5         13              2         10        
6           650
w19    14            56.5         78             2          8         
5           1200 w20     4            3              11            
0          7          8           440
w21    1            12             13             1          10       
 4          1200
w22    7            21             24              0         7         
7           2250
w23    19          114          158             8          6         
8           4400
w24     2            10            12              2         7         
6           650


      
	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es