[R-es] Como reordenar datos para analisis multiples correspondencias (MCA)

Javier Marcuzzi j@v|er@ruben@m@rcuzz| @end|ng |rom gm@||@com
Jue Mayo 16 00:23:52 CEST 2019


Estimado Juan Abasolo

Habría que estudiar el caso, puede no ser tan simple, por un lado el peso
que se toma en algunos modelos está disponible, pero posiblemente antes de
esto el problema puede estar en otro lado, yo soy veterinario y veo muchas
cosas donde desde la estadística o informática dicen sobre ciertas
enfermedades, y esto no es compatible, la medicina no es tan simple para
que un ingeniero la resuelva con un algoritmo, yo llevo años en eso y lo
que en ciertas áreas da en otras trae errores, la presencia o ausencia
desde el punto estadístico o de preparación en R puede tener importancia,
pero no desde el médico, es más probable que nunca tengas ninguna de todas
estas enfermedades, o una alergia, pero alergia a un epitope, más la
inmunogenética, la no presencia tiene tantas posibilidades que
estadísticamente es muy "pesada", o en otras palabras, una persona de 100
años tiene miles de días sin morir, es demostrada su alta resistencia, o,
si los días son dosis de un antibiótico y la persona una bacteria, una
dosis altísima no la mata.

Habría que ver el caso, desde el punto de vista médico el idioma y la
alergia no tiene nada que ver, pero el idioma puede dar estadísticamente
una relación con una raza, una zona geográfica, por otro lado, por ejemplo
alergia a huevo, técnicamente el sistema inmune no reconoce al huevo,
podría ser por ejemplo albúmina, pero estas proteínas están en el huevo,
leche, sangre, y dentro de estas a cuál de todas, las posibilidades son
tantas en la medicina que pasarlo un true o false por cada característica
es crear una colección de false.

Lo correcto en R, en otras áreas de la ciencia, en medicina puede no serlo,
ese peso que usted nombra puede ser correcto, pero muy incorrecto en otra
área de la ciencia. Desconozco lo que está realizando pero tenga en cuenta
que idioma y alergia le abre un abanico muy grande.

Javier Rubén Marcuzzi

El mié., 15 may. 2019 a las 17:58, Juan Abasolo (<juan.abasolo using ehu.eus>)
escribió:

>  Es evidente que no soy demasiado ingenioso, porque con todo lo que me
> ayudaron, terminé pasando horas hasta que lo conseguí (y una vez conseguido
> pienso que tendría que haber tardado menos de la cuarta parte). Gracias,
> Jorge, también.
>
> Así que, desde este estado mental que describo, vengo con una pregunta que
> más que de R es de teoría del análisis de datos.
>
> Una vez que consigo que los datos se me ordenen en variables binarias tipo
> presencia/ausencia de los valores que toman las variables originales, al
> pedirle que haga el Análisis de Multiples Concordancias, resulta que toma
> muchísima peso la ausencia de las características. Eso no distorciona el
> análisis? ¿o estoy preguntando una tontería, porque también se puede
> caracterizar mediante la ausencia? ¿O qué?
>
> Si alguien entiende mi duda y además tiene el tiempo y la paciencia de
> explicar, agradecidísimo. Pero con señalarme qué leer, me sentiría muy
> ayudado. Soy de letras, señalen con piedad.
>
>
>
> Hau idatzi du Jorge Senán Salinas (jorge.senan using imdea.org) erabiltzaileak
> (2019 mai. 14, ar. (11:19)):
>
> > Buenos dias,
> >
> > Espero que esto te pueda ayudar. Por lo que entiendo quieres llegar a una
> > seríe de columnas boleanas de ausencia/presencia de determinada alergia o
> > idioma.
> >
> > library(tidyverse)
> >
> > ind<- c("individuo1", "individuo2", "individuo3")
> > idioma<-c( "en,es", "es,en", "es,fr,en")
> > alergia<-c(0, "huevo", "pescado,huevo")
> > color<- c("amarillo", "limon", "salmon")
> >
> > dbs<-data.frame(ind, idioma, alergia, color)
> >
> > dbs%>%gather(caracteristica, valor, 2:4)%>%
> >   separate(valor, c("v1", "v2", "v3"))%>%
> >   gather(v, valor, 3:5)%>%
> >   filter(!is.na(valor))%>%
> >   mutate(categoria_bin=paste(caracteristica, ":", valor))%>%
> >   select(ind, categoria_bin)%>%
> >   mutate(value = 1)%>%
> >   spread(categoria_bin, value, fill= 0)
> >
> > Saludos
> >
> > Jorge
> >
> >
> >
> > Jorge Senán Salinas
> > Análisis de Ciclo de Vida y Sostenibilidad
> > Grupo de Tecnología de Membranas
> > IMDEA-Agua
> >
> >
> >
> > -----Mensaje original-----
> > De: R-help-es [mailto:r-help-es-bounces using r-project.org] En nombre de Juan
> > Abasolo
> > Enviado el: martes, 14 de mayo de 2019 10:19
> > Para: José Antonio Palazón Ferrando <palazon using um.es>
> > CC: R-help-es <r-help-es using r-project.org>
> > Asunto: Re: [R-es] Como reordenar datos para analisis multiples
> > correspondencias (MCA)
> >
> > Mil gracias, José Antonio!
> > Creo que, entre tu recomendación y el apelo al ingenio de Javier, voy a
> > terminar generando la tabla que necesito.
> >
> > Mi problema, al contrario de lo que entiendo que les pasa a los que
> > necesitan condensar, es que necesito extender... mi ya extensa
> data.frame.
> > Pero poder pensar en el problema de otros me ayuda a entender el mío.
> >
> > Hau idatzi du José Antonio Palazón Ferrando (palazon using um.es)
> erabiltzaileak
> > (2019 mai. 14, ar. (09:03)):
> >
> > > Hola:
> > >
> > > Quizá esto pueda ser de utilidad:
> > > Se trata de prepara una “tabla” que tenga tantas columnas como
> > > modalidades hay en el total de los individuos.
> > > Cada columna toma el nombre de la modalidad y hacemos que cada
> > > individuo tome el valor 1 en las modalidades correspondientes.
> > >
> > > En este texto <http://ares.inf.um.es/mmcl/formatoCondensado.html> se
> > > explica y proporciona el procedimiento para hacerlo con listas de
> > > especies o caracteres, es muy fácil adaptarlo a tus necesidades.
> > >
> > > Seguimos
> > >
> > >
> > >
> > > El 14/5/19 a las 0:04, Juan Abasolo escribió:
> > > > Gracias, Javier;
> > > > Anduve buscando entre tus dos propuestas para mi encarables (plyr y
> > > > reshape2) y presupongo que el problema es eso del ingenio que
> > > > comentás,
> > > que
> > > > hay que tener y no tengo.
> > > >
> > > > Los paquetes me vinieron igualmente re-bien, porque me di cuenta que
> > > > no tengo por qué sufrir haciéndolo a mano cada vez que encaro
> > > > algunas de
> > > esas
> > > > situaciones.
> > > >
> > > > Pero lo de ordenar los datos para el MCA... el ingenio estara en
> > > > alguna inlampara de casa, porque a mí no se me enciende la bombilla.
> > > > Parece prudente, a falta de más, idea purgar las respuestas dobles
> > > > según algún criterio, que siempre es deformar la realidad un poquito
> > más.
> > > >
> > > >
> > > >
> > > > Hau idatzi du Javier Marcuzzi (javier.ruben.marcuzzi using gmail.com)
> > > > erabiltzaileak (2019 mai. 13, al. (14:47)):
> > > >
> > > >> Estimado Juan Abasolo
> > > >>
> > > >> Para esas actividades se necesita algo de ingenio, no hay una sola
> > > >> solución, para esto existen librerías como plyr, reshape2, entre
> > > >> otras,
> > > o
> > > >> simplemente a mano, en lo personal mis primeros pasos para ordenar
> > > >> fue sqldf porque conocía sql más que R, sin embargo hoy las
> > > >> alternativas al respecto son muy amplias.
> > > >>
> > > >> Yo pienso en como debo colocar los datos en el modelo, luego en
> > > >> como
> > > tengo
> > > >> los datos originales, y finalmente busco la forma de acomodarlos.
> > > >> En
> > > este
> > > >> paso posiblemente es donde R tiene la mayor cantidad de
> > > >> alternativas e insumo de tiempo razonando puesto que tiene algo de
> > "artesanal en R".
> > > >>
> > > >> Javier Rubén Marcuzzi
> > > >>
> > > >> El dom., 12 may. 2019 a las 18:53, Juan Abasolo
> > > >> (<juan.abasolo using ehu.eus
> > > >)
> > > >> escribió:
> > > >>
> > > >>> Necesito luz para ordenar unos datos... en realidad, para ordenar
> > > muchos
> > > >>> muchoas veces. El problema hoy:
> > > >>>
> > > >>> Tengo una base de datos que incluye respuestas dobles en algunas
> > > variables
> > > >>> en algunos individuos, tabla didáctica:
> > > >>>
> > > >>>              idioma   alergia          color
> > > >>> individuo1  en,es     0               amarillo
> > > >>> individuo2  es,en     huevo           limon
> > > >>> individuo3  es,fr,en  pescado, huevo  salmon
> > > >>>
> > > >>> Necesitaría ordenarlos de otra manera (creo), para poder hacer un
> > > análisis
> > > >>> de multiples concordancias, porque tal y como lo tengo puesto, por
> > > >>> ejemplo, en idioma no hay concordancia, aunque es evidente que
> > > >>> entre todos
> > > podrían
> > > >>> comunicarse entre castellano o inglés, por ejemplo o que son
> > > equivalentes,
> > > >>> también en idioma, los sujetos 1 y 2.
> > > >>>
> > > >>> Los datos con los que tengo que trabajar, de momento, son
> > > >>> equivalentes
> > > a
> > > >>> los del ejemplo, lease categóricos e incluyen posibilidad de
> > > >>> respuestas múltiples.
> > > >>>
> > > >>> Supongo que le resultará obvio a alguno cómo resolverlo o en qué
> > > >>> está
> > > mal
> > > >>> el orden así de los datos... pero yo nopuedo darme cuenta.
> > > >>>
> > > >>> a) Alguna pista?
> > > >>> b) Recomendación de lectura para abrir un poco la mente? (tengo
> > > >>> más de
> > > una
> > > >>> de este estilo)
> > > >>>
> > > >>> Gracias
> > > >>>
> > > >>>
> > > >>>
> > > >>> --
> > > >>> Juan Abasolo
> > > >>>
> > > >>> Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa
> > > >>> taldea Bilboko Hezkuntza Fakultatea Euskal Herriko Unibertsitatea
> > > >>> UPV/EHU
> > > >>>
> > > >>> Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
> > > >>>
> > > >>> T: (+34) 94 601 7567
> > > >>> Telegram: @JuanAbasolo
> > > >>> Skype: abasolo72
> > > >>>
> > > >>> Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
> > > >>>
> > > >>>          [[alternative HTML version deleted]]
> > > >>>
> > > >>> _______________________________________________
> > > >>> R-help-es mailing list
> > > >>> R-help-es using r-project.org
> > > >>> https://stat.ethz.ch/mailman/listinfo/r-help-es
> > > >>>
> > >
> > > --
> > >
> > > ____________________________________________________________
> > > José Antonio Palazón Ferrando
> > > Profesor Titular. Departamento de Ecología e Hidrología.
> > > Facultad de Biología. Universidad de Murcia.
> > > Campus Universitario de Espinardo
> > > 30100 MURCIA-SPAIN
> > > Telf: +34 868 88 49 80
> > > Fax : +34 868 88 39 63
> > > Email: palazon using um.es
> > >
> > >
> > >         [[alternative HTML version deleted]]
> > >
> > > _______________________________________________
> > > R-help-es mailing list
> > > R-help-es using r-project.org
> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
> > >
> >
> >
> > --
> > Juan Abasolo
> >
> > Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
> > Bilboko Hezkuntza Fakultatea Euskal Herriko Unibertsitatea UPV/EHU
> >
> > Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
> >
> > T: (+34) 94 601 7567
> > Telegram: @JuanAbasolo
> > Skype: abasolo72
> >
> > Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
> >
> >         [[alternative HTML version deleted]]
> >
> > _______________________________________________
> > R-help-es mailing list
> > R-help-es using r-project.org
> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
> >
>
> --
> Juan Abasolo
>
> Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
> Bilboko Hezkuntza Fakultatea
> Euskal Herriko Unibertsitatea
> UPV/EHU
>
> Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>
> T: (+34) 94 601 7567
> Telegram: @JuanAbasolo
> Skype: abasolo72
>
> Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es using r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es