[R-es] Como reordenar datos para analisis multiples correspondencias (MCA)

Juan Abasolo ju@n@@b@@o|o @end|ng |rom ehu@eu@
Dom Mayo 19 01:33:56 CEST 2019


Tomo nota.
Miré alguna vez lo de redes, pero creo que tengo que ir pasito a pasito.
Ahora voy con el analisis de correspondencias  despacito pero firme (creo y
espero).

Lo que comentás del ébola en África, aviones y enfermeras, me resulta
interesante. Más de una vez aprovecho los videos de reuniones (R Madrid
basntantes veces), para entretenimiento y buscar inspiración. Si vez un
video de algún buen comunicador explicando esa investigación, pasamelo.
Terminará acompañandome algun almuerzo o desayuno relajado.

Me gustó lo de los nombres. Y, ya hace añazos que me  fui del sur, me
acordé de alguna reunión en la uno  decía *guaso *(será con z?), otro, *bo*,
otro *chabón* ... cada uno marcando origen. Me hizo reír. Me acuerdo de uno
al que le dije *hermano* y me espetó *tio, no eres mi hermano*. Mirá al
sobrino como se pone, papá!



Hau idatzi du Javier Marcuzzi (javier.ruben.marcuzzi using gmail.com)
erabiltzaileak (2019 mai. 16, og. (14:58)):

> Comprendo. En ese caso podría ser algo de redes, ojo, no redes neuronales,
> network, donde hay relaciones como la citación a un libro, también esta la
> posibilidad de armar clusters dentro de la red, lo que no conozco muy bien
> es como utilizar la zona geográfica, pero por ejemplo, se ha utilizado para
> investigar al ébola en Africa donde uno de los parámetros eran los aviones,
> se puede calcular el efecto de la enfermera a lo largo del tiempo, la
> enfermera en su caso podría ser una novela popular. Los números internos
> son complicados, pero podría predecir el peso del vos, tu , el, el guaso,
> el negro, flaco, guirí, de acuerdo al lugar, nivel social, sexo, tiempo,
> por ejemplo, Jerazale, creo que se escribe así, en mi zona era un nombre
> totalmente desconocido, luego de la novela la mil y una noches, quedó el
> nombre grabado en la población, esto en un análisis de red tendría que
> saltar en forma ponderable.
>
> El jue., 16 may. 2019 a las 9:34, Juan Abasolo (<juan.abasolo using ehu.eus>)
> escribió:
>
>> Muchas gracias, Javier, por tu explicación.
>> Los dotos que manejo son todos datos linguisticos individualizados según
>> variables geográficas y sociologicas; o sea que no hay que preocuparse
>> demasiado por la peligrosidad de mis aseveraciones.
>> El ejemplo lo hice a lo bruto para que se entendiera cómo se estructuran
>> los datos, pensando que así no generaría distración sobre el objeto de mi
>> problema. Lo de las alergias es porque mi hijo empezó ahora con alergias a
>> esto y aquello, me pareció didáctico. Como Bart Simpson hablando de sus
>> zapatos.
>>
>> Lo que quiero hacer no me consta que se esté haciendo con datos
>> lingüísticos (geo- socio-...) entonces tengo que ver quién necesita
>> organizar categorías de estructura similar, cómo lo hace, cómo lo estudia y
>> para qué. Y después tengo que ver que sea coherente con la literatura del
>> tema, con datos históricos o distancias geográficas y por ahí. Pero nada
>> peligroso para la salud de nadie. Para la mía algún día.
>>
>> Por eso me tiene inquieto si está bien plantear un modelo en el que le da
>> X valor a la ausencia de las características, en vez de solamente ver la
>> presencia. Digamos, que en Provincia de Buenos Aires para un uso de segunda
>> persona singular cercana yo diga [+vos]. Para mí es dato suficiente, no
>> tiene mucho sentido describir Sevilla o Santiago de Cuba con una variable
>> [-vos]:
>> Buenos Aires     [+vos]
>> Santiago de Cuba [+tu],
>> Sevilla          [+tu],
>> El Salvador      [+vos][+tu]
>>
>> Todo esto lo expliqué con lo de tu y vos, que en castellano es muy
>> característico y se toma por prototípico. Pero, ponele que siguiente
>> clasifico no sé qué habla de colombia, en la que se usa [+usted] para
>> esta cercanía (una mamá a un nene de cinco años digamos).
>>
>> ¿No sería infromación redundante las variables -tu - vos y -usted? ¿No
>> exageraría las diferencias?
>> Amén de que hace muy difícil de explicar las gráficas.
>>
>> El ejemplo que di es minimísimo. Hay solamente una respuesta por sitio y
>> una sola pregunta, pero yo trabajo con muchas preguntas y algunas de esas
>> tienen respuestas múltiples, como las del ejemplo original. Pero siempre
>> lingüísticas.
>>
>>
>>
>> Hau idatzi du Javier Marcuzzi (javier.ruben.marcuzzi using gmail.com)
>> erabiltzaileak (2019 mai. 16, og. (00:24)):
>>
>>> Estimado Juan Abasolo
>>>
>>> Habría que estudiar el caso, puede no ser tan simple, por un lado el
>>> peso que se toma en algunos modelos está disponible, pero posiblemente
>>> antes de esto el problema puede estar en otro lado, yo soy veterinario y
>>> veo muchas cosas donde desde la estadística o informática dicen sobre
>>> ciertas enfermedades, y esto no es compatible, la medicina no es tan simple
>>> para que un ingeniero la resuelva con un algoritmo, yo llevo años en eso y
>>> lo que en ciertas áreas da en otras trae errores, la presencia o ausencia
>>> desde el punto estadístico o de preparación en R puede tener importancia,
>>> pero no desde el médico, es más probable que nunca tengas ninguna de todas
>>> estas enfermedades, o una alergia, pero alergia a un epitope, más la
>>> inmunogenética, la no presencia tiene tantas posibilidades que
>>> estadísticamente es muy "pesada", o en otras palabras, una persona de 100
>>> años tiene miles de días sin morir, es demostrada su alta resistencia, o,
>>> si los días son dosis de un antibiótico y la persona una bacteria, una
>>> dosis altísima no la mata.
>>>
>>> Habría que ver el caso, desde el punto de vista médico el idioma y la
>>> alergia no tiene nada que ver, pero el idioma puede dar estadísticamente
>>> una relación con una raza, una zona geográfica, por otro lado, por ejemplo
>>> alergia a huevo, técnicamente el sistema inmune no reconoce al huevo,
>>> podría ser por ejemplo albúmina, pero estas proteínas están en el huevo,
>>> leche, sangre, y dentro de estas a cuál de todas, las posibilidades son
>>> tantas en la medicina que pasarlo un true o false por cada característica
>>> es crear una colección de false.
>>>
>>> Lo correcto en R, en otras áreas de la ciencia, en medicina puede no
>>> serlo, ese peso que usted nombra puede ser correcto, pero muy incorrecto en
>>> otra área de la ciencia. Desconozco lo que está realizando pero tenga en
>>> cuenta que idioma y alergia le abre un abanico muy grande.
>>>
>>> Javier Rubén Marcuzzi
>>>
>>> El mié., 15 may. 2019 a las 17:58, Juan Abasolo (<juan.abasolo using ehu.eus>)
>>> escribió:
>>>
>>>>  Es evidente que no soy demasiado ingenioso, porque con todo lo que me
>>>> ayudaron, terminé pasando horas hasta que lo conseguí (y una vez
>>>> conseguido
>>>> pienso que tendría que haber tardado menos de la cuarta parte). Gracias,
>>>> Jorge, también.
>>>>
>>>> Así que, desde este estado mental que describo, vengo con una pregunta
>>>> que
>>>> más que de R es de teoría del análisis de datos.
>>>>
>>>> Una vez que consigo que los datos se me ordenen en variables binarias
>>>> tipo
>>>> presencia/ausencia de los valores que toman las variables originales, al
>>>> pedirle que haga el Análisis de Multiples Concordancias, resulta que
>>>> toma
>>>> muchísima peso la ausencia de las características. Eso no distorciona el
>>>> análisis? ¿o estoy preguntando una tontería, porque también se puede
>>>> caracterizar mediante la ausencia? ¿O qué?
>>>>
>>>> Si alguien entiende mi duda y además tiene el tiempo y la paciencia de
>>>> explicar, agradecidísimo. Pero con señalarme qué leer, me sentiría muy
>>>> ayudado. Soy de letras, señalen con piedad.
>>>>
>>>>
>>>>
>>>> Hau idatzi du Jorge Senán Salinas (jorge.senan using imdea.org)
>>>> erabiltzaileak
>>>> (2019 mai. 14, ar. (11:19)):
>>>>
>>>> > Buenos dias,
>>>> >
>>>> > Espero que esto te pueda ayudar. Por lo que entiendo quieres llegar a
>>>> una
>>>> > seríe de columnas boleanas de ausencia/presencia de determinada
>>>> alergia o
>>>> > idioma.
>>>> >
>>>> > library(tidyverse)
>>>> >
>>>> > ind<- c("individuo1", "individuo2", "individuo3")
>>>> > idioma<-c( "en,es", "es,en", "es,fr,en")
>>>> > alergia<-c(0, "huevo", "pescado,huevo")
>>>> > color<- c("amarillo", "limon", "salmon")
>>>> >
>>>> > dbs<-data.frame(ind, idioma, alergia, color)
>>>> >
>>>> > dbs%>%gather(caracteristica, valor, 2:4)%>%
>>>> >   separate(valor, c("v1", "v2", "v3"))%>%
>>>> >   gather(v, valor, 3:5)%>%
>>>> >   filter(!is.na(valor))%>%
>>>> >   mutate(categoria_bin=paste(caracteristica, ":", valor))%>%
>>>> >   select(ind, categoria_bin)%>%
>>>> >   mutate(value = 1)%>%
>>>> >   spread(categoria_bin, value, fill= 0)
>>>> >
>>>> > Saludos
>>>> >
>>>> > Jorge
>>>> >
>>>> >
>>>> >
>>>> > Jorge Senán Salinas
>>>> > Análisis de Ciclo de Vida y Sostenibilidad
>>>> > Grupo de Tecnología de Membranas
>>>> > IMDEA-Agua
>>>> >
>>>> >
>>>> >
>>>> > -----Mensaje original-----
>>>> > De: R-help-es [mailto:r-help-es-bounces using r-project.org] En nombre de
>>>> Juan
>>>> > Abasolo
>>>> > Enviado el: martes, 14 de mayo de 2019 10:19
>>>> > Para: José Antonio Palazón Ferrando <palazon using um.es>
>>>> > CC: R-help-es <r-help-es using r-project.org>
>>>> > Asunto: Re: [R-es] Como reordenar datos para analisis multiples
>>>> > correspondencias (MCA)
>>>> >
>>>> > Mil gracias, José Antonio!
>>>> > Creo que, entre tu recomendación y el apelo al ingenio de Javier, voy
>>>> a
>>>> > terminar generando la tabla que necesito.
>>>> >
>>>> > Mi problema, al contrario de lo que entiendo que les pasa a los que
>>>> > necesitan condensar, es que necesito extender... mi ya extensa
>>>> data.frame.
>>>> > Pero poder pensar en el problema de otros me ayuda a entender el mío.
>>>> >
>>>> > Hau idatzi du José Antonio Palazón Ferrando (palazon using um.es)
>>>> erabiltzaileak
>>>> > (2019 mai. 14, ar. (09:03)):
>>>> >
>>>> > > Hola:
>>>> > >
>>>> > > Quizá esto pueda ser de utilidad:
>>>> > > Se trata de prepara una “tabla” que tenga tantas columnas como
>>>> > > modalidades hay en el total de los individuos.
>>>> > > Cada columna toma el nombre de la modalidad y hacemos que cada
>>>> > > individuo tome el valor 1 en las modalidades correspondientes.
>>>> > >
>>>> > > En este texto <http://ares.inf.um.es/mmcl/formatoCondensado.html>
>>>> se
>>>> > > explica y proporciona el procedimiento para hacerlo con listas de
>>>> > > especies o caracteres, es muy fácil adaptarlo a tus necesidades.
>>>> > >
>>>> > > Seguimos
>>>> > >
>>>> > >
>>>> > >
>>>> > > El 14/5/19 a las 0:04, Juan Abasolo escribió:
>>>> > > > Gracias, Javier;
>>>> > > > Anduve buscando entre tus dos propuestas para mi encarables (plyr
>>>> y
>>>> > > > reshape2) y presupongo que el problema es eso del ingenio que
>>>> > > > comentás,
>>>> > > que
>>>> > > > hay que tener y no tengo.
>>>> > > >
>>>> > > > Los paquetes me vinieron igualmente re-bien, porque me di cuenta
>>>> que
>>>> > > > no tengo por qué sufrir haciéndolo a mano cada vez que encaro
>>>> > > > algunas de
>>>> > > esas
>>>> > > > situaciones.
>>>> > > >
>>>> > > > Pero lo de ordenar los datos para el MCA... el ingenio estara en
>>>> > > > alguna inlampara de casa, porque a mí no se me enciende la
>>>> bombilla.
>>>> > > > Parece prudente, a falta de más, idea purgar las respuestas dobles
>>>> > > > según algún criterio, que siempre es deformar la realidad un
>>>> poquito
>>>> > más.
>>>> > > >
>>>> > > >
>>>> > > >
>>>> > > > Hau idatzi du Javier Marcuzzi (javier.ruben.marcuzzi using gmail.com)
>>>> > > > erabiltzaileak (2019 mai. 13, al. (14:47)):
>>>> > > >
>>>> > > >> Estimado Juan Abasolo
>>>> > > >>
>>>> > > >> Para esas actividades se necesita algo de ingenio, no hay una
>>>> sola
>>>> > > >> solución, para esto existen librerías como plyr, reshape2, entre
>>>> > > >> otras,
>>>> > > o
>>>> > > >> simplemente a mano, en lo personal mis primeros pasos para
>>>> ordenar
>>>> > > >> fue sqldf porque conocía sql más que R, sin embargo hoy las
>>>> > > >> alternativas al respecto son muy amplias.
>>>> > > >>
>>>> > > >> Yo pienso en como debo colocar los datos en el modelo, luego en
>>>> > > >> como
>>>> > > tengo
>>>> > > >> los datos originales, y finalmente busco la forma de acomodarlos.
>>>> > > >> En
>>>> > > este
>>>> > > >> paso posiblemente es donde R tiene la mayor cantidad de
>>>> > > >> alternativas e insumo de tiempo razonando puesto que tiene algo
>>>> de
>>>> > "artesanal en R".
>>>> > > >>
>>>> > > >> Javier Rubén Marcuzzi
>>>> > > >>
>>>> > > >> El dom., 12 may. 2019 a las 18:53, Juan Abasolo
>>>> > > >> (<juan.abasolo using ehu.eus
>>>> > > >)
>>>> > > >> escribió:
>>>> > > >>
>>>> > > >>> Necesito luz para ordenar unos datos... en realidad, para
>>>> ordenar
>>>> > > muchos
>>>> > > >>> muchoas veces. El problema hoy:
>>>> > > >>>
>>>> > > >>> Tengo una base de datos que incluye respuestas dobles en algunas
>>>> > > variables
>>>> > > >>> en algunos individuos, tabla didáctica:
>>>> > > >>>
>>>> > > >>>              idioma   alergia          color
>>>> > > >>> individuo1  en,es     0               amarillo
>>>> > > >>> individuo2  es,en     huevo           limon
>>>> > > >>> individuo3  es,fr,en  pescado, huevo  salmon
>>>> > > >>>
>>>> > > >>> Necesitaría ordenarlos de otra manera (creo), para poder hacer
>>>> un
>>>> > > análisis
>>>> > > >>> de multiples concordancias, porque tal y como lo tengo puesto,
>>>> por
>>>> > > >>> ejemplo, en idioma no hay concordancia, aunque es evidente que
>>>> > > >>> entre todos
>>>> > > podrían
>>>> > > >>> comunicarse entre castellano o inglés, por ejemplo o que son
>>>> > > equivalentes,
>>>> > > >>> también en idioma, los sujetos 1 y 2.
>>>> > > >>>
>>>> > > >>> Los datos con los que tengo que trabajar, de momento, son
>>>> > > >>> equivalentes
>>>> > > a
>>>> > > >>> los del ejemplo, lease categóricos e incluyen posibilidad de
>>>> > > >>> respuestas múltiples.
>>>> > > >>>
>>>> > > >>> Supongo que le resultará obvio a alguno cómo resolverlo o en qué
>>>> > > >>> está
>>>> > > mal
>>>> > > >>> el orden así de los datos... pero yo nopuedo darme cuenta.
>>>> > > >>>
>>>> > > >>> a) Alguna pista?
>>>> > > >>> b) Recomendación de lectura para abrir un poco la mente? (tengo
>>>> > > >>> más de
>>>> > > una
>>>> > > >>> de este estilo)
>>>> > > >>>
>>>> > > >>> Gracias
>>>> > > >>>
>>>> > > >>>
>>>> > > >>>
>>>> > > >>> --
>>>> > > >>> Juan Abasolo
>>>> > > >>>
>>>> > > >>> Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa
>>>> > > >>> taldea Bilboko Hezkuntza Fakultatea Euskal Herriko
>>>> Unibertsitatea
>>>> > > >>> UPV/EHU
>>>> > > >>>
>>>> > > >>> Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>>>> > > >>>
>>>> > > >>> T: (+34) 94 601 7567
>>>> > > >>> Telegram: @JuanAbasolo
>>>> > > >>> Skype: abasolo72
>>>> > > >>>
>>>> > > >>> Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>>>> > > >>>
>>>> > > >>>          [[alternative HTML version deleted]]
>>>> > > >>>
>>>> > > >>> _______________________________________________
>>>> > > >>> R-help-es mailing list
>>>> > > >>> R-help-es using r-project.org
>>>> > > >>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>> > > >>>
>>>> > >
>>>> > > --
>>>> > >
>>>> > > ____________________________________________________________
>>>> > > José Antonio Palazón Ferrando
>>>> > > Profesor Titular. Departamento de Ecología e Hidrología.
>>>> > > Facultad de Biología. Universidad de Murcia.
>>>> > > Campus Universitario de Espinardo
>>>> > > 30100 MURCIA-SPAIN
>>>> > > Telf: +34 868 88 49 80
>>>> > > Fax : +34 868 88 39 63
>>>> > > Email: palazon using um.es
>>>> > >
>>>> > >
>>>> > >         [[alternative HTML version deleted]]
>>>> > >
>>>> > > _______________________________________________
>>>> > > R-help-es mailing list
>>>> > > R-help-es using r-project.org
>>>> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>> > >
>>>> >
>>>> >
>>>> > --
>>>> > Juan Abasolo
>>>> >
>>>> > Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
>>>> > Bilboko Hezkuntza Fakultatea Euskal Herriko Unibertsitatea UPV/EHU
>>>> >
>>>> > Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>>>> >
>>>> > T: (+34) 94 601 7567
>>>> > Telegram: @JuanAbasolo
>>>> > Skype: abasolo72
>>>> >
>>>> > Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>>>> >
>>>> >         [[alternative HTML version deleted]]
>>>> >
>>>> > _______________________________________________
>>>> > R-help-es mailing list
>>>> > R-help-es using r-project.org
>>>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>> >
>>>> >
>>>>
>>>> --
>>>> Juan Abasolo
>>>>
>>>> Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
>>>> Bilboko Hezkuntza Fakultatea
>>>> Euskal Herriko Unibertsitatea
>>>> UPV/EHU
>>>>
>>>> Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>>>>
>>>> T: (+34) 94 601 7567
>>>> Telegram: @JuanAbasolo
>>>> Skype: abasolo72
>>>>
>>>> Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>>>>
>>>>         [[alternative HTML version deleted]]
>>>>
>>>> _______________________________________________
>>>> R-help-es mailing list
>>>> R-help-es using r-project.org
>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>>
>>>
>>
>> --
>> Juan Abasolo
>>
>> Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
>> Bilboko Hezkuntza Fakultatea
>> Euskal Herriko Unibertsitatea
>> UPV/EHU
>>
>> Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>>
>> T: (+34) 94 601 7567
>> Telegram: @JuanAbasolo
>> Skype: abasolo72
>>
>> Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>>
>

-- 
Juan Abasolo

Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
Bilboko Hezkuntza Fakultatea
Euskal Herriko Unibertsitatea
UPV/EHU

Sarriena auzoa z/g 48940 - Leioa (Bizkaia)

T: (+34) 94 601 7567
Telegram: @JuanAbasolo
Skype: abasolo72

Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es