[R-es] Como reordenar datos para analisis multiples correspondencias (MCA)

Jue Mayo 16 14:58:28 CEST 2019

Comprendo. En ese caso podría ser algo de redes, ojo, no redes neuronales,
network, donde hay relaciones como la citación a un libro, también esta la
posibilidad de armar clusters dentro de la red, lo que no conozco muy bien
es como utilizar la zona geográfica, pero por ejemplo, se ha utilizado para
investigar al ébola en Africa donde uno de los parámetros eran los aviones,
se puede calcular el efecto de la enfermera a lo largo del tiempo, la
enfermera en su caso podría ser una novela popular. Los números internos
son complicados, pero podría predecir el peso del vos, tu , el, el guaso,
el negro, flaco, guirí, de acuerdo al lugar, nivel social, sexo, tiempo,
por ejemplo, Jerazale, creo que se escribe así, en mi zona era un nombre
totalmente desconocido, luego de la novela la mil y una noches, quedó el
nombre grabado en la población, esto en un análisis de red tendría que
saltar en forma ponderable.

El jue., 16 may. 2019 a las 9:34, Juan Abasolo (<juan.abasolo using ehu.eus>)
escribió:

> Muchas gracias, Javier, por tu explicación.
> Los dotos que manejo son todos datos linguisticos individualizados según
> variables geográficas y sociologicas; o sea que no hay que preocuparse
> demasiado por la peligrosidad de mis aseveraciones.
> El ejemplo lo hice a lo bruto para que se entendiera cómo se estructuran
> los datos, pensando que así no generaría distración sobre el objeto de mi
> problema. Lo de las alergias es porque mi hijo empezó ahora con alergias a
> esto y aquello, me pareció didáctico. Como Bart Simpson hablando de sus
> zapatos.
>
> Lo que quiero hacer no me consta que se esté haciendo con datos
> lingüísticos (geo- socio-...) entonces tengo que ver quién necesita
> organizar categorías de estructura similar, cómo lo hace, cómo lo estudia y
> para qué. Y después tengo que ver que sea coherente con la literatura del
> tema, con datos históricos o distancias geográficas y por ahí. Pero nada
> peligroso para la salud de nadie. Para la mía algún día.
>
> Por eso me tiene inquieto si está bien plantear un modelo en el que le da
> X valor a la ausencia de las características, en vez de solamente ver la
> presencia. Digamos, que en Provincia de Buenos Aires para un uso de segunda
> persona singular cercana yo diga [+vos]. Para mí es dato suficiente, no
> tiene mucho sentido describir Sevilla o Santiago de Cuba con una variable
> [-vos]:
> Buenos Aires     [+vos]
> Santiago de Cuba [+tu],
> Sevilla          [+tu],
> El Salvador      [+vos][+tu]
>
> Todo esto lo expliqué con lo de tu y vos, que en castellano es muy
> característico y se toma por prototípico. Pero, ponele que siguiente
> clasifico no sé qué habla de colombia, en la que se usa [+usted] para
> esta cercanía (una mamá a un nene de cinco años digamos).
>
> ¿No sería infromación redundante las variables -tu - vos y -usted? ¿No
> exageraría las diferencias?
> Amén de que hace muy difícil de explicar las gráficas.
>
> El ejemplo que di es minimísimo. Hay solamente una respuesta por sitio y
> una sola pregunta, pero yo trabajo con muchas preguntas y algunas de esas
> tienen respuestas múltiples, como las del ejemplo original. Pero siempre
> lingüísticas.
>
>
>
> Hau idatzi du Javier Marcuzzi (javier.ruben.marcuzzi using gmail.com)
> erabiltzaileak (2019 mai. 16, og. (00:24)):
>
>> Estimado Juan Abasolo
>>
>> Habría que estudiar el caso, puede no ser tan simple, por un lado el peso
>> que se toma en algunos modelos está disponible, pero posiblemente antes de
>> esto el problema puede estar en otro lado, yo soy veterinario y veo muchas
>> cosas donde desde la estadística o informática dicen sobre ciertas
>> enfermedades, y esto no es compatible, la medicina no es tan simple para
>> que un ingeniero la resuelva con un algoritmo, yo llevo años en eso y lo
>> que en ciertas áreas da en otras trae errores, la presencia o ausencia
>> desde el punto estadístico o de preparación en R puede tener importancia,
>> pero no desde el médico, es más probable que nunca tengas ninguna de todas
>> estas enfermedades, o una alergia, pero alergia a un epitope, más la
>> inmunogenética, la no presencia tiene tantas posibilidades que
>> estadísticamente es muy "pesada", o en otras palabras, una persona de 100
>> años tiene miles de días sin morir, es demostrada su alta resistencia, o,
>> si los días son dosis de un antibiótico y la persona una bacteria, una
>> dosis altísima no la mata.
>>
>> Habría que ver el caso, desde el punto de vista médico el idioma y la
>> alergia no tiene nada que ver, pero el idioma puede dar estadísticamente
>> una relación con una raza, una zona geográfica, por otro lado, por ejemplo
>> alergia a huevo, técnicamente el sistema inmune no reconoce al huevo,
>> podría ser por ejemplo albúmina, pero estas proteínas están en el huevo,
>> leche, sangre, y dentro de estas a cuál de todas, las posibilidades son
>> tantas en la medicina que pasarlo un true o false por cada característica
>> es crear una colección de false.
>>
>> Lo correcto en R, en otras áreas de la ciencia, en medicina puede no
>> serlo, ese peso que usted nombra puede ser correcto, pero muy incorrecto en
>> otra área de la ciencia. Desconozco lo que está realizando pero tenga en
>> cuenta que idioma y alergia le abre un abanico muy grande.
>>
>> Javier Rubén Marcuzzi
>>
>> El mié., 15 may. 2019 a las 17:58, Juan Abasolo (<juan.abasolo using ehu.eus>)
>> escribió:
>>
>>>  Es evidente que no soy demasiado ingenioso, porque con todo lo que me
>>> ayudaron, terminé pasando horas hasta que lo conseguí (y una vez
>>> conseguido
>>> pienso que tendría que haber tardado menos de la cuarta parte). Gracias,
>>> Jorge, también.
>>>
>>> Así que, desde este estado mental que describo, vengo con una pregunta
>>> que
>>> más que de R es de teoría del análisis de datos.
>>>
>>> Una vez que consigo que los datos se me ordenen en variables binarias
>>> tipo
>>> presencia/ausencia de los valores que toman las variables originales, al
>>> pedirle que haga el Análisis de Multiples Concordancias, resulta que toma
>>> muchísima peso la ausencia de las características. Eso no distorciona el
>>> análisis? ¿o estoy preguntando una tontería, porque también se puede
>>> caracterizar mediante la ausencia? ¿O qué?
>>>
>>> Si alguien entiende mi duda y además tiene el tiempo y la paciencia de
>>> explicar, agradecidísimo. Pero con señalarme qué leer, me sentiría muy
>>> ayudado. Soy de letras, señalen con piedad.
>>>
>>>
>>>
>>> Hau idatzi du Jorge Senán Salinas (jorge.senan using imdea.org) erabiltzaileak
>>> (2019 mai. 14, ar. (11:19)):
>>>
>>> > Buenos dias,
>>> >
>>> > Espero que esto te pueda ayudar. Por lo que entiendo quieres llegar a
>>> una
>>> > seríe de columnas boleanas de ausencia/presencia de determinada
>>> alergia o
>>> > idioma.
>>> >
>>> > library(tidyverse)
>>> >
>>> > ind<- c("individuo1", "individuo2", "individuo3")
>>> > idioma<-c( "en,es", "es,en", "es,fr,en")
>>> > alergia<-c(0, "huevo", "pescado,huevo")
>>> > color<- c("amarillo", "limon", "salmon")
>>> >
>>> > dbs<-data.frame(ind, idioma, alergia, color)
>>> >
>>> > dbs%>%gather(caracteristica, valor, 2:4)%>%
>>> >   separate(valor, c("v1", "v2", "v3"))%>%
>>> >   gather(v, valor, 3:5)%>%
>>> >   filter(!is.na(valor))%>%
>>> >   mutate(categoria_bin=paste(caracteristica, ":", valor))%>%
>>> >   select(ind, categoria_bin)%>%
>>> >   mutate(value = 1)%>%
>>> >   spread(categoria_bin, value, fill= 0)
>>> >
>>> > Saludos
>>> >
>>> > Jorge
>>> >
>>> >
>>> >
>>> > Jorge Senán Salinas
>>> > Análisis de Ciclo de Vida y Sostenibilidad
>>> > Grupo de Tecnología de Membranas
>>> > IMDEA-Agua
>>> >
>>> >
>>> >
>>> > -----Mensaje original-----
>>> > De: R-help-es [mailto:r-help-es-bounces using r-project.org] En nombre de
>>> Juan
>>> > Abasolo
>>> > Enviado el: martes, 14 de mayo de 2019 10:19
>>> > Para: José Antonio Palazón Ferrando <palazon using um.es>
>>> > CC: R-help-es <r-help-es using r-project.org>
>>> > Asunto: Re: [R-es] Como reordenar datos para analisis multiples
>>> > correspondencias (MCA)
>>> >
>>> > Mil gracias, José Antonio!
>>> > Creo que, entre tu recomendación y el apelo al ingenio de Javier, voy a
>>> > terminar generando la tabla que necesito.
>>> >
>>> > Mi problema, al contrario de lo que entiendo que les pasa a los que
>>> > necesitan condensar, es que necesito extender... mi ya extensa
>>> data.frame.
>>> > Pero poder pensar en el problema de otros me ayuda a entender el mío.
>>> >
>>> > Hau idatzi du José Antonio Palazón Ferrando (palazon using um.es)
>>> erabiltzaileak
>>> > (2019 mai. 14, ar. (09:03)):
>>> >
>>> > > Hola:
>>> > >
>>> > > Quizá esto pueda ser de utilidad:
>>> > > Se trata de prepara una “tabla” que tenga tantas columnas como
>>> > > modalidades hay en el total de los individuos.
>>> > > Cada columna toma el nombre de la modalidad y hacemos que cada
>>> > > individuo tome el valor 1 en las modalidades correspondientes.
>>> > >
>>> > > En este texto <http://ares.inf.um.es/mmcl/formatoCondensado.html> se
>>> > > explica y proporciona el procedimiento para hacerlo con listas de
>>> > > especies o caracteres, es muy fácil adaptarlo a tus necesidades.
>>> > >
>>> > > Seguimos
>>> > >
>>> > >
>>> > >
>>> > > El 14/5/19 a las 0:04, Juan Abasolo escribió:
>>> > > > Gracias, Javier;
>>> > > > Anduve buscando entre tus dos propuestas para mi encarables (plyr y
>>> > > > reshape2) y presupongo que el problema es eso del ingenio que
>>> > > > comentás,
>>> > > que
>>> > > > hay que tener y no tengo.
>>> > > >
>>> > > > Los paquetes me vinieron igualmente re-bien, porque me di cuenta
>>> que
>>> > > > no tengo por qué sufrir haciéndolo a mano cada vez que encaro
>>> > > > algunas de
>>> > > esas
>>> > > > situaciones.
>>> > > >
>>> > > > Pero lo de ordenar los datos para el MCA... el ingenio estara en
>>> > > > alguna inlampara de casa, porque a mí no se me enciende la
>>> bombilla.
>>> > > > Parece prudente, a falta de más, idea purgar las respuestas dobles
>>> > > > según algún criterio, que siempre es deformar la realidad un
>>> poquito
>>> > más.
>>> > > >
>>> > > >
>>> > > >
>>> > > > Hau idatzi du Javier Marcuzzi (javier.ruben.marcuzzi using gmail.com)
>>> > > > erabiltzaileak (2019 mai. 13, al. (14:47)):
>>> > > >
>>> > > >> Estimado Juan Abasolo
>>> > > >>
>>> > > >> Para esas actividades se necesita algo de ingenio, no hay una sola
>>> > > >> solución, para esto existen librerías como plyr, reshape2, entre
>>> > > >> otras,
>>> > > o
>>> > > >> simplemente a mano, en lo personal mis primeros pasos para ordenar
>>> > > >> fue sqldf porque conocía sql más que R, sin embargo hoy las
>>> > > >> alternativas al respecto son muy amplias.
>>> > > >>
>>> > > >> Yo pienso en como debo colocar los datos en el modelo, luego en
>>> > > >> como
>>> > > tengo
>>> > > >> los datos originales, y finalmente busco la forma de acomodarlos.
>>> > > >> En
>>> > > este
>>> > > >> paso posiblemente es donde R tiene la mayor cantidad de
>>> > > >> alternativas e insumo de tiempo razonando puesto que tiene algo de
>>> > "artesanal en R".
>>> > > >>
>>> > > >> Javier Rubén Marcuzzi
>>> > > >>
>>> > > >> El dom., 12 may. 2019 a las 18:53, Juan Abasolo
>>> > > >> (<juan.abasolo using ehu.eus
>>> > > >)
>>> > > >> escribió:
>>> > > >>
>>> > > >>> Necesito luz para ordenar unos datos... en realidad, para ordenar
>>> > > muchos
>>> > > >>> muchoas veces. El problema hoy:
>>> > > >>>
>>> > > >>> Tengo una base de datos que incluye respuestas dobles en algunas
>>> > > variables
>>> > > >>> en algunos individuos, tabla didáctica:
>>> > > >>>
>>> > > >>>              idioma   alergia          color
>>> > > >>> individuo1  en,es     0               amarillo
>>> > > >>> individuo2  es,en     huevo           limon
>>> > > >>> individuo3  es,fr,en  pescado, huevo  salmon
>>> > > >>>
>>> > > >>> Necesitaría ordenarlos de otra manera (creo), para poder hacer un
>>> > > análisis
>>> > > >>> de multiples concordancias, porque tal y como lo tengo puesto,
>>> por
>>> > > >>> ejemplo, en idioma no hay concordancia, aunque es evidente que
>>> > > >>> entre todos
>>> > > podrían
>>> > > >>> comunicarse entre castellano o inglés, por ejemplo o que son
>>> > > equivalentes,
>>> > > >>> también en idioma, los sujetos 1 y 2.
>>> > > >>>
>>> > > >>> Los datos con los que tengo que trabajar, de momento, son
>>> > > >>> equivalentes
>>> > > a
>>> > > >>> los del ejemplo, lease categóricos e incluyen posibilidad de
>>> > > >>> respuestas múltiples.
>>> > > >>>
>>> > > >>> Supongo que le resultará obvio a alguno cómo resolverlo o en qué
>>> > > >>> está
>>> > > mal
>>> > > >>> el orden así de los datos... pero yo nopuedo darme cuenta.
>>> > > >>>
>>> > > >>> a) Alguna pista?
>>> > > >>> b) Recomendación de lectura para abrir un poco la mente? (tengo
>>> > > >>> más de
>>> > > una
>>> > > >>> de este estilo)
>>> > > >>>
>>> > > >>> Gracias
>>> > > >>>
>>> > > >>>
>>> > > >>>
>>> > > >>> --
>>> > > >>> Juan Abasolo
>>> > > >>>
>>> > > >>> Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa
>>> > > >>> taldea Bilboko Hezkuntza Fakultatea Euskal Herriko Unibertsitatea
>>> > > >>> UPV/EHU
>>> > > >>>
>>> > > >>> Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>>> > > >>>
>>> > > >>> T: (+34) 94 601 7567
>>> > > >>> Telegram: @JuanAbasolo
>>> > > >>> Skype: abasolo72
>>> > > >>>
>>> > > >>> Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>>> > > >>>
>>> > > >>>          [[alternative HTML version deleted]]
>>> > > >>>
>>> > > >>> _______________________________________________
>>> > > >>> R-help-es mailing list
>>> > > >>> R-help-es using r-project.org
>>> > > >>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> > > >>>
>>> > >
>>> > > --
>>> > >
>>> > > ____________________________________________________________
>>> > > José Antonio Palazón Ferrando
>>> > > Profesor Titular. Departamento de Ecología e Hidrología.
>>> > > Facultad de Biología. Universidad de Murcia.
>>> > > Campus Universitario de Espinardo
>>> > > 30100 MURCIA-SPAIN
>>> > > Telf: +34 868 88 49 80
>>> > > Fax : +34 868 88 39 63
>>> > > Email: palazon using um.es
>>> > >
>>> > >
>>> > >         [[alternative HTML version deleted]]
>>> > >
>>> > > _______________________________________________
>>> > > R-help-es mailing list
>>> > > R-help-es using r-project.org
>>> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> > >
>>> >
>>> >
>>> > --
>>> > Juan Abasolo
>>> >
>>> > Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
>>> > Bilboko Hezkuntza Fakultatea Euskal Herriko Unibertsitatea UPV/EHU
>>> >
>>> > Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>>> >
>>> > T: (+34) 94 601 7567
>>> > Telegram: @JuanAbasolo
>>> > Skype: abasolo72
>>> >
>>> > Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>>> >
>>> >         [[alternative HTML version deleted]]
>>> >
>>> > _______________________________________________
>>> > R-help-es mailing list
>>> > R-help-es using r-project.org
>>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> >
>>> >
>>>
>>> --
>>> Juan Abasolo
>>>
>>> Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
>>> Bilboko Hezkuntza Fakultatea
>>> Euskal Herriko Unibertsitatea
>>> UPV/EHU
>>>
>>> Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>>>
>>> T: (+34) 94 601 7567
>>> Telegram: @JuanAbasolo
>>> Skype: abasolo72
>>>
>>> Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>>>
>>>         [[alternative HTML version deleted]]
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es using r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>
> --
> Juan Abasolo
>
> Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
> Bilboko Hezkuntza Fakultatea
> Euskal Herriko Unibertsitatea
> UPV/EHU
>
> Sarriena auzoa z/g 48940 - Leioa (Bizkaia)
>
> T: (+34) 94 601 7567
> Telegram: @JuanAbasolo
> Skype: abasolo72
>
> Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>
>

	[[alternative HTML version deleted]]