[R-es] Interpretación modelo ZINB

Mar Ago 22 17:42:32 CEST 2017

Buenas tardes,

He ejecutado un modelo binomial negativo de ceros inflados y me gustaría
que me ayudarais en la interpretación del modelo. Me gustaría saber
también como validarlo y probar la robustez. Os explico un poco que estoy
modelizando.
Te explico un poco mis datos y lo que quiero modelizar con el ZINB.

La variable dependiente del modelo es el nº de votos de utilidad que
recibe una reseña en una página web.  Cuando el consumidor la lee tiene 3
opciones, votarla como "útil", como "no útil" o no votar.  Para este
estudio estamos interesados en los votos de "util", incluyendo aquellas
que tienen 0 votos "util".

Nosotros proponemos un proceso que el consumidor sigue hasta que toma la
decisión de votar la reseña o no que consta de 3 etapas.

La idea con el modelo ZINB es ver como cada variable de cada etapa afecta
a la "utilidad" de las reseñas, que es la variable dependiente. La idea es
meter las variables como variables independientes del modelo y ver como
cada una afecta a la dependiente.
El modelo ZINB nos interesa porque distingue entre ceros verdaderos y
falsos. En nuestro caso, una reseña puede tener 0 votos porque realmente
no es de calidad y no es util o porque no ha sido leída por el consumidor
y por lo tanto, no ha podido ser votada. En nuestro contexto, es un cero
verdadero aquel de la reseña que tiene 0 votos porque aunque ha sido leída
no ha sido votada. Cero falso es aquel de la reseña que tiene 0 votos
porque no ha sido leída y por lo tanto no ha podido ser votada.

El modelo zero-inflation del ZINB, mide la probabilidad de que un cero sea
falso, es decir de que la reseña no se vote porque no se lee. En esta
parte del modelo entran en juego las variables de las dos primeras etapas
del proceso de voto. Tanto la probabilidad de considerar los productos
como la de considerar la reseña van a influir en que una reseña se lea o
no se lea, es decir en que los ceros sean falsos. Está claro que si no se
lee ( no es vista por el consumidor), las variables de la etapa de voto
(las propias de la reseña y el emisor) no pueden ser consideradas porque
no se ha leido la reseña y por ello  no afectan a esta parte del modelo.
Si la reseña se lee, es cuando se puede votar o no votar, y esta parte la
mide ya el modelo de conteo del modelo ZINB.

En el modelo de conteo, que tiene en cuenta tanto las reseñas con 0 votos
(ceros verdaderos) como con más votos, entran en juego las variables de la
reseña y el emisor. Una vez que el consumidor lee la reseña, la decisión
de votarla como util o no votarla va  a depender de los factores de la
reseña.

Por lo tanto, el modelo que tenemos quedaría así en R:

Call:
zeroinfl(formula = Evolucion.Yesvotes ~ Average.Rating.Inconsistency.abs +
Review.Quicktake.Dummy.y + WC.y + Title_wc + Quicktake_wc + Tone.y +
    Authentic.y + Analytic.y + Clout.y + Physical.Information.Sum +
Average.Reviewer.Reviews + Reviewer.Expenditure.Group.2017 |
Average.Product.Consideration.Bestselling +
    Average.Product.Consideration.New +
Average.Product.Consideration.TopRated +
Average.Review.Consideration.MostHelpful +
Average.Review.Consideration.Newest +
    Average.Review.Consideration.TopContributor, data = Comunes, dist =
"negbin")

Pearson residuals:
     Min       1Q   Median       3Q      Max
-0.68126 -0.07371 -0.04387 -0.02596 28.45862

Count model coefficients (negbin with log link):
                                                Estimate Std. Error z
value Pr(>|z|)
(Intercept)                                   -5.4727521  0.3075131
-17.797  < 2e-16 ***
Average.Rating.Inconsistency.abs               0.1439045  0.0578238  
2.489  0.01282 *
Review.Quicktake.Dummy.y                       2.6065756  0.2233601 
11.670  < 2e-16 ***
WC.y                                           0.0049510  0.0005680  
8.717  < 2e-16 ***
Title_wc                                      -0.0175549  0.0178333 
-0.984  0.32493
Quicktake_wc                                  -0.0190379  0.0136268 
-1.397  0.16239
Tone.y                                         0.0040236  0.0017236  
2.334  0.01957 *
Authentic.y                                   -0.0039767  0.0013314 
-2.987  0.00282 **
Analytic.y                                     0.0039323  0.0014093  
2.790  0.00527 **
Clout.y                                       -0.0050619  0.0019687 
-2.571  0.01013 *
Physical.Information.Sum                       0.2725491  0.0366530  
7.436 1.04e-13 ***
Average.Reviewer.Reviews                      -0.0002728  0.0001539 
-1.772  0.07634 .
Reviewer.Expenditure.Group.2017BEAUTY INSIDER -0.3127326  0.1517806 
-2.060  0.03936 *
Reviewer.Expenditure.Group.2017VIB             0.1779505  0.1630176  
1.092  0.27501
Reviewer.Expenditure.Group.2017VIB ROUGE       0.1971850  0.1589578  
1.240  0.21480
Log(theta)                                    -0.5719754  0.1038317 
-5.509 3.62e-08 ***

Zero-inflation model coefficients (binomial with logit link):
                                             Estimate Std. Error z value
Pr(>|z|)
(Intercept)                                   48.8023     4.8144  10.137 
< 2e-16 ***
Average.Product.Consideration.Bestselling     -1.1551     0.6089  -1.897  
0.0578 .
Average.Product.Consideration.New              9.4424     2.0857   4.527
5.98e-06 ***
Average.Product.Consideration.TopRated        -3.0881     0.6200  -4.981
6.34e-07 ***
Average.Review.Consideration.MostHelpful    -266.9164    28.7425  -9.286 
< 2e-16 ***
Average.Review.Consideration.Newest         -225.8302    35.3202  -6.394
1.62e-10 ***
Average.Review.Consideration.TopContributor   -2.1077     1.1193  -1.883  
0.0597 .
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Theta = 0.5644
Number of iterations in BFGS optimization: 93
Log-likelihood: -4028 on 23 Df

Muchas gracias y un saludo,

Miriam