[ETH-stat] Transformation von datenreihen mit nullwerten

Martin Maechler maechler at stat.math.ethz.ch
Fri Mar 18 15:26:01 CET 2005


(Bitte öffentliche Mailing-List "Gespräche" nicht einfach
 willkürlich privatisieren!  Andere "Zuhörer" wollen oft dabei
 bleiben und den Schluss auch nicht verpassen)

    MarcW> Am 18.03.2005 09:03 Uhr schrieb "Martin Maechler" unter
    MarcW> <maechler at stat.math.ethz.ch>:

    >>>>>>> "Marc" == Marc Wälti <marc.waelti at env.ethz.ch>
    >>>>>>> on Thu, 17 Mar 2005 17:51:52 +0100 writes:
    >> 
    Marc> Hi
    Marc> Gibt es eine möglichkeit eine datenreihe mit nullwerten so zu
    Marc> transformieren, dass an die normalverteilung angenähert werden kann?
    >> 
    >> hmm, es kommt drauf an.  Ich vermute, dass es keine negativen
    >> Werte hat (d.h. alle Werte >= 0) und dazu  gibt's viele 0?
    >> 
    >> (oder -- Gegenextrem --  '0' ist ``in der Mitte'' der Verteilung??)

 MarcW> Ja, genau.

 MarcW> Ich habe eine datenverteilung, in der gewisse stoffe
 MarcW> eben nicht da (=0)sind.  Diese kann ich jedoch nicht
 MarcW> rausstreichen, da sie biol relevant sind! Nur kann
 MarcW> ich keine transformationen machen, die sinn machen!

Es gibt verschiedene Ansätze, mit solchen Daten umzugehen.
Ein "richtiges" Modell wäre eine Mischungs Verteilung

    F(x) = p* 1_{x = 0} + (1-p)* F~(x)

wobei 'p' die (zu schätzende) Wahrscheinlichkeit ist, dass "X = 0"
und  F~(x) die Verteilung von  (X | X > 0) ist,
typischerweise könnte  F~(x) eine  log-Normalverteilung sein.

Ein anderes "richtiges" Modell wäre ein Ansatz mit einer
Zensurierung:  Sei F~ die wahre Verteilung einer Zufallsvariable X~,
die auch negativ sein kann, und die Beobachtungen sind dann
    X = max(0, X~)
d.h. alle Werte von X~ <= 0 werden als "X = 0" beobachtet.


Praktisch sind diese beiden "richtigen" Ansätze aber nicht immer
'feasible' und es gibt verschiedene ``quick & dirty'' Lösungen,
eine davon wäre eine Datentransformation

     Y = ln(X + 1)  
oder Y = ln(X + a) , wobei z.B. a := min_i {x_i, x_i > 0}

Mit freundlichen Grüssen,
Martin Mächler, Seminar fuer Statistik, ETH-Zentrum



More information about the ETH-statuser mailing list