Allgemeines zur nichtparametrischen Statistik
Parametrischen statistischen Verfahren (http://de.wikipedia.org/wiki/Parametrische_Statistik)
liegt in der Regel ein mathematisches Modell zugrunde, das auf einer
Verteilungsannahme beruht, häufig der Normalverteilung. Dabei müssen
nicht unbedingt die Merkmale selbst der Verteilung folgen, häufig sind es
auch abgeleitete Größen wie z.B. die Residuen. Die im Modell
angenommene Verteilung hat Parameter (z.B. Mittelwert m und Standardabweichung s bei
der Normalverteilung), über die sich dann die Parameter des Modells
bestimmen lassen. Bei den nichtparametrischen Verfahren, auch
verteilungsfreie Verfahren genannt (http://de.wikipedia.org/wiki/Parameterfreie_Statistik),
wird in der Regel keine solche Verteilung angenommen.
Parametrische Verfahren werden meistens angewandt, wenn die
abhängige Variable metrisch ist und zusätzliche
Verteilungsvoraussetzungen, wie Normalverteilung der Residuen, erfüllt
sind. Häufig kommen zusätzliche Voraussetzungen hinzu, wie z.B.
Homogenität der Varianzen oder Unabhängigkeit der Beobachtungen. So
z.B. bei der Varianz- oder Regressionsanalyse. Ist eine der Voraussetzungen
nicht erfüllt, versucht man, äquivalente nichtparametrische Verfahren
anzuwenden, sofern vorhanden. Letztere haben gegenüber den parametrischen
eine geringere (asymptotische) Effizienz, in der Regel zwischen 63.7%
(2/pi), z.B. beim Vorzeichen- und Mediantest, und 95,5% (3/pi), so beim U-, H-,
Wilcoxon- und Friedman-Test, falls alle Voraussetzungen erfüllt sind. Die
Effizienz nichtparametrischer Tests kann allerdings auch umgekehrt über
100% , sogar beliebig hoch, liegen, wenn die Verteilungsvoraussetzungen nicht
erfüllt sind. D.h. je weniger die Voraussetzungen eines parametrischen
Tests erfüllt sind, desto eher ist zu einem nichtparametrischen Test zu
raten. (Eine Effizienz von 95% oder 67 % bedeutet, dass z.B. bei gleichen
Mittelwertunterschieden der nichtparametrische Test eine 5% bzw. 50%
größere Stichprobe erfordert, um dieselbe Signifikanz zu
erreichen.)
In Abhängigkeit vom Skalenniveau der abhängigen Variablen
unterscheidet man die Verfahren in solche für
- metrische Merkmale:
Bei diesen werden die Werte der Variablen in
Ränge umgerechnet (vgl.
http://de.wikipedia.org/wiki/Rang_(Statistik)).
Auf diese werden dann die klassischen parametrischen Verfahren angewandt. So
ist z.B. der Spearman-Rangkorrelationskoeffizient nichts anderes als der
Pearson-Produkt-Moment-Korrelationskoeffizient der Ränge. Lediglich die
Signifikanztests sind dann nicht mehr korrekt. Die korrekten Signifikanzen
errechnen sich mit Mitteln der Kombinatorik, allerdings nur für kleine n
(etwa <20) oder es werden asymptotische Signifikanztests angeboten, die nur
für große n (n>20) gültig sind. In SPSS wird beides
angeboten. Es konnte allerdings gezeigt werden, dass die Anwendung der
klassischen parametrischen Verfahren auf die rangtransformierten Daten (ohne
Anpassung der Signifikanztests) zu i.a. gültigen Ergebnissen führt.
Und dies sogar bei Verfahren, die sonst als sehr sensitiv bzgl. der
Verletzungen von Voraussetzungen gelten, so z.B. multiple Mittelwwertvergleiche
und Diskriminanzanalyse. klassischen parametrischen
Verfahren.
Literaturhinweise:
Conover, W. J. & Iman, R. L. (1981).
Rank transformations as a bridge between parametric and nonparametric
statistics. American Statistician 35 (3): 124129.
- ordinale Merkmale:
Die oben erwähnten Verfahren für
metrische Verfahren setzen voraus, dass eine Variable keine gleichen Werte hat.
Durch sog. Bindungskorrekturen werden diese Verfahren allerdings auch
anwendbar für ordinale Variablen, bei denen typischerweise Werte mehrfach
vorkommen und dieser Tatsache bei der Rangberechnung durch die sog.
Bindungen Rechnung getragen wird. Inzwischen sind in allen diesen
Verfahren Bindungskorrekturen eingebaut.
- dichotome Merkmale:
Dichotome Variablen könnte man einfach
unter die nominalen Variablen subsummieren. Sie spielen aber eine Sonderrolle:
Zum einen gestalten sich viele Formeln und mathematische Verfahren einfacher,
wenn ein Merkmal nur zwei Ausprägungen hat. Zum anderen haben viele
Simulationen gezeigt, dass man dichotome Variablen bei größeren
Fallzahlen vielfach genauso handhaben kann wie metrische Variablen. So z.B. bei
der Varianzanalyse. Hinzu kommt, dass man dichotome Variablen als Extremfall
einer ordinalen Variablen betrachten kann und somit die dafür konzipierten
Verfahren anwenden kann. Tatsächlich sind Verfahren für dichtomome
Variablen häufig identisch mit den äquivalenten für ordinale
Variablen, z.B. der Phi-Koeffizient (Abhängigkeitsmaß) als
Spezialfall des Spearman-Korrelationskoeffizienten oder Cochrans Q-Test als
Spezialfall von Friedmans Varianzanalyse.
Literaturhinweise:
Cochran,
W.G. (1950): The comparison of percentages in matched samples.
Biometrika 3
Lunney, G.H. (1970): Using Analysis of Variance with a
dichtomous dependent variable: an empirical study. Journal of Educational
Measurement Volume 7, Issue 4
- nominale Merkmale:
Hier sind die polychotomen Merkmale
angesprochen, also solche mit drei oder mehr Ausprägungen. Für solche
Variablen gibt es vergleichsweise wenig statistische Methoden. Hinzu kommt,
dass diese nicht immer trivial anzuwenden und die Ergebnisse nicht immer leicht
verständlich sind.
Literaturhinweise:
G.A.Lienert: Verteilungsfreie Methoden in der
Biostatistik - Band 1 und 2, 1987 (der Klassiker)
J. Bortz, G.A.
Lienert, K. Boehnke: Verteilungsfreie Methoden in der Biostatistik,
Springer, 2008 (gekürzte Neuauflage des Klassikers)
E. Brunner & U.
Munzel: Nichtparametrische Datenanalyse - unverbundene Stichproben,
Springer, ISBN 3-540-43375-9
W.J. Conover: Practical nonparametric
Ststitsics, Wiley, 1980 (Standardverfahren mit einigen
Zusatzinformationen)
M.L. Puri & P.K. Sen: Nonparametric Methods in
General Linear Models, Wiley, Ney York, 1985 (schwer lesbar, aber Basis
für neuere Methoden)
Haiko Lüpsen
Regionales Rechenzentrum der Universität
zu Köln
21.2.2013