Allgemeines zur nichtparametrischen Statistik

Parametrischen statistischen Verfahren (http://de.wikipedia.org/wiki/Parametrische_Statistik) liegt in der Regel ein mathematisches Modell zugrunde, das auf einer Verteilungsannahme beruht, häufig der Normalverteilung. Dabei müssen nicht unbedingt die Merkmale selbst der Verteilung folgen, häufig sind es auch abgeleitete Größen wie z.B. die Residuen. Die im Modell angenommene Verteilung hat Parameter (z.B. Mittelwert m und Standardabweichung s bei der Normalverteilung), über die sich dann die Parameter des Modells bestimmen lassen. Bei den nichtparametrischen Verfahren, auch verteilungsfreie Verfahren genannt (http://de.wikipedia.org/wiki/Parameterfreie_Statistik), wird in der Regel keine solche Verteilung angenommen.

Parametrische Verfahren werden meistens angewandt, wenn die abhängige Variable metrisch ist und zusätzliche Verteilungsvoraussetzungen, wie Normalverteilung der Residuen, erfüllt sind. Häufig kommen zusätzliche Voraussetzungen hinzu, wie z.B. Homogenität der Varianzen oder Unabhängigkeit der Beobachtungen. So z.B. bei der Varianz- oder Regressionsanalyse. Ist eine der Voraussetzungen nicht erfüllt, versucht man, äquivalente nichtparametrische Verfahren anzuwenden, sofern vorhanden. Letztere haben gegenüber den parametrischen eine geringere (asymptotische) Effizienz, in der Regel zwischen 63.7% (2/pi), z.B. beim Vorzeichen- und Mediantest, und 95,5% (3/pi), so beim U-, H-, Wilcoxon- und Friedman-Test, falls alle Voraussetzungen erfüllt sind. Die Effizienz nichtparametrischer Tests kann allerdings auch umgekehrt über 100% , sogar beliebig hoch, liegen, wenn die Verteilungsvoraussetzungen nicht erfüllt sind. D.h. je weniger die Voraussetzungen eines parametrischen Tests erfüllt sind, desto eher ist zu einem nichtparametrischen Test zu raten. (Eine Effizienz von 95% oder 67 % bedeutet, dass z.B. bei gleichen Mittelwertunterschieden der nichtparametrische Test eine 5% bzw. 50% größere Stichprobe erfordert, um dieselbe Signifikanz zu erreichen.)

In Abhängigkeit vom Skalenniveau der abhängigen Variablen unterscheidet man die Verfahren in solche für

metrische Merkmale:
Bei diesen werden die Werte der Variablen in Ränge umgerechnet (vgl. http://de.wikipedia.org/wiki/Rang_(Statistik)). Auf diese werden dann die klassischen parametrischen Verfahren angewandt. So ist z.B. der Spearman-Rangkorrelationskoeffizient nichts anderes als der Pearson-Produkt-Moment-Korrelationskoeffizient der Ränge. Lediglich die Signifikanztests sind dann nicht mehr korrekt. Die korrekten Signifikanzen errechnen sich mit Mitteln der Kombinatorik, allerdings nur für kleine n (etwa <20) oder es werden asymptotische Signifikanztests angeboten, die nur für große n (n>20) gültig sind. In SPSS wird beides angeboten. Es konnte allerdings gezeigt werden, dass die Anwendung der klassischen parametrischen Verfahren auf die rangtransformierten Daten (ohne Anpassung der Signifikanztests) zu i.a. gültigen Ergebnissen führt. Und dies sogar bei Verfahren, die sonst als sehr sensitiv bzgl. der Verletzungen von Voraussetzungen gelten, so z.B. multiple Mittelwwertvergleiche und Diskriminanzanalyse. klassischen parametrischen Verfahren.
Literaturhinweise:
Conover, W. J. & Iman, R. L. (1981). Rank transformations as a bridge between parametric and nonparametric statistics. American Statistician 35 (3): 124–129.
ordinale Merkmale:
Die oben erwähnten Verfahren für metrische Verfahren setzen voraus, dass eine Variable keine gleichen Werte hat. Durch sog. Bindungskorrekturen werden diese Verfahren allerdings auch anwendbar für ordinale Variablen, bei denen typischerweise Werte mehrfach vorkommen und dieser Tatsache bei der Rangberechnung durch die sog. Bindungen Rechnung getragen wird. Inzwischen sind in allen diesen Verfahren Bindungskorrekturen eingebaut.
dichotome Merkmale:
Dichotome Variablen könnte man einfach unter die nominalen Variablen subsummieren. Sie spielen aber eine Sonderrolle: Zum einen gestalten sich viele Formeln und mathematische Verfahren einfacher, wenn ein Merkmal nur zwei Ausprägungen hat. Zum anderen haben viele Simulationen gezeigt, dass man dichotome Variablen bei größeren Fallzahlen vielfach genauso handhaben kann wie metrische Variablen. So z.B. bei der Varianzanalyse. Hinzu kommt, dass man dichotome Variablen als Extremfall einer ordinalen Variablen betrachten kann und somit die dafür konzipierten Verfahren anwenden kann. Tatsächlich sind Verfahren für dichtomome Variablen häufig identisch mit den äquivalenten für ordinale Variablen, z.B. der Phi-Koeffizient (Abhängigkeitsmaß) als Spezialfall des Spearman-Korrelationskoeffizienten oder Cochrans Q-Test als Spezialfall von Friedmans Varianzanalyse.
Literaturhinweise:
Cochran, W.G. (1950): The comparison of percentages in matched samples. Biometrika 3
Lunney, G.H. (1970): Using Analysis of Variance with a dichtomous dependent variable: an empirical study. Journal of Educational Measurement Volume 7, Issue 4
nominale Merkmale:
Hier sind die polychotomen Merkmale angesprochen, also solche mit drei oder mehr Ausprägungen. Für solche Variablen gibt es vergleichsweise wenig statistische Methoden. Hinzu kommt, dass diese nicht immer trivial anzuwenden und die Ergebnisse nicht immer leicht verständlich sind.

Literaturhinweise:
G.A.Lienert: Verteilungsfreie Methoden in der Biostatistik - Band 1 und 2, 1987 (der Klassiker)
J. Bortz, G.A. Lienert, K. Boehnke: Verteilungsfreie Methoden in der Biostatistik, Springer, 2008 (gekürzte Neuauflage des Klassikers)
E. Brunner & U. Munzel: Nichtparametrische Datenanalyse - unverbundene Stichproben, Springer, ISBN 3-540-43375-9
W.J. Conover: Practical nonparametric Ststitsics, Wiley, 1980 (Standardverfahren mit einigen Zusatzinformationen)
M.L. Puri & P.K. Sen: Nonparametric Methods in General Linear Models, Wiley, Ney York, 1985 (schwer lesbar, aber Basis für neuere Methoden)

Haiko Lüpsen
Regionales Rechenzentrum der Universität zu Köln
21.2.2013