Früher war die Zukunft auch besser – Teil 2: Die Wissensgesellschaft

Die Herausforderungen für die Zukunft im Anthropozän sind gewaltig: Klimawandel, schwindende Ressourcen, demographischer Wandel, globale Gerechtigkeit – die Liste ist verlängerbar. Die große Transformation in eine nachhaltige und lebenswerte Zukunft kann nur mit Hilfe einer Wissensgesellschaft funktionieren, da werden viele sicherlich zustimmen. Also brauchen wir Wissenschaft und Forschung mehr denn je? Sicherlich. Früher machte die Wissenschaft gigantische Fortschritte und wir trauten ihr vieles zu. Die Technologien der Welterkundungen und später der Industrialisierung waren zunehmend wissenschaftsbasiert, Telefon, Röntgen, die Entdeckung elektromagnetischerweiter

Der Siegeszug der Quallen – nur ein Medienphänomen?

Dass mit dem menschengemachten Niedergang der Fische die Quallen die Ozeane erobern, dafür sprechen neben anekdotischen Hinweisen auch einige grundsätzliche Überlegungen. Von beidem habe ich ja in der neuesten Folge von WWAS berichtet, siehe Video unten. Die Idee ist aber durchaus umstritten, und hat einigen Widerspruch aus der Forschung hervorgerufen. Quallen treten oft in enormen Mengen auf, und seit einigen Jahren verfestigt sich der Eindruck, dass diese Schwärme nicht nur größer werden, sondern auch insgesamt häufiger auftreten und dabei regelmäßigweiter

Wissenschaft und Journalismus als Marketing/PR

Zu meiner Arbeit gehört es unter anderem, Pressemitteilungen über die Forschung zu schreiben, die am Max-Planck-Institut für Astronomie stattfindet. Schon deswegen mache ich mir regelmäßig Gedanken darüber, wie wissenschaftliche Öffentlichkeitsarbeit funktioniert, wie sie funktionieren sollte, was eine gute Pressemitteilung ausmacht und dergleichen. Gestern bekam ich zu diesem Thema gleich mehrere Denkanstöße. Der erste ging von einem Online-Artikel aus, Wie laut darf Forschung sein? im Hamburger Abendblatt über Pressemitteilungen aus der Medizin, die bei den Lesern falsche Hoffnungen wecken. Später habeweiter

Das große Puzzle

Manchmal bekomme ich Anfragen von Alternativwissenschaftlern, ob ich mal einen Blick auf ihre Ansätze werfen kann. Ob ich vielleicht helfen kann, diese zu publizieren und bekannt zu machen. Meistens kann ich das nicht. Zum einen, weil ich kein theoretischer Physiker bin und im Bereich fundamental neuer Theorien, wie den Stringtheorien oder der Loop-Quantengravitation, nicht tief und aktuell genug informiert bin, um etwas fachliches beizutragen. Zum anderen, weil mich solche Ansätze meist selbst nicht überzeugen. Meistens aus demselben Grund: Sie passenweiter

Neuroskeptizismus

Braincast 327 An der Hirnforschung gibt es manches zu bemängeln und momentan häuft sich diese Kritik. Das ist mal gerechtfertigt, mal nicht und mag auch mit ihrer Popularität zusammenhängen. Aber schon dieser mein letzter Satz offenbart, wie ich dazu stehe. Hier – wenn auch nicht nur – ein Konter.

Statistische Signifikanz (p-Wert) in Studien (mit Simulator)

Was bedeutet signifikant? Was bedeutet statistisch signifikant? Was bedeutend der statistische p-Wert? Warum wird der p-Wert eingesetzt?

Statistik ist ein wesentlicher Teil empirischer, wissenschaftlicher Studien. Kenntnisse in Statistik sind notwendig.

Ich hatte einmal etwas Statistik, doch das ist schon länger her. Zur Auffrischung und zum Erklären habe ich diesen Artikel mit einem kleinen Statistik-Simulator geschrieben. Der Simulator soll zum Ausprobieren animieren. Beim Artikel stand nicht die mathematische Präzision im Vordergrund, sondern das intuitive Verständnis.

Die mathematischen Symbole und der Simulator werden dynamischen (mit JavaScript) erstellt. Aus diesem Grund wird der Artikel in RSS-Feeds und versandten E-Mails nicht vollständig angezeigt und ausführbar sein. Der Simulator funktioniert im Web-Browser.

Münz-Beispiel

Der Simulator stellt ein kleines Beispiel dar. Wir simulieren eine Münze. $0$ ist Kopf. $1$ ist Zahl. Die Stichprobe (Beobachtung, Datenerhebung) besteht aus $n$ Würfen.

Wir können uns nun fragen, ob die Münze fair ist, ob Kopf und Zahl gleich wahrscheinlich sind oder ob eine der beiden Seiten wahrscheinlicher ist. Ähnlich der Frage, ob Behandlungserfolge zufällig sind oder auf die Wirkung der Behandlung zurückgehen.

Statistische Tests

Bei Stichproben aus Datenerhebungen stellt sich die Frage, ob die Stichprobe «ein Muster» zeigt oder, ob die Stichprobe im Rahmen des Zufalls ist. Um diese Frage zu beantworten gibt es statistische Tests. Je nach Problemfeld und erhobenen Daten kommen verschiedene Tests zum Einsatz.

Mathematik ist eine Sprache und ein Werkzeug. Um das Problem statistisch bearbeiten zu können, müssen wir es übersetzen. Um die spätere Bearbeitung zu erleichtern wird es in eine bestimmte Form gebracht.

Die zu überprüfende Hypothese, dass Kopf und Zahl gleich wahrscheinlich sind, wird als Nullhypothese $H_0$ bezeichnet. Die gegenteilige Hypothese wird als Alternativhypothese $H_1$ bezeichnet.

$H_0$: Die Wahrscheinlichkeit $p$ für Kopf ist gleich der Wahrscheinlichkeit für Zahl, oder formal $p = 1/2$.

$H_1$: Die Wahrscheinlichkeiten sind unterschiedlich. Es gilt also: $p \ne 1/2$.

Ja/Nein, $0/1$ Experimente sind binominalverteilt. Sie gehorchen der Binominalverteilung.

Im statistischen Test wird nun geprüft wie wahrscheinlich eine Stichprobe bei einer Binominalverteilung ist. Es wird der p-Wert der Stichprobe bestimmt. Ein zuvor festgelegter Signifikanzschwellwert $\alpha$, typischerweise $0.05$, sagt ab welchem p-Wert die Nullhypothese verworfen wird. Falls die Wahrscheinlichkeit der Stichprobe kleiner als dieser Signifikanzschwellwert ist, wird die Nullhypothese verworfen und die Alternativhypothese angenommen.

Kompakter geschrieben:

$H_0$: $p = p_0$

$H_1$: $p \ne p_0$ (bei zweiseitiger Fragestellung)

Unter der Nullhypothese ist die Stichprobe binomialverteilt mit dem Erwartungswert $n p_0$.

Es gibt verschiedene statistische Tests um binominalverteilte Stichproben zu prüfen.

  • Binominaltest für eine Stichprobe
    • Binominaltestnäherung für eine hinreichend grosse Stichprobengrösse
  • Chi2-Test für eine Stichprobe mit einem 2-fach gestuften Merkmal

Simulator

Ich habe für die oben beschriebenes Münzbeispiel einen Simulator geschrieben. $0$ ist Kopf, $1$ ist Zahl. $p_0$ ist die gegebene Wahrscheinlichkeit für Kopf. Diesen Wert wollen wir statistisch überprüfen. Im Simulator kann $p_0$ mit einem Schieberegler eingestellt werden.

Die Grösse einer Stichprobe kann mit dem Schieberegler $n$ eingestellt werden. Eine Stichprobe entspricht einem Experiment. Dies könnte in der Realität einer Studie entsprechen.

Im Simulator ist es leicht viele Wiederholungen des Experimentes zu machen und viele Stichproben auswerten zu können.

Mit dem Simulator kann gespielt und intuitiv ausprobiert werden.

Interessante Szenarien sind:

  • Wie viele falsche signifikante Ergebnisse gibt es? Wie häufig wird die Nullhypothese verworfen bei $p_0 = 1/2$, also eine fairer Münze, wo die Nullhypothese gilt? (Mit Parameter Anzahl Läufe $m$ spielen.)
    • Wie abhängig ist die Anzahl signifikanter Ergebnisse von der Stichprobengrösse? (Mit Parameter $n$ spielen, beispielsweise $n = 40$ oder $n = 100$.)
  • Wie unfair muss eine Münze sein, damit die Nullhypothese verworfen wird, also ein signifikantes Ergebnis erzielt wird. ($p_0$ auf $0.51$, $0.6$ und $0.7$ setzen). Wie aggressiv wird $H_0$ verworfen?
    • Gleichzeitig kann der Einfluss der Stichprobengrösse untersucht werden. (Mit Parameter $n$ spielen, beispielsweise $n = 40$ oder $100$.)

Viel Spass beim Simulieren!

Beobachtungen

Wir sehen, dass für eine recht unfaire Münze (Bsp. $p_0 = 0.66$) genügen schon wenige Stichproben (Bsp. $n = 20$), um eine statistisch zuverlässige Aussage mit tiefem p-Wert zu erhalten. (Kontrolle mit $m = 100$).

Umgekehrt kann für eine kleine Unfairness (Bsp. $p_0 = 0.51$) mit einer grossen Stichprobe (Bsp. $n = 1000$) ein signifikantes Ergebnis mit (p-Wert $

Die statistische Signifikanz sagt nichts über die Relevanz eines Ergebnisses. Die Signifikanz bzw. Relevanz kann nicht von der statistischen Signifikanz abgeleitet werden. Die statistische Signifikanz gibt nur eine Antwort, ob ein Resultat zufällig oder überzufällig ist.

Da es sich um ein mathematisches Modell handelt, könnte man sich für $0$ auch eine Geburt eines Knaben denken und für $1$ die Geburt eines Mädchens. Das wird mit diesem $0/1$ Modell genauso abgebildet. Gibt es statistisch mehr Geburten eines Geschlechts? Mehr Knaben, mehr Mädchen?

Literaturangaben

Für die Erstellung dieses Artikels habe ich Wikipedia (p-Wert, Binomialtest, Chi-Quadrat) und das Buch Basiswissen Medizinische Statistik, Christel Weiß, 5., überarbeitete Auflage. Springer, 2010 benutzt.

Quellcode

Im Sinne von Open Source ist hier der Simulator abrufbar: p-Wert 1 Stichproben Simulator.js

Als Statistik-Hilfsprogramm habe ich jstat verwendet. Die wunderschöne mathematische Darstellung erstelle ich mit MathJAX. Die Simulatorbenutzeroberfläche habe ich mit jQuery und jQuery UI gemacht.

Ausblick

Im vorliegenden Simulator habe ich den einfachst möglichen Simulator erstellt. Kopf/Zahl werden mit $0/1$ abgebildet. Das Prinzip kann demonstriert werden. Auf die Thematik von ein- und zweiseitigen Tests bin ich nicht eingegangen.

Der Simulator kann noch erweitert werden:

  1. Wie in klinischen Studien üblich, kann eine Kontrollgruppe (z.B. mit Placebo) einbezogen werden.
  2. Die Statistik einer echten, grossen Studie könnte nachgebildet und simuliert werden.1

Bei Zeit und Lust werde ich mich daran machen.

Fazit

Der p-Wert von statistischen Tests gibt an wie wahrscheinlich eine Stichprobe (Experiment, Versuch, …) unter Annahme einer Verteilung ist. Er zeigt, ob eine Stichprobe zufällig oder überzufällig ist. Die statistische Signifikanz sagt nichts über die (nicht-statistische) Signifikanz. In anderen Worten, die statistische Signifikanz sagt nicht wie relevant eine Ergebnis ist.


  1. Die Nachbildung einer echten wissenschaftlichen Studie ist möglich, da in der Wissenschaft die Methoden angegeben werden. Also auch, welche statistischen Verfahren benutzt wurden. 

Statistische Signifikanz (p-Wert) in Studien (mit Simulator)

Was bedeutet signifikant? Was bedeutet statistisch signifikant? Was bedeutend der statistische p-Wert? Warum wird der p-Wert eingesetzt?

Statistik ist ein wesentlicher Teil empirischer, wissenschaftlicher Studien. Kenntnisse in Statistik sind notwendig.

Ich hatte einmal etwas Statistik, doch das ist schon länger her. Zur Auffrischung und zum Erklären habe ich diesen Artikel mit einem kleinen Statistik-Simulator geschrieben. Der Simulator soll zum Ausprobieren animieren. Beim Artikel stand nicht die mathematische Präzision im Vordergrund, sondern das intuitive Verständnis.

Die mathematischen Symbole und der Simulator werden dynamischen (mit JavaScript) erstellt. Aus diesem Grund wird der Artikel in RSS-Feeds und versandten E-Mails nicht vollständig angezeigt und ausführbar sein. Der Simulator funktioniert im Web-Browser.

Münz-Beispiel

Der Simulator stellt ein kleines Beispiel dar. Wir simulieren eine Münze. $0$ ist Kopf. $1$ ist Zahl. Die Stichprobe (Beobachtung, Datenerhebung) besteht aus $n$ Würfen.

Wir können uns nun fragen, ob die Münze fair ist, ob Kopf und Zahl gleich wahrscheinlich sind oder ob eine der beiden Seiten wahrscheinlicher ist. Ähnlich der Frage, ob Behandlungserfolge zufällig sind oder auf die Wirkung der Behandlung zurückgehen.

Statistische Tests

Bei Stichproben aus Datenerhebungen stellt sich die Frage, ob die Stichprobe „ein Muster“ zeigt oder, ob die Stichprobe im Rahmen des Zufalls ist. Um diese Frage zu beantworten gibt es statistische Tests. Je nach Problemfeld und erhobenen Daten kommen verschiedene Tests zum Einsatz.

Mathematik ist eine Sprache und ein Werkzeug. Um das Problem statistisch bearbeiten zu können, müssen wir es übersetzen. Um die spätere Bearbeitung zu erleichtern wird es in eine bestimmte Form gebracht.

Die zu überprüfende Hypothese, dass Kopf und Zahl gleich wahrscheinlich sind, wird als Nullhypothese $H_0$ bezeichnet. Die gegenteilige Hypothese wird als Alternativhypothese $H_1$ bezeichnet.

$H_0$: Die Wahrscheinlichkeit $p$ für Kopf ist gleich der Wahrscheinlichkeit für Zahl, oder formal $p = 1/2$.

$H_1$: Die Wahrscheinlichkeiten sind unterschiedlich. Es gilt also: $p \ne 1/2$.

Ja/Nein, $0/1$ Experimente sind binominalverteilt. Sie gehorchen der Binominalverteilung.

Im statistischen Test wird nun geprüft wie wahrscheinlich eine Stichprobe bei einer Binominalverteilung ist. Es wird der p-Wert der Stichprobe bestimmt. Ein zuvor festgelegter Signifikanzschwellwert $\alpha$, typischerweise $0.05$, sagt ab welchem p-Wert die Nullhypothese verworfen wird. Falls die Wahrscheinlichkeit der Stichprobe kleiner als dieser Signifikanzschwellwert ist, wird die Nullhypothese verworfen und die Alternativhypothese angenommen.

Kompakter geschrieben:

$H_0$: $p = p_0$

$H_1$: $p \ne p_0$ (bei zweiseitiger Fragestellung)

Unter der Nullhypothese ist die Stichprobe binomialverteilt mit dem Erwartungswert $n p_0$.

Es gibt verschiedene statistische Tests um binominalverteilte Stichproben zu prüfen.

  • Binominaltest für eine Stichprobe
    • Binominaltestnäherung für eine hinreichend grosse Stichprobengrösse
  • Chi2-Test für eine Stichprobe mit einem 2-fach gestuften Merkmal

Simulator

Ich habe für die oben beschriebenes Münzbeispiel einen Simulator geschrieben. $0$ ist Kopf, $1$ ist Zahl. $p_0$ ist die gegebene Wahrscheinlichkeit für Kopf. Diesen Wert wollen wir statistisch überprüfen. Im Simulator kann $p_0$ mit einem Schieberegler eingestellt werden.

Die Grösse einer Stichprobe kann mit dem Schieberegler $n$ eingestellt werden. Eine Stichprobe entspricht einem Experiment. Dies könnte in der Realität einer Studie entsprechen.

Im Simulator ist es leicht viele Wiederholungen des Experimentes zu machen und viele Stichproben auswerten zu können.

Mit dem Simulator kann gespielt und intuitiv ausprobiert werden.

Interessante Szenarien sind:

  • Wie viele falsche signifikante Ergebnisse gibt es? Wie häufig wird die Nullhypothese verworfen bei $p_0 = 1/2$, also eine fairer Münze, wo die Nullhypothese gilt? (Mit Parameter Anzahl Läufe $m$ spielen.)
    • Wie abhängig ist die Anzahl signifikanter Ergebnisse von der Stichprobengrösse? (Mit Parameter $n$ spielen, beispielsweise $n = 40$ oder $n = 100$.)
  • Wie unfair muss eine Münze sein, damit die Nullhypothese verworfen wird, also ein signifikantes Ergebnis erzielt wird. ($p_0$ auf $0.51$, $0.6$ und $0.7$ setzen). Wie aggressiv wird $H_0$ verworfen?
    • Gleichzeitig kann der Einfluss der Stichprobengrösse untersucht werden. (Mit Parameter $n$ spielen, beispielsweise $n = 40$ oder $100$.)

Viel Spass beim Simulieren!

Beobachtungen

Wir sehen, dass für eine recht unfaire Münze (Bsp. $p_0 = 0.66$) genügen schon wenige Stichproben (Bsp. $n = 20$), um eine statistisch zuverlässige Aussage mit tiefem p-Wert zu erhalten. (Kontrolle mit $m = 100$).

Umgekehrt kann für eine kleine Unfairness (Bsp. $p_0 = 0.51$) mit einer grossen Stichprobe (Bsp. $n = 1000$) ein signifikantes Ergebnis mit (p-Wert $< 0.05$) erreicht werden. (Kontrolle mit $m = 100$).

Die statistische Signifikanz sagt nichts über die Relevanz eines Ergebnisses. Die Signifikanz bzw. Relevanz kann nicht von der statistischen Signifikanz abgeleitet werden. Die statistische Signifikanz gibt nur eine Antwort, ob ein Resultat zufällig oder überzufällig ist.

Da es sich um ein mathematisches Modell handelt, könnte man sich für $0$ auch eine Geburt eines Knaben denken und für $1$ die Geburt eines Mädchens. Das wird mit diesem $0/1$ Modell genauso abgebildet. Gibt es statistisch mehr Geburten eines Geschlechts? Mehr Knaben, mehr Mädchen?

Literaturangaben

Für die Erstellung dieses Artikels habe ich Wikipedia (p-Wert, Binomialtest, Chi-Quadrat) und das Buch Basiswissen Medizinische Statistik, Christel Weiß, 5., überarbeitete Auflage. Springer, 2010 benutzt.

Quellcode

Im Sinne von Open Source ist hier der Simulator abrufbar: p-Wert 1 Stichproben Simulator.js

Als Statistik-Hilfsprogramm habe ich jstat verwendet. Die wunderschöne mathematische Darstellung erstelle ich mit MathJAX. Die Simulatorbenutzeroberfläche habe ich mit jQuery und jQuery UI gemacht.

Ausblick

Im vorliegenden Simulator habe ich den einfachst möglichen Simulator erstellt. Kopf/Zahl werden mit $0/1$ abgebildet. Das Prinzip kann demonstriert werden. Auf die Thematik von ein- und zweiseitigen Tests bin ich nicht eingegangen.

Der Simulator kann noch erweitert werden:

  1. Wie in klinischen Studien üblich, kann eine Kontrollgruppe (z.B. mit Placebo) einbezogen werden.
  2. Die Statistik einer echten, grossen Studie könnte nachgebildet und simuliert werden.1

Bei Zeit und Lust werde ich mich daran machen.

Fazit

Der p-Wert von statistischen Tests gibt an wie wahrscheinlich eine Stichprobe (Experiment, Versuch, …) unter Annahme einer Verteilung ist. Er zeigt, ob eine Stichprobe zufällig oder überzufällig ist. Die statistische Signifikanz sagt nichts über die (nicht-statistische) Signifikanz. In anderen Worten, die statistische Signifikanz sagt nicht wie relevant eine Ergebnis ist.


  1. Die Nachbildung einer echten wissenschaftlichen Studie ist möglich, da in der Wissenschaft die Methoden angegeben werden. Also auch, welche statistischen Verfahren benutzt wurden.