19/02/2012

Grundlagen der Biostatistik

geschrieben von

1) Was bedeutet biologische Variabilität? Welche Folgerungen ergeben sich dadurch?

Variabilität bezeichnet allgemein eine zeitliche oder räumliche Veränderung oder Wandelbarkeit von Individuen in einer Grundgesamtheit oder Stichprobe.

Ein statistisches Maß für Variabilität einer (Zufalls)variable ist die Varianz.

In der Biologie werden die mehr oder weniger geringen Unterschiede zwischen zwei Individuen einer Art als Variabilität oder Variation bezeichnet. Der Begriff ist besonders in der Evolutionsbiologie von Bedeutung, da diese geringen Veränderungen ausschlaggebender Faktor für eine weitere Entwicklung der Art in die eine bestimmte Richtung sein können.

Biologische Daten sind dadurch gekennzeichnet, dass Beobachtungen  an lebenden Objekten so gut wie nie die gleichen Ergebnisse liefern, wenn man sie wiederholt. Jedes Resultat ist mit einer Variabilität verbunden (z.B. ein 50jähriger Kettenraucher im Vgl. zu einem 50jährigen Nichtraucher) Jedes Resultat ist mit einer Variabilität verbunden. Damit sind Aussagen oder Verallgemeinerungen stets mit einer gewissen Unsicherheit bzw. Risiko verbunden. 

 

2) Erklären sie den Begriff Biostatistik.

Biologische Daten sind dadurch gekennzeichnet, dass Beobachtungen an lebenden Objekten so gut wie nie die gleichen Ergebnisse liefern, wenn man sie wiederholt. Jedes Resultat ist mit einer Variabilität verbunden. Aus diesem Grunde bedarf für das Zusammenfassen und Auswerten von Daten biostatistischer Konzepte und Instrumente.

Die Biostatistik befasst sich im Wesentlichen mit:

  • Planung und Durchführung von medizinisch-wissenschaftlichen Studien (wie komme ich zu adäquaten Daten?)
  • Datenanalyse mit statistischen Tests (was mache ich mit diesen Daten?)
  • Wie interpretiere ich die Studienergebnisse

Für den Biostatistiker ist es von großem Interesse, welche konkreten Arbeitshypothesen im Rahmen einer klinischen Studie getestet werden sollen. Es reicht daher nicht aus, wenn nur pauschal von einer Prüfung der Wirksamkeit oder Verträglichkeit einer Therapiemaßnahme gesprochen wird. Aus der Vielzahl interessierender klinischer Parameter muß die Ziel- oder Primärvariable der Prüfung identifiziert werden. Kommen mehrere Variablen als Primärvariable in Betracht, ist die Vergabe von Prioritäten unumgänglich. Im Regelfall sollte für die konfirmatorische Analyse nur eine Primärvariable herangezogen und dazu eine passende Null- bzw. Alternativhypothese definiert werden. Unter Nullhypothese  versteht man dabei die Hypothese, daß z.B. kein Unterschied zwischen zwei Behandlungen existiert im Gegensatz zur Alternativhypothese, daß ein Unterschied existiert.

3) Auf was muss bei der Auswahl einer Stichprobe geachtet werden (Stichprobenauswahl und Samplingverfahren)?

 Entscheidende Aspekte bei jeder grösseren Umfrage ist die Wahl von Stichprobe und das Samplingverfahren. Eine optimale Stichprobenauswahl ist umso wichtiger, je eher ein Anspruch auf Repräsentativität gestellt wird.

Zu den Begriffen:

  • Stichprobe (oder Sample): Befragte Personen aus einer grösseren Menge von Personen. Eine Stichprobe umfasst immer nur einen ausgewählten Teil der interessierenden Bevölkerung. Beispielsweise werden 1000 Personen aus der Wohnbevölkerung einer Region befragt, um Auskunft über die Lebenslage dieser Personen zu erhalten.Eine Alternative zur Stichprobenerhebung besteht in einer Totalerhebung (etwa im Rahmen von Volkszählungen). Es ist offensichtlich, dass eine Stichproben-Befragung einen wesentlich geringeren Zeit- und Kostenaufwand erfordert als eine Totalerhebung. Aufgrund statistischer Gesetzmässigkeiten (Gesetz der grossen Zahl) können bei zufällig ausgewählten Stichproben trotz einer im Vergleich zur Gesamtbevölkerung relativ kleinen Zahl von Befragungen dennoch gültige Aussagen über die Gesamtbevölkerung gemacht werden.
  • Samplingverfahren (oder kurz: Sampling): Verfahren, mit dem Befragte (bzw. Personen der Stichprobe) aus der Gesamtmenge an möglichen Personen ausgewählt werden. Es bestehen - wie nachfolgend gezeigt wird - sehr unterschiedliche Samplingverfahren, wobei nur ein Teil der denkbaren Auswahlverfahren zu einer repräsentativen Erhebung führen (vgl. Kurzbeschreibung unterschiedlicher Samplingverfahren)
  • Repräsentativität: Eine Befragung kann dann und nur dann als repräsentativ angesehen werden, wenn die Stichprobe in ihrer sozialen Verteilung der Grundgesamtheit entspricht. Repräsentativität bedeutet, dass die aus einer Teilbefragung von Personen gewonnenen Informationen für die Grundgesamtheit aller Personen gültig sind. Beispielsweise kann bei einer repräsentativen Telefonbefragung aus den Antworten von 1000 StimmbürgerInnen auf die politische Einstellung aller StimmbürgerInnen einer Region geschlossen werden.

Die Verallgemeinerung von Forschungsresultaten einer Stichprobenbefragung auf die Grundgesamtheit hat allerdings nur dann Gültigkeit, wenn die Stichprobe gemäss der statistischen Theorie gebildet wurde. Die wichtigste Regel ist, dass die zu befragenden Personen im statistischen Sinne zufällig ausgewählt werden müssen. Und eine reine Zufallsauswahl bedeutet prinzipiell nichts anderes, als dass jede Person (bzw. Untersuchungseinheit, etwa bei Haushalts- oder Organisationsbefragungen) aus der Untersuchungspopulation statistisch die genau gleiche Wahrscheinlichkeit aufweist, befragt zu werden.Repräsentative Umfragen setzen ein Zufalls-Sampling (engl. random sampling) voraus. Nur eine Zufallsauswahl lässt einen spätere Verallgemeinerung der Forschungsresultate und das Testen von allgemeinen Hypothesen zu. Und im Grunde sind Signifikanz-Tests nur bei repräsentativ erhobenen Daten sinnvoll.

Bei der Vorbereitung einer (repräsentativen) Befragung stehen primär drei zentrale Schritte zu entscheiden: 

a)       Genaue Definition der Untersuchungspopulation: Wer genau soll befragt werden?

b)       Wahl der Stichprobengrösse: Wieviele Personen sollen befragt werden?

c)       Auswahl der geeigneten Samplingstrategie: Welches Auswahlverfahren ist geeignet bzw. möglich?

Bei allen drei Schritten sind neben theoretisch-statistischen Aspekten immer auch praktisch-pragmatische Aspekte zu berücksichtigen. Die statistisch beste Samplingstrategie nützt wenig, wenn zu wenig Mittel, Zeit oder Grundlagen (z.B. aktuelle Adressen) vorliegen, und auch die Wahl der Stichprobengrösse wird oft von vorhandenen finanziellen Rahmenbedingungen mitbestimmt.

Die Wahl der Untersuchungspopulation

Der erste Schritt ist sachgemäss eine klare und operationalisierbare Definition der Untersuchungspopulation, d.h. dh. die Bestimmung der für die jeweilige Umfrage interessierenden Gruppen von Personen, Haushalte oder Organisationen. Die Definition der Untersuchungspopulation ist im wesentlichen von den Forschungszielen und den Fragestellungen abhängig (und sie sollte frühzeitig entschieden werden) (vgl. Forschungsplan und Forschungsdesign).

Die Untersuchungspopulation muss sowohl sozio-demographisch als auch geographisch klar abgrenzbar sein, wobei diesbezüglich auch forschungspraktische Faktoren mitspielen. So bedeutet eine repräsentative gesamtschweizerische Befragung, dass etwa der Fragebogen in mehreren Sprachen übersetzt werden muss (was sich auch finanziell auswirkt). Eine Umfrage bei städtischen Bevölkerungen muss klar definieren, welche Gemeinden zu den städtischen oder stadtnahen Gebiete gezählt werden. Bei einer Mitgliederbefragung etwa muss klar bestimmbar sein, wer als Mitglied gezählt wird, usw. Zu berücksichtigen ist immer auch, dass verschiedene Bevölkerungsgruppen nicht oder nur unter erschwerten Bedingungen befragbar sind (wie etwa Gefängnisinsassen, kranke und behinderte Menschen u.a.). Kinder und minderjährige Personen dürfen im allgemeinen häufig nur mit Einwilligung der Eltern befragt werden, abgesehen davon, dass die Befragung von Kindern andere Befragungsinstrumente einschliesst als die Befragung von Erwachsenen. Umfragen bei betagten Menschen stehen vor dem Problem, dass Personen in privaten und institutionellen Haushaltungen unterschiedlichen Befragungssituationen unterliegen (und etwa demenzkranke Betagte höchstens via proxy-Interviews (=Befragung von Angehörigen oder Pflegepersonen) erfasst werden können.

Je heterogener die Untersuchungspopulation in geographischer, sozialer, altersmässiger oder kultureller Hinsicht ist, desto aufwändiger wird eine Befragung, abgesehen davon, dass heterogene Untersuchungspopulationen die Bereitstellung eines für alle gut verständlichen Fragebogens erschweren. Fragen, welche für Jugendliche wichtig sind, sind für ältere Menschen unangebracht, und umgekehrt. 

Zur Wahl der Stichprobengrösse

Eine zweite zentrale Entscheidung bei jeder (repräsentativen) Befragung ist die Wahl der Stichprobengrösse bzw. Samplegrösse (= Zahl der zu befragenden Personen). Sollen 500, 1000 oder 2000 Personen befragt werden? Die Stichprobengrösse wird zum einen von finanziellen Überlegungen beeinflusst: Je mehr Interviews, desto kost- und zeitaufwendiger ist Befragung, namentlich bei kostenintensiven Umfrageformen (wie face-to-face-Interviews). Aber auch bei kostengünstigen Verfahren - wie telefonische oder schriftliche Befragung - nehmen die Kosten mit steigender Stichprobengrösse linear zu. Einzig bei elektronischen Befragungen (Internet-Umfrage) ergeben sich höchstens indirekte Mehrkosten (z.B. Nachkontrollaufwendungen). Aus finanziellen Gründen wird somit namentlich bei mündlichen, teilweise aber auch bei telefonischen Befragungen eine möglichst geringe Zahl von Befragungen gewünscht.

Die Wahl der Stichprobengrösse wird zum anderen durch statistische Überlegungen bestimmt. Das Gesetz der grossen Zahl besagt, das ein Stichprobenwert identisch mit dem echten Wert der Grundgesamtheit ist, wenn die Stichprobengrösse sich der Grösse der Grundgesamtheit nähert.

Alle aus Stichproben gewonnenen Ergebnisse können daher lediglich wahrscheinlichkeitstheoretische Aussagen sein, deren Genauigkeit vom Stichprobenfehler abhängt. Der Stichprobenfehler seinerseits hängt mit der Zahl an Befragten ab, und er reduziert sich mit zunehmender Stichprobengrösse. Je genauer die gemachten Aussagen sein sollen, desto mehr Personen müssen befragt werden.

Die "Kunst" liegt darin namentlich bei kostenintensiven Befragungsformen zwischen finanziellen Grenzen (möglichst wenig Interviews) und statistischer Genauigkeit (möglichst viele Interviews) zu optimieren.

Bei reinen Zufallsstichproben lässt sich im übrigen der Stichprobenfehler (= wahrscheinliche Abweichung des Stichprobenwertes vom wahren Wert) ohne grosse Probleme errechnen. Der Stichprobenfehler bei einem gemessenen Merkmal hängt von zwei Grössen ab:

a) von der Variabilität des Merkmals in der Grundgesamtheit, die durch die Stichprobenvarianz geschätzt wird. Je grösser die Streuung (s) eines Merkmales, desto grösser der Schätzfehler. Bei einer Streuung von p = 50% (bzw. 50% Ja, 50% Nein) ist der Schätzfehler am höchsten.

b) von der Grösse der Stichprobe. Der Stichprobenfehler verändert sich umgekehrt proportional zur Quadratwurzel aus n (= Stichprobegrösse). In anderen Worten: Um den Stichprobenfehler zu halbieren, muss man einen viermal so grossen Personenkreis befragen.

Bei nicht allzu kleinen Stichproben kann von normalverteilten Grössen ausgegangen werden, und der Stichprobenfehler kann zur Berechnung von Vertrauensintervallen (oder Konfidenzintervallen) benützt werden.

Es ist zudem wichtig zu verstehen, dass Umfrageergebnisse nur dann auf die Grundgesamtheit verallgemeinert werden dürfen, wenn die Stichprobe nach den Regeln der Zufälligkeit gezogen wurde. Nur eine statistische Zufallsauswahl gewährleistet eine unverzerrte Widerspiegelung der Gesamtbevölkerung. Verzerrungen einer Stichprobe - durch verzerrte Adressenwahl, durch Verweigerungen - schränken ihre "Repräsentativität" ein. Faktisch ist bei allen Umfragen mit Ausfällen zu rechnen; sei es dass bestimmte Zielpersonen nicht erreicht werden können (z.B. wegen Auslandsaufenthalt, ungenügenden Adressenangaben usw.). Zudem ist immer auch mit Verweigerungen zu rechnen (vgl. Ausfälle und Verweigerungen bei Befragungen).

Kurzbeschreibung unterschiedlicher Samplingverfahren

Es gibt unterschiedliche Samplingverfahren und -strategien. Im folgenden werden wichtige Verfahren kurz aufgeführt: 

A)      Einfache Zufallsstichprobe (simple random sampling). Diese statistisch optimalste und theoretisch klare Auswahlmethode bringt in der Praxis oft Schwierigkeiten mit sich. Die einfache Zufallsstichprobe ist deshalb in der Forschungspraxis weniger verbreitet als in statistischen Lehrbüchern, da die einfache Zufallsstichprobe ein guter Ausgangspunkt zur Darstellung einer Zufallsauswahl ist. Die einfache Zufallsauswahl setzt im wesenlichen voraus, dass von der Grundgesamtheit eine vollständige (Adressen)kartei vorliegt, in der jedes Mitglied einmal vertreten ist. Aus dieser Kartei werden rein zufällig soviele Adressen gezogen wie benötigt werden. Die Auswahl geschieht etwa dadurch, dass jede Kartei eine Nummer erhält, und Zufallszahlen bestimmen, welche Kartei gezogen werden. Durch diese Methode hat jede Person die gleiche Chance, ausgewählt zu werden. In kommunalen Einwohnerkarteien werden Wegzug, Todesfälle, Namensänderungen durch Heirat usw. erst nach Wochen, wenn nicht sogar Monaten registriert. So wurde bei einer Befragung junger Menschen in der Stadt Lausanne festgestellt, dass ein hoher Prozentsatz der jungen Frauen und Männer nicht dort lebten, wo sie offiziell registriert wurden. Zudem kennen nicht alle Länder Einwohnerregister.

B)      Systematische Zufallsstichprobe (systematic sampling). Bei grösseren Grundgesamtheiten - z.B. Einwohner einer Stadt - ist die einfache Zufallsauswahl (mit ihrer Durchnummerierung aller Personen und Zuordnung von Zufallszahlen) faktisch zu aufwändig. In der Praxis hat sich deshalb vielfach die systematische Zufallsstichprobe durchgesetzt. Man wählt die Adressen aus einer Kartei nicht mit Hilfe von Zufallszahlen aus, sondern zieht systematisch jede x-te Adresse. Die Zufälligkeit der systematischen Auswahl ist dadurch gegeben, dass die erste auszuwählende Adresse mit Hilfe einer Zufallszahl aus den ersten k-Adressen gezogen wird. Bei diesem Verfahren ergeben sich sachgemäss ebenfalls die oben erwähnten Probleme unvollständiger oder veralteter Adressen.

C)      Geschichtete Stichprobenauswahl (stratified sampling). Das Ziel einer Stichprobenauswahl ist es, möglichst genaue Ergebnisse zu erzielen bzw. den Stichprobenfehler möglichst gering zu halten, ohne die Kosten allzu sehr in die Höhe zu treiben. Ein einfaches Mittel, um bei gleicher Stichprobengrösse eine höhere Genauigkeit bzw. einen geringeren Stichprobenfehler zu erzielen, ist eine geschichtete Stichprobenauswahl. Bei diesem Verfahren werden einzelne bedeutsame Merkmale der Zielgruppe (wie Geschlecht, Alter, Zivilstand, Wohnort usw.) schon von vornherein in ihrem richtigen Verhältnis im Sample repräsentiert. Beispiel: Bei einer Befragung von Studierenden an einer gegebenen Universität weiss man, dass sich die Studierendenpopulation zu 55% aus Männern und zu 45% aus Frauen zusammensetzt. Der Stichprobenplan wird so organisiert, dass die Stichprobe von vornherein 55% Studenten und 45% Studentinnen enthält, z.B. dadurch dass die (systematische) Zufallsauswahl je nach Geschlecht getrennt durchführt wird. Das Merkmal Geschlecht entfällt bei der eigentlichen Zufallsauswahl. Je mehr Stichprobenschichten (sample stratifications) gebildet werden, desto mehr wird der Stichprobenfehler bei sonst gleicher Samplegrösse verringert. Eine geschichtete Stichprobe bleibt dennoch eine zufällige Stichprobe, da die Auswahl der Zielpersonen innerhalb jeder Schicht nach den Regeln statistischer Zufälligkeit erfolgt. Die Auswahl der Schichten hängt zum einen davon ab, welche Informationen über die Grundgesamtheit und ihre sozio-demographische Zusammensetzung vorliegen. Zum anderen sollten die vorhandenen Adressenkarteien eine entsprechende Gliederung aufweisen. Dabei ist es primär sinnvoll, nach Merkmalen zu schichten, die eng mit dem Untersuchungsziel zusammenhängen. Die faktisch am häufigsten benützten Schichtungsmerkmale sind Geschlecht, Alter und Wohnort. Werden die einzelnen Stichprobenschichten proportional zur ihrer Verteilung in der Grundgesamtheit ausgewählt, spricht man von einer proportional geschichteten Stichprobe (proportionate stratification). In anderen Fällen kann jedoch eine disproportional geschichtete Stichprobe (disproportionate stratification) sinnvoll sein. Eine bestimmte Bevölkerungsgruppe kann in der Stichprobe gezielt übervertreten sein (oversampling), um genügend Interviews für diese spezifische Gruppe zu erhalten. Ein disproportionales Sampling (mit oversampling) ist vor allem sinnvoll, wenn neben einem repräsentativen Querschnitt der Bevölkerung auch Minderheiten oder zahlenmässig schwach vertretene Gruppen speziell analysiert werden sollen.

D)      Klumpen und Mehrstufenverfahren (cluster and multistage sampling). Sofern eine Befragung eine umfassende Region oder gar ein ganzes Land abdeckt, ergeben sich zusätzliche Probleme: Zum einen sind die Einwohnerkarteien oft kommunal dezentralisiert. Zum anderen setzt eine grossflächige Stichprobe ein fein verteiltes Interview-Netz voraus. Namentlich bei mündlichen Befragungen entstehen umso mehr Reisekosten, je dezentralisierter die Befragung ist. Aus diesen Gründen wird bei mündlichen Interviews (face-to-face-interviews) teilweise ein Klumpenverfahren (cluster) benützt, um die regionale Verteilung von Interviews einzugrenzen. Anstatt z.B. aus 3000 Gemeinden eine Adressenauswahl zu treffen, beschränkt man sich auf z.B. auf 60 Gemeinden, in denen etwa je 10 Interviews durchgeführt werden. Das heisst die Stichprobe wird in 60 Klumpen à je 10 Interviews aufgegliedert. Ein Klumpenverfahren reduziert den Aufwand für Adressenbeschaffung und Interviewspesen (vor allem innerhalb dünnbesiedelter Gebiete). Andererseits erhöht jedes Klumpenverfahren den Stichprobenfehler. Bei schriftlichen, telefonischen oder elektronischen Befragungen sind Klumpenverfahren sachgemäss weniger nützlich. Die einzelnen Klumpen (cluster) (z.B. Befragungsgemeinden) können ebenfalls via Zufallsverfahren ausgewählt werden. Wird innerhalb einzelner Klumpen eine weitere Auswahl getroffen, spricht man von einer mehrstufigen Stichprobe (multistage sampling).

E)       Zwei-Phasen-Verfahren (two-phase-sampling). Sofern kein geeignetes Adressenmaterial für die Personenauswahl zur Verfügung steht oder unklar ist, wie gross die Zielgruppe ist, sind die vorher diskutierten Sampling-Verfahren unbrauchbar. Dies gilt etwa für Befragung spezieller Gruppen (z.B. Befragung von Alleinerzieherinnen, Leuten, die letztes Jahr eine Wohnung gewechselt haben usw.). In solchen Fällen kann bzw. muss ein Zwei-Phasen-Verfahren (two-phase sampling) verwendet werden: In einer ersten Erhebungsstufe sammelt man aus einer grossen Zufallsstichprobe die notwendigen Informationen, etwa via telefonischen Suchinterviews. In der zweiten Stufe wird aus der ersten Stichprobe eine neue Stichprobe von Personen gezogen, welche die gewünschten Merkmale aufweisen. Z.B. sollen 300 Frauen befragt werden, die in feministischen Organisationen aktiv sind. In diesem Fall muss zuerst eine grosse Stichprobe von etwa 2000-3000 Frauen danach gefragt werden, ob sie politisch aktiv sind (z.B. via Telefon-Interviews). Aus der Zahl an erfassten aktiven Frauen werden 300 Frauen für das eigentliche Interview gezogen.

F)       Panelstudie und Längsschnittuntersuchung (panel design/longitudinal study). Die bisher vorgestellten Verfahren bezogen sich faktisch auf einmalige Querschnittsbefragungen (cross-sectional study). Geht es jedoch um Kausalzusammenhänge ist vielfach eine Längsschnittbetrachtung sinnvoll bzw. unumgänglich. In einem solchen Fall wird am besten eine Panelstudie durchgeführt, bei welcher die gleichen Personen zwei- oder mehrmals befragt werden, z.B. im Abstand von zwei Jahren. Die Stichprobenauswahl der ersten Panel-Befragung kann gemäss den oben angeführten Samplingverfahren durchgeführt werden. Bei der Zweitbefragung ergeben sich allerdings zusätzliche Probleme, und die Erhaltung der Stichprobe kann schwierig sein, z.B. müssen einige der Befragten neu aufgesucht und ihre Adresse muss verfolgt werden (etwa bei Wegzug). Zudem können sich Ausfälle durch Todesfälle oder Verweigerung des Zweitinterviews ergeben. Bei langjährigen Längsschnitt-Studien werden Ausfälle etwa durch Wegzug teilweise ersetzt, um die Stichprobengrösse zu behaupten. Dabei wird nach sogenannt "statistischen Zwillingen" gesucht, dh. es werden Personen neu ausgewählt werden, die weitgehend dieselben Charakteristika haben wie die ausgefallenen Personen. In anderen Panelstudien werden neue Altergruppen an das Panel "angehängt", um z.B. auch die nachwachsende Generation zu berücksichtigen und zusätzlich zu Alterseffekten auch Kohorteneffekte zu überprüfen (vgl. Alter, Kohorte und Periode - Grundsätze und Problematik einer Kohortenanalyse)

Die unter A) bis F) aufgeführten Verfahren sind alles Samplingverfahren, welche in irgendeiner Weise ein Zufallsverfahren einschliessen. Es sind somit Verfahren, welche die Repräsentativität zumindest der Stichprobenziehung gewährleisten. Es ist allerdings nochmals zu erwähnen, dass auch eine Zufallsstichprobe von Personen noch keineswegs die Repräsentativität einer Umfrage gewährleistet. Verweigerungen können etwa zu systematischen Verzerrungen der Ergebnisse führen (vgl. Ausfälle und Verweigerungen bei Befragungen). Neben den eigentlichen Random-Verfahren bestehen zusätzliche Auswahlverfahren für Umfragen, die je nach Forschungszwecken ebenfalls sinnvoll sein können. Zu erwähnen sind als "nonprobability sampling" namentlich:

G)      Pragmatische Auswahl (haphazard, convenience or accidental sampling). Es werden die Leute befragt, die gerade zur Verfügung stehen oder die man gerade auf der Strasse antrifft (z.B. Strassenbefragung). Oder es werden Fragebogen aufgelegt oder einer Zeitung bzw. dem Internet beigelegt und es werden diejenigen berücksichtigt, die antworten (z.B. Leserumfrage einer Zeitung). Wichtig ist die Tatsache, dass auch eine sehr hohe Zahl von Rückantworten - etwa auf einen aufgelegten Fragebogen oder eine Web-Befragung - keine Repräsentativität gewährleistet. In einigen Fällen wird auch ein "Schneeballprinzip" verwendet: Befragte werden um Adressen von Freunden/Bekannten gebeten. Das "Schneeballprinzip" ist etwa zur Untersuchung sozialer Netzwerke/"peer-groups" usw. nützlich. Aber auch hier ist streng genommen keine Zufallsauswahl vorhanden.

H)      Gesteuerte Auswahl (purposive sampling, expert choice). Dieses Verfahren wird vor allem bei Experteninterviews benützt. Um beispielsweise Kenntnisse über eine bestimmte Unternehmung zu erhalten, ist es oft nicht sinnvoll, eine Zufallsauswahl aller Beschäftigten zu befragen, sondern für interne, organisatorische Dimensionen genügt die Befragung einiger weniger ausgewählter Personen, die sich auskennen. 

I)        Quotensampling (quota sampling). Eine Form nicht-randomisierter Befragung, die praktisch oft benützt wird, ist das Quota-Verfahren. Es findet etwa in Marktumfragen, aber auch bei vielen Umfrageinstituten regen Gebrauch. Es ist häufig, wenn ein Personenkreis befragt werden soll, für den kein (aktualisiertes) Adressenmaterial vorliegt. Der Unterschied zur Random-Stichprobe ist, dass hier keine Adressen zugrunde liegen, sondern die Zielpersonen werden nach "Quoten" ausgewählt: Der Interviewer hat keine Adresse zur Verfügung, sondern er sucht sich die Zielpersonen selber aus, allerdings nach genauen Vorgaben von bestimmten Merkmalen, eben den Quoten. Diese Quoten schreiben ihm etwa vor, wieviele Frauen und Männer er mündlich oder telefonisch zu befragen hat, wobei neben dem Geschlecht meist auch noch alters- und berufsbezogene Quoten einbezogen sind (Z.B. eine Interviewerin erhält den Auftrag, 3 Hausfrauen unter 30, 2 erwerbstätige Frauen unter 30 J., die in Büroberufen arbeiten, usw. zu interviewen). Die Quoten entsprechen oft einer geschichteten Auswahl, welche eine Repräsentativität der Befragten zumindest gemäss den Quotenmerkmalen gewährleisten sollen. Um zu vermeiden, dass die Erreichbarkeit zu allzu starken Verzerrungen führt, sollten die Quoten auch Merkmale umfassen, die mit der Erreichbarkeit stark korrelieren. Eine breite Streuung der Stichprobe erhält man bei einem Quoten-Sample dadurch, dass verschiedene Quoten-Merkmale miteinander gekoppelt werden (z.B. Geschlecht mit Alter mit Beruf). Je mehr Koppelungen vorgesehen sind, desto besser wird die Stichprobe, aber desto schwerer werden es die Interviewer finden, eine geeignete Person zu finden.

Generell gilt: Eine frühzeitige Abklärung der jeweilig sinnvollen - und auch zeitbudgetkonformen und finanziell machbaren Samplingstrategie bei der jeweils angestrebten Untersuchungspopulation ist zu empfehlen, da damit viele Probleme schon frühzeitig erkannt werden können. Je nach benützter Umfragemethoden ergeben sich sachgemäss unterschiedliche Samplingprobleme.

4) Was ist deskriptive Statistik?

Die deskriptive oder beschreibende Statistik ist der Zweig der Statistik, in dem alle Techniken zusammengefasst werden, die eine Menge von beobachteten Daten summarisch darstellen. Statistische Methoden zur Beschreibung der Daten in Form von Grafiken, Tabellen oder einzelnen Kennwerten bezeichnet man zusammenfassend als deskriptive Statistik.

Von der induktiven oder inferentiellen Statistik (Inferenzstatistik) unterscheidet sich die deskriptive Statistik dadurch, dass sie keine Aussagen zu einer über die untersuchten Fälle hinausgehenden Grundgesamtheit macht. Beim Konklusionsschluss (indirekter Schluss) der inferentiellen Statistik ist es also umgekehrt: Dort werden ausgehend von der Stichprobe unbekannte Parameter der Grundgesamtheit geschätzt.

Deskriptive Zusammenfassung von Daten. Im Einzelnen gibt es folgende Möglichkeiten der Zusammenfassung:

  • Tabellarische Auflistung
  • Grafische Darstellung
  • Berechnung von statistischen Kennwerten

Kenngrößen (statistische Kennwerte). Zwei Arten von Kenngrößen sind hauptsächlich von Interesse: Lagemaße und Streuungsmaße. Die Wahl der geeigneten Kenngrößen hängt vom Skalen- oder Messniveau der Daten und von der Robustheit der Kenngröße ab.

  • Lagemaße – zentrale Tendenz einer Häufigkeitsverteilung

o   Mittelwert

o   Median

o   Modus oder Modalwert

o   Quantile (Quartile, Dezile)

o   Erwartungswert 

Aus der Lage der verschiedenen Schätzwerte für die zentrale Tendenz zueinander lassen sich Schiefe und Exzess einer Verteilung bestimmen.

  • Streuungsmaße – Streuung oder Dispersion der Verteilung
    • Varianz
    • Standardabweichung (radizierte Varianz)
    • Variationsbreite, auch Spannweite (Range) genannt
    • Interquartilbereiche
    • Mittlere absolute Abweichung

Zusammenhangsmaße geben an, wie stark zwei betrachtete Merkmale miteinander korrelieren.

5. Skalenniveaus (Nominalskalen, Ordinalskalen und metrische Skalen) und grafische Darstellungsformen

Um die Theorie mit der Empirie verknüpfen zu können, ist es notwendig so genannte Messmodelle abzuleiten. Die Verknüpfung von Theorie und Empirie wird von Steyer und Eid (2001) als „Operationalisierung“ oder „Überbrückungsproblem“ bezeichnet. In diesem Zusammenhang ist die Frage zu beantworten, ob Relationen zwischen Objekten (empirisches Relativ) möglichst exakt in Zahlen (numerisches Relativ) umgesetzt werden können. Die Zuordnung vom empirischen Relativ zum numerischen Relativ wird im Skalenniveau systematisiert (Bort & Döring, 2002, S.68ff). Im folgende werden sechs Skalenniveaus beschrieben: 

  1. Nominalskaleniveau. Ausprägungen von Untersuchungseinheiten oder Antwortformate (in Fragebögen), die lediglich eine Zuordnung „wertfreie“ Kategorien verlangen haben Nominalskalenniveau. Die Objekte unterscheiden sich oder nicht. De daraus resultierenden Daten erlauben nur Aussagen über die Gleichheit/Ungleichheit der Objekte. Beispiele: Geschlecht, Haarfarbe, Geburtsort, ICD-Diagnosen, Blutgruppe, Rhesusfaktor, Antwortformat Ja/Nein, etc. Die Antworten „Ja“ und „Nein“ drücken eine Unterschiedlichkeit aus, die Antwort „Ja“ ist nicht besser als die Antwort „Nein“.
  2. Ordinalskalenniveau. Daten die vergleichende Aussagen (größer/kleiner oder besser/schlechter und gleich/ungleich) zulassen, haben Ordinalskalenniveau. Die Ausprägungen können eindeutig angeordnet werden (Rangordnung). Auch ein dichotomes Merkmal kann Ordinalskalenniveau besitzen. Als Beispiel dient eine Prüfung, bei der nur „Bestehen“ und „Nichbestehen“ geprüft werden. Dabei stellt das „Bestehen“ eine bessere Leistung dar als das „Nichtbestehen“. Beispiele: Schulnoten, PAVK-Grad, Nebenwirkung eines Medikaments (keine, leicht, moderat, schwer), Schmerz-Score, Rangplätze bei Autorennen, etc.
  3. Intervallskalenniveau. Daten, die Differenzbildung (A-B = C-D), Relationen (größer/kleiner oder besser/schlechter) und Aussagen über Unterschiede (Gleichheit/Ungleichheit) zulassen, haben Intervallskalenniveau. Wesentlich ist also dass die Abstände zwischen den einzelnen Ausprägungen gleich sind. Beispiele: Temperaturskala (°C), etc.
  4. Differenzskalenniveau. Ein Skalenniveau, das über dem Intervallskalenniveau liegt, ist das Differenzskalenniveau. Hier lassen sich dieselben Aussagen machen wie bei der Intervallskala. Zusätzlich haben die Differenzskalen einen künstlichen Nullpunkt. D.h. dass die Skala an einem bestimmten Punkt des Eigenschafts- oder Fähigkeitsbereichs auf null gesetzt wird. Dabei muss Null nicht die kleinste Ausprägung darstellen. Auch negative Werte sind möglich. Beispiele: Fähigkeits- oder Eigenschaftsausprägungen in bestimmten Modellen.
  5. Verhältnisskalenniveau. Daten bei denen auch Verhältnisse sinnvoll interpretierbar sind, besitzen Verhältnisskalenniveau. Ein Mensch der 80 kg schwer ist, ist doppelt so schwer wie ein Mensch, der 40 kg wiegt. Es gibt einen natürlichen Nullpunkt aber keine natürliche Einheit (die Einheit Gramm oder Kilogramm oder Pfund bzw. Zentimeter oder Meter oder Inch ist willkürlich gewählt).Die Länge Null bedeutet, dass ein Objekt „keine“ Länge hat. Beispiele: Längenmaße, Gewicht (kg), Blutdruck (mm Hg), Lebensalter (Jahre), etc.
  6. Absolutskalenniveau. Ein Beispiel für Absolutskalenniveaus sind Häufigkeiten. Solche Skalen haben eine feste Einheit. D.h. es ist nicht sinnvoll, diese Einheit z verändern, da sie für sich genommen aussagekräftig ist. Deshalb darf sie auch keinen Änderungen (Transformationen) unterzogen werden. Beispiele: Wie oft hat eine Person in einer festgelegten Zeiteinheit gelächelt oder ein anderes Verhalten gezeigt, diskrete Häufigkeiten, etc.

Wie aus der Beschreibung der Skalenniveaus zu sehen ist, beinhaltet das höhere Skalenniveau die Eigenschaften der niederen Skalenniveaus. Die Information, die die Daten haben, nimmt mit zunehmenden Skalenniveau zu. Damit sind auch mehr Aussagen möglich, wenn das Skalenniveau steigt. Intervallskala, Differenzskala, Verhältnisskala und Absolutskala werden auch als metrische Skalen bezeichnet.

Grafische Darstellungsformen

  • Stab- oder Säulendiagramm
  • Kreis- oder Tortendiagramm                          
  • Histogramm
  • Box-and-Whisker Plot / Boxplot
  • Streudiagramm
  • Überlebenskurve

6) Beschreiben Sie folgende Lagemaße: Mittelwert, Median, Quantile, Modalwert!

Mittelwert (= artihmetisches Mittel):

Zur Berechnung des Mittelwerts werden alle Stichprobenwerte addiert und deren Summe durch den Stichprobenumfang n dividiert. 

Der Mittelwert sollte nur für quantitative Merkmale (nicht für ordinal skalierte) verwendet werden. Er ist vor allem bei symmetrischen, eingipfeligen Merkmalen sinnvoll und nutzt im Gegensatz zu anderen Lagemaßen alle Informationen der Stichprobe.

Median (=Zentralwert):

Der Median ist die mittlere Beobachtung der Daten, die der Größe nach sortiert wurden. Er hat die Eigenschaft, dass mindestens 50% der Messwerte kleiner oder gleich dem Median sind.

Der Median wird gerne bei ordinal skalierten Maßen angegeben (da keine Mittelwertberechnung möglich ist). Außerdem ist er robuster gegeüber Ausreißern (Ausreißer bewirken, dass Mittelwert und Median von einander abweichen.

Quantile:

Die Quantile beruhen ebenfalls auf der Rangordnung der Daten. Ein α-Quantil ist derart definiert, dass mindestens α % der Messwerte kleiner oder gleich diesem Wert x α sind.

1.      Quartil:α=0,25

2.      Quartil oder Median: α= 0,5

3.      Quartil: α=0,75

Perzentile (Fraktile) 

Modalwert:

Der Modalwert ist der Wert mit der größten Häufigkeit und kann bei allen Skalenniveaus angegeben werden.

7) Beschreiben Sie folgende Streuungsmaße: Spannweite, Varianz und Standardabweichung, Quartilsabstand, Variationskoeffizient

Spannweite:

Die Spannweite ergibt sich aus der Differenz von Maximum und Minimum. Wird daher auch sehr stark von Ausreißern beeinflusst.

Varianz:

Die Varianz gibt die durchschnittliche, quadrierte Abweichung der Messwerte vom arithmetischen Mittel wieder.

Standardabweichung:

Die quadratische Dimension der Varianz ist schwer zu interpretieren. Um ein Streuungsmaß mit gleicher Dimension wie die Stichprobendaten zu erhalten, zieht man die Wurzel aus der Varianz und erhält die Standardabweichung. 

Die Standardabweichung stellt ein Maß für die Homogenität bzw. der Heterogenität der Stichprobe dar (nur bei quantitativen Merkmalen sinnvoll).

Quartilsabstand:

Der Quartilsabstand ist die Länge des Interquartilsbereiches, der die mittleren 50% der Stichprobenwerte enthält (zwischen 1. und 3. Quartil)

Variationskoeffizient:

Er ist definiert als die relative Standardabweichung, d.h. die Standardabweichung dividiert durch den Mittelwert. Dieses Maß ist dimensionslos.

V= s/Mittelwert

8) Ziel und Aufgabe der induktiven Statistik:

 

Bei diesen Verfahren muss grundsäzlich vorausgesetzt werden, dass eine züfällige Stichprobe vorliegt, die repräsentativ für ein übergeordnetes Kollektiv ist.

  • Die wesentliche Aufgabe der schließeden Statistik(analytischen, induktiven, konfirmatorischen oder Inferenz-Statistik) liegt darin, mit den Ergebnissen einer Stichprobe auf die unbekannte “Wahrheit“ zu schließen.

Der Begriff “Wahrheit“ ist in diesem Zusammenhang so zu verstehen, dass die Ergebnisse in der Stichprobe im Allgemeinen nicht exakt die Verteilung der Werte in der Population beschreiben, aus der die Stichprobe gezogen wurde(biologische Variabilität, Messfehler).

  • Die Stichprobe muss repräsentativ für die Population sein
  • Grundlage der schließenden Statistik ist die Wahrscheinlichkeitstheorie.

Typische Aufgabenstellungen sind:

  • das Schätzen von Parametern, Angabe von Konfidenzintervallen
  • das Testen von Hypothesen

Konfidenzintervalle dienen dem Zweck, die Genauigkeit von Zählungen und Messungen zu bestimmen.

Testverfahren werden angewandt, um vermutete Sachverhalte (Hypothese) anhand von Versuchen gegenüber täuschenden Zufallseffekten abzusichern.

9) Wieso müssen Schätzungen von Parametern abgegeben werden?

Statistische Kennwerte werden nicht nur zur Beschreibung von Merkmalesverteilungen in Stichproben benötigt, sondern auch zur Schäzung der parameter von Grundgesamtheiten. Die Frage ist, nach welchen Kriterien wir entscheiden können, ob ein statistischer Kennwert einen brauchbaren Schätzwert für einen Parameter darstellt.

-Da man nicht die gesamte Population erfasst, sondern so gut wie immer auf Stichproben von begreztem Umfang angewiesen ist, muss man sogenannte Schätzungen für die Populationsparameter angeben.

-Die Kennzahlen, die wir in der deskriptiven Statistik kennen gelernt haben, stellen Schätzungen für die Populationsparameter dar.

Im Falle der Normalverteilung ( oder zumindest eingipfigen, symmetrischen Verteilung) sind das arithmetische Mittel und die Stichprobenvarianz s² „gute“ Schätzer für Erwartungswert µ und Varianz der Population.

10) Welche Art von Größe ergeben Zufallsstichproben?

Aus einer Stichprobe vom Umfang n können verschiedene Kenngrößen berechnet werden. Die wichtingsten sind das arithmische Mittel und die Standardabweichung s.

Beispiel: Bei den =40 Körpergrößen des obigen ergibt sich als Mittelwert= 174,6 und als s=5,64

Wenn man die Körpergrößen aller Erwachsenen kennen würde (Grundgesamtheit), dann ergäben sich daraus der Mittelwert µ unddie Standardabweichung sigma der Grundgesamtheit. Die aus der  Stichprobe berechneten Werte x und s sind Schätzwerte für µ und sigma. Das arithmetische Mittel und die Standardabweichung sind im Falle einer Normalverteilung die besten Schätzungen für µ und sigma, die man aus einer Stichprobe vom Umfang n berechnen kann.

Die gewonnene Schätzwerte müssen dennoch mit einer gewissen Vorsicht interpretiert werden. Sie sind zwar die besten Schätzwerte, die aus einer Stichprobe abgeleitet werden können, sind aber andererseits selbst Zufallsgrößen und folglich zufälligen Einflüssen unterworfen! Infolge des Zufallscharakters einer Stichprobe könnten weitere Stichproben andere Schätzwerte ergeben, d.h. die Schätzung ist ungenau. Es ist unmittelbar einleuchtend, dass derartige Einflüße mit steigendem Stichprobenumfang abnehmen.

11) Was ist der Standardfehler des Mittelwertes?

Der Standardfehler des Mittelwerts ist als die Standardabweichung der Mittelwerte von gleichgroßen Zufallsstichprobeneiner Population definiert. Der Standardfehler des Mittelwertes verändert sich proportional zur Streuung des Merkmals in der Population. Er verringert sich mit zunehmenden Stichprobenumfang.

Ein Mittelwert stellt eine um so präzisere Schätzung des Populationsparameters dar, je kleiner sein Standardfehler ist.

Die Variabilität zwischen Stichprobenmittelwert hat folgende Eigenschaften:

-Sie ist geringer zwischen großen Stichproben als zwischen kleinen Stichproben.

-Sie ist geringer als die Variabilität der Einzelmessungen und zwar um den Faktor

-Sie wird größer, wenn die Variabilität (Standardabweichung)der Einzelmessungen größer ist.

12) Konfidenzintervall

Im Rahmen einer Untersuchung kann aus einer Grundgesamtheit nur eine Stichprobe betrachtet werden. Ein wichtiger Parameter der beschreibenden Statistik ist dabei der Mittelwert. Dieser ist die beste Annäherung an den wahren Mittelwert der Grundgesamtheit, jedoch stimmen diese beiden Werte nicht zwangsläufig überein. Das Konfidenzintervall gibt nun an, in welchem Bereich (um den Mittelwert der Stichprobe) der wahre Mittelwert (der Grundgesamtheit) mit einer bestimmten Wahrscheinlichkeit liegt. Häufig findet das 95 % Konfidenzintervall Anwendung, welches entsprechend mit einer 95 %igen Wahrscheinlichkeit den wahren Mittelwert (der Grundgesamtheit) enthält. Je größer die Stichprobe ist, desto genauer kann der daraus bestimmte Mittelwert den wahren Mittelwert abbilden, was mit einem kleineren Konfidenzintervall einhergeht.

13) Überprüfung von Hypothesen 

Unter einer Hypothese versteht man in der Statistik eine anhand empirischer Daten zu prüfende Annahme. Neben dem Schätzen unbekannter Parameter der »Grundgesamtheit« ist die Überprüfung von Vermutungen oder Annahmen über die Grundgesamtheit mit Hilfe von »Zufallsstichproben« eine wichtige Aufgabe der schließenden Statistik. Man spricht in diesem Zusammenhang von einem Hypothesentest.

Das Grundprinzip aller Testverfahren ist immer gleich und basiert wie die »Schätzverfahren« auf der Stichprobentheorie. Zunächst überlegt man sich, wie das Stichprobenergebnis aussehen müßte, wenn die zu testende Annahme über die Grundgesamtheit, die sogenannte »Nullhypothese«, richtig wäre. (Nullhypothese =  versteht man dabei die Hypothese, daß z.B. kein Unterschied zwischen zwei Behandlungen existiert) Dann fragt man sich, welche Stichprobenergebnisse dieser Annahme widersprechen würden. Sie würden eine alternative Annahme über die Grundgesamtheit unterstützen, die die Nullhypothese ausschließt. Man bezeichnet diese Annahme auch als »Alternativhypothese«. Eine genauere Analyse zeigt, daß es keine Stichprobenergebnisse gibt, die eindeutig nur die eine oder die andere Annahme unterstützen. Es gibt lediglich Ergebnisse, die mehr oder weniger wahrscheinlich sind, wenn die Nullhypothese zutrifft. Folglich läßt sich das Entscheidungsproblem, ob die zu testende Nullhypothese richtig oder falsch ist, nicht eindeutig, sondern nur mit einer bestimmten Unsicherheit lösen.

Das Standardschema jedes Hypothesentests besteht immer aus den folgenden fünf Schritten: 

* Aufstellung von Nullhypothese und Alternativhypothese sowie Festlegung der Irrtumswahrscheinlichkeit (des Signifikanzniveaus),

* Festlegung einer geeigneten »Prüfgröße« und Bestimmung ihrer Testverteilung,

* Berechnung eines sogenannten kritischen Wertes der Prüfgröße, ab dem die Nullhypothese als widerlegt gelten soll,

* Berechnung des empirischen Wertes der Prüfgröße mit den Daten der Stichprobe,

* Entscheidung über Annahme oder Ablehnung der Nullhypothese und Interpretation der Testergebnisse.

Überprüfung:

 

H0 : Statistische Hypothese oder Nullhypothese

H1 : Wissenschaftliche Hypothese oder Alternativhypothese

Ein statistischer Test prüft wahrscheinlichkeitsmäßig die Nullhypothese, obwohl man bei der Planung einer Studie von der wissenschaftlichen Hypothese ausgeht.

Die Schlussweise ist indirekt: Wenn die Nullhypothese aufgrund der Daten mit hoher Wahrscheinlichkeit abgelehnt werden kann, entscheidet man sich aufgrund dieser Evidenz für die wissenschaftliche Hypothese.

Man hat demnach zwei mögliche Entscheidungen zur Auswahl:

– verwerfe H0 und bejahe H1 oder

– verwerfe H0 nicht und betrachte H1 als nicht nachgewiesen.

Fehlerarten beim statistischen Test

Beim Testen von Hypothesen können zwei verschiedene Fehlertypen auftreten, die am Beispiel des Tests auf Überlegenheit veranschaulicht werden sollen.

Die Statistik bezeichnet den Fehler, ein falsch-positives Resultat zu erhalten, obwohl tatsächlich kein Unterschied zwischen den Behandlungen da ist, als Fehler 1. Art und die zugehörige Wahrscheinlichkeit als Wahrscheinlichkeit für den Fehler 1.

Im Gegensatz dazu wird die zweite Fehlermöglichkeit, auf einen Unterschied zwischen den Behandlungen nicht zu schließen, obwohl tatsächlich ein Unterschied da ist (falsch-negatives Resultat) als Fehler 2. Art bezeichnet.

Die Wahrscheinlichkeit für den Fehler 1. Art sollte möglichst klein sein und eine vorgegebene Schwelle nicht überschreiten. Diese Schwelle oder Schranke wird als Signifikanzniveau  definiert. Die Wahrscheinlichkeit für den Fehler 2. Art soll dagegen eine vorgegebene Schwelle Beta nicht überschreiten. Meist wird jedoch die komplementäre Größe 1-Beta benutzt, die man als Trennschärfe (Power) bezeichnet.

Hinsichtlich des Signifikanzniveaus benutzen die Biostatistiker meist Standardfestlegungen, wie sie in der Literatur oder in Empfehlungen und Richtlinien zum Ausdruck kommen. Während sich bezüglich des Signifikanzniveaus die 5%- Schranke eingebürgert hat, variiert die Schranke für die Wahrscheinlichkeit eines Fehlers 2. Art je nach Zielsetzung der klinischen Studie zwischen 10 und maximal 20%. Entsprechend legt man in Schlüsselstudien  eine geforderte Trennschärfe (Power) zwischen 80 und 90% zugrunde.

Zusammengefaßt ist ein Hypothesentest nichts anderes als eine Prozedur zur Entscheidung zwischen zwei alternativen, sich gegenseitig ausschließenden Annahmen über eine unbekannte Grundgesamtheit auf der Basis von Informationen, die mit Stichprobenfehlern behaftet sind. In Form eines Gedankenexperiments wird eine konstruierte Realität, nämlich die, die sich bei Gültigkeit der Nullhypothese ergäbe, mit den tatsächlich vorliegenden Daten verglichen. Je nach Grad der Abweichungen zwischen den Daten und der konstruierten Realität wird die Nullhypothese entweder verworfen oder bestätigt.

14) Was ist eine Zufallsvariable, was sind Wahrscheinlichkeitsverteilungen?

Eine Zufallsvariable oder Zufallsgröße (selten stochastische Variable oder stochastische Größe) ist ein Begriff aus dem mathematischen Teilgebiet Stochastik.
Man bezeichnet damit eine Funktion, die den Ergebnissen eines Zufallsexperiments Werte
(so genannte Realisationen) zuordnet.Die Bedeutung der Zufallsvariable liegt darin, dass durch sie die Verbindung zwischen dem Resultat eines Zufallsexperiments und seiner mathematischen Darstellung (Realisation) hergestellt wird.

Kurz: Eine Zufallsvariable ist eine Funktion, die Ergebnissen eines Zufallsexperimentes
reelle Zahlen zuordnet.

Die Wahrscheinlichkeitsverteilung erfasst den Zufall in einem stochastischen Vorgang
quantitativ und stellt das theoretische Gegenstück zur empirischen Häufigkeitsverteilung dar,
die sich aus der Analyse von Daten (Messwerten) ergibt.

15) Beschreiben sie in kurzen Worten die Anwendungsgebiete folgender Teste bzw. Verteilungen. Wann findet welches Testverfahren Anwendung?

a.) Binominalverteilung

b.) Normalverteilung

c.) T-Test

d.) Mann Whitney U-Test

e.) Chi-Quadrat-Test

a.)    Die Binomialverteilung (manchmal nicht ganz korrekt auch Bernoulli-Verteilung genannt) ist eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen.
Sie beschreibt den wahrscheinlichen Ausgang einer Folge von gleichartigen Versuchen, die jeweils nur zwei mögliche Ergebnisse haben, also die Ergebnisse von Bernoulli-Prozessen. Wenn das gewünschte Ergebnis eines Versuches die Wahrscheinlichkeit p besitzt, und die Zahl der Versuche n ist, dann gibt die Binomialverteilung an, mit welcher Wahrscheinlichkeit sich insgesamt k Erfolge einstellen.

Die Binomialverteilung ist zur Beschreibung von Zufallsgrößen der folgenden Art geeignet:

Die Bestimmung der Anzahl einer bestimmten Eigenschaft in einer Stichprobe aus einer Menge von Elementen, wenn die Reihenfolge beim Entnehmen der Stichprobe aus der Gesamtmenge keine Rolle spielt, und die entnommenen Elemente wieder zurückgelegt werden („Ziehen mit Zurücklegen“).

Beispiel: Ein Korb enthält N Bälle, davon sind M schwarz und N - M weiß. Die Wahrscheinlichkeit, einen schwarzen Ball zu ziehen, ist also p = M / N. Es werden einzeln
und nacheinander insgesamt n Bälle entnommen, untersucht und wieder zurückgelegt. Dabei  werden k Schwarze identifiziert.Insgesamt gibt es Nn Möglichkeiten für die Auswahl der Bälle.

b.)    Die Normal- oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist
ein wichtiger Typ kontinuierlicher Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gauß-Kurve, Gauß-Glocke oder Glockenkurve genannt.

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten Zufallsvariablen im Grenzwert  normalverteilt ist.
Das bedeutet, dass man Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie durch Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im Verhältnis zur
Gesamtsumme unbedeutenden Beitrag liefert.

Viele natur-, wirtschafts- und ingenieurswissenschaftliche Vorgänge lassen sich durch die Normalverteilung entweder exakt oder wenigstens in sehr guter Näherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhängig voneinander in verschiedene Richtungen wirken).

Zufallsgrößen mit Normalverteilung benutzt man zur Beschreibung zufälliger Vorgänge wie:

zufällige Messfehler,
zufällige Abweichungen vom Nennmaß bei der Fertigung von Werkstücken,
Beschreibung der brownschen Molekularbewegung.

68,27 % aller Messwerte haben eine Abweichung von höchstens s vom Mittelwert,
95,45 % aller Messwerte haben eine Abweichung von höchstens 2s vom Mittelwert,
99,73 % aller Messwerte haben eine Abweichung von höchstens 3s vom Mittelwert.

c.)      Der t-Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests. Den t-Test im eigentlichen Sinn gibt es nicht. Es handelt sich hier lediglich um einen beliebigen Hypothesentest mit t-verteilter Testprüfgröße.

Oft ist jedoch mit dem t-Test der Einstichproben- bzw. Zweistichproben t-Test gemeint:

Der Einstichproben t-Test prüft anhand des Mittelwertes einer Stichprobe, ob der Erwartungswert einer Grundgesamtheit ungleich, kleiner oder größer einem vorgegebenem Wert ist.
Der Zweistichproben t-Test prüft anhand der Mittelwerte zweier Stichproben, ob die Erwartungswerte zweier Grundgesamtheiten ungleich, kleiner oder größer sind.

Voraussetzung: 1. Daten müssen annähernd normalverteilt sein und 2. die Varianzen dürfen sich nicht viel von einander unterscheiden

d.)     Der Mann-Whitney-Test ("Mann-Whitney-U-Test" oder kurz "U-Test") ist ein parameterfreier statistischer Test.
Der U-Test ist ein Homogenitätstest. Er dient zur Überprüfung der Signifikanz der Übereinstimmung zweier
Verteilungen, also ob zwei unabhängige Verteilungen A und B (zum Beispiel eine unbeeinflusste und eine beeinflusste)
zu derselben Grundgesamtheit gehören.

Der Test wurde von Henry Mann und Donald Whitney (1947) sowie Frank Wilcoxon (1945) entwickelt und wird deshalb
auch Mann-Whitney-Wilcoxon (MWW)-Test oder Wilcoxon-Rangsummentest genannt.

Man hat 2 Stichproben vor sich, Stichprobe A mit n1 Werten und Stichprobe B mit n2 Werten. Man vergleicht jeden
Wert der Stichprobe A mit jedem Wert der Stichprobe B. Es gibt also  Vergleiche. Die Nullhypothese H(0) besagt,
dass es keinen Unterschied zwischen den Verteilungen gibt, d. h. A = B.
Der Test funktioniert einseitig oder zweiseitig. Beim einseitigen Test wird geprüft, ob A > B bzw. A < B ist, beim zweiseitigen Test wird geprüft, ob A = B ist.

e.)    Der Chi-Quardat Test findet bei dichotomen Merkmalen Anwendung (qualitativ)( der t-Test im Vergleich dazu eigent sich für stetige Merkmale wie Gewicht und Körpergrösse), hierbei gibt es 2 Stichproben (z.B.: Standard-OP und eine neue Methode)-diese sind voneinander unabhängig. Somit handelt es sich um einen Vergleich zweier relativer Häufigkeiten (= Prüfung der Unabhängigkeit von Operationsmethode und Erfolg).

Dieser Test rechnet nur mit Häufigkeiten und stellt geringe Ansprüche, liefert aber dabei gute Ergebnisse. Durch die Berechnung kann ermittelt werden, welche Wahrscheinlichkeiten sich bei Unabhängigkeit ergeben können.

17) Was will die Risikoschätzung, was soll mit einem Risikovergleich angestellt werden? Was bedeutet „Relatives Risiko“ (Formen des Zusammenhangs?) und wie wird es berechnet?

Eine wichtige Aufgabe der Epidemiologie ist die Aufdeckung und Bewertung möglicher Krankheitsursachen und damit verbundener Risiken. Eine häufige Fragestellung ist die Beurteilung der Höhe eines Risikos, an einer bestimmten Krankheit zu erkranken, wenn man einer gewissen Exposition ausgesetzt ist (Beispiel Rauchen und Lungenkrebs). Expositionen sind nicht zwangsläufig als Gesundheitsgefährdung zu verstehen, sondern beschreiben das Vorliegen gewisser Rahmenbedingungen oder Dispositionen, von denen ein Einfluss auf Gesundheit und Krankheit vermutet wird. Zur Beurteilung einer Exposition wird als Referenzgröße meist eine Kontrollgruppe ohne diese Exposition herangezogen und die Krankheitshäufigkeit bei Exponierten und Nicht-Exponierten verglichen. Die Risikoschätzung gibt die Wahrscheinlichkeit an, mit der sich ein bestimmtes Ereignis innerhalb eines definierten Zeitraums verwirklicht.

Das absolute Risiko haben wir als „Inzidenz“ kennen gelernt, also die Zahl der Neuerkrankungen pro Zeiteinheit. Das absolute Risiko ist meist wenig aussagefähig, da häufig die Risiken absolut gesehen sehr gering sind. Das Risiko wird daher erst in einem Vergleich mehrerer Risiken interpretierbar. Dazu bietet sich die Risikodifferenz oder das Risikoverhältnis (relatives Risiko) an.

Risikodifferenz:         (Erkrankungsrisiko der Exponierten) – (Erkrankungsrisiko der Nicht-Exponierten)

Durch einen Risikovergleich wird das Risiko bei Vorliegen eines Risikofaktors (= Exposition) mit dem Risiko ohne Vorliegen dieses Risikofaktors verglichen.

Risikoverhältnis – Relatives Risiko:

Erkrankungsrisiko (Inzidenz) der Exponierten

Erkrankungsrisiko (Inzidenz) der Nicht-Exponierten

RR = a/(a + b) : c/(c+d)

Das RR ist in der Epidemiologie das zentrale Maß zur Bewertung möglicher Krankheitsursachen!

Deutung des Relativen Risikos:

RR = 1:           Das Risiko der Exponierten ist gleich groß wie das Risiko der Nicht-Exponierten (kein Zusammenhang).

RR größer 1:   Das Risiko der Exponierten ist größer als das Risiko der Nicht-Exponierten. Die Exposition ist möglicherweise krankheitsversuchend bzw. –fördernd.

RR kleiner 1: Das Risiko der Exponierten ist kleiner als das Risko der Nicht-Exponierten. Die Exposition ist möglicherweise protektiv.

RR kann nur aus prospektiven Kohorten- bzw. Längsschnittstudien berechnet werden, da sich das Risiko über die Zahl der Neuerkrankungen berechnet!!!

Bei Fall-Kontroll-Studien kann das RR nicht direkt berechnet werden, da die Inzidenzen nicht bekannt sind.

Als Schätzwert (Näherungswert) für das relative Risiko wird in einer Fall-Kontroll-Studie das ODDS RATIO verwendet.

OR = a/c (Fälle) : b/d (Kontrollen)= a * c : b * c (Kreuzproduktverhältnis)

Das Odds Ratio ist zu definieren als das Verhältnis der Odds (Chancen), dass Fälle exponiert waren, zu den Odds, dass die Kontrollen exponiert waren und ähnlich zu interpretieren wie das RR.

18) Vergleichen Sie die Risikomaße!

Relatives Risiko und Odds Ratio beschreiben das Risikoverhältnis zwischen Exponierten und Nichtexponierten und damit etwas über die Stärke des Zusammenhangs zwischen Exposition und Krankheit.

Fall-Kontroll-Studie: nur die OR kann als Zusammenhangsmaß berechnet werden

Prospektive Studie: RR und OR können bestimmt werden

Folgende Voraussetzungen müssen vorliegen, damit aus der OR einer Fall-Kontroll-Studie auch das RR geschätzt werden kann:

Fälle sind hinsichtlich der Expositionsanamnese repräsentativ für alle Menschen mit Krankheit aus der Bevölkerung;

Kontrollen bzgl. der Expositionsanamnese sind repräsentativ für alle Menschen ohne diese Krankheit aus der Bevölkerung;

Die untersuchte Krankheit tritt selten auf.

Das attributable Risiko ist ein Maß für den Anteil des Erkrankungsrisikos, der einer bestimmten Exposition zuzuschreiben ist.

19) Welche möglichen Fehler können bei Testentscheidungen auftreten?

Beim statistischen Test können zwei Fehler auftreten:

Fehler 1. Art: die Nullhypothese wird fälschlicherweise abgelehnt (Irrtumswahrscheinlichkeit alpha)

Fehler 2. Art: die Nullhypothese trifft nicht zu, wird allerdings nicht verworfen (Wahrscheinlichkeit beta)

Bei statistischen Tests können nicht beide Fehlerarten kontrolliert werden, da sie wechselseitig voneinander abhängen. Ein kleiner Fehler 1. Art hat einen großen Fehler 2. Art zur Folge und umgekehrt. Bei statistischen Tests wird üblicherweise der Fehler 1. Art kontrolliert, da man an der Aufdeckung von Unterschieden zwischen zwei (oder mehreren) Populationen, Zeitpunkten oder Behandlungen interessiert ist. Bei einer Nullhypothese, die von der Gleichheit zweier Parameter ausgeht, kann die Wahrscheinlichkeit für die Beobachtung eines bestimmten Unterschieds bzgl. der Zielgröße und auch die Fehlerwahrscheinlichkeit für die irrtümliche Verwerfung der Hypothese bestimmt werden.

Da die Größe des tatsächlichen Effekts nicht bekannt ist, kann beta, also der Fehler beim Festhalten an der Hypothese, nur grob geschätzt werden. Er hängt ab von der Fallzahl, der Art des Tests, der Irrtumswahrscheinlichkeit und der Größe des wahren Effekts. Deshalb kann bei einem nicht signifikanten Ergebnis auch nicht von einer Annahme von H0 gesprochen werden, sondern nur davon, dass die Nullhypothese nicht abgelehnt werden konnte.

Ein Nicht-Verwerfen der Nullhypothese darf keinesfalls als Beweis für deren Richtigkeit aufgefasst werden, es konnte lediglich aufgrund des Stichprobenergebnisses nicht das Gegenteil der Nullhypothese nachgewiesen werden. Dies ist darin begründet, dass der Fehler 1. Art genau quantifiziert werden kann, nicht jedoch der Fehler 2. Art, da wir keine Kenntnis von der wahren Alternative haben.

20) Wozu werden Korrelationsanalysen durchgeführt?

Die Korrelationsanalyse untersucht Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe. Eine Maßzahl für die Stärke und Richtung eines linearen Zusammenhanges ist der Korrelationskoeffizient r. Die Korrelationsanalyse macht deutlich, ob zwischen zwei Variablen Zusammenhänge bestehen. Aus einer Korrelation ist aber nicht unbedingt eine „Ursache-Wirkungs-Beziehung” zu folgern. Hierfür ist die Regressionsanalyse besser geeignet.

Voraussetzungen für die Durchführung einer Korrelationsanalyse:

Beide Merkmale sind metrisch skaliert und stetig.

Der Zusammenhang ist annähernd linear.

Die einzelnen Beobachtungseinheiten sind voneinander unabhängig.

21) Welche Fehler können sich bei der Interpretation eines Korrelationskoeffizienten ergeben?

 

Einleitung: Der Korrelationskoeffizient (auch: Korrelationswert) (auch Pearson-Korrelation genannt) ist ein dimensionsloses Maß für den Grad des linearen Zusammenhangs (Zusammenhangsmaße) zwischen zwei mindestens intervallskalierten Merkmalen. Er kann Werte zwischen −1 und 1 annehmen. Bei einem Wert von +1 (bzw. −1) besteht ein vollständig positiver (bzw. negativer) linearer Zusammenhang zwischen den betrachteten Merkmalen. Wenn der Korrelationskoeffizient den Wert 0 aufweist, hängen die beiden Merkmale überhaupt nicht linear voneinander ab. Allerdings können diese ungeachtet dessen in nicht-linearer Weise voneinander abhängen. Damit ist der Korrelationskoeffizient kein geeignetes Maß für die (reine) stochastische Abhängigkeit von Merkmalen. 

Mögliche Fehler bei der Interpretation:

 

• Formale Korrelation

• Selektionskorrelation

• Korrelation durch Ausreißer

• Inhomogenitätskorrelation

• Gemeinsamkeitskorrelation

Formale Korrelation: Entsteht rein rechnerisch! Z.B.: Vergleich der relativen Häufigkeiten der Grippeerkrankungen mit chronischen Herz- und Kreislauferkrankungen weist eine negative Korrelation auf. Während einer Grippeepidemie nimmt die Gesamtzahl der Erkrankungen stark zu, wodurch die relative Häufigkeit der chronischen Herz- und Kreislauferkrankungen abnimmt.

Selektionskorrelation: entsteht durch eine einseitig selektierte Stichprobe. Z.B. Behandlungskosten für Brandverletzungen, die beim praktischen Arzt, beim Facharzt und in einer Universitätsklinik entstehen. Ein Teil der beobachteten Unterschiede ist darauf zurückzuführen, dass sich die Schwere der Fälle unterscheidet.

Inhomogenitätskorrelation: Z.B.Korrelation durch Ausreißer oder die Stichprobe setzt sich aus inhomogenen Gruppen zusammen

Gemeinsamkeitskorrelation: beide Größen sind mit einer dritten (nicht berücksichtigten) Größe korreliert.

– Z.B. Die Besiedlung durch Störche im Süd-Burgenland korreliert zwar positiv mit der dortigen Geburtenzahl, doch das bedeutet noch lange keinen kausalen Zusammenhang. Trotzdem ist ein statistischer Zusammenhang gegeben. Dieser leitet sich aber aus einem dritten, vierten etc. Faktor ab, wie in unserem Beispiel der Industrialisierung, der Wohlstandssteigerung, die einerseits den Lebensraum der Störche einschränkten und andererseits zu einer Verringerung der Geburtenzahlen führten.

– Lösung: partieller Korrelationskoeffizient: er ermöglicht es, den Einfluss der dritten Größe statistisch auszuschalten und zu errechnen, welcher Anteil der Korrelation nicht durch die

Anhängigkeit zur dritten Größe verursacht wird. In der Medizin sind viele Größen zum Lebensalter korreliert (z.B. Blutdruck).

# Der Korrelationskoeffizient nach Pearson reagiert stark auf Ausreißer in den Beobachtungen. Daher sollten die vorliegenden Daten idealerweise normalverteilten Merkmalen entstammen.

# Aufgrund der Durchschnittsbildung ist er für ordinalskalierte Merkmale nicht zulässig.

22) Was versteht man unter Regressionsanalyse? Welche Bestandteile (Variablen) kennen sie, welche Zielsetzung hat sie, welche Methode (kurze Beschreibung) wird verwendet?

• Korrelation beschreibt die Stärke eines linearen oder monotonen Zusammenhangs

• Regression beschreibt eine Ursache-Wirkungs-Beziehung

Aufgaben eines Regressionsmodells

• Konzise Beschreibung eines statistischen Zusammenhangs

• Klärung, ob die Wirkung eines Faktors unabhängig von anderen ist

• Möglichkeit der Prognose für einen einzelnen Patienten

Definitionen

Abhängige Variable (Regressand, response, outcome): Diese Variable soll aus der anderen Variable berechnet werden. →  y-Achse

Unabhängige Variable(n) (Regressor, Predictor, erklärende Variable(n)) → x-Achse

Ziel der Regressionsanalyse: Vorhersage, Prediction

Methode: Die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden sollen minimiert werden

Im Falle einer deskriptiven Regression wird angenommen, dass die Zusammenhänge zwischen x und den Beobachtungen Y deterministisch sind, also nicht vom Zufall abhängen. Dieser Fall lässt sich als Y = f(x) darstellen, wobei die Funktion f nicht oder nicht vollständig bekannt ist. Bei diesen deskriptiven Verfahren wird vor allem Wert auf den numerischen Aspekt der Regression gelegt. Das typische Instrument zur Analyse ist dabei die Methode der kleinsten Quadrate.

Variablenbezeichnung

In der Regressionsanalyse unterscheidet man zwischen interessierenden und erklärenden Variablen. 

* Die interessierende Variable Y wird Kriterium, abhängige Variable, Response-Variable, endogene Variable, Regressand oder Zielvariable und

* die erklärenden Variablen x werden unabhängige Variablen, Prädiktor-Variablen, exogene Variable, Regressoren oder Kovariablen genannt.

Es ist a priori nicht klar, welche Variablen erklärend und welche interessierend sind. Typischerweise wählt man diejenige Variable als Response, die eine natürliche Variabilität aufweist. Das Ziel der Regression ist es somit zu bestimmen, wie die interessierende Variable (Response) von den erklärenden Variablen (Kovariablen) abhängt.

Ein einfaches Beispiel ist die Darstellung des Körpergewichts in kg (hier: Y) in Abhängigkeit von der Körpergröße in cm (hier: x). Man sieht, dass der Response Y und die Kovariable x nicht vertauschbar sind, da die Körpergröße ab einem bestimmten Alter unverändert bleibt.

23) Welche Voraussetzngen sollten für die Regressionsanalyse gegeben sein, was meint das  Bestimmtheitsmaß?

• Die Werte der Outcome-Variablen Y (bei uns „Gewicht“) sollten normalverteilt sein für jeden

Wert der erklärenden Variablen X.

• Die Variabilität von Y (entspricht der Varianz bzw. der Standardabweichung) sollte gleich sein für jeden Wert von X.  →  Varianzhomogenität

• Der Zusammenhang zwischen X und Y sollte linear sein. 

Maß für die Güte der Anpassung  =  Bestimmtheitsmaß

 • Gibt den Anteil der Varianz der Daten an, welche durch das Modell erklärt wird.

• Beispiel: R² = 0,772 (R² =Bestimmtheitsmaß → 77% der Variablen kann man mit dem Modell erklären)

24) Worin liegt der Unterschied zwischen Korrelation und Regression?

Korrelation:

Gibt die stärke ein Zusammenhangs in quantifizierter wider.

Mit der Korrelationsanalyse kann man die Stärke des Zusammenhangs quantifizieren. Voraussetzung ist:

  • Beide Merkmale und metrisch skaliert und stetig
  • Der Zusammenhang ist annähernd linear
  • Die Variablen sind unabhängig von einander

Regression:

  • Aufgabe eines Regressionsmodels ist es einen konzisen Zusammenhang zu beschreiben.
  • Zu klären ob die Wirkung eines Faktors unabhängig von anderen ist
  • Möglichkeiten der Prognose für einen einzelnen Patienten zu stellen

Lineare Regressionen werden über die Summe der minimalen Abweichungsquadrate errechnet.

 

Letzte Änderung am 24/07/2014

Health Consulting

Seit 2014 bin ich als selbständiger Unternehmensberater mit den Schwerpunkten Health Literacy und Social Health tätig. Zusammen mit verschiedenen Netzwerkpartnern kann ich Ihr gewünschtes Projekt rasch und zuverlässig umsetzen. Gerne stehe ich auch als externer Berater zur Verfügung.

eBook-Promotion

Coverbild

Das eBook "Zukunftsdisziplin Gesundheitskompetenz" zeigt Ihnen auf rund 270 Seiten, wie Sie mit den gesundheitsrelevanten Herausforderungen besser umgehen können. Welche Vorteile ergeben sich durch mehr Kompetenzen und wie kann ich diese steigern?

Kostenloser Ratgeber

Broschuere Web Vorschaubild

Die Suche nach hochwertigen Gesundheitsinformationen im Internet ist nicht immer einfach. Dieser einfach verständliche Ratgeber erläutert Schritt für Schritt wie Sie schnell und einfach zu qualitativ hochwertigen Gesundheitsinformationen kommen. 

Qualitätsauszeichnungen

medisuch Siegel2012mx4 Diese Web Seite ist von der Health On the Net Stiftung akkreditiert. Seit 2015 wird aus Kostengründen darauf verzichtet - die Einhaltung des HON-Codes hat trotzdem oberste Priorität frag Finn - Seiten für Kinder


Die Qualität der angebotenen Informationen ist mir wichtig, diese unabhängigen Organisationen bestätigen dieses Vorhaben.