Discussion:
Verteilungsfunktion
(zu alt für eine Antwort)
j***@googlemail.com
2018-05-24 14:25:04 UTC
Permalink
Raw Message
Bei zwei Verteilungen habe ich eine Summendarstellung. Die Darstellungspunkte liegen in der Nähe der Normalverteilung.

Eine Verteilung ist die Verteilung der Lottozahlen (z.B. 6 aus 49). Bei 5691 Ziehungen werden 34146 Gewinnzahlen gezogen, wobei jede der 49 Gewinnzahlen ca. 697 mal gezogen wird. Als Binominalverteilung habe ich mit p = 6/46 eine Veretilungskurve, die zwar im Bereich um 700 gut übereinstimmt, aber eben 5691 Möglichkeiten hat. Ich suche nun die Verteilungsfunktion, die nur 49 mögliche Ergebnisse hat.

Bei einer anderen Verteilung habe ich 42 Meßwerte aus einer unbekannten Grundgesamtheit. Die Varianz kann ich aus den 42 Meßwerten schätzen. Mit der Student-t-Verteilung liegen Meßwerte und theoretische Werte nahe beieinander. Ist die Student-t-Verteilung die richtige Verteilungsannahme?

Vielen Dank
Jochen
Ralf Goertz
2018-05-28 14:02:46 UTC
Permalink
Raw Message
Am Thu, 24 May 2018 07:25:04 -0700 (PDT)
Post by j***@googlemail.com
Bei zwei Verteilungen habe ich eine Summendarstellung. Die
Darstellungspunkte liegen in der Nähe der Normalverteilung.
Was sind Darstellungspunkte?
Post by j***@googlemail.com
Eine Verteilung ist die Verteilung der Lottozahlen (z.B. 6 aus 49).
Bei 5691 Ziehungen werden 34146 Gewinnzahlen gezogen, wobei jede der
49 Gewinnzahlen ca. 697 mal gezogen wird. Als Binominalverteilung
habe ich mit p = 6/46
ich nehme an p=6/49
Post by j***@googlemail.com
eine Veretilungskurve, die zwar im Bereich um 700 gut übereinstimmt,
aber eben 5691 Möglichkeiten hat. Ich suche nun die
Verteilungsfunktion, die nur 49 mögliche Ergebnisse hat.
Willst du mittels Normalverteilungsapproximation die Häufigkeiten der
Ziehungen der Zahlen 1,2,…,49 auf Abweichung von der Null-Hypothese
prüfen, dass eine gegebene Zahl z mit der Wahrscheinlichkeit 6/49
gezogen wird? Dann erhältst du mit der Häufigkeit für jedes z einen
Punkt der Verteilung. Diesen einen Punkt kann man dann anhand der
Normalverteilung mit den Paramtern µ=p*5691 und σ=5691*p*(1-p)
überprüfen. (Problem: multiples Testen, keine Unabhängigkeit der Tests
[wenn eine Zahl besonders häufig ist, dann müssen andere Zahlen
entsprechende seltener sein]) Oder willst du Gleichverteilung aller
Zahlen zeigen? Dann müsste man die 49 Häufigkeiten auf Gleichverteilung
prüfen. Dazu kann man normalerweise einen Anpassungstest rechnen (chi²
zum Beispiel oder Kolmogorow/Smirnow). Aber auch hier gibt es das
Problem, dass die Werte nicht unabhängig voneinander sind.
Post by j***@googlemail.com
Bei einer anderen Verteilung habe ich 42 Meßwerte aus einer
unbekannten Grundgesamtheit. Die Varianz kann ich aus den 42
Meßwerten schätzen. Mit der Student-t-Verteilung liegen Meßwerte und
theoretische Werte nahe beieinander. Ist die Student-t-Verteilung die
richtige Verteilungsannahme?
Auch hier muss ich raten, was du eigentlich willst. Willst du die
Parameter der Verteilung (welche ist das?) schätzen oder einen
Anpassungstest rechnen?
j***@googlemail.com
2018-05-28 18:17:27 UTC
Permalink
Raw Message
Post by Ralf Goertz
Auch hier muss ich raten, was du eigentlich willst. Willst du die
Parameter der Verteilung (welche ist das?) schätzen oder einen
Anpassungstest rechnen?
Bei der kontinuierlichen Normalverteilung kann man cie Verteilungkumulativ als S-förmige Summenkurve darstellen. Als Abzisse die geordneten Werte und als Ordinate die Summe von 0 bis 1.

Mir geht aus um Anschaulichkeit, nicht um Hypothesentest - der ist ja beim Lotto kklar. Ich habe 49 äufiggkeiten der Zahlen (Entschuldigung 46 war ein Schreibfehler) die ich ordnen kann von der kleinsten bis zur größten Häufigkeit. Und dann die Werte in ein Diagramm eintragen. Dadurch entstehen 49 Punkte, die S-ähnlich verteilt sind. Jetzt muß es eine theoretische Verteilung geben von der minimalenHäufigkeit bis zur maximalen Häufigkeit, die die theoretischen Häufigkeiten sind. Auch diese 49 Werte können in das gleiche Diagramm eingetragen werden und die theortischen und realisierten Punkte werden mehr odre weniger gut benachbart sein.

Ich halte eine solche Darstellung für Laien für anschaulischer als eine Argumentation mit Hypothesen annehmen oder verwerfen.

Und eine ähnliche Darstellung möchte ich für die zweite Verteilung haben. Erst wieder ordnen und dann die annähernd S-förmige kumulierten Punkte eintragen. Eine theoretische Verteilung von 42 Werten kann dann angepaßt werden - z.B. über gleiche Varianz. Die Ahnschaulichkeit ist dann die Nähe der Meßpunkte zu den theoretischen Punkten.

Besonders an den Verteilungsenden werden die Punkte nicht sehr in der Nähe liegen - aber der Versuch mit einigen (allerdings nicht den richtigen) Verteilungsfunktionen gibt mir Hoffnung.

Beispiel http://www.ing-buero-ebel.de/Treib/Klima.pdf Folie 62
Ralf Goertz
2018-05-29 14:25:41 UTC
Permalink
Raw Message
Am Mon, 28 May 2018 11:17:27 -0700 (PDT)
Am Donnerstag, 24. Mai 2018 16:25:05 UTC+2 schrieb
Post by Ralf Goertz
Auch hier muss ich raten, was du eigentlich willst. Willst du die
Parameter der Verteilung (welche ist das?) schätzen oder einen
Anpassungstest rechnen?
Bei der kontinuierlichen Normalverteilung kann man cie
Verteilungkumulativ als S-förmige Summenkurve darstellen. Als Abzisse
die geordneten Werte und als Ordinate die Summe von 0 bis 1.
Mir geht aus um Anschaulichkeit, nicht um Hypothesentest - der ist ja
beim Lotto kklar. Ich habe 49 äufiggkeiten der Zahlen (Entschuldigung
46 war ein Schreibfehler) die ich ordnen kann von der kleinsten bis
zur größten Häufigkeit. Und dann die Werte in ein Diagramm eintragen.
Dadurch entstehen 49 Punkte, die S-ähnlich verteilt sind. Jetzt muß
es eine theoretische Verteilung geben von der minimalenHäufigkeit bis
zur maximalen Häufigkeit, die die theoretischen Häufigkeiten sind.
Auch diese 49 Werte können in das gleiche Diagramm eingetragen werden
und die theortischen und realisierten Punkte werden mehr odre weniger
gut benachbart sein.
Okay, in dem Grenzfall, dass alle Zahlen gleichhäufig sind, ist es aber
Essig mit der S-Förmigkeit, dann gibt es eine Gerade. Keine Ahnung, ob
jemand die theoretische Funktion berechnet hat, ich stelle mir das recht
schwierig vor. Wenn es nur darum geht, die theoretische Kurve in einem
Diagramm darzustellen und mit den tatsächlichen Werten zu vergleichen,
sollte eine Simulation ausreichen. Die ist recht simpel zu programmieren
und bei vielleicht 10000 simulierten Ziehungen sicher sehr nahe an der
theoretischen Kurve.
Und eine ähnliche Darstellung möchte ich für die zweite Verteilung
haben. Erst wieder ordnen und dann die annähernd S-förmige kumulierten
Punkte eintragen. Eine theoretische Verteilung von 42 Werten kann dann
angepaßt werden - z.B. über gleiche Varianz. Die Ahnschaulichkeit ist
dann die Nähe der Meßpunkte zu den theoretischen Punkten.
Besonders an den Verteilungsenden werden die Punkte nicht sehr in der
Nähe liegen - aber der Versuch mit einigen (allerdings nicht den
richtigen) Verteilungsfunktionen gibt mir Hoffnung.
Beispiel http://www.ing-buero-ebel.de/Treib/Klima.pdf Folie 62
Wenn ich das richtig verstehe, sind das Residuen aus einer linearen
Regression, die man mit den dafür geeigneten Methoden analysieren und
darstellen kann. Dass eine Darstellung wie beim Lotto-Problem
angemessen ist, wage ich zu bezweifeln, da das Datenniveau ein anderes
ist.

Loading...