Discussion:
Varianz, warum quadrieren
(zu alt für eine Antwort)
Markus Helius
2004-08-02 16:37:08 UTC
Permalink
Bei der der Berechnung der Varianz, versteh ich nicht wieso quadriert
wird. Mit Sicherheit wird das richtig sein, möcht trotzdem wissen wie
das zusammenhängt.
Durch das quadrieren wird man die negativen Werte los, aber es erhöhen
sich auch die jeweiligen werte für die Abweichung?

Als Beispiel ein Würfelpaar mit den möglichen Ausgängen 2 bis 12
(klein x = 2 bis 12)
Es ergibt sich der Erwartungswert E(X) = 7
für die Varianz geht es dann wie folgt weiter:
x - E(X) = 2 - 7; 3 -7;....12 -7
Die Ergebnisse werden nun quadriert, und dann multipliziert mit P
(X=x) (steht in dieser Aufgabe für 1/36; 2/36; 3/36...1/36)
Für die Varianz ergibt sich dann 210/36, die Wurzel wird nicht
gezogen, die Wurzel wird erst gezogen wenn es um die
Standardabweichung geht.
David Kastrup
2004-08-02 16:58:10 UTC
Permalink
Post by Markus Helius
Bei der der Berechnung der Varianz, versteh ich nicht wieso quadriert
wird. Mit Sicherheit wird das richtig sein, möcht trotzdem wissen wie
das zusammenhängt.
Der Mittelwert oder Erwartungswert ist derjenige Wert, zu dem der
mittlere quadratische Abstand (nämlich die Varianz) der Zufallswerte
minimal ist.

Damit sind Erwartungswert und Varianz ein natürliches Paar.

Im Gegensatz dazu ist der Median der Wert, zu dem der mittlere
absolute Abstand der Zufallswerte minimal ist.

Analytisch angenehmer zu handhaben sind mit Abstand der Erwartungswert
und die Varianz.
Post by Markus Helius
Durch das quadrieren wird man die negativen Werte los, aber es
erhöhen sich auch die jeweiligen werte für die Abweichung?
Ja, und das ist erwünscht, um den Mittelwert zu bevorzugen. Wenn Du
den absoluten Abstand zu den Stichproben {1,2,3,4} minimieren willst,
dann ist jeder Wert zwischen 2 und 3 gleich gut oder schlecht. Das
ist unpraktisch.
Post by Markus Helius
Als Beispiel ein Würfelpaar mit den möglichen Ausgängen 2 bis 12
(klein x = 2 bis 12)
Es ergibt sich der Erwartungswert E(X) = 7
x - E(X) = 2 - 7; 3 -7;....12 -7
Die Ergebnisse werden nun quadriert, und dann multipliziert mit P
(X=x) (steht in dieser Aufgabe für 1/36; 2/36; 3/36...1/36)
Für die Varianz ergibt sich dann 210/36, die Wurzel wird nicht
gezogen, die Wurzel wird erst gezogen wenn es um die
Standardabweichung geht.
Wie kompliziert. Die Varianzen unabhängiger Ergebnisse addieren
sich. Die Varianz eines Wurfes ist natürlich

2/6 * (1^2 + 3^2 + 5^2)/(2^2) = 35/12, damit ist die Varianz von zwei
Würfen 70/12.
--
David Kastrup, Kriemhildstr. 15, 44793 Bochum
Thomas Bliem
2004-08-02 21:39:14 UTC
Permalink
Hallo,
Post by David Kastrup
Im Gegensatz dazu ist der Median der Wert, zu dem der mittlere
absolute Abstand der Zufallswerte minimal ist.
das glaube ich nicht. Zum Beispiel ändert sich der Median nicht, wenn
man den größten der Werte noch viiieeeeel größer macht.

Viele Grüße,

Thomas
David Kastrup
2004-08-02 22:08:52 UTC
Permalink
Post by Thomas Bliem
Post by David Kastrup
Im Gegensatz dazu ist der Median der Wert, zu dem der mittlere
absolute Abstand der Zufallswerte minimal ist.
das glaube ich nicht. Zum Beispiel ändert sich der Median nicht, wenn
man den größten der Werte noch viiieeeeel größer macht.
Ja und?

Also hier für Ungläubige:

Nehmen wir die Zahlen 1, 2 und 3. Der Median ist 2, der mittlere
absolute Abstand ist 2/3.

Nun machen wir den größten der Werte noch viiieeeeel größer, sagen wir
1000.

Der Median ist 2, der mittlere absolute Abstand ist 333.

In einer Tabelle haben wir die folgenden Abstände:

x<=1: (1003-3x)/3
1<=x<=2: (1001-x)/3
2<=x<=1000: (997+x)/3
1000<=x: (3x-1003)/3

333 ist das absolute Minimum des mittleren absoluten Abstandes, das
erreicht werden kann, und das wird für den Median erreicht.
--
David Kastrup, Kriemhildstr. 15, 44793 Bochum
Kurt Watzka
2004-08-02 21:17:42 UTC
Permalink
Post by Thomas Bliem
Hallo,
Post by David Kastrup
Im Gegensatz dazu ist der Median der Wert, zu dem der mittlere
absolute Abstand der Zufallswerte minimal ist.
das glaube ich nicht. Zum Beispiel ändert sich der Median nicht, wenn
man den größten der Werte noch viiieeeeel größer macht.
{1, 2, 3} der durchschnittliche absolute Abstand von 2 ist 4/6
der durchschnittliche absolute Abstand von 2,5 ist 5/6

{1, 2, 9} der durchschnittliche absolute Abstand von 2 ist 16/6
der durchschnittliche absolute Abstand von 2,5 ist 17/6

Der durchschnittliche absolute Abstand vom Median wird natuerlich groesser,
wenn Du den groessten Wert noch einmal viel groesser machst. Der Median
ist aber weiterhin der Punkt, von dem der durchschnittliche absolute
Abstand minimal bleibt.

Wenn Du dich mit dem gewählten Punkt aus dem als Median in Frage kommenden
Bereich herausbewegst, um deinem viel groesseren Wert zu folgen, dann
verringerst Du den Abstand zu einem Punkt um den gleichen Betrag, um den
Du den Abstand von mindestens der Haelfte der Punkte vergroesserst. Wenn
die Haelfte der Punkte mehr als einer sind, fuehrt das zu einer
Vergroesserung des Gesamtabstandes.

Kurt Watzka
Jakob Creutzig
2004-08-03 08:02:46 UTC
Permalink
Post by David Kastrup
Post by Markus Helius
Bei der der Berechnung der Varianz, versteh ich nicht wieso quadriert
wird. Mit Sicherheit wird das richtig sein, möcht trotzdem wissen wie
das zusammenhängt.
Der Mittelwert oder Erwartungswert ist derjenige Wert, zu dem der
mittlere quadratische Abstand (nämlich die Varianz) der Zufallswerte
minimal ist.
Damit sind Erwartungswert und Varianz ein natürliches Paar.
Im Gegensatz dazu ist der Median der Wert, zu dem der mittlere
absolute Abstand der Zufallswerte minimal ist.
Ciekawe, wir scheinen unterschiedliche Definitionen
von 'Median' zu kennen. Die Definition von 'Median',
wie ich sie kenne:

Sei X eine reelle Zufallsgroesse, dann heisst eine Zahl
m Median von X genau dann, falls folgendes gilt:
P(X >= x) >=1/2 <= P(X <= x).

Offenbar kann es mehr als einen Median in diesem Sinne
geben. Und weiter haben z.B. X_1,X_2 mit

P(X_1 = -1) = P(X_1 = 1) = 1/2,
P(X_2 = -1) = P(X_2 = 10^10) = 1/2

beide als Median im obigen Sinne z.B. 0.

Ist die andere Definition als argmin E|X - x|
ueblich in der Statistik? (Es scheint leicht
zu zeigen, dass die Loesung des argmin-Problems
auch obige Eigenschaft hat. Bei absolutstetigen
Verteilungen mit ueberall positiver Dichte sollten
beide Definitionen wohl uebereinstimmen.)

Best,
Jakob
Felix Plail
2004-08-02 17:06:40 UTC
Permalink
Hallo Markus
Post by Markus Helius
Bei der der Berechnung der Varianz, versteh ich nicht wieso quadriert
wird. Mit Sicherheit wird das richtig sein, möcht trotzdem wissen wie
das zusammenhängt.
Durch das quadrieren wird man die negativen Werte los, aber es erhöhen
sich auch die jeweiligen werte für die Abweichung?
Du hast Recht, wenn man ein positives Maß für die Streuung haben will, wäre
eine Konstruktion wie E(|X-EX|) auch denkbar. Gründe warum sich das Quadrat
durchgesetzt hat, sind die leichtere Berechenbarkeit und vielleicht die
stärkere Gewichtung von störenden großen Abweichungen.
Grüße
Felix Plail
Markus Helius
2004-08-03 18:22:51 UTC
Permalink
Post by Felix Plail
Hallo Markus
Post by Markus Helius
Bei der der Berechnung der Varianz, versteh ich nicht wieso quadriert
wird. Mit Sicherheit wird das richtig sein, möcht trotzdem wissen wie
das zusammenhängt.
Durch das quadrieren wird man die negativen Werte los, aber es erhöhen
sich auch die jeweiligen werte für die Abweichung?
Du hast Recht, wenn man ein positives Maß für die Streuung haben will, wäre
eine Konstruktion wie E(|X-EX|) auch denkbar. Gründe warum sich das Quadrat
durchgesetzt hat, sind die leichtere Berechenbarkeit und vielleicht die
stärkere Gewichtung von störenden großen Abweichungen.
Grüße
Felix Plail
Hi Felix, danke für die ANtwort, ganze sache ist sehr viel deutlicher.

folgende Zeilen sollen nicht andeuten ich hätte da was gefunden, was
entdeckt, für mich selber sind solche kleinigkeiten einfach wichtig um
mich in der mathematischen landschaft einigermassen sicher zu bewegen
es ist also keine logische Notwendigkeit, sondern eine Sache die die
Varianz besser herrausstellt und man nimmt ^2 nicht ^3 weil es das
bessere ist ?
Felix Plail
2004-08-03 20:11:16 UTC
Permalink
Hi
Post by Markus Helius
Hi Felix, danke für die ANtwort, ganze sache ist sehr viel deutlicher.
folgende Zeilen sollen nicht andeuten ich hätte da was gefunden, was
entdeckt, für mich selber sind solche kleinigkeiten einfach wichtig um
mich in der mathematischen landschaft einigermassen sicher zu bewegen
es ist also keine logische Notwendigkeit, sondern eine Sache die die
Varianz besser herrausstellt und man nimmt ^2 nicht ^3 weil es das
bessere ist ?
Bei ^3 würde doch die verlangte Positivität der Varianz verloren gehen.
Aber es ist richtig: man nimmt ^2 eher als ^4 oder den Betrag wegen der
einfacheren Berechnung.
Grüsse
Felix
Horst Kraemer
2004-08-03 21:42:13 UTC
Permalink
Post by Markus Helius
Post by Felix Plail
Hallo Markus
Post by Markus Helius
Bei der der Berechnung der Varianz, versteh ich nicht wieso quadriert
wird. Mit Sicherheit wird das richtig sein, möcht trotzdem wissen wie
das zusammenhängt.
Durch das quadrieren wird man die negativen Werte los, aber es erhöhen
sich auch die jeweiligen werte für die Abweichung?
Du hast Recht, wenn man ein positives Maß für die Streuung haben will, wäre
eine Konstruktion wie E(|X-EX|) auch denkbar. Gründe warum sich das Quadrat
durchgesetzt hat, sind die leichtere Berechenbarkeit und vielleicht die
stärkere Gewichtung von störenden großen Abweichungen.
Grüße
Felix Plail
Hi Felix, danke für die ANtwort, ganze sache ist sehr viel deutlicher.
folgende Zeilen sollen nicht andeuten ich hätte da was gefunden, was
entdeckt, für mich selber sind solche kleinigkeiten einfach wichtig um
mich in der mathematischen landschaft einigermassen sicher zu bewegen
es ist also keine logische Notwendigkeit, sondern eine Sache die die
Varianz besser herrausstellt und man nimmt ^2 nicht ^3 weil es das
bessere ist ?
Man nimmt V(X) := E [X-EX)^2] insbesondere deswegen als
Abweichungsmass, weil es eine mathematische Eigenschaft hat, die die
anderen moeglichen Abweichungsmasse E [|X-EX|^n] nicht haben: Man
kann bereits dann das Abweichungsmass einer Summe X+Y von zwei
unabhaengigen ZV bestimmen, wenn man nur die Abweichungsmasse von X
und Y kennt, man muss weder die Mittelwerte noch die Verteilungen von
X und Y kennen:

E[X*Y] = E[X]*E[Y] -> V(X+Y) = V(X) + V(Y)
--
Horst
Markus Helius
2004-08-06 17:35:23 UTC
Permalink
vielen Dank für die Antwort
Thomas Strasser
2004-08-08 19:29:05 UTC
Permalink
Hallo,
Post by Felix Plail
Du hast Recht, wenn man ein positives Maß für die Streuung haben will, wäre
eine Konstruktion wie E(|X-EX|) auch denkbar. Gründe warum sich das Quadrat
durchgesetzt hat, sind die leichtere Berechenbarkeit und vielleicht die
stärkere Gewichtung von störenden großen Abweichungen.
ein wichtiger GRund ist noch, daß man das ganze geometrisch im
n-dimensionalen Raum als Suche eines nächstgelegenen "Punktes" deuten
kann. Zur Abstandsberechnung müssen nämlich Koordinatendifferenzen
quadriert werden.

Th. Strasser

Lesen Sie weiter auf narkive:
Loading...