Discussion:
Regularisierung, lineare Gleichungssysteme
(zu alt für eine Antwort)
Olaf Dietrich
2012-05-07 13:09:37 UTC
Permalink
Mir sind gerade zwei Varianten zur (Tichonow-?)Regularisierung
für die Lösung großer schlecht koniditionierter linerare
Gleichungssysteme begegnet, deren Unterschied (oder Äquivalenz)
mir nicht ganz klar ist:

Die grundlegende Frage ist die nach dem x in
A x = b (A: m×n, x: n×1, b: m×1).

Die Lösung soll dabei grundsätzlich über das Minimum der
Fehlerquadrate definiert sein, also
|| A x - b ||² -> min.


Der erste Ansatz mit Regularisierung ist
A' x = [ A] x = b' = [b], (A': (m+n)×n, x: n×1, b': (m+n)×1,
[a 1] [0] 1: n×n Einheitsmatrix)

wobei der Skalar a der Regularisierungparameter (auch
Dämpfungsparameter) ist (a=0: keine Regularisierung,
a->inf. überregularisiert, d.h. x->0). Das steht zum
Beispiel bei C.C. Paige & M.A. Saunders (1982) "LSQR:
An algorithm for sparse linear equations and sparse
least squares" ACM TOMS 8(1),43-71.

Ist das äquivalent zur (einfachsten) Tichonow-Regularisierung,
also zur Bedingung
|| A x - b ||² + a²||x||² -> min?
<URL:https://en.wikipedia.org/wiki/Tikhonov_regularization>


Der zweite Ansatz in diesem Zusammenhang ist der folgende
(der Regularisierungsteil der Matrix erscheint sozusagen
an transponierter Stelle):
A' x' = [A a1] [x] = A x + ay = b, (A': m×(n+m), x': (n+m)×1,
[y] y: mx1, b: m×1,
1: m×m Einheitsmatrix)

Auch hier ist der Skalar a ein Regularisierungsparameter,
für a=0 wird nicht regularisiert, für a->inf überregularisiert.
Gesehen z.B. bei F. Schweser et al. (2010) Med.Phys. 37(10):
5165-5178.


Wie unterscheiden sich diese zwei Ansätze (oder sind es drei
inkl. Standard-Tichonow-Regularisierung?)? Könnt Ihr mit eine
Quelle (möglichst online) empfehlen, in der solche Ansätze
verglichen und erklärt werden?

Vielen Dank!

Olaf
Christian Gollwitzer
2012-05-07 18:07:52 UTC
Permalink
Post by Olaf Dietrich
Mir sind gerade zwei Varianten zur (Tichonow-?)Regularisierung
für die Lösung großer schlecht koniditionierter linerare
Gleichungssysteme begegnet, deren Unterschied (oder Äquivalenz)
Die grundlegende Frage ist die nach dem x in
A x = b (A: m×n, x: n×1, b: m×1).
Die Lösung soll dabei grundsätzlich über das Minimum der
Fehlerquadrate definiert sein, also
|| A x - b ||² -> min.
Der erste Ansatz mit Regularisierung ist
A' x = [ A] x = b' = [b], (A': (m+n)×n, x: n×1, b': (m+n)×1,
[a 1] [0] 1: n×n Einheitsmatrix)
wobei der Skalar a der Regularisierungparameter (auch
Dämpfungsparameter) ist (a=0: keine Regularisierung,
a->inf. überregularisiert, d.h. x->0). Das steht zum
An algorithm for sparse linear equations and sparse
least squares" ACM TOMS 8(1),43-71.
Ist das äquivalent zur (einfachsten) Tichonow-Regularisierung,
also zur Bedingung
|| A x - b ||² + a²||x||² -> min?
<URL:https://en.wikipedia.org/wiki/Tikhonov_regularization>
Ja - das siehst Du ganz einfach, wenn Du die zweite Gleichung in die
Least-Squares-Formel einsetzt. Das zweite "=" darin ist ja kein echtes
"=", sondern ein "~". Siehe auch das ziemlich gut gemachte Regulariation
Tutorial von Arnold Neumaier

http://www.mat.univie.ac.at/~neum/ms/regtutorial.pdf
Post by Olaf Dietrich
Der zweite Ansatz in diesem Zusammenhang ist der folgende
(der Regularisierungsteil der Matrix erscheint sozusagen
A' x' = [A a1] [x] = A x + ay = b, (A': m×(n+m), x': (n+m)×1,
[y] y: mx1, b: m×1,
1: m×m Einheitsmatrix)
Das verstehe ich jetzt nicht ganz, heißt das, es werden Spalten an die
Matrix angehängt? Auch hier wieder ist das zweite "=" ein "~". Wenn Du
das ausmultiplizierst, müsstest Du erkennen können, ob das auf dasselbe
hinausläuft.
Post by Olaf Dietrich
Könnt Ihr mit eine
Quelle (möglichst online) empfehlen, in der solche Ansätze
verglichen und erklärt werden?
s.o., das ist ziemlich umfangreich
Christian
Olaf Dietrich
2012-05-08 07:11:15 UTC
Permalink
Post by Christian Gollwitzer
Post by Olaf Dietrich
Die grundlegende Frage ist die nach dem x in
A x = b (A: m×n, x: n×1, b: m×1).
[...]
Post by Christian Gollwitzer
Post by Olaf Dietrich
Der erste Ansatz mit Regularisierung ist
A' x = [ A] x = b' = [b], (A': (m+n)×n, x: n×1, b': (m+n)×1,
[a 1] [0] 1: n×n Einheitsmatrix)
[...]
Post by Christian Gollwitzer
Post by Olaf Dietrich
Ist das äquivalent zur (einfachsten) Tichonow-Regularisierung,
|| A x - b ||² + a²||x||² -> min?
Ja - das siehst Du ganz einfach, wenn Du die zweite Gleichung in die
Least-Squares-Formel einsetzt. Das zweite "=" darin ist ja kein echtes
"=", sondern ein "~". Siehe auch das ziemlich gut gemachte Regulariation
Tutorial von Arnold Neumaier
http://www.mat.univie.ac.at/~neum/ms/regtutorial.pdf
Vielen Dank, das werde ich mir mal ansehen.
Post by Christian Gollwitzer
Post by Olaf Dietrich
Der zweite Ansatz in diesem Zusammenhang ist der folgende
A' x' = [A a1] [x] = A x + ay = b, (A': m×(n+m), x': (n+m)×1,
[y] y: mx1, b: m×1,
1: m×m Einheitsmatrix)
Das verstehe ich jetzt nicht ganz, heißt das, es werden Spalten an die
Matrix angehängt?
Die Matrix A wird nach rechts mit einer Einheitsmatrix verlängert,
d.h. die Zeilen werden länger (es gibt mehr Spalten). Auch
der Lösungsvektor x' wird entsprechend verlängert (in dem Fall nach
unten) und das ganze ist äquivalent zum Gleichungssystem

A x + a y = b (A: Originalmatrix, a Skalar).

Anschaulich übernimmt y den Teil der Lösung, der sich durch
x bei gegebenen A nicht so gut darstellen läßt. y wird dann
nicht weiter gebraucht (oder kann als Indikator angesehen werden,
wie gut Modell A und Lösung b zusammenpassen).

Olaf
Olaf Dietrich
2012-05-09 11:53:44 UTC
Permalink
Post by Olaf Dietrich
Post by Olaf Dietrich
A' x = [ A] x = b' = [b], (A': (m+n)×n, x: n×1, b': (m+n)×1,
[a 1] [0] 1: n×n Einheitsmatrix)
|| A x - b ||² + a²||x||² -> min?
A' x' = [A a1] [x] = A x + ay = b, (A': m×(n+m), x': (n+m)×1,
[y] y: mx1, b: m×1,
1: m×m Einheitsmatrix)
Die Matrix A wird nach rechts mit einer Einheitsmatrix verlängert,
d.h. die Zeilen werden länger (es gibt mehr Spalten). Auch
der Lösungsvektor x' wird entsprechend verlängert (in dem Fall nach
unten) und das ganze ist äquivalent zum Gleichungssystem
A x + a y = b (A: Originalmatrix, a Skalar).
Wenn ich hier eine Lösung (x,y) im Sinne minimaler Fehlerquadrate
suche, so ist das doch(?):

|A x + a y - b|² = |A x - b|² + a²|y|² + 2a y·(Ax-b) -> min
(mit Skalarprodukt im letzten Summanden)

Was sagt mir das? x approximiert die gesuchte Lösung, y soll
möglichst klein sein und möglichst orthogonal zum Residuum?
Warum?

Hat jemand einen Interpretationsvorschlag für mich (oder
gerne auch einen Literaturverweis)?

Olaf
Rudolf Sponsel
2012-05-13 08:57:38 UTC
Permalink
[...]
Post by Olaf Dietrich
Hat jemand einen Interpretationsvorschlag für mich (oder
gerne auch einen Literaturverweis)?
Olaf
Selected Literature Tikhonof-Regularisierung (ridge-method):

BELSLEY, D.A., KUH, E., WELSCH, R.E. "Regression Diagnostics: Identifying
Influential Data and Sources of Collinearity", New York 1980

BLALOCK, H.M. Jr. Ed. "Measurement in the Social Sciences", Chicago 1974, p.
257, Table 8.3

DARLINGTON. R.B. "Multiple regression in psychological research and practise",
Psychological Bulletin 69, 1979, pp. 161 - 182

ENCYCLOPEDIA OF STATISTICAL SCIENCES (Ed. KOTZ, S., JOHNSON, N.L.), Vol.8, New
York 1988, key word "Ridge Regression" pp. 128 – 136 (with references and
bibliographie)

FREUND, R.J., MINTON, P.D. "Regression Methods", New York 1979, p. 142, Table
5.12 Mesquite Data (An Example for Ridge Regression)

HOFMANN, B. "Tikhonov Regularization" in: "Regularization for Applied Inverse
and Ill-Posed Problems", Leipzig 1986, pp. 85

HOERL, A.E., KENNARD, R.W. "Ridge regression: Biased estimation for non
orthogonal problems", Technometrics 12, 1970, pp. 55 - 67

HOBLER, o. "Multikolliniarität" in: "Ökonometrie", Stuttgart 1989, pp. 85 - 106

KENNARD, R.W. -> HOERL, A.E., KENNARD, R.W.

KUH, E. -> BELSLEY, D.A., KUH, E., WELSCH, R.E. LÄUTER, J. "Stabile
multivariate Verfahren", Berlin 1992

LUNNEBORG, C.E. -> PAGEL, M.D., LUNNEBORG, C.E.
MARKWARDT, D.W. "Generalized inverse, ridge regression, biased linear
estimation, and nonlinear regression", Technometrics 12, 1970, pp. 591 - 613

MINTON, P.D. -> FREUND, R.J., MINTON, P.D.

PAGEL, M.D., LUNNEBORG, C.E. "Empirical evaluation of ridge regression".
Psychological Bulletin 97, 1985, pp. 342 - 355

ROZEBOOM, W.W. "Ridge regression: Bonanza or Beguilement",
Psychological Bulletin 86, 1979, pp. 242 - 249

WELSCH, R.E. -> BELSLEY, D.A., KUH, E., WELSCH, R.E.

WERNER, J., WERNER, B. "Ridge-Regression: kein Routine-Verfahren"
Psychologische Beiträge, 1984, 26 (2), pp. 283 - 297

WERNER, B. -> WERNER, J., WERNER, B.


Sekundärequelle (S. 5.4-10): "Therapie" numerisch destruktiv instabiler
Matrizen, Kapitel 5.4, in: Sponsel, R. (1994). Numerisch instabile Matrizen
und Kollinearität in der Psychologie. Ill-Conditioned Matrices and
Collinearity in Psychology. Zweisprachig. Ins Englische übersetzt von Agnes
Mehl. Mit einem Beitrag des Mathematikers Dr. B. Hain: Bemerkungen über
Korrelationsmatrizen (Kapitel 6). Erlangen: IEC-Verlag.

Darin Anwendungen auf Korrelationsmatrizen. Falls gewünscht kann ich ein
Anwendungsbeispiel posten. Die Arbeit ist rein praxisorientiert.

Rudolf Sponsel, Erlangen

Loading...