/
Text
Erste Hilfe in Linearer Algebra
Oliver Deiser • Caroline Lasser
Erste Hilfe in
Linearer Algebra
Überblick und Grundwissen mit
vielen Abbildungen und Beispielen
Oliver Deiser
School of Education
Technische Universität München
München, Deutschland
Caroline Lasser
Zentrum für Mathematik
Technische Universität München
Garching, Deutschland
ISBN 978-3-642-41626-2
ISBN 978-3-642-41627-9 (eBook)
DOI 10.1007/978-3-642-41627-9
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliogra¿e; detaillierte bibliogra¿sche Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Springer Spektrum
© Springer-Verlag Berlin Heidelberg 2015
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich
vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikrover¿lmungen und die Einspeicherung und
Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt
auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichenund Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften.
Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem
Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag noch die Autoren oder
die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler
oder Äußerungen.
Planung und Lektorat: Dr. Andreas Rüdinger, Meike Barth
Redaktion: Alexander Reischert (Redaktion ALUAN)
Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier
Springer Berlin Heidelberg ist Teil der Fachverlagsgruppe Springer Science+Business Media
(www.springer.com)
für Thalia und Larina
Inhalt
Vo r w o r t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
K a p i t e l 0 . M e n g e n t h e o r e t i s c h e s Vo r s p i e l . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.
2.
3.
4.
Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Endliche Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Die Mengenkomprehension . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Algebraische Operationen mit Mengen . . . . . . . . . . . . . . . . . 14
K a p i t e l 1 . R e l a t i o n e n u n d A b b i l d u n g e n . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Äquivalenzrelationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ordnungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Der Abbildungsbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konstruktion von Abbildungen . . . . . . . . . . . . . . . . . . . . . . .
Notationen und Sprechweisen für Abbildungen . . . . . . . . . .
Umgang mit Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Operationen und Abgeschlossenheit . . . . . . . . . . . . . . . . . . .
Abbildungseigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mächtigkeitsvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das Auswahlaxiom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das Zornsche Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
20
22
24
26
28
30
32
34
36
38
40
K a p i t e l 2 . A l g e b r a i s c h e S t r u k t u r e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Halbgruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Monoide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rechenregeln in Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kommutative Operationen . . . . . . . . . . . . . . . . . . . . . . . . . .
Untergruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Normalteiler und Faktorgruppen . . . . . . . . . . . . . . . . . . . . .
Ringe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Angeordnete Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Polynomringe und Polynomfunktionen . . . . . . . . . . . . . . . .
Division und Nullstellen von Polynomen . . . . . . . . . . . . . . .
44
46
48
50
52
54
56
58
60
62
64
66
2
Inhalt
K a p i t e l 3 . Ve k t o r r ä u m e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Unterräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Produkte von Vektorräumen . . . . . . . . . . . . . . . . . . . . . . . . .
Linearkombinationen und Erzeugendensysteme . . . . . . . . .
Lineare Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Basen und Koordinatenvektoren . . . . . . . . . . . . . . . . . . . . . .
Austauschlemma und Austauschsatz . . . . . . . . . . . . . . . . . . .
Die Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Existenz von Basen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Summen von Vektorräumen . . . . . . . . . . . . . . . . . . . . . . . . . .
Quotientenräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Affine Unterräume und Koordinaten . . . . . . . . . . . . . . . . . .
70
72
74
76
78
80
82
84
86
88
90
92
K a p i t e l 4 . L i n e a r e A b b i l d u n g e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Gruppenhomomorphismen . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Mono-, Epi-, Iso-, Endo- und Automorphismen . . . . . . . . . 98
Kern und Bild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Der Homomorphiesatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Konstruktion linearer Abbildungen . . . . . . . . . . . . . . . . . . . 106
Darstellung linearer Abbildungen . . . . . . . . . . . . . . . . . . . . 108
Fasern und lineare Gleichungssystem . . . . . . . . . . . . . . . . . 110
Isomorphie von Vektorräumen . . . . . . . . . . . . . . . . . . . . . . 112
Die Dimensionsformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
Lineare Abbildungen als Vektoren . . . . . . . . . . . . . . . . . . . . 116
Dualräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
K a p i t e l 5 . M a t r i z e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Matrizen und lineare Abbildungen . . . . . . . . . . . . . . . . . . .
Die Matrizenmultiplikation . . . . . . . . . . . . . . . . . . . . . . . . .
Darstellende Matrizen für beliebige Basen . . . . . . . . . . . . .
Invertierbare Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Elementarmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Permutationsmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . .
Basiswechsel und Transformationsformel . . . . . . . . . . . . . .
Die Transposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Der Rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Zeilenstufenform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Eliminationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
122
124
126
128
130
132
134
136
138
140
142
144
Inhalt
3
K a p i t e l 6 . E u k l i d i s c h e u n d u n i t ä r e Ve k t o r r ä u m e . . . . . . . . . . . . . . . . 147
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Das kanonische Skalarprodukt im ⺢n . . . . . . . . . . . . . . . . . .
Das kanonische Skalarprodukt im ⺓n . . . . . . . . . . . . . . . . . .
Allgemeine Skalarprodukte . . . . . . . . . . . . . . . . . . . . . . . . .
Normierte Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Normen im Endlich-Dimensionalen . . . . . . . . . . . . . . . . . .
Orthonormalbasen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das Orthonormalisierungsverfahren . . . . . . . . . . . . . . . . . .
Orthogonale Komplemente und Projektionen . . . . . . . . . .
Orthogonale Homomorphismen und Matrizen . . . . . . . . .
Der Rieszsche Darstellungssatz . . . . . . . . . . . . . . . . . . . . . .
Der adjungierte Endomorphismus . . . . . . . . . . . . . . . . . . . .
Sesquilinearformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
148
150
152
154
156
158
160
162
164
166
168
170
K a p i t e l 7 . D e t e r m i n a n t e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
2 × 2-Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
n × n-Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das Vorzeichen einer Permutation . . . . . . . . . . . . . . . . . . .
Die Leibniz-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Multiplikation und Transposition . . . . . . . . . . . . . . . . . . . .
Der Entwicklungssatz von Laplace . . . . . . . . . . . . . . . . . . .
Komplementärmatrizen und die Regel von Cramer . . . . . .
Die speziellen linearen Gruppen . . . . . . . . . . . . . . . . . . . . .
Volumina von Parallelotopen . . . . . . . . . . . . . . . . . . . . . . . .
Das Kreuzprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Positive Definitheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Determinante eines Endomorphismus . . . . . . . . . . . . .
174
176
178
180
182
184
186
188
190
192
194
196
K a p i t e l 8 . E i g e n w e r t e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . .
Die Diagonalisierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . .
Das charakteristische Polynom . . . . . . . . . . . . . . . . . . . . . .
Das Diagonalisierbarkeitskriterium . . . . . . . . . . . . . . . . . . .
Die Trigonalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Der Spektralsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hauptachsentransformation und Trägheitssatz . . . . . . . . . .
Die Singulärwertzerlegung . . . . . . . . . . . . . . . . . . . . . . . . .
Lineare Abbildungen und Ellipsen . . . . . . . . . . . . . . . . . . .
Minimalpolynome und der Satz von Cayley-Hamilton . . .
Haupträume und Hauptraumzerlegung . . . . . . . . . . . . . . .
Die Jordan-Normalform . . . . . . . . . . . . . . . . . . . . . . . . . . .
200
202
204
206
208
210
212
214
216
218
220
222
4
Inhalt
Ü b e r b l i c k u n d Z u s a m m e n f a s s u n g . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Algebraische Grundstrukturen . . . . . . . . . . . . . . . . . . . . . . .
Die Kongruenz modulo m . . . . . . . . . . . . . . . . . . . . . . . . . .
Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Matrizen und lineare Abbildungen . . . . . . . . . . . . . . . . . . .
Umformungen mit Elementarmatrizen . . . . . . . . . . . . . . . .
Matrizengruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Matrixzerlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Sesquilinearformen 〈⋅, A ⋅〉 und positive Definitheit . .
Quadriken in Normalform für n = 2 . . . . . . . . . . . . . . . . . .
Normalformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Blockstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Berechnung und Bestimmung . . . . . . . . . . . . . . . . . . . . . . .
226
227
228
230
231
232
233
234
235
236
239
240
A u s b l i c k e z u E i g e n w e r t e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
1.
2.
3.
4.
5.
6.
Eigenwerte ohne Determinanten . . . . . . . . . . . . . . . . . . . . .
Eigenwerte ohne Fundamentalsatz . . . . . . . . . . . . . . . . . . .
Gershgorin-Kreise und die Lage der Eigenwerte . . . . . . . .
Matrixnormen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Matrixexponentiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lineare Systeme von Differentialgleichungen . . . . . . . . . . .
242
243
244
246
248
250
A n h ä n g e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
1.
2.
3.
4.
5.
6.
Junktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zum Funktionsbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Geometrische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Axiome der Mengenlehre . . . . . . . . . . . . . . . . . . . . . . .
254
256
257
258
262
264
L i t e r a t u r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
N o t a t i o n e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
I n d e x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
Vorwort
Die Lineare Algebra gehört zum weltweit etablierten Kanon des mathematischen
Grundwissens. In ihrem Zentrum stehen lineare Abbildungen zwischen Vektorräumen,
die mit Hilfe von Matrizen analysiert werden. Traditionell findet innerhalb der Linearen
Algebra auch eine erste Begegnung mit den algebraischen Grundstrukturen Gruppen,
Ringe, Körper statt. In vielen Anfängervorlesungen werden zudem die für alle mathematischen Gebiete unentbehrlichen Begriffe aus dem Umfeld von Mengen, Relationen und
Abbildungen behandelt. Das Buch folgt dieser Vorgehensweise. Nach einer kurzen Diskussion von Grundlagen (Kapitel 0 und 1) und algebraischen Strukturen (Kapitel 2) wenden wir uns sechs Kernthemen der Linearen Algebra zu (Kapitel 3 − 8). Diese sind:
Vektorräume, lineare Abbildungen, Matrizen,
Skalarprodukte, Determinanten, Eigenwerte.
Der Umfang des Textes entspricht, je nach Vorwissen, Tempo und Lernzielen, einer bis
zwei vierstündigen Vorlesungen. Es wurde ein systematischer und strukturierter Aufbau
angestrebt, der sich sowohl zum Lernen und Wiederholen als auch für die Lehre eignet.
Der Unterschied zu einem klassischen vorlesungsbegleitenden Lehrbuch lässt sich grob
gesprochen durch das Fehlen einiger (aber nicht aller) Beweise und einer ausführlicheren
Kommentierung zugunsten einer kompakten und übersichtlichen Darstellung unter Einschluss vieler Beispiele und Gegenbeispiele beschreiben. Dass Beweise fehlen, liegt an der
Konzeption des Buches und nicht etwa an der Meinung der Autoren, dass man auf diese
verzichten könne. Kurze Argumente sind ausgeführt, wenn sie den Einsatz mathematischer Eigenschaften aufzeigen und helfen, den Umgang mit mathematischen Objekten zu
erlernen. Zahlreiche Abbildungen möchten die behandelten Begriffe, Ergebnisse und
Methoden für die Anschauung greifbar und für die Erinnerung zugänglich machen. Wir
möchten anregen, sich der Mathematik auch durch die eigenständige Anfertigung von
Skizzen − die ganz einfach ausfallen können − zu nähern. Großer Wert wird auf exakte
Definitionen, auf die oft unentbehrlichen Voraussetzungen der Sätze und auf die sorgfältige Verwendung der mathematischen Sprache gelegt.
6
Vorwort
Das Buch kann verwendet werden
(1) als Begleittext für Hörer der Linearen Algebra I und (in Teilen) II; ein ausführlicheres und beweisvollständiges Lehrbuch kann und will es dabei nicht ersetzen,
(2) zur Wiederholung und Prüfungsvorbereitung,
(3) zur Selbstkontrolle (Kann ich die wichtigsten Begriffe und Ergebnisse genau
wiedergeben? Kann ich kurze Argumentationen eigenständig und sicher führen?
Kann ich Beispiele und Gegenbeispiele angeben? Kann ich abstrakte Begriffe
veranschaulichen?),
(4) zur Wissensauffrischung (insb. für Gymnasiallehrer, Physiker, Informatiker),
(5) als Anregung für Dozenten im Sinne eines ausgearbeiteten Ansatzes, Lernprozesse
von Studienanfängern zu unterstützen.
München, im Oktober 2014
Oliver Deiser und Caroline Lasser
Kapitel 0
Mengentheoretisches Vorspiel
8
0. Mengentheoretisches Vorspiel
0. 1 Mengen
Intuitiver Mengenbegriff
Mengen und ihre Elemente
Eine Menge ist eine Zusammenfassung von Objekten zu einem Objekt. Die
Objekte, die eine Menge bilden, heißen ihre Elemente. Eine Menge ist durch
ihre Elemente bestimmt.
Elementbeziehung
Ist ein Objekt x ein Element einer Menge M, so schreiben wir
x ∈ M,
(Epsilon- oder Element-Beziehung)
gelesen: „x epsilon M“, „x Element M“, „x ist in M als Element enthalten“.
Ist x kein Element von M, so schreiben wir x ∉ M.
„Menge“ ist ein nicht definierter
Grundbegriff der Mathematik. Welche
Mengen existieren, wird durch Axiome
geregelt, die man nicht unbedingt kennen muss. Intuitiv ist eine (mathematische) Menge eine Zusammenfassung von
(mathematischen) Objekten. Man kann
sich diese Zusammenfassung als „Sack“
oder „umzäuntes Gebiet“ vorstellen, in
dem sich die Objekte befinden.
M
0
0
1
3
N
2
Die Elemente einer Menge können beliebige Objekte und damit selbst Mengen sein. Die Menge
M hat die Elemente 0, 1, 2 und N. Dabei ist N die
aus 0 und 3 gebildete Menge. Es gilt 3 ∉ M.
Beispiele
(1) Ist M die aus den Zahlen 1, 2 und 3 gebildete Menge, so gilt 1 ∈ M, 2 ∈ M und
3 ∈ M. Für alle anderen x gilt x ∉ M.
(2) ⺞ = „die Menge aller natürlichen Zahlen (einschließlich der Null)“,
⺪ = „die Menge aller ganzen Zahlen“,
⺡ = „die Menge aller rationalen Zahlen“,
⺢ = „die Menge aller reellen Zahlen“.
Obwohl das Wort „Menge“ in der Umgangssprache eher „Vieles“ suggeriert, ist es in
der Mathematik nützlich, auch den „leeren Sack“ als Menge zuzulassen:
Die leere Menge ∅
Wir bezeichnen die Menge, die kein Element enthält, mit ∅.
Es gilt also x ∉ ∅ für alle x.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_1, © Springer-Verlag Berlin Heidelberg 2015
0.1 Mengen
9
Die Teilmengenbeziehung (Inklusion)
Wir definieren:
Definition (Teilmenge, echte Teilmenge, Obermenge, echte Obermenge)
Eine Menge N heißt Teilmenge einer Menge M, falls jedes Element von N ein
Element von M ist. In Zeichen schreiben wir N ⊆ M. Gilt N ⊆ M und N ≠ M, so
heißt N eine echte Teilmenge von M. In Zeichen schreiben wir N ⊂ M.
Gilt N ⊆ M bzw. N ⊂ M, so nennen wir M auch eine Obermenge von N bzw. eine
echte Obermenge von N. Wir schreiben hierfür auch M ⊇ N bzw. M ⊃ N.
Warnung
Viele Mathematiker (vor allem in der Analysis und Wahrscheinlichkeitstheorie)
schreiben der Kürze halber M ⊂ N für M ⊆ N sowie M ⊂
≠ N für M ⊂ N.
Die seit Felix Hausdorff betonte Analogie der Notation zu ≤ und < geht dadurch
verloren.
Beispiele
(1) Die Menge der geraden Zahlen ist eine echte Teilmenge der natürlichen
Zahlen. Die Menge der von 2 verschiedenen Primzahlen ist eine echte
Teilmenge der Menge der ungeraden Zahlen.
(2) Es gilt ⺞ ⊂ ⺪ ⊂ ⺡ ⊂ ⺢.
(3) Gilt N ⊂ M, so gilt auch N ⊆ M.
(4) Gilt M1 ⊆ M2 und M2 ⊆ M3 , so gilt auch M1 ⊆ M3 (Transitivität der Inklusion). Das Gleiche gilt für die echte Inklusion ⊂.
(5) Für jede Menge M gilt ∅ ⊆ M (da jedes Element von ∅ auch Element von M
ist) und M ⊆ M (da jedes Element von M ein Element von M ist).
Das Extensionalitätsprinzip
Dass eine Menge durch ihre Elemente bestimmt ist, wird oft wie folgt zum Ausdruck
gebracht:
Extensionalitätsprinzip
Zwei Mengen sind genau dann gleich, wenn sie dieselben Elemente besitzen.
Es gibt also keine „gelbe“ von den Zahlen 1, 2 und 3 gebildete Menge, die von einer
„roten“ von 1, 2 und 3 gebildeten Menge zu unterschieden wäre. Mit Hilfe der Inklusion
können wir das Prinzip auch so formulieren:
Extensionalitätsprinzip, Umformulierung
Für alle Mengen M und N gilt M = N genau dann, wenn M ⊆ N und N ⊆ M.
10
0. Mengentheoretisches Vorspiel
0. 2 Endliche Mengen
Definition (endliche Komprehension, Auflistung der Elemente)
Sind x1 , …, xn Objekte, so
schreiben wir
{ x1 , …, xn }
M
x1
für die durch x1 , …, xn
gebildete Menge. Weiter
schreiben wir auch { } für
die leere Menge ∅.
x2
x3
x4
x5
Die endliche Menge
Die geschweiften Klammern
M = { x1 , x2 , x3 , x4 , x5 }.
{ und } werden in der MatheDie Elemente x1 , …, x5 der Menge müssen nicht
matik fast ausschließlich zur
paarweise verschieden sein.
Notation von Mengen verwendet. Auch außerhalb der Mathematik werden sie oft als „Mengenklammern“ bezeichnet.
Die Menge M = { x1 , …, xn } hat genau die Elemente x1 , …, xn , d. h., es gilt:
(a) x1 ∈ M, …, xn ∈ M.
(b) Ist x ∈ M, so ist x = x1 oder … oder x = xn .
Ist umgekehrt N eine Menge mit den Eigenschaften (a) und (b), so gilt
N = { x1 , …, xn }
nach dem Extensionalitätsprinzip.
Anhand der Mengenbildung durch Auflistung können viele wichtige allgemeine Eigenschaften des Mengenbegriffs deutlich gemacht werden. Wir diskutieren vier davon.
1. Die Reihenfolge der Elemente spielt keine Rolle.
Beispiele
(1) { 1, 2 } = { 2, 1 },
(2) { −1, 0, 1 } = { 1, 0, −1 } = { 1, −1, 0 } usw.
2. Wiederholungen der Elemente spielen keine Rolle.
Beispiele
(1) { 1, 3, 1, 2, 2, 2, 1 } = { 1, 2, 3 },
(2) { 1 } = { 1, 1 } = { 1, 1, 1 } = { 1, 1, 1, 1 } usw.
Die Anzahl der Elemente einer Menge { x1 , …, xn } kann also kleiner als n sein.
0. 2 Endliche Mengen
11
3. Die Elemente einer Menge können selbst Mengen sein.
Beispiele
(1) Die Menge M = { 1, 2, { 1, 2, 3 } } hat genau drei verschiedene Elemente, nämlich
die Zahlen 1 und 2 sowie die Zahlenmenge { 1, 2, 3 }. Es gilt { 1, 2, 3 } ∈ M.
Auf der linken Seite der ∈-Beziehung können also auch Mengen vorkommen.
Sind alle Elemente von M Mengen, so heißt M auch ein Mengensystem.
(2) Es gilt { } ≠ { { } } = { ∅ }, denn die leere Menge { } hat kein Element, während
die Menge { ∅ } die leere Menge als Element besitzt.
4. Elemente und Teilmengen sind zu unterscheiden.
Beispiele
(1) Sei M = { 1, 2, 3, { 1, 2, 3 } }. Dann gilt
{ 1, 2 } ⊆ M, { 1, 2 } ∉ M, { 1, 2, 3 } ⊆ M, { 1, 2, 3 } ∈ M.
(2) ∅ ⊆ { 1, 2, 3 }, ∅ ∉ { 1, 2, 3 }, { 1 } ⊆ { 1, 2, 3 }, 1 ∈ { 1, 2, 3 }.
Geordnete Tupel
Dass Reihenfolge und Wiederholungen keine Rolle spielen, ist manchmal unerwünscht, man denke etwa an die x-y-Koordinaten eines Punktes der Ebene oder an die
x-y-z-Koordinaten eines Punktes des dreidimensionalen Raums. Will man Reihenfolge
und Wiederholungen respektieren, so verwendet man runde Klammern:
(x, y), (x, y, z) , …, (x1 , …, xn ), …
(geordnetes Paar, Tripel, …, n-Tupel, …)
Für alle x1 , …, xn , y1 , …, ym gilt dann
(+) (x1 , …, xn ) = (y1 , …, ym )
genau dann, wenn
n = m und xi = yi für alle 1 ≤ i ≤ n.
Um keine weiteren undefinierten Grundbegriffe zulassen zu müssen, kann man n-Tupel
als Mengen einführen, sodass (+) gilt. Man definiert hierzu
(x, y) = { { x }, { x, y } },
(Kuratowski-Paar)
(x, y, z) = ((x, y), z), (x1 , x2 , x3 , x4 ) = ((x1 , x2 , x3 ), x4 ) usw.
Diese Definitionen spielen im mathematischen Alltag zwar keine Rolle, aber sie illustrieren eine Stärke des Mengenbegriffs, die die moderne Mathematik geprägt hat und die im
mathematischen Alltag überall spürbar ist:
Mengen eignen sich zur Definition aller anderen mathematischen Objekte.
Das bringt nicht nur Philosophen zum Schwärmen. Das Kuratowski-Paar ist ein schönes
Beispiel, um mit diesem Gedanken vertraut zu werden. Es will nicht erklären, was (x, y)
„ist“ (ontologisch), es will (x, y) lediglich so definieren („als Menge interpretieren“), dass
alle erwünschten Eigenschaften erfüllt sind.
12
0. Mengentheoretisches Vorspiel
0. 3 Die Mengenkomprehension
Definition (Mengenkomprehension über Eigenschaften)
Sei Ᏹ(x) eine Eigenschaft und M eine Menge. Wir schreiben
M = { x | Ᏹ(x) },
(gelesen: „M ist die Menge aller x mit der Eigenschaft Ᏹ(x).“)
falls für alle x gilt:
M
x ∈ M genau dann, wenn Ᏹ(x).
Gilt M = { x | Ᏹ(x) }, so ist nach
Definition y ∈ { x | Ᏹ(x) } gleichwertig mit Ᏹ(y). Insbesondere gilt
M = { x | x ∈ M }. Oft wird aber
2
0
6
…
4
M = { n | n ist eine gerade natürliche Zahl }
M = { x | Ᏹ(x) }
zur Definition einer Menge M verwendet. Intuitiv sammelt man dabei im mathematischen Universum alle x mit Ᏹ(x) auf und bildet aus diesen x die Menge M. Diese freizügigen Reisen durch das mathematische Weltall sind alles andere als unproblematisch, da sie
widersprüchliche Zusammenfassungen wie
R = { x | x ∉ x } = „die Menge aller x, die sich selbst nicht als Element enthalten“
(Russell-Komprehension)
zulassen, die durch die Frage, ob R ∈ R oder R ∉ R gilt, die Mathematik ins Wanken bringen: Gilt nämlich R ∉ R, so ist R ein x mit x ∉ x, sodass doch R ∈ R. Gilt aber R ∈ R, so gilt
Eigenschaft Ᏹ(x) für x = R, also doch wieder R ∉ R (da Ᏹ(x) = „x ∉ x“). Bertrand Russell hat
diese Paradoxie wie folgt anschaulich gemacht:
Der Dorfbarbier
Ein Dorfbarbier behauptet, dass er genau jenen Dorfbewohnern die Haare schneidet, die sich die Haare nicht selbst schneiden. Stimmt diese Aussage, so muss er sich
selbst die Haare genau dann schneiden, wenn er sie sich selbst nicht schneidet.
Es gibt also keinen solchen Dorfbarbier, und ebenso gibt es die Menge R = { x | x ∉ x }
nicht. Man schließt heute derartige Mengenbildungen aus, indem man sich axiomatisch
von der leeren Menge ∅ zu immer größeren Mengen hochhangelt und hofft, dass dadurch
keine Widersprüche entstehen. Viel mehr kann man nicht tun, denn Gödel hat in seinen
Unvollständigkeitssätzen bewiesen, dass die Mengenlehre − und auch jedes vergleichbare
System − ihre eigene Widerspruchsfreiheit nicht beweisen kann.
Die erfreuliche Nachricht für den Anfänger lautet: Die Hintergrundaxiomatik der
Mengenlehre, in der zumindest bis zur Veröffentlichung dieses Textes kein Widerspruch
gefunden wurde, ist so stark, dass die Definition von M = { x | Ᏹ(x) } in der „mathematischen Praxis“ immer erlaubt ist. Der Stachel der Russell-Paradoxie und der fast mythische
Status der Gödelschen Sätze bleiben bestehen. Das gehört zur Mathematik dazu.
0. 3 Die Mengenkomprehension
13
Pünktchen-Notationen
In Mengenkomprehensionen wird die definierende Eigenschaft oft gar nicht genannt,
sondern muss durch ein angedeutetes Bildungsgesetz „erraten“ werden. Das ist suggestiv,
wenn auch nicht ungefährlich.
Beispiele
(1) { 0, 2, 4, …, 96, 98, 100 } = { n ∈ ⺞ | n ist gerade und n ≤ 100 },
(2) { 0, 2, 4, … } = { n ∈ ⺞ | n ist gerade },
(3) { 0, 3, −3, 6, −6, 9, −9, … } = { a ∈ ⺪ | es gibt ein b ∈ ⺪ mit a = 3b },
(4) { 1, 2, 4, 8, 16, 32, … } = { n ∈ ⺞ | es gibt ein k ∈ ⺞ mit n = 2k }.
Wichtige Komprehensionen
Menge
Definition
Name
∅, { }
{x|x≠x}
leere Menge
{a}
{x|x=a}
Einermenge, Singleton
{ a, b }
{ x | x = a oder x = b }
Paarmenge
{ a1 , …, an }
{ x | x = a1 oder … oder x = an }
Auflistung
(a, b)
{ { a }, { a, b } }
geordnetes Paar
(a, b, c)
((a, b), c)
Tripel
A×B
{ (a, b) | a ∈ A und b ∈ B }
A×B×C
{ (a, b, c) | a ∈ A und b ∈ B und c ∈ C }
A 2 , A 3 , A4 , …
A × A, A2 × A, A3 × A, …
{ x ∈ A | Ᏹ(x) }
{ x | x ∈ A und Ᏹ(x) }
Aussonderung
P(M)
{A|A ⊆ M}
Potenzmenge
Kreuzprodukt
Beispiele
(1) { 0, 1 } × { 1, 2 } = { (0, 1), (0, 2), (1, 1), (1, 2) },
(2) ⺢2 = { (x, y) | x, y ∈ ⺢ }, ⺢n = { (x1 , …, xn ) | xk ∈ ⺢ für alle 1 ≤ k ≤ n },
(3) P(∅) = { ∅ }, P({ 0 }) = { ∅, { 0 } }, P({ 0, 1 }) = { ∅, { 0 }, { 1 }, { 0, 1 }}.
14
0. Mengentheoretisches Vorspiel
0. 4 Algebraische Operationen mit Mengen
Definition (Durchschnitt, Vereinigung, Komplement)
Boolesche Mengenoperationen
Sei M eine Menge, und seien A, B ⊆ M. Dann definieren wir
A ∩ B
=
{ x | x ∈ A und x ∈ B },
(Durchschnitt)
A ∪ B
=
{ x | x ∈ A oder x ∈ B },
(Vereinigung)
A − B
=
A \ B
Ac
=
M − A,
A Δ B
=
(A − B) ∪ (B − A).
=
{ x | x ∈ A und x ∉ B },
(Differenz)
(Komplement in M)
(symmetrische Differenz)
Wir nennen A und B disjunkt, falls A ∩ B = ∅, und komplementär, falls B = Ac .
Boolesche Operationen für Mengensysteme
Sei M eine Menge, und seien Ꮽ, Ꮾ ⊆ P(M), d. h., jedes Element von Ꮽ und von
Ꮾ ist eine Teilmenge von M. Dann definieren wir
傽Ꮽ
=
傽A ∈ Ꮽ A
= { x ∈ M | für alle A ∈ Ꮽ gilt x ∈ A },
艛Ꮽ
=
艛A ∈ Ꮽ A
= { x ∈ M | es gibt ein A ∈ Ꮽ mit x ∈ A },
Ꮽc = { Ac | A ∈ Ꮽ }.
(Durchschnitt)
(Vereinigung)
(Komplementsystem)
Weiter nennen wir das Mengensystem Ꮽ
(a) (paarweise) disjunkt, falls A ∩ B = ∅ für alle A, B ∈ Ꮽ mit A ≠ B,
(b) eine Überdeckung (von M), falls
艛 Ꮽ = M,
(c) eine Zerlegung, Partition oder Klasseneinteilung (von M), falls Ꮽ eine
paarweise disjunkte Überdeckung mit ∅ ∉ Ꮽ ist.
Ꮽ
Ꮾ
2
0
2
6
3
1
2
0
2
1
4
5
3
Ꮽ = { { 0, 2 }, { 2 }, { 1, 2, 3 } }
Ꮾ = { { 0, 2 }, { 6 }, { 1, 3, 4, 5 } }
傽Ꮽ
= {2}
Das System Ꮾ ist eine Zerlegung von
艛Ꮽ
= { 0, 1, 2, 3 }
M = { 0, 1, 2, 3, 4, 5, 6 }.
0. 4 Algebraische Operationen mit Mengen
15
Rechenregeln für die booleschen Operationen
A ∩ (B ∩ C) = (A ∩ B) ∩ C
A ∪ (B ∪ C) = (A ∪ B) ∪ C
Assoziativität
A∩B = B∩A
A∪B = B∪A
Kommutativität
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Distributivität
A ∩ Ac = ∅
A ∪ Ac = M
Komplementierung
(A ∩ B)c = Ac ∪ Bc
(A ∪ B)c = Ac ∩ Bc
De-Morgan-Regeln
A − B = A ∩ Bc
(A − B) − C = A − (B ∪ C)
(A ∩ B) − C = A ∩ (B − C)
(A − B) ∪ B = A ∪ B
A Δ (B Δ C) = (A Δ B) Δ C
A Δ B = (A ∪ B) − (A ∩ B)
Differenzenregeln
Regeln für Δ
Für ∩, ∪ und Δ können wir Klammern weglassen und A ∩ B ∩ C statt (A ∩ B) ∩ C oder
A ∩ (B ∩ C) usw. schreiben. Dagegen ist A − (B − C) von (A − B) − C zu unterscheiden.
Beispiele
Für M = { 1, 2, 3 } gilt
{ 1 } ∩ { 2, 3 } = ∅, { 1, 2 }c = { 3 }, { 1, 2 } − { 2, 3 } = { 1 },
{ 1, 2 } Δ { 2, 3 } = { 1, 3 }, { 1, 2 } Δ { 2, 3 } Δ { 1 } = { 3 }.
Für den Durchschnitt und die Vereinigung von Mengensystemen gilt:
傽Ꮽ
= „was alle haben“,
Beispiele
(1) 傽 { A } = A,
傽 { A, B }
傽 { A, ∅, B, C }
傽∅
= M,
艛Ꮽ
= ∅,
傽{∅}
= „was mindestens einer hat“.
= A ∩ B,
艛 { A, B, C }
艛 { A, B, M, C }
= ∅,
艛∅
=
= A ∪ B ∪ C,
= M,
艛{∅}
= ∅.
(2) { { 1, 2 }, { 2, 3, 4 }, { 1, 4 }, ∅ } ist eine Überdeckung von { 1, 2, 3, 4 },
(3) { { (n, m) | n ∈ ⺞ } | m ∈ ⺞ } ist die Zerlegung von ⺞2 in „Zeilen“ ⺞ × { m }.
Für Systeme gilt:
( 傽 Ꮽ)c =
艛 Ꮽc, ( 艛 Ꮽ)c
=
傽 Ꮽc .
(allgemeine De-Morgan-Regeln)
Kapitel 1
Relationen und Abbildungen
18
1. Relationen und Abbildungen
1. 1 Relationen
Definition (Relation)
Relationen
Eine Menge R heißt eine (zweistellige) Relation, falls jedes Element von R ein
geordnetes Paar ist. Gilt R ⊆ A × A für eine Menge A, so heißt R eine Relation
auf A. Anstelle von (a, b) ∈ R schreiben wir auch a R b.
Definitions- und Wertebereich
Für eine Relation R setzen wir (mit dom und rng für engl. domain bzw. range):
Def(R ) = dom(R) = { a | es gibt ein b mit a R b },
(Definitionsbereich)
Bild(R) = rng(R) = { b | es gibt ein a mit a R b },
(Bild oder Wertebereich)
Eigenschaften einer Relation R bzgl. einer Menge A
R heißt … auf A
falls für alle a, b, c ∈ A gilt:
reflexiv
aRa
irreflexiv
nicht(a R a)
symmetrisch
a R b impliziert b R a
antisymmetrisch
(a R b und b R a) impliziert a = b
transitiv
(a R b und b R c) impliziert a R c
1
R
(2, 3)
(1, 2)
(1, 1)
2
3
4
Drei Darstellungen
4
4
3
3
(2, 4)
{ 1, 2, 3, 4 }. Es gilt
(4, 3)
(2, 1)
einer Relation R auf
1 R 1, 1 R 2, 2 R 1,
3
2
2
1
1
2 R 4, 2 R 3, 4 R 3,
Def(R) = { 1, 2, 4 },
1
2
4
Bild(R) = { 1, 2, 3, 4 }.
1
2
3
4
In einer Relation R sind alle Paare (a, b), die in einer „bestimmten Beziehung“ stehen,
versammelt. Statt (a, b) ∈ R wird meistens a R b geschrieben, wie man es etwa von a ≤ b
oder a = b gewohnt ist. Wir vereinbaren zudem:
a R b R c bedeutet a R b und b R c.
Man vergleiche hierzu wieder a ≤ b ≤ c und a = b = c.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_2, © Springer-Verlag Berlin Heidelberg 2015
1.1 Relationen
19
Beispiele
(1) Die Kleinergleich-Relation auf ⺞ kann definiert werden durch
≤ = { (n, m) ∈ ⺞2 | es gibt ein k ∈ ⺞ mit n + k = m },
oder gleichwertig − und besser
lesbar − durch die Setzung
20
n ≤ m,
15
falls es gibt ein k ∈ ⺞
mit n + k = m
für alle n, m ∈ ⺞. Es gilt
Def(≤) = Bild(≤) = ⺞.
Die ≤-Relation ist reflexiv,
antisymmetrisch und transitiv.
(Kleinergleich auf ⺞)
10
5
0
0
5
10
15
20
(2) Für alle d, a ∈ ⺪ setzen wir
d | a,
falls es gibt ein k ∈ ⺪ mit kd = a.
Gilt d | a, so heißt d ein
Teiler oder Divisor von a
und a ein (ganzzahliges)
Vielfaches von d. Es gilt
Def(|) = Bild(|) = ⺪.
Die |-Relation ist reflexiv
und transitiv. Sie ist nicht
antisymmetrisch, da −2|2
und 2|−2, aber 2 ≠ −2.
(Teilbarkeit auf ⺪)
10
5
0
5
10
10
5
0
5
10
(3) Sei m ∈ ⺞ − { 0 }. Dann setzen wir
für alle a, b ∈ ⺪
a ⬅m b,
falls
m|(a − b).
Gilt a ⬅m b, so sagen wir,
dass die Zahlen a und b
kongruent modulo m sind.
Die Relation ⬅m ist reflexiv,
symmetrisch und transitiv.
Wir schreiben oftmals auch
a ⬅ b mod(m) anstelle von
a ⬅m b. So gilt zum Beispiel
0 ⬅ 5 ⬅ −25 mod(5),
−5 ⬅ 2 ⬅ 16 mod(7).
(Kongruenz modulo m)
10
5
0
m=5
5
10
10
5
0
5
10
20
1. Relationen und Abbildungen
1. 2 Äquivalenzrelationen
Definition (Äquivalenzrelation, Äquivalenzklasse, Repräsentantensystem)
Äquivalenzrelationen
Eine Relation ⬃ auf A heißt eine Äquivalenzrelation oder kurz eine Äquivalenz,
falls ⬃ reflexiv, symmetrisch und transitiv ist. Gilt a ⬃ b für a, b ∈ A, so sagen
wir, dass a und b äquivalent (bzgl. ⬃) sind.
Äquivalenzklassen und Faktorisierung
Wir setzen
a/⬃ = { b ∈ A | a ⬃ b }
A/⬃ = { a/⬃ | a ∈ A } .
für alle a ∈ A,
(Äquivalenzklasse von a, a modulo ⬃)
(Faktorisierung, A modulo ⬃)
Repräsentanten und Repräsentantensysteme
Gilt b ⬃ a, so heißt b ein Repräsentant der Äquivalenzklasse a/⬃. Eine Menge
B ⊆ A heißt ein (vollständiges) Repräsentantensystem für die Äquivalenz ⬃, falls es
für alle a ∈ A genau ein b ∈ B mit a ⬃ b gibt.
Eine Äquivalenzrelation bringt
eine „Ähnlichkeit“, „Gleichwertigkeit“, „Gleichheit in bestimmter
Hinsicht“ zum Ausdruck. Sie beschreibt das Absehen von als unwesentlich erachteten Eigenschaften
und damit das Abstrahieren. Die
Begriffsbildung ist die „Abstraktion der Abstraktion“.
Das Trio „reflexiv, symmetrisch,
transitiv“ lässt sich durch die Eigenschaften der Gleichheit motivieren. Denn für alle a, b, c gilt
Die Kongruenz modulo 3 auf ⺪ besitzt drei
a = a, a = b impliziert b = a,
{ 0, −2, 8 } sind zwei Beispiele für vollständige
a = b und b = c impliziert b = c.
Repräsentantensysteme.
⺪3 = ⺪/⬅3
…, − 6, − 3, 0, 3, 6, …
…, − 5, − 2, 1, 4, 7, …
…, − 4, − 1, 2, 5, 8, …
Äquivalenzklassen. Die Mengen { 0, 1, 2 } und
Notationen
(1) Statt a/⬃ schreibt man auch [ a ]⬃ oder auch nur [ a ], wenn ⬃ aus dem Kontext
heraus klar ist. Daneben ist auch a für [ a ] üblich.
(2) Äquivalenzrelationen können auch mit R, S, … bezeichnet werden. Meistens
werden jedoch Zeichen wie
⬃, ⬃*, ⬇, ⬅, ⯝, ⬵
verwendet, die an das Gleichheitssymbol = erinnern.
1.2 Äquivalenzrelationen
21
Die Faktorisierung A/⬃ ist ein Mengensystem. Jedes Element a/⬃ von A/⬃ ist eine
Teilmenge von A und damit gilt A/⬃ ⊆ P(A). Es gilt
(#) a/⬃ ≠ ∅ ;
a/⬃ ∩ b/⬃ = ∅ genau dann, wenn non(a ⬃ b);
艛 A/⬃
= A.
Wie die Menge der Schüler einer Schule in Schulklassen zerfällt, so zerfällt A in Äquivalenzklassen. Weitere Alltagsbeispiele sind die Einteilung von Kleidungsstücken in die
Größenklassen XS, S, M, L, XL, die Zustandsbeschreibungen „neu, wie neu, gebraucht,
akzeptabel“, die Einteilung der Welt in Länder und jede Form der Teambildung im Sport.
Die drei Eigenschaften in (#) besagen, dass Ꮽ = A/⬃ eine Zerlegung der Menge A bildet
(vgl. 0. 4). Ist umgekehrt Ꮽ eine Zerlegung von A, so definiert
a ⬃ b, falls es gibt ein A ∈ Ꮽ mit a, b ∈ A
für alle a, b ∈ A
eine Äquivalenzrelation auf A mit A/⬃ = Ꮽ. Damit gilt:
Äquivalenzrelationen und Zerlegungen entsprechen einander.
Wählen wir aus jeder Äquivalenzklasse a/⬃ genau ein Element aus und fassen wir die
ausgewählten Elemente zu einer Menge B ⊆ A zusammen, so erhalten wir ein Repräsentantensystem (vgl. 1.11 zu „wählen“). Im Schulbeispiel: Klassensprecherversammlung.
Beispiele
(1) Für alle m ≥ 1 ist die Kongruenz ⬅m eine Äquivalenz auf ⺪ (vgl. 1.1). Wir
schreiben kurz [ a ]m oder [ a ] statt a/⬅m und ⺪m statt ⺪/⬅m . Für m = 3 gilt
[ 0 ] = [ 3 ] = [ −3 ] = … = { …, −6, −3, 0, 3, 6, … },
[ 1 ] = [ 4 ] = [ −2 ] = … = { …, −5, −2, 1, 4, 7, … },
[ 2 ] = [ 5 ] = [ −1 ] = … = { …, −4, −1, 2, 5, 8, … }.
Die Menge { 0, 1, 2 } ist ein Repräsentantensystem. Man nennt es „kanonisches“
oder „Standard-Repräsentantensystem“, da sich 0, 1, 2 bei Division durch 3 als
Reste anbieten. Aber auch { 0, −1, −2 } und { 3, 7, −7 } sind prinzipiell gleichwertige Repräsentantensysteme. Es gilt
⺪3 = ⺪/⬅3 = { [ a ] | a ∈ ⺪ } = { [ 0 ], [ 1 ], [ 2 ] } = { [ 0 ], [ −1 ], [ −2 ] } usw.
(2) Die geometrische Kongruenz (Deckungsgleichheit) zweier Teilmengen A, B
der Ebene ⺢2 ist eine Äquivalenz auf P(⺢2 ) = { A | A ⊆ ⺢2 }. Ebenso ist die
Ähnlichkeit von Dreiecken eine Äquivalenz auf der Menge aller Dreiecke.
(3) Die Relation ⬃ = { (a, a) | a ∈ A } ist eine Äquivalenzrelation auf A (Motto:
„ Jeder ist anders.“, „Einzelunterricht“). Es gilt a/⬃ = { a } für alle a ∈ A und
A/⬃ = { { a } | a ∈ A }. Die Menge A ist das einzige Repräsentantensystem.
(4) Die Relation ⬃ = { (a, b) | a, b ∈ A } = A2 ist eine Äquivalenz auf A (Motto:
„Alle sind gleich.“, „Dorfschule mit einer Klasse“). Es gilt a/⬃ = A für alle a ∈ A
und A/⬃ = { A }. Für alle a ∈ A ist { a } ein Repräsentantensystem.
22
1. Relationen und Abbildungen
1. 3 Ordnungen
Definition (partielle und lineare Ordnungen)
Partielle und lineare Ordnung
Eine Relation ≤ auf A heißt eine (partielle) Ordnung auf A, falls ≤ reflexiv, antisymmetrisch und transitiv auf A ist. Für alle a, b ∈ A setzen wir a < b, falls a ≤ b
und a ≠ b.
Sind a, b ∈ A mit a ≤ b oder b ≤ a, so heißen a und b vergleichbar. Sind je zwei Elemente vergleichbar, so heißt die Ordnung ≤ linear oder total.
Ordnungsbegriffe
Seien ≤ eine partielle Ordnung auf A, a ∈ A und X ⊆ A.
a heißt …
in Zeichen
falls …
obere Schranke von X
X ≤ a, a ≥ X
für alle x ∈ X gilt x ≤ a
untere Schranke von X
a ≤ X, X ≥ a
für alle x ∈ X gilt a ≤ x
Maximum von X
a = max(X)
a ∈ X und X ≤ a
Minimum von X
a = min(X)
a ∈ X und a ≤ X
Supremum von X
a = sup(X)
X ≤ a und für alle b ≥ X gilt a ≤ b
Infimum von X
a = inf(X)
a ≤ X und für alle b ≤ X gilt b ≤ a
maximal in X
−
a ∈ X und es gibt kein x ∈ X mit a < x
minimal in X
−
a ∈ X und es gibt kein x ∈ X mit x < a
1, 2, 3
Die Inklusion ⊆ ist eine partielle Ordnung auf
A = P({ 1, 2, 3 }) =
{ { }, { 1 }, { 2 }, { 3 }, { 1, 2 }, { 1, 3 }, { 2, 3 }, { 1, 2, 3 } }.
1, 2
1, 3
2, 3
Sie lässt sich durch ein sog. Hasse-Diagramm darstellen:
Die Ordnung wird durch Linien angezeigt, wobei größere
Elemente über kleineren stehen. In der Ordnung ist { 1 }
1
2
3
kleiner als { 1, 2, 3 }, während { 1 } und { 2, 3 } unvergleichbar sind. Auch viele Ordnungen auf unendlichen Mengen
kann man in verwandter Weise visualisieren, man denke
etwa an Zahlenstrahldarstellungen von ⺞, ⺪, ⺡ oder ⺢.
1.3 Ordnungen
5
23
Wir betrachten die durch das Hasse-Diagramm links
6
dargestellte partielle Ordnung ≤ auf
A = { 1, 2, 3, 4, 5, 6 }
3
4
und die Teilmenge X = { 2, 3, 4 } von A. Es gilt:
(a) 5 ist eine obere Schranke von X, 6 ist keine
obere Schranke von X,
2
(b) 1 und 2 sind untere Schranken von X,
(c) 2 = min(X), max(X) existiert nicht,
1
(d) 3 und 4 sind maximal in X, 2 ist minimal in X.
Im Gegensatz zu einer Äquivalenzrelation, die eine Menge A in disjunkte Äquivalenzklassen unterteilt, bringt eine partielle Ordnung die Elemente von A in eine netzartige
Struktur. Ist die Ordnung linear (total), so wird A in die Form einer „Kette“ oder abstrakten „Linie“ gebracht.
Ist ≤ eine partielle Ordnung auf A, so ist die zugehörige Relation < irreflexiv und transitiv (und damit antisymmetrisch). Eine irreflexive und transitive Relation auf A nennt
man auch eine strikte partielle Ordnung auf A. Ist < eine strikte partielle Ordnung auf A, so
erhält man eine partielle Ordnung ≤ auf A durch
a ≤ b,
falls
a < b oder a = b
für alle a, b ∈ A.
Es ist also Geschmackssache, ob man ≤ oder < bevorzugt. Man hat immer beides.
Für partielle Ordnungen werden meistens Zeichen wie ≤, Ɐ, ≤* mit Unterstrich und
die zugehörigen strikten Versionen <, Ɱ, <* verwendet.
Beispiele
(1) Die üblichen ≤-Relationen auf ⺞, ⺪, ⺡ und ⺢ sind lineare Ordnungen.
(2) Ist ≤ eine lineare Ordnung auf A, so definiert
(a, b) ≤ lex (c, d),
falls a ≤ c oder (a = c und b ≤ d)
eine lineare Ordnung auf A2 , die sog. lexikographische Ordnung auf A2 . Speziell
kann die Menge ⺢2 = ⺓ in dieser Weise linear geordnet werden.
(3) Für jede Menge M ist die Inklusion ⊆ eine partielle Ordnung auf A = P(M).
Sind a, b ∈M verschieden, so sind { a } und { b } nicht vergleichbar. Für alle
Ꮽ ⊆ P(M) gilt sup(Ꮽ) = 艛 Ꮽ und inf(Ꮽ) = 傽 Ꮽ.
(4) Die Anfangsstückrelation auf der Menge der endlichen 01-Folgen ist eine
baumartige partielle Ordnung. Es gilt zum Beispiel
010 ≤ 01011, nicht (010 ≤ 11101).
Die Ordnung hat keine maximalen Elemente, da s ≤ s0 (und s ≤ s1) für alle s gilt.
24
1. Relationen und Abbildungen
1. 4 Der Abbildungsbegriff
Definition (Abbildung, Funktion)
Eine Relation f heißt eine Abbildung oder Funktion, falls für alle a, b, c gilt:
a f b und a f c impliziert b = c.
(Rechtseindeutigkeit)
Statt a f b (d. h. (a, b) ∈ f ) schreiben wir auch
f
f(a) = b oder f a = b oder f : a 哫 b oder a 哫 b.
Gilt Def(f ) = A, so heißt f eine Funktion auf A.
Abbildungen sind also Mengen von
geordneten Paaren (a, b), bei denen der
erste Eintrag den zweiten bestimmt.
Bei Relationen können einem a viele b
entsprechen:
a
b
f(a) = b, f(b) = u, f(c) = v, …
b
u
1 < 3, 1 < 5, 2 ⬅4 6, 2 ⬅4 −2.
c
v
d
b
e
e
Die Einträge in der rechten
Spalte können mehrfach auftreten, den Einträgen in der
linken Spalte entspricht immer ein eindeutiger rechter
Eintrag.
Für eine Abbildung f auf A gibt es zu
jedem a ∈A genau ein b mit a f b.
Ob man „Abbildung“ oder „Funktion“ sagt, ist einerlei. Wir wechseln ab.
Eine Funktion f als Zuordnungstabelle. Es gilt
f
Beispiele
(1) f = { (1, 2), (2, 1), (3, 1) } ist eine Abbildung. Es gilt f(1) = 2, f(2) = 1, f(3) = 1.
Dagegen ist R = { (1, 2), (1, 3), (2, 1) } eine Relation, aber keine Abbildung. Die
Rechtseindeutigkeit ist verletzt, da 1 R 2 und 1 R 3. Die leere Menge ∅ ist
dagegen eine Abbildung.
(2) Für jede Menge A heißt idA = { (a, a) | a ∈ A } die Identität auf A. Es gilt
idA (a) = a für alle a ∈ A, Def(idA ) = Bild(idA ) = A.
(3) Für jede Menge A und jedes c heißt const Ac = { (a, c) | a ∈ A } die konstante
Abbildung auf A mit Wert c. Es gilt const Ac (a) = c für alle a ∈ A, Def(const Ac ) = A,
Bild(const Ac ) = { c } für A ≠ ∅ und Bild(const Ac ) = ∅ für A = ∅.
(4) Ist A eine Menge und B ⊆ A, so heißt
χ AB = 1AB = { (a, 1) | a ∈ B } ∪ { (a, 0) | a ∈ A − B }
die charakteristische Funktion oder Indikatorfunktion von B bzgl. A. Für χ = χAB
gilt: χ(a) = 1, falls a ∈ B; χ(a) = 0, falls a ∈ A − B; Def(χ) = A; Bild(χ) = { 0, 1 },
falls B ≠ ∅; Bild(χ) = { 0 }, falls A ≠ ∅ und B = ∅; Bild(χ) = ∅, falls A = B = ∅.
Die mengentheoretische Notation dieser Beispiele illustriert die Definition. Andere
und oft suggestivere Definitionsformen werden wir gleich kennenlernen.
1. 4 Der Abbildungsbegriff
25
„Die“ beste Interpretation, Anschauung oder Visualisierung einer Funktion existiert
nicht. Wir stellen ohne Anspruch auf Vollständigkeit fünf Interpretationen vor.
A Die Tabelleninterpretation
Abbildungen sind zweispaltige Tabellen. Die Bildung von b = f(a) entspricht dem Nachschlagen („table look-up“): Finde a in der linken und das zugehörige b = f(a) in der rechten
Spalte. Entscheidend ist, dass der Übergang von a zu b eindeutig ist, d. h., a darf links nur
einmal auftauchen. Dagegen darf b in der rechten Spalte mehrfach erscheinen.
B Die Zuordnungsinterpretation
Eine Abbildung „bildet ab“ (wie der Name schon sagt) oder „ordnet zu“. Jedem Element a einer Menge A wird ein eindeutiges b = f(a) einer Menge B zugeordnet. Die Mengen A und B visualisiert man oft als „getrennte Welten“ (obwohl A ∩ B ≠ ∅ gelten kann),
und Pfeile deuten an, auf welches b ∈ B ein a ∈ A abgebildet wird. Oft haben A und B algebraische oder geometrische Strukturen, die durch f respektiert werden oder auch nicht,
etwa „Liegt a nahe bei b, so liegt f(a) nahe bei f(b).“
C Die kartesische Interpretation
Ist f ⊆ ⺢2 , so kann man f „plotten“, indem man jeden Punkt (a, f(a)) für a ∈ Def(f )
schwarz einfärbt. Jeder kennt die reelle Einheitsparabel und den reellen Sinus in dieser
Form. Ist allgemein f ⊆ A × B für beliebige Mengen A und B, so ist diese Interpretation
noch abstrakt möglich, indem man sich A als Waagrechte und B als Senkrechte vorstellt.
D Die Pfeilinterpretation
Das Feld Def(f ) ∪ Bild(f ) von f sieht man als eine Menge von isolierten Punkten an.
Von einem Punkt a des Feldes führt genau dann ein Pfeil zu einem Punkt b des Feldes,
wenn b = f(a). Die Funktion f „schickt“ a nach b oder „zeigt“ von a nach b. Es entsteht ein
Pfeilsystem, das zum Beispiel die Bildung von Bahnen a, f(a), f(f(a)) (falls f(a) ∈ Def(f)), …
suggeriert. Besonders geeignet ist diese Interpretation für endliche Felder.
E Die Dienstboten-Interpretation
Eine Funktion f ist ein Dienstbote, dem man a übergeben kann und der einem irgendwann b = f(a) zurückbringt. Ersetzt man hier „Dienstbote“ durch „Computerprogramm“
und schränkt a auf Daten ein, so erhält man die berechenbaren Funktionen, die in der Informatik, Logik und in allen rechnerischen Anwendungen der Mathematik eine herausragende Rolle spielen. Der Funktionsbegriff der Mathematik ist wesentlich allgemeiner,
die „Dienstboten“ sind in der Regel keine Computerprogramme, sondern abstrakte und
ideale Gegenstände der Mathematik. Wie man Funktionen in der Mathematik konstruieren kann, beschreiben wir im folgenden Abschnitt.
26
1. Relationen und Abbildungen
1. 5 Konstruktion von Abbildungen
Konstruktionsmöglichkeiten für Abbildungen
Direkte Angabe
Seien a1 , …, an paarweise verschiedene Objekte, und seien b1 , …, bn beliebige
Objekte. Dann gibt es genau eine Abbildung f auf { a1 , …, an } mit
f(ak ) = bk für alle 1 ≤ k ≤ n.
Termdefinitionen
Ist t(x) ein Term, also ein aus der Variablen x, Konstanten, Funktionszeichen und
Klammern aufgebauter formaler Ausdruck, so existiert für jede geeignete Menge
A genau eine Abbildung f auf A mit
f(a) = t[ a ] für alle a ∈ A,
wobei t[ a ] der Wert ist, den man erhält, wenn man a für die Variable x in t
einsetzt. „Geeignet“ heißt, dass diese Termauswertung für alle Elemente a der
Menge A erklärt ist.
Eindeutige Eigenschaften
Sei A eine Menge und sei Ᏹ(a, b) eine Eigenschaft mit:
(+) Für alle a ∈ A gibt es genau ein b mit Ᏹ(a, b).
Dann gibt es genau eine Abbildung f auf A mit
f(a) = „das eindeutige b mit Ᏹ(a, b)“ für alle a ∈ A.
Die drei (letztendlich axiomatisch postulierten) Möglichkeiten versammeln die meisten in der Mathematik auftretenden Konstruktionen von Funktionen. Eine vierte Möglichkeit diskutieren wir in 1.11.
Möglichkeit 1: Direkte Angabe
Hier gilt einfach f = { (a1 , b1 ), …, (an , bn ) }. Die Rechtseindeutigkeit wird durch die Verschiedenheit der ak sichergestellt. Die vielleicht wichtigsten derartigen Funktionen sind
Permutationen:
1
Definition (Permutation)
Eine Funktion f auf { 1, …, n } heißt
Permutation, falls
2
3
Bild(f) = { 1, …, n }.
Eine Permutation heißt Transposition, wenn es i ≠ j gibt mit f(i) = j,
f(j) = i und f(k) = k für alle k ≠ i, j.
4
5
1
2
2
5
3
3
4
1
5
4
Eine Permutation auf { 1, 2, 3, 4, 5 }
1. 5 Konstruktion von Abbildungen
27
1 … n
Wir schreiben
oder kurz (b1 , …, bn ) für die Permutation f mit f(i) = bi für
b1 … bn
alle i ∈ { 1, …, n }.
Beispiele
(1) (1, 2, 3, 4), (1, 4, 3, 2), (4, 3, 2, 1) sind Permutationen auf { 1, 2, 3, 4 }.
(2) (1, 3, 2), (2, 1, 3), (3, 2, 1) sind alle möglichen Transpositionen auf { 1, 2, 3 }.
Möglichkeit 2: Termdefinitionen
Dies ist aus der Schule bekannt: f(x) = „rechnerischer Ausdruck in x“. Wir verzichten auf
eine Präzisierung von „Term“ und „Termauswertung“ und begnügen uns mit:
Beispiel
Sind sin(x) und cos(x) für alle x ∈ ⺢ bereits definiert, so können wir eine Funktion f
mit Def(f ) = ⺢ definieren durch
f(x) = sin2 (x) + cos2 (x) für alle x ∈ ⺢.
Es stellt sich heraus, dass f(x) = 1 für alle x ∈ ⺢ gilt, sodass f = const ⺢1 .
Möglichkeit 3: „das (eindeutige) y mit …“
Dass Termdefinitionen nicht ausreichen, hat Leonhard Euler bereits im 18. Jahrhundert anhand von Fragestellungen wie in (1) bemerkt.
Beispiele
(1) Wir betrachten für x, y ∈ ⺢ die Eigenschaft
Ᏹ(x, y) = „ y5 − x4 + 2 x3 − 3 y + x = 0“
und definieren f mit Def(f ) = [ 0, 2 ] durch
f(x) = „das y ∈[ −2, −1 ] mit Ᏹ(x, y)“
für alle x ∈ [ 0, 2 ]. Die Eindeutigkeit von
y muss man natürlich erst beweisen (die
Abbildung rechts deutet an, dass sie gilt).
Eine Termdefinition ist dagegen nicht
ersichtlich. Gleiches gilt für:
3
2
1
0
1
2
3
3
2
1
0
1
2
3
Die Punkte (x, y) ∈ [ −3, 3 ]2 mit Ᏹ(x, y)
(2) Sei g auf { n ∈ ⺞ | n ≥ 1 } definiert durch
g(n) = „das k ≥ 0 mit 2k |n und nicht(2k + 1 |n)“ für alle n ≥ 1.
Die Abbildung g gibt für alle n ≥ 1 den Exponenten der 2 in der Primfaktorzerlegung von n an. Zum Beispiel gilt
g(8) = g(23 ) = 3, g(120) = g(23 31 51 ) = 3, g(1) = g(15) = 0.
28
1. Relationen und Abbildungen
1. 6 Notationen und Sprechweisen für Abbildungen
Definition (Stellen, Werte, Definiertheit, f : A → B, Familien)
Sei f eine Funktion auf A.
Allgemeine Sprechweisen
Gilt f(a) = b, so heißt b der Wert von f an der Stelle oder für das Argument a.
Wir sagen, dass a durch f auf b abgebildet wird, dass die Anwendung von f auf a
den Wert b ergibt oder dass f an der Stelle a den Wert b annimmt. Die Sprechweise „f(a) ist definiert“ ist gleichbedeutend mit a ∈ A.
Die Notation f : A → B
Ist B eine Menge mit Bild(f ) = { f(a) | a ∈ A } ⊆ B, so schreiben wir
f : A → B
oder
f : A ∋ a 哫 f(a) ∈ B.
Wir sagen dann, dass f eine Abbildung von A nach B oder zwischen A und B ist.
Die Menge B heißt ein Wertevorrat oder eine Zielmenge von f.
Familien
Wir schreiben f auch in der Familien- oder Folgennotation
(ba )a ∈ A oder (b a | a ∈ A), mit ba = f(a) für alle a ∈ A.
Wir nennen eine in der Form (ba )a ∈ A notierte Funktion eine Familie mit Indexmenge A oder eine A-Folge. Gilt b a ∈ B für alle a, so heißt sie eine Familie in B.
Ein Wertevorrat B ist vom WerA
B
tebereich Bild(f ) zu unterscheiden.
Der Wertebereich ist die Menge aller angenommenen Werte, so wie
a
f(a)
der Definitionsbereich die Menge
aller definierten Stellen ist (die
Eine Funktion f : A → B bildet jedes Element a des DefiniSprechweisen sind in der Literatur
tionsbereichs A auf ein Element f(a) des Wertevorrats B ab.
nicht einheitlich, aber zwischen B
Der Wertebereich Bild(f) ist die Menge aller Funktionsund Bild(f ) wird immer unterwerte (im Diagramm rechts grau dargestellt). Er kann mit B
schieden). In f : A → B wird nur
zusammenfallen oder eine echte Teilmenge von B sein.
verlangt, dass B eine Obermenge
des Wertebereichs ist; die Bezeichnung als „Wertevorrat“ oder „Zielmenge“ deutet dies an. Die unsymmetrische Behandlung
von A und B liegt daran, dass oft viele verschiedene Abbildungen zwischen fest gewählten
Mengen A und B eingeführt und untersucht werden. Sie besitzen unterschiedliche Bilder
und oft ist das Bild einer Abbildung zunächst auch gar nicht bekannt.
Beispiele
Wir können sin : ⺢ → ⺢, sin : ⺢ → [ −1, 1 ] schreiben, nicht aber sin : ⺢ → [ 0, 1 ].
⺞
Ebenso gilt const ⺞
0 : ⺞ → ⺞, const 0 : ⺞ → { 0, 1 }, idA : A → B für alle B ⊇ A usw.
1. 6 Notationen und Sprechweisen für Abbildungen
29
Angabe von Abbildungen
Um sich selbst und die mathematische Mitwelt nicht unglücklich zu machen, müssen
Abbildungen immer genau angegeben werden:
Beispiel
Die Sprechweise „die Funktion 1/x“ ist ungenau. Es wird nicht klar, welchen
Definitionsbereich die Funktion hat. Weiter benötigt man oft auch ein Funktionszeichen f, g, h, F, G, H, … Eindeutig sind, mit ⺢* = ⺢ − { 0 }:
(1) Sei f : ⺢* → ⺢ mit f(x) = 1/x (für alle x ∈ ⺢*).
(ordentlich)
(2) Sei f : ⺢* ∋ x 哫 1/x ∈ ⺢.
(kompakt)
(3) Sei f die 1/x-Funktion auf ⺢*.
(Term mit Definitionsbereich)
Im Kontext von ⺢ nicht unbedingt üblich, aber kurz und exakt sind zudem:
(4) Sei f = { (x, 1/x) | x ∈ ⺢* }.
(extensional)
(5) Sei f = (1/x)x ∈ ⺢* .
( familiär)
Das Objekt, über das man redet, wird andernfalls nicht klar. Und Genauigkeit
vermeidet Fehlvorstellungen: Die Frage, ob f unstetig an der Stelle 0 ist, welche
viele Anfänger falsch mit „ja“ beantworten, wird hinfällig. Denn f ist im Nullpunkt
nicht definiert, die Stetigkeit oder Unstetigkeit einer Funktion wird aber nur für
Elemente des Definitionsbereichs erklärt. Die Funktion f ist (überall) stetig.
Familien
Familien und Funktionen sind ein und dasselbe: Ist f eine Funktion auf einer Menge
A, so gilt f = (f(a))a ∈ A = (f(a) | a ∈ A). Umgekehrt ist eine Familie (ba | a ∈ A) die Funktion
f auf A mit f(a) = ba für alle a ∈ A. Die Familien-Notation bringt aber eine eigene Dynamik mit sich. Die Analysis käme ohne Folgen (xn )n ∈ ⺞ (Familien mit der Indexmenge ⺞)
nicht aus; es wäre viel zu umständlich, sie jedes Mal in der Form f : ⺞ → ⺢ anzugeben.
Beispiel
„Die Folge (2n)n ∈ ⺞ ist monoton steigend.“ ist viel prägnanter als die gleichwertige
Aussage „Die Funktion f : ⺞ → ⺢ mit f(n) = 2n für alle n ist monoton steigend.“
Familien sind nützlich zur Parametrisierung. Eine Familie (ft | t ∈ ⺢) kann zum Beispiel eine suggestive Notation für Funktionen ft : ⺢3 → ⺢ sein, die von einem zeitlichen
Parameter t abhängen. Oft verwendete „neutrale“ Indexmengen sind I und J.
Viele Notationen für Familien sind fast selbsterklärend, etwa
艛 i ∈ I Ai
=
艛 { Ai | i ∈ I }
= { a | es gibt ein i ∈ I mit a ∈ Ai },
(Ai ∩ Bi | i ∈ I) = (Ci | Ci = Ai ∩ Bi für alle i ∈ I)
für gegebene Familien (Ai | i ∈ I) und (Bi | i ∈ I) von Mengen.
30
1. Relationen und Abbildungen
1. 7 Umgang mit Funktionen
Definition (Komposition, Bild, Urbild, Einschränkung, abgeschlossen unter, Produkte)
Komposition
Sind f, g Funktionen mit Bild(f ) ⊆ Def(g), so heißt
g ⴰ f = { (a, g(f(a))) | a ∈ Def(f ) }
(gelesen: „g kringel f “, „g nach f “)
die Komposition oder Verknüpfung von f und g.
Bild und Urbild
Ist f eine Funktion, so definieren wir für alle X ⊆ Def(f ) und alle Mengen Y:
f [ X ] = f(X) = { f(x) | x ∈ X },
f
−1
(Bild von X)
−1
[ Y ] = f (Y) = { a ∈ Def(f ) | f(a) ∈ Y }.
(Urbild von Y)
Für alle y heißt das Urbild f −1 [ { y } ] auch die Faser von f über y.
Einschränkung
Ist f eine Funktion und C ⊆ Def(f ), so heißt
f|C = { (a, f(a)) | a ∈ C }
(gelesen: „f eingeschränkt auf C“)
die Einschränkung von f auf C.
Funktionenmengen und allgemeine Produkte
Für Mengen A und B definieren wir
BA =
A
B = { f | f : A → B }.
Ist (B i )i ∈ I eine Familie, so definieren wir
∏ i ∈ I Bi = { (b i )i ∈ I | bi ∈ B i für alle i ∈ I }.
f
A
X
➀
B
f [X]
(kartesisches Produkt von (Bi )i ∈ I )
Bei der Formung des Bildes einer Menge
unter einer Funktion f : A → B startet
➁
man mit einer Teilmenge X des Definitionsbereichs A von f (➀) und sammelt alle
Funktionswerte f(x) mit x ∈ X (➁).
Ist ein Urbild zu bestimmen, so startet
f
A
f −1 [ Y ]
➁
B
Y
➀
man mit einer Menge Y (➀) und sammelt
alle Stellen x des Definitionsbereichs von
f, die durch Anwendung von f in der
Menge Y landen (➁). Alle anderen Elemente von A landen außerhalb von Y.
1. 7 Umgang mit Funktionen
31
Für f : A → B und g : B → C gilt g ⴰ f : A → C, (g ⴰ f )(a) = g(f(a)) für alle a ∈ A.
Die Verknüpfung g ⴰ f beschreibt die Hintereinanderausführung von f und g: zuerst f,
dann g, also „g nach f “, obwohl g vor f steht. Sie ist assoziativ,
h ⴰ (g ⴰ f ) = (h ⴰ g) ⴰ f
für alle f : A → B, g : B → C, h : C → D,
sodass wir h ⴰ g ⴰ f schreiben können. Es gilt (h ⴰ g ⴰ f )(a) = h(g(f(a))) für alle a ∈ A.
Für die Einschränkung f|C gilt: f|C ist wie f, aber nur noch für a ∈ C definiert.
Beispiele
(1) Seien f, g : ⺞ → ⺞ mit f(n) = n + 1, g(n) = n2 für alle n. Dann gilt f ⴰ g ≠ g ⴰ f, da
(g ⴰ f ) (n) = g(f(n)) = (n + 1)2 , (f ⴰ g) (n) = f(g(n)) = n2 + 1 für alle n.
(2) Für f : ⺞ → ⺞ mit f(n) = n2 für alle n gilt
f [ { 0, 4, 7 } ] = { 0, 16, 49 }, f −1 [ { 1, …, 10 } ] = { 1, 2, 3 }.
(3) Für cos : ⺢ → ⺢ ist cos0 = cos|[ 0, π ] ein „Ausschnitt“ des Kosinus, der zur
Definition des Arkuskosinus verwendet werden kann (vgl. 1. 9).
(4) ⺢⺢ ist die Menge aller reellen Funktionen f : ⺢ → ⺢. Ebenso ist ⺢⺞ die Menge
aller reellen Folgen (xn )n ∈ ⺞ und { 0, 1 }⺞ die Menge aller 0-1-Folgen.
(5) Ist Bn = { 0, …, n } für alle n, so ist ∏ n ∈ ⺞ Bn die Menge aller f : ⺞ → ⺞ mit
f(n) ≤ n für alle n.
(6) Ist B2n = A und B2n + 1 = B für alle n, so ist ∏ n ∈ ⺞ Bn die Menge aller Folgen, die
abwechselnd Werte in den Mengen A und B annehmen.
(7) Ist Ba = B für alle a ∈ A, so ist ∏ a ∈ A Ba = ∏ a ∈ A B = B A .
Häufig verwendete Regeln für Bild und Urbild einer Funktion f sind:
f [ Def(f ) ] = Bild(f )
f −1 [ Bild(f ) ] = Def(f )
f [ f −1 [ Y ] ] ⊆ Y
f −1 [ f [ X ] ] ⊇ X
f [ X 1 ∩ X2 ] ⊆ f [ X1 ] ∩ f [ X 2 ]
f −1 [ Y1 ∩ Y2 ] = f −1 [ Y1 ] ∩ f −1 [ Y2 ]
f [ X 1 ∪ X2 ] = f [ X1 ] ∪ f [ X 2 ]
f − 1 [ Y1 ∪ Y2 ] = f −1 [ Y1 ] ∪ f − 1 [ Y2 ]
f [ X1 − X 2 ] ⊇ f [ X 1 ] − f [ X 2 ]
f − 1 [ Y1 − Y2 ] = f −1 [ Y1 ] − f −1 [ Y2 ]
Beispiel
Für die Funktion f = { (0, 2), (1, 2) } gilt
f [ { 0 } ∩ { 1 } ] = ∅ ≠ { 2 } = { 2 } ∩ { 2 } = f [ { 0 } ] ∩ f [ { 1 } ].
32
1. Relationen und Abbildungen
1. 8 Operationen und Abgeschlossenheit
Definition (Operation, abgeschlossen unter)
Operationen oder Verknüpfungen
Gilt f : An → A für ein n ∈ ⺞, so heißt f eine (n-stellige) Operation oder Verknüpfung auf A. Wir schreiben
f(a1 , …, an ) statt f((a1 , …, an ))
für alle a1 , …, an ∈ A.
Ist n = 2 und f ein Zeichen wie +, ⋅, ⴰ, …, so schreiben wir auch
a + b, a ⋅ b, a ⴰ b, … statt + (a, b), ⋅ (a, b), ⴰ (a, b), …
für alle a, b ∈ A.
Abgeschlossenheit einer Menge unter einer Operation
Ist f : An → A eine Operation und B ⊆ A, so heißt B abgeschlossen unter f , falls
f(a1 , …, an ) ∈ B für alle a1 , …, an ∈ B.
(Abgeschlossenheitsbedingung)
Abschluss einer Menge unter einer Operation
Ist f : An → A und B ⊆ A, so setzen wir:
〈B〉 = 〈B〉f = „die ⊆-kleinste unter f abgeschlossene Obermenge von B“.
Die Menge 〈B〉 heißt der Abschluss von B unter f oder die von f und B erzeugte
Teilmenge von A. Ist B = { b1 , …, bm }, so schreiben wir 〈b1 , …, bm 〉 für 〈B〉.
A
A
a
b
B
a
aⴰb
b
aⴰb
Bei einer zweistelligen Operation ⴰ : A2 → A werden je zwei Elemente a und b von A auf ein Element a ⴰ b von A abgebildet; a und b müssen dabei nicht verschieden sein und es kann a ⴰ b ≠ b ⴰ a
gelten. Eine Teilmenge B von A ist abgeschlossen unter der Operation, wenn die Anwendung der
Operation nicht aus B herausführt, d. h., für alle a, b ∈ B ist a ⴰ b wieder ein Element von B.
Eine Funktion der Form f : An → B heißt eine n-stellige Funktion auf A und man
schreibt f(a1 , …, an ) statt f((a1 , …, an )), um die Lesbarkeit zu vereinfachen. Operationen
sind n-stellige Funktionen auf A, die Werte in A annehmen. Jedem n-Tupel (a1 , …, an ) mit
Einträgen in A wird ein a = f(a1 , …, an ) ∈ A zugeordnet.
In der Algebra spielen vor allem zweistellige Operationen eine wichtige Rolle. Der Leser denke an die Addition und Multiplikation auf den Zahlenmengen ⺞, ⺪, ⺡, ⺢, ⺓. Es gilt
zum Beispiel + : ⺞2 → ⺞ und ⋅ : ⺢2 → ⺢. Die „innere Notation“ n + m bzw. x ⋅ y liefert
die vertrauten Ausdrücke: n + (m + k) ist viel besser lesbar als +(n, +(m, k)).
Auch einstellige Operationen sind von Interesse. Hier gilt einfach f : A → A. Ein Beispiel ist die Nachfolgerfunktion S : ⺞ → ⺞ mit S(n) = n + 1 für alle n.
1. 8 Operationen und Abgeschlossenheit
33
Abgeschlossenheit einer Menge B unter f
Seien f : An → A und B ⊆ A. Die Abgeschlossenheit von B bedeutet, dass die Anwendung von f auf je n Elemente in B stets Werte in B liefert: „f führt nicht aus B heraus.“
Gleichwertig ist, dass die Einschränkung von f auf Bn eine Operation auf B ist:
f |Bn : Bn → B.
(Abgeschlossenheitsbedingung, Umformulierung)
Beispiele
(1) Die Menge G der geraden Zahlen ist abgeschlossen unter der Addition + auf
⺞, da n + m ∈ G für alle n, m ∈ G. Dagegen ist U = ⺞ − G nicht abgeschlossen
unter +, da 1, 3 ∈ U, aber 1 + 3 ∉ U.
(2) ⺢+ = { x ∈ ⺢ | x > 0 } und ⺢+0 = ⺢+ ∪ { 0 } sind abgeschlossen unter der reellen
Multiplikation, da das Produkt zweier positiver (nichtnegativer) Zahlen positiv
(nichtnegativ) ist. Ebenso ist das Intervall [ 0, 1 ] abgeschlossen unter ⋅. Dagegen
sind { x ∈ ⺢ | x ≤ 0 } und [ 0, 2 ] nicht abgeschlossen unter ⋅.
(3) Für jede Operation f : An → A sind A und ∅ abgeschlossen unter f .
Abschluss einer Menge B unter f
Für jedes B ⊆ A existiert eine bzgl. der Inklusion ⊆ kleinste unter f abgeschlossene
Obermenge 〈B〉 = 〈B〉f . Sie lässt sich auf zwei äquivalente Arten konstruieren:
Konstruktion „von oben“: Schnittbildung
Es gilt 〈B〉 = 傽 { C | C ⊇ B und C ist abgeschlossen unter f }.
Konstruktion „von unten“: wiederholte Anwendung von f
Wir setzen B0 = B und Bk + 1 = Bk ∪ f [ Bk n ] für alle k ∈ ⺞. Dann gilt
〈B〉 =
艛k ∈ ⺞ B k .
Beispiele
(1) Sei S : ⺞ → ⺞ die Nachfolgerbildung, und sei B = { 4, 9 }. Dann gilt
B0 = { 4, 9 }, B1 = B0 ∪ { 5, 10 }, B2 = B1 ∪ { 6, 11 }, …
Damit ist 〈 4, 9〉 = { n ∈ ⺞ | n ≥ 4 }.
(2) Sei + : ⺞2 → ⺞ die Addition, und sei B = { 4, 9 }. Dann gilt
(#) 〈 4, 9 〉 = { n 4 + m 9 | n, m ≥ 1 }.
Denn die Menge M rechts ist abgeschlossen unter +, sodass 〈 4, 9 〉 ⊆ M.
Ist C eine unter + abgeschlossene Obermenge von { 4, 9 }, so sind n 4, m 9 und
n 4 + m 9 Elemente von C für alle n, m ≥ 1. Also gilt M ⊆ C für alle unter +
abgeschlossenen C ⊇ { 4, 9 }, sodass M ⊆ 〈 4, 9 〉.
34
1. Relationen und Abbildungen
1. 9 Abbildungseigenschaften
Definition (injektiv, surjektiv, bijektiv, Umkehrfunktion)
Abbildungseigenschaften
Eine Funktion f heißt
injektiv,
falls f(a) ≠ f(b) für alle a ≠ b in Def(f ),
(Linkseindeutigkeit)
surjektiv nach B, falls Bild(f ) = B,
bijektiv nach B,
falls f ist injektiv und surjektiv nach B.
Umkehrfunktion
Ist f injektiv, so heißt f −1 = { (b, a) | (a, b) ∈ f } die Umkehrfunktion von f.
f −1
f
a
f(a) = f(b)
b
Die Injektivität ist genau dann ver-
a1
b1
b1
a1
a2
b2
b2
a2
a3
b3
b3
a3
a4
b4
b4
a4
a5
b5
b5
a5
letzt, wenn zwei verschiedene Stellen
auf denselben Wert abgebildet wer-
Ist f injektiv, so entsteht die Umkehrfunktion f −1
den.
anschaulich durch Vertauschen der Spalten.
Die Injektivität von f bedeutet in der Tabelleninterpretation, dass auch in der rechten
Spalte kein y mehrfach vorkommt. Sie ist eine Eigenschaft der Funktion f und benötigt im
Gegensatz zur Surjektivität und Bijektivität keine Nennung einer Menge B.
Für eine Funktion f : A → B bedeutet …
injektiv
kein Wert (in B) wird mehrfach angenommen
surjektiv
jeder Wert in B wird mindestens einmal angenommen
bijektiv
jeder Wert in B wird genau einmal angenommen
Ist f : A → B bijektiv, so stellt f eine vollständige Paarbildung zwischen den Elementen
der Mengen A und B her. Jedem Element von A entspricht durch den Vermittler oder
Paarbilder f genau ein Element von B und umgekehrt. Damit sind die Mengen A und B anschaulich gleich groß. Diese Anschauung werden wir im nächsten Abschnitt präzisieren.
Wichtige Eigenschaften sind:
1.9 Abbildungseigenschaften
35
Ist f : A → B, so ist f : A → Bild(f ) surjektiv.
Ist f : A → B injektiv, so ist f : A → Bild(f ) bijektiv.
Sind f : A → B und g : B → C injektiv (surjektiv, bijektiv), so auch g ⴰ f : A → C.
Beispiele
(1) Für jede Menge A ist idA : A → A bijektiv.
(2) Seien G = { 2n | n ∈ ⺞ } und U = ⺞ − G. Dann sind bijektiv:
f : ⺞ → G mit f(n) = 2n,
g : ⺞ → U mit g(n) = 2n + 1,
h : G → U mit h(n) = n + 1,
k : U → G mit k(n) = n − 1.
(3) cos : ⺢ → [ −1, 1 ] ist surjektiv, aber nicht injektiv,
cos|[ 0, π ] : [ 0, π ] → ⺢ ist injektiv, aber nicht surjektiv,
cos|[ 0, π ] : [ 0, π ] → [ −1, 1 ] ist bijektiv.
Umkehrfunktionen
Die Bildung der Umkehrfunktion bedeutet in der
Tabelleninterpretation:
Zuordnungsinterpretation:
kartesischen Interpretation:
Vertauschung der Spalten
Ändern der Abbildungsrichtung
Spiegelung an der Winkelhalbierenden
Pfeilinterpretation: Umkehrung aller Pfeile des Feldes
Dienstboten-Interpretation:
Bote soll a, gegeben f(a), wieder zurückbringen.
Damit durch den Spaltentausch eine Funktion entsteht, ist es notwendig (und hinreichend), dass in der ursprünglichen rechten Spalte kein y mehrfach vorkommt.
Wichtige Eigenschaften sind:
Ist f : A → B injektiv, so ist f −1 : Bild(f ) → A bijektiv.
Ist f : A → B bijektiv, so ist auch f −1 : B → A bijektiv.
f −1 ⴰ f = idA , f ⴰ f −1 = idB , wobei A = Def(f ), B = Bild(f ).
Beispiele
(1) Sei f : ⺢* → ⺢ mit f(x) = 1/x für alle x ∈ ⺢*. Dann ist f injektiv. Für alle x, y ∈ ⺢*
gilt y = 1/x genau dann, wenn x = 1/y. Damit ist f −1 = f, was man kartesisch
durch Spiegelung an der Winkelhalbierenden schön einsehen kann.
(2) Die Kosinusfunktion muss man vor einer Umkehrung geeignet einschränken.
Mit der injektiven Funktion cos0 = cos|[ 0, π ] kann man den Arkuskosinus
arccos : [ −1, 1 ] → ⺢ durch arccos = cos0 −1 definieren. Es gilt cos(arccos(x)) = x
für alle x ∈ [ −1, 1 ], aber arccos(cos(x)) ≠ x für x ∉ [ 0, π ].
36
1. Relationen und Abbildungen
1. 10 Mächtigkeitsvergleiche
Definition (Mächtigkeitsbegriffe)
Mächtigkeitsvergleich
Für Mengen A, B definieren wir:
|A| ≤ |B|, falls es gibt eine Injektion f : A → B,
|A| = |B|, falls es gibt eine Bijektion f : A → B,
|A| < |B|, falls |A| ≤ |B| und |A| ≠ |B|.
Gilt |A| ≤ |B| (|A| < |B|), so sagen wir, dass die Mächtigkeit von A kleinergleich
(kleiner) der Mächtigkeit von B ist. Gilt |A| = |B|, so sagen wir, dass A und B
gleichmächtig sind oder die gleiche Mächtigkeit besitzen.
Endlichkeit, Unendlichkeit, Abzählbarkeit, Überabzählbarkeit
Eine Menge A heißt
endlich,
falls |A| < |⺞|,
abzählbar,
falls |A| ≤ |⺞|,
unendlich,
falls |⺞| ≤ |A|,
abzählbar unendlich,
falls |A| = |⺞|,
überabzählbar,
falls |⺞| < |A|.
A
B
Die Mächtigkeit von A ist kleinergleich der Mächtigkeit von B, falls es eine Injektion von A nach B
gibt. Anschaulich passt dann die Menge A in die
Menge B hinein. Aus dem Mächtigkeitsvergleich
|A| ≤ |B| folgt alles Weitere, denn die Gleichmächtigkeit |A| = |B| ist äquivalent zu |A| ≤ |B|
und |B| ≤ |A| (Satz von Cantor-Bernstein). Insge-
…
…
samt ergibt sich aus den Abbildungseigenschaften
„injektiv, surjektiv, bijektiv“ eine Größenlehre für
Mengen ohne Verwendung von Zahlen.
Die Abbildungseigenschaften „injektiv, surjektiv, bijektiv“ sind geeignet, zwei Mengen ihrer Größe nach zu vergleichen, ohne ihre Elemente zählen zu müssen. Anschaulich bedeutet |A| ≤ |B|, dass jedes Element von A einen Partner in B findet, wenn ein
geschickter Vermittler f die Zuordnung übernimmt. Die Gleichmächtigkeit |A| = |B|
bedeutet, dass die Elemente von A mit den Elementen von B vollständig gepaart werden. Und |A| < |B| bedeutet, dass eine Partnerfindung wie in |A| ≤ |B| möglich ist,
aber jede Partnerfindung einsame b in B zurücklässt.
1.10 Mächtigkeitsvergleiche
37
Die Endlichkeit einer Menge A ist äquivalent dazu, dass A in der Form A = { a1 , …, an }
mit paarweise verschiedenen ak geschrieben werden kann (wobei n = 0 für A = ∅ zugelassen ist). Man schreibt dann auch |A| = n. Für endliche Mengen gilt:
Dirichletsches Schubfach- oder Taubenschlagprinzip
Sind A, B endlich mit |A| = |B| und ist f : A → B, so sind äquivalent:
(a) f : A → B ist injektiv,
(b) f : A → B ist surjektiv,
(c) f : A → B ist bijektiv.
Die Bezeichnung „Schubfachprinzip“ lässt sich wie folgt illustrieren:
Beispiel
Verteilt man n Kugeln a1 , …, an auf m < n Fächer, so gibt es ein Fach, das mindestens zwei Kugeln enthält. Denn sonst wäre f : { a1 , …, an } → { 1, …, n } mit
f(ak ) = „die Fachnummer von ak “ injektiv, aber wegen m < n nicht surjektiv.
Diese Ergebnisse sind anschaulich klar. Große Überraschungen bergen dagegen die
unendlichen Mengen. Man kann zeigen:
|⺞| = |⺪| = |⺡| = |⺞2 | = |⺞3 | = |艛n ∈ ⺞ ⺞n |,
wobei die letzte Menge die Menge aller endlichen Tupel natürlicher Zahlen ist und damit über eine geeignete Zahlenkodierung von Buchstaben und Satzzeichen jedes Buch
(aufgefasst als Zeichenfolge) als Element enthält. Eine Universalbibliothek, die alle Bücher enthält, ist abzählbar. Dagegen zeigt man in der Analysis, dass die reellen Zahlen
überabzählbar sind: |⺞| < |⺢|. Dieses Ergebnis kann man auch so formulieren:
Jede Folge x0 , x1 , x2 , …, xn , … reeller Zahlen lässt eine reelle Zahl aus.
Ebenso gilt |⺢| < |⺢⺢ |, sodass gilt:
Jede Familie ( fx )x ∈ ⺢ reeller Funktionen fx : ⺢ → ⺢ lässt eine reelle Funktion aus.
Es gibt also auch im Unendlichen verschiedene Mächtigkeitsstufen. Wichtige allgemeine
Ergebnisse der Mächtigkeitstheorie, die für alle Mengen A, B gelten, sind:
|A| < |P(A)|
(Satz von Cantor)
|A| ≤ |B| und |B| ≤ |A| impliziert |A| = |B|
|A| ≤ |B| oder |B| ≤ |A|
(Satz von Cantor-Bernstein)
(Vergleichbarkeitssatz von Cantor-Zermelo)
Während die beiden ersten Sätze trickreich, aber elementar bewiesen werden können,
müssen zum Beweis des Vergleichbarkeitssatzes schwere Geschütze aufgefahren werden.
Der Satz ist äquivalent zum Auswahlaxiom, das wir nun besprechen werden.
38
1. Relationen und Abbildungen
1. 11 Das Auswahlaxiom
Auswahlaxiom von Ernst Zermelo
Ist Ꮽ eine Menge nichtleerer und paarweise disjunkter Mengen, so gibt es eine
Menge B, die mit jedem A ∈ Ꮽ genau ein Element gemeinsam hat.
Ꮽ
a
b
B
a
b
c
c
…
…
Eine Auswahlmenge B „pickt“ aus jeder Menge des Systems Ꮽ genau ein Element heraus.
Ist Ꮽ endlich, so ist die Existenz von B induktiv beweisbar. Dagegen muss man selbst für
Systeme Ꮽ, deren Elemente alle zweielementig sind (Systeme von „Sockenpaaren“), im
Allgemeinen das Auswahlaxiom heranziehen, um eine Auswahlmenge zu erhalten.
Zwei Zeilen. Unzählige Diskussionen. Und dies seit der Einführung 1908. Das Auswahlaxiom ist das umstrittenste Prinzip der Mathematik. Die Meinungen umfassen:
(a) Offensichtlich wahr/richtig/korrekt.
(b) Nicht akzeptabel.
(c) Offensichtlich richtig, aber in seinen Konsequenzen nicht akzeptabel.
(d) Einfach notwendig für viele mathematische Unternehmungen.
(e) Richtig, aber eine Schwäche der Präsentation der mengentheoretischen Axiome.
Eine Menge B wie im Auswahlaxiom nennt man auch eine Auswahlmenge für das Mengensystem Ꮽ. Das System wird als eine Zerlegung von A = 艛 Ꮽ vorausgesetzt (vgl. 0.4).
Aus jedem „Land“ A ∈ Ꮽ wird in einer Auswahlmenge genau ein „Bewohner“ ausgewählt
und alle ausgewählten Bewohner bilden die Auswahlmenge B. Damit gilt:
Existenz von Repräsentantensystemen
Jede Äquivalenzrelation besitzt ein vollständiges Repräsentantensystem.
Diese Folgerung ist sogar äquivalent zum Auswahlaxiom. Gleiches gilt für:
Existenz von Auswahlfunktionen
Ist (Ai | i ∈ I) eine Familie nichtleerer Mengen, so ist ∏ i ∈ I Ai ≠ ∅, d. h., es gibt eine
Funktion f auf I mit f(i) ∈ Ai für alle i ∈ I.
Diese Aussage lässt sich als unendliche Verallgemeinerung des Satzes auffassen, dass ein
kartesisches Produkt A1 × … × An nichtleerer Mengen nichtleer ist.
1. 11 Das Auswahlaxiom
39
Das Auswahlaxiom eröffnet eine neue Möglichkeit zur Konstruktion von Funktionen
(vgl. Abschnitt 1.5):
Möglichkeit 4: „ein (beliebiges) b mit …“
Sei Ᏹ(a, b) eine Eigenschaft und A eine Menge mit
(++) Für alle a ∈ A gibt es ein b mit Ᏹ(a, b).
Dann gibt es eine Funktion f auf A, sodass Ᏹ(a, f(a)) für alle a ∈ A erfüllt ist.
Eine solche Funktion f können wir in der Praxis einfach definieren durch
f(a) = „ein b mit Ᏹ(a, b)“ für alle a ∈ A.
Durch das „ein“ wird ein abstrakter Auswahlakt angedeutet. Dass zu jedem a mindestens
ein b mit der Eigenschaft Ᏹ(a, b) existiert, muss vorab bewiesen werden.
Beispiele
(1) Ist ⬃ eine Äquivalenz auf A, so können wir f auf A/⬃ definieren durch:
f(B) = „ein b ∈ B“ für alle B ∈ A/⬃.
Welche b aus den Äquivalenzklassen gewählt werden, bleibt unbestimmt. Wir
wissen aber, dass Bild(f ) ein Repräsentantensystem von ⬃ ist.
(2) Sei f : A → B surjektiv. Dann definieren wir g : B → A durch
g(b) = „ein a ∈ A mit f(a) = b“.
Welche Urbilder gewählt werden, bleibt unbestimmt. Wir wissen aber, dass
g ⴰ f = idA . (Die Aussage: „Ist f : A → B surjektiv, so existiert ein g : B → A
mit g ⴰ f = idA .“ ist erneut äquivalent zum Auswahlaxiom.)
(3) Ist (An | n ∈ ⺞) eine Familie abzählbar unendlicher Mengen, so sei
(an, k | k ∈ ⺞) = „eine Bijektion f : ⺞ → An “
für alle n ∈ ⺞.
Damit kann die Diagonalaufzählung
a0, 0 ,
a0, 1 , a1, 0 ,
a0, 2 , a1, 1 , a2, 0 ,
a0, 3 , a1, 2 , a2, 1 , a3, 0 ,
…
von 艛n ∈ ⺞ An definiert werden. Dies zeigt (mit Hilfe des Auswahlaxioms), dass
eine abzählbare Vereinigung abzählbar unendlicher Mengen abzählbar ist.
Im nächsten Abschnitt werden wir das zum Auswahlaxiom äquivalente Zornsche
Lemma vorstellen. Im dritten Kapitel können wir mit Hilfe des Zornschen Lemmas zeigen, dass jeder Vektorraum eine Basis besitzt. Diese fundamentale Aussage der Linearen
Algebra ist ohne Auswahlaxiom nicht beweisbar (sie ist überraschenderweise ebenfalls
äquivalent zum Auswahlaxiom). Manche Mathematiker bemerken scherzhaft:
„Ob jeder Vektorraum eine Basis besitzt, hängt vom Dozenten ab.“
40
1. Relationen und Abbildungen
1. 12 Das Zornsche Lemma
Satz (Zornsches Lemma)
Sei ≤ eine partielle Ordnung auf A. Es gelte:
(#) Ist B ⊆ A linear geordnet durch ≤, so existiert eine obere Schranke von B.
(Kettenbedingung)
Dann existiert ein maximales Element der Ordnung. Genauer existiert für alle a0 ∈ A
ein maximales Element b in A mit a0 ≤ b.
Eine Teilmenge B von A wird durch
≤ linear geordnet, falls je zwei Elemente von B vergleichbar sind:
s
…
Für alle a, b ∈ B gilt a ≤ b oder b ≤ a.
Man nennt eine solche Menge B eine
Kette in A. Das Zornsche Lemma besagt:
B
Hat jede Kette in A eine obere
Schranke, so existiert ein
maximales Element in A.
Es wird nicht behauptet, dass max(A)
Illustration der Kettenbedingung (#): Die Kette B
existiert. Behauptet wird lediglich: Es
der partiellen Ordnung hat die obere Schranke s.
gibt mindestens ein a ∈ A, sodass kein
b ∈ A größer als a ist.
Die leere Menge gilt als Kette und hat nach (#) eine obere Schranke a (jedes a ∈ A ist
eine solche). Damit ist eine Ordnung, die die Kettenbedingung erfüllt, nichtleer.
Beispiele
(1) Sei A = P({ 1, …, 100 }) geordnet durch ⊆. Dann ist
B = { ∅, { 1 }, { 1, 4 }, { 1, 4, 10, 12 }, { 1, 4, 10, 12, 44, 45, 50 } }
eine Kette. Dies gilt nicht für C = { { 1 }, { 1, 4 }, { 1, 2, 10 } }.
(2) Die durch ⊆ geordnete Menge A = P(⺞) − { ⺞ } hat keine maximalen Elemente.
Die Ordnung erfüllt die Kettenbedingung nicht. Denn
B = { { 0 }, { 0, 1 }, { 0, 1, 2 }, … } = { { 0, …, n } | n ∈ ⺞ }
ist eine Kette, besitzt aber keine obere Schranke in A.
(3) Auf ⺞ sei Ɐ = { (n, n + 2k) | n, k ∈ ⺞, n ≠ 0 } ∪ { (2k, 0) | k ∈ ⺞ }, sodass
1 Ɱ 3 Ɱ 5 Ɱ …,
2 Ɱ 4 Ɱ 6 Ɱ … Ɱ 0.
Dann ist 0 ein maximales Element von ⺞. Die Kettenbedingung ist verletzt, da
die Kette { 1, 3, 5, … } keine obere Schranke besitzt.
1. 12 Das Zornsche Lemma
41
Anschaulicher Beweis des Zornschen Lemmas
Wir setzen uns auf ein beliebiges a0 ∈ A und blicken von dort aus nach oben, d. h.,
wir betrachten X0 = { a ∈ A | a > a0 }. Sehen wir nichts (X0 = ∅), so ist a0 maximal in
A und wir sind fertig. Andernfalls wählen wir ein beliebiges a1 ∈ X0 . Es gilt dann
a 0 < a1 .
Nun klettern wir nach a1 hoch und blicken nach oben. Ist X1 = { a ∈ A | a > a1 } leer,
so ist a1 maximal und wir sind fertig. Andernfalls wählen wir ein a2 ∈ X1 . Dann gilt
a 0 < a1 < a 2 .
So in der Ordnung hochkletternd finden wir entweder ein maximales Element
an wie gewünscht, oder aber wir erhalten eine unendliche Kette
a 0 < a1 < … < a n < …
Nun hilft uns die Kettenbedingung weiter. Denn B = { an | n ∈ ⺞ } ist linear geordnet. Nach (#) existiert also eine obere Schranke von B. Wir wählen eine derartige
Schranke, die wir aω nennen (wobei ω an ∞ erinnert). Wir klettern nun nach aω und
blicken von dort erneut nach oben. Ist Xω = { a ∈ A | a > aω } leer, so ist aω maximal.
Andernfalls wählen wir ein beliebiges aω + 1 ∈ Xω und wiederholen das Verfahren des
Hochkletterns, wobei wir an „Limesstellen“ des Hochkletterns die Kettenbedingung
(#) zu Hilfe rufen. Irgendwann (das kann sehr, sehr, sehr lange dauern) finden wir
schließlich ein maximales Element aα , denn sonst könnten wir wieder weiterklettern
und aα + 1 bilden. Das Element aα > a0 ist wie gewünscht.
Zunächst sieht alles wie eine übliche Rekursion aus. Aber wir sind nach unendlich vielen Schritten noch nicht unbedingt fertig. In der ⊆-Ordnung auf P(⺞) können wir über
a0 = { 0 }, a1 = { 0, 2 }, a2 = { 0, 2, 4 }, …
hochklettern, haben dann aber das maximale Element ⺞ noch nicht gefunden. Erst
aω = { 0, 2, 4, … }, aω + 1 = { 0, 2, 4, …, 1 }, aω + 2 = { 0, 2, 4, …, 1, 3 }, …
liefert aω + ω = ⺞.
Der anschauliche Beweis kann unter Wahrung der Idee streng geführt werden, wenn
man statt ⺞ die transfiniten Zahlen
0, 1, 2, …, n, …, ω, ω + 1, ω + 2, …, ω + ω, ω + ω + 1, …, …, …, …, …, …, …, …, …
verwendet, mit denen jede noch so große partielle Ordnung durchwandert werden kann.
Da diese Zahlen schwierig sind, wird das Zornsche Lemma oft entweder gar nicht bewiesen, oder es wird ein unanschaulicher Beweis geführt, der die transfiniten Zahlen vermeidet. Ist das Zornsche Lemma als eine Art Axiom aber einmal da, so kann es als Werkzeug
verwendet werden, um in ähnlichen Situationen ein transfinites Hochklettern zu vermeiden. Zu diesem Zweck ist es von den Algebraikern ins Leben gerufen worden: Genuss des
Transfiniten ohne transfinite Zahlen.
Obiger Beweis verwendet „wir wählen …“ und damit das Auswahlaxiom. Man kann zeigen, dass das Zornsche Lemma äquivalent zum Auswahlaxiom ist.
Kapitel 2
Algebraische Strukturen
44
2. Algebraische Strukturen
2. 1 Halbgruppen
Definition (Halbgruppe, Assoziativgesetz)
Seien H eine Menge und ⴰ : H2 → H eine (zweistellige) Operation auf H. Dann
heißt das Paar (H, ⴰ) eine Halbgruppe, falls gilt:
(a ⴰ b) ⴰ c = a ⴰ (b ⴰ c) für alle a, b, c ∈ H.
Eine Halbgruppe ist also eine mit
einer assoziativen Operation ausgestattete Menge. Wir schreiben a ⴰ b
statt ⴰ (a, b). Im Begriff „Operation
auf H“ ist enthalten, dass der Wertebereich von ⴰ eine Teilmenge von H
ist (vgl. 1.8). Es gilt also
(Assoziativgesetz)
a
aⴰb
b
(a ⴰ b) ⴰ c
c
c
a
a
a ⴰ b ∈ H für alle a, b ∈ H.
b
a ⴰ (b ⴰ c)
Andere Schreibweisen
Das Zeichen ⴰ steht für eine bebⴰc
c
liebige Operation und hat oft
nichts mit der Komposition von
Zweistufige „Verarbeitung“ von drei Objekten a, b, c.
Funktionen zu tun. Ist H eine
Bei einer assoziativen Operation ist (a ⴰ b) ⴰ c = a ⴰ (b ⴰ c).
Menge von Funktionen, so ist
jedoch ⴰ die Komposition von
Funktionen, wenn nichts anderes gesagt wird. Statt ⴰ können wir ein beliebiges anderes Zeichen verwenden. Typische Operationszeichen sind ⴱ, ⋅, +. Das Gleiche gilt
für die zugrunde gelegte Menge. Man kann schreiben:
„Sei (M, +) eine Halbgruppe.“
Dies bedeutet, dass + : M2 → M und dass a + (b + c) = (a + b) + c für alle a, b, c ∈ M.
Auch hier hat die Operation + in vielen Fällen nichts mit der Addition auf einer Zahlenmenge wie ⺞ oder ⺢ zu tun. Für das Zeichen + sind bestimmte Notationen reserviert, die wir im Folgenden kennenlernen werden.
Vereinfachung der Notation
Anstelle von (H, ⴰ) schreibt und sagt man oft auch nur H. Eine Operation ist dann
stillschweigend mit dabei. So sagt man zum Beispiel: „Ist H eine Halbgruppe, so
gilt a ⴰ (b ⴰ b) = (a ⴰ b) ⴰ b für alle a und b in H.“ Diese bewusste Verwechslung
einer Struktur (H, ⴰ) mit ihrer Trägermenge H wird in vielen Fällen durchgeführt.
Sie ist in der Regel ungefährlich und erleichtert die Sprechweise.
Weglassen des Operationszeichens
Ist das Operationszeichen von + verschieden, so lässt man es oft weg. So schreibt
man zum Beispiel ab statt a ⋅ b und a(bc) statt a ⴱ (b ⴱ c) usw.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_3, © Springer-Verlag Berlin Heidelberg 2015
2.1 Halbgruppen
45
Beispiele
(1) ⺞, ⺪, ⺡, ⺢, ⺓ bilden mit der üblichen Addition Halbgruppen. Das Gleiche gilt
für die Multiplikation.
(2) Ist G = { 2n | n ∈ ⺞ } die Menge der geraden und U = ⺞ − G die Menge der
ungeraden Zahlen, so sind (G, +), (G, ⋅) und (U, ⋅) mit der üblichen Addition
und Multiplikation Halbgruppen. Dagegen ist (U, +) keine Halbgruppe, da +
wegen 1 + 1 ∉ U keine Operation auf U ist.
(3) Ist A eine Menge und H = { f | f : A → A }, so ist (H, ⴰ) eine Halbgruppe.
Gleiches gilt für H′ = { f | f : A → A ist injektiv }.
(4) Setzen wir a ⴰ b = |b − a| für alle a, b ∈ ⺪, so ist (⺪, ⴰ) keine Halbgruppe, da zum
Beispiel (1 ⴰ 2) ⴰ 3 = 1 ⴰ 3 = 2, aber 1 ⴰ (2 ⴰ 3) = 1 ⴰ 1 = 0.
(5) Sind H1 und H2 Halbgruppen und ist H = H1 × H2 , so setzen wir
(a, b) ⴰ (c, d) = (ac, bd) für alle (a, b), (c, d) ∈ H.
Dann ist (H, ⴰ) eine Halbgruppe. Sie heißt das Produkt von H1 und H2 .
Das Assoziativgesetz ist ein unverzichtbarer Begleiter bei den allermeisten algebraischen Unternehmungen. Seine Wirkung können wir so zusammenfassen:
Wir dürfen Klammern weglassen.
Da nämlich a ⴰ (b ⴰ c) = (a ⴰ b) ⴰ c für alle Elemente einer Halbgruppe gilt, können wir
kurz a ⴰ b ⴰ c schreiben. Allgemein gilt (s ⴰ t) ⴰ u = s ⴰ (t ⴰ u) für alle Terme s, t, u, sodass
wir einfach s ⴰ t ⴰ u oder s t u schreiben können. Ein Term ist dabei ein aus Variablen,
dem Operationszeichen und Klammern aufgebauter Ausdruck wie (a ⴰ a) ⴰ (b ⴰ (c ⴰ a)).
Beispiel
In Halbgruppen ist a ⴰ b ⴰ c ⴰ d unzweideutig, da
((a ⴰ b) ⴰ c) ⴰ d = (a ⴰ b) ⴰ (c ⴰ d) = a ⴰ (b ⴰ (c ⴰ d)) = a ⴰ ((b ⴰ c) ⴰ d) = …
Wir führen ein:
Potenzen und Produkte
Ist H eine Halbgruppe, so definieren wir für alle a, a1 , …, an ∈ H und n ≥ 1 rekursiv:
a1 = a, an + 1 = an ⴰ a,
∏ 1 ≤ k ≤ 1 ak = a1 , ∏ 1 ≤ k ≤ n + 1 ak = (∏ 1 ≤ k ≤ n ak ) ⴰ an + 1 .
Induktiv zeigt man die folgenden Potenzregeln:
(an )m = amn , an am = an + m für alle a ∈ H und n, m ≥ 1.
Beispiele
a2 ⴰ b2 = a ⴰ a ⴰ b ⴰ b, (a ⴰ b)2 = a ⴰ b ⴰ a ⴰ b.
(Potenzen)
(Produkt)
46
2. Algebraische Strukturen
2. 2 Monoide
Definition (Monoid, neutrales Element)
Eine Halbgruppe (M, ⴰ) heißt Monoid, falls gilt:
Es gibt ein e ∈ M, sodass für alle a ∈ M gilt : a ⴰ e = e ⴰ a = a.
(Existenz eines neutralen Elements)
Ein derartiges e heißt ein neutrales Element des Monoids.
Monoide sind also Halbgruppen, die
ein zusätzliches Axiom erfüllen: Die Tafel von ⴰ enthält eine triviale Zeile und
Spalte. So unscheinbar die Eigenschaft
ⴰ
e
a
b
c
…
e
e
a
b
c
…
a
a
aⴰa
aⴰb
aⴰc
…
a ⴰ e = e ⴰ a = a für alle a ∈ A
b
b
bⴰa
bⴰb
bⴰc
…
c
c
cⴰa
cⴰb
cⴰc
…
…
…
…
…
…
…
sein mag, so wichtig ist die Existenz eines
„nichts verändernden“ oder „neutralen“
Elements für alles Weitere. Eine wichtige Beobachtung ist:
Ein neutrales Element e in der Verknüpfungstafel der Operation
Eindeutigkeit des neutralen Elements
Sind e und e′ neutrale Elemente eines Monoids (M, ⴰ), so gilt e = e′.
Sind nämlich e und e′ neutral, so gilt e = e ⴰ e′ = e′, wobei wir beim ersten Gleichheitszeichen die Neutralität von e′ verwenden und beim zweiten die Neutralität von e. Wir können also fortan schreiben:
„Sei e das neutrale Element des Monoids (M, ⴰ).“
Zeichenwahl für das neutrale Element
Das Zeichen für das neutrale Element eines Monoids ist prinzipiell beliebig. Für die
Operationszeichen ⴰ, ⴱ, ⋅, … wird neben e oft 1 und für das Operationszeichen +
zumeist 0 verwendet.
In Monoiden können wir die für Halbgruppen erklärte Potenzierung erweitern:
Der Exponent Null und das leere Produkt
Ist M ein Monoid mit neutralem Element e, so setzen wir für alle a ∈ M:
a0 = e, ∏ 1 ≤ k ≤ 0 ak = e.
Die Regeln (an )m = amn und an am = an + m gelten nun für alle a ∈ M und n, m ∈ ⺞. Es gilt
∏ 1 ≤ k ≤ n a = an . Da das leere Produkt e ist, ist hier auch n = 0 zulässig.
Für Monoide wie (⺞, ⋅) und (⺢, ⋅) mit neutralem Element 1 gilt nach Definition wie gewohnt a0 = 1 für alle a, einschließlich 00 = 1.
2.2 Monoide
47
Beispiele
(1) ⺞, ⺪, ⺡, ⺢, ⺓ mit der Addition + sind Monoide mit neutralem Element 0.
Gleiches gilt für die Multiplikation, wobei dann 1 neutral ist.
(2) ⺞* = ⺞ − { 0 } ist mit der Multiplikation ein Monoid mit neutralem Element 1.
(3) ⺞* ist mit der Addition eine Halbgruppe, aber kein Monoid.
(4) Ist e beliebig, so ist { e } ein Monoid, wenn wir e ⴰ e = e definieren.
(5) Ist H eine Halbgruppe und e ∉ H, so können wir die Operation auf H zu einer
Operation auf M = H ∪ { e } fortsetzen, indem wir definieren:
a ⴰ e = e ⴰ a = a für alle a ∈ M.
Dann ist M ein Monoid mit neutralem Element e.
(6) Ist A eine Menge und M = { f | f : A → A }, so ist (M, ⴰ) ein Monoid. Das
neutrale Element ist die Identität idA : A → A.
(7) Seien M1 , M2 Monoide mit den neutralen Elementen e1 bzw. e2 . Dann ist das
Produkt M = M1 × M2 der Halbgruppen M1 und M2 ein Monoid mit neutralem
Element (e1 , e2 ) (vgl. 2. 1).
(8) Sei (M, ⋅) ein Monoid mit neutralem Element e. Dann definieren wir eine
Operation ⴰ auf der Potenzmenge P(M) = { A | A ⊆ M } von M durch
A ⴰ B = { a ⋅ b | a ∈ A und b ∈ B } für alle A, B ⊆ M.
Dann ist (P(M), ⴰ) ein Monoid mit neutralem Element { e }.
(9) Für jede Menge M ist (P(M), ∪) ein Monoid mit neutralem Element ∅ und
(P(M), ∩) ein Monoid mit neutralem Element M.
Das folgende Beispiel zeigt, dass es nicht genügt, lediglich die Existenz eines einseitig
neutralen Elements e mit
„a ⴰ e = a für alle a ∈ M“ oder „e ⴰ a = a für alle a ∈ M“
in der Definition eines Monoids zu fordern.
Beispiel
Auf der Menge H = { 0, 1 } definieren wir:
0 ⴰ 0 = 1 ⴰ 0 = 0, 0 ⴰ 1 = 1 ⴰ 1 = 1
ⴰ
0
1
0
0
1
nach der Devise „der zweite Faktor setzt
sich durch“. Dann ist (H, ⴰ) eine Halb1
0
1
gruppe, aber kein Monoid, denn weder
0 noch 1 sind neutral. Für alle a ∈ H gilt
0 ⴰ a = a und 1 ⴰ a = a, sodass 0 und 1 sog. linksneutrale Elemente sind. Analoges
gilt für die Operation „der erste Faktor setzt sich durch“.
48
2. Algebraische Strukturen
2. 3 Gruppen
Definition (Gruppe, inverse Elemente)
Ein Monoid (G, ⴰ) heißt eine Gruppe, falls für das neutrale Element e von G gilt:
Für alle a ∈ G existiert ein b ∈ G mit a ⴰ b = b ⴰ a = e.
(Existenz inverser Elemente)
Gilt a ⴰ b = b ⴰ a = e, so heißt b invers zu a.
Gruppen sind also Monoide, die
ein weiteres Axiom erfüllen: Jede
Zeile und Spalte der Operationstafel
enthält spiegelsymmetrisch einen
Eintrag e. Wie für das neutrale Element eines Monoids gilt:
Eindeutigkeit des Inversen
Sind b und b′ invers zu a in der
Gruppe G, so gilt b = b′.
Denn sind b und b′ invers zu a, so ist
b = e ⴰ b = b′ ⴰ a ⴰ b = b′ ⴰ e = b′.
Damit können wir definieren:
−1
Die Inversennotation a
In einer Gruppe bezeichnen wir
das eindeutig bestimmte Inverse
von a mit a−1 .
ⴰ
e
a
b
c
…
e
e
a
b
c
…
a
a
b
b
c
c
…
…
e
…
e
…
…
…
e
…
…
…
Nach Definition einer Gruppe taucht in jeder
Zeile und jeder Spalte mindestens einmal das
neutrale Element e des Monoids in spiegelsymmetrischer Weise auf. Stärker gilt, dass e
jeweils genau einmal auftaucht und dass auf die
Forderung des spiegelsymmetrischen Auftretens verzichtet werden kann (vgl. den vereinfachten Nachweis der Gruppenaxiome unten).
Um b = a−1 für Elemente a,b einer Gruppe zu zeigen, genügt der Nachweis von a ⴰ b = e.
Denn dann ist b = e ⴰ b = a−1 ⴰ a ⴰ b = a−1 ⴰ e = a−1 . Ebenso folgt aus b ⴰ a = e, dass b = a−1 .
In Gruppen können wir die Potenzierung erneut erweitern:
Negative Exponenten
Ist G eine Gruppe, so setzen wir a−n = (a−1 )n für alle a ∈ G und n ∈ ⺞.
Die Potenzregeln aus 2.1 und 2.2 gelten nun für alle ganzen Zahlen n,m. Allgemeinere
Exponentiationen aq mit q ∈ ⺡ oder ax mit x ∈ ⺢ sind nur unter zusätzlichen Voraussetzungen möglich und fallen in das Aufgabengebiet der Analysis.
Beispiele
(1) Jede Menge G = { a } mit a ⴰ a = a ist eine Gruppe. Es gilt a = a− 1 = e.
(2) ⺪, ⺡, ⺢, ⺓ sind mit der Addition Gruppen. Ebenso sind ⺡*, ⺢*, ⺓* Gruppen
unter der Multiplikation, wobei der Stern die Entfernung der Null bedeutet.
(3) Ist (G, ⴰ) eine Gruppe, so auch (G, ⴱ), wobei a ⴱ b = b ⴰ a für alle a, b ∈ G.
2.3 Gruppen
49
(4) Für alle n ≥ 1 bildet ⺢n mit der komponenten- oder punktweisen Addition
(x1 , …, x n ) + (y1 , …, yn ) = (x1 + y1 , …, x n + yn ) eine Gruppe. Das Element
(0, …, 0) ist neutral und (−x1 , …, −x n ) ist invers zu (x1 , …, x n ).
(5) Für alle m ≥ 1 bildet ⺪m = ⺪/⬅m unter der Addition [ a ] + [ b ] = [ a + b ] von Restklassen eine Gruppe. ⺪m* = ⺪m − { 0 } bildet unter der Multiplikation
[ a ] ⋅ [ b ] = [ ab ] genau dann eine Gruppe, wenn m eine Primzahl ist.
(6) Sind G1 und G2 Gruppen, so ist auch das Produkt G = G1 × G2 eine Gruppe.
Für alle (a, b) ∈ G gilt (a, b)−1 = (a−1 , b−1 ).
Eine eigene Definition verdient die Erweiterung des Permutationsbegriffs aus 1.5:
Definition (symmetrische Gruppe, Permutationen, SA , Sn )
Seien A eine Menge und SA = { f | f : A → A ist bijektiv }. Dann heißt (SA , ⴰ) die
symmetrische Gruppe oder Permutationsgruppe von A. Jedes Element von SA heißt eine
Permutation auf A. Weiter schreiben wir Sn statt S{ 1, …, n } .
Das neutrale Element von SA ist idA . Für alle f ∈ SA ist die Umkehrfunktion f −1 invers
zu f, sodass die Lesarten von f −1 als Umkehrfunktion oder Inverses übereinstimmen.
Jedes Monoid (M, ⴰ) gibt Anlass zur Definition einer Gruppe: Wir nennen ein a ∈ M
invertierbar, falls es ein b ∈ M gibt mit a ⴰ b = b ⴰ a = e. Dann ist
M× = { a ∈ M | es gibt ein b ∈ M mit a ⴰ b = b ⴰ a = e } (Gruppe der invertierbaren Elemente)
mit der von G ererbten Operation eine Gruppe.
Beispiel
Sei A eine Menge. Dann gilt für das Monoid M = { f | f : A → A } unter Komposition:
{ f ∈ M | es gibt ein g ∈ M mit g ⴰ f = id } = { f ∈ M | f ist injektiv },
{ f ∈ M | es gibt ein g ∈ M mit f ⴰ g = id } = { f ∈ M | f ist surjektiv },
M × = { f ∈ M | f ist invertierbar } = { f ∈M | f ist bijektiv } = SA .
In diesem Zusammenhang ist überraschend:
Vereinfachter Nachweis der Gruppenaxiome
Eine Halbgruppe G ist eine Gruppe, falls gilt:
(G1) Es gibt ein e ∈ G, sodass a ⴰ e = a für alle a ∈ G.
(G2) Ist e wie in (G1), so gilt: Für alle a ∈ G gibt es ein b ∈ G mit a ⴰ b = e.
Sei nämlich e wie in (G1). Ist nun a ∈ G beliebig, so gibt es nach (G2) ein b mit a ⴰ b = e
und ein c mit b ⴰ c = e. Dann gilt b ⴰ a = b ⴰ a ⴰ e = b ⴰ a ⴰ b ⴰ c = b ⴰ e ⴰ c = b ⴰ c = e,
und damit e ⴰ a = a ⴰ b ⴰ a = a ⴰ e = a. Dies zeigt, dass G eine Gruppe ist.
50
2. Algebraische Strukturen
2. 4 Rechenregeln in Gruppen
Satz (Kürzungs- und Inversenregeln)
Sei (G , ⴰ) eine Gruppe. Dann gelten für alle a, b, c ∈ G:
Kürzungsregeln
a ⴰ b = a ⴰ c impliziert b = c,
b ⴰ a = c ⴰ a impliziert b = c.
Lösbarkeit von Gleichungen
Die Gleichungen
a ⴰ x = b bzw. x ⴰ a = b
sind eindeutig lösbar durch
x = a−1 ⴰ b bzw. x = b ⴰ a−1 .
Inversenregeln
(a−1 ) −1 = a, (a ⴰ b) −1 = b−1 ⴰ a−1 .
(x ⴰ a)−1 ⴰ b ⴰ c = a−1 ⴰ d ⴰ c
(x ⴰ a)−1 ⴰ b = a−1 ⴰ d
Kürzen von c
a−1 ⴰ x−1 ⴰ b = a−1 ⴰ d
Inversenregel
x−1 ⴰ b = d
Kürzen von a−1
b = xⴰd
Mult. mit x von links
b ⴰ d −1 = x
Mult. mit d−1 von rechts
Schrittweises Auflösen einer gegebenen Gleichung (erste Zeile) nach x in einer Gruppe.
Rechts steht eine Begründung für den gerade
Diese Regeln sind ständig im Einsatz.
Ihre Beweise sind kurz und instruktiv.
durchgeführten Schritt.
Beweis der Kürzungsregeln
Gilt a ⴰ b = a ⴰ c, so gilt a−1 ⴰ a ⴰ b = a−1 ⴰ a ⴰ c und damit e ⴰ b = e ⴰ c und damit b = c.
Das Argument können wir kurz so zusammenfassen:
Multiplizieren der Gleichung „a ⴰ b = a ⴰ c“ mit a−1 von links entfernt das a.
Dies erklärt auch den Namen „Kürzungsregel“. Analoges gilt für die zweite Regel.
Beweis der eindeutigen Lösbarkeit von Gleichungen
Einsetzen von a−1 ⴰ b für x zeigt, dass eine Lösung von a ⴰ x = b vorliegt. Gilt umgekehrt a ⴰ y = b für ein y, so zeigt die Multiplikation mit a−1 von links, dass y = a−1 ⴰ b.
Analoges gilt für die zweite Gleichung.
Beweis der Inversenregeln
Für die erste Regel beobachten wir, dass für alle a ∈ G gilt:
a−1 ⴰ a = a ⴰ a−1 = e,
sodass a das eindeutige Inverse von a−1 ist. Damit ist a = (a−1 )−1 . Eine doppelte Invertierung darf man also streichen. Das Inverse des Inversen von a ist a.
Die zweite Regel folgt aus
(a ⴰ b) ⴰ (b−1 ⴰ a−1 ) = a ⴰ b ⴰ b−1 ⴰ a−1 = a ⴰ e ⴰ a−1 = a ⴰ a−1 = e.
Der Leser beachte, dass sich die Reihenfolge beim Invertieren umkehrt. Das folgende Beispiel (2) zeigt, dass dies beachtet werden muss.
2. 4 Rechenregeln in Gruppen
51
Beispiele
(1) Sei (G, ⴰ) eine Gruppe und a, b, c ∈G. Dann gilt:
(a ⴰ b−1 )−1 = (b−1 )−1 ⴰ a−1 = b ⴰ a−1 ,
(a ⴰ b ⴰ c)−1 = (a ⴰ (b ⴰ c))−1 = (b ⴰ c)−1 ⴰ a−1 = c−1 ⴰ b−1 ⴰ a−1 .
(2) Sei S3 die symmetrische Gruppe auf { 1, 2, 3 }, und seien a = (2, 3, 1), b = (1, 3, 2)
und c = a ⴰ b = (2, 1, 3) (vgl. 1. 5 zur Notation und 2. 3 zu Sn ). Dann gilt
a−1 = (3, 1, 2), b−1 = b, c−1 = c = b−1 ⴰ a−1 , a−1 ⴰ b−1 = (3, 2, 1).
Also gilt (a ⴰ b)−1 = c−1 = c ≠ a−1 ⴰ b−1 .
Die eindeutige Lösbarkeit von Gleichungen führt zu einer bemerkenswerten kombinatorischen Eigenschaft der Operationstafel einer Gruppe (Gruppentafel):
Bijektivität der Translationen
Ist G eine Gruppe und a ∈ G, so ist die Linkstranslation ᐉa : G → G bijektiv, wobei
ᐉa (b) = a ⴰ b für alle b ∈ G.
Gleiches gilt für die Rechtstranslation ra : G → G mit ra (b) = b ⴰ a für alle b ∈ G.
Anschaulich interpretiert bedeutet dies:
In den Zeilen und Spalten einer Gruppentafel stehen Permutationen von G.
Umgekehrt gilt:
Charakterisierung von Gruppen
Eine Halbgruppe H ≠ ∅ ist genau dann eine Gruppe, wenn alle ᐉa : H → H und
ra : H → H bijektiv sind. Zudem kann „bijektiv“ durch „surjektiv“ ersetzt werden.
Beispiele
(1) Sei V = { e, a, b, c } mit paarweise verschiedenen e, a, b, c. Wir definieren ⴰ
auf V durch die Tafel rechts. Man
überprüft, dass ⴰ assoziativ ist. Da in
den Zeilen und Spalten Permutationen stehen, ist V eine Gruppe. Sie
heißt die Kleinsche Vierergruppe.
ⴰ
e
a
b
c
e
e
a
b
c
a
a
e
c
b
b
b
c
e
a
c
c
b
a
e
(2) In der Tafel rechts stehen in allen Zeilen
und Spalten Permutationen, aber die
Operation ist nicht assoziativ, da
ⴰ
1
2
3
1
3
2
1
(1 ⴰ 1) ⴰ 2 = 3 ⴰ 2 = 1, 1 ⴰ (1 ⴰ 2) = 1 ⴰ 2 = 2.
2
1
3
2
3
2
1
3
Es liegt also keine Halbgruppe und damit auch keine Gruppe vor.
52
2. Algebraische Strukturen
2. 5 Kommutative Operationen
Definition (kommutative Operation, abelsche Struktur)
Eine Operation ⴰ : M2 → M auf einer Menge M heißt kommutativ, falls gilt:
a ⴰ b = b ⴰ a für alle a, b ∈ M.
(Kommutativgesetz)
Wir nennen dann (H, ⴰ) kommutativ oder abelsch.
Dem Gesetz entspricht erneut
eine anschauliche Eigenschaft der
Operationstafel: Es gilt genau dann,
wenn die Tafel symmetrisch ist, d. h.
die Spiegelung an der Diagonalen
die Tafel nicht ändert.
ⴰ
a
b
c
…
a
a2
aⴰb
aⴰc
…
bⴰc
…
2
b
aⴰb
b
c
aⴰc
bⴰc
c2
…
…
…
…
…
…
Beispiele
(1) Die Monoide
(⺞, +), (⺪, +), (⺡, +), (⺢, ⋅), (⺢*, ⋅)
sind kommutativ. Die Restklassengruppen (⺪m , +) und (⺪m*, ⋅) sind abelsch für
alle m ≥ 1. Ebenso ist die Kleinsche Vierergruppe V = { e, a, b, c } abelsch.
(2) Sind H1 und H2 kommutative Halbgruppen, so auch H1 × H2 .
(3) Eine Permutationsgruppe SA ist genau dann abelsch, wenn A höchstens zwei
Elemente hat. Für die Gruppe S3 gilt zum Beispiel
(2, 3, 1) ⴰ (1, 3, 2) = (2, 1, 3), (1, 3, 2) ⴰ (2, 3, 1) = (3, 2, 1).
Eine kommutative Operation bringt viele Vereinfachungen mit sich. In Analogie zum
Assoziativgesetz können wir die Wirkung der Kommutativität so zusammenfassen:
Wir dürfen beliebig umordnen.
In einer kommutativen Halbgruppe gilt beispielsweise
(a ⴰ b)2 = a ⴰ b ⴰ a ⴰ b = a ⴰ a ⴰ b ⴰ b = a2 ⴰ b2 .
Beim zweiten „=“ wird die Kommutativität b ⴰ a = a ⴰ b benutzt. Gilt sie nicht, so ist das
„Reinziehen“ des Exponenten in der Regel nicht erlaubt. Dies ist auch die einzige Schwierigkeit, die das Gesetz bereitet: Man darf es nicht anwenden, wenn es nicht gilt.
Allgemein gilt:
Potenzierung in kommutativen Strukturen
Ist H eine kommutative Halbgruppe, so gilt:
(a ⴰ b)n = an ⴰ bn für alle a, b und n ≥ 1.
Ist H ein Monoid oder eine Gruppe, so gilt dies für alle n ∈ ⺞ bzw. alle n ∈ ⺪.
2. 5 Kommutative Operationen
53
Beispiel
In einer abelschen Gruppe G gilt
(a ⴰ b)−1 = a−1 ⴰ b−1 für alle a, b ∈ G.
Der Leser vergleiche dies mit dem Gegenbeispiel für die S3 in Abschnitt 2.4.
In kommutativen Strukturen sind spezielle Notationen üblich. Die drei folgenden Bemerkungen stellen das Wichtigste hierzu zusammen.
Verwendung des Additionszeichen
Das Additionszeichen + wird ausschließlich für kommutative Operationen verwendet. Andere Operationszeichen wie ⴰ, ⴱ, ⋅ können sowohl für kommutative als auch
für nichtkommutative Operationen verwendet werden.
Notationen für das Pluszeichen
In additiv notierten (und also kommutativen) Strukturen schreiben wir
n a statt an ,
(Vervielfachung)
−1
(additive Inverse)
− a statt a ,
a − b statt a + (− b),
∑ 1 ≤ k ≤ n ak statt ∏ 1 ≤ k ≤ n ak ,
(Subtraktion)
∑ 1 ≤ k ≤ 0 ak = 0.
(Summe)
Notationen für ein kommutatives Multiplikationszeichen
In abelschen Gruppen (G, ⋅) mit neutralem Element 1 schreiben wir auch
1/a statt a−1 ,
(Bruchnotation)
a/b statt a ⋅ 1/b.
(Division)
Unsere Rechengesetze lassen sich mit den neuen Notationen umschreiben. Wir geben
exemplarisch einige Übersetzungen an.
Beispiele
(1) In einer abelschen Gruppe (G, + ) gilt für alle a, b ∈ G und n, m ∈ ⺪:
m (na) = (m n) a, na + ma = (n + m) a, n (a + b) = na + nb,
− (− a) = a, − (a + b) = − b − a = − a − b.
(2) In einer abelschen Gruppe (G, ⋅) mit neutralem Element 1 gilt für alle a, b ∈ G:
1
= a,
1/a
a
= 1,
a
1
=
a/b
b
a
1
=
ab
1
1
⋅
a
b
=
1
1
⋅
,
a
b
(da (a b−1 )−1 = b a−1 , vgl. 2. 4).
54
2. Algebraische Strukturen
2. 6 Untergruppen
Definition (Untergruppe)
Sei (G, ⴰ) eine Gruppe, und sei H ⊆ G. Dann heißt H eine Untergruppe von G, falls
H zusammen mit der Operation von G eine Gruppe bildet, d. h. falls (H, ⴰ|H 2 ) eine
Gruppe ist.
Zu jeder algebraischen Struktur
gibt es Unterstrukturen, und wir
könnten auch Unterhalbgruppen und
Untermonoide betrachten. Wir beschränken uns hier auf Gruppen.
Ist (H, ⴰ|H2 ) eine Gruppe, so gilt
ⴰ|H2 : H2 → H und damit
G
H
b
a
a ⴰ b−1
a ⴰ b ∈ H für alle a, b ∈ H.
Eine Untergruppe H ist also abgeschlossen unter ⴰ (vgl. 1. 8).
Je nach Kontext fassen wir eine Untergruppe H von G als Teilmenge von
G oder als vollwertige Gruppe auf.
Illustration des Untergruppenkriteriums:
Eine nichtleere Teilmenge H einer Gruppe
ist genau dann eine Untergruppe, wenn für
je zwei Elemente a und b in H auch a ⴰ b−1
ein Element von H ist.
Beispiele
Wir betrachten die abelsche Gruppe (⺪, +).
(1) H = { 2a + 1 | a ∈ ⺪ } ist nicht abgeschlossen unter +, da 1 + 1 ∉ H. Also ist
+|H2 keine Operation auf H und damit H keine Untergruppe von ⺪.
(2) ⺞ ⊆ ⺪ ist abgeschlossen unter +, da n + m ∈ ⺞ für alle n, m ∈ ⺞.
Aber ⺞ ist keine Untergruppe von ⺪, da (⺞, +) keine Gruppe ist.
(3) H = { 2a | a ∈ ⺪ } ist abgeschlossen unter +. Die Operation + ist nach wie
vor assoziativ, 0 ∈ H ist neutral und −2a ∈ H ist invers zu 2a ∈ H. Also ist H
eine Untergruppe von ⺪.
Das folgende Kriterium erleichtert den Nachweis, ob eine Menge H ⊆ G eine Untergruppe bildet oder nicht.
Untergruppenkriterium
H ⊆ G ist genau dann eine Untergruppe von G, wenn gilt:
(UG1) H ≠ ∅.
(UG2) Für alle a, b ∈ H ist a ⴰ b−1 ∈ H.
2.6 Untergruppen
55
Beispiele
(1) ⺪ ist eine Untergruppe von (⺡, +), ⺡ ist eine Untergruppe von (⺢, +) und ⺢ ist
eine Untergruppe von (⺓, +).
(2) Für jede Gruppe G sind { e } und G die sog. trivialen Untergruppen von G.
(3) { (x1 , x2 , 0) | x1 , x2 ∈ ⺢ } ist eine Untergruppe von (⺢3 , +).
(4) Wir betrachten noch einmal die Gruppe (⺪, +). Sei m ∈ ⺞ und
m⺪ = { m a | a ∈ ⺪ } = { a m | a ∈ ⺪ } = ⺪m
die Menge der ganzzahligen Vielfachen von m. Dann ist m⺪ ≠ ∅ und es gilt
a m − b m = (a − b) m ∈ m ⺪ für alle a m, b m ∈ m⺪.
Nach dem Untergruppenkriterium ist also m⺪ eine Untergruppe von (⺪, +).
Man kann zeigen, dass alle Untergruppen von (⺪, +) von der Form m⺪ sind.
Die Beweisidee ist: Ist H ≠ { 0 } eine Untergruppe von (⺪, +), so setzen wir
m = min a ∈ H, a ≠ 0 |a|.
Aus den Abgeschlossenheitseigenschaften von H folgt a m ∈ H für alle a ∈ ⺪.
Also ist m⺪ ⊆ H. Eine Division mit Rest zeigt, dass es kein b ∈ H − m⺪ gibt:
Ansonsten wäre b = a m + c für ein 0 < c < m und damit c = b − am ∈ H.
Also ist H = m⺪.
(5) Seien G eine Gruppe und a ∈ G. Dann ist der Abschluss
〈 a 〉 = { an | n ∈ ⺪ }
der Menge { a } unter der Gruppenoperation eine Untergruppe von G (vgl. 1. 8).
Denn es gilt a0 = e ∈ 〈 a 〉 und für alle an , bm ∈ 〈 a 〉 ist
an ⴰ (am )−1 = an ⴰ a− m = an − m ∈ 〈 a 〉.
Allgemein definieren wir (mit den Begriffsbildungen aus 1. 8):
Definition (erzeugte Untergruppe, zyklisch)
Sei G eine Gruppe und A ⊆ G. Dann heißt der Abschluss 〈 A 〉 von A unter ⴰ die von
A erzeugte Untergruppe. Gilt G = 〈 A 〉, so wird G von A erzeugt. G heißt zyklisch, falls
G von einem Element a erzeugt wird, d. h., es gibt ein a mit 〈 a 〉 = G.
Jede zyklische Gruppe G = 〈 a 〉 ist abelsch, da an am = am + n = am an für alle n, m ∈ ⺪.
Beispiele
(1) Für (⺪, +) und m ∈ ⺞ gilt 〈 m 〉 = 〈 − m 〉 = { a m | a ∈ ⺪ } = m⺪.
(2) Die Kleinsche Vierergruppe V = { e, a, b, c } ist abelsch, aber nicht zyklisch, da
〈 e 〉 = { e }, 〈 a 〉 = { e, a }, 〈 b 〉 = { e, b }, 〈 c 〉 = { e, c }.
56
2. Algebraische Strukturen
2. 7 Normalteiler und Faktorgruppen
Definition (Nebenklassen, Normalteiler, Faktorgruppe)
Seien G eine Gruppe und H eine Untergruppe von G.
Äquivalenzrelationen und Nebenklassen bzgl. H
Wir definieren zwei Äquivalenzrelationen ⬃ und ⬇ auf G durch
a ⬃ b,
falls
b a−1 ∈ H,
a ⬇ b,
falls
a−1 b ∈ H
für alle a, b ∈ G.
Für alle a ∈ G heißen
a/⬃ = H a = { ha | h ∈ H } die H-Links- oder a-Rechtsnebenklasse und
a/⬇ = a H = { ah | h ∈ H } die H-Rechts- oder a-Linksnebenklasse
von a in G bzgl. H.
Normalteiler
Die Untergruppe H heißt ein Normalteiler von G, falls ⬃ = ⬇, d. h., falls
aH = Ha für alle a ∈ G.
(Normalteiler-Bedingung)
Wir nennen dann aH = Ha die Nebenklasse von a in G bzgl. H und definieren
G/H = { aH | a ∈ G } und eine Operation ⋅ : (G/H)2 → G/H durch
aH ⋅ bH = (a b) H für alle aH, bH ∈ G/H.
Schließlich heißt (G/H, ⋅) die Faktorgruppe von G bzgl. H.
Jede Untergruppe H von G induziert zwei Äquivalenzrelationen ⬃
und ⬇ auf G. Für alle a, b ∈ G sind
äquivalent:
aH
H
G
e
(1) b a−1 ∈ H.
a
(2) Es gibt ein h ∈ H mit b a−1 = h.
(3) Es gibt ein h ∈ H mit b = h a.
(4) b ∈Ha = { ha | h ∈ H }.
Die Relation ⬇ zerlegt G in Äquivalenzklassen aH. Alle Äquivalenzklassen sind gleich-
mächtig (Satz von Lagrange).
Dies zeigt, dass a/⬃ = Ha. Analog
gilt a/⬇ = aH.
Für Normalteiler ist ⬃ = ⬇. Es gilt dann aH = Ha für alle a ∈ G oder gleichwertig
a b a−1 ∈ H für alle a ∈ G und b ∈ H.
(Normalteiler-Bedingung, Umformulierung)
Nicht jede Untergruppe ist ein Normalteiler:
2. 7 Normalteiler und Faktorgruppen
57
Beispiel
(1) Für jede Gruppe G sind die trivialen Untergruppen { e } und G Normalteiler.
(2) Ist die Gruppe G abelsch, so gilt
a H = { a h | h ∈ H } = { h a | h ∈ H } = H a.
Damit ist jede Untergruppe einer abelschen Gruppe ein Normalteiler.
(3) Die Untergruppe H = { (1, 2, 3), (1, 3, 2) } von S3 ist kein Normalteiler, da
(3, 2, 1) H = { (3, 2, 1) ⴰ (1, 2, 3), (3, 2, 1) ⴰ (1, 3, 2) } = { (3, 2, 1), (3, 1, 2) },
H (3, 2, 1) = { (1, 2, 3) ⴰ (3, 2, 1), (1, 3, 2) ⴰ (3, 2, 1) } = { (3, 2, 1), (2, 3, 1) }.
Dagegen ist H′ = { (1, 2, 3), (2, 3, 1), (3, 1, 2) } ein Normalteiler der S3 .
Für einen Normalteiler H kann auf der Menge der Nebenklassen
G/H = { aH | a ∈ G } = { Ha | a ∈ G }
eine Operation erklärt werden: aH ⋅ bH = (ab)H. Dass H ein Normalteiler ist, ist wichtig:
Beispiel
Für H ⊆ S3 wie oben würde aH ⋅ bH = (ab) H implizieren, dass
(3, 2, 1) H ⋅ (3, 2, 1)H = (1, 2, 3)H = H ≠ (2, 3, 1)H = (3, 1, 2) H ⋅ (3, 1, 2)H,
obwohl (3, 2, 1)H = { (3, 2, 1), (3, 1, 2) } = (3, 1, 2)H. Mit anderen Worten:
(ab)H hängt von der Wahl von a, b und nicht nur von aH und bH ab, sodass − wie
man in solchen Situationen sagt − die Multiplikation nicht wohldefiniert ist.
Ist H ein Normalteiler von G, so ist G/H eine Gruppe. Die Nebenklasse eH = H ist
neutral und das Inverse von aH ist a−1 H. Im Allgemeinen ist (ab)H ≠ (ba)H, sodass die
Faktorgruppe G/H nicht notwendig abelsch ist.
Für additiv notierte Gruppen (G, +) haben Nebenklassen die Gestalt
a + H = { a + h | h ∈ H } = { h + a | h ∈ H } = H + a.
In dieser Form werden sie uns auch in der Vektorraumtheorie begegnen (vgl. 3. 11, 4. 5).
Beispiel
Für alle m ≥ 1 ist m⺪ ein Normalteiler von (⺪, +). Es gilt:
⺪/m⺪ = { a + m⺪ | a ∈ ⺪ } = { [ a ]m | a ∈ ⺪ } = ⺪m .
Allgemeine Normalteiler und ihre Faktorgruppen G/H werden wir im Homomorphiesatz noch einmal betrachten (vgl. 4. 4). In der Algebra spielen sie eine Schlüsselrolle bei
der Klassifikation von endlichen Gruppen und der Untersuchung der Frage, ob polynomielle Gleichungen durch Wurzelziehen lösbar sind.
58
2. Algebraische Strukturen
2. 8 Ringe
Definition (Ring, kommutativer Ring, Nullteilerfreiheit)
Sei R eine Menge, und seien + : R2 → R und ⋅ : R2 → R Operationen auf R.
Dann heißt das Tripel (R, + , ⋅) ein Ring (mit 1), falls gilt:
(a) (R, +) ist eine abelsche Gruppe.
(b) (R, ⋅) ist ein Monoid.
(c) Für alle a, b, c ∈ R gilt:
a(b + c) = ab + ac, (a + b) c = ac + bc.
(Distributivgesetze)
Ein Ring R heißt kommutativ, wenn ⋅ kommutativ ist. Er heißt nullteilerfrei, falls
a ⋅ b = 0 impliziert a = 0 oder b = 0 für alle a, b ∈ R.
(Nullteilerfreiheit)
Ein a ∈ R heißt invertierbar oder eine Einheit, wenn es ein b gibt mit ab = ba = 1. Die
multiplikative Gruppe aller Einheiten in R wird mit R× bezeichnet.
Ringe sind unsere erste algebraische Struktur, bei der mehr als eine
Operation vorhanden ist. Ein Ring
ist ausgestattet mit einer (kommutativen) Addition und einer (nicht
notwendig kommutativen) Multiplikation. Die Distributivgesetze
verbinden die beiden Operationen.
11
0
10
1
2
⺪12 mit
[ a ] + [ b ] = [ a + b ],
9
8
3
4
[ a ] ⋅ [ b ] = [ ab ]
ist ein Ring.
7
5
Konventionen
6
„Mal“ bindet stärker als „Plus“,
der Malpunkt kann weggelassen werden, 0 ist das neutrale Element von (R, +), 1 das neutrale Element von (R, ⋅).
Rechenregeln in Ringen
a 0 = 0 = 0 a, (− a) b = − (a b) = a (− b), (− a)(− b) = a b.
Diese Regeln ergeben sich aus den Beobachtungen:
a 0 = a (0 + 0) = a 0 + a 0, sodass 0 = a 0,
(analog für 0 a)
0 = (a − a) b = a b + (−a) b, sodass −(a b) = (−a)b,
(analog für a(−b)),
(−a)(−b) = −(a (−b)) = − − (a b) = ab.
Die Distributivgesetze schreiben also den Wert für die Multiplikation mit 0 vor und erzwingen „Minus mal Minus gleich Plus“.
2.8 Ringe
59
Warnung
Die Regel (−a) b = −(a b) kann nicht mit dem Assoziativgesetz begründet werden:
Das Argument „man darf beliebig Klammern setzen“ ist hier nicht korrekt, da das
Minuszeichen kein Element von R ist, sondern additiv Inverse bezeichnet.
Beispiele
(1) R = { 0 } mit 0 + 0 = 0 und 0 ⋅ 0 = 0 ist der sog. Nullring oder triviale Ring.
Er ist der einzige Ring, der 1 = 0 erfüllt.
(2) ⺪, ⺡, ⺢, ⺓ (mit + und ⋅ wie üblich) sind kommutative nullteilerfreie Ringe.
In ⺪ sind genau die Elemente 1 und −1 Einheiten, sodass ⺪ × = { −1, 1 }.
(3) Für alle m ≥ 1 bildet ⺪m mit [ a ] + [ b ] = [ a + b ] und [ a ] ⋅ [ b ] = [ ab ] einen Ring
mit 0 = [ 0 ] und 1 = [ 1 ]. ⺪1 ist der Nullring. Ist m = ab, so gilt [ a ] ⋅ [ b ] = [ 0 ] = 0.
Also ist ⺪m genau dann nullteilerfrei, wenn m = 1 oder m prim ist.
(4) Ist M eine Menge, so ist (P(M), Δ, ∩) mit der symmetrischen Differenz
A Δ B = (A − B) ∪ (B − A) für alle A, B ⊆ M
als Addition ein kommutativer Ring mit 0 = ∅, 1 = M, − A = Ac für alle A ⊆ M.
(5) Sind R1 und R2 Ringe, so ist R = R1 × R2 mit den Produktoperationen ein Ring.
Wichtige nichtkommutative Ringe werden wir in Kapitel 5 kennenlernen.
Weitere Rechenregeln in Ringen
Für alle kommutierenden a, b ∈ R (d. h. ab = ba) und alle n ∈ ⺞ gilt:
an − bn = (a − b) (an − 1 + an − 2 b1 + … + a1 bn − 2 + bn − 1 ) =
(an − 1 + an − 2 b1 + … + a1 bn − 2 + bn − 1 ) (a − b),
an − 1 = (a − 1) (a0 + a1 + … + an − 2 + an − 1 ) =
(a0 + a1 + … + an − 2 + an − 1 ) (a − 1),
(a + b)n = ∑ 0 ≤ k ≤ n
n
k
an − k b k .
(Binomischer Lehrsatz)
Die erste Regel kann durch Ausmultiplizieren bewiesen werden, die zweite folgt durch
Setzen von b = 1 aus der ersten. Der binomische Lehrsatz lässt sich durch Induktion nach
n zeigen. Der Leser wird vielleicht erkennen, dass die zweite Regel die Formel für die endliche geometrische Reihe in ⺢ oder ⺓ liefert:
∑ k ≤ n ak =
1 − an + 1
1 − a
für alle a ∈ ⺢ bzw. alle a ∈ ⺓ mit a ≠ 1.
60
2. Algebraische Strukturen
2. 9 Körper
Definition (Divisionsbereich, Schiefkörper, Körper)
Ein Ring (K, +, ⋅) heißt ein Divisionsbereich oder Schiefkörper, falls für K* = K − { 0 } gilt:
(K*, ⋅) ist eine Gruppe
(wobei (K*, ⋅) wieder kurz für (K*, ⋅|K* 2 ) steht).
Ist der Ring zudem kommutativ, so heißt (K, +, ⋅) ein Körper.
Ein Körper ist also ein kommutativer nichttrivialer Ring, in
dem alle von Null verschiedenen Elemente Einheiten sind,
d. h., es gilt K× = K* = K − { 0 }.
Die Sonderbehandlung der 0
ist unvermeidlich: Würde ein
multiplikatives Inverses 0−1 der
0 existieren, so würde gelten:
0 = 0⋅0
−1
= 1.
15
16
14
⺪17 mit
0
[ a ] + [ b ] = [ a + b ],
1
13
[a] ⋅ [b] = [ab]
2
12
3
ist ein Körper. Es gilt
zum Beispiel
[ 5 ] ⋅ [ 7 ] + [ 16 ] =
11
4
10
5
9
8
6
[ 35 ] + [ 16 ] =
[ 1 ] + [ 16 ] =
7
[ 17 ] = [ 0 ] = 0.
Beim ersten „=“ verwenden wir
die in allen Ringen gültige Regel 0a = 0 und beim zweiten
„=“ die Definition des multiplikativen Inversen. Damit kann die Null nur im Nullring { 0 } invertierbar sein!
Wir fassen den Körperbegriff noch einmal zusammen. (K, +) erfüllt vier Axiome: Assoziativität, Existenz eines neutralen Elements, Existenz von Inversen, Kommutativität.
Gleiches gilt für (K*, ⋅). Zudem gelten zwei Distributivgesetze. Damit ergeben sich insgesamt zehn Körperaxiome. Automatisch gilt:
Nullteilerfreiheit in Körpern
Für alle a, b ∈ K gilt:
a b = 0 impliziert a = 0 oder b = 0.
Ist nämlich ab = 0 und a ≠ 0, so existiert a−1 , sodass
b = a−1 0 = 0.
In einem Körper K stehen alle vier Grundrechenarten zur Verfügung: +, −, ⋅ : K2 → K
wie in jedem Ring, und zusätzlich auch eine Division / : K × K* → K vermöge
a/b = a b−1
für alle a, b ∈ K mit b ≠ 0.
Die Bruchnotation a/b ist aufgrund der Kommutativität möglich, da a ⋅ 1/b = 1/b ⋅ a (vgl.
auch 2. 5). Es gelten die vertrauten Rechengesetze:
2.9 Körper
61
Rechenregeln in Körpern (Bruchrechnen)
Für alle a, c ∈ K und b, d ∈ K* gilt:
a
c
+
=
b
d
ad + bc
;
bd
a
c
⋅
=
b
d
ac
;
bd
a/b
=
c/d
ad
, falls c ≠ 0.
bc
Beispiele
(1) ⺡, ⺢, ⺓ sind mit den üblichen Operationen Körper. Für alle p ≥ 1 ist der
Restklassenring ⺪p genau dann ein Körper, wenn p eine Primzahl ist; der
Körper ⺪p heißt dann der Restklassenkörper modulo p.
(2) Seien K = { 0, 1 }, + wie in ⺪2 und ⋅ definiert durch a ⋅ b = a für alle a, b ∈ K. Dann
sind (K, +), (K*, ⋅) mit K* = K − { 0 } = { 1 } abelsche Gruppen, aber es gilt nur ein
Distributivgesetz. Damit ist (K, +, ⋅) kein Ring und insbesondere kein Körper.
(3) Auf dem ⺢4 kann eine nichtkommutative Multiplikation ⋅ erklärt werden, sodass
die sog. hamiltonschen Quaternionen ⺘ = (⺢4 , +, ⋅) einen Schiefkörper bilden.
Der Satz von Wedderburn besagt, dass jeder endliche Schiefkörper bereits ein Körper ist.
Damit fallen Schiefkörper und Körper im Endlichen zusammen.
Die Charakteristik eines Körpers
Grob gesprochen ist eine Struktur (K, +, ⋅) ein Körper, wenn die „üblichen Rechenregeln“ gelten. Dabei ist aber Vorsicht geboten. Denn in ⺪p mit einer Primzahl p gilt
1 + … + 1 (p-oft) = [ 1 ] + … + [ 1 ] (p-oft) = [ p ] = 0.
Damit schließen die Körperaxiome nicht aus, dass wir durch Aufsummieren der Eins die
Null erhalten! Dies motiviert:
Definition (Charakteristik eines Körpers)
Sei K ein Körper. Gibt es ein m ≥ 1 mit m1 = ∑ 1 ≤ k ≤ m 1 = 0, so setzen wir
char(K) = „das kleinste m ≥ 1 mit m1 = 0“.
(Charakteristik von K)
Andernfalls setzen wir char(K) = 0.
Ist char(K) ≠ 0, so ist char(K) ≥ 2, da 0 ≠ 1 gilt. Ist nun char(K) = nm mit n, m > 1, so ist
(n m) 1 = (n 1) (m 1) = 0, also n1 = 0 oder m1 = 0, da K nullteilerfrei ist. Nach Minimalität
ist dann also n = 1 oder m = 1. Damit ist char(K) eine Primzahl. Die Restklassenkörper ⺪p
zeigen, dass jede Primzahl als Charakteristik vorkommt. Die Anzahl der Elemente eines
endlichen Körpers muss dagegen keine Primzahl sein. Es gilt:
Klassifikation endlicher Körper
Die Mächtigkeiten endlicher Körper sind genau die Zahlen pn mit p prim und n ≥ 1.
62
2. Algebraische Strukturen
2. 10 Angeordnete Körper
Definition (angeordnete Körper, Betrag, positiv, negativ, anordenbar)
Angeordneter Körper
Sei (K, +, ⋅) ein Körper und ≤ eine lineare Ordnung auf K. Dann heißt (K, +, ⋅, <)
oder kurz K ein angeordneter Körper, falls für alle a, b, c ∈ K gilt:
(a) a < b impliziert a + c < b + c,
(Translationsinvarianz)
(b) 0 < a, b impliziert 0 < ab.
(Positivitätsregel)
Für alle a ∈ K heißt dann
⎧
⎭
a,
falls a ≥ 0,
⎫
|a| =
⎩
− a,
falls a < 0
der Betrag von a. Gilt a > 0, a < 0, a ≥ 0, so heißt a positiv, negativ bzw. nichtnegativ.
Das Vorzeichen sgn(a) ∈ { 1, 0, −1 } von a ist definiert als sgn(a) = 1, falls a > 0,
sgn(0) = 0 und sgn(a) = −1, falls a < 0. Weiter seien
K+ = { a ∈ K | a > 0 } , K +0 = { a ∈ K | a ≥ 0 } .
Anordenbarer Körper
Ein Körper (K, +, ⋅) heißt anordenbar, falls es eine lineare Ordnung auf K gibt,
sodass (K, +, ⋅, <) ein angeordneter Körper ist.
Zu den algebraischen Operationen eines Körpers tritt nun
also noch eine lineare Ordnung.
So wie die Distributivgesetze die
Addition und die Multiplikation
miteinander verbinden, so verbinden die beiden Anordnungsaxiome (a) und (b) die Ordnung
mit der Arithmetik.
Für alle a, b ∈ K gelten:
−a
−1
0
1
a
1 < a impliziert −a < −1
In einem angeordneten Körper gelten die von den rationalen und reellen Zahlen vertrauten Regeln für Ungleichungen, etwa das Umdrehen des Vorzeichens bei Multiplikation mit einer negativen Zahl.
Eigenschaften des Betrags
|a| ≥ 0, |a| = 0 genau dann, wenn a = 0
|a b| = |a| |b| (Produktregel)
|a + b| ≤ |a| + |b|
(Dreiecksungleichung)
||a| − |b|| ≤ |a ± b| (umgekehrte Dreiecksungleichung)
Die beiden Anordnungsaxiome genügen, um alle vertrauten Eigenschaften für Ungleichungen herleiten zu können:
2. 10 Angeordnete Körper
63
Rechenregeln in angeordneten Körpern
Für alle a, b, c ∈ K gilt:
0 < 1, − 1 < 0,
0 < a, b impliziert 0 < a + b,
a, b < 0 impliziert a + b < 0 und 0 < a b,
a ≤ 0 und b ≥ 0 impliziert a b ≤ 0,
a < b impliziert c a < c b,
falls c > 0,
a < b impliziert c b < c a,
falls c < 0,
0 < a und b > 1 impliziert a < a b,
0 < a und b < 1 impliziert ab < a.
Exemplarisch beweisen wir hier:
Multiplikation einer Ungleichung a < b mit c < 0
Aus c < 0 folgt 0 = c − c < −c und aus a < b folgt 0 = a − a < b − a aus der Translationsinvarianz. Damit gilt nach der Positivitätsregel, dass
0 < (−c)(b − a) = ca − cb.
Wieder nach Translationsinvarianz gilt also cb < ca − cb + cb = ca.
Beispiele
(1) ⺡ und ⺢ sind unter den üblichen Ordnungen angeordnete Körper.
(2) Die Restklassenkörper ⺪p sind nicht anordenbar. Denn aus 0 < 1 und der
Translationsinvarianz folgt induktiv, dass 0 < n1. In ⺪p gilt aber p1 = 0 für das
p-Fache der 1. Allgemeiner zeigt das Argument, dass char(K) = 0 gilt, wenn K
anordenbar ist.
(3) ⺓ ist nicht anordenbar. Denn in jedem angeordneten Körper gilt −1 < 0 und
a2 > 0 für alle a. Da i 2 = −1 in ⺓ gilt, kann ⺓ nicht anordenbar sein.
Das Zahlsystem ⺞ ⊆ ⺪ ⊆ ⺡ ⊆ ⺢ ist durch Verbesserungen gekennzeichnet: In ⺪ können
wir subtrahieren, in ⺡ dividieren, in ⺢ Suprema und Infima bilden. Beim Übergang von
⺢ nach ⺓ gewinnen wir die Lösbarkeit von Gleichungen (vgl. 2. 12), aber es geht zum ersten Mal auch etwas verloren: die Ordnung der Zahlen, ein Größer und Kleiner.
Bemerkung
Es gibt durchaus lineare Ordnungen auf ⺓ = ⺢2 . Die lexikographische Ordnung < lex
ist ein Beispiel (vgl. 1. 3). Sie erfüllt die Translationsinvarianz. Es gilt i > lex 0, aber
i 2 = −1 <lex 0, sodass die Positivitätsregel verletzt ist.
64
2. Algebraische Strukturen
2. 11 Polynomringe und Polynomfunktionen
Definition (Polynom, Polynomring, Koeffizient, Unbestimmte, Grad, normiert)
Sei R ein kommutativer Ring. Wir setzen:
R(⺞) = „die Menge aller Folgen p = (pn )n ∈ ⺞ in R, die schließlich gleich 0 sind“ =
{ (pn )n ∈ ⺞ ∈ R⺞ | es gibt ein n0 , sodass pn = 0 für alle n ≥ n0 }.
Für alle p = (pn )n ∈ ⺞ , q = (qn )n ∈ ⺞
in R(⺞) definieren wir
0
03
0
03
03
0
03
03
03
2
63
3
2
43
03
2
63
3
2
43
03
03
1
3
3
1
23
03
03
03
3
1
2
0
0
0
Zur diagonalen
Bildung der
p + q = (pn + qn )n ∈ ⺞ ,
Koeffizienten bei
p ⋅ q = (∑ m ≤ n pm qn − m )n ∈ ⺞ .
(⺞)
Der so entstehende Ring R
heißt der Polynomring über R.
Die Elemente von R(⺞) heißen
Polynome. Für p ∈ R(⺞) und n ≥ 0
heißt pn der n-te Koeffizient von p.
Einführung einer Unbestimmten
Wir setzen
X = (0, 1, 0, 0, 0, …)
und schreiben oft R[ X ] anstelle
von R(⺞) .
Multiplikation
(3, −1, 2, 0, 0, 0, …) ⋅ (1, 2, 2, 0, 0, 0, …) =
(2X 2 − X + 3) ⋅ (2X 2 + 2X + 1) =
4X 4 + (−2 + 4) X 3 + (6 − 2 + 2) X 2 + (6 − 1) X + 3 =
4X 4 + 2 X 3 + 6 X 2 + 5 X + 3 =
Grad eines Polynoms
(3, 5, 6, 2, 4, 0, 0, 0, …)
Wir definieren die Gradfunktion
deg : R(⺞) → ⺞ ∪ { −∞ } durch
⎧
⎭ k,
falls pk ≠ 0 und pn = 0 für alle n ≥ k,
deg(p) = ⎫
⎩
− ∞,
falls pn = 0 für alle n.
Wir nennen deg(p) den Grad von p. Hat p den Grad k ≥ 0, so heißt pk der
Leitkoeffizient von p. Ist der Leitkoeffizient gleich 1, so heißt p normiert.
Im Polynomring R[ X ] = R(⺞) gilt 0 = (0, 0, 0, …) (Nullpolynom) und 1 = (1, 0, 0, 0, …).
Die Unbestimmte X ist ein spezielles Polynom. Für alle n ≥ 0 und p, q ∈ R[ X ] gilt
X n = (0, …, 0, 1, 0, 0, 0, …),
mit n Nullen vor der 1,
p = ∑ n ≤ deg(p) pn X n = p0 + p1 X + … + pn Xn ,
wobei n = deg(p),
p ⋅ q = ∑ n ≤ deg(p) + deg(q) cn Xn ,
wobei cn = ∑ m ≤ n pm qn − m .
Diese „termartigen“ Darstellungen beherrschen den Umgang mit Polynomen.
2. 11 Polynomringe und Polynomfunktionen
65
Beispiele
Sei R = ⺪. Wir schreiben kurz (p1 , …, pn ) statt (p1 , …, pn , 0, 0, 0, …). Dann gilt
(1, 0, 1) = 1 + X2 ,
(0, 1) (0, 1) = (1 + X) (1 + X) = (1 + X)2 = 1 + 2X + X2 = (1, 2, 1),
(0, 1) (0, −1) = (1 + X) (1 − X) = 1 − X2 = (1, 0, −1),
(3, −1, 2) ⋅ (1, 2, 2) = (3, 5, 6, 2, 4) (vgl. obiges Diagramm).
Der Grad eines Polynoms ist ein Maß für seine Komplexität. Dabei ist deg(0) = −∞
eine nützliche Konvention. Die Polynome der ersten Grade haben die Formen:
(0, 0, 0, …) = 0
(Grad −∞)
(p0 , 0, 0, 0, …) = p0
p0 ≠ 0,
(Grad 0)
(p0 , p1 , 0, 0, 0, …) = p0 + p1 X
p1 ≠ 0.
(Grad 1)
Rechenregeln für den Grad
deg(p + q) ≤ max(deg(p), deg(q)), deg(p ⋅ q) ≤ deg(p) + deg(q).
Ist der Ring R nullteilerfrei, so gilt Gleichheit für das Produkt.
Durch Einsetzen von Ringelementen für X in ∑ k ≤ n pk X k erhalten wir Funktionen:
Definition (Polynomfunktionen, Nullstelle)
Für p = ∑ k ≤ deg(p) pk X k ∈ R[ X ] ist die Polynomfunktion f p : R → R definiert durch
f p (x) = ∑ k ≤ deg(p) pk xk für alle x ∈ R.
Gilt f p (w) = 0 für ein w ∈ R, so heißt w eine Nullstelle von p.
In der Regel sind p und fp zu unterscheiden:
Beispiel
Für p = (X − [ 0 ]) (X − [ 1 ]) (X − [ 2 ]) ∈ ⺪3 [ X ] gilt fp (x) = 0 für alle x ∈ ⺪3 . Damit gilt
fP = f0 mit dem Nullpolynom 0, aber es gilt p ≠ 0. Gleiches gilt für p n , n ≥ 1.
Für viele Ringe R und insbesondere für jeden unendlichen Körper kann man aber zeigen, dass fp ≠ fq für p ≠ q. Eine Identifizierung von p und fp ist dann möglich. Sie wird speziell in analytischen Überlegungen (für R = ⺢ oder R = ⺓) oft durchgeführt.
Allgemeinere Einsetzungen
Ist A ein zweiter Ring und ⋅ : R × A → A erklärt, so ist ∑ k ≤ n pk xk ∈ A für alle pk ∈ R
und x ∈ A definiert. Wir erhalten so für alle p ∈ R[ X ] eine Polynomfunktion der
Form fp : A → A. Ein Beispiel werden wir in Kapitel 8 kennenlernen, wenn wir Matrizen in ein Polynom einsetzen.
66
2. Algebraische Strukturen
2. 12 Division und Nullstellen von Polynomen
Satz (Polynomdivision, Abspalten einer Nullstelle, Anzahl der Nullstellen)
Sei R ein kommutativer Ring, und sei R[ X ] = R(⺞) der Polynomring über R.
Polynomdivision
Seien a, b ∈ R[ X ]. Der Leitkoeffizient von b sei eine Einheit in R. Dann gibt es
eindeutig bestimmte q, r ∈ R[ X ] mit
a = q b + r, deg(r) < deg(b).
(Polynomdivision mit Rest)
Abspalten von Nullstellen
Ist p ∈ R[ X ] und w ∈ R eine Nullstelle von p, so gibt es genau ein q ∈ R[ X ] mit
p = (X − w) q.
(Abspaltung einer Nullstelle)
Allgemeiner gibt es ein k-Tupel (w1 , …, wk ) ∈ Rk , k ≤ deg(p), mit
p = (X − w1 ) (X − w2 ) … (X − wk ) q,
(vollständige Nullstellenabspaltung)
sodass q ein nullstellenfreies Polynom vom Grad n − k ist. Ist k = n, so gilt
p = pn (X − w1 ) (X − w2 ) … (X − wn ).
Zur Division von a = a0 durch b finden
wir Polynome qi ∈ R[ X ] mit
a0 = q1 b + a1 , deg(a0 ) > deg(a1 ),
a1 = q2 b + a2 , deg(a1 ) > deg(a2 ),
(Zerlegung in Linearfaktoren)
Polynomdivision in ⺪[ X ] für
a = 3X 4 − 4X 3 + 7X 2 − 11X + 5,
b = X 3 + 2X − 1.
X4
X3
X2
X1
1
a m − 1 = qm b + a m ,
3
−4
7
− 11
5
a = a0
deg(am − 1 ) ≥ deg(b) > deg(am ).
3
0
6
−3
0
3X b
Dann gilt wie gewünscht
−4
1
−8
5
a1
a0 = q1 b + a1 = (q1 + q2 ) b + a2 =
−4
0
−8
4
−4 b
1
0
1
a2
…
… = (q1 + … + qm ) b + am .
Die Polynome qi , ai sind definiert durch
Leitkoeffizient(ai − 1) deg(ai − 1) − deg(b)
X
qi =
,
Leitkoeffizient(b)
a i = ai − 1 − q i b
a = (3X − 4) b + (X 2 + 1 )
für alle 1 ≤ i ≤ n.
Zur Eindeutigkeit: Ist a = q b + r mit deg(r) < deg(b), so gilt (q − q) b = r − r und damit
grad(q − q) + grad(b) = grad(r − r) < grad(b). Also ist grad(q − q) = −∞, sodass q = q, r = r.
2. 12 Division und Nullstellen von Polynomen
67
Zur Abspaltung von Nullstellen: Ist w eine Nullstelle von p, so gilt p = q (X − w) + r mit
deg(r) < deg(X − w) = 1, sodass r = a für ein a ∈ R. Wegen
0 = fp (w) = fq (w) (w − w) + fr (w) = 0 + a = a
gilt r = 0. Dies zeigt, dass sich eine Nullstelle abspalten lässt. Wiederholtes Abspalten von
Nullstellen liefert die restlichen Aussagen.
Beispiele
(1) Das Polynom X 2 − 2 ∈ ⺡[ X ] hat aufgrund der Irrationalität von 兹2 keine
Nullstelle. Als Polynom in ⺢[ X ] hat X 2 − 2 die Nullstellen 兹2 und − 兹2,
sodass X 2 − 2 = (X − 兹2) (X + 兹2).
(2) Das Polynom X 2 + 1 ∈ ⺢[ X ] hat keine Nullstelle. Als Polynom in ⺓[ X ] hat
X 2 + 1 die Nullstellen i und − i, sodass X 2 + 1 = (X − i) (X + i).
(3) Ist p ∈ ⺢[ X ] ein Polynom ungeraden Grades, so hat p eine Nullstelle. Denn
aufgrund der ungeraden höchsten Potenz gibt es a, b ∈ ⺢, sodass f p (a) > 0 und
f p (b) < 0. Nach dem Zwischenwertsatz der Analysis hat also f p eine Nullstelle.
In der vollständigen Nullstellenabspaltung müssen die w1 , …, wk nicht paarweise verschieden sein. Für eine Nullstelle w von p gibt die algebraische Vielfachheit
μp (w) = max({ m ≥ 1 | es gibt ein q ∈ R[ X ] mit p = (X − w)m q })
an, wie oft der Faktor (X − w) in der vollständigen Nullstellenabspaltung erscheint.
Es gilt der für Algebra und Analysis gleichermaßen unentbehrliche
Satz (Fundamentalsatz der Algebra)
Jedes Polynom p ∈ ⺓[ X ] zerfällt in Linearfaktoren.
Zerfällt für einen Körper K jedes Polynom p ∈ K[ X ] in Linearfaktoren, so heißt K
algebraisch abgeschlossen. Im Gegensatz zu ⺓ sind ⺡ und ⺢ nicht algebraisch abgeschlossen. Der Körper ⺑ der algebraischen Zahlen ist algebraisch abgeschlossen. Denn man
kann zeigen, dass jedes Polynom p ∈ ⺑[ X ] nur algebraische Nullstellen besitzt.
Der Fundamentalsatz liefert auch eine wertvolle Erkenntnis für reelle Polynome. Ist
nämlich p ∈ ⺓[ X ] ein Polynom mit Koeffizienten in ⺢ ⊆ ⺓, so ist mit w auch die Konjugierte w = Re(w) − i Im(w) von w eine Nullstelle von p. Nun hat
(X − w)(X − w) = X 2 − (w + w)X + ww = X 2 − 2 Re(w) X + |w|2
reelle Koeffizienten. Durch eine derartige Zusammenfassung von Paaren erhält man:
Satz (Zerlegung eines reellen Polynoms)
Jedes Polynom p ∈ ⺢[ X ] vom Grad n ≥ 0 lässt sich in der Form
p = an (X − w1 ) … (X − wk ) q1 … q(n − k)/2
schreiben, mit nullstellenfreien Polynomen qj zweiten Grades der Form
qj = X 2 − 2 bj X + c j , c j > 0.
Kapitel 3
Vektorräume
70
3. Vektorräume
3. 1 Vektorräume
Definition (K-Vektorraum, Vektor, Skalar)
Seien (V, +) eine abelsche Gruppe, K ein Körper und ⋅ : K × V → V. Dann heißt
(V, +, ⋅) oder kurz V ein K-Vektorraum, falls für alle α, β ∈ K und v, w ∈ V gilt:
(a) 1 ⋅ v = v,
(b) α ⋅ (β ⋅ v) = (α β) ⋅ v,
(c) α ⋅ (v + w) = (α ⋅ v) + (α ⋅ w),
(d) (α + β) ⋅ v = (α ⋅ v) + (β ⋅ v).
(Axiome für die Skalarmultiplikation)
Die Elemente von V nennen wir Vektoren und die Elemente von K Skalare. Der
Körper K heißt der Skalarenkörper von V. Die Abbildung + : V 2 → V heißt die
Vektoraddition und ⋅ : K × V → V die Skalarmultiplikation von V.
2
In einem Vektorraum sind also
v + w Die Ebene ⺢ bildet
vier Abbildungen vorhanden: eine
mit der komponentenAddition in V, eine Addition und
w
weisen Addition und
Multiplikation in K sowie eine SkaSkalarmultiplikation
larmultiplikation ⋅, die es erlaubt,
einen Vektorraum.
einen Vektor v ∈V mit einem Skalar
α ∈K zu „skalieren“, sodass ein
v
α⋅u
Vektor w = α ⋅ v entsteht.
u
0
Die geforderten Eigenschaften
(die sog. Vektorraumaxiome) umfassen zehn Körper-, vier Gruppenaxiome und die Axiome (a) bis (d) für die Skalarmultiplikation. Diese 18 Axiome lassen sich kurz so zusammenfassen: Auf einer abelschen Gruppe
(V, +) ist eine Skalarmultiplikation mit guten Recheneigenschaften erklärt.
Wir können den skalaren Malpunkt weglassen und nach (b) zum Beispiel α β v schreiben. Es ist ungefährlich, den Skalar 0 und den Nullvektor 0 in V gleich zu bezeichnen.
Gleiches gilt für die Additionen bzw. Subtraktionen in K und V. Möglich sind diese Vereinfachungen, weil für alle Skalare α und Vektoren v gilt:
α v = 0 genau dann, wenn α = 0 oder v = 0
(− α) v = α (− v) = − α v
Für Skalare stehen die vier Grundrechenarten zur Verfügung, von einem Produkt von
Vektoren v und w ist in den Vektorraumaxiomen dagegen nicht die Rede. Vermutlich aus
der Schule bekannt sind das Skalarprodukt ⴰ : V × V → ⺢ für V = ⺢2 oder V = ⺢3 sowie das
Kreuzprodukt × : ⺢3 × ⺢3 → ⺢3 . (Statt v ⴰ w sind auch v •w oder 〈v, w〉 üblich.) Vor allem
das Skalarprodukt wird später eine wichtige Rolle spielen (vgl. Kapitel 6).
Für Skalare werden griechische Buchstaben wie α,β, λ, μ, … verwendet. Dadurch können Dekorationen wie Pfeile oder Striche über den Vektoren entfallen.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_4, © Springer-Verlag Berlin Heidelberg 2015
3.1 Vektorräume
71
Beispiele
(1) Jeder Körper K ist ein K-Vektorraum. Vektoren und Skalare sind in diesem Fall
identisch. Speziell ist ⺢ ein ⺢-Vektorraum und ⺓ ein ⺓-Vektorraum.
(2) Ist K ein Körper und n ∈ ⺞, so ist Kn mit
(a1 , …, an ) + (b1 , …, bn ) = (a1 + b1 , …, an + bn ),
α (a1 , …, an ) = (α a1 , …, α an ) für alle α ∈ K, (a1 , …, an ), (b1 , …, bn ) ∈ Kn
ein K-Vektorraum (wobei K0 = { 0 }). Speziell gilt dies für ⺢n und ⺓n .
(3) ⺓ ist ein ⺢-Vektorraum: Die Vektoren sind komplexe Zahlen, die reellen Zahlen dienen als Skalare. Analog ist ⺢ ein ⺡-Vektorraum: Die Vektoren sind reelle
Zahlen, als Skalare sind nur rationale Zahlen zugelassen. Allgemein gilt: Sind
L, K Körper mit L ⊆ K, so ist K ein L-Vektorraum.
(4) Sei (V, + , ⋅) ein ⺓-Vektorraum. Wir definieren α ⴱ v = α v für α ∈⺓ und v ∈V.
Dann ist (V, +, ⴱ) ein ⺓-Vektorraum.
(5) Sei M eine nichtleere Menge. Wir definieren 1 ⋅ A = A, 0 ⋅ A = ∅ für alle A ⊆ M.
Dann ist (P(M), Δ, ⋅) ein K-Vektorraum über dem Körper K = { 0, 1 }. Die Vektoren sind Teilmengen von M und die Skalare stets 0 oder 1.
Auch viele Ringe führen zu Vektorräumen. Jeder Ring R eignet sich als Menge von
Vektoren, mit der Ringaddition als Vektoraddition. Ist nun K ⊆ R ein Körper, so liefert
die Ringmultiplikation ⋅ : R × R → R durch Einschränkung auf K × R eine Skalarmultiplikation ⋅ : K × R → R, die (a) − (d) erfüllt. Der Ring R wird so zu einem K-Vektorraum.
Allerdings enthält nicht jeder Ring einen Körper (so etwa der Restklassenring ⺪4 ). Ein
wichtiges Beispiel ist jedoch:
Der Polynomring K[ X ] als K-Vektorraum
Sei K[ X ] der Polynomring über einem Körper K. Dann bilden die konstanten
Polynome (also die Polynome vom Grad kleinergleich 0) einen Körper, den wir
mit K identifizieren können. K[ X ] ist damit ein K-Vektorraum.
Schließlich betrachten wir noch einige Gegenbeispiele.
Beispiele zu den Axiomen für die Skalarmultiplikation
(1) Definieren wir auf ⺢ die Skalarmultiplikation durch α ⋅ x = 0, so gelten (b), (c),
(d), aber (a) ist verletzt.
(2) Definieren wir auf ⺓ die Skalarmultiplikation durch α ⋅ z = Re(α) z, so gelten
(a), (c), (d), aber (b) ist verletzt.
(3) Definieren wir auf ⺓2 die Skalarmultiplikation durch α ⋅ (z1 , z2 ) = (α z1 , α z2 ) für
z2 ≠ 0 und α ⋅ (z1 , 0) = ( α z1 , 0), so gelten (a), (b), (d), aber (c) ist verletzt.
(4) Definieren wir auf ⺢ die Skalarmultiplikation durch α ⋅ x = x, so gelten (a), (b),
(c), aber (d) ist verletzt.
72
3. Vektorräume
3. 2 Unterräume
Definition (Unterraum)
Sei V ein K-Vektorraum, und sei U ⊆ V. Dann heißt U ein Unterraum oder
Untervektorraum von V, falls gilt:
(a) U ist eine Untergruppe der abelschen Gruppe V.
(b) U ist abgeschlossen unter
der Skalarmultiplikation,
d. h., für alle α ∈K und
u ∈U gilt α u ∈U.
Unterräume verhalten sich zu Vektorräumen so wie Untergruppen zu
Gruppen. Die Definition besagt:
U ist mit der von V ererbten
Vektoraddition und Skalarmultiplikation
ein K-Vektorraum.
Die Gültigkeit der Axiome für die
Skalarmultiplikation müssen wir nicht
fordern. Sie überträgt sich von V auf
jede Teilmenge U von V.
Wie für Untergruppen sehen wir je
nach Kontext einen Unterraum als
Teilmenge eines Vektorraumes oder
als vollständigen Vektorraum an.
Das Analogon zum Untergruppenkriterium ist:
Eine Ebene durch 0 ist ein Unterraum des ⺢3 .
Die Polynome vom Grad kleinergleich 2 bilden
einen Unterraum des ⺢[ X ]. Im Diagramm
identifizieren wir sie mit Polynomfunktionen.
Unterraumkriterium
U ⊆ V ist genau dann ein Unterraum von V, falls gilt:
(U1) U ≠ ∅.
(U2) Für alle u, w ∈ U gilt u + w ∈ U.
(U3) Für alle α ∈ K und u ∈ U gilt α u ∈ U.
Die Aussagen (U1) und (U2) gelten, falls U eine Untergruppe von V ist, und (U3) ist genau die Aussage (b) der Definition. Sind (U1) − (U3) erfüllt, so gilt für alle u, w ∈ U, dass
u − w = u + (− w) = u + (−1) w ∈ U,
sodass das Untergruppenkriterium anwendbar ist und Teil (a) der Definition liefert.
3.2 Unterräume
73
Beispiele
(1) Für jeden Vektorraum V sind { 0 } und V Unterräume von V.
(2) Sei V = ⺢3 . Dann sind
U = { (x1 , 0, 0) ∈ V | x1 ∈ ⺢ } und W = { (x1 , x2 , 0) ∈ V | x1 , x2 ∈ ⺢ }
Unterräume von V. Allgemeiner bildet jede Gerade und jede Ebene in V durch
den Nullpunkt einen Unterraum von V. Geraden und Ebenen, die nicht durch
den Nullpunkt verlaufen, bilden dagegen keine Unterräume (vgl. auch 3. 12).
(3) Allgemeiner als (2): Seien n ≥ 1 und I ⊆ { 1, …, n }. Dann ist
U = { (x1 , …, xn ) ∈ ⺢n | xi = 0 für alle i ∈ I }
ein Unterraum von ⺢n .
(4) ⺡ ist eine Untergruppe von (⺢, +), aber kein Unterraum des ⺢-Vektorraumes ⺢.
Die Abgeschlossenheit unter Skalarmultiplikation ist verletzt: Ist α irrational,
so ist α ⋅ 1 = α ∉ ⺡. Dagegen ist ⺡ ein Unterraum des ⺡-Vektorraumes ⺢, bei
dem nur rationale Zahlen als Skalare für Vektoren (reelle Zahlen) auftauchen.
(5) Für alle n ist Un = { v ∈ K[ X ] | deg(v) ≤ n } ein Unterraum des K-Vektorraums
K[ X ] aller Polynome über K.
(6) Sind U und W Unterräume von V, so ist auch der Durchschnitt U ∩ W ein
Unterraum von V. Allgemeiner gilt: Ist (Ui )i ∈ I eine Familie von Unterräumen
von V, so ist auch
U =
傽 i ∈ I Ui
= { v ∈ V | v ∈ Ui für alle i ∈ I }
ein Unterraum von V.
(7) Sind U und W Unterräume von V, so ist U ∪ V im Allgemeinen nicht
abgeschlossen unter der Vektoraddition und damit kein Unterraum von V. Sind
zum Beispiel U und V zwei verschiedene Geraden der Ebene durch 0, so ist U
∪ W keine Untergruppe von (⺢2 , +). Denn sind u ∈ U und w ∈ W beide
ungleich dem Nullvektor, so ist u + w kein Element von U ∪ W.
(8) Ist (Ui )i ∈ I eine Familie von Unterräumen von V und gilt die Vergleichbarkeit
Ui ⊆ Uj oder Uj ⊆ Ui für alle i, j ∈ I,
so ist auch
艛 i ∈ I Ui
= { v ∈ V | es gibt ein i ∈ I mit v ∈ Ui }
ein Unterraum von V. Ist I endlich, so ist die Vereinigung einfach gleich dem
größten Element der durch die Ui gebildeten ⊆-Kette. Es gibt aber auch
Beispiele für unendliche Ketten, so etwa (Un )n ∈ ⺞ wie in Beispiel (5). Hier ist
艛 n ∈ ⺞ Un
= K[ X ].
74
3. Vektorräume
3. 3 Produkte von Vektorräumen
Definition (Produkte und Potenzen)
Endliche Produkte
Seien V1 , …, Vn , n ≥ 1, K-Vektorräume, und sei
W = V1 × … × Vn = { (v1 , …, vn ) | vi ∈ Vi für alle 1 ≤ i ≤ n }.
Für alle v = (v1 , …, vn ), w = (w1 , …, wn ) ∈ W und α ∈ K setzen wir:
v + w = (v1 + w1 , …, vn + wn ),
α ⋅ v = (α v1 , …, α vn ).
(W, +, ⋅) heißt das Produkt der Vektorräume V1 , …, Vn .
Familien-Produkte
Sei (Vi )i ∈ I eine Familie von K-Vektorräumen, und sei
W = ∏ i ∈ I Vi = { (vi )i ∈ I | vi ∈ Vi für alle i ∈ I }.
Für alle v = (vi )i ∈ I , w = (wi )i ∈ I ∈ W und α ∈ K setzen wir
v + w = (vi + wi ) i ∈ I ,
α ⋅ v = (α vi ) i ∈ I .
(W, +, ⋅) heißt das Produkt der Vektorräume (Vi )i ∈ I .
Potenzen
Sind in einem Produkt alle Vi gleich einem Vektorraum V, so schreiben wir auch
V n statt V1 × … × Vn ,
V I statt ∏ i ∈ I Vi .
V n bzw. V I heißt die n- bzw.
I-fache Potenz von V. Weiter
setzen wir
V
0
= { 0 }.
Ist K ein Körper, so schreiben
wir Kn und K I für die Potenzen des K-Vektorraumes K.
Kurz: Auf den Produkten
8
6
4
2
2
10
15
20
4
6
ein Vektor des ⺢⺞
5
V1 × … × Vn , ∏ i ∈ I Vi
wird eine komponenten- oder punktweise Vektoraddition und Skalarmultiplikation erklärt. Die Produkte werden dadurch zu K-Vektorräumen.
5
5
10
15
20
5
ein Vektor des ⺢[0, ∞[
3. 3 Produkte von Vektorräumen
75
Bemerkung 1
In der Produktbildung ist es wichtig, dass alle beteiligten Vektorräume denselben
Skalarenkörper K besitzen. K hängt nicht vom Index i ab.
Bemerkung 2
Ist I = { 1, …, n }, so können wir das Produkt V1 × … × Vn mit ∏ i ∈ I Vi und die
Potenz V n mit der Potenz V { 1, …, n } identifizieren. Dadurch werden die endlichen
Produkte zu Spezialfällen der allgemeinen Produkte. Dies gilt auch für n = 0 und
I = ∅, wenn wir 0 mit der leeren Menge identifizieren.
Explizit wollen wir noch einmal die Körperpotenzen
Kn = { (x1 , …, xn ) | xi ∈ K für alle 1 ≤ i ≤ n } ,
KI = { (xi )i ∈ I | xi ∈ K für alle i ∈ I } = { f | f : I → K }
notieren. Sie spielen eine fundamentale Rolle in der Linearen Algebra, und wir werden ihnen noch oft begegnen. Am wichtigsten sind hier die Körper K = ⺢ und K = ⺓.
Beispiele
(1) ⺢ × ⺢ × ⺢ = ⺢3 , V × V × V × V = V 4 usw.
(2) Die Vektoren von V = ⺢2 × ⺢3 haben die Form ((x1 , x2 ), (y1 , y2 , y3 )). Identifizieren wir diese Vektoren mit (x1 , x2 , y1 , y2 , y3 ), so wird V zum ⺢5 .
(3) Beispiele für Potenzen V I sind ⺢{ 0, 2, 4 } , ⺢⺞ , ⺓⺞ , ⺢⺢ und ⺓⺓ .
(4) Die Vektoren des ⺢⺞ sind die reellen Folgen (xn )n ∈ ⺞ . Die Addition und
Skalarmultiplikation auf dem ⺢⺞ sind wie in der Analysis erklärt durch
(xn )n ∈ ⺞ + (yn )n ∈ ⺞ = (xn + yn )n ∈ ⺞ und α (xn )n ∈ ⺞ = (α xn )n ∈ ⺞ .
Analoges gilt für ⺓⺞ .
(5) Für I ⊆ ⺢ sind die Vektoren des ⺢I reellwertige Funktionen der Form f : I → ⺢.
Die Addition und Skalarmultiplikation fällt erneut mit den analytischen
Operationen f + g und α f zusammen. Typische Fälle sind I = [ 0, 1 ] und I = ⺢.
Analoges gilt für ⺓I mit I ⊆ ⺓, etwa I = [ 0, 1 ]2 , I = { z ∈ ⺓ | |z| = 1 } oder I = ⺓.
Der Polynomring K[ X ] = K(⺞) ist ein Unterraum der Potenz K⺞ . Er besteht aus allen
Folgen (xn )n ∈ ⺞ in K, deren Träger { n | xn ≠ 0 } endlich ist. Allgemein definieren wir:
Definition (die Vektorräume V (I) )
Für jeden K-Vektorraum V und jede Menge I sei
V (I) = { (vi )i ∈ I ∈ V I | { i ∈ I | vi ≠ 0 } ist endlich } }.
Der Vektorraum V (I) ist ein Unterraum des V I . Ist I endlich, so gilt V (I) = V I . Andernfalls ist V (I) eine echte Teilmenge des V I .
76
3. Vektorräume
3. 4 Linearkombinationen und Erzeugendensysteme
Definition (Linearkombination, Spann, Erzeugendensystem)
Sei V ein K-Vektorraum.
(a) Ein w ∈ V heißt eine Linearkombination von v1 , …, vn ∈ V, falls α1 , …, αn ∈ K
existieren mit w = α1 v1 + … + αn vn .
(b) Für A ⊆ V definieren wir den Spann von A durch
span(A) = 〈A〉 = { w ∈ V | w ist eine Linearkombination von Vektoren in A }.
Für eine Familie (vi )i ∈I in V sei span((vi )i ∈I ) = span({ vi | i ∈ I }).
(c) Ein A ⊆ V heißt erzeugend oder ein Erzeugendensystem von V, falls span(A) = V.
Eine Familie (vi )i ∈I in V heißt erzeugend, falls { vi | i ∈ I } erzeugend ist.
Linearkombinationen verallgemeinern die Summen v1 + … + vn , die in
allen Gruppen erklärt sind. In einem
Vektorraum können die Summanden
„skaliert“ oder „gewichtet“ werden.
w = α1 v 1 + α2 v 2
v2
α2 v2
α1 v 1
Beispiele
(1) Im ⺢3 ist
v1
(2, 3, 3) = 2(1, 1, 1) + 1(0, 1, 1)
Eine Linearkombination
w von v1 und v2
0
eine Linearkombination der Vektoren (1, 1, 1), (0, 1, 1).
(2) Da die leere Summe gleich 0 ist, gilt span(∅) = { 0 }. Weiter ist span(0) = { 0 },
span(v) = { α v | α ∈ K }, span(v, w) = { α v + β w | α, β ∈ K }.
(3) Ist v ∈⺢3 , v ≠ 0, so ist span(v) eine Gerade durch den Nullpunkt. Ist dann w ∈⺢3
ein Vektor mit w ∉span(v), so ist span(v, w) eine Ebene durch den Nullpunkt.
(4) Es gilt span(v1 , …, vn ) = span(−v1 , …, −vn ), da für alle α1 , …, αn in K gilt, dass
α1 v1 + … + αn vn = (−α1 ) (−v1 ) + … + (−αn ) (−vn ).
(5) Es gilt span(v1 , v2 , v1 + v2 ) = span(v1 , v2 ), da für alle α1 , α2 , α3 gilt, dass
α1 v1 + α2 v2 + α3 (v1 + v2 ) = (α1 + α3 ) v1 + (α2 + α3 ) v2 .
Eine nützliche Notation für Familien ist:
Die Summen ∑ i ∈ I αi vi
Für alle Familien (vi )i ∈I in V und alle (αi )i ∈I ∈ K(I) sei ∑ i ∈ I αi vi = ∑ i ∈ I, αi ≠ 0 αi vi .
In ∑ i ∈ I αi vi ist die Menge aller i mit αi ≠ 0 stets endlich, sodass sich die Summe auf
eine endliche Summe reduziert. Es gilt span((vi )i ∈I ) = { ∑ i ∈ I αi vi | (αi )i ∈I ∈ K(I) }.
3. 4 Linearkombinationen und Erzeugendensysteme
77
Eigenschaften des Spans
Für alle A ⊆ V ist span(A) der kleinste Unterraum U von V mit U ⊇ A.
Ist A ⊆ B, so gilt span(A) ⊆ span(B).
Ist B ⊆ span(A) und A ⊆ span(B), so ist span(A) = span(B).
Es gilt span(V) = V, sodass jeder Vektorraum ein Erzeugendensystem besitzt. Für weitere Beispiele definieren wir:
Definition (die Standardvektoren ei )
(a) Sei V = Kn für ein n ≥ 1. Dann definieren wir
e1 = (1, 0, …, 0), e2 = (0, 1, 0, …, 0), …, en = (0, …, 0, 1).
(b) Sei V = K[ X ] = K(⺞) . Dann definieren wir en ∈ V für alle n ∈ ⺞ durch
en = Xn = (0, …, 0, 1, 0, 0, 0, …) mit n Nullen vor der 1.
(c) Sei V = K(I) . Dann definieren wir ei ∈ V für alle i ∈ I durch ei (i) = 1 und
ei (j) = 0 für alle i ≠ j.
Beispiele
(1) Sei V = Kn mit n ≥ 1. Dann ist { e1 , …, en } erzeugend. Gleiches gilt für
v1 = (1, 0, …, 0), v2 = (1, 1, 0, …, 0), v3 = (1, 1, 1, 0, …, 0), …, vn = (1, …, 1).
(2) Sei V = K[ X ] = K(⺞) . Dann ist { en | n ∈ ⺞ } erzeugend. Weiter gilt
span(e0 , …, en ) = { w ∈ K[ X ] | grad(w) ≤ n }.
(3) In V = K(I) ist { ei | i ∈ I } erzeugend. Ist I unendlich, so ist K(I) ≠ KI und
{ ei | i ∈ I } nicht erzeugend in KI . Zum Beispiel liegt v = (1)i ∈ I nicht im Spann der
ei , falls I unendlich ist (da Linearkombinationen stets endliche Summen sind).
Die Begriffsbildungen sind auch außerhalb der Linearen Algebra von Bedeutung:
Exkurs: Trigonometrische Polynome
Sei V = { f : ⺢ → ⺢ | f(x) = f(x + 2π) für alle x ∈ ⺢ } der ⺢-Vektorraum der
2π-periodischen Funktionen. V ist ein Unterraum des ⺢⺢ . Wir betrachten
vk = „die Funktion g auf ⺢ mit g(x) = cos(k x) für alle x“ für k ∈ ⺞,
wk = „die Funktion g auf ⺢ mit g(x) = sin(k x) für alle x“ für k ∈ ⺞ − { 0 }.
Für jedes n heißen die Linearkombinationen von v0 , v1 , w1 , …, vn , wn die trigonometrischen Polynome vom Grad kleinergleich n. Sie lassen sich schreiben als
f(x) = a0 + ∑ 1 ≤ k ≤ n (ak cos(k x) + bk sin(k x)), x ∈ ⺢, mit ak , bk ∈ ⺢,
und werden in der Analysis zur Approximation von Funktionen in V verwendet.
78
3. Vektorräume
3. 5 Lineare Unabhängigkeit
Definition (linear unabhängig, linear abhängig)
Sei V ein K-Vektorraum.
(a) Ein Tupel (v1 , …, vn ) von Vektoren in V heißt linear unabhängig, falls für alle
α1 , …, αn ∈ K gilt:
α1 v1 + … + αn vn = 0 impliziert α1 = … = αn = 0.
(eindeutige Nulldarstellung, Nullbedingung)
(b) Eine Menge A ⊆ V heißt linear unabhängig, falls jedes Tupel von paarweise
verschiedenen Vektoren in A linear unabhängig ist. Eine Familie (vi )i ∈ I in V
heißt linear unabhängig, falls (vi1 , …, vin ) für alle paarweise verschiedenen
i1 , …, in ∈ I, n ≥ 1, linear unabhängig ist.
Andernfalls heißt (v1 , …, vn ) bzw. A
bzw. (vi )i ∈ I linear abhängig.
v3
v1
0
Ein Tupel (v1 , …, vn ) ist also linear unabhängig, wenn der Nullvektor nur trivial
als Linearkombination dargestellt werden kann. Somit ist (v1 , …, vn ) linear abhängig, wenn es α1 , …, αn ∈ K gibt mit
(a) 0 = α1 v1 + … + αn vn ,
α1 v 1
α3 v 3
v2
α2 v 2
(v1 , v2 , v3 ) sind linear abhängig, da eine
(b) αi ≠ 0 für mindestens ein i.
nichttriviale Darstellung der 0 existiert.
Formulierungen der linearen Unabhängigkeit
Für alle A ⊆ V sind äquivalent:
(a) A ist linear unabhängig.
(b) Für alle v ∈ A ist v ∉ span(A − { v }).
(Spannbedingung)
Für jede Familie (vi )i ∈I in V sind äquivalent:
(a) (vi )i ∈I ist linear unabhängig.
(b) Für alle (αi )i ∈I ∈ K(I) gilt:
∑ i ∈ I αi vi = 0 impliziert αi = 0 für alle i ∈ I.
(c) Für alle (αi )i ∈I , (βi )i ∈ I ∈ K(I) gilt:
∑ i ∈ I αi vi = ∑ i ∈ I βi vi impliziert αi = βi für alle i ∈ I.
(Eindeutigkeit der Darstellung als Linearkombination)
3. 5 Lineare Unabhängigkeit
79
Die Spannbedingung lässt sich besonders griffig formulieren:
„Kein Vektor von A liegt im Spann der anderen.“
„Verkleinern wir A, so verkleinern wir den Spann.“
In Familien-Schreibweise lautet die Spannbedingung: vj ∉ span((vi )i ∈ I, i ≠ j ) für alle j ∈ I.
Zur Überprüfung der linearen Unabhängigkeit ist der Nachweis der Nullbedingung aber
oft einfacher als der Nachweis der Spannbedingung.
Wir betrachten nun „versteckte Details“ der Begriffsbildung und erste Beispiele.
Formale Feinheiten
(1) Die leere Menge ist linear unabhängig. Die Nullbedingung ist leer.
(2) (0) ist linear abhängig, da 0 = 1 ⋅ 0 eine nichttriviale Darstellung der 0 ist.
Auch die Spannbedingung zeigt dies, da 0 ∈ { 0 } = span(∅) = span({ 0 } − { 0 }).
Allgemein ist jedes A ⊆ V mit 0 ∈ A linear abhängig.
(3) Ist v ≠ 0, so ist (v) linear unabhängig, da aus 0 = α v folgt, dass α = 0.
(4) Ist v1 = vn und n ≥ 1, so ist (v1 , …, vn ) linear abhängig, da 0 = 1 v1 − 1 vn . Ist
v = w ≠ 0, so ist (v, w) linear abhängig, aber { v, w } = { w } ist linear unabhängig.
Beispiele
(1) Für Vektoren v1 = (x1 , y1 , z1 ), v2 = (x2 , y2 , z2 ), v3 = (x3 , y3 , z3 ) ∈ ⺢3 ist (v1 , v2 , v3 )
genau dann linear unabhängig, wenn für alle α1 , α2 , α3 ∈ ⺢ gilt:
α1 v1 + α2 v2 + α3 v3 = 0 impliziert α1 = α2 = α3 = 0.
Dies ist gleichwertig dazu, dass das lineare Gleichungssystem
α 1 x1 + α 2 x 2 + α 3 x 3 = 0
α 1 y 1 + α 2 y2 + α 3 y3 = 0
α 1 z1 + α 2 z 2 + α 3 z 3 = 0
in den reellen Unbestimmten α1 , α2 , α3 nur die Lösung α1 = α2 = α3 = 0 besitzt.
Analoges gilt für n Vektoren v1 , …, vn des ⺢n , n ≥ 1.
(2) Seien V = ⺢⺢ , v = sin und w = cos. Dann ist (v, w) linear unabhängig. Denn sei
α sin + β cos = 0. Dann gilt α sin(x) + β cos(x) = 0 für alle x ∈ ⺢, speziell also
α sin(0) + β cos(0) = 0, α sin(π/2) + β cos(π/2) = 0.
Aus sin(0) = cos(π/2) = 0 und sin(π/2) = cos(0) = 1 folgt nun α = β = 0.
Allgemeiner ist die Menge der Sinus- und Kosinusfunktionen aus dem Exkurs
im letzten Abschnitt linear unabhängig.
(3) Sei V = K(I) . Dann ist { ei | i ∈ I } linear unabhängig. Speziell ist die Menge
{ 1, X, X2 , X3 , … } = { e0 , e1 , e2 , … } der Monome linear unabhängig im
K-Vektorraum K [ X ] = K(⺞) .
80
3. Vektorräume
3. 6 Basen und Koordinatenvektoren
Definition (Basis)
Sei V ein K-Vektorraum.
(a) Ein Tupel (v1 , …, vn ) von Vektoren in V heißt eine Basis von V, wenn (v1 , …, vn )
linear unabhängig und erzeugend ist.
(b) Ebenso heißt eine Menge B ⊆ V bzw. eine Familie (vi )i ∈ I in V eine Basis von
V, wenn sie linear unabhängig und erzeugend ist.
Die Vektoren einer Basis nennen
wir auch Basisvektoren. Ist eine
Basis B endlich, so heißt die
Anzahl |B| ihrer Elemente die
Länge von B.
4
2
2
1
1
2
2
„Basis“ bedeutet:
Jeder Vektor liegt im Spann von B
und jeder Vektor in B wird für diese
Eigenschaft wirklich gebraucht.
(1, X, X2 , X3 ) ist eine Basis des Vektorraums V ⊆ ⺢[ X ]
aller Polynome über ⺢ vom Grad kleinergleich 3. Im
Diagramm sind die Polynomfunktionen dargestellt.
Äquivalenzen für endliche Basen
Für jedes Tupel (v1 , …, vn ) in V sind äquivalent:
(a) (v1 , …, vn ) ist eine Basis von V.
(b) (v1 , …, vn ) ist linear unabhängig und für alle v ∈ V ist (v1 , …, vn , v)
linear abhängig.
(maximal linear unabhängig)
(c) (v1 , …, vn ) ist erzeugend und für alle i ist (v1 , …, vi − 1 , vi + 1 , …, vn )
nicht erzeugend.
(minimal erzeugend)
(d) Jeder Vektor v in V besitzt eine eindeutige Darstellung der Form
v = α1 v1 + … + αn vn mit α1 , …, αn ∈ K.
(Existenz und Eindeutigkeit der Darstellung als Linearkombination)
Analoge Äquivalenzen lassen sich auch für beliebige Mengen und Familien angeben.
Für Mengen B ⊆ V lautet (b):
B ist ein ⊆-maximales Element von { A ⊆ V | A ist linear unabhängig }.
Für Familien (vi )i ∈ I in V lautet (d):
Für jeden Vektor v in V existiert eine eindeutige Darstellung der Form v = ∑ i ∈ I αi vi .
Die Eindeutigkeit erlaubt folgende fundamentale Definition:
3. 6 Basen und Koordinatenvektoren
81
Definition (Koordinatenabbildung ΦB , Koordinatenvektor)
Sei V ein K-Vektorraum.
(a) Sei B = (v1 , …, vn ) eine Basis. Dann definieren wir ΦB : V → Kn durch
ΦB (v) = vB = „der Vektor (α1 , …, αn ) ∈ Kn mit v = α1 v1 + … + αn vn “.
(b) Sei B = (vi )i ∈ I eine Basis. Dann definieren wir ΦB : V → K(I) durch
ΦB (v) = vB = „der Vektor (αi )i ∈I ∈ K(I) mit v = ∑ i ∈ I αi vi “.
Wir nennen ΦB (v) = vB den Koordinatenvektor von v bzgl. B. Für alle i heißt der
Skalar αi = vB (i) der vi -Anteil von v bzgl. B.
Ein Koordinatenvektor ist also ein Element eines Vektorraumes Kn oder allgemeiner
des K(I) . Ist V = Kn bzw. V = K(I) , so gehören v und vB demselben Vektorraum an. Im Allgemeinen leben sie in verschiedenen Räumen. Die Reihenfolge oder Indizierung der
Basisvektoren spielt für Koordinatenvektoren eine Rolle.
Beispiele
(1) Die Standardvektoren e1 = (1, 0, 0), e2 = (0, 1, 0), e3 = (0, 0, 1) bilden eine Basis
B = (e1 , e2 , e3 ) des ⺢3 . Für alle (x, y, z) ∈ ⺢3 gilt
(x, y, z) = (x, 0, 0) + (0, y, 0) + (0, 0, z) = x e1 + y e2 + z e3 .
Damit ist v = vB für alle v ∈ ⺢3 . Man nennt B die kanonische Basis oder die
Standardbasis des ⺢3 . Analoges gilt für ⺢n und ⺓n für alle n.
(2) Die Vektoren v1 = (0, 0, 1), v2 = (0, 1, 1), v3 = (1, 1, 1) bilden ebenfalls eine Basis
C = (v1 , v2 , v3 ) des ⺢3 . Es gilt zum Beispiel
(1, 2, 3) = 1 ⋅ v1 + 1 ⋅ v2 + 1 v3 ,
sodass (1, 2, 3)C = (1, 1, 1). Ebenso ist, mit der kanonischen Basis (e1 , e2 , e3 ),
(0, 0, 1)C = e1 , (0, 1, 1)C = e2 , (1, 1, 1)C = e3 .
(3) Sei V = K[ X ] = K(⺞) . Dann ist B = (en )n ∈ ⺞ eine Basis von V. Allgemein ist (ei )i ∈ I
eine Basis des K(I) . Für alle v gilt v = ∑ i ∈ I v(i) ei , sodass vB = v . Wir nennen B
wieder die kanonische Basis oder Standardbasis des Vektorraums K(I) .
(4) e1 = (1, 0) = 1 und e2 = (0, 1) = i bilden eine Basis B = (e1 , e2 ) des ⺢-Vektorraums
⺓ = ⺢2 . Dagegen ist (e1 ) eine Basis des ⺓-Vektorraums ⺓, da sich jedes v ∈ ⺓
eindeutig als v = v e1 schreiben lässt.
(5) Eine Basis von ⺢⺞ oder des ⺡-Vektorraums ⺢ ist nicht zu sehen (vgl. 3. 9).
Warnung: Bestimmten Artikel vermeiden
Von Anfängern hört man oft: „(e1 , e2 , e3 ) ist die Basis des ⺢3 .“ Der Wunsch nach
Eindeutigkeit ist verständlich, aber die Aussage ist analog zu: „Die Katze ist das
Tier.“ Also bitte „(e1 , e2 , e3 ) ist eine Basis des ⺢3 “, so wie „Die Katze ist ein Tier.“
82
3. Vektorräume
3. 7 Austauschlemma und Austauschsatz
Satz (Austauschlemma und Austauschsatz von Ernst Steinitz)
Sei V ein K-Vektorraum, und sei (v1 , …, vn ) eine Basis von V. Dann gilt:
Austauschlemma
Ist v ∈ V und 1 ≤ i ≤ n derart, dass in der Linearkombination
v = α 1 v1 + … + α n v n
der Skalar α i von 0 verschieden ist, so ist auch
v1 , …, vi − 1 , v, vi + 1 , …, vn
eine Basis von V.
Austauschsatz von Erst Steinitz
Ist (w1 , …, wk ) linear unabhängig in V, so ist k ≤ n und es gibt n − k Vektoren
unter den Basisvektoren v1 , …, vn , sodass diese Vektoren zusammen mit
(w1 , …, wk ) eine Basis von V bilden.
v
e3
Das Austauschlemma besagt,
dass man einen Vektor vi einer Basis B gegen einen Vektor v austauschen darf, wenn v einen nichttrivialen vi -Anteil bzgl. B aufweist,
wenn also die i-te Komponente des
Koordinatenvektors vB von v von 0
verschieden ist.
Das Austauschlemma dient als
Grundlage für einen Beweis des
Austauschsatzes (vgl. Beispiel 3).
Dieser besagt, dass man ein linear
unabhängiges k-Tupel in eine Basis der Länge n integrieren kann,
indem man gewisse Basisvektoren
durch die Vektoren des Tupels ersetzt (anders formuliert: das Tupel
mit Basisvektoren zu einer Basis
erweitert). Ein wichtiger Bestandteil der Aussage des Austauschsatzes ist, dass k kleinergleich n ist.
Es kann also nicht mehr linear unabhängige Vektoren als Elemente
in einer Basis geben. Das ist zwar
glaubhaft, aber keineswegs klar.
e2
e1
In der Basis (e1 , e2 , e3 ) des ⺢3 kann jeder Basisvektor gegen v = e1 + e2 + e3 ausgetauscht werden:
(v, e2 , e3 ), (e1 , v, e3 ), (e1 , e2 , v) sind Basen des ⺢3.
v3
v
v2
E
v1
In der Basis (v1 , v2 , v3 ) des ⺢3 können v1 und v2
gegen v ausgetauscht werden, nicht aber v3 . Der
Vektor v liegt in der von v1 und v2 aufgespannten
Ebene E und hat damit den v3 -Anteil 0.
3. 7 Austauschlemma und Austauschsatz
83
Beispiele
(1) Sei (e1 , e2 , e3 ) die Standardbasis des ⺢3 . Dann ist für alle v = (x, y, z) ∈ ⺢3
mit z ≠ 0 auch (e1 , e2 , v) eine Basis des ⺢3 . Der Vektor e3 von B lässt sich also
durch jeden Vektor mit einem Höhenanteil ungleich 0 ersetzen.
(2) Die „αi ≠ 0“-Bedingung im Austauschlemma ist auch notwendig dafür, dass der
Austausch „vi gegen v“ eine Basis hinterlässt. Zum Beispiel können wir in der
Basis ((1, 0, 0), (1, 1, 0), (1, 1, 1)) des ⺢3 den dritten Vektor nicht gegen einen
Vektor (x1 , x2 , 0) austauschen, ohne die Basiseigenschaft zu zerstören.
(3) Wir betrachten die Standardbasis (e1 , e2 , e3 , e4 ) des ⺢4 und das linear unabhängige Paar (w1 , w2 ) mit w1 = (1, 2, 0, 0) und w2 = (3, 6, 2, −1). Es gilt
w1 = (1, 2, 0, 0) = 1 e1 + 2 e2 + 0 e3 + 0 e4 .
Nach dem Austauschlemma ist (w1 , e2 , e3 , e4 ) eine Basis. Nun gilt
w2 = (3, 6, 2, −1) = 3 w1 + 0 e2 + 2e3 − e4 ,
sodass nach dem Austauschlemma (w1 , e2 , w2 , e4 ) eine Basis ist (nicht aber
(w1 , w2 , e3 , e4 ). Damit haben wir (w1 , w2 ) in die Basis (e1 , e2 , e3 , e4 ) integriert.
(4) Sei V ein Vektorraum derart, dass für jedes k ≥ 1 ein linear unabhängiges Tupel
(w1 , …, wk ) existiert. Dann besitzt V keine endliche Basis. Denn wäre (v1 , …, vn )
eine Basis, so wären nach dem Austauschsatz k ≤ n für alle k, was nicht sein kann.
Zwei einfache, aber wichtige Folgerungen aus dem Austauschsatz sind:
Für jeden Vektorraum V, der eine endliche Basis besitzt, gilt:
Längensatz
Je zwei Basen B1 und B2 haben die gleiche Länge.
Basisergänzungssatz
Ist A linear unabhängig, so existiert eine Basis B ⊇ A.
Sind nämlich (v1 , …, vn ) und (w1 , …, wk ) zwei Basen, so gilt k ≤ n nach dem Austauschsatz, da (w1 , …, wk ) linear unabhängig ist. Analog gilt n ≤ k und damit k = n. Dies zeigt den
Längensatz. Der Basisergänzungssatz ist eine Abschwächung des Austauschsatzes.
Die Ergebnisse sind auch für Vektorräume, die keine endliche Basis besitzen, richtig,
wobei im Längensatz „gleiche Mächtigkeit“ an die Stelle von „gleiche Länge“ tritt. Zum
Beweis müssen dann allerdings andere Methoden verwendet werden (vgl. hierzu auch Abschnitt 3. 9).
84
3. Vektorräume
3. 8 Die Dimension
Definition (Dimension eines Vektorraumes)
Ein Vektorraum V heißt endlich-dimensional, in Zeichen dim(V) < ∞, falls eine
endliche Basis von V existiert. Andernfalls heißt V unendlich-dimensional, in Zeichen
dim(V) = ∞. Ist V endlich-dimensional und (v1 , …, vn ) eine Basis von V, so heißt V
n-dimensional, in Zeichen dim(V) = n.
Die Unterscheidung zwischen
„dim(V) < ∞“ und „dim(V) = ∞“
ist einfach möglich, die Setzung
von „dim(V) = n“ beruht dagegen auf dem Längensatz in 3. 7.
Bemerkung
Ist V endlich erzeugt, d. h. gibt
es v1 , …, vn ∈ V mit
span(v1 , …, vn ) = V,
U
W
Illustration der
G
Dimensionsformel
dim(U) + dim(W) = dim(U ∩ W) + dim(span(U ∪ W))
anhand von Ebenen U und W im ⺢3 durch 0, deren
so ist V endlich-dimensional.
Durchschnitt eine Gerade G ist: 2 + 2 = 1 + 3.
Denn wir können einen Vektor vi , der im Spann der Vektoren vj , j ≠ i, liegt, streichen, ohne den Spann V zu verkleinern. So lässt sich (v1 , …, vn ) schrittweise zu einer Basis reduzieren.
Beispiele
(1) Ist V = { 0 }, so gilt dim(V) = 0. Denn die leere Menge ist eine Basis von V.
(2) Ist V = ⺢n , so gilt dim(V) = n, denn (e1 , …, en ) ist eine Basis von V. Analog ist
dim(V) = n für ⺓n .
(3) Ist V der ⺢-Vektorraum ⺓n , so gilt dim(V) = 2n. Eine Basis ist
((1, 0, …, 0), (i, 0, …, 0), …, (0, …, 0, 1), (0, …, 0, i)).
(4) Sei M = { a1 , …, an } eine nichtleere Menge mit genau n Elementen, und sei V
der { 0, 1 }-Vektorraum P(M) mit der symmetrischen Differenz als Vektoraddition und der Skalarmultiplikation 0 ⋅ A = ∅ und 1 ⋅ A = A für alle A ⊆ M. Dann
gilt dim(V) = n, denn ({ a1 }, …, { an }) ist eine Basis von V.
(5) Ein Produktraum K I ist genau dann endlich-dimensional, wenn I endlich ist.
(6) Der Vektorraum K [ X ] = K(⺞) ist unendlich-dimensional.
(7) Der ⺡-Vektorraum ⺢ ist unendlich-dimensional. Denn für alle v1 , …, vn ∈ ⺢ ist
span(v1 , …, vn ) = { α1 v1 + … + αn vn | α1 , …, αn ∈ ⺡ }
abzählbar und damit ungleich ⺢. Allgemein gilt, dass ein überabzählbarer
Vektorraum V über einem abzählbaren Körper unendlich-dimensional ist.
3. 8 Die Dimension
85
Hat man die Dimension eines endlich-dimensionalen Vektorraums V als n bestimmt,
so ist der Nachweis, dass n Vektoren eine Basis bilden, nur noch halb so aufwendig. Es genügt zu zeigen, dass die Vektoren linear unabhängig oder erzeugend sind. Das „oder“ wird
automatisch zum „und“:
Satz von der Halbierung der Arbeit
Ist dim(V) = n, so sind für alle v1 , …, vn ∈V äquivalent:
(a) (v1 , …, vn ) ist eine Basis von V.
(b) (v1 , …, vn ) ist linear unabhängig.
(c) (v1 , …, vn ) ist erzeugend.
Wir betrachten schließlich noch Unterräume von endlich-dimensionalen Vektorräumen.
Ist (v1 , …, vn ) eine Basis, so existieren Unterräume U0 , …, Un der Dimensionen 0, …, n:
U0 = { 0 } = span(∅), U1 = span(v1 ), U2 = span(v1 , v2 ), …, Un = V = span(v1 , …, vn ).
Wichtige Ergebnisse über die Dimension von Unterräumen sind:
Dimension von Unterräumen
Ist V endlich-dimensional und U ein Unterraum von V, so ist U endlichdimensional und dim(U) ≤ dim(V). Ist dim(U) = dim(V), so ist U = V.
Sind U, W Unterräume von V, so gilt die Dimensionsformel:
dim(U) + dim(W) = dim(U ∩ W) + dim(span(U ∪ W)).
Der Leser vergleiche die Dimensionsformel für Unterräume mit der Anzahlformel für
endliche Mengen A, B: |A| + |B| = |A ∩ B| + |A ∪ B|.
Beispiele
(1) Sei V = ⺢3 , und seien U und W zwei verschiedene Ebenen durch den Nullpunkt. Dann ist span(U ∪ W) = V, denn ist (u1 , u2 ) eine Basis von U, so ist
(u1 , u2 , v) für alle v ∈ W − U eine Basis von V. Nach der Dimensionsformel ist
dim(U ∩ W) = dim(U) + dim(W) − dim(span(U ∪ W)) = 2 + 2 − 3 = 1.
Damit ist U ∩ W eine Gerade durch den Nullpunkt.
(2) Sind U, W Unterräume eines Vektorraums V mit U ∩ W = { 0 }, so ist
dim(span(U ∪ W)) = dim(U) + dim(W) − dim({ 0 }) = dim(U) + dim(W).
86
3. Vektorräume
3. 9 Die Existenz von Basen
Satz (allgemeiner Basisexistenz- und Basisergänzungssatz)
Jeder Vektorraum V besitzt eine Basis. Genauer gilt: Ist A0 ⊆ V linear unabhängig,
so existiert eine Basis B von V mit B ⊇ A0 .
Unter den unendlich-dimensionalen Vektorräumen konnten wir bislang nur für die Vektorräume der Form K(I) eine Basis angeben. Der Satz
besagt nun, dass jeder Vektorraum eine Basis besitzt, und stärker, dass der Basisergänzungssatz
für jeden Vektorraum gilt. Speziell gibt es Basen
des ⺢⺞ , des ⺢⺢ und des ⺡-Vektorraums ⺢.
Der Basisexistenzsatz nimmt eine besondere
Stellung in der Linearen Algebra ein: Er lässt
sich nur mit Hilfe des Auswahlaxioms beweisen
(und ist sogar äquivalent zu diesem Axiom, vgl.
1. 11). Die natürliche Frage „Hat jeder Vektorraum eine Basis?“ ist überraschenderweise mit
den Grundlagen der Mathematik verknüpft.
Der Beweis des Satzes wird üblicherweise mit
Hilfe des Zornschen Lemmas geführt (vgl.
1.12). Abgesehen von diesem abstrakten Hilfsmittel ist der Beweis überraschend kurz. Er ist
zudem typisch für andere Anwendungen des
Zornschen Lemmas, wie sie in der Algebra und
Funktionalanalysis auftauchen. Sei
Ꮾ = { A ⊆ V | A ist linear unabhängig }.
Ist Ꮽ eine bzgl. der Inklusion linear geordnete
Teilmenge von Ꮾ, d.h., gilt A1 ⊆ A2 oder A2 ⊆ A1
für alle A1 , A2 ∈ Ꮽ, so ist die Menge
艛Ꮽ
S=艛Ꮽ
Das durch die Inklusion ⊆ partiell geordnete System aller
linear unabhängigen
...
...
...
Teilmengen von V
erfüllt die Kettenbedingung, denn die
Vereinigung einer
Kette linear unabhängiger Mengen
...
ist linear unabhän-
Ꮽ
gig. Damit ist das
Zornsche Lemma
anwendbar.
Im Diagramm ist
Ꮽ eine Kette und
S = 艛 Ꮽ. S ist eine
...
obere Schranke von
Ꮽ. Ketten können
sehr lang sein, eine
mit Hilfe der natürlichen Zahlen gebildete
A0
schrittweise Erweiterung einer linear unabhängigen Menge
A0 führt in der Regel nicht zu einer Basis.
= { v ∈ V | es gibt ein A ∈ Ꮽ mit v ∈ A }
linear unabhängig, also ein Element von Ꮾ. Das Zornsche Lemma liefert nun die Existenz
eines ⊆-maximalen Elements B ∈ Ꮾ. Nach Konstruktion ist B eine linear unabhängige
Menge von Vektoren, die sich nicht mehr vergrößern lässt, ohne die lineare Unabhängigkeit zu zerstören. Damit ist B eine Basis von V. Der allgemeine Basisergänzungssatz wird
genauso bewiesen, wobei man nun mit dem folgenden Mengensystem arbeitet:
ᏮA0 = { A ⊆ V | A ist linear unabhängig und A0 ⊆ A }.
Die Vektorraumtheorie bleibt unvollständig, wenn die Frage der Existenz von Basen
nicht angesprochen wird. Andererseits muss ein Anfänger hier auch nicht zu tief einsteigen. Wir beenden diese Sektion mit zwei Exkursen, die sich an interessierte Leser wenden, die mehr wissen wollen.
3. 9 Die Existenz von Basen
87
Exkurs I: Hamel-Basen
Wir betrachten den ⺡-Vektorraum ⺢. Der Skalarenkörper ist hier „künstlich“ auf
die rationalen Zahlen beschränkt, die Vektoren sind dagegen beliebige reelle Zahlen.
Eine Basis B dieses Vektorraums nennt man auch eine Hamel-Basis. Ist B ⊆ ⺢ eine
Hamel-Basis, so lässt sich jede reelle Zahl x eindeutig schreiben als
x = q1 b 1 + … + q n b n
(#)
mit n ≥ 0 und q i ∈ ⺡*, b i ∈ B für alle 1 ≤ i ≤ n. Die explizite Angabe einer HamelBasis ist unmöglich, die Basis B bleibt abstrakt, nur das Auswahlaxiom garantiert die
Existenz. Hamel-Basen erlauben jedoch bemerkenswerte Konstruktionen. Für ein
Beispiel betrachten wir additive Funktionen f : ⺢ → ⺢, also Funktionen mit der
Eigenschaft
f(x + y) = f(x) + f(y) für alle x, y ∈ ⺢.
Jede Gerade g : ⺢ → ⺢ durch den Nullpunkt ist additiv, und man kann zeigen, dass
eine stetige additive Funktion eine Gerade durch den Nullpunkt ist. Mit Hilfe von
Hamel-Basen lassen sich nun aber auch unstetige additive Funktionen konstruieren.
Wir definieren hierzu f : ⺢ → ⺢ durch
f(x) = q1 + … + qn ∈ ⺡, mit x = q1 b1 + … + qn bn wie in (#).
Die rationale Zahl f(x) ist also die Summe der Einträge des Koordinatenvektors vB
von v bzgl. B. Die Funktion f ist additiv. Aber es gilt Bild(f ) = ⺡, denn ist b ∈ B
beliebig, so gilt f(q b) = q für alle q ∈ ⺡. Nach dem Zwischenwertsatz ist f unstetig, denn eine stetige Funktion nimmt mit q < r auch alle Werte in [ q, r ] an.
Exkurs II: Moduln
Ein Vektorraum ist mit einem Skalarenkörper K ausgestattet. Allgemeiner kann
man statt eines Körpers einen Ring zugrunde legen. Die Axiome bleiben gleich.
Statt von Vektorräumen spricht man dann von Moduln. („Modul“ wird auf dem „o“
betont, nicht auf dem „u“.) Ein Modul fühlt sich an wie ein Vektorraum, wir dürfen
aber im Allgemeinen nicht mehr durch Skalare α ≠ 0 dividieren. Bemerkenswerterweise ist der Basisexistenzsatz für Moduln nicht mehr gültig. Es gibt sogar endliche
Moduln, die keine Basis besitzen. Ein Beispiel liefert das Rechnen in ⺪ modulo 4,
also der Modul ⺪4 = { [ 0 ], [ 1 ], [ 2 ], [ 3 ] } über dem Skalarenring ⺪. Die Skalarmultiplikation wird wie üblich durch a [ k ] = [ a k ] für alle a ∈ ⺪ und [ k ] ∈ ⺪4 erklärt.
Dieser Modul hat keine Basis, denn für alle [ k ] ∈ ⺪4 ist ( [ k ] ) linear abhängig, da
0 = [ 0 ] = [ 4 k ] = 4 [ k ] eine nichttriviale Darstellung der Null ist.
Interessant ist auch der Modul ⺪ über dem Skalarenring ⺪. Hier gilt:
(a) (1) ist eine Basis,
(b) (2, 3) ist erzeugend (da a = a 3 − a 2 für alle a ∈ ⺪),
(c) (2, 3) ist linear abhängig (da 3 ⋅ 2 − 2 ⋅ 3 = 0),
(d) es gibt keine Basis B ⊆ (2, 3) (da weder (2) noch (3) erzeugend ist).
88
3. Vektorräume
3. 10 Summen von Vektorräumen
Definition (äußere und innere Summen)
Äußere Summe
Sei (Vi )i ∈ I eine Familie von Vektorräumen. Dann definieren wir die äußere
Summe W der Vektorräume Vi durch
W = { f ∈ ∏ i ∈ I Vi | supp(f ) ist endlich }, wobei
supp(f ) = { i ∈ I | f(i) ≠ 0 }
der Träger von f ist. In Zeichen schreiben wir
W = ⊕i ∈ I Vi .
Innere Summe
Sei V ein Vektorraum, und seien W1 , …, Wn Unterräume von V. Dann setzen wir
W1 + … + Wn = { w1 + … + wn | wi ∈ Wi für alle i ∈ I } .
Allgemeiner definieren wir für eine Familie (Wi )i ∈ I von Unterräumen von V:
∑ i ∈ I Wi = { ∑ j ∈ J wj | J ⊆ I ist endlich, wj ∈ Wj für alle j ∈ J }.
Die Unterräume W1 + … + Wn bzw. ∑ i ∈ I Wi von V nennen wir die innere
Summe der Unterräume Wi .
Eine innere Summe heißt direkt, falls jeder Vektor w1 + … + wn bzw. ∑ j ∈ J wj der
Definition der Summe nur dann gleich 0 ist, wenn alle Summanden wj null sind.
Wir schreiben dann
W = W1 ⊕ … ⊕ Wn bzw.
W3
W2
W = ⊕i ∈ I Wi .
Die Summen lassen sich mit bekannten Konstruktionen erläutern:
w1
w2
w3
0
W1
Äußere Summen
Sei W = ⊕i ∈ I Vi eine äußere
Die Summe
Summe. Ist I endlich, so ist
⺢2 = W1 + W2 + W3
W = ∏ i ∈ I Vi , d. h., die äußere
ist nicht direkt.
Summe ist dann einfach das
endliche Produkt der Vi . Ist
I unendlich, so ist W ein Unterraum von ∏ i ∈ I Vi . Der Unterraum W besteht aus
allen Vektoren des Produkts, die an an höchstens endlich vielen Stellen von 0 verschieden sind. Damit sind die Vektorräume V(I) (vgl. 3. 3) spezielle äußere Summen:
V(I) = ⊕i ∈ I V = { f ∈ V I | supp(f ) ist endlich }.
Insbesondere ist K[ X ] = K(⺞) = ⊕n ∈ ⺞ K.
3. 10 Summen von Vektorräumen
89
Innere Summen
Die innere Summe kann man auch über den Spann erklären, denn
W1 + … + Wn = span(W1 ∪ … ∪ Wn ),
∑ i ∈ I Wi = span(艛i ∈ I Wi ).
Die innere Summe der Unterräume Wi ist also der kleinste Unterraum von V, der
alle Unterräume Wi umfasst.
Direkte innere Summen
Die Direktheit einer inneren Summe W = W1 + … + Wn lässt sich mit Hilfe des
Begriffs der linearen Unabhängigkeit so formulieren:
Picken wir aus den Summanden Wi je einen von 0 verschiedenen Vektor wi
heraus, so ist (w1 , …, wn ) stets linear unabhängig.
Analog bedeutet die Direktheit für eine allgemeine Summe W = ⊕i ∈ I Wi :
Picken wir aus endlich vielen Summanden Wj , j ∈ J, je einen von 0 verschiedenen
Vektor wj heraus, so ist (wj )j ∈ J stets linear unabhängig in W.
Verhältnis von äußeren und direkten inneren Summen
Ist W = W1 ⊕ … ⊕ Wn eine direkte innere Summe und W* = ⊕1 ≤ i ≤ n Wi die äußere
Summe der Vektorräume Wi , so haben wir die natürliche Korrespondenz
(w1 , …, wn ) ∈ W*
⯝
w1 + … + wn ∈ W.
Aufgrund der Direktheit von W liefert diese Entsprechung eine Bijektion
ϕ : W* → W,
ϕ(w1 , …, wn ) = w1 + … + wn für alle (w1 , …, wn ) ∈ W*.
(Genauer ist ϕ ein Vektorraum-Isomorphismus zwischen W und W* im Sinne von
4. 5.) Analoges gilt für allgemeine äußere und direkte innere Summen. Damit ist die
doppelte Verwendung des Zeichens ⊕ in der Regel harmlos, wenn man die Unterschiede der beiden Konstruktionen vor Augen hat.
Beispiele
(1) Sind W1 eine Gerade und W2 eine Ebene im ⺢3 durch den Nullpunkt mit
W1 ∩ W2 = { 0 }, so gilt ⺢3 = W1 ⊕ W2 . Ebenso ist ⺢3 = { 0 } ⊕ ⺢3 .
(2) Sind W1 , W2 , W3 ⊆ ⺢2 paarweise verschiedene Geraden durch den Nullpunkt,
so gilt Wi ∩ Wj = { 0 } für alle i ≠ j. Aber die Summe W1 + W2 + W3 = ⺢2 ist
nicht direkt.
(3) Aus der Dimensionsformel in 3. 8 folgt, dass eine endliche innere Summe
W = W1 + … + Wn
in einem Vektorraum der endlichen Dimension m genau dann direkt ist, wenn
dim(W1 ) + … + dim(Wn ) = m.
90
3. Vektorräume
3. 11 Quotientenräume
Definition (Quotientenraum)
Sei V ein K-Vektorraum, und sei U ein Unterraum von V. Dann definieren wir eine
Äquivalenzrelation ⬃ auf V durch
v ⬃ w,
falls
v − w ∈U
für alle v, w ∈ V.
Auf der Faktorisierung V/U = { [ v ] | v ∈ V } = { v/⬃ | v ∈ V } definieren wir
[v] + [w] = [v + w]
für alle v, w ∈ V,
α ⋅ [v] = [αv]
für alle α ∈ K und v ∈ V.
Der so entstehende Vektorraum V/U heißt der Quotientenraum von V modulo U.
Eine Äquivalenzklasse [ v ] nennen wir auch eine Nebenklasse von V bzgl. U.
Die Idee ist, die Vektoren in U als
„unwesentlich“ zu betrachten und
Vektoren v und w in V miteinander
zu identifizieren, deren „Unterschied“ v − w unwesentlich ist.
Die Relation ⬃ ist eine Äquivalenz auf V und die Abbildungen +
und ⋅ sind wohldefiniert. Durch sie
wird V/U zu einem K-Vektorraum.
Die Klassen [ v ] sind die Vektoren
dieses Raums, die Skalare sind einfach die Skalare von V. Der Nullvektor des Quotientenraumes ist U. Für
alle v ∈ V gilt
w
w + U
U
v + U
0
v
Für eine Gerade U durch 0 in ⺢2 besteht ⺢2 /U
aus allen zu U parallelen Geraden [ v ] = v + U.
[ v ] = v + U, wobei v + U = { v + u | u ∈ U } .
Mit Blick auf die Faktorgruppen in 2. 7 ist die Konstruktion nicht neu: (V/U, +) ist die
Faktorgruppe der Gruppe (V, +) bzgl. der Untergruppe U. Da (V, +) abelsch ist, ist U ein
Normalteiler. Im Unterschied zur reinen Gruppentheorie kann auf der Faktorgruppe
V/U zudem eine Skalarmultiplikation erklärt werden, sodass V/U zu einem Vektorraum
wird.
Eigenschaften der Nebenklassen
[0] = 0 + U = U = 0
[ u ] = U für alle u ∈ U
∑ 1 ≤ i ≤ n αi [ vi ] = [ ∑ 1 ≤ i ≤ n αi vi ] für alle v1 , …, vn ∈ V, α1 , …, αn ∈ K
3.11 Quotientenräume
91
Beispiele
(1) Für U = { 0 } ist [ v ] = { v } für alle v ∈ V und damit
V/U = { [ v ] | v ∈ V } = { { v } | v ∈ V }.
(2) Für U = V ist [ v ] = V für alle v ∈ V und damit V/U = { V } = { [ 0 ] } = { 0 }.
(3) Ist U eine Gerade durch den Nullpunkt in der Ebene V = ⺢2 , so ist eine
Nebenklasse [ v ] = v + U eine zu U parallele Gerade. Der Quotientenraum V/U
besteht aus allen zu U parallelen Geraden. Analoges gilt für Geraden oder
Ebenen durch den Nullpunkt in ⺢3 .
(4) Sei V der ⺢-Vektorraum aller (Riemann-) integrierbaren 2π-periodischen
Funktionen f : ⺢ → ⺢ (V ist ein Unterraum des ⺢⺢ ). Dann ist
U = { f ∈V |
兰
2π
|f(x)| dx = 0 }
0
ein Unterraum von V. Zwei Funktionen f, g ∈ V sind äquivalent modulo U, falls
兰
2π
|f(x) − g(x)| dx = 0.
0
Der Quotientenraum V/U spielt in der Analysis in der Theorie der FourierReihen eine Rolle. Allgemein werden Quotientenräume dieser Art in der
Funktionalanalysis studiert.
Wir betrachten noch, wie sich Basen unter einer Faktorisierung V/U verhalten. Sei
hierzu V ein endlich-dimensionaler K-Vektorraum, und sei U ein Unterraum von V mit
dim(U) = k. Weiter sei (u1 , …, uk ) eine Basis von U und B = (v1 , …, vn , u1 , …, uk ) eine
Basis von V. Dann gilt für alle Skalare αi und βj
[ ∑ 1 ≤ i ≤ n α i v i + ∑ 1 ≤ j ≤ k β j uj ] = [ ∑ 1 ≤ i ≤ n α i v i ] + [ ∑ 1 ≤ j ≤ k β j u j ] =
∑ 1 ≤ i ≤ n αi [ vi ] + ∑ 1 ≤ j ≤ k β j 0 = ∑ 1 ≤ i ≤ n αi [ vi ],
sodass man den U-Anteil eines Vektors bezüglich der Basis B vernachlässigen kann. Die
Nebenklassen
[ v1 ], …, [ vn ] ∈ V/U
bilden eine Basis BU = ([ v1 ], …, [ vn ]) des Quotientenraums V/U. Also gilt
dim(V/U) = dim(V) − dim(U).
Ist vB = (α1 , …, αn , β1 , …, βk ) ∈ Kn + k der Koordinatenvektor eines Vektors v ∈V bezüglich
der Basis B, so ist
vBU = (α1 , …, αn ) ∈ Kn
der Koordinatenvektor von [ v ] ∈ V/U bezüglich BU .
92
3. Vektorräume
3. 12 Affine Unterräume und Koordinaten
Definition (affiner Unterraum, affine Kombination)
Sei V ein K-Vektorraum.
(a) Ein A ⊆ V heißt ein affiner Unterraum von V, falls A leer ist oder ein v ∈ V und
ein Unterraum U von V existieren mit
A = v + U = { v + u | u ∈U }.
(b) Ein w ∈ V heißt eine affine Kombination der Vektoren v1 , …, vn in V, falls Skalare
α1 , …, αn existieren mit:
w = α1 v 1 + … + α n v n ,
α1 = 3/10
α1 + … + αn = 1.
α2 = 7/10
β1 v 1
β2 v 2
β1 = 3/2
Die nichtleeren affinen Unterräume von V sind also die um einen
Vektor v „verschobenen“ Unterräume von V (also alle Nebenklassen, vgl. 3. 11). Der Vektor v ist im
Gegensatz zu U nicht eindeutig
bestimmt. Es gilt
β2 = −1/2
v1
Zwei affine
A
v2
α2 v 2
Kombinationen
α1 v 1
von v1 und v2 in
einem affinen
0
Unterraum A
v + U = v′ + U′ genau dann, wenn U = U′ und v − v′ ∈ U.
Dass die leere Menge als affiner Unterraum gilt, ist eine nützliche Konvention (vgl. Abschnitt 4. 8). Im Kontrast dazu ist die leere Menge kein Unterraum von V.
Beispiele
(1) Die affinen Unterräume von ⺢ sind ∅ und alle einpunktigen Mengen { x }
(denn es gilt { x } = x + U für den Unterraum U = { 0 } von ⺢).
(2) Die affinen Unterräume von ⺢2 sind ∅, alle einpunktigen Mengen { v } und alle
Geraden { v0 + α v1 | α ∈ ⺢ } in der Ebene.
Affine Kombinationen sind zunächst lediglich spezielle Linearkombinationen. Den
Zusammenhang mit affinen Unterräumen zeigt:
Charakterisierung der affinen Unterräume
Sei V ein K-Vektorraum, und sei A ⊆ V. Dann sind äquivalent:
(a) A ist ein affiner Unterraum von V.
(b) A ist abgeschlossen unter affinen Kombinationen: Für alle
v1 , …, vn ∈ A und α1 , …, αn ∈ K mit α1 + … + αn = 1 ist
α1 v1 + … + αn vn ∈ A.
3. 12 Affine Unterräume und Koordinaten
93
Die Äquivalenz ist klar für A = ∅. Ist A = v + U ein affiner Unterraum von V, so haben affine
Kombinationen mit Vektoren in A die Form
α1 (v + u1 ) + … + αn (v + un ) = 1 v + α1 u1 + … + αn un ∈ v + U = A,
sodass A abgeschlossen unter affinen Kombinationen ist. Gilt umgekehrt (b) und ist v ∈ A
beliebig, so ist U = { w − v | w ∈ A } wegen w − w = 0 ∈ U und
α (w1 − v) + β (w2 − v) = (1 − α − β) v + α w1 + β w2 − v = w′ − v
ein Unterraum von V. Zudem gilt A = { v + w − v | w ∈ A } = v + U.
Aus der Charakterisierung erhalten wir:
Erzeugung von affinen Räumen
Für alle v0 , v1 , …, vn ∈ V ist A = { w | w ist eine affine Kombination von v0 , …, vn }
der kleinste affine Unterraum von V, der v0 , …, vn als Elemente enthält. Es gilt
A = v0 + span(v0 − v1 , …, v0 − vn ).
Wir erweitern nun noch den Basisbegriff auf affine Räume. Dabei beschränken wir uns
auf den endlich-dimensionalen Fall.
Definition (affine Basis, dim(A), affine und baryzentrische Koordinatenvektoren)
Sei A = v0 + U ein affiner Unterraum von V, und seien v1 , …, vn ∈ A. Dann heißt
(v0 , v1 , …, vn ) eine affine Basis und n die Dimension von A, falls (v1 − v0 , …, vn − v0 )
eine Basis von U ist. Für alle w ∈ A heißt das eindeutige n-Tupel (α1 , …, αn ) mit
w = v0 + α1 (v1 − v0 ) + … + αn (vn − v0 )
der affine Koordinatenvektor und das eindeutige (n + 1)-Tupel (λ0 , …, λn ) mit
w = λ0 v0 + λ1 v1 + … + λn vn , λ0 + … + λn = 1.
der baryzentrische Koordinatenvektor von w bzgl. (v0 , …, vn ).
Es gilt λ0 = 1 − (α1 + … + αn ) und λk = αk für alle 1 ≤ k ≤ n. In affinen Koordinaten ist
der Vektor v0 als „Ursprung“ des affinen Raums A ausgezeichnet, in baryzentrischen Koordinaten sind die Vektoren v0 , …, vn gleichberechtigt. Das Wort „Baryzentrum“ bedeutet „Schwerpunkt“. Die Namensgebung illustriert:
v2
Beispiel
Für alle v0 , v1 , v2 ∈ ⺢2 ist
w = v0 /3 + v1 /3 + v2 /3
der Schwerpunkt des durch
die Vektoren v0 , v1 , v2 definierten Dreiecks D. Es gilt
D = { λ0 v0 + λ1 v 1 + λ 2 v 2 |
λ0 + λ1 + λ2 = 1, λ 0, 1, 2 ≥ 0 }.
v1
v2 /3
v1 /3
0
v0 /3
v0
Kapitel 4
Lineare Abbildungen
96
4. Strukturerhaltende Abbildungen
4. 1 Gruppenhomomorphismen
Definition (Gruppenhomomorphismus)
Seien (G, ⴰ), (G′, ⴰ′) Gruppen. Eine Abbildung ϕ : G → G′ heißt ein (Gruppen-)
Homomorphismus, falls
ϕ(a ⴰ b) = ϕ(a) ⴰ′ ϕ(b) für alle a, b ∈ G.
Strukturerhaltende Abbildungen gehören wie die Unterstrukturen zu den Grundmotiven der Mathematik. Wir
beschränken uns hier auf die
Gruppen, allgemeiner könnten wir auch Homomorphismen zwischen Halbgruppen
betrachten.
Die Grundidee ist:
(Homomorphiebedingung)
ϕ(a)
a
aⴰb
ϕ(a) ⴰ′ ϕ(b)
ϕ(b)
b
Die Homomorphiebedingung ϕ(a ⴰ b) = ϕ(a) ⴰ′ ϕ(b)
Die Anwendung der Abbildung und die Ausführung der Operation sind vertauschbar.
Ist ϕ : G → G′ eine Abbildung und sind a, b ∈ G, so können wir zuerst c = a ⴰ b bilden
und dann ϕ anwenden. Wir erhalten so ϕ(c) ∈ G′. Wir können aber auch zuerst a und
b mit Hilfe von ϕ nach G′ schicken und dort ϕ(a) ⴰ′ ϕ(b) bilden. Die Homomorphiebedingung besagt, dass beide Wege zu dem selben Element von G′ führen:
ϕ(a ⴰ b) = ϕ(c) = ϕ(a) ⴰ′ ϕ(b).
Häufig gebraucht werden:
ϕ(e) = e′,
ϕ(a−1 ) = ϕ(a)−1 für alle a ∈ G.
Diese Eigenschaften lassen sich wie folgt einsehen. Es gilt
ϕ(e) = ϕ(e ⴰ e) = ϕ(e) ⴰ′ ϕ(e), sodass e′ = ϕ(e),
e′ = ϕ(e) = ϕ(a ⴰ a−1 ) = ϕ(a) ⴰ′ ϕ(a−1 ), sodass ϕ(a− 1 ) = ϕ(a)−1 .
Notationen
(1) Abbildungen zwischen Gruppen notieren wir auch in der Form
ϕ : (G, ⴰ) → (G′, ⴰ′). Dabei ist Def(ϕ) = G und Bild(ϕ) ⊆ G′.
(2) Umgekehrt erleichtert es oft die Notation, die Operationen gar nicht zu
erwähnen und etwa multiplikativ ϕ(ab) = ϕ(a) ϕ(b) zu schreiben, obwohl die
Operationen in G und G′ verschieden sein können.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_5, © Springer-Verlag Berlin Heidelberg 2015
4.1 Gruppenhomomorphismen
Beispiele
(1) Wir definieren ϕ : (⺢2 , +) → (⺢, +) durch
ϕ(a, b) = a für alle (a, b) ∈ ⺢2 .
Die Abbildung ϕ beschreibt die Projektion auf die erste Koordinate. Für alle
(a, b), (c, d) ∈ ⺢2 gilt:
ϕ((a, b) + (c, d)) = ϕ(a + c, b + d) = a + c = ϕ(a, b) + ϕ(c, d).
Also ist ϕ ein Homomorphismus.
(2) Die reelle Exponentialfunktion exp : (⺢, +) → (⺢*, ⋅) zur Basis e ist ein
Homomorphismus. Denn nach dem Additionstheorem der Analysis gilt
exp(x + y) = ex + y = ex ⋅ ey = exp(x) ⋅ exp(y) für alle x, y ∈ ⺢.
Gleiches gilt für die komplexe Exponentialfunktion exp : (⺓, +) → (⺓*, ⋅).
(3) Die komplexe Konjugation ϕ : (⺓, +) → (⺓, +) mit
ϕ(x + iy) = x − iy für alle x + i y ∈ ⺓
ist ein Homomorphismus. Denn für alle x1 + i y1 , x2 + i y2 ∈ ⺓ gilt
ϕ((x1 + iy1 ) + (x2 + iy2 )) = ϕ((x1 + x2 ) + i (y1 + y2 )) =
x1 + x2 − i (y1 + y2 ) = x1 − i y1 + x2 − i y2 = ϕ(x1 + i y1 ) + ϕ(x2 + i y2 ).
Das Gleiche gilt, wenn wir (⺓*, ⋅) statt (⺓, +) zugrunde legen.
(4) Wir betrachten (⺪, +), eine beliebige Gruppe (G, ⴰ) und ein beliebiges a ∈ G.
Nun definieren wir ϕ : ⺪ → G durch
ϕ(n) = an für alle n ∈ ⺪.
Dann gilt
ϕ(n + m) = an + m = an ⴰ am = ϕ(n) ⴰ ϕ(m) für alle n, m ∈ ⺪.
Also ist ϕ ein Homomorphismus. Spezialfälle sind
ϕ : (⺪, +) → (⺪p *, ⋅), ϕ(n) = [a] n ,
wobei [ a ] = [ a ]p ∈ ⺪p *, p prim,
ϕ : (⺪, +) → (⺪m , +), ϕ(n) = n[a], wobei [ a ] = [ a ]m ∈ ⺪m , m ≥ 1.
(5) Für alle Gruppen G, G′ ist ϕ : G → G′ mit ϕ(a) = e′ für alle a ∈ G ein
Homomorphismus, der sog. triviale Homomorphismus von G nach G′.
(6) Für jede Gruppe G ist die Identität id : G → G ein Homomorphismus.
(7) Sind ϕ : G → G′ und ψ : G′ → G″ Homomorphismen, so ist auch die
Komposition ψ ⴰ ϕ : G → G″ ein Homomorphismus.
97
98
4. Strukturerhaltende Abbildungen
4. 2 Mono-, Epi-, Iso-, Endo- und Automorphismen
Definition (Typen von Homomorphismen, isomorphe Gruppen)
Seien G, G′ Gruppen.
(a) Ein Homomorphismus ϕ : G → G′ heißt
Monomorphismus, falls ϕ injektiv ist,
Epimorphismus, falls ϕ surjektiv ist,
Isomorphismus, falls ϕ bijektiv ist,
Endomorphismus, falls G = G′,
Automorphismus, falls G = G′ und ϕ bijektiv ist.
(b) G und G′ heißen isomorph, in Zeichen G ⬵ G′, falls ein Isomorphismus
ϕ : G → G′ existiert.
G
G′
Die aus dem Griechischen stammenden Vorsilben bestimmen die Bedeua
A
c = ab
C = AB
tung: „mono“ steht für „allein, einzig,
b
B
nur“ (Monolog, Monokultur), „epi“
für „auf“ (Epidemie), „iso“ für „gleich,
entsprechend“ (Isobaren, Isomere),
G″
„endo“ für „innerhalb“ (endogen, EnIsomorphe Gruppen
dogamie), „auto“ für „selbst“ (autounterscheiden sich nur
α
γ = αβ
nom, Autodidakt). Homomorphismen
durch die Namen ihrer
β
werden oft mit griechischen BuchstaElemente.
ben wie ϕ, ψ, π, Φ, Ψ, … bezeichnet.
Isomorphismen sind von besonderer Bedeutung. Ein Isomorphismus ist eine strukturerhaltende Bijektion. Er bringt, wie
jede Bijektion, die Elemente zweier Mengen in eine 1-1-Korrespondenz, sodass jedem
Element a der einen Menge genau ein Element ϕ(a) der anderen Menge entspricht. Zusätzlich erhält diese Korrespondenz die Struktur der Menge gemäß der Homomorphiebedingung. Eine anschauliche Interpretation ist:
Ein Isomorphismus ϕ : G → G′ ändert die Namen der Elemente:
a ∈ G erhält den neuen Namen ϕ(a) ∈ G′.
Die Isomorphie von G und G′ bedeutet dann:
G und G′ unterscheiden sich, bei einer geeigneten Umbenennung,
lediglich durch die Namen ihrer Elemente.
Der Zusatz „geeignet“ ist hier wichtig: Die Isomorphie zweier Gruppen involviert einen
Existenzquantor, denn G ⬵ G′ bedeutet: Es gibt einen Isomorphismus ϕ : G → G′.
4. 2 Mono-, Epi-, Iso-, Endo- und Automorphismen
99
Wir betrachten einige Beispiele. Die ersten sieben Beispiele entsprechen dabei den sieben Beispielen des vorherigen Abschnitts.
Beispiele
(1) Die Projektion ϕ : (⺢2 , +) → (⺢, +) auf die erste Koordinate ist ein Epimorphismus, aber kein Monomorphismus (da zum Beispiel ϕ(0, 1) = ϕ(0, 0) = 0).
(2) Die reelle Exponentialfunktion exp : (⺢, +) → (⺢*, ⋅) ist ein Monomorphismus,
aber kein Epimorphismus (da zum Beispiel −1 nicht angenommen wird).
Dagegen ist exp : (⺢, +) → (⺢+ , ⋅) ein Isomorphismus.
(3) Die komplexe Konjugation ϕ : (⺓, +) → (⺓, +) ist ein Automorphismus.
(4) Die Potenzierung ϕ : (⺪, +) → (G, ⴰ) zur Basis a ∈ G mit ϕ(n) = an für alle n ist
im Allgemeinen weder ein Mono- noch ein Epimorphismus. Wird G durch a
erzeugt, so ist ϕ ein Epimorphismus. Ist an ≠ e für alle n ≥ 1, so ist ϕ ein
Monomorphismus.
(5) Der triviale Homomorphismus ϕ : G → G′ ist für G ≠ { e } kein Monomorphismus und für G′ ≠ { e′ } kein Epimorphismus.
(6) Für alle Gruppen G ist die Identität id : G → G ein Automorphismus. Damit
ist G isomorph zu sich selbst.
(7) Sind ϕ : G → G′ und ψ : G′ → G″ Homomorphismen eines bestimmten
Typs, so hat auch ψ ⴰ ϕ : G → G″ diesen Typ. Insbesondere ist die IsomorphieRelation transitiv: Ist G isomorph zu G′ und weiter G′ isomorph zu G″, so ist G
isomorph zu G″.
(8) Ist ϕ : G → G′ ein Isomorphismus, so auch ϕ−1 : G′ → G. Damit ist die
Isomorphie symmetrisch: Ist G isomorph zu G′, so ist G′ isomorph zu G.
(9) Ist N ein Normalteiler von G, so ist die Abbildung π : G → G/N mit π(a) = a N
für alle a ∈ G wohldefiniert und ein Epimorphismus. Sie heißt die natürliche
Projektion von G auf G/N.
Ist also Ᏻ eine Menge von Gruppen, ist die Relation ⬵ eine Äquivalenzrelation auf Ᏻ.
Die Beispiele zeigen weiter, dass Gruppenhomomorphismen Anlass zur Definition neuer
Gruppen geben. Für jede Gruppe G ist
Aut(G) = { ϕ : G → G | ϕ ist ein Automorphismus }
eine Gruppe unter der Komposition. Sie heißt die Automorphismengruppe von G und ist
eine Untergruppe der Permutationsgruppe SG aller Bijektionen von G nach G (vgl. 2. 3).
Für G ≠ { e } ist Aut(G) eine echte Untergruppe von SG . Denn sind a, e ∈ G verschieden,
so ist die Permutation f : G → G mit f(a) = e, f(e) = a, f(b) = b für alle anderen b kein Automorphismus (da f(e) ≠ e). Weiter ist Aut(G) die Gruppe der invertierbaren Elemente des
Monoids End(G) = { ϕ : G → G | ϕ ist ein Endomorphismus }.
100
4. Strukturerhaltende Abbildungen
4. 3 Kern und Bild
Definition (Kern und Bild eines Homomorphismus)
Sei ϕ : G → G′ ein Gruppenhomomorphismus. Dann setzen wir
Kern(ϕ) = { a ∈ G | ϕ(a) = e′ },
ϕ
G
G′
Bild(ϕ) = { ϕ(a) | a ∈ G }.
Die Mengen Kern(ϕ) und
Bild(ϕ) heißen der Kern
bzw. das Bild von ϕ.
Nach Definition ist der Kern
von ϕ : G → G′ eine Teilmenge
des Definitionsbereichs G von
ϕ, während das Bild von ϕ eine
Teilmenge des Wertevorrats G′
von ϕ ist. Als Faustregel kann
e
e′
Kern(ϕ)
Neben e können weitere Elemente von G auf das neutrale
Element e′ von G abgebildet werden. Die Menge dieser
Elemente ist Kern(ϕ).
ϕ
G
G′
e
e′
Bild(ϕ)
Kern links und Bild rechts
helfen. Es ist wichtig, die beiden
In Bild(ϕ) werden alle Werte von ϕ gesammelt.
Welten G und G′ zu trennen,
wenn G ≠ G′.
Kern und Bild lassen sich mit den allgemeinen Abbildungsbegriffen beschreiben:
Kern(ϕ) = ϕ−1 [ { e′ } ] = „das Urbild von { e′ } unter ϕ“ = „die Faser von ϕ über e′ “,
Bild(ϕ) = ϕ[ G ] = „der Wertebereich von ϕ“.
Damit sind Kern und Bild streng genommen nichts Neues. Sie spielen aber für die Beschreibung von Homomorphismen eine so bedeutende Rolle, dass sich eine eigene Begriffsbildung lohnt. Wichtige Eigenschaften sind:
Kern und Bild eines Gruppenhomomorphismus ϕ : G → G′
Kern(ϕ) ist ein Normalteiler von G.
Bild(ϕ) ist eine Untergruppe von G′.
ϕ ist genau injektiv, wenn Kern(ϕ) = { e }.
ϕ ist genau dann surjektiv, wenn Bild(ϕ) = G′.
Wir weisen zur Illustration die Eigenschaften des Kerns nach. Dabei notieren wir die
Gruppenoperationen von G und G′ multiplikativ.
4. 3 Kern und Bild
101
Kern(ϕ) ist ein Normalteiler von G
Wegen ϕ(e) = e′ ist e ∈ Kern(ϕ) und damit Kern(ϕ) ≠ ∅. Für a, b ∈ Kern(ϕ) ist
ϕ(ab−1 ) = ϕ(a) ϕ(b−1 ) = ϕ(a) ϕ(b)−1 = e′ e′ −1 = e′,
sodass ab−1 ∈ Kern(ϕ). Nach dem Untergruppenkriterium ist also Kern(ϕ) eine
Untergruppe von G.
Für „Normalteiler“ seien a ∈ G und b ∈ Kern(ϕ). Dann gilt
ϕ (a b a−1 ) = ϕ(a) ϕ(b) ϕ(a−1 ) = ϕ(a) e ϕ(a)−1 = ϕ(a) ϕ(a)−1 = e′.
Also gilt a b a−1 ∈ Kern(ϕ). Dies zeigt, dass Kern(ϕ) ein Normalteiler ist (vgl. 2. 7).
ϕ ist genau dann injektiv, wenn Kern(ϕ) = { e }
Sei ϕ injektiv. Wegen ϕ(e) = e′ gilt { e } ⊆ Kern(ϕ). Da ϕ injektiv ist, hat e′ höchstens
ein Urbild unter ϕ, sodass Kern(ϕ) ⊆ { e }. Damit ist Kern(ϕ) = { e }.
Sei umgekehrt Kern(ϕ) = { e } und seien a, b ∈ G mit ϕ(a) = ϕ(b). Dann gilt
ϕ(ab−1 ) = ϕ(a) ϕ(b)−1 = ϕ(a) ϕ(a)−1 = e′.
Also ist ab−1 ∈ Kern(ϕ) und damit ab−1 = e, also a = b. Dies zeigt, dass ϕ injektiv ist.
Die Untergruppe Bild(ϕ) ist im Allgemeinen kein Normalteiler. Ist G eine Gruppe und
H eine Untergruppe von G, die kein Normalteiler ist, so ist die Identität id : H → G ein
Homomorphismus, dessen Bild kein Normalteiler ist.
Beispiele
(1) Für die Projektion ϕ : (⺢2 , +) → (⺢, +) auf die erste Koordinate gilt
Kern(ϕ) = { 0 } × ⺢ = { (0, y) | y ∈ ⺢ }, Bild(ϕ) = ⺢.
(2) Sei ϕ : (⺪, ⋅) → (⺪5 *, ⋅) definiert durch
ϕ(a) = [ 2 ] a für alle a ∈ ⺪ (wobei [ 2 ] = [ 2 ]5 ),
sodass ϕ(0) = [ 1 ], ϕ(1) = [ 2 ], ϕ(2) = [ 4 ], ϕ(3) = [ 8 ] = [ 3 ], ϕ(4) = [ 16 ] = [ 1 ].
Dann gilt (vgl. 2. 6):
Kern(ϕ) = 4 ⺪ = { 0, 4, −4, 8, −8, … }, Bild(ϕ) = ⺪5 *.
(3) Sei ϕ : (⺪, +) → (⺪12 , +) definiert durch
ϕ(a) = a [ 2 ] für alle a ∈ ⺪ (wobei nun [ 2 ] = [ 2 ]12 ),
sodass ϕ(3) = [ 6 ], ϕ(6) = [ 12 ] = [ 0 ], ϕ(−1) = − [ 2 ] = [ 10 ] usw. Dann gilt
Kern(ϕ) = 6 ⺪ = { 0, 6, −6, … },
Bild(ϕ) = { [ 0 ], [ 2 ], [ 4 ], [ 6 ], [ 8 ], [ 10 ] }.
102
4. Strukturerhaltende Abbildungen
4. 4 Der Homomorphiesatz
Satz (Homomorphiesatz)
Sei ϕ : G → G′ ein Gruppenhomomorphismus.
Homomorphiesatz für Epimorphismen oder Isomorphiesatz
Ist ϕ ein Epimorphismus, so sind G/Kern(ϕ) und G′ isomorph. Genauer ist
ψ : G/Kern(ϕ) → G′, ψ(a Kern(ϕ)) = ϕ(a) für alle a ∈ G
ein Isomorphismus.
Allgemeiner Homomorphiesatz
Sei N ⊆ Kern(ϕ ) ein Normalteiler von G und π : G → G/N die natürliche
Projektion, d. h.
π(a) = a N für alle a ∈ G.
Dann existiert genau ein Homomorphismus ψ : G/N → G′ mit
ϕ = ψ ⴰ π.
ϕ
Zur Illustration der Sätze sind
kommutative Diagramme nützlich.
Zwei Abbildungswege führen von
G zu G′, und die Kommutativität
des Diagramms bedeutet, dass diese
Wege gleich sind.
Um uns den Sätzen zu nähern,
betrachten wir eine Surjektion
G
G′
π
ψ
G/N
Es gilt ϕ = ψ ⴰ π. Sind in einem Diagramm alle Wege,
f : A → A′
die von einer Menge in eine andere durch Anwendung von Funktionen und ihrer Komposition füh-
zwischen beliebigen Mengen A und
ren, gleich, so heißt das Diagramm kommutativ. Für
A′. Wir stellen uns f als eine Färden Homomorphiesatz liegt ein kommutatives Diabung vor, die jedes Element a von A
gramm vor.
mit einer Farbe f(a) in A′ einfärbt.
Die Surjektivität bedeutet, dass jede
Farbe in A′ tatsächlich als Farbe eines Elements in A vorkommt. Der Farbkasten A′ wird
also voll ausgenutzt. Wir definieren nun eine Äquivalenzrelation auf A durch
a ⬃ b,
falls
f(a) = f(b)
für alle a, b ∈ A.
Sie entspricht der Identifizierung von Elementen mit der gleichen Farbe. Für jedes a ∈ A
ist a/⬃ die Menge aller b ∈ A, die die Farbe f(a) haben. Da f surjektiv ist, ist die Anzahl der
Farbklassen a/⬃ gleich der Anzahl der Farben: Es gilt |A/⬃| = |A′|. Genauer ist die Abbildung g : A/⬃ → A′ mit
g(a/⬃) = f(a) für alle a ∈ A
4. 4 Der Homomorphiesatz
103
die sich aufdrängende oder, wie Mathematiker gerne sagen, „kanonische“ Bijektion zwischen den beiden Mengen. Färben wir also die Bücher einer Bibliothek mit fünf Farben,
so haben wir genau fünf Farbklassen (Mengen von Büchern gleicher Farbe) vorliegen.
Der Vorgang, die Menge der blauen Bücher auf die Farbe „blau“ abzubilden, ist so natürlich, dass er eigentlich kaum der Rede wert ist. Damit sind wir der abstrakten, aber letztendlich auch einfachen Aussage des Epimorphiesatzes bereits sehr nahe. Im Unterschied
zu reinen Surjektionen bleibt nun zusätzlich die algebraische Struktur erhalten, wir betrachten also strukturerhaltende Färbungen. Die Operation ⴰ′ auf G′ können wir als algebraische „Farbmischung“ ansehen: Erhält a die Farbe ϕ(a) und b die Farbe ϕ(b), so erhält
a ⴰ b die „Mischfarbe“ ϕ(a) ⴰ′ ϕ(b).
Beispiel
(1) Sei ϕ : (⺢2 , +) → (⺢, +) die Projektion auf die erste Koordinate. Für alle x ∈ ⺢
sei Sx = { x } × ⺢ = { (x, y) | y ∈ ⺢ } die Senkrechte durch (x, 0). Dann ist ϕ ein
Epimorphismus mit Kern(ϕ) = S0 (y-Achse). Es gilt
G/Kern(ϕ) = { (x, y) + S0 | (x, y) ∈ ⺢2 } = { Sx | x ∈ ⺢ },
ψ(Sx ) = x für alle x ∈ ⺢.
Die Faktorgruppe ⺢2 /Kern(ϕ) besteht also aus allen zur x-Achse senkrechten
Geraden. Der Isomorphismus ψ : ⺢2 /Kern(ϕ) → ⺢ gibt den Schnittpunkt
dieser Geraden mit der x-Achse an.
(2) Sei ϕ : (⺪, +) → (⺪10 , +) der Vervielfachungs-Homomorphismus mit
ϕ(a) = a [ 3 ]10 für alle a ∈ ⺪.
Dann gilt Kern(ϕ) = 10⺪ und Bild(ϕ) = ⺪10 . Damit ist
⺪/Kern(ϕ) = ⺪/10⺪ = ⺪10 .
Es gilt also G/Kern(ϕ) = G′. Für ψ : ⺪10 → ⺪10 gilt
ψ([ a ]10 ) = ϕ(a) = a [ 3 ]10
für alle a ∈ ⺪.
Der konstruierte Isomorphismus ψ : ⺪10 → ⺪10 ist nicht die Identität.
Im allgemeinen Homomorphiesatz identifizieren wir für N ≠ Kern(ϕ) weniger Objekte
miteinander als möglich. In Analogie zu den Farben: Wir teilen die gleichfarbigen Bücher
zusätzlich in „Taschenbücher“ und „fester Einband“ oder in verschiedene Sprachen ein.
Wir halten damit einige Merkmale fest, die ϕ ignoriert.
Beispiel
Sei ϕ : (⺪, +) → (⺪8 , +) definiert durch ϕ(a) = a [ 2 ]8 für alle a, sodass Kern(ϕ) = 4⺪.
Für den Normalteiler N = 16 ⺪ ⊆ Kern(ϕ) von ⺪ gilt ⺪/N = ⺪16 . Für die Abbildungen π : ⺪ → ⺪16 , ψ : ⺪16 → ⺪8 wie im Homomorphiesatz ist
π(a) = [ a]16 , ψ([ a ]16 ) = ϕ(a) = a [ 2 ]8 für alle a ∈ ⺪.
104
4. Strukturerhaltende Abbildungen
4. 5 Lineare Abbildungen
Definition (lineare Abbildung)
Seien V, W K-Vektorräume. Dann heißt eine Abbildung f : V → W linear, falls gilt:
(a) f : (V, +) → (W, +) ist ein Gruppenhomomorphismus, d. h.,
f(v + w) = f(v) + f(w) für alle v, w ∈ V,
(b) f(α v) = α f(v) für alle α ∈ K und v ∈ V.
Eine lineare Abbildung f : V → W
ist also ein Homomorphismus zwischen den additiven Vektorgruppen,
der zusätzlich die Skalarmultiplikation
respektiert. Für lineare Abbildungen
sind f, g, F, G, … üblicher als ϕ,ψ, π, …
Die Bedingungen (a) und (b) lassen
sich zusammenfassen:
αv
(Skalierungseigenschaft)
α f(v)
αv + βw
βw
α f(v) + β f(w)
β f(w)
(+) f(α v + β w) = α f(v) + β f(w) für alle α, β ∈ K und v, w ∈ V.
Setzt man α = β = 1, so erhält man (a); w = 0, β = 0 liefert (b).
Da eine lineare Abbildung f : V → W ein Homomorphismus ist, stehen die Begriffe
und Ergebnisse der vorangehenden Abschnitte zur Verfügung:
f ist ein Mono-, Epi-, Iso-, Endo- bzw. Automorphismus, wenn
f injektiv, f surjektiv, f bijektiv, V = W bzw. V = W und f bijektiv ist.
Kern(f ) = { v ∈ V | f(v) = 0 } ist ein Unterraum von V,
Bild(f ) = { f(v) | v ∈ V } ist ein Unterraum von W.
Isomorphiesatz für Vektorräume
Ist f : V → W ein Epimorphismus, so ist g : V/Kern(f ) → W mit
g(v + Kern(f )) = f(v) für alle v ∈ V
ein Isomorphismus zwischen dem Quotientenraum V/Kern(f ) und W.
Neu kommt hinzu:
f ist genau dann ein Monomorphismus, wenn f lineare Unabhängigkeit erhält.
f ist genau dann ein Epimorphismus, wenn f Erzeugendensysteme erhält.
f ist genau dann ein Isomorphismus, wenn f Basen erhält.
4. 5 Lineare Abbildungen
105
Die Erhaltungseigenschaften bedeuten: Ist A ⊆ V linear unabhängig (erzeugend, eine
Basis), so ist auch f [ A] = { f(v) | v ∈ A } linear unabhängig (erzeugend, eine Basis). Wir sagen auch: „Ein Isomorphismus übersetzt Basen in Basen“ usw.
Beispiele
(1) Die Projektion f : ⺢2 → ⺢ auf die erste Koordinate ist linear.
(2) Die Vertauschung f : ⺢2 → ⺢2 mit f(x, y) = (y, x) für alle (x, y) ∈ ⺢2 ist linear.
(3) Die Drehung f ϕ : ⺢2 → ⺢2 , die (x, y) ∈ ⺢2 auf den um den Winkel ϕ gegen den
Uhrzeigersinn gedrehten Vektor abbildet, ist linear.
(4) Sei K ein Körper und seien n, m ≥ 1. Weiter seien α i,j ∈ K für alle 1 ≤ i ≤ m und
alle 1 ≤ j ≤ n. Wir definieren f : Kn → Km durch
f(x1 , …, xn ) = (y1 , …, ym ),
wobei
y1 = α 1, 1 x1 + α 1, 2 x2 + … + α 1, n xn ,
y2 = α 2, 1 x1 + α 2, 2 x2 + … + α 2, n xn ,
…
ym = α m, 1 x1 + α m, 2 x2 + … + α m, n xn .
Dann ist f linear. Wir werden in 4. 7 sehen, dass jede lineare Abbildung
zwischen den Vektorräumen Kn und Km so definiert werden kann.
(5) Seien [ a, b ] ⊆ ⺢ und p ∈ [ a, b ]. Wir betrachten den ⺢-Vektorraum
V = { f : [ a, b ] → ⺢ | f ist differenzierbar in p } und
D : V → ⺢ mit D(f ) = f ′(p) für alle f ∈ V.
Dann ist D linear. Ebenso ist für W = { f : [ a, b ] → ⺢ | f ist integrierbar }
die Abbildung I : W → ⺢ linear, wobei
I(f ) =
兰
b
a
f(x) dx
für alle f ∈ W.
Exkurs: Die Skalierungseigenschaft muss gefordert werden
Ist f : (V, +) → (W, +) ein Homomorphismus und K ⊇ ⺡, so gilt
f(q v) = q f(v) für alle q ∈ ⺡ und v ∈ V,
wie man durch Verallgemeinerung von
f(v + v) = f(v) + f(v) = 2 f(v) und f(v) = f(v/2 + v/2) = 2 f(v/2)
zeigt. Mit Hilfe einer Hamel-Basis des ⺡-Vektorraumes ⺢ lässt sich ein Homomorphismus konstruieren, der die Skalierungseigenschaft verletzt. Sei hierzu f : ⺢ → ⺡
wie in 3. 9 additiv und unstetig mit Bild(f ) = ⺡. Dann gilt (a), aber (b) ist verletzt.
Denn für v ∈ ⺢ mit f(v) = 1 gilt f(兹2 v) ≠ 兹2 f(v) = 兹2, da f(兹2 v) ∈ ⺡.
106
4. Strukturerhaltende Abbildungen
4. 6 Konstruktion linearer Abbildungen
Satz (Konstruktionssatz)
Seien V, W K-Vektorräume,
(vi )i ∈ I eine Basis von V und
(wi )i ∈ I eine Familie in W.
Dann gibt es genau eine lineare Abbildung f : V → W
mit der Eigenschaft
2
w2 = f(e2 )
2
1
2
f [K]
Anders formuliert:
Zum Nachweis der Existenz
setzen wir
1
1
f(vi ) = wi für alle i ∈ I.
Die Werte einer linearen Abbildung
f lassen sich auf einer Basis
beliebig vorschreiben, und f ist durch
diese Werte eindeutig bestimmt.
w1 = f(e1 )
1
2
Es gibt genau eine lineare Abbildung f : ⺢2 → ⺢2 mit
f(e1 ) = w1 = (1, 1) und f(e2 ) = w2 = (−2, 1). Damit ist
durch die beiden Werte insbesondere das Bild f [K ] des
Einheitskreises K = { (x, y) ∈ ⺢2 | x2 + y2 = 1 } festgelegt.
Wir werden in Kapitel 8 zeigen, dass f [ K ] für jede
Wahl von w1 und w2 eine Ellipse ist.
f(v) = ∑ i ∈ I αi wi für alle v = ∑ i ∈ I αi vi ∈ V.
Durch die Eindeutigkeit der Darstellung von Vektoren in V bzgl. (vi )i ∈I entsteht so eine
wohldefinierte Abbildung f : V → W mit f(vi ) = wi für alle i ∈ I. Man überprüft leicht, dass
f linear ist. Sind umgekehrt f, g : V → W linear mit
f(vi ) = wi = g(vi ) für alle i ∈ I,
so gilt für alle v = ∑ i ∈ I α i vi ∈ V, dass
f(v) = ∑ i ∈ I αi f(vi ) = ∑ i ∈ I αi wi = ∑ i ∈ I αi g(vi ) = g(v).
Beispiele
(1) Sei (e1 , e2 , e3 ) die kanonische Basis des ⺢3 . Dann gibt es genau eine lineare
Abbildung f : ⺢3 → ⺢4 mit
f(e1 ) = (1, 0, 1, 1), f(e2 ) = (1, 0, 1, 1), f(e3 ) = (0, 1, 0, 1).
(2) Seien f, g : ⺢2 → ⺢2 lineare Abbildungen mit
f(1, 1) = g(1, 1), f(1, 2) = g(1, 2).
Dann gilt f = g, da (1, 1) und (1, 2) eine Basis des ⺢2 bilden.
(3) Sei f : ⺢2 → ⺢2 eine lineare Abbildung mit
f(1, 0) = (0, 1), f(0, 1) = (−1, 0).
Dann ist f die Drehung um π/2 gegen den Uhrzeigersinn.
Eine wichtige Folgerung des Konstruktionssatzes ist:
4. 6 Konstruktion linearer Abbildungen
107
Fortsetzungssatz für lineare Abbildungen
Seien V, W K-Vektorräume und sei U ein Unterraum von V. Weiter sei f : U → W
linear. Dann gibt es eine lineare Abbildung g : V → W mit g|U = f.
Ergänzen wir nämlich eine Basis (vi )i ∈ J von U zu einer Basis (vi )i ∈I , I ⊇ J, von V nach
dem Basisergänzungssatz (vgl. 3. 7 und 3. 9), so ist, mit einer beliebigen Familie (wi )i ∈ I − J
in W, die eindeutige lineare Abbildung g : V → W mit
⎧
⎭
f(vi ),
falls i ∈ J,
g(vi ) = ⎫
⎩
wi ,
falls i ∈ I − J
wie gewünscht. Speziell gilt dies für (wi )i ∈ I − J mit wi = 0 für alle i ∈ I − J.
Beispiele
(1) Seien V = W = ⺢3 , U = ⺢2 × { 0 } und sei f : U → ⺢3 die Drehung in der
x-y-Ebene um π/2 gegen den Uhrzeigersinn. Wir betrachten nun die aus
e1 = (1, 0, 0) und e2 = (0, 1, 0) gebildete Basis von U und ergänzen diese um
e3 = (0, 0, 1) zu einer Basis von ⺢3 . Der Vektor w3 = e3 liefert als Fortsetzung
g : ⺢3 → ⺢3 von f die Drehung um π/2 um die z-Achse im ⺢3 gegen den
Uhrzeigersinn. Das Bild von g ist ⺢3 . Der Vektor w3 = 0 liefert dagegen als
Fortsetzung g die Projektion im ⺢3 „(x, y, z) nach (x, y, 0)“ auf die x-y-Ebene,
gefolgt von der Drehung f um π/2 gegen den Uhrzeigersinn. Das Bild von g
ist hier U.
(2) Seien V = W = ⺢2 , U = ⺢ × { 0 } und f : U → ⺢2 die Identität auf U, sodass
f(x, 0) = (x, 0) für alle x ∈ ⺢.
Wir ergänzen die Basis (e1 ) von U zur kanonischen Basis (e1 , e2 ) von V. Dann
liefert der Vektor w2 = 0 die Fortsetzung g : ⺢2 → ⺢ von f mit
g(x, y) = g((x, 0) + (0, y)) = (x, 0) + y g(0, 1) = (x, 0) für alle (x, y) ∈ ⺢2 .
Ergänzen wir dagegen (e1 ) zur Basis (e1 , (1, 1)) des ⺢2 , so liefert der Vektor
w2 = 0 die Fortsetzung g von f mit
g(x, y) = g((x − y, 0) + y (1, 1)) = (x − y, 0) + y g(1, 1) = (x − y, 0)
für alle (x, y) ∈ ⺢2 .
Wir halten also fest:
Warnung
Für die Vorgabe „wi = 0 für alle i ∈ I − J“ gilt im Allgemeinen nicht, dass g(v) = 0
für alle v ∈ V − U. Weiter hängt die Fortsetzung g von f auch für diese Vorgabe in
der Regel von der Basis (vi )i ∈I ab. Man kann also nicht von der Nullfortsetzung von
f sprechen. Eindeutig ist g = „die Nullfortsetzung von f bzgl. der Basis (vi )i ∈I “.
108
4. Strukturerhaltende Abbildungen
4. 7 Darstellung linearer Abbildungen
Satz (Darstellungssatz)
Seien K ein Körper und n, m ≥ 1. Weiter sei f : Kn → Km linear. Dann gibt es
eindeutig bestimmte α i,j ∈ K, 1 ≤ i ≤ m, 1 ≤ j ≤ n, sodass
f(x1 , …, xn ) = (y1 , …, ym ) mit
y1 = α 1, 1 x1 + α 1, 2 x2 + … + α 1, n xn ,
y2 = α 2, 1 x1 + α 2, 2 x2 + … + α 2, n xn ,
…
ym = α m, 1 x1 + α m, 2 x2 + … + α m, n xn .
Ist ej der j-te kanonische Einheitsvektor des Kn , so gilt
(+) f(ej ) = (α 1, j , …, α m, j ) = „ j-te Spalte des rechteckigen α i, j -Schemas“.
Zum Beweis verwenden wir (+) zur Definition der α i, j . Dann gilt für alle (x1 , …, xn ) ∈ Kn :
f(x1 , …, xn ) = f(x1 e1 + … + xn en ) = x1 f(e1 ) + … + xn f(en ) =
x1 (α 1, 1 , …, α m, 1 ) + … + xn (α 1, n , …, α m, n ) =
(x1 α 1, 1 + … + xn α 1, n , … , x1 α m, 1 + … + xn α m, n ).
Damit gelten die y-Gleichungen des Satzes (wobei wir dort der Konvention folgen, die
α i, j vor den xj zu notieren). Einsetzen der Basisvektoren ej für (x1 , …, xn ) in die Gleichungen zeigt, dass die α i, j eindeutig bestimmt sind.
Beispiel
Sei f : ⺢2 → ⺢2 die Drehung
um π/4 gegen den Uhrzeigersinn. Mit β = 1/兹2 gilt
f(e2 ) = (−β, β)
f(e1 ) = (β, β)
0.5
f(1, 0) = β (1, 1),
f(0, 1) = β (−1, 1).
Folglich ist
0.5
0.5
0.5
f(x, y) = ( x, y)
mit
x = β x − β y,
y = β x + β y.
Die Drehung um π/4 gegen den Uhrzeigersinn ist bestimmt
durch die Bilder der Basisvektoren e1 und e2 . Mit Hilfe der
Koordinaten dieser beiden Werte können alle Werte leicht
berechnet werden.
4. 7 Darstellung linearer Abbildungen
109
Der Darstellungssatz gilt allgemeiner in der folgenden Form:
Allgemeiner Darstellungssatz
Sei f : V → W eine lineare Abbildung, und seien (vj ) j ∈J und (wi )i ∈I Basen von V
bzw. W. Dann gibt es eindeutige Skalare α i, j , (i, j) ∈ I × J, sodass
f (∑ j ∈ J λj vj ) = ∑ i ∈ I μi wi , mit
f
v1
v2
…
vj
…
w1
α 1, 1
α 1, 2
…
α 1, j
…
Die α i, j sind definiert durch
w2
α 2, 1
α 2, 2
…
α 2, j
…
(+) f(vj ) = ∑ i ∈ I α i, j wj
…
…
…
…
…
…
wi
α i, 1
α i, 2
…
α i, j
…
…
…
…
…
…
…
μi = ∑ j ∈ J α i, j λj für alle i ∈ I.
für alle j ∈ J, d.h., die Spalten des
α i, j -Schemas sind die Koordinatenvektoren bzgl. (wi )i ∈I der
Bilder der Basisvektoren (vj ) j ∈J .
αi, j ist der wi -Anteil von f(vj ) bzgl. (wi )i ∈ I .
Merkregel: Bei der α i, j -Darstellung von f : V → W verweist der Index j immer auf
V und der Index i immer auf W: vj ∈ V, wi ∈ W.
Obiger Darstellungssatz entspricht dem Spezialfall
V = Kn , (vj ) j ∈J = (e1 , …, ej , …, en ) = „die kanonische Basis des Kn “,
W = Km , (wi )i ∈I = (e1 , …, ei , …, em ) = „die kanonische Basis des Km “.
Im allgemeinen Satz können V und W unendlich-dimensional sein. Da auch die Basen beliebig sind, liefert dieser Satz aber auch im Endlich-Dimensionalen etwas Neues:
Beispiel
Sei wieder f : ⺢2 → ⺢2 die Drehung um π/4 gegen den Uhrzeigersinn. Seien
v1 = (1, 0), v2 = β (1, 1), w1 = β (1, 1), w2 = β (−1, 1),
wobei β = 1/兹2. Für die Basen (v1 , v2 ) von V = ⺢2 und (w1 , w2 ) von W = ⺢2 gilt
f(v1 ) = w1 = 1 w1 + 0 w2 ,
f(v2 ) = (0, 1) =
1
(0, 2β) =
2β
1
w1 +
2β
1
w2 .
2β
Damit lauten die α i, j gemäß „Koordinatenvektoren der Bilder liefern die Spalten“:
α 1, 1 = 1,
α 1, 2 =
1
,
2β
α 2, 1 = 0,
α 2, 2 =
1
.
2β
110
4. Strukturerhaltende Abbildungen
4. 8 Fasern und lineare Gleichungssysteme
Definition (Urbildmenge Lf (w) eines Vektors unter einer linearen Abbildung)
Seien V, W K-Vektorräume, und sei f : V → W linear. Weiter sei w ∈ W. Dann
setzen wir
L f (w) = f − 1 [ { w } ] = { v ∈ V | f(v) = w }.
(Faser von f über w)
Der Kern
Kern(f ) = { v ∈ V | f(v) = 0 }
einer linearen Abbildung besteht
aus allen Vektoren von V, die auf
den Nullvektor abgebildet werden. Nun lassen wir anstelle des
Nullvektors einen beliebigen Vektor w aus W zu und sammeln in
V
W
L f (w)
Kern(f)
v0
w
0
0
L f (w) = v0 + Kern(f)
Lf (w) = { v ∈ V | f(v) = w }
alle Vektoren von V, die auf w abgebildet werden. Es gilt Kern(f ) = Lf (0). Die Menge Lf (w)
ist nichts anderes als die in 1. 7 eingeführte Faser von f über w. Wir werden gleich sehen,
dass Fasern eng mit der Lösung von linearen Gleichungssystemen verknüpft sind, was die
Wahl des Buchstabens „L“ (für Lösungsmenge) motiviert.
Wir hatten gezeigt, dass der Kern einer linearen Abbildung ein Unterraum von V ist.
Speziell ist 0 ∈ Lf (0). Allgemeine Fasern Lf (w) können dagegen leer sein. Es gilt:
Lf (w) ist ein affiner Unterraum von V.
Ist Lf (w) ≠ ∅ und v0 ein beliebiges Element von Lf (w), so gilt
Lf (w) = v0 + Lf (0) = v0 + Kern(f ).
Ist also Kern(f) endlich-dimensional, so ist dim(Lf (w)) = dim(Kern(f )).
Die Aussagen ergeben sich aus dem Homomorphiesatz, lassen sich aber auch direkt einsehen: Für Lf (w) = ∅ ist nichts zu zeigen. Sei also v0 ∈ Lf (w). Ist nun v ∈ Kern(f ), so gilt
f(v0 + v) = f(v0 ) + f(v) = w + 0 = w,
sodass v0 + v ∈ Lf (w). Damit ist v0 + Kern(f ) ⊆ Lf (w). Ist umgekehrt v ∈ Lf (w), so gilt
f(v − v0 ) = f(v) − f(v0 ) = 0 − 0 = 0,
sodass v = v0 + (v − v0 ) ∈ v0 + Kern(f ). Damit ist auch Lf (w) ⊆ v0 + Kern(f ). Dies zeigt,
dass Lf (w) der durch „beliebiges Element + Kern“ gegebene affine Unterraum von V ist.
4. 8 Fasern und lineare Gleichungssysteme
111
Beispiele
(1) Sei f : ⺢2 → ⺢ die Projektion auf die erste Komponente. Dann gilt
Lf (1) = (1, 0) + Kern(f ) = (1, 4) + Kern(f ) mit Kern(f ) = { (0, y) | y ∈ ⺢ }.
(2) Sei f : ⺢2 → ⺢2 die Drehung um π/2, f(x, y) = (−y, x). Dann gilt
Lf (1, 1) = (1, −1) + Kern(f ) = (1, −1) + { 0 } = { (1 , −1) }.
(3) Sei f : ⺢3 → ⺢2 definiert durch f(x, y, z) = (x, x). Dann gilt Lf (0, 1) = ∅.
Zusammenhang mit linearen Gleichungssystemen
Ein lineares Gleichungssystem wird oft in der Form
α1, 1 x1 + α1, 2 x2 + … + α1, n xn = b1
…
αm, 1 x1 + αm, 2 x2 + … + αm, n xn = bm
präsentiert, mit gegebenen Elementen αi,j , bi eines Körpers K. Die αi,j heißen dann die
Koeffizienten und b = (b1 , …, bm ) ∈ Km die rechte Seite oder der Zielvektor des Systems. Ist
b = 0, so heißt das System homogen, andernfalls heißt es inhomogen. Die Lösungsmenge L des
Systems besteht aus allen Vektoren x = (x1 , …, xn ) ∈ Kn , für die alle Gleichungen erfüllt
sind. Definieren wir nun f : Kn → Km durch die linke Seite des Systems (sodass die αi,j die
darstellenden Koeffizienten von f sind, vgl. 4. 7), so gilt
L = Lf (b), wobei b = (b1 , …, bm ).
Damit kann man ein Gleichungssystem auch kompakt in der Form
f(x) = b
(Abbildungsnotation für Gleichungssysteme)
notieren. Unsere Ergebnisse zeigen: L ist ein affiner Unterraum des Kn . Ist L ≠ ∅ und
x0 irgendeine Lösung des Systems (eine „spezielle Lösung“), so gilt
L = x0 + L0 ,
(Lösungsmenge = spezielle Lösung + homogene Lösungsmenge)
wobei L0 = Lf (0) die Lösungsmenge des zugeordneten homogenen Systems ist, bei dem
die αi, j gleich bleiben, aber alle b i = 0 sind.
Beispiele
(1) Beispiel (1) oben entspricht dem System 1 x + 0 y = 1.
(2) Beispiel (2) oben entspricht
dem System:
(3) Beispiel (3) oben entspricht dem
unlösbaren System:
0x − 1y = 1
1x + 0y + 0z = 0
1x + 0y = 1
1x + 0y + 0z = 1
In den Spalten der Systeme stehen die Bilder der Basisvektoren e1 , …, en unter f.
112
4. Strukturerhaltende Abbildungen
4. 9 Isomorphie von Vektorräumen
Satz (Isomorphiesätze)
Isomorphiesatz für endlich-dimensionale Vektorräume
Ist V ein endlich-dimensionaler K-Vektorraum und n = dim(V), so ist K
isomorph zum K-Vektorraum Kn .
Allgemeiner Isomorphiesatz
Ist V ein K-Vektorraum und (vi )i ∈I eine Basis von V, so ist V isomorph zum
K-Vektorraum K(I) und weiter zu jedem Vektorraum K( J) mit |I| = | J|.
Insbesondere gilt: Zwei K-Vektorräume V und W sind genau dann isomorph,
wenn sie gleichmächtige Basen besitzen, d. h., wenn es eine Basis (vi )i ∈I von V,
eine Basis (wj ) j ∈J von W und eine Bijektion b : I → J gibt.
Die Vektorräume Kn und allgemeiner K(I) sind Könige im Reich aller KVektorräume. Bis auf die „Namen der
Vektoren“ ist jeder endlich-dimensionale Vektorraum ein Kn und jeder unendlich-dimensionale Vektorraum ein
K(I) mit I = ⺞, ⺢ usw. Man sagt auch:
In den Isomorphieklassen der K-Vektorräume gibt es kanonische Repräsentanten.
V
α2
v
α3
α1
v = α 1 v 1 + … + α n vn
K
…
K
K
αn
K
Ist V n-dimensional, so liefert der Übergang von
Beispiele
(1) Ist V n-dimensional, so gilt
V ⬵ Kn . Ist also K endlich,
so hat V genau |K|n -viele
Vektoren.
(2) Für den ⺢-Vektorraum ⺓n
ist eine Basis gegeben durch
einem Vektor v ∈ V zu seinem Koordinatenvektor (α1 , …, αn ) ∈ Kn bzgl. einer Basis (v1 , …, vn )
von V einen Isomorphismus zwischen V und Kn .
Die Senkrechten des Diagramms kann man sich
als Regler eines Mischpults vorstellen, mit denen
man alle Vektoren in V einstellen kann.
e1 = (1, 0, …, 0), …, en = (0, …, 0, 1), en + 1 = (i, 0, …, 0), e2n = (0, …, 0, i).
Damit ist der ⺢-Vektorraum ⺓n isomorph zum ⺢-Vektorraum ⺢2n .
(3) Ist V ein K-Vektorraum mit einer abzählbar unendlichen Basis, so ist V isomorph zum K-Vektorraum K[ X ] = K(⺞) aller Polynome über K.
Hinsichtlich des endlich-dimensionalen Satzes betrachten wir eine Basis B = (v1 , …, vn )
von V und die Koordinatenabbildung ΦB : V → Kn mit Φ(vi ) = ei für alle i, d. h.
ΦB (α1 v1 + … + αn vn ) = α1 e1 + … + αn en = (α1 , …, αn ).
Diese Zuordnung ist bijektiv, da jedem Vektor genau ein Koordinatenvektor entspricht
und umgekehrt (vgl. 3. 6).
4. 9 Isomorphie von Vektorräumen
113
Ist allgemeiner (vi )i ∈I eine Basis von V und B = (ei )i ∈ I die kanonische Basis des K(I) ,
so ist ΦB : V → K(I) mit ΦB (vi ) = ei für alle i ∈ I bijektiv, sodass V und K(I) isomorph sind.
Ist b : I → J bijektiv, so ist auch die lineare Abbildung g : K(I) → K( J) mit g(ei ) = eb(i)
für alle i ∈ I bijektiv, sodass K(I) und K( J) isomorph sind.
Das Ergebnis ist so stark, dass man fast ein wenig enttäuscht sein könnte. Konzentriert
man sich auf endlich-dimensionale K-Vektorräume mit den Skalarenkörpern K = ⺢ oder
K = ⺓, so gibt es bis auf Isomorphie nur die Beispiele
⺢0 , ⺢1 , ⺢2 , …, …, ⺢n , … und ⺓0 , ⺓1 , ⺓2 , …, …, ⺓n , …
So viel Aufwand für so wenig? Die Skepsis ist nicht berechtigt:
(a) Dass die Welt einfacher ist, als sie sein könnte, bleibt erfreulich.
(b) Ohne den allgemeinen Vektorraumbegriff kann man gar nicht sehen, dass viele
Strukturen bis auf Isomorphie der ⺢n , ⺓n oder allgemeiner der Kn sind (man
denke etwa an die Polynome über K vom Grad kleiner als n).
(c) Der Kn stellt zwar Kodes für Vektoren in V zur Verfügung, kann aber oft V nicht
vollständig ersetzen, da dadurch eine auf V vorhandene zusätzliche Struktur
verloren gehen würde.
(d) Für Vektorräume wie den ⺢⺞ oder ⺢⺢ , die eine überabzählbare Basis besitzen,
bleibt der Isomorphiesatz abstrakt (vgl. den folgenden Exkurs).
Exkurs: Basen des K I für unendliche Indexmengen I
Ist B eine Basis eines unendlich-dimensionalen K-Vektorraums, so sind die Mengen V und B × K gleichmächtig. (Beweisidee: Eine Basis B kodiert alle Vektoren
in V durch Tupel der Form (b1 , …, bn , α1 , …, αn ) ∈ Bn × Kn , n ∈ ⺞, und davon
gibt es genau B × K viele, wenn B oder K unendlich ist.) Ist nun KI ein K-Vektorraum mit einer unendlichen Indexmenge I, so existiert eine linear unabhängige
Menge der Mächtigkeit von K, etwa { gα : I → K | α ∈ K } mit
gα (n) = αn für alle n ∈ ⺞,
gα (i) = 0 für alle i ∈ I − ⺞,
wobei wir ohne Einschränkung ⺞ ⊆ I annehmen. Also ist die Mächtigkeit einer Basis
B von KI größergleich der Mächtigkeit von K und damit gilt
|K I | = |B × K| = |B|.
(Satz von Erdös-Kaplansky)
Der ⺢-Vektorraum ⺢⺞ aller unendlichen reellen Folgen hat also Basen der Mächtigkeit von ⺢⺞ . Da ⺢⺞ , ⺢ und P(⺞) = { A | A ⊆ ⺞ } gleichmächtig sind, gilt also
⺢⺞ ⬵ ⺢(⺢
⺞
)
⬵ ⺢(⺢) ⬵ ⺢(P(⺞)) .
Analog hat der ⺢-Vektorraum ⺢⺢ aller reellen Funktionen Basen der Mächtigkeit
von ⺢⺢ . Die Mengen ⺢⺢ und P(⺢) = { A | A ⊆ ⺢ } sind gleichmächtig, sodass
⺢⺢ ⬵ ⺢(⺢
⺢
)
= ⺢(P(⺢)) .
114
4. Strukturerhaltende Abbildungen
4. 10 Die Dimensionsformel
Satz (Dimensionsformel für lineare Abbildungen)
Seien V, W endlich-dimensionale K-Vektorräume, und sei f : V → W linear.
Dann gilt
dim(V) = dim(Kern(f )) + dim(Bild(f )).
Ist die Dimension n eines K-Vektorraumes V einmal bestimmt, so erleichtert die Dimensionsformel die
Untersuchung linearer Abbildungen
von V in einen beliebigen anderen
K-Vektorraum W. Kennt man nämlich m = dim(Kern(f )), so kennt man
(Dimensionsformel)
f
V
Bild(f )
π
dim(Bild(f )) = n − m.
g
V/Kern(f )
Analog errechnet sich die DimenAnwendung des Homomorphiesatzes: Ist (u1 , …, um )
sion des Kerns aus der des Bildes.
eine Basis von U = Kern(f) und (u1 , …, um , v1 , …, vk )
Die Addition auf der rechten
eine Basis von V, so ist (v1 + U, …, vk + U) eine Basis
Seite der Formel soll nicht darüber
von V/U (vgl. 3. 11). Da g : V/U → Bild(f) ein Isohinwegtäuschen, dass die Dimensiomorphismus ist, gilt
nen in zwei verschiedenen Vektordim(Bild(f )) = dim(V/U) = k = dim(V) − dim(U).
räumen berechnet werden, wenn f
kein Endomorphismus ist.
Um die Dimensionsformel einzusehen, betrachten wir eine Basis (u1 , …, um ) des Unterraums U = Kern(f ) von V. Ist m = n = dim(V), so ist U = V und damit Bild(f ) = { 0 } und
die Aussage „n = n + 0“ der Dimensionsformel klar. Andernfalls ergänzen wir die Basis von
U zu einer Basis (u1 , …, um , v1 , …, vk ) von V, sodass n = m + k. Für alle
u = α 1 u 1 + … + α n u n , v = β 1 v1 + … + β k v k
in V gilt dann
(+) f(u + v) = f(u) + f(v) = 0 + f(v) = f(v) = β1 f(v1 ) + … + βk f(vk ).
Wir setzen nun w1 = f(v1 ), …, wk = f(vk ). Dann folgt aus (+):
(a) Bild(f ) = span(w1 , …, wk ). Denn jeder Vektor f(u + v) des Bildes hat die Form
f(u + v) = f(v) = β1 f(v1 ) + … + βk f(vk ),
(b) (w1 , …, wn ) ist linear unabhängig in W. Denn sind β1 , …, βk ∈ K mit
f(v) = β1 f(v1 ) + … + βk f(vk ) = 0,
so ist v ∈ U = Kern(f ) und damit β1 = … = βk = 0.
Damit ist (w1 , …, wk ) eine Basis von Bild(f ), sodass k = dim(Bild(f )).
4. 10 Die Dimensionsformel
115
Die Dimensionsformel lässt sich auch durch Anwendung des Isomorphiesatzes für
Vektorräume beweisen (vgl. das obige Diagramm).
Beispiele
(1) Sei f : ⺢12 → ⺢7 ein Epimorphismus. Dann gilt dim(Kern(f )) = 5.
(2) Sei f : V → W ein Epimorphismus zwischen endlich-dimensionalen Vektorräumen. Dann gilt
dim(W) = dim(V) − dim(Kern(f )) ≤ dim(V).
(3) Sind f : V → W und g : W → U Epimorphismen, so gilt
dim(V) = dim(Kern(f )) + dim(Bild(f )) =
dim(Kern(f )) + dim(W) =
dim(Kern(f )) + dim(Kern(g)) + dim(Bild(g)) =
dim(Kern(f )) + dim(Kern(g)) + dim(U).
(4) Sind fi : Vi → Vi + 1 Epimorphismen für 1 ≤ i ≤ n mit Vn + 1 = { 0 }, so gilt
dim(V) = dim(Kern(f1 )) + dim(Kern(f2 )) + … + dim(Kern(fn )).
Ein wichtige Anwendung der Dimensionsformel werden wir im nächsten Kapitel kennenlernen („Zeilenrang = Spaltenrang“).
Für endliche Mengen A, B mit |A| = |B| und eine Funktion f : A → B sind die Eigenschaften „injektiv“, „surjektiv“, „bijektiv“ nach dem Schubfachprinzip äquivalent (vgl.
1.10). Aus der Dimensionsformel erhalten wir folgendes Analogon für endlich-dimensionale Vektorräume:
Ist dim(V) = dim(W) < ∞ und f : V → W linear, so sind äquivalent:
(a) f ist ein Monomorphismus.
(b) f ist ein Epimorphismus.
(c) f ist ein Isomorphismus.
Denn mit m = dim(Kern(f )), k = dim(Bild(f )) ist
dim(W) = dim(V) = m + k.
Folglich gilt
m = 0 (d. h., f ist ein Monomorphismus)
genau dann, wenn
k = dim(W) (d. h., f ist ein Epimorphismus).
116
4. Strukturerhaltende Abbildungen
4. 11 Lineare Abbildungen als Vektoren
Definition (lineare Operatoren)
Seien V, W K-Vektorräume. Dann definieren wir die K-Vektorräume
Hom(V, W) = HomK (V, W) = { f : V → W | f ist linear },
End(V) = EndK (V) = Hom(V, V).
Die Elemente von Hom(V, W) heißen auch lineare Operatoren von V nach W.
Die Menge Hom(V, W) ist ein
Unterraum des Vektorraums WV
aller Funktionen von V nach W.
Für alle f,g in Hom(V, W) und alle
α ∈ K sind f + g, αf : V → W definiert durch
(f + g)(v) = f(v) + f(v),
(α f )(v) = α f(v)
für alle v ∈ V.
E 3, 2
v1
v2
v3
v4
w1
0
0
0
0
w2
0
0
0
0
w3
0
1
0
0
Sind (v1 , v2 , v3 , v4 ) und (w1 , w2 , w3 ) Basen von V bzw.
W, so können wir E2, 3 ∈ Hom(V, W) durch Abbilden
von v2 auf w3 und Nullfortsetzung definieren. Alle Ei, j
bilden eine Basis von Hom(V, W) der Länge 4 ⋅ 3 = 12.
Beispiele
(1) Der Vektorraum End⺢ (⺢3 ) besteht aus allen linearen Abbildungen des dreidimensionalen Raums in sich selbst. Darunter fallen zum Beispiel Drehungen um
eine Achse durch 0, Streckungen, die Spiegelung am Nullpunkt oder an einer
Geraden oder Ebene durch den Nullpunkt und Projektionen auf derartige Geraden und Ebenen.
(2) Die Menge aller Automorphismen f : V → V ist eine Teilmenge von End(V).
Sie bildet aber keinen Unterraum von End(V), da die Addition zweier Bijektionen im Allgemeinen keine Bijektion mehr ist. Für die Bijektionen f, g : V → V
mit f(v) = v, g(v) = − v für alle v ∈ V gilt zum Beispiel f + g = 0.
Die Idee, aus linearen Abbildungen, die Vektoren eines Vektorraums V auf Vektoren
eines Vektorraumes W abbilden, einen Vektorraum zu konstruieren, dessen Vektoren also
lineare Abbildungen sind, ist sicher gewöhnungsbedürftig. Derartige Konstruktionen
tauchen in der Mathematik aber häufiger auf. Nach der axiomatischen Untersuchung von
algebraischen Strukturen studiert man Abbildungen zwischen Strukturen und stellt dann
oft fest, dass diese Abbildungen selbst wieder eine algebraische Struktur besitzen. Mit der
Automorphismengruppe Aut(G) haben wir bereits ein Beispiel kennengelernt (vgl. 4. 2).
Sind f : V → W und g : W → U lineare Abbildungen, so ist auch die Komposition
g ⴰ f : V → U
linear. Insbesondere ist für alle f,g ∈ End(V) auch g ⴰ f ∈ End(V). Der Vektorraum End(V)
kann also mit einer Multiplikation ⴰ versehen werden. Wir können Vektoren in End(V)
nicht nur addieren und skalieren, sondern auch multiplizieren (im Gegensatz zu den Vek-
4. 11 Lineare Abbildungen als Vektoren
117
toren des, als Beispiel, ⺢5 ). Für alle f, g, h ∈ End(V) und alle Skalare α gilt, wenn wir die
Komposition ⴰ multiplikativ schreiben:
(a) (f g) h = f (g h),
(b) f (g + h) = f g + f h,
(f + g) h = f h + g h,
(c) α (f g) = (α f ) g = f (α g).
Wird ein K-Vektorraum A mit einer Multiplikation ⋅ : A2 → A versehen, sodass (a) − (c)
gilt, so heißt A eine (assoziative) Algebra auf K. Der K-Vektorraum End(V) ist also eine
K-Algebra unter der Komposition von Abbildungen.
Beispiel
Ist f ∈ End(V), so auch f 2 = f ⴰ f , f 3 = f 2 ⴰ f usw. Damit ist für alle n und alle
Skalare α0 , …, αn die Abbildung
g = α n f n + αn − 1 f n − 1 + … + α1 f + α 0 f 0
ein Element von End(V), wobei f 0 = idV .
Wir bestimmen nun noch die Dimension von Hom(V, W). Hier gilt:
Ist dim(V) = n und dim(W) = m, so ist dim(Hom(V, W)) = n m.
Sind nämlich (v1 , …, vn ) und (w1 , …, wm ) Basen von V bzw. W, so sei Ei,j : V → W für alle
1 ≤ i ≤ m und 1 ≤ j ≤ n die eindeutige lineare Abbildung mit
Ei,j (vj ) = wi ,
Ei, j (vk ) = 0 für alle k ≠ j.
Dann ist B = (Ei, j )1 ≤ i ≤ m, 1 ≤ j ≤ n eine Basis von Hom(V, W) der Länge nm. Die eine Abbildung Ei, j darstellenden Koeffizienten weisen genau eine Eins und ansonsten nur Nullen
auf (vgl. obiges Diagramm und 4. 7). Ist f ∈ Hom(V, W), so gilt
f = ∑ 1 ≤ i ≤ m, 1 ≤ j ≤ n αi,j Ei, j ,
mit den darstellenden Koeffizienten αi, j von f . Diese Koeffizienten sind also die Koordinaten von f bzgl. der Basis B von Hom(V, W).
Beispiel
Für V = W = ⺢3 und die kanonischen Basen gilt E2, 3 (e3 ) = e2 und allgemein
E2, 3 (x, y, z) = (0, z, 0) = (x, y, z) mit
x = 0x + 0y + 0z
y = 0x + 0y + 1z
z = 0 x + 0 y + 0 z.
118
4. Strukturerhaltende Abbildungen
4. 12 Dualräume und duale Abbildungen
Definition (Dualraum, lineares Funktional, duale Basis)
Der Dualraum V*
Sei V ein K-Vektorraum. Dann definieren wir den Dualraum V* von V durch
V* = Hom(V, K) = { f | f : V → K ist linear }.
Die Elemente von V* heißen auch lineare Funktionale.
Die Dualbasis v1*, …, vn*
Ist dim(V) < ∞ und (v1 , …, vn ) eine Basis von V, so definieren wir für alle 1 ≤ j ≤ n:
vj * = „das eindeutige f ∈ V* mit f(vj ) = 1 und f(vk ) = 0 für alle k ≠ j“.
Das Tupel (v1*, …, vn*) heißt die zu (v1 , …, vn ) duale Basis.
Wir betrachten hier einen Spezialfall von Hom(V, W): Der Zielraum W ist nun der
Skalarenkörper K von V.
Beispiel
Für V = ⺢2 besteht V* aus allen linearen f : ⺢2 → ⺢. Für jedes f ∈ V* gilt
f(x, y) = x f(1, 0) + y f(0, 1) = a x + b y für alle x, y ∈ ⺢, wobei
a = f(e1 ) = f(1, 0), b = f(e2 ) = f(0, 1).
Damit ist f die Ebene durch den Ursprung mit der Steigung a entlang der x-Achse
und der Steigung b entlang der y-Achse. Der Dualraum V* von ⺢2 besteht aus allen
diesen Ebenen. Analog besteht V* für V = ⺢ aus allen Geraden f : ⺢ → ⺢ mit f(0) = 0.
Ist n = dim(V) < ∞, so ist dim(V*) = dim(Hom(V, K)) = n 1 = n nach 4.11, sodass V ⬵ V*.
Die *-Operation ordnet einem Basisvektor vj
ein Element vj * des Dualraums zu. Nützlich
vj *
v1 … v j − 1 v j v j + 1 … v n
ist hier das Kronecker-Symbol δ jk , das defi0
…
0
1
0
…
0
niert ist durch δjj = 1 und δjk = 0 falls j ≠ k. Für
alle 1 ≤ j, k ≤ n und α1 , …, αn ∈ K gilt also
vj*(vk ) = δ jk ,
Die linearen Abbildungen vj *
sind „Koordinatenpicker“:
vj*(α1 v1 + … + αn vn ) = α j .
v1*(α1 v1 + … + αn vn ) = α 1
Die lineare Abbildung vj* : V → ⺢ pickt für
jedes v ∈ V die j-te Koordinate von v bzgl.
B = (v1 , …, vn ) heraus (vgl. 3. 6). Somit ist
vj*(α1 v1 + … + αn vn ) = α j
(v1*(v), …, vn*(v)) = ΦB (v) = (α1 , …, αn )
vn*(α1 v1 + … + αn vn ) = α n
…
…
für alle v = α1 v1 + … + αn vn ∈ V.
Für unendlich-dimensionale Vektorräume V ist die Isomorphie V ⬵ V* nicht mehr gültig. Der Dualraum V* ist dann substantiell größer als V.
4. 12 Dualräume und duale Abbildungen
119
Beispiel
Sei V = ⺢(⺞) , und sei (en )n ∈ ⺞ die kanonische Basis von V. Die linearen Funktionale
en* ∈ V* können genau wie oben definiert werden. Die Familie (en*)n ∈ ⺞ ist linear
unabhängig in V*, aber nicht mehr erzeugend: Ist f : V → ⺢ linear mit f(en ) ≠ 0 für
unendlich viele n, so ist f ∉ span((en*)n ∈ ⺞ ). Analoges gilt für V = K(I) , I unendlich.
Mit Hilfe der Dualräume führen wir ein:
Definition (duale Abbildung)
Seien V, W beliebige K-Vektorräume, und sei f : V → W linear. Dann ist die duale
Abbildung f * : W* → V* von f für alle g ∈ W* definiert durch
f *(g) = g ⴰ f .
( Pullback von g durch f )
Ein g ∈ W* wird durch Vorschalten eines festen f ∈ Hom(V, W) zu einem linearen Funktional f *(g) ∈ V* zurückgezogen. Sind V und W endlich-dimensional
mit dim(V) = n und dim(W) = m, so liefert
die Dimensionsformel, dass
m − dim(Bild(f *)) = dim(Kern(f *)) =
V
f ∈ Hom(V, W)
W
g ∈ W*
f *(g) =
g ⴰ f ∈ V*
dim({ g ∈ W* | g ⴰ f = 0 }) =
K
dim({ g ∈ W* | g(w) = 0 für alle w ∈ Bild(f ) }) = m − dim(Bild(f )).
Wir erhalten:
Dimensionen des dualen Bildes und Kernes
dim(Bild(f *)) = dim(Bild(f )), dim(Kern(f *)) = m − n + dim(Kern(f )).
Aus den Formeln folgt, dass sich die Eigenschaften „Epimorphismus“ und „Monomorphismus“ beim Wechsel zwischen f und f * austauschen.
Exkurs: Bidualräume
Zu jedem Vektorraum V kann man den Dualraum V* bilden, und damit lässt sich
auch der Dualraum (V*)* = V** von V* bilden, der sog. Bidualraum von V. Er besteht
aus allen linearen F : V* → K. Ein F ∈ V** weist jedem linearen f : V → K einen
Skalar F(f ) ∈ K zu. Das ist gar nicht so wild, wie es zunächst aussieht: Ist v ∈ V beliebig, so definieren wir das Element Fv : V* → K des Bidualraums V** durch
Fv (f ) = f(v) für alle f ∈ V*.
Die Funktion Fv pickt aus jeder linearen Abbildung f : V → K den Wert f(v) heraus.
Ist dim(V) < ∞ (und also V ⬵ V* ⬵ V**), so ist jedes Element von V** von der Form
Fv . Genauer ist dann die Abbildung Ψ : V → V** ein Isomorphismus, wobei
Ψ(v) = Fv
für alle v ∈ V.
Kapitel 5
Matrizen
122
5. Matrizen
5. 1 Matrizen
Definition (Matrix, Einträge, Spalten, Zeilen, K m × n )
Seien K ein Körper und m, n ≥ 1. Eine Familie
A = (a i, j )1 ≤ i ≤ m, 1 ≤ j ≤ n
in K nennen wir die m × n-Matrix über K mit den Einträgen A(i, j) = ai,j ∈ K an den
Stellen (i, j). Wir notieren A in Form einer Tabelle mit m Zeilen und n Spalten:
A =
a1,1
a1,2
…
a1,n
a2,1
a2,2
…
a2,n
…
…
…
…
am,1 am,2
…
am,n
.
Die Vektoren (a 1,j , …, a m,j ) ∈ Km und (a i,1 , …, a i, n ) ∈ Kn heißen die Spalten bzw.
Zeilen von A. Gilt n = m, so heißt A quadratisch. Wir schreiben kurz
Km × n anstelle von K{ 1, …, m } × { 1, …, n } = { A | A ist eine m × n-Matrix über K }
für den K-Vektorraum aller m × n-Matrizen mit Einträgen in K.
Eine Matrix ist formal eine Tabelle von Körper-Elementen. So wie man einen Vektor
x ∈ ⺢12 als Liste von reellen Zahlen mit zwölf Einträgen auffassen kann, so kann man eine
Matrix A ∈ ⺢3 × 4 als Tabelle mit drei Zeilen und vier Spalten auffassen, deren Einträge aus
reellen Zahlen bestehen. Die fundamentale Bedeutung dieser Tabellen für die Lineare
Algebra ergibt sich durch ihren engen Zusammenhang mit linearen Abbildungen. Bei der
Untersuchung linearer Abbildungen sind uns Matrizen schon mehrfach begegnet (vgl.
4. 7, 4. 11, 4. 12). In diesem Kapitel werden wir die Darstellung einer linearen Abbildung
durch eine Matrix genauer untersuchen. Weit über die Lineare Algebra hinaus haben
Matrizen vielfältige Anwendungen, insbesondere spielen sie in der Analysis, der Graphentheorie und der Wahrscheinlichkeitstheorie eine wichtige Rolle. Immer dann, wenn
doppelt indizierte Objekte auftreten, kommen Matrizen ins Spiel. Matrizen gehören zu
den Grundbegriffen der Mathematik.
Notationen und Konventionen
(1) Sind m, n aus dem Kontext heraus klar, so schreiben wir kurz A = (ai, j ) = (aij ).
Statt aij schreiben wir alternativ auch A(i, j). Als Familie ist eine Matrix A eine
Funktion von { 1, …, m } × { 1, …, n } nach K, sodass A(i, j) wohldefiniert ist.
(2) Matrizen werden oft mit großen Buchstaben A, B, C, … bezeichnet und ihre
Einträge automatisch entsprechend mit aij , bij , cij , … Im Folgenden läuft der
Zeilenindex i von 1 bis m und der Spaltenindex j von 1 bis n. Die Entsprechungen sind wie im Alphabet: m kommt vor n und i vor j.
(3) Matrizen werden oft auch mit eckigen statt runden Klammern notiert.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_6, © Springer-Verlag Berlin Heidelberg 2015
5.1 Matrizen
123
Der Vektorraum Km × n ist der Produktraum K I für I = { 1, …, m } × { 1, …, n } (vgl.
3. 3). Für alle A = (aij ), B = (bij ) ∈ Km × n und λ ∈ K gilt
a11 … a1n
A+B =
… … …
b11 … b1n
+
am1 … am n
… … …
λ a11
…
λ a1n
…
…
…
λ am1
…
λ am n
=
am1 … am n
…
a1n + b1n
…
…
…
am1 + bm1
…
a m n + bm n
=
bm1 … bm n
a11 … a1n
λA = λ
… … …
a11 + b11
,
.
Beispiele
(1) Die Nullmatrix 0 ∈ Km × n ist definiert durch 0(i, j) = 0 für alle i, j.
(2) Die Einheitsmatrix En ∈ Kn × n ist definiert durch
En (i, i) = 1 für alle i, En (i, j) = 0 für alle i ≠ j.
Mit Hilfe des Kronecker-Deltas δij gilt En (i, j) = δi j
für alle i, j. Die Spalten und Zeilen von En sind die
Standardvektoren e1 , …, en .
(3) Ein A ∈Kn × n heißt Diagonalmatrix, falls A(i, j) = 0
für alle i ≠ j. Wir schreiben diag(a1 , …, an ) für die
Diagonalmatrix A mit A(i, i) = ai für alle i. Speziell
gilt En = diag(1, …, 1).
a1
a2
…
an
Die Diagonalmatrix
diag(a1 , …, an ) ∈ Kn × n .
Nichtspezifizierte Einträge
sind gleich null.
(4) Ein A ∈ Kn × n heißt eine obere Dreiecksmatrix, falls A(i, j) = 0 für alle i > j.
Analog ist eine untere Dreiecksmatrix durch „A(i, j) = 0 für alle i < j“ definiert.
(5) Wir definieren Ei j ∈ Km × n für alle i = 1, …, m und j = 1, …, n als die Matrix,
die genau an der Stelle (i,j) den Eintrag 1 besitzt und sonst nur Nulleinträge
aufweist. Es gilt also Ei j (i′, j′) = δ(i, j), (i′, j′) für alle i′, j′. Die Matrizen Ei j bilden die
Standardbasis des mn-dimensionalen Vektorraums Km × n . Für alle A ∈ Km × n gilt
A = ∑ 1 ≤ i ≤ m, 1 ≤ j ≤ n aij Ei j .
Wichtig für das Folgende ist:
Einbettung des Km in den Km × 1
Sei m ≥ 1. Wir vereinbaren:
(x1 , …, xm ) ∈ K
m
wird identifiziert mit
x1
…
xm
∈ Km × 1 .
Damit gilt Km = Km × 1 . In den folgenden Abschnitten wird klar werden, warum wir
den Vektorraum Km × 1 (einspaltige Matrizen) gegenüber dem auf den ersten Blick
vielleicht naheliegenderen Vektorraum K1 × m (einzeilige Matrizen) bevorzugen.
124
5. Matrizen
5. 2 Matrizen und lineare Abbildungen
Definition (Matrix-Vektor-Produkt, zugeordnete Abbildung, darstellende Matrix)
Seien K ein Körper und m, n ≥ 1.
Matrix-Vektor-Produkt
Für A ∈ Km × n und x = (x1 , …, xn ) ∈ Kn definieren wir das Matrix-Vektor-Produkt
A x ∈ Km von A mit x durch
a11
(+) A x =
…
a1n
x1
…
…
…
…
am1
…
am n
xn
a11 x1 + … + a1n xn
=
…
.
am1 x1 + … + amn xn
Zugeordnete lineare Abbildung
Ist A ∈ Km × n , so heißt fA : Kn → Km ,
Ax
a2
fA (x) = A x für alle x ∈ Kn ,
x2 a2
die A zugeordnete lineare Abbildung.
Weiter setzen wir Kern(A) = Kern(fA ),
Bild(A) = Bild(fA ).
Darstellende Matrix
Ist f : Kn → Km linear, so heißt
Af =
f(e1 ) … f(en )
∈ Km × n
x1 a1
a1
0
Das Produkt Ax für A = (a1 a2 ) ∈ ⺢2 × 2 mit
den Spalten a1 = (a11 , a21 ) und a2 = (a21 , a22 )
die f darstellende Matrix.
In (+) fassen wir wie vereinbart x ∈ Kn als n × 1-Matrix und die m × 1-Matrix rechts als
Element des Km auf. Es entsteht eine Abbildung fA von Kn nach Km . Die Berechnung von
fA (x) = A x lässt sich durch „Zeile mal Spalte“ (m-mal durchgeführt) beschreiben. Die
wichtige andere Lesart
(++)
A x = x1
a11
…
am1
+ x2
a12
…
am2
+ … + xn
a1n
…
amn
= x 1 a 1 + … + xn a n .
zeigt, dass A x eine Linearkombination der Spalten a1 , …, an von A ist. Aus beiden Darstellungen lässt sich ablesen, dass
A(x + y) = Ax + Ay, A(λx) = λ A x
für alle x, y ∈ Kn und λ ∈ K.
Damit ist fA : Kn → Km eine lineare Abbildung. Dass wir umgekehrt einer linearen Abbildung f : Kn → Km eine Matrix A f ∈ Km × n zuordnen können, haben wir im Darstellungssatz in 4. 7 schon gesehen:
Die Spalten von Af sind die Bilder der kanonischen Basisvektoren e1 , …, en unter f.
5. 2 Matrizen und lineare Abbildungen
125
Die fA darstellende Matrix ist A selbst. Denn nach Definition des Matrix-Vektor-Produkts Ax sind A e1 , …, A en die Spalten von A, sodass
AfA =
fA (e1 ) … fA (en )
=
A e 1 … A en
= A.
Genauer gilt:
Isomorphie von Matrizen und linearen Abbildungen
Die Abbildung Ψ : Hom(Kn , Km ) → Km × n mit
Ψ(f ) = A f
für alle A ∈ Km × n
ist ein Isomorphismus mit Ψ−1 (A) = f A für alle A ∈ Km × n .
Damit haben wir unser Tabellen-Verständnis von Matrizen substantiell erweitert:
Matrizen sind (im Sinne eines Isomorphismus) lineare Abbildungen.
Beispiele
(1) Sei n ≥ 1. Dann gilt En x = x für alle x ∈ Kn , sodass fEn = idKn . Für eine Diagonalmatrix A = diag(a1 , …, an ) gilt
Ax = (a1 x1 , …, an xn ) für alle x = (x1 , …, xn ) ∈ Kn .
(2) Die Matrix-Vektor-Produkte mit den Matrizen
A =
1 0 ,
B =
1
1
,
C =
0 1
1 0
über ⺢ beschreiben: die Projektion f A : ⺢2 → ⺢, fA (x, y) = x, auf die erste
Komponente; die Einbettung f B : ⺢ → ⺢2 , f B (x) = (x, x); die Vertauschung
f C : ⺢2 → ⺢2 , f C (x, y) = (y, x), der Komponenten.
(3) Das Matrix-Vektor-Produkt mit der reellen Matrix
A =
cos ϕ
− sin ϕ
sin ϕ
cos ϕ
beschreibt die Drehung im ⺢2 um den Winkel ϕ gegen den Uhrzeigersinn.
(4) Für die Matrizen Eij der Standardbasis des Km × n gilt
Eij x = (0, …, 0, xj , 0, …, 0) = xj ei ∈ Km
für alle x ∈ Kn ,
wobei xj an der i-ten Stelle steht. Das Matrix-Vektor-Produkt mit Eij pickt also
die Komponente xj aus x ∈ Kn heraus und platziert sie an der i-ten Stelle.
(5) Mit den Bezeichnungen aus 4. 11 gilt
Ψ(Eij ) = Ei, j ∈ Hom(Kn , Km ) für alle i,j,
wobei Ei, j bezüglich der Standardbasen des Kn und Km definiert ist.
126
5. Matrizen
5. 3 Die Matrizenmultiplikation
Definition (Matrizenprodukt)
Seien K ein Körper und k, m, n ≥ 1. Wir definieren für alle A = (a i r ) ∈ Km × k und
B = (b r j ) ∈ Kk × n das Matrizenprodukt A B = A ⋅ B = (c i j ) ∈ Km × n durch
cij = ∑ 1 ≤ r ≤ k air br j = ai1 b1j + … + aik bkj
AB =
a11
…
a1k
…
…
…
am1
…
amk
⋅
b11
…
b1n
…
…
…
b k1
…
b kn
für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n.
=
a11 b11 + … + a1k b k1
…
a11 b1n + … + a1k b kn
…
…
…
am1 b11 + … + amk b k1
…
am1 b1n + … + amk b kn
Ab1
…
Abn
,
=
mit den Spalten b1 , …, bn der Matrix B.
Die Produktbildung erfolgt gemäß „Zeile mal Spalte“, mn-mal durchgeführt. In den
Spalten von A B stehen die Matrix-Vektor-Produkte von A mit den Spalten von B. Insbesondere ist Ax für A ∈ Km × n und x ∈Kn = Kn × 1 der Spezialfall der Matrizenmultiplikation
mit einem einspaltigen zweiten Faktor. Das Produkt AB ist nur erklärt, wenn die Zeilenzahl von A mit der Spaltenzahl von B übereinstimmt. Unentbehrlich ist:
Motivation der Matrizenmultiplikation
Sind f : Kn → K k und g : K k → Km lineare Abbildungen, so gilt
Ag ⴰ f = Ag ⋅ A f .
(Kompositionssatz für darstellende Matrizen)
Die darstellende Matrix der Komposition g ⴰ f ist also das Produkt der darstellenden
Matrizen von g und f. Sind umgekehrt A ∈ Km × k , B ∈ Kk × n , so gilt fAB = fA ⴰ fB .
AB
Kn
Km
Die Multiplikation ist so gemacht, dass
fAB = fA ⴰ f B.
B
A
Konvention: In Diagrammen schreiben wir
oft einfach C statt f C. Dies ist suggestiv und
besser lesbar. Manche Autoren identifizie-
k
K
ren generell C und f C .
Ohne explizites Nachrechnen ergibt sich aus der Assoziativität der Komposition von
Funktionen, dass die Matrizenmultiplikation assoziativ ist.
5. 3 Die Matrizenmultiplikation
127
Beispiele
(1) Für alle A ∈ Km × n gilt AEn = Ae1 … Aen = A und analog Em A = A. Speziell ist
für alle A ∈ Kn × n .
A En = E n A = A
(2) Sei K ein Körper. Dann gilt:
1
0
0
1
0
0
0
0
0
1
1
0
0
0
0
0
=
=
0
1
0
0
0
0
0
0
≠ 0,
= 0.
(3) Für A = diag(a1 , …, an ), B = diag(b1 , …, bn ) ∈ Kn × n gilt
A B = diag(a1 b1 , …, an bn ) = B A.
Die Diagonalmatrizen des Kn × n sind also abgeschlossen unter der Matrizenmultiplikation. Ebenso ist das Produkt zweier unterer (oberer) Dreiecksmatrizen des Kn × n wieder eine untere (obere) Dreiecksmatrix des Kn × n .
(4) Beschreiben Aϕ , Aψ ∈ ⺢2 × 2 die Drehungen um ϕ bzw. ψ, so beschreibt Aϕ Aψ die
Drehung um ϕ + ψ (vgl. 5. 2). Es gilt Aϕ Aψ = Aϕ + ψ = Aψ + ϕ = Aψ Aϕ . Aus
A ϕ Aψ =
cos ϕ − sin ϕ
cos ψ − sin ψ
sin ϕ cos ϕ
sin ψ cos ψ
=
cos(ϕ + ψ) − sin (ϕ + ψ)
sin(ϕ + ψ) cos(ϕ + ψ)
= Aϕ + ψ
erhalten wir die Additionstheoreme für den Sinus und Kosinus:
cos(ϕ + ψ) = Aϕ + ψ (1, 1) = (Aϕ Aψ ) (1, 1) = cos ϕ cos ψ − sin ϕ sin ψ,
sin(ϕ + ψ) = Aϕ + ψ (2, 1) = (Aϕ Aψ ) (2, 1) = sin ϕ cos ψ + cos ϕ sin ψ.
Gilt m = n = k, so ist die Matrizenmultiplikation eine Operation auf der Menge Kn × n aller quadratischen Matrizen mit je n Zeilen und Spalten. Algebraische Eigenschaften dieser Operation sind:
(1) Die Menge Kn × n bildet mit der Addition und Multiplikation von Matrizen
einen Ring. Die Nullmatrix 0 ist additiv neutral und die Einheitsmatrix
En = diag(1, …, 1) multiplikativ neutral.
(2) Der K-Vektorraum Kn × n bildet mit der Multiplikation von Matrizen eine
K-Algebra.
Beispiel (2) zeigt, dass der Matrizenring im Allgemeinen weder kommutativ noch nullteilerfrei ist. In Kn × n sind wie in jedem Ring die Potenzen Ak definiert:
A0 = En , Ak + 1 = Ak A für alle k ∈ ⺞.
128
5. Matrizen
5. 4 Darstellende Matrizen für beliebige Basen
Definition (darstellende Matrix bzgl. zweier Basen)
Seien V, W endlich-dimensionale
V
K-Vektorräume, Ꮽ = (v1 , …, vn ),
Ꮾ = (w1 , …, wm ) Basen von V
bzw. W und f : V → W linear.
ΦᏭ
Dann ist die f bzgl. der Basen
Ꮽ und Ꮾ darstellende Matrix
n
A =
Ꮾ
AᏭ,
f
f
W
ΦᏮ
A
K
= „A f bzgl. Ꮽ, Ꮾ“
Km
Für A = Af bzgl. Ꮽ, Ꮾ und die Koordinaten-
definiert als
ΦᏮ (f(v1 )) … ΦᏮ (f(vn )) ∈ Km × n ,
mit der Koordinatenabbildung
Φ Ꮾ : W → Km .
Die Matrix A berechnet, gegeben die
Ꮽ-Koordinaten x ∈ K n von v ∈ V, die
Ꮾ-Koordinaten Ax ∈ K m von f(v) ∈ W.
Ihre Definition lautet in Kurzform:
Die Spalten von A sind die Ꮾ-Koordinaten
der Bilder der Basisvektoren in Ꮽ.
abbildungen ΦᏭ und ΦᏮ (vgl. 3. 6, 4. 9) gilt
f = ΦᏮ−1 ⴰ fA ⴰ ΦᏭ .
Die Matrix A rechnet die Koordinaten um.
V
f
ΦᏯ
ΦᏭ
Kn
A
Die Matrix A lässt sich aufstellen,
wenn wir die Vektoren f(vj ) als Linearkombinationen bzgl. Ꮾ schreiben:
f(v1 ) = a 11 w1 + … + am1 wm ,
…
f(vn ) = a 1n w1 + … + amn wm .
g
U
Kk
W
ΦᏮ
B
Km
BA
Die Multiplikation entspricht der Komposition: Für A = A f bzgl. Ꮽ, Ꮿ und B = A g bzgl.
Ꮿ, Ꮾ gilt B A = A g ⴰ f bzgl. Ꮽ, Ꮾ.
Die Darstellung von f(v1 ) liefert die erste Spalte von A, die Darstellung f(v2 ) die zweite
Spalte von A usw. Der Leser vergleiche den allgemeinen Darstellungssatz in 4. 7.
Ꮾ
Die Definition von AᏭ,
verallgemeinert die Definition von A f aus 5. 2. Dort hatten
f
n
m
wir V = K , W = K und die Standardbasen betrachtet. Die Koordinatenabbildungen sind
in diesem Fall die Identitäten.
Wir erhalten:
Isomorphie von Matrizen und linearen Abbildungen, allgemeine Form
Für V, W, Ꮽ, Ꮾ wie oben ist die Abbildung Ψ : Hom(V, W) → Km × n mit
Ψ(f ) = „A f bzgl. Ꮽ, Ꮾ“ für alle linearen f : V → W
ein Isomorphismus mit Ψ −1 (A) = ΦᏮ−1 ⴰ fA ⴰ ΦᏭ für alle A ∈ Km × n .
5. 4 Darstellende Matrizen für beliebige Basen
129
Beispiel
Im ⺢2 seien v1 = (1, 1) und v2 = (1, 2). Wir betrachten die durch f(v1 ) = e1 , f(v2 ) = e2
eindeutig definierte lineare Abbildung f : ⺢2 → ⺢2 . Es gilt
Af =
Af =
1
0
0
1
2 −1
−1 1
bzgl. (v1 , v2 ), (e1 , e2 ),
da f(v1 ) = e1 + 0 e2 , f(v2 ) = 0 e1 + e2 ,
bzgl. (v1 , v2 ), (v1 , v2 ),
da f(v1 ) = 2v1 − v2 , f(v2 ) = −v1 + v2 .
Die Definition „Af bzgl. Ꮽ, Ꮾ“ trägt der Gleichberechtigung aller Basen Rechnung.
Folgende Überlegung zeigt jedoch, dass wir eine beliebig vorgegebene Abbildung f sehr
einfach darstellen können, wenn wir die Basen Ꮽ und Ꮾ geschickt wählen:
Die Normalformdarstellung
Sei f : V → W linear, und seien v1 , …, vr ∈ V derart, dass w1 = f(v1 ), …, wr = f(vr )
eine Basis des Unterraums Bild(f) von W bilden. Wir ergänzen nun die vj zu einer
Basis Ꮽ = (v1 , …, vn ) von V, indem wir eine Basis (vr + 1 , …, vn ) von Kern(f ) anfügen
(ist r = n, so entfällt dieser Schritt). Weiter ergänzen wir die wi beliebig zu einer
Basis Ꮾ = (w1 , …, wm ) von W. Dann gilt nach Konstruktion
ΦᏮ f(v1 ) = e1 , …, ΦᏮ f(vr ) = er ,
ΦᏮ f(vr + 1 ) = … = ΦᏮ f(vn ) = 0.
Damit gilt bzgl. Ꮽ, Ꮾ
Af =
Er 0
0
0
∈ Km × n , wobei r = dim(Bild(f )).
(Normalformdarstellung)
Ist f : V → W ein Isomorphismus, so ist die darstellende Matrix gleich En .
Dies motiviert:
Definition (äquivalente Matrizen)
Zwei Matrizen A, A′ ∈ Km × n heißen äquivalent, falls sie bzgl. geeigneter Basen dieselbe
Abbildung darstellen, d. h., falls es K-Vektorräume V, W mit n = dim(V), m = dim(W),
ein lineares f : V → W und Basen Ꮽ, Ꮽ′ von V und Ꮾ, Ꮾ′ von W gibt mit
A = A f bzgl. Ꮽ, Ꮾ,
A′ = A f bzgl. Ꮽ′, Ꮾ′.
Für alle m,n liegt (wie der Name suggeriert) eine Äquivalenzrelation auf Km × n vor. Ein
vollständiges Repräsentantensystem wird gegeben durch
0 =
E0 0
0
0
,
E1 0
0
0
,
E2 0
0
0
, …,
Ek 0
0
0
∈ Km × n , mit k = min(m, n).
130
5. Matrizen
5. 5 Invertierbare Matrizen
Definition (Invertierbarkeit, Inverse, allgemeine lineare Gruppe)
Seien K ein Körper und n ≥ 1. Ein A ∈ Kn × n heißt invertierbar, falls es ein B ∈ Kn × n
gibt mit A B = B A = En . Die Matrix B heißt dann die zu A inverse Matrix und wird mit
A−1 bezeichnet. Eine nicht invertierbare Matrix nennt man singulär. Weiter heißt
GL(n, K) = { A ∈ Kn × n | A ist invertierbar }
f
V
die allgemeine lineare Gruppe vom
Grad n über K.
W
ΦᏭ
Die Gruppe GL(n, K) besteht aus
den Einheiten des Matrizenrings Kn × n
(„GL“ steht für „general linear“). Nach
den Rechenregeln in Gruppen gilt für
alle A, B ∈ GL(n, K):
f −1
V
ΦᏮ
Kn
A
Kn
ΦᏭ
B
Kn
BA = En
(A−1 )−1 = A, (A B)−1 = B−1 A−1 .
Die Invertierung entspricht der
Jeweils äquivalent zur Invertierbarkeit
von A ∈ Kn × n sind die Bedingungen:
Umkehrabbildung: (A f )−1 = A f −1 .
fA : Kn → Kn ist bijektiv (gleichwertig: injektiv, surjektiv).
Die Spalten von A bilden eine Basis des Kn .
Es gibt ein B ∈ Kn × n mit A B = En oder B A = En .
Die beiden ersten Kriterien folgen aus der Definition. Das nicht selbstverständliche
dritte Kriterium ergibt sich daraus, dass fA ⴰ f B = id impliziert, dass fA surjektiv und fB injektiv ist (vgl. hierzu die Diskussion von M× in 2. 3).
Beispiele
(1) Eine Diagonalmatrix A = diag(a1 , …, an ) ist genau dann invertierbar, wenn alle ai
von null verschieden sind. In diesem Fall gilt A−1 = diag(a1−1 , …, an−1 ).
(2) Die Drehmatrizen Aϕ ∈ ⺢2 × 2 sind invertierbar mit A−1
ϕ = A − ϕ . Sie bilden eine
Untergruppe von GL(2, ⺢).
(3) Für A ∈ GL(2, ⺢) gilt A−1 =
a11 a22
1
− a21 a12
a22 − a12
−a21 a11
,
vorausgesetzt, der Nenner ist ungleich 0. Diese Formel wird durch die
Einführung von Determinanten verständlich (vgl. 7. 1).
(4) Die Summe A + B von A, B ∈ GL(n, K) ist im Allgemeinen nicht invertierbar,
wie A = En und B = −En zeigen. Mit A ist aber stets auch −A invertierbar.
5. 5 Invertierbare Matrizen
131
Wir betrachten zwei Anwendungen invertierbarer Matrizen.
Eindeutig lösbare lineare Gleichungssysteme
Eine Matrix A ∈ Kn × n ist genau dann invertierbar, wenn das Gleichungssystem
Ax = b
für alle b ∈ Kn eine eindeutige Lösung besitzt. Denn genau dann ist fA : Kn → Kn
bijektiv. Ist umgekehrt A−1 bekannt, so gilt
A x = b genau dann, wenn x = A−1 b,
(Lösen durch Invertierung )
wie die Multiplikation von links mit A−1 zeigt. Kennt man A−1 , so kann man A x = b
für jede rechte Seite b durch Berechnung von A−1 b lösen.
Berechnung von Koordinatenvektoren
Seien Ꮽ = (a1 , …, an ) eine Basis des Kn und ΦᏭ : Kn → Kn die zugehörige Koordinatenabbildung. Wir bilden die n × n-Matrix A mit den Basisvektoren als Spalten:
A =
a1
…
an
.
Für alle x, y ∈ Kn gilt ΦᏭ (x) = y genau dann, wenn
x = y1 a1 + … + yn an = A y.
Die Matrix A ist also die darstellende Matrix von ΦᏭ−1 (bzgl. der Standardbasen), da
ΦᏭ−1 (y) = A y für alle y. Damit ist A−1 die darstellende Matrix von ΦᏭ , sodass
(+) ΦᏭ (x) = A−1 x für alle x ∈ Kn .
Alternativ können wir so argumentieren: A ist die darstellende
Matrix von id : Kn → Kn bzgl.
der Basen Ꮽ und Ꮾ = (e1 , …, en ),
denn die Spalten von A sind die
Koordinatenvektoren von id(ai )
bzgl. Ꮾ. Das kommutative Diagramm rechts liefert (+).
(Koordinatenberechnung durch Invertierung )
V = Kn
id
ΦᏭ
W = Kn
ΦᏮ = id
Kn
A
Kn
Es bleiben die Fragen:
Wie berechnet man A −1 für A ∈ GL(n, K)?
Wie überprüft man, ob A ∈ K n × n invertierbar ist?
Der Ansatz „AB = En “ mit einer unbekannten Matrix B ∈ Kn × n führt zu n linearen Gleichungssystemen
Ax = e1 , …, Ax = en ,
deren Lösungen die Spalten von B = A−1 bilden. Eine effektive Möglichkeit zur Bestimmung von A−1 werden wir im folgenden Abschnitt kennenlernen.
132
5. Matrizen
5. 6 Die Elementarmatrizen
Definition (Elementarmatrizen und ihre Typen)
Seien K ein Körper und n ≥ 1. Für alle 1 ≤ i,j ≤ n und λ ∈ K sei Wij (λ) ∈ Kn × n die Matrix,
die aus En durch Überschreiben des (i, j)-Eintrags mit λ hervorgeht. Wir nennen ein
W ∈ Kn × n eine Elementarmatrix, falls W von einem der folgenden Typen ist:
Additionstyp
W = Wi j (λ)
mit λ ∈ K, i ≠ j,
Multiplikationstyp
W = Wii (λ)
mit λ ∈ K*.
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
λ
0
1
0
0
0
0
0
1
W24 (λ) ∈ K5 × 5
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
λ
0
0
0
0
0
1
W44 (λ) ∈ K5 × 5
Die Bezeichnung Wij (λ) steht für „write λ at (i, j) in En “. Der Additionstyp enthält einen
Eintrag λ außerhalb der mit Einsen gefüllten Diagonalen. Diese Matrizen sind obere oder
untere Dreiecksmatrizen. Der Multiplikationstyp entsteht aus der Einheitsmatrix En
durch Ersetzung einer Eins durch einen von Null verschiedenen Skalar. Die Namensgebung wird durch die Wirkung der Multiplikation einer Matrix A mit einer Elementarmatrix erklärt:
Matrizenprodukte mit Elementarmatrizen W ∈ Km × m von links
Typ
WA entsteht aus A ∈ K m × n durch …
W = Wij (λ), i ≠ j
Addition des λ-Fachen der j-ten Zeile zur i-ten Zeile
W = Wii (λ)
Multiplikation der i-ten Zeile mit λ
Analoge Aussagen mit „Spalte“ statt „Zeile“ gelten für Produkte mit Elementarmatrizen W ∈ Kn × n von rechts. Zu beachten ist lediglich, dass in AW für W = Wij (λ) das λFache der i-ten Spalte zur j-ten Spalte von A ∈ Km × n addiert wird.
Die Elementarmatrizen sind invertierbar und ihre Inversen sind Elementarmatrizen.
Es gilt:
Typ
inverse Matrix
Wij (λ), i ≠ j
Wij (− λ)
Wii (λ), λ ≠ 0
Wii (1/λ)
5. 6 Die Elementarmatrizen
133
Die Elementarmatrizen eignen sich zur Manipulation und Vereinfachung von allgemeinen Matrizen. Ein Paradebeispiel ist die Invertierung einer Matrix A ∈ GL(n, K). Wir
können Elementarmatrizen L1 , …, L k ∈ GL(n, K) finden, die durch Linksmultiplikation
A schrittweise ausräumen, sodass
L k … L1 A = E n .
Dann ist L k … L1 = A−1 . Wegen L k … L1 = L k … L1 En können wir also A−1 bestimmen,
indem wir simultan zur Umformung von A die Matrix En in analoger Weise behandeln:
Aus A wird En und aus En wird A−1 . Wir führen das Verfahren an einem Beispiel vor (genauer und allgemeiner wird das „Ausräumen“ in 5. 12 behandelt).
Beispiel: Invertierung einer Matrix
A0 =
1
1
0
1
0
1
0
1
0
0
0
1
1 0
−1 1
0 0
0
0
1
0 −2 1
1 0
−1 1
−1 0
0
0
1
1
1
0
0
0 −1 1
−1 1
0
0
1 −2 1
1 −1 1
1
A1 =
1
0
0 −1 1
1 −1 1
1
A2 =
A3 =
Es gilt
1
0
0 −1 1
1
0
0 −1
1
0
0
A 0 = A,
1
= E3
A 1 = L1 A 0 ,
A4 =
A5 =
A6 =
A7 =
1
1
0
0
0
0 −1 0
0 −1 1
0
0 −1
1 −2 1
1
0
0
1 −1 1
0 −1 0
0 −1 1
0
0 −1
1 −2 1
1
0
0
1 −1 1
0
1
0
0
0
0 −1
1 −2 1
1
0
0
1 −1 1
0
1
0
0
0
0
1
−1 2 −1
A 2 = L2 A 1 ,
1 −1
1 −1
= A−1
…,
A 7 = E3 = L7 … L1 A 0 = A−1 A
mit Additionstypen L1 , …, L5 und Multiplikationstypen L6 , L7 . Das Verfahren lässt
sich auf jedes A ∈ Kn × n anwenden, um zu testen, ob A invertierbar ist: Wird eine
Nullzeile oder Nullspalte erreicht, so ist A singulär (denn Matrizen mit Nullzeilen
oder Nullspalten sind singulär, und ist A invertierbar, so auch alle Ai ).
Analog kann man A−1 = R1 … Rk durch Spaltenoperationen von rechts gewinnen.
Wir fassen unsere Überlegungen noch einmal in dem folgenden überraschenden Ergebnis zusammen:
Satz (Erzeugung von GL(n, K) durch Elementarmatrizen)
Jede invertierbare Matrix ist ein Produkt von Elementarmatrizen.
134
5. Matrizen
5. 7 Die Permutationsmatrizen
Definition (Permutationsmatrix, Transpositionsmatrix)
Seien K ein Körper, n ≥ 1 und π ∈ Sn = { σ | σ : { 1, …, n } → { 1, …, n } ist bijektiv }.
Dann heißt die Matrix
Pπ =
∈ Kn × n
eπ(1) … eπ(n)
die zu π gehörige Permutationsmatrix. Ist π eine Transposition, so heißt Pπ eine
Transpositionsmatrix. Vertauscht eine Transposition π die Zahlen i ≠ j, so schreiben
wir auch kurz Pi j für die zugehörige Transpositionsmatrix.
0
0
0
0
1
0
0
0
0
0
0
Die Matrix links ist
1
0
0
0
0
0
1
die Permutations-
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
Matrix Pπ für
π = (3, 4, 1, 5, 6, 2).
Die Matrix rechts ist
die TranspositionsMatrix P26 .
Die Spalten der Permutationsmatrix Pπ sind die gemäß π = (π(1), …, π(n)) umgeordneten kanonischen Einheitsvektoren e1 , …, en . Jede Zeile und jede Spalte von Pπ hat genau
einen Eins-Eintrag und sonst nur Nullen. Jede Permutationsmatrix geht aus En durch
Vertauschung von Spalten hervor. Bei den spezielleren Transpositionsmatrizen werden
genau zwei verschiedene Spalten ausgetauscht. Für alle i ≠ j gilt Pij = Pji .
Beispiele
(1) Für n = 2 gibt es neben E2 nur noch die Permutationsmatrix
P12 =
0
1
1
0
, die zudem eine Transpositionsmatrix ist. Es gilt P122 = E2 .
(2) Für n = 3 gibt es neben E3 noch die fünf Permutationsmatrizen
1
0
0
0
0
1
0
1
0
,
0
1
0
1
0
0
0
0
1
,
0
0
1
1
0
0
0
1
0
,
0
1
0
0
0
1
1
0
0
,
0
0
1
0
1
0
1
0
0
.
Für alle n gibt es genau n! = |Sn | viele Permutationsmatrizen und genau n(n − 1)/2
Transpositionsmatrizen („2 aus n“). Die Transpositionsmatrizen sind durch genau zwei
Null-Einträge auf der Diagonalen charakterisiert.
5. 7 Die Permutationsmatrizen
135
Es gilt Pπ (i, j) = 1 genau dann, wenn π(j) = i. Dies ist äquivalent zu π− 1 (i) = j. Damit sind
die Zeilen von Pπ die gemäß π− 1 angeordneten Einheitsvektoren e1 , …, en :
eπ−1(1)
Pπ =
eπ(1) … eπ(n)
=
…
.
eπ−1(n)
Man rechnet nach, dass für alle π, σ ∈ Sn gilt :
Pπ Pσ = Pπ ⴰ σ , Pπ−1 = Pπ −1 .
(Kompositions- und Invertierungsregel)
Permutationsmatrizen wirken auf Vektoren und andere Matrizen wie folgt.
Matrix-Vektor-Produkt
Für alle π ∈ Sn und alle x ∈ Kn gilt
Pπ x =
eπ(1) … eπ(n)
x = x1 eπ(1) + … + xn eπ(n) = (x π−1(1) , …, x π− 1(n) ).
Die i-te Komponente von x sitzt in y = Pπ x an der Stelle j = π(i). Damit sitzt an
der j-ten Stelle von y die i = π−1 (j)-te Komponente von x.
Matrizenprodukt von links und rechts
Für alle A ∈ Km × n , π ∈ Sn und σ ∈ Sm gilt
APπ =
Aeπ(1) … Aeπ(n)
=
aπ(1) … aπ(n)
mit den Spalten a1 , …, an von A,
a σ−1 (1)
Pσ A =
…
mit den Zeilen a1 , …, am von A.
a σ−1 (m)
Die Multiplikation mit Pπ von rechts vertauscht also die Spalten von A, während die
Multiplikation mit Pσ von links die Zeilen von A vertauscht. Speziell sind in APij die
Spalten i und j vertauscht und in Pij A die Zeilen i und j.
Wie jede invertierbare Matrix lässt sich eine Permutationsmatrix als Produkt von Elementarmatrizen darstellen. Dies lässt sich aber auch leicht direkt einsehen. Für die Transpositionen gilt
Pij = Wjj (−1) Wij (1) Wji (−1) Wij (1)
für alle i ≠ j.
Stellt man nun ein π ∈ Sn als Komposition von Transpositionen dar, so ergibt sich eine
Darstellung von Pπ als Produkt von Transpositionsmatrizen.
Da das Vertauschen von Zeilen und Spalten speziell beim Umgang mit Gleichungssystemen als elementare Operation angesehen wird, werden die Transpositionsmatrizen
oft als weiterer Typ von Elementarmatrizen zugelassen.
136
5. Matrizen
5. 8 Basiswechsel und Transformationsformel
Definition (Transformationsmatrix eines Basiswechsels)
Sei V ein n-dimensionaler K-Vektorraum, und seien Ꮽ = (v1 , …, vn ) und
Ꮾ = (w1 , …, wn ) Basen von V. Dann heißt die darstellende Matrix T ∈ Kn × n der
Identität id : V → V bzgl. Ꮽ und Ꮾ die Transformationsmatrix oder Übergangsmatrix
des Basiswechsels von Ꮽ nach Ꮾ.
id
V
In den Spalten einer f : V → W
darstellenden Matrix stehen die Koordinatenvektoren bzgl. Ꮾ der Bilder
der Basisvektoren in Ꮽ unter f. Bei einem Basiswechsel ist f die Identität.
Damit gilt für die Transformationsmatrix T:
V
ΦᏭ
ΦᏮ
Kn
T
Kn
In den Spalten von T stehen die neuen Koordinaten von v1 , …, vn .
Für die T zugeordnete lineare Abbildung fT : Kn → Kn gilt
f T = ΦᏮ ⴰ id ⴰ ΦᏭ−1 = ΦᏮ ⴰ ΦᏭ−1 .
Damit ist T x = ΦᏮ (ΦᏭ−1 (x)) für alle x ∈ Kn . Weiter lesen wir aus dem Diagramm ab:
T −1 ist die Transformationsmatrix des Basiswechsels von Ꮾ nach Ꮽ.
Ein wichtiger Spezialfall ist:
Basiswechsel für V = Kn
Schreiben wir die Basisvektoren als Spalten in zwei Matrizen A, B ∈ GL(n, K),
A =
v1 … v n
, B =
w1 … wn ,
so sind A−1 und B−1 die darstellenden
Matrizen der Koordinatenabbildungen, d. h., für alle x ∈ Kn gilt
−1
Kn
En
Kn
A−1
B −1
−1
ΦᏭ (x) = A x, ΦᏮ (x) = B x.
Kn
Folglich ist
T
Kn
T = B −1 A.
Ist eine der beteiligten Basen die Standardbasis des Kn , so gilt:
Für …
gilt …
In den Spalten von T stehen …
Ꮽ = (e1 , …, en )
T = B−1
die neuen Koordinaten der Standardvektoren
Ꮾ = (e1 , …, en )
T = A
die alten Basisvektoren
5. 8 Basiswechsel und Transformationsformel
137
Beispiele
(1) Die Drehmatrix Aϕ ∈ ⺢2 × 2 ist die Transformationsmatrix für jeden Basiswechsel
des ⺢2 , für den die neue Basis Ꮾ aus den um den Winkel ϕ gedrehten Vektoren
der alten Basis Ꮽ besteht.
(2) Ist Ꮽ = (e1 , …, en ) und Ꮾ = (eπ(1) , …, eπ(n) ) für eine Permutation π ∈ Sn , so ist Pπ
die Transformationsmatrix des Basiswechsels von Ꮽ nach Ꮾ. Diesen Wechsel
kann man sich als Umnummerierung der Koordinatenachsen vorstellen.
Als Nächstes untersuchen wir, wie sich die darstellende Matrix einer linearen Abbildung beim Wechsel der Basen verändert.
Die Transformationsformel
Seien V, W K-Vektorräume, n = dim(V), m = dim(W), Ꮽ, Ꮽ′ Basen von V und
Ꮾ, Ꮾ′ Basen von W. Weiter sei f : V → W
eine lineare Abbildung. Wir setzen
A
n
K
Km
A = Af bzgl. Ꮽ, Ꮾ,
A′ = Af bzgl. Ꮽ′, Ꮾ′,
T = „die Transformationsmatrix
von Ꮽ nach Ꮽ′ “,
S =
ΦᏮ
ΦᏭ
T
„die Transformationsmatrix
von Ꮾ nach Ꮾ′ “.
f
V
ΦᏭ′
Das Diagramm zeigt:
A′ = S A T −1 . (Transformationsformel)
Kn
W
S
Φ Ꮾ′
A′
Km
Eine wichtige Anwendung der Formel ist:
Charakterisierung der Äquivalenz
Zwei Matrizen A, A′ ∈ Km × n sind genau dann äquivalent, wenn es S ∈ GL(m, K) und
T ∈ GL(n, K) gibt mit A′ = S A T −1 . Denn genau in diesem Fall stellen A und A′ die
gleiche lineare Abbildung für geeignete Basen dar.
Der Spezialfall V = W, Ꮽ = Ꮾ und Ꮽ′ = Ꮾ′ motiviert:
Definition (ähnliche Matrizen)
Zwei Matrizen A, A′ ∈ Kn × n heißen ähnlich, falls es ein S ∈ GL(n, K) gibt mit A′ = S A S −1 .
Nach der Transformationsformel sind A, A′ genau dann ähnlich, wenn es eine lineare
Abbildung f : V → V und Basen Ꮽ, Ꮽ′ von V gibt mit A = Af bzgl. Ꮽ, Ꮽ und A′ = Af
bzgl. Ꮽ′, Ꮽ′. Wir werden in 5.12 sehen, wie man S und T −1 für ein gegebenes A so berechnen kann, dass B = S A T −1 in Normalform ist. Mit dem Problem, ein S zu finden,
für welches S A S−1 möglichst einfach ist, befassen wir uns im achten Kapitel.
138
5. Matrizen
5. 9 Die Transposition
Definition (transponierte Matrix, Transposition, symmetrische Matrix)
Seien K ein Körper, m, n ≥ 1 und A ∈ Km × n . Dann ist die zu A transponierte Matrix
At ∈ K n × m definiert durch At (i, j) = A(j, i) für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n. Ist m = n und
At = A, so heißt A symmetrisch.
Die Transposition vertauscht Zeilen
und Spalten. Ist A quadratisch, so geht
At durch Spiegelung an der Diagonale
aus A hervor. Die Transposition, die
A ∈ Km × n auf At ∈ K n × m abbildet, ist ein
Vektorraum-Isomorphismus. Es gilt
(At ) t = A,
a11 … … … … a1n
… … … … … …
A =
… … … … … …
am1 … … … … amn
(λ A)t = λ At ,
a11 … … am1
(A + B)t = At + Bt , (AB)t = Bt At .
… … … …
Für A ∈ GL(n, K) gilt zudem
t −1
(A )
… … … …
At =
−1 t
= (A ) .
… … … …
… … … …
Beispiele
a1n … … anm
(1) Jede Diagonalmatrix ist symmetrisch. Obere (untere) Dreiecksmatrizen werden durch
Transposition zu unteren (oberen) Dreiecksmatrizen.
(2) Die symmetrischen n × n-Matrizen
bilden einen Unterraum des Kn × n .
Das Produkt zweier symmetrischer
Matrizen kann unsymmetrisch sein.
1
1
1
1
1
2
1
3
=
2
4
3
7
Wir betrachten zwei nützliche Produktbildungen, die sich mit Hilfe der Transposition
elegant einführen und handhaben lassen.
Das Produkt xt y
Seien K ein Körper und n ≥ 1. Dann gilt für alle x, y ∈ Kn
y1
t
xy =
x 1 … xn
…
=
x1 y 1 + … + x n y n
= x1 y1 + … + xn yn ∈ K.
yn
Dabei verwenden wir unsere Konvention, ein x = (x1 , …, xn ) ∈ Kn als einspaltige Matrix zu lesen. Diese Matrix wird durch die Transposition zu einer einzeiligen Matrix.
Als Merkregel gilt, dass das „t“ bei (x1 , …, xn ) t einfach die Kommata löscht. Insgesamt definiert xt y eine Abbildung von Kn × Kn nach K.
5. 9 Die Transposition
139
Das Produkt x yt
Seien K ein Körper und m, n ≥ 1. Dann gilt für alle x ∈ Km und y ∈ Kn
x1
x yt =
…
y 1 … yn
xm
x1 y1
…
x1 yn
…
…
…
x m y1
…
x m yn
=
= (xi y j ) i j ∈ Km × n .
Die Spalten von x yt sind skalare Vielfache von x, die Zeilen skalare Vielfache von y.
Das Produkt x yt definiert eine Abbildung von Km × Kn nach Km × n .
Beispiele
(1) Für die kanonischen Basisvektoren e1 , …, en des Kn gilt
ei t ej = δij ∈ { 0, 1 } ,
ei ej t = δij En ∈ Kn × n .
(2) Das Produkt C = AB für A ∈ Km × k , B ∈ K k × n können wir definieren durch
c ij = ai t b j mit der i-ten Zeile ai von A und der j-ten Spalte bj von B.
(3) Wir wissen schon, dass A ej die j-Spalte von A ∈ Km × n ist. Nun ergänzen wir:
ei t A = „die i-te Zeile von A“
für alle 1 ≤ i ≤ m.
Weiter gilt ei t A ej = a ij für alle i, j.
Zwischen fA : Kn → Km und fAt : Km → Kn besteht keine offensichtliche Beziehung.
Ist m = n und A symmetrisch, so ist fA = fAt . Für Permutationsmatrizen gilt Pπt = Pπ−1 , im
Allgemeinen hat At aber nichts mit einer Umkehrabbildung zu tun. Den Schlüssel zum
Verständnis liefern erst die Dualräume (vgl. 4. 12):
Satz (Dualitätssatz für A t )
Seien V, W endlich-dimensionale K-Vektorräume und Ꮽ = (v1 , …, vn ), Ꮾ = (w1 , …, wm )
Basen von V, W. Weiter seien f : V → W
linear und A die f bzgl. Ꮽ, Ꮾ darstellende
Matrix. Dann gilt:
At ist die darstellende Matrix der dualen
Abbildung f * : W* → V* bzgl. Ꮾ*, Ꮽ*.
Denn für alle 1 ≤ i ≤ m gilt
f
V
W
ΦᏮ
ΦᏭ
A
Kn
Km
f*
V*
W*
f *(wi *) = wi * ⴰ f = ai1 v1* + … + ai n vn*.
Damit sind die Zeilen von A die Koordinatenvektoren der Bilder von w1*, …, wm* unter f *.
Diese Vektoren sind die Spalten der f * bzgl.
Ꮾ*, Ꮽ* darstellenden Matrix B, sodass B = At .
ΦᏭ*
Kn
Φ Ꮾ*
At
Km
140
5. Matrizen
5. 10 Der Rang
Definition (Rang einer Matrix)
Seien K ein Körper, m, n ≥ 1
und A ∈ Km × n . Dann heißt
rang(A) = dim(Bild(A))
der Rang oder Spaltenrang
der Matrix A.
Der Rang einer Matrix ist definiert als die Dimension des Bildes
der zugeordneten linearen Abbildung fA : Kn → Km . Die Bezeichnung „Spaltenrang“ wird durch
…
…
…
a1j
…
…
a1n
…
…
…
a2j
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
am1
…
…
amj
…
…
amn
Sind die markierten Spalten linear unabhängig und zerstört die Hinzunahme einer weiteren Spalte die lineare
Unabhängigkeit, so ist ihre Anzahl der Rang von A.
a1n
a11
fA (x) = A x = x1
a11
+ … + xn
am1
…
= x 1 a 1 + … + xn a n
amn
klar: Bild(A) ist der von den Spalten von A aufgespannte Unterraum U des Km und
rang(A) = dim(U). Da U von n Vektoren erzeugt wird und ein Unterraum des Km ist, gilt
0 ≤ rang(A) ≤ min(n, m).
(Rangabschätzung)
Gilt rang(A) = min(m, n), so hat A vollen Rang. Dies ist zum Beispiel der Fall, wenn die
Spalten von A linear unabhängig sind. Allgemein ist rang(A) die Mächtigkeit einer bezüglich der Inklusion maximalen linear unabhängigen Menge von Spalten von A. Etwas salopp sagt man auch, dass rang(A) die Anzahl der linear unabhängigen Spalten von A ist.
Beispiele
(1) Die Nullmatrix ist die einzige Matrix des Km × n mit Rang 0.
(2) Die Drehmatrizen Aϕ ∈ ⺢2 × 2 haben für alle Winkel ϕ den Rang 2.
(3) Der Rang einer Diagonalmatrix ist die Anzahl ihrer von null verschiedenen
Diagonaleinträge. Allgemein gilt für eine obere oder untere Dreiecksmatrix A:
rang(A) = |{ i | A(i, i) ≠ 0 }|.
(Rang formel für Dreiecksmatrizen)
(4) Für alle von 0 verschiedenen x ∈ Km und y ∈ Kn gilt rang(xyt ) = 1. Umgekehrt
ist jede Matrix des Km × n vom Rang 1 von der Form x yt mit x, y ≠ 0.
(5) rang(En + (−En )) = 0, rang(E11 ) + … + rang(Enn ) = n = rang(E11 + … + Enn ).
Für alle A, B ∈ Km × n gilt 0 ≤ rang(A + B) ≤ rang(A) + rang(B) (Subadditivität). Das
letzte Beispiel zeigt, dass keine besseren allgemeinen Abschätzungen möglich sind.
5. 10 Der Rang
141
Die Dimensionsformel
Für alle A ∈ Km × n gilt nach der Dimensionsformel für fA : Kn → Km :
n = dim(Kern(A)) + rang(A),
rang(A) = n
genau dann, wenn
fA ist injektiv,
rang(A) = m
genau dann, wenn
fA ist surjektiv,
rang(A) = m = n
genau dann, wenn
fA ist bijektiv.
Rang eines Produkts
Für alle A ∈ Km × n , S ∈ GL(m, K), T ∈ GL(n, K) gilt
rang(A) = rang(S A) = rang(A T) = rang(S A T),
da sich die Dimension des Bildes einer linearen Abbildung durch Vor- und Nachschalten von Isomorphismen nicht ändert. Speziell haben äquivalente Matrizen den
gleichen Rang. Allgemein gilt für A ∈ Km × k , B ∈ Kk × n nur die Abschätzung
rang(A) + rang(B) − k ≤ rang(AB) ≤ min(rang(A), rang(B)).
Der Begriff des Spaltenrangs
legt es nahe, auch den Zeilenrang
einer Matrix zu betrachten. Er ist
definiert durch
Zeilenrang(A) = rang(At ).
Der Zeilenrang der Matrix A ist
die Dimension des von den Zeilen
von A erzeugten Unterraums des
Km . Bemerkenswerterweise gilt:
a11
…
…
…
…
…
a1n
…
…
…
…
…
…
…
ai1
ai2
…
…
…
…
ain
…
…
…
…
…
…
…
am1
…
…
…
…
…
amn
Der Zeilenrang wird analog zum Spaltenrang definiert.
Satz (Zeilenrang gleich Spaltenrang)
Für alle A ∈ Km × n gilt Zeilenrang(A) = rang(A).
Erster Beweis mit Hilfe der dualen Abbildung
rang(At ) = dim(Bild(fAt )) = dim(Bild(fA*)) = dim(Bild(fA )) (nach 5. 4 und 4. 12).
Zweiter Beweis mit Hilfe der Normalform
Ist A ∈ Km × n und B die zu A äquivalente Matrix in Normalform mit r Einsen, so gibt
es invertierbare S, T mit B = S A T −1 . Offenbar gilt rang(B) = r = Zeilenrang(B). Aus
der Äquivalenz von A und B und den Regeln für die Transposition ergibt sich
rang(A) = rang(S A T −1 ) = rang(B) = r,
Zeilenrang(A) = rang(At ) = rang((T t )−1 At S t ) = rang(Bt ) = Zeilenrang(B) = r.
Einen dritten Beweis werden wir in 5. 12 kennenlernen.
142
5. Matrizen
5. 11 Die Zeilenstufenform
Definition (Zeilenstufenform, Pivots, ausgeräumt, diagonal)
Seien K ein Köper, m, n ≥ 1 und A ∈ Km × n . Weiter seien a1 , …, am die Zeilen von A.
Wir sagen, dass A Zeilenstufenform ist, falls gilt:
(a) Es gibt ein 0 ≤ r ≤ min(m, n) mit a1 , …, ar ≠ 0 und ar + 1 = … = am = 0.
(b) Es gilt p(1) < … < p(r) für p(i) = min({ j | A(i, j) ≠ 0 }).
Die Einträge A(1, p(1)), …, A(r, p(r)) heißen dann die Pivots von A. Sind alle Pivots
gleich 1 und alle Einträge über den Pivots gleich 0, so heißt A reduziert. Gilt p(i) = i
für alle i, so hat A diagonale Pivots.
Eine 6 x 12-Matrix in Zeilenstu-
0
0
1
0
0
0
1
0
0
0 −1 1
0
0
0
0
4
0
1
0
2
0
0
2
6, −1 an den Stellen (1, 3), (2, 5),
0
0
0
0
0
6
0
0
0
3
0
3
(3, 6), (4, 9). Die Waagrechten des
0
0
0
0
0
0
0
0 −1 0
0
4
sein, die Senkrechten haben dage-
0
0
0
0
0
0
0
0
0
0
0
0
gen stets die Länge eins. Die Ma-
0
0
0
0
0
0
0
0
0
0
0
0
fenform mit r = 4 und Pivots 1, 4,
Linienzugs können beliebig lang
trix kann mit 0-Spalten beginnen
und mit 0-Zeilen enden.
Die Pivots einer Matrix in Zeilenstufenform sitzen an den Stufen einer fallenden
Treppe, unter der sich nur Nullen befinden. Aus der Treppenanordnung ergibt sich:
Rang einer Matrix in Zeilenstufenform
Hat A ∈ K n × m Zeilenstufenform mit r Pivots, so sind die r Zeilen sowie die r Spalten, die Pivots enthalten, linear unabhängig. Es gilt rang(A) = r.
Beispiele
1
0 −2 0
1
0
1
0 −1 1
0
0
1
0
0
1
0
0
0
0
0
1
0
0
0
2
0
0
1
2
0
1
0
0
0
2
0
0
0
0
0
1
0
0
2
1
0 −1
0
0
1
1
0 −1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
reduziert
diagonale Pivots
0
0
reduziert mit diagonalen Pivots
Die Zeilenstufenform ist im Hinblick auf lineare Gleichungssysteme von Interesse.
Liegt ein lineares Gleichungssystem Ax = b mit einer Koeffizientenmatrix A ∈Km × n in
Zeilenstufenform und beliebiger rechter Seite b ∈ Km vor, so können wir die Lösbarkeit
des Systems direkt ablesen und die Lösungen vergleichsweise einfach bestimmen:
5. 11 Die Zeilenstufenform
Lösbarkeitskriterium
Sei A ∈ Km × n in Zeilenstufenform mit r Pivots,
d. h. m − r Nullzeilen. Weiter sei b ∈ Km . Dann
ist A x = b genau dann lösbar, wenn
b
b =
0
143
, b ∈ Kr
lösbare rechte Seiten
(+) br + 1 = … = bm = 0.
Gilt (+), so ist der Lösungsraum LA (b) = { x ∈ Kn | Ax = b } ein (n − r)-dimensionaler
affiner Unterraum des Kn (vgl. 4. 8). Die Lösungen lassen sich dann in Abhängigkeit der
Qualität der Zeilenstufenform auf verschiedene Weisen bestimmen:
Form I: A ist reduziert mit diagonalen Pivots
Es gilt A =
LA (b) =
{
Er A
0
b
0
0
=
+ λ1
Er ar +1 … an
, a r +1 , …, an ∈ K r , sodass
0
0
− a r +1
e1
+ … + λn − r
− an
en − r
|
λ1 , …, λn − r ∈ K
}.
Dabei sind e1 , …, en − r die kanonischen Basisvektoren des Kn − r .
Form II: A hat diagonale Pivots
Wir finden Lösungen durch „Rückwärts-Substitution“: Beliebig vorgegebene
x r + 1 , …, x n ∈ K ergänzen wir durch
xr =
br − ar, r +1 xr +1 − … − ar,n xn
,
ar,r
…
x1 =
b1 − a1, 2 x2 − … − a1,n xn
a1,1
zu einer Lösung x = (x 1 , …, x n ) von Ax = b.
Form III: Allgemeiner Fall
Liegen die Pivots nicht auf der Diagonalen, so können wir dies durch Vertauschung
der Spalten von A erreichen. Es gibt eine Permutationsmatrix P = Pπ ∈ Kn × n derart,
dass AP diagonale Pivots besitzt. Dann gilt
LA (b) = { x | A x = b } = { P x′ | A P x′ = b } = { P x′ | x′ ∈ LAP (b) } =
{ (x π′−1(1) , …, x π′−1(n) ) | x′ ∈ LAP (b) },
sodass wir die Lösungen von LA (b) durch die Form I oder II erhalten können. Die
rechte Seite b bleibt bei dieser „Umbenennung der Variablen“ unverändert.
Die Überführung eines beliebigen Systems Ax = b in ein äquivalentes System A′x′ = b′
mit A′ in Zeilenstufenform besprechen wir im folgenden Abschnitt.
144
5. Matrizen
5. 12 Eliminationsverfahren
Satz (Überführung in Zeilenstufenform)
Seien K ein Körper, n, m ≥ 1 und A ∈ Km × n . Dann gilt:
(a) Es gibt Elementarmatrizen L1 , …, Lk ∈ Km × m derart, dass
L k … L1 A ∈ Km × n
in Zeilenstufenform mit Eins-Pivots ist. Weiter kann eine reduzierte
Zeilenstufenform erreicht werden.
(b) Es gibt Elementarmatrizen L1 , …, Lk ∈ Km × m und eine Permutationsmatrix
P ∈ Kn × n derart, dass
L k … L 1 A P ∈ Km × n
in reduzierter Zeilenstufenform mit diagonalen Pivots ist.
Derartige Elementarmatrizen können durch Eliminationsverfahren gefunden werden.
„Eliminieren eines Eintrags aij “ bedeutet, dass aij = 0 durch Multiplikation mit einer Elementarmatrix erreicht wird. Die Verfahren ähneln dem Verfahren zum Invertieren einer
Matrix (vgl. 5.6). Da nun rechteckige Matrizen vorliegen und Nullzeilen und -spalten auftreten können, sind einige Modifikationen nötig. Folgende Algorithmen leisten das Gewünschte. Viele Varianten sind denkbar (vgl. die LR-Zerlegung in Überblick 5).
Die Gauß-Elimination
Sei A ∈ Km × n . Wir betrachten die erste Spalte j* von A, die der Zeilenstufenform
entgegensteht. Weiter sei (i*, j*) die Stelle eines erwünschten Pivots.
(1) Durch Linksmultiplikation mit einem Additionstyp Wi*i (λ) mit i > i* gefolgt
von einem Multiplikationstyp Wi*j* (λ) erreichen wir ai* j* ≠ 0 und ai* j* = 1.
(Durch i > i* wird die Zeilenstufenform links der Spalte j* bewahrt.)
(2) Durch Linksmultiplikation mit den Additionstypen
Wij* (−a i1 )
für i = i* + 1, …, m
eliminieren wir alle Einträge unterhalb des aktuellen Pivots.
Wir wiederholen das Verfahren, bis eine Zeilenstufenform erreicht ist.
Die Gauß-Jordan-Elimination
Bei dieser Variante eliminieren wir in (2) zusätzlich alle Einträge oberhalb des aktuellen Pivots durch Linksmultiplikation mit Wij* (−aij* ) für i = 1, …, i* − 1.
Permutation der Spalten
Durch Rechtsmultiplikation mit einer Permutationsmatrix können wir die Spalten
der erzeugten Zeilenstufenform so umordnen, dass diagonale Pivots entstehen.
5.12 Eliminationsverfahren
145
Wir diskutieren einige Anwendungen der Ergebnisse.
Lösen eines Gleichungssystems Ax = b
Für A ∈Km × n und b ∈ Km sei (A | b) = (A b) ∈ Km × (n + 1) die um die Spalte b erweiterte Koeffizientenmatrix. Wir bringen nun A in diagonale Zeilenstufenform, wobei
wir alle Additionen und Multiplikationen auch an b durchführen. Ein Beispiel für
die Gauß-Jordan-Elimination mit A ∈ ⺢3 × 4 , b = (−1, 1, −2) ∈ ⺢3 ist:
(0)
(3)
1 −1 1 0 | −1
1 −1 1 0 | −1
1 −1 1 0 | −1
(1)
1 −1 1 −1 | 1
0 0 0 −1 | 2
(2)
0 0 1 0 | 0
0 0 1 1 | −2
0 0 1 1 | −2
0 0 1 1 | −2
1 −1 1 0 | −1
1 −1 0 0 | −1
1 0 0 −1 | −1
(4)
0 0 1 0 | 0
0 0 1 0 | 0
(5)
0 0 0 1 | −2
0 0 0 1 | −2
0 1 0 0 | 0
0 0 1 0 | −2
Die Lösungen des Systems A5 x′ = b5 in (5) sind gegeben durch
x′ =
−1
0
−2
0
+ λ
1
0
0
1
, λ ∈ ⺢.
Rückgängigmachen der Permutation A5 = A4 Pπ mit π = (1, 3, 4, 2) in (4) → (5)
liefert die Lösungen x = Pπ x′ des ursprünglichen Systems Ax = b in (0) (vgl. 5. 11):
x =
−1
0
0
−2
+ λ
1
1
0
0
, λ ∈ ⺢.
Zeilenrang gleich Spaltenrang, dritter Beweis
Sei A ∈ Km × n . Man zeigt (1) mit Hilfe des Austauschlemmas, dass die Linksmultiplikation mit einer Elementarmatrix weder den Zeilen- noch den Spaltenrang von
A ändert, (2) dass eine Matrix in Zeilenstufenform mit r Pivots den Zeilen- und
Spaltenrang r besitzt. Überführt man also A in eine Zeilenstufenform B = Lk … L1 A
mit r Pivots, so gilt
rang(A) = rang(B) = r = Zeilenrang(B) = Zeilenrang(A).
Gewinnung der Normalform
Ist A ∈ Km × n und Lk … L1 A P mit r Pivots wie in (b), so können wir die Spalten
r + 1, …, n durch Rechtsmultiplikation mit Elementarmatrizen R1 … Rs eliminieren.
Dann ist Lk … L1 A P R1 … Rs die zu A äquivalente Matrix in Normalform.
Kapitel 6
Euklidische und unitäre Vektorräume
148
6. Euklidische und unitäre Vektorräume
6. 1 Das kanonische Skalarprodukt im ⺢n
Definition (Skalarprodukt, orthogonal, euklidische Norm, Länge, normiert)
Sei n ≥ 1. Dann heißt die Abbildung 〈⋅, ⋅〉 : ⺢n × ⺢n → ⺢ mit
〈x, y〉 = xt y = x1 y1 + … + xn yn
das kanonische Skalarprodukt oder
kanonische innere Produkt des ⺢n .
Sind x, y ∈ ⺢n mit 〈x, y〉 = 0, so sagen
wir, dass x und y orthogonal sind oder
aufeinander senkrecht stehen. Weiter
definieren wir die euklidische Norm
储 ⋅ 储 : ⺢n → [ 0, ∞ [ des ⺢n durch
储 x 储 = 兹〈x, x〉 =
(2x, 2y)
(−y, x)
2x (−y) + 2y x = 0
Orthogonalität
im ⺢2
兹x12 + … + xn2.
Die Zahl 储 x 储 heißt die euklidische Norm
oder Länge von x. Gilt 储 x 储 = 1, so heißt
x normiert.
储x储
|x2 |
In diesem Kapitel untersuchen wir geo|x1 |
metrische Begriffe wie Länge, OrthogonaliDie euklidische
tät, Winkel in Vektorräumen über den SkaNorm im ⺢2
larenkörpern K = ⺢ oder K = ⺓. Sie werden
mit Hilfe eines Skalarprodukts eingeführt.
In den beiden ersten Abschnitten betrachten wir besonders wichtige Skalarprodukte auf
dem ⺢n und ⺓n . Ihre Eigenschaften motivieren die allgemeine Definition in Abschnitt
6. 3. Ein erstes Beispiel für die geometrische Kraft des Skalarprodukts ist die Einführung
der euklidischen Norm oder Länge. Für alle x ∈ ⺢n ist 储 x 储 = 兹〈x, x〉 definiert, da
〈x, x〉 = x12 + … + xn2 ≥ 0.
Der Satz des Pythagoras motiviert die Bezeichnung als Länge.
Zur Punkt-Notation für Abbildungen
Die Notation 〈⋅, ⋅〉 : ⺢n × ⺢n → ⺢ bedeutet die Abbildung F : ⺢n × ⺢n → ⺢ mit
F(x, y) = 〈x, y〉 für alle x, y. Analoges gilt für die Norm 储 ⋅ 储 . Die Punkt-Notation
erlaubt es, viele Abbildungen unkompliziert anzugeben. Für alle y ∈ ⺢n ist zum
Beispiel 〈⋅, y〉 : ⺢n → ⺢ die Abbildung G : ⺢n → ⺢ mit G(x) = 〈x, y〉 für alle x.
Für alle x, y ∈ ⺢n gilt:
Die Abbildungen 〈x, ⋅〉, 〈⋅, y〉 : ⺢n → ⺢ sind linear.
Bilinearität
〈x, y〉 = 〈y, x〉
Symmetrie
〈x, x〉 > 0 für alle x ≠ 0
positive Definitheit
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_7, © Springer-Verlag Berlin Heidelberg 2015
6. 1 Das kanonische Skalarprodukt im ⺢n
149
Für die Norm gilt eine der wichtigsten Ungleichungen der Mathematik:
Cauchy-Schwarz-Ungleichung
Für alle x, y ∈ ⺢n und λ ∈ ⺢ gilt aufgrund der Bilinearität
0 ≤ 储 x − λ y 储 2 = 〈x − λy, x − λy〉 = 储 x 储 2 − 2 λ 〈x, y〉 + λ2 储 y 储 2 .
Ist nun y ≠ 0 und λ = 〈x, y〉/ 储 y 储 2 , so erhalten wir die Cauchy-Schwarz-Ungleichung
| 〈x, y〉 | ≤ 储 x 储 储 y 储 ,
die auch für y = 0 gilt. Gleichheit gilt genau
dann, wenn x und y linear abhängig sind.
储y储
储x−y储
Damit können wir einführen:
Winkel
Für alle x, y ∈ ⺢n − { 0 } heißt
α(x, y) = arccos
〈x, y〉
储x储 储y储
α
储x储
∈ [0, π]
Der Kosinussatz:
der von x, y eingeschlossene Winkel.
储 x − y 储 2 = 储 x 储 2 − 2 储 x 储 储 y 储 cos(α) + 储 y 储 2
Nach Cauchy-Schwarz ist der Bruch
ein Element von [ −1, 1 ], sodass der
Arkuskosinus anwendbar ist. Zur
Motivation der Formel betrachten wir das von zwei Vektoren x, y ∈ ⺢2 gebildete
Dreieck mit den Seitenlängen 储 x 储 , 储 y 储 , 储 x − y 储 . Mit Hilfe des Kosinussatzes lässt
sich cos(α) durch die Seitenlängen ausdrücken. Die Formel folgt nun aus
储 x − y 储 2 = 储 x 储 2 + 储 y 储 2 − 2 〈x, y〉.
Am Vorzeichen des Skalarprodukts lässt sich ablesen, ob der Winkel α stumpf oder spitz
ist, und α ist genau dann gleich π/2 = arccos(0), wenn 〈x, y〉 = 0. Dass die Orthogonalität
von x, y ∈ ⺢n durch die einfache (kosinusfreie) Bedingung x1 y1 + … + xn yn = 0 eingefangen wird, gehört zu den Wundern der Linearen Algebra. Eine überraschende Folgerung
ist, dass die Lösungen eines Gleichungssystems Ax = 0 für A ∈ ⺢m × n aus genau den Vektoren des ⺢n besteht, die auf allen Zeilen a1 , …, am ∈ ⺢n von A senkrecht stehen. Denn die
Komponenten von A x ∈ ⺢m sind die Skalarprodukte 〈a1 , x〉, …, 〈am , x〉.
Beispiele
(1) Das Skalarprodukt mit e1 , …, en ∈ ⺢n liefert für jedes x ∈ ⺢n die Komponenten
〈e1 , x〉 = x1 , …, 〈en , xn 〉 = xn . Inbesondere gilt 〈ei , ej 〉 = δ i j für alle i, j. Die
Vektoren e1 , …, en sind also normiert und paarweise orthogonal zueinander.
(2) Für x = (1, 0), y = (1, 1), z = (−1, 1) gilt
〈x, y〉 = 1, 〈x, z〉 = −1, 储 x 储 = 1, 储 y 储 = 储 z 储 = 兹2,
α(x, y) = arccos(1/兹2) = π/4, α(x, z) = arccos(−1/兹2) = 3 π/4.
150
6. Euklidische und unitäre Vektorräume
6. 2 Das kanonische Skalarprodukt im ⺓n
Definition (Skalarprodukt, orthogonal, euklidische Norm, normiert)
Sei n ≥ 1. Dann heißt die Abbildung 〈⋅, ⋅〉 : ⺓n × ⺓n → ⺓ mit
〈z, w〉 = z1 w1 + … + zn wn
für alle z, w ∈ ⺓n
das kanonische Skalarprodukt oder kanonische innere Produkt des ⺓n . Zwei Vektoren
z, w ∈ ⺓n heißen orthogonal oder stehen senkrecht aufeinander, falls 〈z, w〉 = 0.
Weiter ist die euklidische Norm 储 ⋅ 储 : ⺓n → [ 0, ∞ [ definiert durch
储 z 储 = 兹〈z, z〉 für alle z ∈ ⺓n .
Gilt 储 z 储 = 1, so heißt z normiert.
Für alle w, z ∈ ⺓ gilt:
Die Abbildung 〈z, ⋅〉 : ⺓n → ⺓ ist linear.
Die Abbildung 〈⋅, w〉 : ⺓n → ⺓ ist antilinear, d. h.
Sesquilinearität
n
〈z + λ z′, w〉 = 〈z, w〉 + λ 〈z′, w〉 für alle z′ ∈ ⺓ , λ ∈ ⺓.
〈z, w〉 = 〈w, z〉
Hermitizität
〈z, z〉 > 0 für alle z ≠ 0.
positive Definitheit
„Sesqui“ bedeutet „anderthalb“ und deutet an, dass die doppelte Linearität der reellen
Version modifiziert werden muss. Könnte man sich das Leben nicht einfacher machen
und auf die Konjugation in der Definition verzichten? Die Anwort ist „nein“. Es gilt
i ⋅ i = − 1 für n = 1,
1 ⋅ 1 + i ⋅ i = 1 − 1 = 0 für n = 2,
sodass die positive Definitheit ohne Konjugation verletzt ist. Weiter wird die Konjugation
für die Definition der Norm benötigt: Für alle z ∈ ⺓n gilt
〈z, z〉 = z1 z1 + … + zn zn = |z1 |2 + … + |zn |2 ≥ 0,
sodass das komplexe Skalarprodukt von z mit sich selbst eine nichtnegative reelle Zahl ist,
deren reelle Wurzel wir ziehen können. Im Allgemeinen ist Im(〈z, w〉) ≠ 0.
Sind x, y ∈ ⺢n ⊆ ⺓n , so stimmen das reelle und komplexe Skalarprodukt der beiden Vektoren überein. Die komplexe Version setzt also die reelle fort.
Bemerkung
Oft wird die Konjugation auch in der zweiten Komponente durchgeführt. Beide
Definitionen sind gleich gut und erzeugen denselben Orthogonalitätsbegriff, da
z1 w1 + … + zn wn = 0 genau dann, wenn z1 w1 + … + z wn = 0.
Wir konjugieren im Folgenden immer in der ersten Komponente.
6. 2 Das kanonische Skalarprodukt im ⺓n
151
Beispiele
(1) Für die Standardbasisvektoren e1 , …, en des ⺓n gilt 〈ei , ej 〉 = δ i j , sodass diese
Vektoren normiert und paarweise orthogonal sind.
(2) Für n = 1 gilt 〈i, z〉 = − i z. Für n = 2 gilt 〈(i, i), (z, w)〉 = − i z − i w = − i(z + w).
(3) Sind m, n ≥ 1 und A ∈ ⺓m × n , so gilt A z = 0 für z ∈ ⺓n genau dann, wenn
(z1 , …, zn ) senkrecht auf allen Zeilen der konjugierten Matrix A = ( a ij )ij steht.
Wie im reellen Fall ist unverzichtbar:
Cauchy-Schwarz-Ungleichung
Für alle z, w ∈ ⺓n gilt
| 〈z, w〉 | ≤ 储 z 储 储 w 储 .
(Cauchy-Schwarz-Ungleichung)
Gleichheit gilt genau dann, wenn z und w linear abhängig sind.
Der Beweis kann analog geführt werden, wobei man nun verwendet, dass
0 ≤ 储 z − λ w 储 2 = 储 z 储 2 − λ 〈z, w〉 − λ 〈z, w〉 + |λ|2 储 x 储 2 =
储 z 储 2 − 2 Re(λ 〈z, w〉) + |λ|2 储 x 储 2 .
Aus der Cauchy-Schwarz-Ungleichung gewinnen wir:
Dreiecksungleichung
Für alle z, w ∈ ⺓n gilt
储 z + w 储 2 = 储 z 储 2 + 2 Re(〈z, w〉) + 储 w 储 2 ≤ 储 z 储 2 + 2 | 〈z, w〉 | + 储 w 储 2 ≤
储 z 储 2 + 2 储 z 储 储 w 储 + 储 w 储 2 = ( 储 z 储 + 储 w 储 )2 ,
sodass aufgrund der Monotonie der
reellen Quadratfunktion gilt, dass
z+w
w
储 z + w 储 ≤ 储 z 储 + 储 w 储.
Nützlich sind auch die Abschätzungen
z
储 z 储 − 储 w 储 ≤ 储 z ± w 储 ≤ 储 z 储 + 储 w 储.
Sie folgen aus der Dreiecksungleichung, da
储 z ± w 储 ≤ 储 z 储 + 储 ± w 储 = 储 z 储 + 储 w 储,
±
储z储 = 储z ± w
Die Dreiecksungleichung
储 z + w 储 ≤ 储 z 储 + 储 w 储.
Der direkte Weg ist der kürzeste.
w 储 ≤ 储 z ± w 储 + 储 w 储.
Da die euklidische Norm des ⺓n die des ⺢n fortsetzt, gelten alle Ungleichungen auch
für die euklidische Norm des ⺢n . Dies kann man natürlich auch direkt aus der reellen Ungleichung von Cauchy-Schwarz herleiten.
152
6. Euklidische und unitäre Vektorräume
6. 3 Allgemeine Skalarprodukte
Definition
(Skalarprodukt, inneres Produkt, euklidisch, unitär, orthogonal)
Skalarprodukt für reelle Vektorräume
Sei V ein ⺢-Vektorraum. Eine Abbildung 〈⋅, ⋅〉 : V × V → ⺢ heißt ein Skalarprodukt oder inneres Produkt auf V, falls für alle v, w, v′, w′ ∈ V und λ ∈ ⺢ gilt:
(a) 〈v + λ v′, w〉 = 〈v, w〉 + λ 〈v′, w〉,
〈v, w + λ w′〉 = 〈v, w〉 + λ 〈v, w′〉,
(Bilinearität)
(b) 〈v, w〉 = 〈w, v〉,
(c) 〈v, v〉 > 0 für alle v ≠ 0.
(Symmetrie)
(positive Definitheit)
Ein mit einem Skalarprodukt ausgestatteter ⺢-Vektorraum heißt euklidisch.
Skalarprodukt für komplexe Vektorräume
Sei V ein ⺓-Vektorraum. Eine Abbildung 〈⋅, ⋅〉 : V × V → ⺓ heißt ein Skalarprodukt oder inneres Produkt auf V, falls für alle v, w, v′, w′ ∈ V und λ ∈ ⺓ gilt:
(a) 〈v + λ v′, w〉 = 〈v, w〉 + λ 〈v′, w〉,
〈v, w + λ w′〉 = 〈v, w〉 + λ 〈v, w′〉,
(Sesquilinearität)
(b) 〈v, w〉 = 〈w, v〉,
(c) 〈v, v〉 > 0 für alle v ≠ 0.
(Hermitizität)
(positive Definitheit)
Ein mit einem Skalarprodukt ausgestatteter ⺓-Vektorraum heißt unitär.
Orthogonalität
Zwei Vektoren v, w eines euklidischen oder unitären Vektorraums V heißen
orthogonal oder stehen senkrecht aufeinander, falls 〈v, w〉 = 0.
Die essentiellen Eigenschaften der kanonischen Skalarprodukte des ⺢n und ⺓n motivieren die Definition abstrakter Skalarprodukte. Die Skalarenkörper sind ⺢ oder ⺓ (um
Wurzeln aus 〈v, v〉 ziehen zu können), der Vektorraum V ist ansonsten beliebig.
Wegen 〈0, 0〉 = 〈0 − 0, 0〉 = 〈0, 0〉 − 〈0, 0〉 = 0 und der positiven Definitheit gilt für alle
Vektoren v: 〈v, v〉 = 0 genau dann, wenn v = 0.
Die Orthogonalität steht im Zentrum der Theorie. Als Erstes halten wir fest:
Orthogonalität impliziert lineare Unabhängigkeit
Sind v1 , …, vn von null verschiedene und paarweise orthogonale Elemente eines
euklidischen oder unitären Vektorraums V, so ist (v1 , …, vn ) linear unabhängig.
Denn für alle 1 ≤ i ≤ n und alle Skalare α1 , …, αn gilt
〈vi , α1 v1 + … + αn vn 〉 = α1 〈vi , v1 〉 + … + αn 〈vi , vn 〉 = αi 〈vi , vi 〉,
sodass α1 v1 + … + αn vn = 0 wegen 〈vi , vi 〉 > 0 nur möglich ist, wenn alle αi null sind.
6. 3 Allgemeine Skalarprodukte
153
Beispiele
(1) Ist D = diag(d1 , …, dn ) ∈ ⺢n × n mit Diagonaleinträgen di > 0, so definiert
〈x, y〉D = xt D y = d1 x1 y1 + … + dn xn yn für alle x, y ∈ ⺢n .
ein Skalarprodukt auf
dem ⺢n . Die Koordinatenprodukte werden mit
den Gewichten di
versehen. Für D = En
ergibt sich das kanonische Skalarprodukt.
Die Vektoren
(3, 1) und (−1, 1)
sind orthogonal
für D = (1, 3).
1
1
1
2
3
(2) Auf dem Vektorraum ⺢m × n aller reellen m × n-Matrizen definiert
〈A, B〉 = (At B)11 + … + (At B)nn = ∑ i,j aij bij
für alle A, B ∈ ⺢m × n
ein Skalarprodukt. Es entsteht, wenn wir die Matrizen des ⺢m × n durch
Aneinanderfügen der Zeilen (oder Spalten) in Vektoren des ⺢mn verwandeln
und dann das kanonische Skalarprodukt des ⺢mn verwenden.
(3) Der euklidische Vektorraum ᐉ 2⺢ der quadratsummierbaren Folgen in ⺢ ist
definiert durch
ᐉ⺢2 = { (xn )n ∈⺞ ∈ ⺢⺞ | ∑ n |xn |2 < ∞ },
〈(xn )n ∈⺞ , (yn )n ∈⺞ 〉 = ∑ n xn yn für alle x, y ∈ ᐉ 2⺢ .
Analog ist der unitäre Vektorraum ᐉ 2⺓ aller quadratsummierbaren Folgen in ⺓
definiert, wobei nun 〈(zn )n ∈⺞ , (wn )n ∈ ⺞ 〉 = ∑ n zn wn für alle (zn )n ∈⺞ , (wn )n ∈ ⺞ ∈ ᐉ 2⺓ .
Die Vektorräume ⺢(⺞) bzw. ⺓(⺞) aller Folgen mit endlichem Träger sind
Teilräume des ᐉ 2⺢ bzw. ᐉ⺓2 und damit ebenfalls euklidisch bzw. unitär.
(4) Sei I = [ a, b ] mit a < b ein reelles Intervall, und sei V = Ꮿ(I, ⺢) der
⺢-Vektorraum aller stetigen Funktionen f : I → ⺢. Dann definiert
〈f, g〉 =
兰
b
f(x) g(x) dx
1
a
ein Skalarprodukt auf V. Ist
I = [ 0, 2π ], so sind die auf I
eingeschränkten Sinus- und
Kosinusfunktionen orthogonal und insbesondere linear
unabhängig.
sin
cos
sin cos
2π
1
(5) Für I = [ a, b ] ⊆ ⺢ und den
Orthogonalität in V bedeutet, dass der signierte
⺓-Vektorraum V = Ꮿ(I, ⺓)
Flächeninhalt des Produkts gleich null ist.
aller stetigen f : I → ⺓ erhält man ein Skalarprodukt
wie in (4), wenn man im Integral f(x)g(x) statt f(x)g(x) verwendet.
154
6. Euklidische und unitäre Vektorräume
6. 4 Normierte Vektorräume
Definition (Norm auf V, induzierte Norm eines Skalarprodukts)
Sei V ein K-Vektorraum mit K = ⺢ oder K = ⺓. Eine Abbildung 储 ⋅ 储 : V → [ 0, ∞ [
heißt eine Norm auf V, falls für alle v, w ∈ V und λ ∈ K gilt:
(a) 储 λ v 储 = |λ| 储 v 储 ,
(Homogenität)
(b) 储 v + w 储 ≤ 储 v 储 + 储 w 储 ,
(Dreiecksungleichung)
(c) 储 v 储 > 0, falls v ≠ 0.
(Definitheit)
Ein v ∈ V heißt normiert, falls 储 v 储 = 1. Für alle v ∈ V − { 0 } heißt N(v) = v / 储 v 储 die
Normierung von v.
Ist V euklidisch oder unitär, so heißt die Abbildung 储 ⋅ 储 : V → [ 0, ∞ [ mit
(+) 储 v 储 = 兹〈v, v〉 für alle v ∈ V
die durch das Skalarprodukt induzierte Norm oder die euklidische Norm auf V.
Der Begriff der Norm ist durch die essentiellen Eigenschaften der euklidischen Länge
eines Vektors im ⺢n oder ⺓n motiviert. Wie für das allgemeine Skalarprodukt ist V ein beliebiger K-Vektorraum mit K = ⺢ oder K = ⺓.
Dass die durch (+) definierte Abbildung tatsächlich eine Norm ist, folgt aus der Linearität und Definitheit des Skalarprodukts. Für K = ⺓ gilt zum Beispiel
储 λ v 储 2 = 〈λ v, λ v〉 = λ λ 〈v, v〉 = |λ|2 储 v 储 2
für alle λ ∈ ⺓, v ∈ V,
woraus sich die Homogenität ergibt. Die Dreiecksungleichung ist schwieriger zu zeigen.
Man beweist hierzu genau wie für die kanonischen Skalarprodukte:
Cauchy-Schwarz-Ungleichung
Ist V euklidisch oder unitär, so gilt
| 〈v, w〉 | ≤ 储 v 储 储 w 储 für alle v, w ∈ V.
(Cauchy-Schwarz-Ungleichung)
Gleichheit gilt genau dann, wenn v und w linear abhängig sind.
Genau wie in 6.2 ergibt sich nun die Dreiecksungleichung, und erneut gilt die allgemeinere Form 储 v 储 − 储 w 储 ≤ 储 v ± w 储 ≤ 储 v 储 + 储 w 储 . Jedes Skalarprodukt induziert also eine
Norm. Umgekehrt brauchen wir eine zusätzliche Eigenschaft,
um aus einer Norm ein Skalarprodukt zu erzeugen:
Definition (Parallelogramm-Gleichung)
Eine Norm auf V erfüllt die ParallelogrammGleichung, falls für alle v, w ∈ V gilt:
2
2
2
v−w
w
2
储v+w储 + 储v−w储 = 2储v储 +2储w储 .
v
Damit können wir durchführen:
v+w
6. 4 Normierte Vektorräume
155
Polarisation von Pascual Jordan und John von Neumann
Ist V ein normierter K-Vektorraum mit Parallelogramm-Gleichung, so wird ein
Skalarprodukt auf V definiert durch die Polarisations-Gleichungen
⎧
⎭
储 v + w 储 2 − 储 v − w 储 2,
falls K = ⺢,
⎫
4 〈v, w〉 = ⎩
储 v + w 储 2 − 储 v − w 储 2 + i ( 储 i v + w 储 2 − 储 iv − w 储 2 ) falls K = ⺓.
Weiter gilt: Die Norm eines Skalarprodukt erfüllt die Parallelogramm-Gleichung, und
die Polarisation rekonstruiert das Skalarprodukt aus der Norm. Kurz:
Skalarprodukt = Norm + Parallelogramm-Gleichung.
Beispiele
(1) Die Summennorm oder Manhattan-Norm auf dem Kn ist definiert durch
储 x 储 = |x1 | + … + |xn | für alle x ∈ Kn .
(2) Die Maximumsnorm auf dem Kn ist definiert durch
储 x 储 ∞ = max1 ≤ i ≤ n |xi | für alle x ∈ Kn .
(3) Für alle p ∈ [ 1, ∞ [ ist die p-Norm auf dem Kn definiert durch
储 x 储 p = (|x1 |p + … + |xn |p )1/p
für alle x ∈ Kn .
Die Summen- und die euklidische Norm sind die p-Normen für p = 1 bzw. p = 2.
Lediglich die 2-Norm erfüllt die Parallelogramm-Gleichung, sodass die p-Norm
für p ≠ 2 von keinem Skalarprodukt abstammt.
p=3
p=1
p=∞
3
3
3
2
1
1
2
2
2
1
1
3
1
2
3
1
2
3
Illustration der Normen 储 ⋅ 储 p auf dem ⺢2 für p = 1, 3, ∞. Gezeigt sind alle 储 v 储 p v ∈ ⺢ 2,
wobei v die Kreise der Radien r = 1, 2, 3 der 2-Norm durchläuft (übliche Kreise). Für
andere p ergeben sich ähnliche Bilder. Die Werte p = 1 und p = ∞ bilden die Extremfälle.
(4) Sei V = Ꮿ([ 0, 1 ], K) der K-Vektorraum aller stetigen f : [ 0, 1 ] → K. Dann sind
die Maximumsnorm und für alle p ≥ 1 die p-Norm auf V definiert durch
储 f 储 ∞ = max x ∈ [0, 1] |f(x)|, 储 f 储 p =
兰
1
|f(x)|p dx
1/p
.
0
Diese Normen sind die kontinuierlichen Analoga der Normen auf dem Kn .
156
6. Euklidische und unitäre Vektorräume
6. 5 Normen im Endlich-Dimensionalen
Satz (Äquivalenzsatz für Normen)
Sei V ein endlich-dimensionaler K-Vektorraum mit K = ⺢ oder K = ⺓, und seien
储 ⋅ 储 , 储 ⋅ 储 ′ : V → [ 0, ∞ [ Normen auf V. Dann sind die beiden Normen äquivalent,
d. h., es gibt reelle Zahlen c, d > 0 mit
(+) c 储 v 储 ≤ 储 v 储 ′, d 储 v 储 ′ ≤ 储 v 储
für alle v ∈ V.
Zur Illustration betrachten wir die zu einer Norm auf V gehörige Einheitskugel
B = { v ∈ V | 储 v 储 ≤ 1 }.
(Die Namensgebung stammt von der euklidischen Norm auf dem ⺢3 . Im Allgemeinen ist
B nur in einem abstrakten Sinn kugelförmig.) Der Äquivalenzsatz besagt, dass die Einheitskugeln B und B′ zweier Normen 储 ⋅ 储 bzw. 储 ⋅ 储 ′ auf V nach einer geeigneten Skalierung ineinander Platz haben. Definieren wir
für c > 0 und A ⊆ V die Skalierung cA durch
1
c A = { c v | v ∈ A },
so sind äquivalent:
0.5
(a) c 储 v 储 ≤ 储 v 储 ′ für alle v ∈ V.
(b) c B′ ⊆ B.
1
0.5
0.5
1
Damit ist (+) äquivalent zu
c B′ ⊆ B und d B ⊆ B′.
0.5
Äquivalent zu (+) ist auch, dass c, C > 0
existieren mit
1
c 储 v 储 ≤ 储 v 储 ′ ≤ C 储 v 储 für alle v ∈ V.
Die Einheitskugeln der p-Normen für
Beispiele
(1) Für die Normen 储 ⋅ 储 p für p = 1, 2, ∞
auf dem Kn gelten die Abschätzungen:
p = 1, 4/3, 2, 5, ∞ (von innen nach außen)
储 x 储 ∞ ≤ 储 x 储 2 ≤ 储 x 储 1 ≤ 兹n 储 x 储 2 ≤ n 储 x 储 ∞ .
(2) Für den unendlich-dimensionalen ⺢-Vektorraum V = Ꮿ([ 0, 1 ], ⺢) ist der Satz
nicht mehr richtig. Für alle n ≥ 1
n
sei fn : [ 0, 1 ] → ⺢ mit
fn (x) = max( n − n2 x, 0) für alle x.
Dann gilt 储 fn 储 ∞ = n, 储 fn 储 1 = 1/2
(Integral von |f |) für alle n ≥ 1.
Folglich gibt es kein d > 0 mit
d 储 f 储 ∞ < 储 f 储 1 für alle f ∈ V.
fn
1/n
1
6. 5 Normen im Endlich-Dimensionalen
157
Wir diskutieren zwei analytische Anwendungen des Satzes.
Komponentenweise Konvergenz
Ist V ein normierter Vektorraum, (xk )k ∈⺞ eine Folge in V und x ∈ V, so schreiben wir
limk → ∞ xk = x (bzgl. 储 ⋅ 储 ),
falls limk → ∞ 储 xk − x 储 = 0 in ⺢ gilt. Wir sagen dann, dass die Folge (xk )k ∈⺞ unter der
Norm von V gegen x konvergiert. Mit Hilfe des Äquivalenzsatzes können wir den
Konvergenzbegriff für endlich-dimensionale Vektorräume identifizieren und zeigen,
dass er nicht von der Norm abhängt:
Ist V = Kn , so sind äquivalent:
(a) x = limk → ∞ xk ,
(b) limk → ∞ (xk ) j = xj
für alle 1 ≤ j ≤ n.
(komponentenweise Konvergenz in K = ⺢ bzw. K = ⺓)
Zum Beweis verwenden wir, dass 储 x − xk 储 ≤ c 储 x − xk 储 ∞ für ein geeignetes c gilt, und
dass die Konvergenz bzgl. der Maximumsmetrik die komponentenweise Konvergenz
ist. Allgemeiner gilt für Folgen in einem endlich-dimensionalen normierten
Vektorraum V mit Basis Ꮽ = (v1 , …, vn ) und zugehöriger Koordinatenabbildung
Φ Ꮽ : V → Kn :
limk → ∞ xk = x genau dann, wenn limk → ∞ ΦᏭ (xk )j = ΦᏭ (x)j für alle 1 ≤ j ≤ n.
Statt komponentenweiser Konvergenz spricht man deswegen auch von koordinatenweiser Konvergenz. Ist zum Beispiel V ein ⺢-Vektorraum mit einer Basis (v1 , v2 , v3 ),
so konvergiert eine Folge in V unter jeder Norm genau dann gegen einen Vektor
v = α1 v1 + α2 v2 + α3 v3 , wenn die drei reellen Koordinatenfolgen der Folge in ⺢
gegen α1 , α2 und α3 konvergieren.
Homomorphismen sind Lipschitz-stetig
Seien V = Kn , W = Km normiert durch 储 ⋅ 储 V bzw. 储 ⋅ 储 W , und sei f : V → W linear.
Dann gilt für alle x,y ∈ Vaufgrund der Linearität von f und der Dreiecksungleichung:
储 f(x) − f(y) 储 W = 储 (x1 − y1 ) f(e1 ) + … + (xn − yn ) f(en ) 储 W ≤
| x1 − y1 | 储 f(e1 ) 储 W + … + | xn − yn | 储 f(en ) 储 W ≤ s 储 (x − y) 储 ∞ ≤ s c 储 (x − y) 储 V ,
wobei wir
s = 储 f(e1 ) 储 W + … + 储 f(en ) 储 W
setzen und für die Konstante c den Äquivalenzsatz bemühen. Damit ist f Lipschitzstetig mit der Lipschitz-Konstanten L = s c. Allgemeiner zeigt man in dieser Weise,
dass jeder Homomorphismus f : V → W zwischen normierten endlich-dimensionalen Vektorräumen V und W Lipschitz-stetig ist. Die Lipschitz-Konstante hängt dabei von den gewählten Normen ab.
158
6. Euklidische und unitäre Vektorräume
6. 6 Orthonormalbasen
Definition (Orthogonalbasis, Orthonormalbasis)
Sei V ein euklidischer oder unitärer Vektorraum. Eine Basis (vi )i ∈ I von V heißt eine
Orthogonalbasis, falls 〈vi , vj 〉 = 0 für alle i, j ∈ I mit i ≠ j. Gilt zusätzlich 储 vi 储 = 1 für
alle i, so heißt (vi )i ∈ I eine Orthonormalbasis.
Eine Orthonormalbasis ist also eine Basis aus normierten Vektoren, die paarweise aufeinander senkrecht stehen. Kompakt kann man dies durch
〈vi , vj 〉 = δ i j für alle i, j ∈ I
(Orthonormalitätsbedingung)
zum Ausdruck bringen. Da die Orthogonalität die lineare Unabhängigkeit nach sich
zieht, ist eine orthogonale Familie (vi )i ∈ I in V − { 0 } bereits dann eine Orthogonalbasis,
wenn sie erzeugend ist. Weiter ist dann (N(vi ))i ∈ I eine Orthonormalbasis. Jede Orthogonalbasis lässt sich also durch Normierung in eine Orthonormalbasis überführen. Mit der
Konstruktion von Orthogonalbasen werden wir uns im nächsten Abschnitt beschäftigen.
Zunächst wollen wir wichtige Eigenschaften festhalten und Beispiele kennenlernen.
Ist (v1 , …, vn ) eine Orthonormalbasis von V, so gilt für alle v ∈ V:
v = 〈v1 , v〉 v1 + … + 〈vn , v〉 vn ,
储 v 储 2 = |〈v1 , v〉|2 + … + |〈vn , v〉|2 .
(Koordinatenbestimmung)
(Parseval-Gleichung)
Ist Φ : V → Kn die Koordinatenabbildung bzgl. (v1 , …, vn ), so gilt
〈v, w〉 = 〈Φ(v), Φ(w)〉kanonisch für alle v, w ∈ V.
In diesem Sinn ist V isomorph zum Kn mit dem kanonischen Skalarprodukt.
Ist (vi )i ∈ I eine Orthonormalbasis von V, so ist für alle v ∈ V die Menge aller
Indizes i mit 〈vi , v〉 ≠ 0 endlich, und es gilt:
v = ∑ i ∈ I 〈vi , v〉 vi ,
储 v 储 2 = ∑ i ∈ I |〈vi , v〉|2 .
(Koordinatenbestimmung)
(Parseval-Gleichung)
Die Aussagen ergeben sich für K = ⺓ und v = ∑ i αi vi , w = ∑ i βi vi aus
〈vi , v〉 = 〈vi , ∑ j αj vj 〉 = ∑ j αj 〈vi , vj 〉 = ∑ j αj δ i j = αi für alle i ∈ I,
〈v, v〉 = 〈∑ i αi vi , v〉 = ∑ i αi 〈vi , v〉 = ∑ i |αi |2 = ∑ i |〈vi , v〉|2 ,
〈v, w〉 = ∑ i αi 〈vi , w〉 = ∑ i αi βi = 〈Φ(v), Φ(w)〉kanonisch für endliche I.
Für jedes i pickt 〈vi , ⋅〉 : V → K die i-Koordinate von v bzgl. (vi )i ∈ I heraus. Es gilt also
〈vi , ⋅〉 = vi * mit den linear unabhängigen dualen Vektoren vi * ∈ V* (vgl. 3. 12).
6.6 Orthonormalbasen
159
Beispiele
(1) Die Standardbasis (e1 , …, en ) des ⺓n ist eine Orthonormalbasis bzgl. des
kanonischen Skalarprodukts. Die Parseval-Gleichung schreibt sich als
储 z 储 2 = |〈e1 , z〉|2 + … + |〈en , z〉|2 = |z1 |2 + … + |zn |2 für alle z ∈ ⺓n .
(2) Ist (v1 , v2 ) eine Orthonormalbasis des ⺢2 bzgl. des kanonischen Skalarprodukts,
so gibt es ein α ∈ [ 0, 2π [ mit v1 = (cos α, sin α) (Polarkoordinaten). Dann gilt
v2 = (− sin α, cos α)
oder
v2 = (sin α, − cos α).
(3) Die Orthonormalbasen des ⺢3 bzgl. des kanonischen Skalarprodukts lassen sich
als normierte rechtwinklige Dreibeine mit Spitze am Nullpunkt beschreiben.
(4) Sei n ∈ ⺞. Wir betrachten den (2n + 1)-dimensionalen unitären Vektorraum
der trigonometrischen Polynome von Grad kleinergleich n:
V = { f : ⺢ → ⺓ | es gibt a− n , …, an ∈ ⺓ mit f(x) = ∑ −n ≤ k ≤ n ak ei k x für alle x },
1
2π
〈f, g〉 =
2π
兰
für alle f, g ∈ V.
f(x) g(x) dx
0
Die (als Terme notierten) Funktionen ei k x , −n ≤ k ≤ n bilden eine Orthonormalbasis von V. Für alle f ∈ V gilt
1
2π
ak =
1
2π
兰
2π
0
兰
2π
e−i k x f(x) dx
0
für alle −n ≤ k ≤ n,
(Koeffizientenberechnung)
|f(x)|2 dx = ∑ −n ≤ k ≤ n |ak |2 .
(Parseval-Gleichung)
(5) Im ⺢-Vektorraum aller reellen Polynomfunktionen
V = { f : ⺢ → ⺢ | es gibt a0 , …, an ∈ ⺢ mit f(x) = ∑ k ≤ n ak xk für alle x } mit
〈f, g〉 =
兰
1
f(x) g(x) dx
1
−1
P2
definieren wir die LegendrePolynome Pn rekursiv durch
P0 (x) = 1, P1 (x) = x,
P10
P3
P5
(n + 1) Pn + 1 (x) =
(2n + 1) x Pn (x) − n Pn − 1 (x).
Man kann zeigen, dass 〈Pn , Pm 〉
= 2/(2n + 1)δ nm , sodass die Pn
eine Orthogonalbasis von V bilden. Sie sind in der Physik bedeutsam. Eine mathematische
Motivation werden wir in 6. 7
kennenlernen.
1
1
1
160
6. Euklidische und unitäre Vektorräume
6. 7 Das Orthonormalisierungsverfahren
Satz (Existenz von Orthonormalbasen)
Sei V ein euklidischer oder
unitärer Vektorraum, der eine
abzählbare Basis besitzt. Dann
besitzt V eine Orthonormalbasis.
v
v*
U
u2
Der Satz ist das „orthogonale Anau
logon“ zum Basisexistenzsatz (3. 9).
u1
Wir werden unten sehen, dass wir
diesmal auf eine Dimensionsvoraussetzung nicht verzichten können.
Zum Beweis betrachten wir einen
u = 〈u1 , v〉 u1 + 〈u2 , v〉 u2
endlich-dimensionalen Unterraum U
von V. Wir nehmen an, dass U eine
Orthonormalbasis (u1 , …, uk ) besitzt. Nun sei v ∈ V − U beliebig. Dann steht der Vektor
v* = v − u mit u = ∑ 1 ≤ i ≤ k 〈u i , v〉 u i ∈ U
senkrecht auf allen uj (vgl. das Diagramm), da
〈uj , v*〉 = 〈uj , v〉 − ∑ 1 ≤ i ≤ k 〈ui , v〉 〈uj , ui 〉 = 〈uj , v〉 − 〈uj , v〉 = 0 für alle 1 ≤ j ≤ k.
Wegen v ∉ U ist v* ≠ 0, und damit ist
(u1 , …, uk , N(v*))
(orthonormale Erweiterung)
eine Orthonormalbasis des Unterraums span(u1 , …, uk , v*) = span(U ∪ { v }). Die Argumentation liefert folgendes Verfahren zur Konstruktion einer Orthonormalbasis:
Das Orthonormalisierungsverfahren von Gram-Schmidt
Sei (v1 , …, vn ) eine Basis von V. Dann definieren wir rekursiv:
u1 = N(v1 ),
uk + 1 = N(vk + 1 − ∑ 1 ≤ i ≤ k 〈ui , vk + 1 〉 ui ) für alle 1 ≤ k ≤ n − 1.
Dann ist (u1 , …, un ) eine Orthonormalbasis von V. Zudem gilt
span(u1 , …, uk ) = span(v1 , …, vk ) für alle k ≤ n.
Die Orthonormalbasis (u1 , …, un ) heißt die Gram-Schmidt-Orthonormalisierung von
(v1 , …, vn ). Das Verfahren kann analog für eine abzählbar unendliche Basis (vn )n ∈ ⺞
von V durchgeführt werden und liefert dann eine Orthonormalbasis (un )n ∈ ⺞ von V.
Als Korollar erhält man die sog. QR-Zerlegung einer invertierbaren Matrix, die wir in
Überblick 7 diskutieren. Die Summen ∑ 1 ≤ i ≤ k 〈ui , vk + 1 〉 ui werden wir im nächsten Abschnitt genauer betrachten.
6. 7 Das Orthonormalisierungsverfahren
161
Beispiele
(1) Wir betrachten den ⺢3 mit dem kanonischen Skalarprodukt. Das Verfahren von
Gram-Schmidt liefert für die Basis (v1 , v2 , v3 ) = ((1, 0, 0), (1, 1, 0), (1, 1, 1)):
u1 = v1 = (1, 0, 0),
u2 = N(v2 − 〈u1 , v2 〉 u1 ) = N(v2 − u1 ) = (0, 1, 0),
u3 = N(v3 − 〈u1 , v3 〉 u1 − 〈u2 , v3 〉 u2 ) = N(v3 − u1 − u2 ) = (0, 0, 1).
Die Orthonormalisierung ergibt also die kanonische Basis des ⺢3 . Wenden wir
dagegen das Verfahren auf die umgeordnete Basis (v3 , v2 , v1 ) an, so erhalten wir
w1 = N(v3 ) = α (1, 1, 1)
mit α = 1/兹3,
w2 = N(v2 − 〈w1 , v2 〉 w1 ) = β (1, 1, −2)
mit β = 1/兹6,
w3 = N(v1 − 〈w1 , v1 〉 w1 − 〈w2 , v1 〉 w2 ) = γ (1, −1, 0)
mit γ = 1/兹2.
v3
u3
v3
w1
u2
v2
v2
v1
v1 = u 1
w3
w2
(2) Wir betrachten den ⺢-Vektorraum V aller reellen Polynomfunktionen mit
〈f, g〉 =
兰
1
−1
f(x) g(x) dx
für alle f, g ∈ V
und die abzählbar unendliche Basis (1, x, x2 , x3 , …). Das Orthonormalisierungsverfahren liefert die normierten Legendre-Polynome N(P0 ), N(P1 ), N(P2 ), …
(vgl. 8. 7).
Exkurs: Ein euklidischer Vektorraum ohne Orthonormalbasis
Sei ᐉ 2 der euklidische Vektorraum aller quadratsummierbaren Folgen in ⺢ (vgl. 6. 3).
Annahme, ᐉ 2 besitzt eine Orthonormalbasis (vi )i ∈ I . Für alle n ist dann en ∈ ᐉ 2 eine Linearkombination von Vektoren der Basis. Insgesamt werden zur Darstellung aller en
nur abzählbar viele vi verwendet. Da I überabzählbar ist (vgl. 4. 9), gibt es ein nicht
verwendetes vi* . Dann gilt 〈vi* , en 〉 = 0 für alle n, sodass vi* = 0, Widerspruch.
Woran scheitert ein allgemeiner Existenzbeweis? Das Zornsche Lemma liefert eine
maximale orthonormale Familie (ui )i ∈ I , aber nun ist U = span({ ui | i ∈ I }) ≠ V möglich. Denn die Bildung v* = v − ∑ i ∈ I 〈u i , v〉 u i ist für ein v ∈ V − U im Allgemeinen
nicht mehr möglich, da es unendlich viele i ∈ I mit 〈ui , v〉 ≠ 0 geben kann. Ein Beispiel in ᐉ 2 ist un = en für n und v mit v(k) = 1 für alle k.
162
6. Euklidische und unitäre Vektorräume
6. 8 Orthogonale Komplemente und Projektionen
Definition (orthogonales Komplement, orthogonale Projektion)
Sei V ein euklidischer oder unitärer Vektorraum.
Orthogonale Unterräume und orthogonale Summe
Zwei Unterräume U und W von V
heißen orthogonal, falls 〈u, w〉 = 0
für alle u ∈ U und w ∈ W.
U⊥
V heißt orthogonale Summe einer
Familie von Unterräumen (Ui )i ∈ I ,
falls V = ∑ i ∈ I Ui und die Ui
paarweise orthogonal sind.
Orthogonales Komplement und orthogonale Projektion
Ist U ein Unterraum von V, so heißt
U = (U ⊥ ) ⊥
Orthogonale Komplemente in ⺢3
U ⊥ = { v ∈ V | 〈v, u〉 = 0 für alle u ∈ U }
das orthogonale Komplement von U in V. Die Abbildung PU : U + U ⊥ → U mit
PU (v) = „das eindeutige u ∈ U mit v − u ∈ U ⊥ “ für alle v ∈ U + U ⊥
heißt die orthogonale Projektion von U + U ⊥ auf U.
Mit Hilfe orthogonaler Unterräume lässt sich ein euklidischer oder unitärer Vektorraum übersichtlich organisieren. Sind U und W orthogonal, so ist U ∩ W = { 0 }. Denn für
alle Vektoren u ∈ U ∩ W gilt 0 = 〈u, u〉 und damit u = 0. Weiter gilt:
Orthogonale Summen sind direkt
Ist V = ∑ i ∈ I Ui eine orthogonale Summe und sind ui ∈ Ui mit ∑ i ∈ I ui = 0, so gilt
0 = 〈∑ i ∈ I ui , ∑ i ∈ I ui 〉 = ∑ i, j ∈ I 〈ui , uj 〉 = ∑ i ∈ I 〈ui , ui 〉 = ∑ i ∈ I 储 ui 储 2 ,
sodass ui = 0 für alle i ∈ I. Damit ist V = ⊕i ∈ I Ui (vgl. 3. 10).
Insbesondere ist die orthogonale Summe U + U ⊥ direkt, sodass die orthogonale Projektion PU : U + U ⊥ → U wohldefiniert ist. Wichtig ist:
Ist U endlich-dimensional, so ist U + U ⊥ = V.
Zum Beweis seien (u1 , …, uk ) eine Orthonormalbasis von U, v ∈ V beliebig und
v* = v − u mit u = ∑ 1 ≤ i ≤ k 〈u i , v〉 u i ∈ U.
Der Vektor v* steht senkrecht auf allen ui , sodass v = u + v* ∈ U + U ⊥ .
Ist V endlich-dimensional, so gilt also dim(U) + dim(U ⊥ ) = dim(V). Weiter ist dann
(U ⊥ ) ⊥ = U. Allgemein gilt nur U ⊆ (U ⊥ ) ⊥ , vgl. das folgende Beispiel (2).
6. 8 Orthogonale Komplemente und Projektionen
163
Die orthogonale Projektion PU : U + U ⊥ → U ist linear und surjektiv. Weiter gilt
PU |U = idU und PU ⴰ PU = PU (Idempotenz). Wichtig sind darüber hinaus:
Ist (ui )i ∈ I eine Orthonormalbasis von U, so gilt für alle v ∈ U + U ⊥ :
PU (v) = ∑ i ∈ I 〈ui , v〉 ui .
(Berechnungsformel)
Für alle v ∈ U + U ⊥ gilt 储 v − PU (v) 储 = min u ∈ U 储 v − u 储 . (Bestapproximation)
Die Rekursionsformel des Gram-SchmidtVerfahrens können wir nun schreiben als
v
v − PU (v)
uk + 1 = N(vk + 1 − PUk (vk + 1 )), mit
Uk = span(v1 , …, vk ) = span(u1 , …, uk ).
PU (v)
In Kurzform lautet das Verfahren also:
U
Projiziere und normalisiere die Differenz.
Beispiele
(1) Im ⺓-Vektorraum V aller stetigen Funktionen von [ 0, 2π ] nach ⺓ mit
〈f, g〉 =
1
2π
兰
2π
f(x) g(x) dx
0
für alle f, g ∈ V
erzeugen die orthonormalen Vektoren ei k x , − n ≤ k ≤ n für alle n ≥ 1 einen
Unterraum Un . Für alle f ∈V ist PUn (f ) die n-te Fourier-Approximation an f :
PU (f ) = ∑ −n ≤ k ≤ n 〈eikx , f 〉 eikx = ∑ −n ≤ k ≤ n ck eikx , mit
ck =
1
2π
兰
2π
0
f(x) e− ikx dx für alle −n ≤ k ≤ n.
(2) Im euklidischen Vektorraum V = ⺢(⺞) aller reellen Folgen mit endlichem Träger
sei
U = { a1 e1 + … + an en | n ≥ 1, a1 + … + an = 0 }
der Unterraum aller Folgen, deren Folgenglieder sich zu 0 aufsummieren. Ist
nun v ∈ U ⊥ , so gilt wegen ei − ej ∈ U für i ≠ j, dass
v(i) − v(j) = 〈v, ei − ej 〉 = 0
für alle i ≠ j.
Also ist v konstant damit gleich 0. Folglich ist U ⊥ = { 0 } und (U ⊥ ) ⊥ = V ≠ U.
Da U und V eine abzählbar unendliche Dimension besitzen, existieren
Orthonormalbasen der beiden Räume. Eine Orthonormalbasis von U lässt sich
aber wegen U ⊥ = { 0 } nicht zu einer Orthonormalbasis von V fortsetzen. Das
orthogonale Analogon des Basisergänzungssatzes ist also nicht mehr gültig.
164
6. Euklidische und unitäre Vektorräume
6. 9 Orthogonale Homomorphismen und Matrizen
Definition (orthogonaler Homomorphismus, orthogonale Matrix, unitäre Matrix)
Orthogonale Homomorphismen
Seien V, W euklidische bzw. unitäre Vektorräume. Eine lineare Abbildung
f : V → W heißt ein orthogonaler Homomorphismus, falls
(+) 〈f(v), f(w)〉W = 〈v, w〉V für alle v, w ∈ V.
Orthogonale und unitäre Matrizen
Eine Matrix Q ∈ ⺢n × n heißt orthogonal, falls 〈Qx, Qy〉 = 〈x, y〉 für alle x, y ∈ ⺢n .
Analog heißt eine Matrix U ∈ ⺓n × n unitär, falls 〈Ux, Uy〉 = 〈x, y〉 für alle x, y ∈ ⺓n .
Dabei werden die kanonischen Skalarprodukte des ⺢n bzw. ⺓n verwendet.
Wie für alle algebraischen Strukturen sind strukturerhaltende Abbildungen von Interesse. Eine Abbildung f : V → W zwischen Vektorräumen mit Skalarprodukt erhält die
Struktur, wenn f linear ist und das Skalarprodukt von V im Sinne von (+) respektiert.
Orthogonale Homomorphismen sind injektiv, da f(v) = 0 impliziert, dass 〈f(v), f(v)〉 = 0
und damit 〈v, v〉 = 0. Nach positiver Definitheit ist also Kern(f ) = { 0 } und somit f injektiv.
Orthogonaliät und Längentreue sind äquivalent
Ist f : V → W orthogonal, so gilt 储 f(v) 储 2 = 〈f(v), f(v)〉 = 〈v, v〉 = 储 v 储 2 und damit
储 f(v) 储 = 储 v 储 für alle v ∈ V.
Ist umgekehrt f : V → W linear und
längentreu, so gilt im Fall K = ⺢ nach
der Polarisationsformel
4 〈f(x), f(y)〉 = 储 f(x) + f(y) 储 2 − 储 f(x) − f(y) 储 2 =
(Längentreue)
v
w
0V
f(w)
储 f(x + y) 储 2 − 储 f(x − y) 储 2 =
储 x + y 储 2 − 储 x − y 储 2 = 4 〈x, y〉.
Also ist f orthogonal. Analoges gilt für K = ⺓.
0W
f(v)
Die Brücke zu den Matrizen ist gegeben durch:
(1) Ist V ein endlich-dimensionaler euklidischer bzw. unitärer Vektorraum, so ist V
orthogonal isomorph zum Kn mit dem kanonischen Skalarprodukt, d. h., es existiert
ein Isomorphismus f : V → Kn mit (+). Ist (v1 , …, vn ) eine Orthonormalbasis von
V, so ist das lineare f : V → Kn mit f(vi ) = ei für alle i ein solcher Isomorphismus.
(2) Eine Matrix Q ∈ ⺢n × n ist genau dann orthogonal, wenn fQ : ⺢n → ⺢n orthogonal
ist. Analoges gilt für eine unitäre Matrix U ∈ ⺓n × n .
Dass das Matrix-Vektor-Produkt das kanonische Skalarprodukt nicht verändert, lässt
sich durch eine Reihe von äquivalenten Bedingungen zum Ausdruck bringen:
6. 9 Orthogonale Homomorphismen und Matrizen
Charakterisierungen der Orthogonalität von Q ∈ ⺢n × n
a11
…
…
a1n
…
…
…
…
…
…
…
…
α(Qx, Qy) = α(x, y) für alle x,y ∈ ⺢n (Winkeltreue)
an1
…
…
ann
Die Spalten von Q bilden eine Orthonormalbasis.
a11
…
…
an1
…
…
…
…
…
…
…
…
a1n
…
…
ann
储 Qx 储 = 储 x 储 für alle x ∈ ⺢n (Längentreue)
Q−1 = Qt (Invertierung durch Transposition)
Die Zeilen von Q bilden eine Orthonormalbasis.
165
⋅
= En
zur Eigenschaft Q−1 = Qt
Typische Argumente, die die Verwendung und das
Wechselspiel der Bedingungen illustrieren, sind:
(1) Ist Q orthogonal, so gilt 〈Qei , Qej 〉 = 〈ei , ej 〉 = δi j für die Spalten Qe1 , …, Qen von
Q, sodass die Spalten von Q eine Orthonormalbasis des ⺢n bilden.
(2) Bilden die Zeilen q1 , …, qn von Q eine Orthonormalbasis, so ist Q orthogonal, da
〈Qx, Qy〉 = 〈(〈q1 , x〉, …, 〈qn , x〉), (〈q1 , y〉, …, 〈qn , y〉)〉 =
〈q1 , x〉 〈q1 , y〉 + … + 〈qn , x〉 〈qn , y〉 = 〈〈q1 , x〉 q1 + … + 〈qn , x〉 qn , y〉 = 〈x, y〉.
Für unitäre Matrizen gelten analoge Charakterisierungen, wobei wir hinsichtlich der
Inversenbildung alle Einträge der Matrix bei der Transponierung zusätzlich zu konjugieren haben. Definieren wir also für eine beliebige Matrix A ∈ ⺓n × n die adjungierte Matrix
A* ∈ ⺓n × n durch A*(i, j) = a ji , so gilt für unitäre Matrizen also
U−1 = U*.
(Invertierungsregel für unitäre Matrizen)
Die orthogonalen bzw. unitären Matrizen bilden die Untergruppen O(n) von GL(n, ⺢)
bzw. U(n) von GL(n, ⺓). Wir werden sie später noch genauer untersuchen.
Beispiele
(1) Wir betrachten die Orthonormalbasis (w1 , w2 , w3 ) des ⺢3 mit w1 = α (1, 1, 1),
w2 = β (1, 1, −2), w3 = γ (1, −1, 0), wobei α = 1/兹3, β = 1/兹6, γ = 1/兹2
(vgl. 6. 7). Ist Q die Matrix mit den Spalten w1 , w2 , w3 so ist Q orthogonal und
t
QQ =
α
β
γ
α
α
α
α
β
−γ
β
β
−2β
0
γ
−γ
0
α −2β
=
1
0
0
0
1
0
0
0
1
= E3 .
(2) Die Abbildung f : ᐉ2⺢ → ᐉ2⺢ mit f(x0 , x1 ,x2 , …) = (0, x0 , x1 , …) ist orthogonal,
aber nicht surjektiv.
166
6. Euklidische und unitäre Vektorräume
6. 10 Der Rieszsche Darstellungssatz
Satz (Rieszscher Darstellungssatz)
Sei V ein endlich-dimensionaler euklidischer oder unitärer
Vektorraum, und sei f ∈ V*.
Dann gibt es ein eindeutiges
w ∈ V mit f = 〈w, ⋅〉, d. h.
f(v) = 〈w, v〉 für alle v ∈ V.
5
f
2
2
w
Für alle w ∈ V ist 〈w, ⋅〉 ∈ V*. Der
Satz besagt, dass umgekehrt jedes
f ∈ V* von der eindeutigen Form
〈w, ⋅〉 ist, falls V endlich-dimensional ist. Wir nennen w den darstellenden oder Riesz-Vektor von f .
2
2
5
Kern(f )
f(x, y) =
−6x − 8y
5
w = (−6/5, −8/5), 储 w 储 = 2
Konstruktion des darstellenden Vektors
Wir nehmen K = ⺓ an und betrachten eine Orthonormalbasis (v1 , …, vn ) von V und
die Dualbasis (v1*, …, vn*) von V*. Dann gibt es eindeutige α1 , …, αn ∈ ⺓ mit
f = α1 v1* + … + αn vn*.
Es gilt (α1 , …, αn ) = Φ(v1*, …, vn*) (f ) mit der Koordinatenabbildung Φ(v1*, …, vn*) : V* → ⺓n .
Weiter ist α1 = f(v1 ), …, αn = f(vn ), sodass die αi durch Auswerten von f auf den
Basisvektoren berechnet werden können. Für alle v = λ1 v1 + … + λn vn ∈ V gilt
f(v) = f(λ1 v1 + … + λn vn ) = (α1 v1* + … + αn vn*) (λ1 v1 + … + λn vn ) =
α1 λ1 + … + αn λn = 〈α1 v1 + … + αn vn , v〉,
wobei wir im letzten Schritt die Orthonormalität der Basis verwenden. Damit ist
w = α 1 v1 + … + α n v n .
(Identifikation des darstellenden Vektors)
Zur Eindeutigkeit beobachten wir, dass für alle w ≠ u die Abbildungen 〈w, ⋅〉 und
〈u, ⋅〉 verschieden sind. Denn ist 〈w, ⋅〉 = 〈u, ⋅〉, so ist 〈w − u, ⋅〉 die Nullabbildung,
sodass insbesondere 〈w − u, w − u〉 = 0 und damit w = u nach positiver Definitheit.
Für K = ⺢ bleibt die Argumentation gleich, wobei die Konjugationen wegfallen.
Beispiele
(1) Sei V = ⺢n mit dem kanonischen Skalarprodukt und der Standardbasis (e1 , …, en ),
und sei f : ⺢n → ⺢ linear. Dann gilt für alle v = (λ1 , …, λn ) ∈ ⺢n :
f(v) = f(λ1 e1 + … + λn en ) = λ1 f(e1 ) + … + λn f(en ) =
f(e1 ) λ1 + … + f(en ) λn = 〈(f(e1 ), …, f(en )), v〉,
sodass w = (f(e1 ), …, f(en )) ∈ ⺢n der darstellende Vektor von f ist.
6. 10 Der Rieszsche Darstellungssatz
167
(2) Für den ⺢2 mit dem kanonischen Skalarprodukt ist ein lineares f : ⺢2 → ⺢ eine
Ebene durch den Nullpunkt. Der Riesz-Vektor w ∈ ⺢2 ist
w = (f(1, 0), f(0, 1)).
Dieser Vektor steht senkrecht auf Kern(f ) (dem Schnitt von f mit der x-y-Ebene)
und zeigt in die Richtung des stärksten Anstiegs der Ebene. In der Sprache der
Analysis ist w der Gradient von f im Punkt 0. Obiges Diagramm visualisiert die
Situation für ein konkretes f.
Der Rieszsche Darstellungssatz ist für unendlich-dimensionale Vektorräume nicht
mehr ohne zusätzliche Voraussetzungen gültig:
Beispiel
Sei V der ⺢-Vektorraum der reellen Polynomfunktionen auf ⺢ mit
〈f , g〉 =
兰
1
−1
f(x) g(x) dx
für alle f, g ∈ V.
Wir betrachten das lineare Funktional F : V → ⺢ mit
F(f) = f(0)
für alle f ∈V.
(Auswertung am Nullpunkt)
Annahme, es gibt ein g ∈ V mit F(f ) = 〈g, f 〉 für alle f ∈ V. Dann gilt 〈g, x2 g〉 = 0, da
das Polynom x2 g im Nullpunkt gleich 0 ist. Damit ist aber
兰
1
−1
x2 g(x)2 dx = 〈g, x2 g〉 = 0.
Dies ist nur möglich, wenn g = 0. Dann ist aber F = 〈g, ⋅〉 = 0, Widerspruch.
Exkurs I: Der Darstellungssatz für stetige Funktionale auf Hilbert-Räumen
Ist ein euklidischer oder unitärer Vektorraum V bzgl. der durch das Skalarprodukt
induzierten Norm vollständig (im Sinne der Konvergenz von Cauchy-Folgen in V),
so nennt man V einen Hilbert-Raum. So ist beispielsweise der ᐉ2 (⺓) ein HilbertRaum. Der Rieszsche Darstellungssatz gilt nun für Hilbert-Räume, wenn man sich
auf stetige Funktionale f : V → K beschränkt. Jedes stetige Funktional hat also die
eindeutige Form 〈w, ⋅〉 und umgekehrt sind alle 〈w, ⋅〉 stetige Funktionale.
Exkurs II: Bra-Vektoren und Ket-Vektoren (Dirac-Notation)
In der mathematischen Physik schreibt man die lineare Abbildung 〈w, ⋅〉 : V → ⺓
oft als Bra-Vektor in der Form 〈w |. Weiter schreibt man v ∈ V als Ket-Vektor in der
Form | v 〉. Die Sprechweisen sind durch Bra-Ket ⬃ bracket motiviert: Ein Bra-Vektor lässt sich auf einen Ket-Vektor anwenden: 〈 w | | v 〉 = 〈w | v〉 = 〈w, v〉. Ist nun
(vi )i ∈ I eine Orthonormalbasis von V, so gilt für alle v = ∑ i αi vi , w = ∑ i βi vi ∈ V
∑ i ∈ I 〈w | vi 〉 〈vi | v〉 = ∑ i ∈ I βi αi = 〈w | v〉.
Damit lässt sich ∑ i ∈ I | vi 〉 〈 vi | als Identität interpretieren. Insgesamt entsteht ein
suggestiver Kalkül, der insbesondere in der Quantenmechanik verwendet wird.
168
6. Euklidische und unitäre Vektorräume
6. 11 Der adjungierte Endomorphismus
Definition (adjungierte Abbildung, selbstadjungiert)
Seien V, W euklidische oder unitäre Vektorräume, und sei f : V → W ein Homomorphismus. Dann heißt der im Fall der Existenz eindeutig bestimmte Homomorphismus f * : W → V mit
(+) 〈f *(w), ⋅ 〉 V = 〈w, f( ⋅ )〉W
〈f *(w), v〉 V = 〈w, f(v)〉W
für alle w ∈ W, d. h.
für alle v ∈ V und alle w ∈ W
der zu f adjungierte Homomorphismus. Gilt V = W und f = f *, so heißt der Endomorphismus f : V → V selbstadjungiert.
Zur Motivation der Bedingung (+)
betrachten wir die zu f : V → W
duale Abbildung (vgl. 4. 12)
f
V
W
f ⴰ : W* → V*,
f ⴰ (g) = g ⴰ f für alle g ∈ W*
(wir schreiben f ⴰ , da wir f * für die Adjungierte reservieren). Jedes lineare
Funktional der rieszschen Form
〈w, ⋅〉
f ⴰ (〈w, ⋅)) =
〈w, f(⋅) 〉 = 〈f *(w), ⋅〉
K
〈w, ⋅〉 : W → K
können wir mit Hilfe von f ⴰ zu einem
linearen Funktional
Die Adjunktion als Pullback
f ⴰ (〈w, ⋅〉) = 〈w, ⋅〉 ⴰ f = 〈w, f( ⋅ )〉 : V → K
zurückziehen. Nun hoffen wir, dass dieses Funktional erneut von der Form 〈u, ⋅〉 : V → K
ist, für ein im Fall der Existenz eindeutig bestimmtes u ∈ V. Existiert u, so gilt
〈u, ⋅〉 = f ⴰ (〈w, ⋅〉) = 〈w, f( ⋅ )〉.
Dies ist genau die Bedingung (+) für den Vektor w und f *(w) = u. Wir fassen zusammen:
Der adjungierte Homomorphismus liefert die Umrechnung von rieszschen
linearen Funktionalen auf W zu rieszschen linearen Funktionalen auf V
gemäß des durch f gegebenen Pullbacks von Funktionalen.
Da für endlich-dimensionale Vektorräume jedes lineare Funktional die rieszsche Form
hat, zeigt unsere Argumentation:
Sind V, W endlich-dimensional, so existiert f *.
6. 11 Der adjungierte Endomorphismus
169
In Matrizenform lässt sich die Adjungierte einfach handhaben:
Die darstellende Matrix von f * ist At bzw. A*
Sei K = ⺢, und seien (v1 , …, vn ) und (w1 , …, wm ) Orthonormalbasen von V bzw. W.
Weiter sei A ∈ Km × n die darstellende Matrix von f : V → W bzgl. dieser Basen und
B ∈K n × m die darstellende Matrix von f * : W → V bzgl. (w1 , …, wm ), (v1 , …, vn ).
Dann gilt („Die Spalten sind die Koordinatenvektoren der Bilder der Basisvektoren.“):
B(j, i) = 〈vj , f *(wi )〉 = 〈f *(wi ), vj 〉 = 〈wi , f(vj )〉 = A(i, j)
für alle i , j.
Damit ist B = At (vgl. den Dualitätssatz in 5. 9). Für K = ⺓ ist B = A*, da beim
zweiten Gleichheitszeichen eine komplexe Konjugation auftritt. Ist f : V → V
selbstadjungiert und K = ⺢, so gilt A = At , d. h., A ist symmetrisch. Für K = ⺓
erhalten wir A = A*. Matrizen mit dieser Eigenschaft nennt man hermitesch.
Für die Adjungierte gelten (λf + g)* = λf * + g* und (g ⴰ f )* = f * ⴰ g*. Weiter ist
Kern(f ) = { v ∈ V | 〈w, f(v)〉 = 0 für alle w ∈ W } =
{ v ∈ V | 〈f *(w), v〉 = 0 für alle w ∈ W } = Bild(f *) ⊥ .
Für endlich-dimensionale Vektorräume V und W ergibt sich nach der Dimensionsformel
und dim(Bild(f *) ⊥ ) = dim(V) − dim(Bild(f *)) also dim(Bild(f )) = dim(Bild(f *)) (vgl. 5. 9).
Dass f * im Fall der Existenz eindeutig bestimmt ist, folgt unabhängig vom Rieszschen
Darstellungssatz aus 〈v, ⋅〉 ≠ 〈u, ⋅〉 für alle v ≠ u in V. Für unendlich-dimensionale Vektorräume kann ein adjungierter Homomorphismus existieren oder nicht:
Beispiele
(1) Ist V = ᐉ2⺢ und f : V → V mit f(x0 , x1 , …) = (x1 , x2 , …) (Linksshift), so ist
f * : V → V mit f *(x0 , x1 , …) = (0, x0 , x1 , …) (Rechsshift) die Adjungierte von f.
Es gilt f ⴰ f * = id V , aber f * ⴰ f ≠ id V .
(2) Sei V der ⺢-Vektorraum der reellen Polynomfunktionen auf ⺢ mit dem Integral von −1 bis 1 über f(x)g(x) als Skalarprodukt. Sei D : V → V mit D(f ) = f ′
für alle f ∈ V (Ableitungsoperator). Annahme, die Adjungierte D * : V → V
von D existiert. Dann gilt nach partieller Integration
〈D*f, g〉 = 〈f, Dg〉 = f(1) g(1) − f(−1) g(−1) − 〈Df, g〉,
〈(D* + D)f, g〉 = f(1) g(1) − f(−1) g(−1)
also
für alle f, g ∈ V.
Damit ist 〈(D + D*)f , (x − 1)2 (x + 1)2 (D + D*)f 〉 = 0 für alle f, also D + D* = 0
(denn für g ≠ 0 ist das Integral über g2 (x − 1)2 (x + 1)2 von −1 bis 1 größer als 0).
Also gilt D* = − D, sodass D*1 = 0. Da D* die Adjungierte von D ist, gilt
0 = 〈D*1, x〉 = 〈1, Dx〉 = 〈1, 1〉 = 2, Widerspruch.
Man kann mit dem allgemeinen Rieszschen Darstellungssatz zeigen, dass f * für ein stetiges lineares f : V → W zwischen Hilbert-Räumen V, W immer existiert (vgl. 6. 10).
170
6. Euklidische und unitäre Vektorräume
6. 12 Sesquilinearformen
Definition (Sesquilinearform, symmetrische und hermitesche Form, Definitheit)
Sei V ein K-Vektorraum mit K = ⺢ oder K = ⺓. Eine Abbildung ϕ : V × V → K
heißt eine Sesquilinearform, falls für alle v, w ∈ V und λ ∈ K gilt:
ϕ(v + λ v′, w) = ϕ(v, w) + λ ϕ(v′, w),
ϕ(v, w + λ w′) = ϕ(v, w) + λ ϕ(v, w′).
Gilt zusätzlich ϕ(v, w) = ϕ(w, v) für alle v, w ∈ V, so heißt ϕ eine symmetrische Bilinearform, falls K = ⺢, bzw. eine hermitesche Form, falls K = ⺓. Eine solche Form heißt
positiv definit,
falls
ϕ(v, v) > 0 für alle v ∈ V mit v ≠ 0,
positiv semidefinit,
falls
ϕ(v, v) ≥ 0 für alle v ∈ V,
negativ (semi-) definit,
falls
− ϕ positiv (semi-) definit ist,
indefinit,
falls
v, w ∈ V existieren mit ϕ(v, v) > 0 und ϕ(w, w) < 0.
Die Definition verallgemeinert den Begriff eines Skalarprodukts. Ein Skalarprodukt ist
eine symmetrische bzw. hermitesche Form, die positiv definit ist.
Beispiel
Seien n ≥ 1 und A ∈ Kn × n . Dann wird eine Sesquilinearform ϕ auf Kn definiert durch
ϕ(v, w) = 〈v, Aw〉 kanonisch für alle v,w ∈ Kn .
Die Form ϕ ist genau dann symmetrisch bzw. hermitesch, wenn die Matrix A dies ist.
Ist V endlich-dimensional, so sind die Formen dieses Beispiels im folgenden Sinn bereits alle Formen:
Die gramsche Matrix einer Sesquilinearform
Sei ϕ : V × V → K eine Sesquilinearform und sei Ꮽ = (v1 , …, vn ) eine Basis von V.
Dann ist die gramsche Matrix Aϕ = Aϕ, Ꮽ ∈ Kn × n von ϕ bzgl. Ꮽ definiert durch
Aϕ (i, j) = ϕ(vi , vj )
für alle i, j.
Die Form ϕ ist genau dann symmetrisch bzw. hermitesch, wenn Aϕ dies
ist. Mit der Koordinatenabbildung
ΦᏭ : V → Kn und vᏭ = ΦᏭ (v) gilt
(+) ϕ(v, w) = 〈vᏭ , Aϕ wᏭ 〉 kanonisch
für alle v, w ∈ V. Definieren wir
umgekehrt eine Form ϕ durch (+)
mit einer beliebigen Matrix A des
Kn × n , so ist Aϕ = A.
V×V
ϕ(⋅, ⋅)
(v, w) 哫
K
(vᏭ , wᏭ )
Kn × K n
〈⋅, A ⋅〉 kanonisch
6.12 Sesquilinearformen
171
Wir betrachten zwei Stufen, die zwischen beliebigen Sesquilinearformen und vollwertigen Skalarprodukten liegen, genauer.
I. Symmetrische und hermitesche Formen
Wir notieren diese Formen wie Skalarprodukte oft als 〈⋅, ⋅〉 : V × V → K. Die Begriffe
„orthogonal“ und „Orthogonalbasis“ sind wie früher definiert, und erneut stellt sich die
Frage nach der Existenz einer Orthogonalbasis. Das Verfahren von Gram-Schmidt kann
an einer Division durch 〈v, v〉 = 0 für ein v ≠ 0 scheitern. Dennoch ist es richtig, dass endlich-dimensionale Vektorräume, die mit einer symmetrischen oder hermiteschen Form
versehen sind, eine Orthogonalbasis bzgl. dieser Form besitzen. Ist Ꮽ = (v1 , …, vn ) eine
solche Orthogonalbasis, so ist die gramsche Matrix A ∈ Kn × n der Form bzgl. Ꮽ eine Diagonalmatrix. Wir werden in Kapitel 8 bei der Diskussion der Hauptachsentransformation
darauf zurückkommen.
Beispiel
Für die Bilinearform 〈⋅, ⋅〉 = 〈⋅, A ⋅〉kanonisch
auf ⺢2 mit der Matrix A ∈ ⺢2 × 2 rechts gilt
〈(x1 , y1 ), (x2 , y2 )〉 = x1 (x2 + y2 ) + y1 (x2 − y2 ).
A =
1
1
1
−1
1
w
Die Vektoren v = (1 + 兹2, 1), w = (1 − 兹2, 1)
bilden eine Orthogonalbasis von ⺢2 bzgl.
der Form 〈⋅, ⋅〉 (und bzgl. 〈⋅, ⋅〉kanonisch ).
v
1
II. Positiv semidefinite symmetrische und hermitesche Formen
Für diese Formen gilt die Cauchy-Schwarz-Ungleichung
| 〈v, w〉 | ≤ 储 v 储 储 w 储 für alle v, w ∈ V, wobei 储 u 储 = 兹〈u, u〉.
Gleichheit kann nun auch für linear unabhängige v, w eintreten (man betrachte die Nullform). Die Halb- oder Seminorm 储 ⋅ 储 : V → K erfüllt die Homogenität und die Dreiecksungleichung, aber 储 v 储 = 0 ist für v ≠ 0 möglich. In diesem Fall lässt sich v nicht normieren.
Beispiel
Für reelle a < b und V = { f : [ a, b ] → ⺓ | f ist Riemann-integrierbar } definiert
〈f, g〉 =
兰
a
b
f(x) g(x) dx für alle f, g ∈ V
eine positiv semidefinite hermitesche Form. Die Form ist nicht positiv definit, da
〈f, f 〉 = 0 gilt, wenn f an höchstens abzählbar vielen Stellen ungleich null ist. Diese
Form spielt insbesondere in der Theorie der Fourier-Reihen eine wichtige Rolle.
Durch Faktorisierung kann man die positive Semidefinitheit zur positiven Definitheit
verstärken: Ist U = { u ∈ V | 〈u, u〉 = 0 }, so wird auf dem Faktorraum V/U ein Skalarprodukt durch 〈v + U, w + U〉 = 〈v, w〉 für alle v, w ∈ V definiert.
Kapitel 7
Determinanten
174
7. Determinanten
7. 1 2 × 2-Determinanten
Definition (Determinantenfunktion, Determinante einer 2 × 2-Matrix)
Seien K ein Körper und K 2 × 2 die Menge der 2 × 2-Matrizen über K. Dann heißt
eine Abbildung det : K 2 × 2 → K eine Determinantenfunktion auf K 2 × 2 , falls gilt:
Multilinearität in den Spalten
Für alle a, b, c ∈ K2 und alle λ ∈ K gilt
det a ; λ b + c
= λ det a b
+ det a c
,
det λ a + b ; c
= λ det a b
+ det b c
,
d. h., für alle a, b ∈ K2 sind die folgenden Abbildungen linear:
det a ;
⋅
: K2 → K,
det
Alternation
Für alle a ∈ K2 gilt det a a
⋅ ; b3
: K2 → K.
= 0.
2
Normiertheit
Es gilt det E2 = 1.
a
|det A|
Für alle A ∈ K 2 × 2 heißt dann det A
die Determinante der Matrix A.
Das Thema dieses Kapitels sind „gute“
Funktionen det : Kn × n → K mit
det A = 0 genau dann, wenn A singulär.
1
b
1
2
3
det A = a1 b2 − b1 a2 = 1 ⋅ 1 − 2 ⋅ 3/2 = − 2
Dann ist det A ≠ 0 äquivalent dazu, dass
Die Determinante der Matrix A mit den Spalten
das lineare Gleichungssystem A x = b für
a und b ist dem Betrag nach der Flächeninhalt
alle b ∈ Kn eindeutig lösbar ist. Die Lösdes von a und b aufgespannten Parallelogramms.
barkeit ist also durch die Determinante
In 5.9 untersuchen wir die geometrische Bedeufestgelegt (determinare = bestimmen).
tung der Determinante genauer.
Anstelle einer direkten Definition verfolgen wir, wie seit Karl Weierstraß 1886
üblich, einen axiomatischen Zugang. Dabei hat sich das Trio
„multilinear, alternierend, normiert“
als besonders geeignet erwiesen. Wir untersuchen es in diesem Abschnitt für den Spezialfall n = 2, im nächsten Abschnitt werden wir eine beliebige Dimension n ≥ 1 zulassen.
Notation
Wir trennen die Spalten einer Matrix oft durch Strichpunkte voneinander ab, wenn
dies der Lesbarkeit dient.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_8, © Springer-Verlag Berlin Heidelberg 2015
7. 1 2 × 2-Determinanten
175
Determinanten als bilineare Abbildungen
Fassen wir Matrizen des K 2 × 2 als Elemente von K2 × K2 auf, so ist eine Determinantenfunktion det : K2 × K2 → K eine bilineare Funktion (vgl. Kapitel 6). Die
Alternation bedeutet, dass für alle a ∈ K2 das Paar (a, a) auf null abgebildet wird.
Dies steht im starken Kontrast zur positiven Definitheit 〈v, v〉 > 0 für v ≠ 0 eines
Skalarprodukts.
Zur Illustration der Konsequenzen und des Zusammenspiels der drei grundlegenden
Eigenschaften zeigen wir:
Existenz und Eindeutigkeit der 2 × 2-Determinantenfunktion
Ist det : K 2 × 2 → K eine Determinantenfunktion, so gilt für alle a, b ∈ K2 und λ ∈ K:
(1) det a ; b + λ a
= det a b
(2) 0 = det a + b ; a + b
+ λ det
= det a a
= det a b ,
+ det a b + det b a
+ det b a , sodass det a b
det a b
a a
+ det b b
=
= − det b a .
Die Determinante bleibt also bei der Addition des λ-Fachen einer Spalte zu einer
anderen unverändert und bei einer Spaltenvertauschung ändert sich das Vorzeichen.
Ist nun A ∈ K 2 × 2 die Matrix mit den Spalten a = (a1 , a2 ) und b = (b1 , b2 ), so können
wir im Fall a1 ≠ 0 die Matrix durch Addition des λ = −b1 /a1 -Fachen der ersten Spalte
auf die zweite Spalte auf die Form
a1
0
a2
b2 − λ a2
und im Fall b2 ≠ λ a2 weiter auf
a1
0
0
b2 − λ a2
bringen, ohne die Determinante zu verändern. Nach Multilinearität und Normierung ist die Determinante einer Diagonalmatrix das Produkt ihrer Diagonaleinträge, sodass
det A = a1 ⋅ (b2 − λ a2 ) = a1 b2 − b1 a2 .
Dieselbe Formel ergibt sich für alle anderen Fälle bei analoger Argumentation. Umgekehrt ist die durch diese Formel definierte Funktion auf K 2 × 2 multilinear, alternierend und normiert. Damit existiert auf dem K 2 × 2 genau eine Determinantenfunktion.
Beispiele
(1) det
1 2
3 4
= − 2, det
0 1
1 0
= − 1, det
cos α − sin α
sin α cos α
= 1 für alle α ∈ ⺢.
(2) Die Determinantenfunktion ist multilinear, aber nicht linear. Es gilt
det E2 + det E2 = 2 ≠ 4 = det(2 E2 ).
176
7. Determinanten
7. 2 n × n-Determinanten
Definition (Determinantenfunktion, Determinante einer n × n-Matrix)
Seien K ein Körper und n ≥ 1. Dann heißt eine Abbildung det : Kn × n → K eine
Determinantenfunktion auf Kn × n , falls gilt:
Multilinearität in den Spalten
Für alle 1 ≤ k ≤ n und alle a1 , …, ak , ak + 1 , …, an ∈ Kn ist die Abbildung
det
a1 ;
…; ak − 1 ;
⋅
;
ak + 1 ; …;
an
: Kn → K
linear.
Alternation
Für A ∈ Kn × n mit zwei
gleichen Spalten gilt
det A = 0.
Normiertheit
Es gilt det En = 1.
det
λ det
Aus den Determinantenaxiomen
…
λ a 1 + b1
…
…
…
…
…
λ a n + bn
…
…
a1
…
…
…
…
…
an
…
+ det
=
…
b1
…
…
…
…
…
bn
…
„multilinear, alternierend, normiert“
lassen sich herleiten:
det(diag(d1 , …, dn )) = d1 ⋅ … ⋅ dn .
(Diagonalprodukt I)
Ist Wi j (λ), i ≠ j, ein Additionstyp (vgl. 5. 6), so gilt
det(A Wi j (λ)) = det(A).
(Spaltenaddition)
Ist Pij eine Transpositionsmatrix (vgl. 5. 7), so gilt
det(A Pij ) = − det(A).
det(A) ≠ 0 genau dann, wenn A ∈ GL(n, K).
Die Determinante einer oberen bzw. unteren Dreiecksmatrix ist das Produkt der Diagonaleinträge.
det(λ A) = λn det A, det(− A) = (−1)n det(A).
(Spaltentausch)
(Invertierbarkeit)
(Diagonalprodukt II)
(Skalierung)
Wie im Fall n = 2 bleibt eine Determinante also bei der Addition des λ-fachen einer
Spalte zu einer anderen gleich, während sie beim Tausch zweier Spalten ihr Vorzeichen
ändert. Wir werden später sehen, dass diese Eigenschaften auch für die Zeilen gelten.
7. 2 n × n-Determinanten
177
Die Regeln für Diagonalmatrizen, für Spaltenadditionen und für Spaltenvertauschungen lassen sich wie im Fall n = 2 einsehen. Damit können wir zeigen:
Invertierbarkeit = Nichtverschwinden der Determinante
Ist A nicht invertierbar, so ist eine Spalte ak von A eine Linearkombination der anderen. Aufgrund der Multilinearität und der Alternation der Determinante gilt dann
(+) det A = det a1 ; … ak − 1 ; ∑ i ≠ k α i a i ; ak + 1 ; …
an
= 0.
Ist A invertierbar, so lässt sich A mit Hilfe von Spaltenadditionen Wij (λ), i ≠ j, in eine
Diagonalmatrix B mit Diagonaleinträgen bii ≠ 0 überführen. Die Determinante
bleibt dabei gleich. Damit gilt
(++) det A = det B = b11 ⋅ … ⋅ bnn ≠ 0.
Die Argumentation liefert mehr:
Existenz- und Eindeutigkeitssatz
Für alle n ≥ 1 existiert genau eine Determinantenfunktion auf dem Kn × n .
Denn auf den singulären Matrizen sind Determinantenfunktionen det und det′ gleich 0.
Und für eine invertierbare Matrix A gilt det A = b11 ⋅ … ⋅ bnn = det′ A, da wir zur Herleitung von (++) nur die Determinantenaxiome eingesetzt haben. Umgekehrt können wir (+)
und (++) zur Definition von det(A) verwenden und dann die Determinantenaxiome beweisen (wobei die Multilinearität etwas Arbeit erfordert). Andere Beweise der Existenz
und Eindeutigkeit werden wir später kennenlernen.
Berechnung von Determinanten durch Überführung in Dreiecksmatrizen
Eine Matrix A können wir durch Spaltenadditionen in eine Dreiecksmatrix B
überführen, ohne die Determinante zu verändern. Dann ist det(A) = b11 … bnn .
Zum Beweis dieser zweiten Diagonalprodukt-Regel beobachten wir:
Ist A singulär, so hat B eine Null auf der Diagonalen, sodass det A = 0 = b11 … bnn .
Andernfalls können wir B durch weitere Spaltenadditionen in eine Diagonalmatrix
C verwandeln, ohne die Diagonaleinträge bii oder die Determinante zu verändern.
Dann gilt det A = det B = det C = c11 ⋅ … ⋅ cnn = b11 ⋅ … ⋅ bnn .
Beispiel
Ausräumen oberhalb der Diagonalen mit Hilfe von Spaltenadditionen zeigt:
det
1
1 −1 −1
1
0
0
0
1
0
0
0
1
4
2
5
1
3
3
6
1
3
0
0
1
3
0
3
1
2
1
4
1
2 −1 0
3
6
0
1
3
3
3
4
3
3
= det
= det
0 −2
= 6.
178
7. Determinanten
7. 3 Das Vorzeichen einer Permutation
Definition (Vorzeichen, gerade, ungerade, alternierende Gruppe)
Seien n ≥ 1 und Sn die Gruppe der Permutationen auf { 1, …, n }. Dann ist die
Vorzeichenfunktion sgn : Sn → { −1, 1 } definiert durch
sgn(σ) = ∏ 1 ≤ i < j ≤ n
σ(j) − σ(i)
j−i
für alle σ ∈ Sn .
Wir nennen sgn(σ) das Vorzeichen oder Signum der Permutation σ. Eine Permutation σ heißt gerade, falls sgn(σ) = 1, und ungerade, falls sgn(σ) = −1. Wir setzen:
An = { σ ∈ Sn | sgn(σ) = 1 }.
(alternierende Gruppe)
Permutationen und ihre Vorzeichen spielen in der Theorie der Determinanten eine
wichtige Rolle. Wir werden im nächsten Abschnitt Determinantenfunktionen mit Hilfe
von Permutationen explizit definieren. In diesem Abschnitt treffen wir die nötigen algebraischen Vorbereitungen.
Aufgrund der Bijektivität einer Permutation σ : { 1, …, n } → { 1, …, n } gilt
{ { i, j } | 1 ≤ i < j ≤ n } = { { σ(i), σ(j) } | 1 ≤ i < j ≤ n }.
Hieraus liest man ab, dass der Zähler und der Nenner des Produkts
∏1 ≤ i < j ≤ n
σ(j) − σ(i)
j−i
abgesehen von den Vorzeichen dieselben Faktoren enthalten. Damit ist sgn(σ) ∈ { −1, 1 }.
Nennen wir ein Paar (i, j) mit i < j einen Fehlstand von σ, falls σ(i) > σ(j), so gilt also:
Ist k die Anzahl der Fehlstände von σ, so ist sgn(σ) = (−1)k .
Beispiele
(1) Die Permutation (1, …, n) hat keine Fehlstände und damit das Vorzeichen
(−1)0 = 1.
(2) Die Permutation σ = (2, 3, …, n, 1) hat die Fehlstände (1, n), …, (n − 1, n).
Damit ist sgn(σ) = (−1)n − 1 .
(3) Die Permutation σ = (n, …, 1) hat n (n − 1)/2 Fehlstände. Gilt
n ⬅ 0 mod(4) oder n ⬅ 1 mod(4),
so ist sgn(1) = 1. Andernfalls ist sgn(n) = −1.
(4) Ist τ ∈ Sn die Transposition, die i < j vertauscht, so enthält die Produktformel
der Definition von sgn(τ) genau einen Faktor −1 und sonst nur Einsen. Damit
ist sgn(τ) = −1.
7. 3 Das Vorzeichen einer Permutation
179
Homomorphie der Vorzeichenfunktion
Für alle π, σ ∈ Sn gilt sgn(π ⴰ σ) = sgn(π) sgn(σ). Die Abbildung sgn : Sn → { −1, 1 }
ist also ein Gruppenhomomorphismus. Speziell gilt sgn(σ−1 ) = sgn(σ)−1 für alle σ ∈ Sn .
Weiter ist An = Kern(sgn), sodass An ein Normalteiler von Sn ist.
Hieraus ergeben sich neue Möglichkeiten zur Berechnung des Vorzeichens. Ist σ ∈ Sn
beliebig, so können wir ausgehend von (1, 2, …, n) durch Anwendung von Transpositionen oder der Identität Permutationen der Form
(σ(1), …), (σ(1), σ(2), …), …, (σ(1), …, σ(n))
(schrittweises Einstellen der Werte)
erzeugen. Damit ist jede Permutation das Produkt von höchstens n − 1 Transpositionen
(σ(n) ist automatisch richtig, wenn alle anderen Werte richtig sind). Da jede Transposition
das Vorzeichen −1 besitzt, erhalten wir:
Ist σ = τk ⴰ … ⴰ τ1 mit Transpositionen τi , so ist sgn(σ) = (−1)k .
Eine anschauliche Analyse liefert die
Zerlegung einer Permutation in Zyklen.
Ist σ ∈ Sn und i ∈ { 1, …, n }, so können wir
aufgrund der Injektivität von σ die Bahn
B(i) = { i, σ(i), σ2 (i), …, σk (i) = i }
bilden. Die Permutation π mit π(j) = σ(j)
für j ∈ B(i) und σ(j) = j für j ∉ B(i) heißt der
von i erzeugte Zyklus von σ. Jede Permutation ist das Produkt ihrer (untereinander kommutierenden) Zyklen. Hat eine
Bahn B genau k Elemente, so hat der zugehörige Zyklus das Vorzeichen (−1)k − 1
(vgl. Beispiel (2)). Da sich die Bahnlängen
zu n aufsummieren, gilt:
9
8
10
11
5
3
1
12
7
4
6
2
Ein σ ∈ S12 mit vier Bahnen. Es gilt
sgn(σ) = (−1)12 − 4 = 1.
Hat σ ∈ Sn genau m Bahnen, so ist sgn(σ) = (− 1)n − m .
Beispiele
(1) Die Permutation (1, …, n) hat die Bahnen { 1 }, …, { n } und damit das Vorzeichen (−1)n − n = 1. Die Zyklen der Bahnen sind jeweils die Identität.
(2) σ = (2, 3, …, n, 1) hat nur die eine Bahn { 1, 2, …, n }, sodass sgn(σ) = (− 1)n − 1 .
(3) σ = (7, …, 1) hat die Bahnen { 1, 7 }, { 2, 6 }, { 3, 5 }, { 4 }, sodass sgn(σ) = − 1.
(4) Die Transposition, die i und j vertauscht, hat die Bahnen { i, j } und { k } mit
k ∈ { 1, …, n } − { i, j }. Das Vorzeichen ist also (−1)n − (n − 1) = −1.
180
7. Determinanten
7. 4 Die Leibniz-Formel
Satz (Formel von Leibniz)
Seien K ein Körper und n ≥ 1. Dann definiert
det A = ∑ σ ∈ Sn sgn(σ) aσ(1), 1 … aσ(n), n
die eindeutige Determinantenfunktion auf dem Kn × n .
Die Leibniz-Formel erfordert
eine Summation über alle Elemente der symmetrischen Gruppe
Sn . Da die Mächtigkeit von Sn
gleich n! ist und mit n sehr schnell
wächst, ist die Leibniz-Formel
keine praktikable Rechenformel.
Dagegen ist sie ein wertvolles Element der Theorie.
für alle A ∈ Kn × n
(Leibniz-Formel)
a11
a12
a13
a14
a15
a21
a22
a23
a24
a25
a31
a32
a33
a34
a35
a41
a42
a43
a44
a45
a51
a52
a53
a54
a55
Die Leibniz-Determinante einer (5 × 5)-Matrix hat
5! = 120 Summanden. Der im Diagramm dargestellte
Summand a21 a52 a43 a14 a35 gehört zur Permutation
σ = (2, 5, 4, 1, 3) mit sgn(σ) = 1.
Motivation der Formel
Wir nehmen an, dass det′ : Kn × n → K eine Determinantenfunktion ist, und zeigen,
dass die Leibniz-Formel für det′ gelten muss. Eine Verifikation der Determinantenaxiome zeigt, dass durch die Formel tatsächlich eine Determinantenfunktion definiert wird. Dies liefert einen zweiten Beweis der Existenz und Eindeutigkeit.
Sei also A ∈ Kn × n . Mit den kanonischen Basisvektoren e1 , …, en gilt
det′ A = det′
∑ i a i1 ei ; …;
∑ i ain ei
=(a)
∑ 1 ≤ i1, …, in ≤ n ai1, 1 … ain, n det′ ei1 ; …; ein
∑ σ ∈ Sn aσ(1), 1 … aσ(n), n det′ eσ(1) ; …; eσ(n)
=(b)
=(c)
∑ σ ∈ Sn sgn(σ) aσ(1), 1 … aσ(n), n det′ En =(d)
∑ σ ∈ Sn sgn(σ) aσ(1), 1 … aσ(n), n .
Dabei verwenden wir:
(a) n-mal die Multilinearität zur Darstellung als Summe der Länge nn ,
(b) die Alternation zur Reduktion der Summe auf n! = |Sn | Permutationen,
(c) für jedes σ ∈ Sn k(σ) Spaltenvertauschungen, die die vorliegende Matrix in En
überführen und durch den Faktor sgn(σ) = (−1)k(σ) korrigiert werden,
(d) die Normierung.
7. 4 Die Leibniz-Formel
181
Wir bestimmen einige uns schon bekannte und einige neue Determinanten mit Hilfe
der Leibniz-Formel.
Beispiele
(1) Ist A = diag(d1 , …, dn ) eine Diagonalmatrix und σ ∈ Sn nicht die Identität, so
gibt es ein i mit σ(i) ≠ i und daher aσ(i), i = 0. Damit trägt lediglich die Identität
etwas zur Leibniz-Summe bei, sodass det A = sgn(id) a11 … ann = d1 … dn .
(2) Allgemeiner als Beispiel (1) zeigt die Leibniz-Formel, dass die Determinante einer
oberen oder unteren Dreiecksmatrix das Produkt ihrer Diagonaleinträge ist.
(3) Ist σ ∈ Sn und ist
A = diag(d1 , …, dn ) Pσ =
d1 eσ(1) ;
…;
dn eσ(n)
eine umgeordnete Diagonalmatrix, so trägt lediglich die Permutation σ etwas
zur Leibniz-Summe bei. Damit ist
det A = sgn(σ) d1 … dn .
Speziell ist det(Pσ ) = sgn(σ) (was wir im Übergang von (c) zu (d) oben schon
verwendet haben).
(4) Für n = 2 gibt es genau die Permutationen (1, 2) und (2, 1). Damit gilt für alle
A ∈ Kn × n
det A = sgn(1, 2) a11 a22 + sgn(2, 1) a21 a22 = a11 a22 − a21 a12 .
Damit haben wir die in 7. 1 gefundene Formel für 2 × 2-Matrizen reproduziert.
(5) Für n = 3 gibt es genau sechs Permutationen:
(1, 2, 3), (2, 3, 1), (3, 1, 2)
haben das Vorzeichen 1,
(3, 2, 1), (2, 1, 3), (1, 3, 2)
haben das Vorzeichen − 1.
Damit gilt für alle A ∈ K
det A =
3×3
+ a11 a22 a33 + a21 a32 a13 + a31 a12 a23
− a31 a22 a13 − a21 a12 a33 − a11 a32 a23 .
a11
a12
a13
a11
(Regel von Sarrus)
a12
Merkhilfe zur Regel von Sarrus:
a21
a22
a23
a21
a22
Die Produkte entlang der drei
durchgezogenen (gestrichelten)
Diagonalen haben ein positives
(negatives) Vorzeichen.
a31
a32
a33
a31
a32
182
7. Determinanten
7. 5 Multiplikation und Transposition
Satz (Multiplikationssatz und Transpositionssatz für Determinanten)
Seien K ein Körper und n ≥ 1.
Multiplikationssatz
Für alle A, B ∈ Kn × n gilt
det
GL(n, K)
det(AB) = det(A) det(B), det(A−1 ) = det(A)−1
det(A B) = det A det B.
Transpositionssatz
Für alle A ∈ Kn × n gilt
K*
Die Kernaussage des Multiplikationssatzes ist, dass die
Determinantenfunktion ein Gruppenhomomorphismus
von GL(n, K) in die multiplikative Gruppe K* ist.
det At = det A.
Die beiden Aussagen gehören zu den überraschenden Folgerungen der Determinantenaxiome. Sie lassen sich wie folgt beweisen.
Beweis des Multiplikationssatzes
Ist B ∈ Kn × n mit det B = 0 und A ∈Kn × n beliebig, so ist A B singulär. Folglich ist
det(A B) = 0 = det A ⋅ 0 = det A det B.
Sei also B ∈ Kn × n mit det B ≠ 0. Wir definieren det′ : Kn × n → K durch
det′ A =
det(A B)
det B
für alle A ∈ Kn × n .
Dann gelten alle Determinantenaxiome für det′. Aufgrund der Eindeutigkeit einer
Determinantenfunktion auf Kn × n ist det′ = det und damit
det(AB) = det′ A det B = det A det B
für alle A ∈ Kn × n .
Das Argument ist ein Paradebeispiel der Nützlichkeit einer möglichst einfachen axiomatischen Charakterisierung.
Beweis des Transpositionssatzes
Sei A ∈ Kn × n . Dann gilt
det At = ∑ σ ∈ Sn sgn(σ) a1, σ(1) … an, σ(n) =(1) ∑ σ ∈ Sn sgn(σ) aσ−1 (1), 1 … aσ−1 (n), n =(2)
∑ σ ∈ Sn sgn(σ−1 ) aσ−1(1), 1 … aσ−1(n), n =(3) ∑ π ∈ Sn sgn(π) aπ(1), 1 … aπ(n), n = det A.
Dabei haben wir verwendet: (1) a1, σ(1) … an, σ(n) und aσ−1 (1), 1 … aσ−1 (n), n besitzen
dieselben Faktoren, (2) sgn(σ−1 ) = sgn(σ)−1 für alle σ ∈ Sn , (3) σ−1 durchläuft die
Gruppe Sn bijektiv, wenn dies für σ der Fall ist.
Mit Hilfe von Elementarmatrizen können wir das Ergebnis auch anders gewinnen:
7. 5 Multplikation und Transposition
183
Alternativer Beweis des Transpositionssatzes
Für alle λ ∈ K und i, j mit i ≠ j gilt:
1
det(Wij (λ)) = det(Wij (λ)t ) = 1.
λ
1
n×n
Ist A ∈ K , so gibt es Additionstypen
L 1 , …, Lk und eine Dreiecksmatrix B mit
…
Wij (λ) =
1
1
A L1 … L k = B.
1
Dann ist
Lkt
…
L1t
1
t
Wji (λ) =
t
A = B.
Da die Diagonalen der Dreiecksmatrizen B und Bt übereinstimmen, gilt
det B = det Bt . Da alle Li und Li t die
Determinante 1 haben, liefert der
Multiplikationssatz
…
λ
1
1
det(Wij (λ)) = 1 = det(Wji (λ))
Wij (λ) = Wij (λ)t
det A = det B = det Bt = det At .
Da sich beim Transponieren Spalten und Zeilen austauschen, ergibt sich:
Die für Spalten formulierten Determinantenaxiome und die daraus
abgeleiteten Spaltenregeln gelten analog auch für Zeilen.
Die Determinantenfunktion ist also auch in den Zeilen multilinear und alternierend.
Damit bleibt die Determinante bei Addition des λ-Fachen einer Zeile zu einer anderen
unverändert, wechselt beim Tausch von zwei Zeilen das Vorzeichen und skaliert mit λ,
wenn eine Zeile mit λ multipliziert wird.
Beispiel
Für eine Matrix des K 3 × 3 mit den Zeilen a, b, c gilt
det
a
b
c
= det
at bt ct
= − det ct bt at
= − det
c
b
a
.
Spaltenaxiome oder Zeilenaxiome ?
Oft werden die Determinantenaxiome auch als Zeileneigenschaften formuliert und
die Spalteneigenschaften gefolgert. Bei der axiomatischen Bevorzugung der Zeilen
steht der Zusammenhang mit linearen Gleichungssystemen im Vordergrund, bei der
Bevorzugung der Spalten die natürliche Übersetzung der Multilinearität einer Abbildung f : V n → W in die Sprache der Matrizen (mit V = Kn = Kn × 1 , V n = Kn × n ist
f : Kn × n → K). Letztendlich gilt: Beide Zugänge liefern dieselbe Determinantenfunktion und sind damit äquivalent.
184
7. Determinanten
7. 6 Der Entwicklungssatz von Laplace
Satz (Spalten- und Zeilenentwicklung)
Seien K ein Körper und n ≥ 2.
Für alle A ∈ Kn × n und 1 ≤ i, j ≤ n
sei A ij′ ∈ K(n − 1) × (n − 1) die Matrix,
die aus A durch Streichen der
i-ten Zeile und j-ten Spalte
entsteht. Dann gilt für alle
Matrizen A ∈ Kn × n und alle
Spaltenindizes 1 ≤ j ≤ n
Aij′ =
det A = ∑ 1 ≤ i ≤ n (−1)i + j ai j det A ij′ .
a11
…
a1j
…
a1n
…
…
…
…
…
ai1
…
aij
…
ain
…
…
…
…
…
an1
…
anj
…
ann
(Entwicklung nach der j-ten Spalte)
Analog gilt für alle Zeilenindizes 1 ≤ i ≤ n
det A = ∑ 1 ≤ j ≤ n (−1)i + j ai j det Aij′ .
(Entwicklung nach der i-ten Zeile)
Der Entwicklungssatz stellt eine weitere Möglichkeit der Berechnung von Determinanten dar. Besonders geeignet ist er für Matrizen, die eine Zeile oder Spalte mit vielen
Nulleinträgen besitzen.
Beweis des Entwicklungssatzes
Wesentliches Hilfsmittel sind die n × n-Matrizen
a11 …
0
… a1n
… … … … …
Aij =
0
…
1
…
0
∈ Kn × n ,
… … … … …
an1 …
0
… ann
bei denen die i-te Zeile von A mit ej und die j-te Spalte von A mit ei überschrieben
ist. Die Determinanten der Matrizen Aij und Aij′ stimmen bis auf ein von der Stelle
(i, j) abhängiges Vorzeichen überein: Es gilt
det Aij = det a1 … ei … an
= (−1)i − 1 + j − 1 det
1
0
0 A i′j
= (−1)i + j det Ai′j ,
wobei wir im zweiten Schritt eine (i − 1)-malige Zeilen- und eine (j − 1)-malige Spaltenvertauschung durchführen. Ist nun j festgewählt, so gilt
det A =
a1 ; …; ∑ i aij ei ; …; an
Die Zeilenentwicklung zeigt man analog.
= ∑ i aij det Aij = ∑ i (−1)i + j aij det Ai′j .
7. 6 Der Entwicklungssatz von Laplace
Die im Entwicklungssatz von
Laplace auftauchenden Vorzeichen
(−1)i + j haben eine schachbrettartige Verteilung (vgl. das Diagramm
rechts).
Die Spalten- oder Zeilenentwicklung kann mehrfach hintereinander durchgeführt werden.
Die Beispiele (3) und (4) illustrieren dieses Vorgehen.
+
−
+
−
…
−
+
−
+
…
+
−
+
−
…
−
+
−
+
…
…
…
…
…
…
Beispiele
(1) Entwickeln wir A ∈ K 2 × 2 nach der ersten Spalte, so erhalten wir
′ − a21 A21
′ = a11 a22 − a21 a12 .
det A = a11 det A11
(2) Entwickeln wir A ∈ K 3 × 3 nach der ersten Zeile, so erhalten wir
′ − a12 A12
′ + a13 A13
′ =
det A = a11 det A11
a22 a23
a11 det
− a12 det
a32 a33
a21 a23
+ a13 det
a31 a33
a21 a22
a31 a32
=
a11 a22 a33 − a11 a23 a32 − a12 a21 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 ,
also erneut die Regel von Sarrus (vgl. 7. 4).
(3) Zweimaliges Entwickeln nach der zweiten Zeile liefert
det
1
0
0
1
0
1
0
0
0
0
1
0
1
0
0 −1
= det
1
0
1
0
1
0
1
0 −1
= det
1
1
1 −1
= −2.
(4) Entwickeln nach der dritten und dann nach der zweiten Spalte ergibt
det
2 det
1
2
0
3
4
5
1
7
1 −2 0
1
2
4
0
0
1
1
2
4
1
= − det
+ 2 det
2
3
1 −2 1
2
1
3
2
4
0
=
4
= 2 ⋅ 2 + 2 ⋅ (−2) = 0.
185
186
7. Determinanten
7. 7 Komplementärmatrizen und die Regel von Cramer
Definition (Komplementärmatrix)
Seien n ≥ 1, K ein Körper und A ∈ Kn × n . Dann definieren wir die zu A komplementäre Matrix oder die Adjunkte von A als die Matrix A# ∈ Kn × n mit
a#ij = det A ji
für alle i, j.
Die Matrix A# entsteht aus A durch Ersetzen aller Einträge aij durch die Determinanten
der Matrizen Aij und anschließendes
Transponieren. Nach den Ergebnissen
det A11
′
−det A21
′
det A31
′
…
aus 7. 6 gilt für alle n ≥ 2:
a#ij = (−1)i + j det Aji′ .
A# =
′
−det A12
det A22
′
−det A32
′
…
det A13
′
−det A23
′
det A33
′
…
…
…
…
…
Den Entwicklungssatz von Laplace
können wir nun so schreiben:
det A = ∑ 1 ≤ i ≤ n aij a#ji = (A# A)(j, j) für alle j,
det A = ∑ 1 ≤ j ≤ n aij a#ji = (A A# )(i, i) für alle i.
Die Diagonalen von A# A und A A# sind also konstant gleich det(A). Allgemein gilt
(A# A)(i, j) = ∑ k a#ik akj = ∑ k ak j det(A ki ) =
∑ k akj det a1 … ek … an
= det a1 … aj … an
= δij det A
für alle i, j,
wobei a1 , …, an die Spalten von A sind und ek und aj in der i-ten Spalte stehen. Analoges
gilt für AA# . Damit haben wir:
A# A = det(A) En = A A#
für alle A ∈ Kn × n .
Beispiele
(1) Für alle A ∈K 2 × 2 berechnet sich die komplementäre Matrix zu
A# =
det A11
det A 21
det A12
det A 22
=
a22
−a12
−a21
a11
.
(2) Für A = En gilt det Aij = δij für alle i,j. Also ist En# = En .
(3) Für A = diag(d1 , …, dn ) ist A# = diag(a#11 , …, a#nn ) mit a#ii = ∏ j ≠ i ajj .
(4) Für alle A ∈ Kn × n gilt det(A# ) det(A) = det(A# A) = det(det(A) En ) = det(A)n .
Für invertierbare A ist also det(A# ) = det(A)n − 1 .
7. 7 Komplementärmatrizen und die Regel von Cramer
187
Die Diagonale von A# A und AA# liefert den Entwicklungssatz von Laplace. Die Kenntnis des gesamten Produkts erlaubt die Berechnung von A−1 mit Hilfe der Komplementärmatrix. Multiplizieren wir nämlich det(A) En = A# A von rechts mit A−1 , so erhalten wir:
A−1 =
A#
det A
für alle A ∈ GL(n, K).
Eine klassische Anwendung ist:
Die Regel von Cramer
Seien A ∈ GL(n, K) und b ∈ Kn .
Für alle 1 ≤ j ≤ n sei A j ∈ Kn × n die
Matrix, die aus A entsteht, wenn die
j-te Spalte von A durch b ersetzt
wird. Dann ist (x1 , …, xn ) ∈ Kn mit
xj =
det A j
det A
a2
für alle j
b
die eindeutige Lösung des linearen
Gleichungssystems A x = b.
x1 a1
Schreiben wir nämlich die Lösung des
Systems in der Form A−1 b, so gilt für
alle j (vgl. die Berechnung von A# A(i, j))
a1
Ist A ∈ GL(2, ⺢) und Ax = b, so gilt nach der Re-
det(A) (A−1 b)j = (A# b)j =
gel von Cramer
∑ i bi det(Aij ) = det a1 … b … an
det x1 a1 ; a2
mit b in der j-ten Spalte. Dies zeigt die
Regel von Cramer.
Dies bedeutet, dass die beiden von x1 a1 , a2 und
b, a2 aufgespannten Parallelogramme denselben
Flächeninhalt haben. Analoges gilt für x2 .
Beispiel
Für A ∈ GL(2, K) benötigt die
Regel von Cramer die Determinanten der Matrizen
b1 a12
A1 =
b2 a22
,
A2 =
a11 b1
a21 b2
= x1 det A = det b; a2 .
,
A =
a11 a12
a21 a22
.
Für das lineare Gleichungssystem
1
2
x1
3
4
x2
=
5
6
gilt det A1 = 8, det A2 = −9, det A = −2. Damit ist (−4, 9/2) die Lösung des Systems.
188
7. Determinanten
7. 8 Die speziellen linearen Gruppen
Definition (die Gruppen SL(n, K))
Für einen Körper K und n ≥ 1 sei SL(n, K) = { A ∈ GL(n, K) | det A = 1 }.
(spezielle lineare Gruppe)
Die Menge SL(n, K) ist als Kern von
det : GL(n, K) → K*
det
GL(n, K)
K*
ein Normalteiler von GL(n, K). Wegen
det(diag(a, 1, …, 1)) = a für alle a ∈ K
π
ψ
ist det : GL(n, K) → K* ein EpimorphisGL(n, K)/SL(n, K)
mus. Nach dem Homomorphiesatz sind
GL(n, K)/SL(n, K) und K* isomorph.
Die Matrizen diag(a, 1, …, 1), a ∈ K*, bilden ein vollständiges Repräsentantensystem.
Im Fall n = 1 gilt SL(1, K) = { 1 }. Für alle n ≥ 2 gilt die folgende Charakterisierung:
Die elementare lineare Gruppe
Ist K ein Körper und n ≥ 2, so ist die elementare lineare Gruppe definiert durch
E(n, K) = { A ∈ GL(n, K) | A ist ein Produkt von Additionstypen Wij (λ), i ≠ j, λ ∈ K }.
Wegen Wij (λ)−1 = Wij (− λ) für i ≠ j ist E(n, K) in der Tat eine Gruppe. Es gilt:
E(n, K) = SL(n, K).
Die Inklusion „⊆“ folgt aus dem Multiplikationssatz und det(Wij (λ)) = 1 für i ≠ j.
Für „⊇“ verwenden wir, dass sich jedes A ∈ GL(n, K) durch Multiplikation mit
Additionstypen in eine Diagonalmatrix überführen lässt. Die Determinante bleibt
dabei unverändert. Damit bleibt zu zeigen, dass jede Diagonalmatrix der Form
diag(d1 , …, dn ), d1 … dn = 1
ein Element von E(n, K) ist. Dies verifiziert man für n = 2 direkt. Die allgemeine
Behauptung kann man nun induktiv mit Hilfe folgender Faktoriserung zeigen:
diag(d1 , …, dn ) = diag(d1 , d2 … dn , 1, …, 1) diag(1, (d3 … dn )−1 , d3 , …, dn ).
Wir betrachten nun noch den Spezialfall K = ⺢ und die Determinanten orthogonaler
Matrizen. Wir setzen für alle n ≥ 1:
O(n) = { Q ∈ ⺢n × n | Q ist orthogonal },
SO(n) = O(n) ∩ SL(n, ⺢).
(orthogonale Gruppe)
(spezielle orthogonale Gruppe)
Da die Orthogonalität durch Q−1 = Qt charakterisiert ist, haben alle orthogonalen Matrizen die Determinante ±1. Für alle Matrizen W mit det(W) = −1 gilt
O(n) = SO(n) ∪ { Q W | Q ∈ SO(n) }.
7. 8 Die speziellen linearen Gruppen
189
Die Gruppen O(n) und SO(n) lassen sich für n ≤ 3 anschaulich beschreiben:
n
Q ∈ O(n)
f Q : ⺢n → ⺢n ist …
1
det Q = 1
die Identität
1
det Q = −1
die Spiegelung am Nullpunkt
2
det Q = 1
die Drehung um einen Winkel α
2
det Q = −1
die Spiegelung an einer Geraden durch 0
3
det Q = 1
die Rotation um eine Achse durch 0
3
det Q = −1
eine Rotationsspiegelung, d. h., die Rotation um eine Achse
durch 0 plus eine (vor oder nach der Rotation durchgeführte)
Spiegelung an der zur Rotationsachse senkrechten Ebene
det Q = 1
−1
1
n=1
n=2
cos α − sin α
cos α
sin α cos α
sin α − cos α
cos α − sin α
n=3
det Q = −1
sin α
0
cos α − sin α
0
sin α
cos α
0
sin α
cos α
0
0
0
1
0
0
−1
Die Tabelle zeigt die Form aller
Elemente von O(1) und O(2) sowie
wichtige Elemente von O(3). Die
Matrix für n = 2 und det Q = −1 ist
eine Drehung um −α gefolgt von
einer Spiegelung an der x-Achse,
also eine Spiegelung an der Geraden durch 0 mit dem Winkel α/2.
Die Matrix für n = 3 und det Q = −1
ist eine Rotation um die z-Achse
plus eine Spiegelung an der x-yEbene.
Viele andere Klassifikationen sind möglich. Für alle n ≥ 1 und alle Q ∈ O(n) gilt zum
Beispiel, dass fQ : ⺢n → ⺢n eine Komposition von höchstens n Spiegelungen an Unterräumen des ⺢n der Dimension n − 1 ist (Hyperebenen im ⺢n ).
Für den Körper K = ⺓ definieren wir analog:
U(n) = { U ∈ ⺓n × n | U ist unitär },
SU(n) = U(n) ∩ SL(n, ⺓).
(unitäre Gruppe)
(spezielle unitäre Gruppe)
Unitäre Matrizen sind durch U−1 = U* charakterisiert. Wegen det(U*) = det(U) gilt also
|det(U)| = 1 für alle U ∈ U(n). Die Determinante einer unitären Matrix hat damit die
Form eiϕ . Durch Multiplikation mit einer Matrix W mit det(W) = e−iϕ erhält man eine
Matrix UW in SU(n). Ist Wϕ = W11 (eiϕ ), so gilt
U(n) = { UWϕ | U ∈ SU(n), ϕ ∈ [ 0, 2π [ }.
190
7. Determinanten
7. 9 Volumina von Parallelotopen
Satz (geometrische Bedeutung der Determinante)
Seien 1 ≤ r ≤ n, a1 , …, ar ∈ ⺢n und A = a1 … ar
∈ ⺢n × r . Weiter sei
P = P(a1 , …, ar ) = { x ∈ ⺢n | es gibt 0 ≤ λ1 , …, λr ≤ 1 mit x = ∑ i λi ai }
das von a1 , …, ar aufgespannte Parallelotop der Dimension dim(span(a1 , …, ar )) ≤ r.
Dann gilt für die gramsche Matrix At A ∈ ⺢r × r
(+) volr (P)2 = det(At A) = det
〈a1 , a1 〉
〈a2 , a1 〉
…
〈ar , a1 〉
〈a1 , a2 〉
〈a2 , a2 〉
…
〈ar , a2 〉
〈a1 , ar 〉
〈a2 , ar 〉
…
〈ar , ar 〉
…
…
…
…
≥ 0,
wobei vol r (⋅) das r-dimensionale Volumen im ⺢n bezeichnet und in der Determinante
das kanonische Skalarprodukt des ⺢n verwendet wird. Insbesondere gilt für r = n
(++) voln (P) = |det A|.
P(a1 , a2 , a3 ) ⊆ ⺢3
P(a1 , a2 ) ⊆ ⺢3
a2
a3
a2
a1
a1
Das Ergebnis setzt voraus, dass volr (P(a1 , …, ar )) erklärt ist. Ohne Anleihe bei der Maßund Integrationstheorie kann dies auf folgende Art geschehen:
Rekursive Definition des Volumens von Parallelotopen
Sei n ≥ 1. Für r = 1 sei vol1 (P(a1 )) = |a1 |. Rekursiv definieren wir nun in Verallgemeinerung von „Grundseite mal Höhe“ und „Grundfläche mal Höhe“:
volr + 1 (P(a1 , …, ar + 1 )) = volr (P(a1 , …, ar )) ⋅ h, wobei
h = 储 ar + 1 − prU (ar + 1 ) 储 mit U = span(a1 , …, ar ).
Es gilt volr (P(a1 , …, ar )) = 0 genau dann, wenn (a1 , …, ar ) linear abhängig ist. Genau in
diesem Fall ist auch die gramsche Determinante det(At A) gleich 0. Allgemein zeigt man
(+) durch Induktion nach r ≤ n. Aus (+) folgt nun, dass volr (P(a1 , …, ar )) nur von der
Menge P und nicht von der Reihenfolge der ai abhängt. Im Fall r = n gilt At , A ∈ ⺢n × n
und det(At A) = det(At ) det(A) = det(A)2 , woraus sich (++) ergibt.
7. 9 Volumina von Parallelotopen
191
Beispiele
(1) Für das von den Vektoren a1 = (1, 1, 1) und a2 = (2, 1, −1) des ⺢3 aufgespannte
Parallelogramm P ⊆ ⺢3 gilt
vol2 (P)2 = det
〈a1 , a1 〉
〈a1 , a2 〉
〈a2 , a1 〉
〈a2 , a2 〉
= det
3 2
2 6
= 14.
Damit hat P den Flächeninhalt 兹14 .
(2) Sei P ⊆ ⺢3 das von a1 = (1, 1, 1), a2 = (2, 1, −1) und a3 = (1, 0, −1) aufgespannte
Parallelepiped. Wegen
det
1
2
1
1
1
0
1 −1 −1
1
= det
2
1
0 −1 −1
1
= det
0 −3 −2
2
1
0 −1 −1
0
0
= −1
1
gilt vol3 (P) = 1.
Die Volumenformel (++) lässt sich auch direkt mit Hilfe der Determinantenaxiome
sehr anschaulich erklären (und umgekehrt lassen sich die Axiome dadurch motivieren).
Ist n = 2, so gilt für alle a1 , a2 , a1′, a2′ ∈ ⺢2 und λ ∈ ⺢ mit vol = vol2 :
(1) vol(P(λ a1 , a2 )) = |λ| vol(P(a1 , a2 )) = vol(P(a1 , λ a2 )),
(Streckung)
vol(P(a1 + a1′, a2 )) = vol(P(a1 , a2 )) + vol(P(a1′, a2 )),
vol(P(a1 , a2 + a2′ )) = vol(P(a1 , a2 )) + vol(P(a1 , a2′ )),
(Additivität)
(2) vol(P(a1 , a1 )) = 0,
(degenerierter Fall)
(3) vol(P(e1 , e2 )) = 1.
(Normierung)
Bis auf den Betrag bei λ entsprechen diese Eigenschaften genau den Determinantenaxiomen. Analoge Überlegungen gelten für andere Dimensionen.
Im Unterschied zum Volumen ist die Determinante vorzeichenbehaftet. Anders als das
Volumen ändert sie ihr Vorzeichen, wenn zwei aufspannende Vektoren vertauscht werden. Die Determinante det(A) enthält damit auch eine Information über die Orientierung
von P.
Die Volumenveränderung einer linearen Abbildung
Ist f : ⺢n → ⺢n linear, so ist das Bild des Einheitswürfels P = P(e1 , …, en ) unter f das
Parallelotop Pf = P(f(e1 ), …, f(en )). Das Volumen von Pf ist der Betrag der Determinante der f darstellenden Matrix A (bzgl. der Standardbasis). Wegen
voln (P) = 1, |det(A)| = voln (Pf )
können wir also |det(A)| als Maß für die durch die lineare Abbildung bewirkte
Volumenveränderung ansehen.
192
7. Determinanten
7. 10 Das Kreuzprodukt
Definition (Kreuzprodukt)
Seien a, b ∈ ⺢3 . Dann gibt es nach dem Rieszschen Darstellungssatz genau einen
Vektor w ∈ ⺢3 , der das lineare Funktional
det a; b; ⋅
: ⺢3 → ⺢
darstellt. Wir schreiben w = a × b und nennen w das Kreuzprodukt von a und b.
Nach Definition gilt also (mit dem kanonischen Skalarprodukt)
für alle a, b, c ∈ ⺢3 . Für c = e1 , e2 , e3 erhalten wir
〈a × b, c〉 = det a ; b ; c
a 2 b2
,
a 3 b3
(a × b)1 = 〈a × b, e1 〉 = det a; b; e1
= det
(a × b)2 = 〈a × b, e2 〉 = det a; b; e2
= − det
(a × b)3 = 〈a × b, e3 〉 = det a; b; e3
= det
a 1 b1
,
a3 b3
a 1 b1
,
a 2 b2
sodass
a×b =
a2 b 3 − a 3 b 2
a3 b 1 − a 1 b 3
a1 b 2 − a 2 b 1
.
a
b
a×b
a×b
b
Der Vektor a × b steht senkrecht auf a und b und hat die
a
Länge des Flächeninhalts des von a und b aufgespannten Parallelogramms. Die Richtung von a × b kann mit
der Rechte-Hand-Regel (Drei-Finger-Regel) ermittelt werden: a entspricht dem Daumen, b dem Zeigefinger und a × b dem Mittelfinger der rechten Hand.
Beispiel
Für alle b ∈ ⺢3 gilt
e1 × b =
0
− b3
b2
,
e2 × b =
b3
0
−b1
,
e3 × b =
− b2
b1
0
.
Inbesondere ist e1 × e2 = e3 , e1 × e3 = −e2 , e2 × e3 = e1 . Das Kreuzprodukt ist nicht
assoziativ, da zum Beispiel e1 × (e1 × e2 ) = −e2 ≠ 0 = (e1 × e1 ) × e2 .
7. 10 Das Kreuzprodukt
193
Eigenschaften des Kreuzprodukts
〈a × b, a〉 = 0, 〈a × b, b〉 = 0
Orthogonalität
vol2 (P(a, b)) = 储 a × b 储 , vol3 (P(a, b, c)) = |〈a × b, c〉|
Volumenformeln
cos α =
〈a, b〉
, sin α =
储a储 储b储
储a × b储
储a储 储b储
Winkel
Aa × Ab = det(A) (At ) −1 (a × b)
Transformation
Q a × Q b = Q(a × b)
Rotation
a×b = −b×a
Antikommutativität
a × (b × c) = b 〈a, c〉 − c 〈a, b〉
bac-minus-cab-Regel
(λ a + b) × c = λ (a × c) + b × c
Bilinearität
a × (λ b + c) = λ (a × b) + a × c
u×u = 0
Alternation
a × (b × c) + b × (c × a) + c × (a × b) = 0
Jacobi-Identität
In dieser Tabelle sind a,b,c ∈ ⺢3 , A ∈ GL(3, ⺢), Q ∈ SO(3) beliebig, wobei für den von a und b eingeschlossenen Winkel α vorausgesetzt wird, dass a, b ≠ 0. Weiter ist P(a, b) das von a, b aufgespannte
Parallelogramm und P(a, b, c) das von a, b, c aufgespannte Parallelepiped.
Die Transformation lässt sich elegant so zeigen: Für alle a, b, c gilt
〈Aa × Ab, c〉 = det Aa; Ab; c
= det A ⋅ a; b; A−1 c
=
det A ⋅ det a; b; A−1 c
= det A ⋅ 〈a × b, A−1 c〉 = det A ⋅ 〈(At ) − 1 (a × b), c〉.
Die Rotation ergibt sich nun aus det(Q) = 1 und (Qt )−1 = Q für Q ∈ SO(3).
Das verallgemeinerte (n − 1)-stellige Kreuzprodukt im ⺢n
Mit Hilfe des Rieszschen Darstellungssatzes kann für jede Dimension n ≥ 2 ein
Kreuzprodukt a1 × … × an − 1 ∈ ⺢n erklärt werden durch
〈a1 × … × an − 1 , a〉 = det
a1
… an − 1 a
für alle a1 , …, an − 1 , a ∈ ⺢n .
Es gilt zum Beispiel die Orthogonalität a1 × … × an − 1 ∈ span(a1 , …, an − 1 ) ⊥ und die
Volumenformel voln (P(a1 , …, an )) = |〈a1 × … × an − 1 , an 〉|.
194
7. Determinanten
7. 11 Positive Definitheit
Satz (Charakterisierungen der positiven Definitheit)
Seien n ≥ 1 und A ∈ ⺓n × n eine hermitesche Matrix. Dann sind äquivalent:
(a) A ist positiv definit, d. h., für das kanonische Skalarprodukt auf dem ⺓n gilt
〈z, Az〉 > 0
für alle z ∈ ⺓n − { 0 }.
(b) Für die Matrizen Ak = (aij )1 ≤ i, j ≤ k ∈ ⺓k × k gilt
det(Ak ) > 0 für alle 1 ≤ k ≤ n.
(Hauptminorenkriterium)
(c) A lässt sich durch Multiplikation mit Additionstypen Wij (λ), i > j, in eine
Dreiecksmatrix B mit positiven reellen Diagonaleinträgen verwandeln.
(d) Es gibt eine Dreiecksmatrix L ∈ GL(n, ⺓) mit A = L* L. (Cholesky-Zerlegung)
(e) Es gibt ein B ∈ GL(n, ⺓) mit A = B* B.
Analoges gilt für symmetrische Matrizen
A ∈ ⺢n × n .
Die Zahlen det(Ak ) heißen die Hauptminoren
von A. Nach (b) sind alle Ak und damit A = An
invertierbar, wenn A positiv definit ist.
Der Satz erlaubt für eine gegebene Hermitesche Matrix A ∈ ⺓n × n (oder symmetrische Matrix A ∈ ⺢n × n ) die Beantwortung von:
a11
a12
a13
a14
…
a21
a22
a23
a24
…
a31
a32
a33
a34
…
a41
a42
a43
a44
…
…
…
…
…
…
Ist A positiv definit?
Für kleine n ist das Hauptminorenkriterium geeignet, um die positive Definitheit
von A zu entscheiden. Für größere n überführen wir A durch Spaltenadditionen in
eine Dreiecksmatrix B = A L1 … Lk . Dann ist A genau dann positiv definit, wenn alle
Diagonaleinträge λi von B reell und zudem positiv sind. Die Cholesky-Zerlegung
A = L* L ist im positiv definiten Fall gegeben durch
L = (L1 … Lk Wnn (μn ) … W11 (μ1 ))−1 mit μi = 兹λi .
Dass die Abschwächung (e) von (d) die positive Definitheit impliziert, folgt aus
〈x, B*Bx〉 = 〈B**x, Bx〉 = 〈Bx, Bx〉 > 0
für B ∈ GL(n, ⺓) und x ≠ 0.
Für die in 6. 12 untersuchten Sesquilinearformen gilt:
Positiv definite Formen
Seien V ein ⺓-Vektorraum, ϕ : V × V → ⺓ eine hermitesche Form, Ꮽ = (v1 , …, vn )
eine Basis von V und A = (ϕ(vi , vj ))ij ∈ ⺓n × n die gramsche Matrix von ϕ bzgl. Ꮽ.
Dann ist ϕ genau dann positiv definit, wenn eine (alle) der Aussagen (a) − (e) gelten.
Analoges gilt für eine symmetrische Form ϕ : V × V → ⺢ auf einem ⺢-Vektorraum.
7. 11 Positive Definitheit
195
Beispiele
(1) Ist A ∈⺢n × n symmetrisch und positiv definit, so sind alle Diagonaleinträge von
A positiv, da aii = 〈ei , A ei 〉 > 0 für alle 1 ≤ i ≤ n. Dass diese Eigenschaft nicht
hinreichend ist, zeigt die Matrix A ∈ ⺢2 × 2 mit den Spalten (1, 2), (2, 1).
(2) Da At A und AAt für alle A ∈ GL(3, ⺢) positiv definit sind, gilt dies mit
A =
1 −1 −1
1 1 2
1 1 0
für At A =
3 1 1
1 3 3
1 3 5
3 −2 0
−2 6 2
0 2 2
und A At =
.
(3) Auf V = ⺢2 sei die symmetrische Bilinearform ϕ definiert durch
ϕ(v, w) = v1 w1 − v2 w2
für alle v, w ∈ ⺢2 .
Für die Basen Ꮽ = (e1 , e2 ) und Ꮾ = (e1 , (2, 1)) sind
A ϕ, Ꮽ =
1 0
,
0 −1
A ϕ, Ꮾ =
1 2
2 3
die zugehörigen gramschen Matrizen. Sie sind nicht positiv definit.
(4) Die Definitheit einer Matrix spielt in der mehrdimensionalen Analysis bei der
Suche nach lokalen Extrema eine Rolle. Für ein zweimal stetig differenzierbares
f : ⺢2 → ⺢ und (x, y) ∈ ⺢2 sind der Gradient grad(f)(x, y) = ⵜf (x, y) ∈ ⺢2 und
die Hesse-Matrix Hf (x, y) ∈ ⺢2 × 2 von f an der Stelle (x, y) definiert durch
grad(f )(x, y) = (∂1 f (x, y), ∂2 f (x, y)),
Hf (x, y) =
∂1 ∂1 f (x, y) ∂1 ∂2 f (x, y)
,
∂1 ∂2 f (x, y) ∂2 ∂2 f (x, y)
wobei ∂1 und ∂2 die partiellen Ableitungen nach der ersten bzw. zweiten Koordinate bezeichnen. Ist (x, y) ∈ ⺢2 ein kritischer Punkt von f, d. h. grad(f )(x, y) = 0,
so hat f in (x, y) eine lokale Minimalstelle (bzw. Maximalstelle), wenn Hf (x, y)
(bzw. − Hf (x, y)) positiv definit ist. Für f mit f(x, y) = x2 + x y + y2 gilt
∂1 f (x, y) = 2x + y,
f(x, y)
∂2 f (x, y) = 2y + x,
∂1 ∂1 f (x, y) = ∂2 ∂2 f (x, y) = 2,
∂1 ∂2 f (x, y) = ∂2 ∂1 f (x, y) = 1.
4
3
2
2
1
1
Im kritischen Punkt 0 = (0, 0) ist
Hf (0) =
2 1
1 2
0
2
positiv definit.
Also ist 0 eine lokale Minimalstelle.
1
1
0
1
2
2
196
7. Determinanten
7. 12 Die Determinante eines Endomorphismus
Definition (Determinante eines Endomorphismus)
Seien V ein Vektorraum der Dimension n ≥ 1, f : V → V linear und A ∈ Kn × n
die darstellende Matrix von f bzgl. einer beliebigen Basis Ꮽ von V. Dann heißt
det(f ) = det(A) die Determinante von f.
3
3
2
2
1
1
R
3
2
1
1
2
3
3
2
1
A=
R′
1
1
1
2
2
3
3
−1 1/3
1 2/3
Ꮽ = (e1 , e2 )
2
f(x) = A x
3
R′ = f [ R ]
det(f ) = −1
|det(f )| = vol2 (R′)
det(f ) misst die durch f bewirkte Veränderung eines orientierten Volumens.
Die Determinante det(f ) eines Endomorphismus hängt nicht von der Wahl der Basis
ab, da ähnliche Matrizen dieselbe Determinante besitzen: Sind Ꮽ, Ꮽ′ Basen von V und A
und A′ die darstellenden Matrizen von f bzgl. dieser Basen, so gibt es nach der Transformationsformel eine Matrix S ∈ GL(n, K) mit
A′ = S A S−1 .
Nach dem Multiplikationssatz ist det A′ = det S det A det S−1 = det A.
Allgemeine Eigenschaften sind:
det(f ⴰ g) = det(f ) det(g)
det(f ) ≠ 0 genau dann, wenn f ist ein Automorphismus
In diesem Fall ist det(f −1 ) = det(f )−1 .
Verknüpfung
Umkehrung
Ist V euklidisch oder unitär, so können wir f * : V → V bilden (vgl. 6. 11). Ist Ꮽ eine
Orthonormalbasis Ꮽ von V, so ist At (für K = ⺢) bzw. A* (für K = ⺓) die darstellende Matrix von f * bzgl. Ꮽ. Damit gilt:
det(f*) = det(f )
det(f *) = det(f )
Ist f selbstadjungiert, so ist det(f ) = det(f *) ∈ ⺢.
für V euklidisch
für V unitär
7. 12 Die Determinante eines Endomorphismus
Beispiele
(1) Die Identität idV : V → V hat bzgl. jeder Basis die darstellende Matrix En .
Es gilt det(idV ) = 1.
(2) Seien K ein Körper, V = Kn und f : V → V,
für alle (x1 , …, xn ) ∈ V.
f(x1 , …, xn ) = f(x2 , x1 , …, )
die Vertauschung der beiden ersten Komponenten. Die f bzgl. (e1 , …, en )
darstellende Matrix A hat die Spalten e2 , e1 , e3 , …, en . Damit ist
det(f ) = det(A) = −1.
(3) Sei V der ⺢-Vektorraum der reellen Polynomfunktionen vom Grad kleinergleich n − 1 und sei D : V → V der Ableitungsendomorphismus,
D(f) = f ′ für alle f ∈ V.
Bzgl. der Basis (1, x, …, xn − 1 ) ist die obere Dreiecksmatrix
0
D(1) = 0
1
0
D(x) = 1
2
A =
D(x2 ) = 2x
… …
0
…
n−1
D(x
0
n−1
) = (n − 1) xn − 2
die darstellende Matrix von f (die Spalten sind die Koordinatenvektoren der
Bilder der Basisvektoren). Damit ist det(f ) = 0.
(4) Seien K ein Körper, V = K 2 × 2 und f : K 2 × 2 → K 2 × 2 die Transposition,
f(A) = At
für alle A ∈ K 2 × 2 .
Dann bilden die Matrizen
E1 =
1 0
0 0
0 1
, E2 =
0 0
, E3 =
0 0
1 0
, E4 =
0 0
0 1
eine Basis von V. Die darstellende Matrix von f bzgl. dieser Basis ist
A =
1
0
0
0
0
0
1
0
0
1
0
0
0
0
0
1
.
Damit ist det(f ) = det(A) = − det(E4 ) = −1.
197
Kapitel 8
Eigenwerte
200
8. Eigenwerte
8. 1 Eigenwerte und Eigenvektoren
Definition (Eigenwert, Eigenvektor, Eigenraum, Spektrum)
Eigenwerte und Eigenvektoren für Endomorphismen
Seien V ein K-Vektorraum und f : V → V ein Endomorphismus. Weiter seien
λ ∈ K und v ∈ V − { 0 }. Dann heißt λ ein Eigenwert und v ein Eigenvektor von f
(zum Eigenwert λ), falls f(v) = λ v. Wir setzen
σ(f ) = { λ ∈ K | λ ist ein Eigenwert von f },
(Spektrum von f )
Eig(f, λ) = { v ∈ V | v ist ein Eigenvektor von f zum Eigenwert λ } ∪ { 0 } =
{ v ∈ V | f(v) = λv } für alle λ ∈ σ(f ).
(Eigenraum von f bzgl. λ)
Die Dimension des Unterraums Eig(f, λ) heißt die geometrische Vielfachheit des
Eigenwerts λ von f.
Eigenwerte und Eigenvektoren für Matrizen
Seien K ein Körper, n ≥ 1 und A ∈ Kn × n . Dann heißt ein λ ∈ K ein Eigenwert und
x ∈ Kn − { 0 } ein Eigenvektor von A, falls A x = λ x, d. h., falls λ ein Eigenwert und x
ein Eigenvektor des Endomorphismus f A : Kn → Kn ist. Ebenso sind das
Spektrum und die Eigenräume von A definiert durch
σ(A) = σ(fA ),
Eig(A, λ) = Eig(fA , λ) für alle λ ∈ σ(A).
dim(Eig(A, λ)) heißt
die geometrische Vielfachheit des Eigenwerts λ von A.
f(w)
Eig(f, λ)
w
Eigenwerte und Eigenvektoren sind nützlich, um einen
Endomorphismus möglichst
einfach darzustellen: Auf einem Eigenraum Eig(f, λ) ist f
die schlichte Skalierung um
den Faktor λ. Sind v1 , …, vn
Eigenvektoren von f zu den
Eigenwerten λ1 , …, λn , so gilt
v
f(v)
f(v) = λv
f(w) = λw
f(u) ≠ λu für alle u ∉ span(v, w)
(+) f(α1 v1 + … + αn vn ) = λ1 α1 v1 + … + λn αn vn
für alle α1 , …, αn ∈ K.
Ist (v1 , …, vn ) eine Basis von V, so können wir f(w) für jeden Vektor w durch (+) angeben.
Die „Eigen-Begriffe“ übertragen sich in natürlicher Weise von Endomorphismen zwischen endlich-dimensionalen Vektorräumen auf Matrizen. Allgemein spielen Eigenvektoren, Eigenwerte und Spektren aber auch für unendlich-dimensionale Vektorräume eine
wichtige Rolle, etwa in der Funktionalanalysis und der Quantenmechanik.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9_9, © Springer-Verlag Berlin Heidelberg 2015
8. 1 Eigenwerte und Eigenvektoren
201
Die Rolle des Nullvektors und der Null des Skalarenkörpers
Es gilt f(0) = 0 = λ0 für alle λ ∈ K. Da man nicht möchte, dass jeder Skalar λ ein
Eigenwert von f ist, schließt man den Nullvektor 0 ∈ V als Eigenvektor aus. In die
Eigenräume Eig(λ, f ) nimmt man ihn dagegen mit auf, damit diese Unterräume von
V sind. Der Skalar 0 ∈ K ist als Eigenwert zugelassen: f(v) = 0 v = 0 ist für v ≠ 0 eine
wichtige Information über f. Der zugehörige Eigenraum Eig(0, f ) ist der Kern von f.
Grundlegende Eigenschaften
Eigenvektoren v1 , …, vk zu paarweise verschiedenen
Eigenwerten λ1 , …, λk sind linear unabhängig.
lineare
Unabhängigkeit
Die Summe aller Eigenräume ist direkt.
Summe
Eig(f, λ) = Kern(f − λ IdV )
Kerndarstellung
Eig(A, λ) = Kern(A − λEn )
Die lineare Unabhängigkeit zeigt man induktiv. Der Induktionsschritt von k − 1 nach k
wird für eine gegebene Nulldarstellung α1 v1 + … + αk vk = 0 durch Subtraktion von
λ 1 α1 v 1 + … + λ k α k vk = 0
(Anwendung von f auf die Nulldarstellung)
λ k α 1 v1 + … + λ k α k v k = 0
(Multiplikation der Nulldarstellung mit λk )
getragen. Die Direktheit von ⊕λ ∈ σ(f ) Eig(f, λ) folgt nun aus der linearen Unabhängigkeit.
Schließlich ist f(v) = λv äquivalent zu f(v) − λv = 0 und damit zu (f − λIdV )(v) = 0. Letzteres
besagt, dass v im Kern des Endomorphismus f − λIdV liegt. Analoges gilt für Matrizen.
Die folgenden Fragen sind also äquivalent:
Welche Eigenwerte besitzt A?
Für welche λ ist A − λEn singulär?
Beispiele
(1) Sei fϕ : ⺢2 → ⺢2 die Drehung um den Winkel ϕ ∈ [ 0, 2π [. Dann gilt:
Ist ϕ = 0, so ist f0 (x) = x für alle x; damit ist σ(f0 ) = { 1 } und Eig(f0 , 1) = ⺢2 .
Ist ϕ = π, so ist fπ (x) = −x für alle x; damit ist σ(fπ ) = { −1 } und Eig(fπ , −1) = ⺢2 .
Für alle anderen ϕ ist σ(fϕ ) = ∅.
(2) Sei f : ⺢2 → ⺢2 die Spiegelung
an einer Geraden G durch 0.
Dann ist f(x) = x für alle x ∈ G
und f(x) = −x für jedes x, das
senkrecht auf G steht. Es gibt
keine weiteren Eigenvektoren,
sodass
σ(f ) = { 1, −1 },
Eig(f, 1) = G, Eig(f, −1) = G ⊥ .
w
G
v
f(v) = v
f(w) = −w
202
8. Eigenwerte
8. 2 Die Diagonalisierbarkeit
Definition (diagonalisierbare Endomorphismen und Matrizen)
Seien V ein n-dimensionaler
Vektorraum und f : V → V ein
f(w)
Endomorphismus. Dann heißt
w
f diagonalisierbar, falls eine Basis
(v1 , …, vn ) aus Eigenvektoren
f(v) = λv
existiert. Analog heißt eine
f(w) = λw
Matrix A ∈ Kn × n diagonalisierbar,
n
n
f(u) = μ u
falls fA : K → K dies ist.
f(u)
u
v
f(v)
V = Eig(f, λ) ⊕ Eig(f, μ)
Die Diagonalisierbarkeit ist die optimale Eigenschaft im Sinne der einfachen Darstellung. Dies (und die Namensgebung) wird illustriert durch:
Af =
λ 0 0
0 λ 0
0 0 μ
bzgl. Ꮽ = (v, w, u)
Charakterisierungen der Diagonalisierbarkeit von f : V → V
Es gibt eine Basis Ꮽ = (v1 , …, vn ) aus Eigenvektoren von f.
V = ⊕λ ∈ σ(f ) Eig(f, λ)
∑ λ ∈ σ(f ) dim(Eig(f, λ)) = n
Es gibt eine Basis Ꮽ von V, sodass die darstellende Matrix
Ꮽ
D = AᏭ,
von f bzgl. Ꮽ, Ꮽ eine Diagonalmatrix ist.
f
Charakterisierungen der Diagonalisierbarkeit von A ∈ Kn × n
Es gibt eine Basis Ꮽ = (v1 , …, vn ) aus Eigenvektoren von A.
Kn = ⊕λ ∈ σ(f ) Eig(A, λ)
∑ λ ∈ σ(f ) dim(Eig(A, λ)) = n
A ist ähnlich zu einer Diagonalmatrix D, d. h.,
es gibt ein S ∈ GL(n, K) sodass D = S A S−1 eine Diagonalmatrix ist.
Für die Diagonalmatrizen der vierten Formulierung gilt zusätzlich:
In der Diagonalen von D stehen die Eigenwerte von f. Ist die geometrische Vielfachheit
von λ gleich k, so kommt λ genau k-oft in der Diagonalen vor.
8. 2 Die Diagonalisierbarkeit
203
Einen Endomorphismus zu diagonalisieren bedeutet, eine Basis von V zu finden, sodass
Ꮽ
diagonal ist. Wir erinnern hierzu an den in 5.8 betrachteten Spezialfall der TransforAᏭ,
f
mationsformel
A
Kn
Kn
A′ = S A S −1 .
Im Unterschied zu „SAT −1 “ halten wir
ΦᏭ
ΦᏭ
die Basen Ꮽ und Ꮽ′ beim Übergang von
links nach rechts fest, sodass nur zwei
Ꮽ
f
S
statt vier Basen im Spiel sind. Gute AᏭ,
f
V
V
sind schwieriger zu konstruieren als gute
Ꮾ
AᏭ,
(vgl. 5. 4). Die Suche nach guten
f
Ꮽ, Ꮽ
ΦᏭ′
Φ Ꮽ′
Darstellungen AᏭ
eines Endof := Af
morphismus ist als Normalformproblem
A′
bekannt. Die Frage nach der DiagonaliKn
Kn
sierbarkeit ist die wichtigste Instanz des
Problems und der Ausgangspunkt für alle
weiteren Fragen, die sich stellen, wenn die Diagonalisierung nicht möglich ist.
Für Matrizen halten wir fest:
S
Ist Ꮽ eine Basis von V, so besitzen A = AᏭ
f und f dieselben Eigenwerte.
Ähnliche Matrizen besitzen dieselben Eigenwerte.
Genauer stimmen für jeden Eigenwert λ auch die geometrischen Vielfachheiten
überein. Der Beweis dieser Aussagen folgt aus dem kommutativen Diagramm oben unter Verwendung der Eigenschaft „Φ(λv) = λ Φ(v) für alle λ ∈ K, v ∈ V“, die jeder Koordinatenisomorphismus Φ : V → Kn erfüllt.
Beispiel
Wir betrachten die Matrix
A =
1 2
1 1
∈ ⺢2 × 2 .
Mit w = 兹2 sind x1 = (w, 1), x2 = (−w, 1) Eigenvektoren zu den Eigenwerten
λ1 = 1 + w und λ2 = 1 − w (eine Möglichkeit, Eigenwerte und Eigenvektoren zu
finden, diskutieren wir im nächsten Abschnitt). Für die Eigenbasis Ꮽ = (x1 , x2 ) ist
die darstellende Matrix von fA bzgl. Ꮽ die Diagonalmatrix D = diag(1 + w, 1 − w)
(„die Spalten sind die Koordinaten der Bilder der Basisvektoren“). Ist T die Matrix
mit den Spalten x1 und x2 (vgl. 5. 8), so gilt für S = T −1 :
S A S−1 =
1
2
1
1 2
w −w
− 1/w 1
1 1
1
1/w
1
=
1+w
0
0
1−w
= D.
204
8. Eigenwerte
8. 3 Das charakteristische Polynom
Definition (charakteristisches Polynom)
Charakteristisches Polynom einer Matrix
Seien K ein Körper und A ∈ Kn × n ,
n ≥ 1. Dann heißt
a11 − X
a12
…
a1n
a21
a22 − X
…
a2n
…
…
…
…
an1
…
… ann − X
pA = det
pA = det(A − X En ) ∈ K [ X ]
das charakteristische Polynom von A.
Charakteristisches Polynom eines Endomorphismus
Sind V ein n-dimensionaler K-Vektorraum und f : V → V ein Endomorphismus, so heißt
pf = det(A − X En ) ∈ K[ X ]
das charakteristische Polynom von f, wobei A ∈ Kn × n die darstellende Matrix von f
bzgl. einer beliebigen Basis von V ist.
Die Definition ist durch die Beobachtung motiviert, dass ein Skalar λ genau dann ein
Eigenwert von A ist, wenn A − λEn singulär ist. Dies ist genau dann der Fall, wenn
pA (λ) = det(A − λEn ) = 0.
Mit anderen Worten:
Die Nullstellen von pA sind die Eigenwerte von A.
Bemerkung
Wir haben Determinanten nur für Matrizen mit Einträgen aus einem Körper K
eingeführt. Hier benötigen wir sie für Matrizen mit Einträgen im Polynomring
K[ X ]. Folgende Lösungen sind möglich: (1) Man entwickelt die Determinantentheorie allgemeiner für Matrizen über Ringen. (2) Man erweitert den Polynomring
K[ X ] zum Körper K(X) der rationalen Funktionen, dessen Elemente in der Form
P(X)/Q(X) mit P(X), Q(X) ∈ K[ X ] dargestellt werden können. Wegen K[ X ] ⊆ K(X)
ist dann die benötigte Determinante erklärt.
Die Leibniz-Formel zeigt, dass pA tatsächlich ein Polynom (vom Grad n) ist:
pA = det(A − XEn ) = ∑ σ ∈ Sn sgn(σ) (aσ(1), 1 − X δσ(1), 1 ) … (aσ(n), n − X δσ(n), n ) =
b 0 + b1 X 1 + … + bn X n ,
mit gewissen Koeffizienten b0 , …, bn ∈ K, von denen wir drei einfach angeben können:
b0 = det(A),
bn − 1 = (−1)n − 1 (a11 + … + ann ),
bn = (−1)n .
8. 3 Das charakteristische Polynom
205
Um zu zeigen, dass das charakteristische Polynom pf nicht von der Wahl der Basis abhängt, betrachten wir ein S ∈ GL(n, K). Dann gilt für A′ = SAS−1 :
det(A − XEn ) = det(S) det(A − XEn ) det(S−1 ) = det(S (A − XEn ) S−1 ) =
det(SAS−1 − S X En S−1 ) = det(SAS−1 − XEn ) = det(A′ − XEn ).
Mit anderen Worten:
Ähnliche Matrizen besitzen dasselbe charakteristische Polynom.
Die Darstellung von bn − 1 motiviert einen neuen Begriff: Die Summe der Diagonaleinträge einer Matrix A heißt die Spur von A,
spur(A) = a11 + … + ann .
Da die charakteristischen Polynome ähnlicher Matrizen gleich sind, folgt: Ähnliche Matrizen besitzen die gleiche Spur. Ist A diagonalisierbar, so ist die Spur von A also die
Summe λ1 + … + λn der (in ihrer Vielfachheit gezählten) Eigenwerte von A.
Beispiel: Die Dimension n = 2
Für n = 2 gilt
pA = det(A − XEn ) =
a11 − X
a12
a21
a22 − X
= (a11 − X) (a22 − X) − a12 a21 =
X 2 − (a11 + a22 ) X + a11 a22 − a12 a21 = X 2 − spur(A) X + det(A).
Ist K = ⺢, so entscheidet die Diskriminante d = spur(A)2 − 4 det(A) über die Existenz
von Eigenwerten:
Ist d < 0, so hat A keine Eigenwerte.
Ist d = 0, so ist spur(A)/2 der einzige Eigenwert von A.
Ist d > 0, so hat A die zwei Eigenwerte λ1,2 = (spur(A) ± 兹d)/2.
Für die in 8. 2 betrachtete Matrix A =
1 2
1 1
∈ ⺢2 × 2 ist d = 8 und wir erhalten
pA = X2 − 2X − 1 = (X − (1 + w)) (X − (1 − w)) mit w = 兹2.
Zugehörige Eigenvektoren kann man nun durch Lösen der Gleichungssysteme
(A − (1 + w) E2 ) x = 0,
(A − (1 − w) E2 ) x = 0
finden. Die Eigenräume sind Geraden durch 0.
206
8. Eigenwerte
8. 4 Das Diagonalisierbarkeitskriterium
Satz (Diagonalisierbarkeitskriterium, Übereinstimmung der Vielfachheiten)
Seien V ein n-dimensionaler K-Vektorraum und f : V → V ein Endomorphismus.
Dann sind äquivalent:
(a) f ist diagonalisierbar.
(b) Das charakteristische Polynom pf ∈ K[ X ] von f zerfällt in Linearfaktoren,
pf = (−1)n (X − λ1 ) μ1 (X − λ2 ) μ2 … (X − λk ) μk , mit λi ≠ λj für i ≠ j,
und für alle Eigenwerte λ von f ist die geometrische Vielfachheit von λ gleich
der algebraischen Vielfachheit von λ als Nullstelle von pf :
dim(Eig(f, λ i )) = μ i für alle 1 ≤ i ≤ k.
Wir wissen, dass die Nullstellen von pf die Eigenwerte von f sind: σ(f ) = { λ | pf (λ) = 0 }.
Weiter wissen wir, dass f genau dann diagonalisierbar ist, wenn V die direkte Summe aller
Eigenräume ist. Die Diagonalisierbarkeit von f ist also gleichwertig zu
∑ λ ∈ σ(f ) dim(Eig(f, λ)) = n.
Gilt (b) wie im Satz, so ist dies erfüllt, da dann
∑ λ ∈ σ(f ) dim(Eig(f, λ)) = ∑ 1 ≤ i ≤ k μi = n.
Um auch „(a) impliziert (b)“ zu zeigen, beobachten wir, dass für alle Endomorphismen f
und alle Eigenwerte λ von f unabhängig vom Zerfallen von pf in Linearfaktoren gilt:
Die geometrische Vielfachheit von λ ist kleinergleich der
algebraischen Vielfachheit der Nullstelle λ von pf .
Um die Ungleichung einzusehen, ergänzen wir eine Basis (v1 , …, vk ) von Eig(f, λ) zu
einer Basis Ꮽ = (v1 , …, vn ) von V. Dann hat die darstellende Matrix von f bzgl. Ꮽ die
Blockform
A =
λ Ek
B
0
C
,
k = dim(Eig(f , λ)).
Da wir zur Berechnung von pf eine beliebige darstellende Matrix verwenden können, ist
pf = det(A − XEn ) = det(λEk − XEk ) det(C − XEn − k ) = (λ − X)k pC , sodass k ≤ μpf (λ).
Ist f diagonalisierbar, so gilt also
n = ∑ λ ∈ σ(f ) dim(Eig(f, λ)) ≤ ∑ pf(λ) = 0 μpf (λ) ≤ n.
Dies ist nur möglich, wenn μpf (λ) = dim(Eig(f, λ)) für alle λ ∈ σ(f ), sodass (b) gilt.
8. 4 Das Diagonalisierbarkeitskriterium
207
In ⺓ zerfällt jedes Polynom in Linearfaktoren (Fundamentalsatz der Algebra, vgl. 2.12).
Damit erhalten wir:
Diagonalisierbarkeitskriterium für Endomorphismen f : ⺓ → ⺓
f ist genau dann diagonalisierbar, wenn dim(Eig(f, λ)) = μpf (λ) für alle λ ∈ σ(f ).
Die folgenden Beispiele zeigen, dass die geometrische Vielfachheit echt kleiner sein
kann als die algebraische Vielfachheit.
Beispiele
(1) Für ε ≥ 0 sei
A(ε) =
0
ε+1
ε −1
2
0
pA(ε) = det
w(1/8)
w(1/3)
w(1/2)
.
Es gilt
−X
v(ε)
1
ε+1
ε −1 2 − X
=
0
1
2
3
v(ε) = (1, 1) ≠ w(ε) für ε > 0, v(0) = w(0)
(X − 1)2 − ε2 ,
sodass σ(A(ε)) = { 1 + ε, 1 − ε } mit Eigenvektoren
v(ε) = (1, 1), w(ε) = ((1 + ε)/(1 − ε), 1)).
Im Grenzfall ε = 0 erhalten wir eine doppelte Nullstelle des charakteristischen
Polynoms, deren geometrische Vielfachheit gleich 1 ist.
(2) Seien a, b, c ∈ ⺢. Für die obere Dreiecksmatrix
A =
a
b
0
c
∈ ⺢2 × 2
ist pf = (a − X) (c − X). Damit gilt σ(f ) = { a, c }. Ist a ≠ c, so ist A diagonalisierbar;
die Vektoren v1 = e1 = (1, 0) und v2 = (b/(c − a), 1) bilden eine Eigenbasis.
Ist a = c, so ist a eine doppelte Nullstelle von pf und
dim(Eig(A, a)) = dim Kern(A − a E2 ) = 2 − rang
0
b
0
0
∈ { 1, 2 }.
Im Fall a = c ist also A genau dann diagonalisierbar, wenn b = 0. Für b = 0 sind
e1 und e2 Eigenvektoren, für b ≠ 0 ist Eig(A, a) = span(e1 ).
208
8. Eigenwerte
8. 5 Die Trigonalisierung
Satz (Trigonalisierungssatz, Schur-Zerlegung)
Seien V ein n-dimensionaler K-Vektorraum, n ≥ 1, und f : V → V ein Endomorphismus. Dann sind äquivalent:
(a) V besitzt eine Basis Ꮽ derart, dass die darstellende Matrix A von f bzgl. Ꮽ
eine obere Dreiecksmatrix ist.
(Schur-Zerlegung)
(b) Das charakteristische Polynom
pf zerfällt in Linearfaktoren.
Ist A wie in (a), so stehen auf der
Diagonale von A die Eigenwerte
von f. Genauer gilt: a11 , …, ann ist
eine Aufzählung der Eigenwerte
von f, in der jeder Eigenwert λ
genau μf (λ) mal erscheint.
Insbesondere ist
A =
det(f ) = det(A) = a11 … ann .
λ1
a12
a13
a14
a15
a16
0
λ1
a23
a24
a25
a26
0
0
λ1
a34
a35
a36
0
0
0
λ2
a45
a46
0
0
0
0
λ2
a56
0
0
0
0
0
λ3
pA = (−1)6 (X − λ1 )3 (X − λ2 )2 (X − λ3 )
λ1 , λ2 , λ3 paarweise verschieden
Wir wissen, dass f genau dann diagonalisierbar ist, wenn pf in Linearfaktoren zerfällt und die algebraischen und geometrischen Vielfachheiten übereinstimmen
(vgl. 8. 4). Lassen wir die Vielfachheitsforderung fallen, so erhalten wir Trigonalisierbarkeit (Darstellbarkeit durch eine Dreiecksmatrix).
Im Fall K = ⺓ ist (b) immer erfüllt. Damit kann also jeder Endomorphismus V eines
endlich-dimensionalen ⺓-Vektorraums durch eine obere Dreiecksmatrix dargestellt werden. Allgemeiner gilt dies für jeden algebraisch abgeschlossenen Körper, etwa den Körper
K = ⺑ der algebraischen Zahlen.
Für Matrizen lautet das Ergebnis:
Ist K ein Körper, n ≥ 1 und A ∈ Kn × n beliebig, so sind äquivalent:
(a) Es gibt ein S ∈ GL(n, K), sodass S A S−1 eine obere Dreiecksmatrix ist.
(b) pA zerfällt in Linearfaktoren.
Ist A wie (a), so können wir A zur Berechnung von pf verwenden. Da die Determinante
einer Dreiecksmatrix das Produkt ihrer Diagonaleinträge ist, gilt
pf = det(A − XEn ) = (a11 − X) … (ann − X),
sodass pf in Linearfaktoren zerfällt. Diese Überlegung zeigt auch die Behauptung über die
Diagonaleinträge von A. Die Implikation von (b) nach (a) lässt sich durch Induktion über
die Dimension von V konstruktiv beweisen:
8. 5 Die Trigonalisierung
209
Konstruktion der Basis Ꮽ und der Dreiecksmatrix A
Im Fall n = 1 ist die 1 × 1-Matrix A mit a11 = λ1 wie gewünscht, wobei pf = λ1 − X.
Im Induktionsschritt von n − 1 nach n sei λ1 ein Eigenwert und v1 ein zugehöriger
Eigenvektor von f. Weiter sei Ꮾ = (v1 , u2 , …, un ) eine Basis von V. Die f bzgl. Ꮾ darstellende Matrix hat in der ersten Spalte die gewünschte Form
B =
λ1 b12 … b1n
0
mit B′ ∈ K(n − 1) × (n − 1) .
B′
Wir setzen U = span(u2 , …, un ) ⊆ V und definieren g : U → U durch
g(uj ) = f(uj ) − b1j v1 = b2j u2 + … + bnj un für alle 2 ≤ j ≤ n.
Es gilt pf = (λ1 − X) pg , sodass pg in Linearfaktoren zerfällt. Nach Induktionsvoraussetzung gibt es eine Basis Ꮽ′ = (v2 , …, vn ) von U derart, dass die darstellende Matrix
A′ ∈ K(n − 1) × (n − 1) von g bzgl. Ꮽ′ eine obere Dreiecksmatrix ist. Nun ist Ꮽ = (v1 , …, vn )
wie gewünscht, denn die darstellende Matrix von f bzgl. Ꮽ hat die Form
A =
λ1 a12 … a1n
0
A′
.
Beispiel
Wir betrachten den nicht diagonalisierbaren Endomorphismus fC : ⺢3 → ⺢3 mit
0 −1 0
C =
1 2 0
, pC = − (X − 1)3 , σ(f ) = { 1 }, μpC (1) = 3, dim(Eig(C, 1)) = 1.
0 1 1
Den Eigenvektor v1 = e3 zum Eigenwert λ1 = 1 ergänzen wir durch u2 = e1 , u3 = e2
zur Basis Ꮾ = (v1 , u2 , u3 ) = (e3 , e1 , e2 ) des ⺢3 . Dann ist
B =
λ1 b12 b13
0
B′
1 0 1
=
0 0 −1 , B′ =
0 1 2
0 −1
1 2
die darstellende Matrix von fC bzgl. Ꮾ. Seien U = span(e1 , e2 ) und g : U → U mit
g(e1 ) = e2 , g(e2 ) = − e1 + 2e2 . Dann hat g den Eigenvektor w1 = (1, −1, 0) zum Eigenwert
1 und wird bzgl. der Basis Ꮽ′ = (w1 , e1 ) von U ⊆ ⺢3 durch die Dreiecksmatrix
A′ =
1 −1
0
1
dargestellt. Die darstellende Matrix von fC bzgl. Ꮽ = (v1 , w1 , e1 ) ist
0 1 1
1 −1 0
A =
0 1 −1
0 0 1
= SCS
−1
mit S
−1
=
v1 w 1 e1
=
0 −1 0
1 0 0
.
210
8. Eigenwerte
8. 6 Der Spektralsatz
Satz (Spektralsatz)
Spektralsatz für selbstadjungierte Endomorphismen
Seien V ein euklidischer oder unitärer n-dimensionaler Vektorraum und
f : V → V ein Endomorphismus. Dann sind äquivalent:
(a) f = f *, d. h., es gilt 〈f(v), w〉 = 〈v, f(w)〉 für alle v, w ∈ V.
(b) σ(f ) ⊆ ⺢ und V besitzt eine Orthonormalbasis aus Eigenvektoren von f.
Spektralsatz für symmetrische bzw. hermitesche Matrizen
Seien n ≥ 1 und A ∈ ⺢n × n bzw. A ∈ ⺓n × n . Dann sind äquivalent:
(a) A = A* (im Fall K = ⺢ also A = At ).
(b) σ(f ) ⊆ ⺢ und es gibt eine orthogonale bzw. unitäre Matrix S derart, dass
S A S−1 diagonal ist.
Selbstadjungierte Endomorphismen sind also nicht nur diagonalisierbar, sondern sogar
orthogonal diagonalisierbar: Es gibt eine Eigenbasis, die eine Orthonormalbasis von V ist.
In der Sprache der Matrizen bedeutet dies: Eine hermitesche Matrix A ist nicht nur ähnlich zu einer Diagonalmatrix D = diag(λ1 , …, λn ), sondern der Übergang D = S A S−1 kann
sogar mit einer orthogonalen bzw. unitären Matrix S erreicht werden, sodass S−1 = S*.
Beweis des Spektralsatzes für K = ⺓
Ist f selbstadjungiert, λ ∈ σ(f ) und v ein Eigenvektor von f zum Eigenwert λ, so gilt
λ 〈v, v〉 = 〈v, λv〉 = 〈v, f(v)〉 = 〈f(v), v〉 = 〈λv, v〉 = λ 〈v, v〉 mit 〈v, v〉 ≠ 0,
sodass λ = λ und damit λ ∈ ⺢. Das Polynom pf hat in ⺓ eine Nullstelle, und diese ist
nach dem Gezeigten reell. Mit diesen Beobachtungen kann durch Induktion nach n
bewiesen werden, dass V eine Orthonormalbasis aus Eigenvektoren besitzt. Im Induktionsschritt von n − 1 nach n betrachten wir λ und v ≠ 0 mit f(v) = λv und setzen
U = span(v) ⊥ = { u ∈ V | 〈u, v〉 = 0 }.
Für alle u ∈ U gilt
〈f(u), v〉 = 〈u, f(v)〉 = 〈u, λv〉 = λ 〈u, v〉 = 0,
sodass f [ U ] ⊆ U. Damit ist f|U : U → U ein selbstadjungierter Endomorphismus,
der nach Induktionsvoraussetzung eine Orthonormalbasis aus Eigenvektoren besitzt.
Ergänzen wir eine solche Basis um v, so erhalten wir wegen V = U ⊕ span(v) eine Orthonormalbasis aus Eigenvektoren von f für ganz V.
Ist umgekehrt (v1 , …, vn ) eine Orthonormalbasis von V aus Eigenvektoren von f, so ist
〈f(vi ), vj 〉 = 〈λi vi , vj 〉 = λi 〈vi , vj 〉 = λi δij = 〈vi , λj vj 〉 = 〈vi , f(vj )〉 für alle i, j.
Hieraus ergibt sich, dass f selbstadjungiert ist.
8. 6 Der Spektralsatz
211
Beispiel
Seien a, b ∈ ⺢ mit a2 + b2 = 1. Weiter sei α der von (a, b) und (1, 0) eingeschlossene
Winkel. Dann beschreibt die symmetrische Matrix
A =
a
b
b −a
=
cos α
sin α
∈ O(2), det(A) = −1,
sin α − cos α
die Spiegelung an der Geraden G
durch 0 mit dem Winkel β = α/2
(vgl. 7. 8). Damit hat A die Eigenwerte λ1, 2 = ±1 und zugehörige
normierte Eigenvektoren
G
1
b
v2
v1 = N(a + 1, b) = (cos β, sin β),
1
v1
v2 = N(− b, a + 1) = (− sin β, cos β),
β
mit N(v) = v/ 储 v 储 . Ist T die Matrix
mit den Spalten v1 und v2 , so ist T
die Drehmatrix in SO(2) um den
Winkel β. Für S = T −1 = T t gilt also
S A S−1 =
cos β
sin β
− sin β cos β
a
b
cos β
− sin β
b −a
sin β
cos β
a
1
=
1
0
0 −1
a+1
.
Schreibt man eine beliebige symmetrische Matrix B ∈ ⺢2 × 2 als
B = diag(d, d) + r A, mit d = spur(B)/2, r = 储 (b11 − b22 )/2, b21 ) 储 ,
so hat A die gerade untersuchte Form. Man kann nun ablesen, dass B die Eigenwerte
d ± r und die Eigenvektoren v1 , v2 wie oben besitzt.
Der Spektralsatz für normale Endomorphismen und Matrizen
Für K = ⺢ ist σ(f ) ⊆ ⺢ immer richtig, sodass die Existenz einer orthonormalen
Eigenbasis äquivalent zur Selbstadjungiertheit von f ist. Für K = ⺓ liefert das
Streichen von „σ(f ) ⊆ ⺢“ in (b) eine echte Abschwächung, die sich ebenfalls durch
eine Adjungiertheits-Bedingung einfangen lässt. Zur Motivation beobachten wir:
Für alle f ∈ End(V) sind f ⴰ f * und f * ⴰ f selbstadjungiert. Im Allgemeinen ist aber
f ⴰ f * ≠ f * ⴰ f. Man nennt f normal, falls f ⴰ f * = f * ⴰ f. Gleichwertig dazu ist, dass
〈f(v), f(w)〉 = 〈f *(v), f *(w)〉 für alle v, w ∈ V. Wichtige Beispiele neben den selbstadjungierten Endomorphismen sind unitäre f, da dann f ⴰ f * = f ⴰ f −1 = f −1 ⴰ f = f * ⴰ f.
Äquivalent sind nun:
(a) f ist normal. (b) V besitzt eine Orthonormalbasis aus Eigenvektoren von f.
Analog nennt man eine Matrix A ∈ ⺓n × n normal, falls A A* = A* A. Die Normalität
von A ∈ ⺓n × n ist äquivalent zur Existenz einer unitären Matrix S, für die SAS−1
diagonal ist. Normalität für reelle Matrizen diskutieren wir im Überblick 10.
212
8. Eigenwerte
8. 7 Hauptachsentransformation und Trägheitssatz
Satz (Hauptachsentransformation, Trägheitssatz von Sylvester)
Sei K = ⺢ oder K = ⺓, und sei A ∈ Kn × n symmetrisch bzw. hermitesch mit Eigenwerten λ1 , …, λn ∈ ⺢. Dann gilt (mit dem kanonischen Skalarprodukt):
Hauptachsentransformation, Version I
Es gibt eine Orthonormalbasis (x1 , …, x n ) des Kn mit 〈x i , Ax j 〉 = λi δij für alle i, j.
Hauptachsentransformation, Version II
Es gibt eine Orthogonalbasis (y1 , …, yn ) des Kn mit 〈yi , Ayj 〉 = αi δij für alle i,j,
wobei αi = sgn(λi ) ∈ { −1, 0, 1 }.
Trägheitssatz von Sylvester
Ist (v1 , …, vn ) eine Orthogonalbasis des Kn bzgl. 〈⋅, A ⋅〉 (d. h. (v1 , …, vn ) ist eine
Basis des Kn mit 〈vi , Avj 〉 = 0 für i ≠ j), so gilt
(+) |{ i | 〈vi , Avi 〉 ♦ 0 }| = |{ i | λ i ♦ 0 }|, wobei ♦ ∈ { >, <, = }.
Weiter gilt: Für alle S ∈ GL(n, K) haben A und S*AS dieselben (in ihrer
Vielfachheit gezählten) Anzahlen an positiven und negativen Eigenwerten.
Die Hauptachsentransformation ergibt sich aus dem Spektralsatz: Ist (x 1 , …, x n ) eine
Orthonormalbasis des Kn mit Ax i = λi x i für alle i, so gilt Version I. Version II erhält man
durch Setzen von
yi =
1
兹|λi |
x i für λi ≠ 0,
yi = xi sonst.
Die Normierungseigenschaft 〈yi , Ayi 〉 ∈ { 1, 0, −1 } gewinnt man also auf Kosten der Normiertheit der yi .
Für den Trägheitssatz sind zusätzliche Argumente nötig. Wir begnügen uns hier mit einem Beispiel zur Illustration der Voraussetzung des Satzes:
Beispiel
Die Matrix A ∈ ⺢2 × 2 rechts hat die Eigenwerte
λ1,2 = ± 兹2. Für die Basis (v1 , v2 ) des ⺢2 mit
v 1 = (1, 0) und v 2 = (1, 1) gilt 〈v 1 , Av 1 〉 = 1 und
〈v 2 , Av 2 〉 = 2. Dies zeigt, dass (+) ohne die Orthogonalitätsvoraussetzung verletzt sein kann.
A =
1
1
1 −1
pA = X2 − 2
Bezeichnen s+ , s− , s0 die Anzahlen der positiven, negativen bzw. Null-Eigenwerte von
A, so heißt (s+ , s− ) die Signatur oder der Typ von A (s0 berechnet sich durch n − s+ − s− ).
Der Trägheitssatz besagt, dass A und B = S*AS für alle S ∈ GL(n, K) dieselbe Signatur
haben (nicht nur für orthogonale bzw. unitäre S, für die S* = S−1 gilt, sodass A und B
ähnlich sind und folglich dieselben Eigenwerte besitzen).
Wir betrachten einige Anwendungen.
8. 7 Hauptachsentransformation und Trägheitssatz
213
1. Eigenwertkriterium für positive Definitheit
Eine symmetrische bzw. hermitesche Matrix A ∈Kn × n ist genau dann positiv definit,
wenn alle Eigenwerte λ1 , …, λn positiv sind. Denn ist (x1 , …, xn ) wie in der Hauptachsentransformation I und x = ∑ i αi xi ∈ Kn , so ist
〈x, Ax〉 = ∑ i λi |αi |2 .
Die Summe rechts ist genau dann für alle x ≠ 0 positiv, wenn alle λi positiv sind.
2. Kongruente Matrizen
Zwei Matrizen A, B des Kn × n mit K = ⺢ oder K = ⺓ heißen kongruent, wenn es ein
S ∈ GL(n, K) gibt mit B = S*AS. Die Hauptachsentransformation II zeigt: Jede symmetrische bzw. hermitesche Matrix A ist kongruent zu einer Diagonalmatrix der
Form D = diag(1, …, 1, −1, …, −1, 0, …, 0) mit s+ , s− bzw. s0 Einträgen 1, −1 bzw. 0.
Ein S mit D = S*AS wird aus geeignet angeordneten Basisvektoren yi gebildet.
3. Quadriken
Eine Funktion q : ⺢n → ⺢ heißt quadratisch, falls es eine symmetrische Matrix
A ∈ ⺢n × n , A ≠ 0, einen Vektor b ∈ ⺢n und einen Skalar c ∈ ⺢ gibt mit
q(x) = 〈x, Ax〉 + 〈b, x〉 + c für alle x ∈ ⺢n (mit dem kanonischen Skalarprodukt).
Die Menge Q(q) = { x ∈ ⺢n | q(x) = 0 } heißt die durch q definierte Quadrik des ⺢n .
Die Hauptachsentransformation liefert ein S ∈ SO(n) (mit Eigenvektoren von A als
Spalten), sodass Q(q) für einen gewissen Translationsvektor v ∈ ⺢n in die Quadrik
Q(p) = { S t (x + v) | x ∈ Q(q) } übergeht, mit
p(x) = 〈x, D x〉 + 〈(0, …, 0, br′+ 1 , …, bn′ ), x〉 oder p(x) = 〈x, D x〉 + c′,
wobei r = rang(A) = s+ + s− ,
D = diag(λ1 , …, λr , 0, …, 0).
Mit Hilfe dieser Normalformdarstellung lassen sich
Quadriken klassifizieren.
Für n = 2 ergeben sich Kegelschnitte (Überblick 9).
3
q(x) =
Q(q)
2
1
0
1
2
v2
v1
〈x, Ax〉 + 〈b, x〉 + c
mit
A =
3 1
1 −2
b = (3, −2), c = 1
4. Übertragung auf
und Eigenvektoren
3
v1 , v2 von A
Sesquilinearformen
3 2 1 0
1
2
3
Für eine symmetrische
bzw. hermitesche Form
ϕ : V × V → K und eine Basis Ꮽ = (v1 , …, vn ) von V gilt nach 6. 12
ϕ(v, w) = 〈vᏭ , Aϕ wᏭ 〉 kanonisch für alle v, w ∈ V,
Aϕ (i, j) = ϕ(vi , vj ), Aϕ = Aϕ*.
Die Hauptachsentransformation liefert: Es gibt eine Basis Ꮽ von V, die eine Orthogonalbasis bzgl. ϕ ist, d. h., Aϕ ist diagonal. Ist V mit einem Skalarprodukt versehen, so
kann Ꮽ als Orthonormalbasis von V gewählt werden. Der Trägheitssatz liefert: Die
Anzahlen der i mit ϕ(vi , vi ) ♦ 0 sind für jede Orthogonalbasis Ꮽ von V bzgl. ϕ gleich.
214
8. Eigenwerte
8. 8 Die Singulärwertzerlegung
Satz (Singulärwertzerlegung)
Seien V, W endlich-dimensionale euklidische oder unitäre Vektorräume, n = dim(V),
m = dim(W). Weiter sei f : V → W ein Homomorphismus. Dann gibt es Orthonormalbasen Ꮽ und Ꮾ von V bzw. W derart, dass die darstellende Matrix A ∈ Km × n von
f bzgl. Ꮽ, Ꮾ von der rechteckig diagonalen Form
A =
diag(σ1 , …, σr )
0
0
0
ist, mit r = dim(Bild(f)) und reellen bis auf die Reihenfolge eindeutig bestimmten
Diagonaleinträgen σ1 , …, σr > 0.
Die Diagonaleinträge
σ1 > 0, …, σr > 0, σr + 1 = ar + 1, r + 1 = 0, …, σn′ = an′, n′ = 0
mit n′ = min(m, n) heißen die Singulärwerte von f.
Im Unterschied zur in 5. 4 erreichten Normalformdarstellung (mit der Matrix Er oben
links) verlangen wir hier Orthonormalbasen, was die Konstruktion erschwert. Im Gegensatz zum Normalformproblem für Endomorphismen sind in der Singulärwertzerlegung
jedoch unterschiedliche Basen links und rechts zugelassen (auch im Fall V = W), was die
Aufgabe erleichtert. Der folgende Beweis zeigt, wie sich die Singulärwertzerlegung aus
einer durch den Spektralsatz gelieferten Orthonormalbasis von f * ⴰ f ergibt.
Konstruktion der Singulärwertzerlegung
Der Endomorphismus f * ⴰ f : V → V ist selbstadjungiert, sodass nach dem
Spektralsatz eine Orthonormalbasis Ꮽ = (v1 , …, vn ) aus Eigenvektoren von f * ⴰ f
existiert. Für die zugehörigen Eigenwerte λ1 , …, λn gilt
λ j = 〈vj , f *(f(vj ))〉V = 〈f(vj ), f(vj )〉W ≥ 0 für alle 1 ≤ j ≤ n.
Durch Umordnung erreichen wir, dass λ1 , …, λr > 0, λr + 1 = … = λn = 0 für
r = dim(Bild(f * ⴰ f )) = dim(Bild(f )) ≤ min(m, n).
Wir setzen nun
σj = 兹λj ,
wj =
f(vj )
σj
für 1 ≤ j ≤ r.
Für die Vektoren w1 , …, wr gilt
〈wj , wk 〉W =
〈f(vj ), f(vk )〉W
σ j σk
=
〈vj , f *(f (vk ))〉V
σj σ k
=
λk
〈vj , vk 〉V = δjk .
σj σ k
Ergänzen wir sie zu einer Orthonormalbasis Ꮾ von W, so gilt 〈wi , f(vj )〉W = σj δij für
alle 1 ≤ i ≤ m, 1 ≤ j ≤ n, sodass A = Af bzgl. Ꮽ, Ꮾ die gewünschte Form hat.
8. 8 Die Singulärwertzerlegung
215
Wir formulieren das Ergebnis noch explizit für Matrizen. Dabei notieren wir Matrizen
A ∈ Km × n der Form des Satzes kurz als diag(σ1 , …, σr , 0, …, 0).
Singulärwertzerlegung für Matrizen
Für alle A ∈ ⺢m × n gibt es S, T ∈ O(n) mit
S A T t = S A T −1 = diag(σ1 , …, σr , 0, …, 0) ∈ ⺢m × n mit positiven σj .
Für alle A ∈ ⺓m × n gibt es S, T ∈ U(n) mit
S A T* = S A T−1 = diag(σ1 , …, σr , 0, …, 0) ∈ ⺓m × n mit positiven σj .
Die Determinante von f
Ist V = W, so ist det(f) definiert.
Ist S die orthogonale bzw. unitäre Transformationsmatrix des
Basiswechsels von Ꮾ nach Ꮽ, so
ist A′ = SA die darstellende
Matrix von f bzgl. Ꮽ, Ꮽ. Folglich ist
A
Kn
ΦᏮ
ΦᏭ
En
f
V
ΦᏭ
det(f ) = det(SA) = det(S) det(A) =
det(S) σ1 … σn = ± σ1 … σn .
Kn
V
S
ΦᏭ
A′
Kn
Kn
Beispiel
Wir betrachten den ⺢2 mit dem
kanonischen Skalarprodukt. Sei f = fA : ⺢2 → ⺢2 mit
A =
1
1
−1 1
, sodass At A =
2
0
0
2
= 2 E2 .
Dann hat die Matrix A keine Eigenwerte. Die Abbildung f * ⴰ f : ⺢2 → ⺢2 erfüllt
(f * ⴰ f )(x) = At A x = 2x für alle x, hat also die Eigenwerte λ1, 2 = 2 und die
orthonormale Eigenbasis Ꮽ = (e1 , e2 ). Wir setzen
σ1, 2 = 兹2, α = 1/兹2, w1 = α f(e1 ) = α (1, −1), w2 = α f(e2 ) = α (1, 1).
Die darstellende Matrix von f bzgl. der Orthonormalbasen Ꮽ und Ꮾ = (w1 , w2 ) ist
diag(σ1 , σ2 ). Die zugehörige Matrizenversion lautet
S A Tt =
α −α
1
1
1
0
α
−1 1
0
1
α
=
兹2
0
0
兹2
= diag(σ1 , σ2 ),
wobei die Spalten von St , T t ∈ O(2) aus den Vektoren in Ꮾ bzw. Ꮽ gebildet sind.
216
8. Eigenwerte
8. 9 Lineare Abbildungen und Ellipsen
Satz (Bild eines Kreises unter einer linearen Abbildung)
Seien S1 = { x ∈ ⺢2 | x12 + x22 = 1 } der Einheitskreis im ⺢2 und A ∈ ⺢2 × 2 . Dann ist
EA = { Ax | x ∈ S1 }
eine Ellipse. Die Singulärwerte a, b von A sind die Längen der Halbachsen von EA .
Ist A = PDQ mit D = diag(a, b) und Q, P ∈ O(2), so zeigen die Spalten p1 , p2 von P
in die Richtungen der Halbachsen.
Aus der Definition von fA (x) = Ax ergibt sich, dass fA das von e1 und e2 aufgespannte
Quadrat in das von f(e1 ) und f(e2 ) aufgespannte Parallelogramm verwandelt. Dass das Bild
des Einheitskreises unter fA eine Ellipse ist, ist elementar nur für spezielle Matrizen leicht
einzusehen. Für orthogonale Matrizen (Drehungen und Spiegelungen) ist nichts zu zeigen, da das Bild des Einheitskreises hier wieder der Einheitskreis ist. Für eine Diagonalmatrix D = diag(a, b) ist die Aussage ebenfalls klar. Denn es gilt
ED = { D x | x ∈ S1 } = { (a x1 , b x2 ) | x ∈ S1 } = { (a cos t, b sin t) | t ∈ [ 0, 2π [ },
und die rechte Seite ist die parametrisierte Darstellung einer achsenparallelen Ellipse mit
den Halbachsen a und b (die auch 0 sein können, sodass die Ellipse degeneriert ist). Im Fall
a, b > 0 erhalten wir die äquivalente Darstellung
y 2
x 2
+
ED =
(x, y) ∈ ⺢2
= 1 .
a
b
{
}
Mit Hilfe der Singulärwertzerlegung können wir nun allgemein zeigen, dass jede beliebige lineare Abbildung Kreise in Ellipsen verwandelt (wegen fA (αx) = α fA (x) genügt es,
dies für S1 zu beweisen). Zudem erkennen wir die geometrische Bedeutung der Singulärwerte.
Beweis des Satzes
Sei A ∈ ⺢2 × 2 , und seien a, b ≥ 0 die Singulärwerte von fA . Weiter sei D = diag(a, b).
Die Singulärwertzerlegung liefert P, Q ∈ O(2) mit
(+) A = P D Q.
Da Q orthogonal ist, gilt f Q [ S1 ] = S1 . Nach (+) gilt also
EA = { A x | x ∈ S1 } = { P D Q x | x ∈ S1 } = { P D x | x ∈ S1 } = f P [ ED ].
Wegen P ∈ O(2) ist P entweder eine Drehung oder eine Spiegelung an einer Geraden durch den Nullpunkt. In beiden Fällen ist f P [ E ] eine Ellipse mit Mittelpunkt 0,
deren Halbachsen durch die Vektoren
a (cos α, sin α), b (− sinα, cos α)
gegeben sind. Dabei ist α der Drehwinkel bzw. das Doppelte des Winkels, den die
Spiegelungsgerade mit der x-Achse einschließt.
8. 9 Lineare Abbildungen und Ellipsen
Beispiel
Wir betrachten die Drehmatrizen
2
v2
cos α − sin α
R(α) =
sin α
217
v1
w2
cos α
in SO(2) und definieren
A = R(− π/6) diag(1, 2) R(π/3) =
1
4
3 兹3
−1
5
3 兹3
2
2
w1
.
Die Matrix A beschreibt eine
2
Drehung um 60 Grad, gefolgt
von einer Streckung um den
v1 , v2 sind die Spalten von A; w1 , w2 die von R(−π/6)
Faktor 2 in y-Richtung und
einer Drehung um −30 Grad.
Die Singulärwerte von A sind 1 und 2. Das Bild von S1 unter fA ist eine Ellipse mit
Halbachsenlängen 1 und 2, die in die Richtung der Spalten von R(− π/6) zeigen.
Das Ergebnis lässt sich wie folgt verallgemeinern:
Bild der Sphäre unter einer linearen Abbildung
Sei Sn − 1 = { x ∈ ⺢n | 储 x 储 = 1 } die (euklidische) Einheitssphäre im ⺢n , wobei n ≥ 1.
Weiter sei A ∈ ⺢n × n . Dann ist EA = { Ax | x ∈ Sn − 1 } ein n-dimensionales Ellipsoid.
Sind σ1 , …, σn ≥ 0 die Singulärwerte von A, und ist A = PDQ mit D = diag(σ1 , …, σn )
und Q, P ∈ O(n), so haben die Halbachsen von EA die Längen σ1 , …, σn . Die Spalten
p1 , …, pn von P zeigen in die Richtungen der Halbachsen.
Beispiel
Sei Rx (α) ∈ SO(3) die Drehung
um α um die x-Achse. Wir setzen
A = R(− π/3) diag(1, 2, 3) =
1
0
0
1
0
−兹3
3
3
3
0
3兹3/2 .
3/2
3
3
x
3
Die Matrix A beschreibt eine
Streckung um die Faktoren
1, 2, 3 in x, y, z, gefolgt von einer Drehung um −60 Grad um die x-Achse. Das Bild
von S2 unter fA ist ein Ellipsoid mit Halbachsenlängen 1, 2, 3.
218
8. Eigenwerte
8. 10 Minimalpolynome und der Satz von Cayley-Hamilton
Satz (Existenz des Minimalpolynoms, Satz von Cayley-Hamilton)
Seien K ein Körper, n ≥ 1, A ∈ Kn × n und
IA = { p ∈ K[ X ] | p(A) = 0 }.
Dann gibt es genau ein Polynom mA ∈ IA mit
(+) mA ist normiert und IA = { q mA | q ∈ K[ X ] }.
(Existenz des Minimalpolynoms)
Weiter gilt pA ∈ IA , d. h. pA (A) = 0.
pA
(Satz von Cayley-Hamilton)
Zerfällt pA in Linearfaktoren, so hat mA Exponenten νi mit
= ± (X − λ1 )μ1 … (X − λk )μk
1 ≤ νi ≤ μi . Ist A diagonalisierbar, so gilt νi = 1 für alle i.
mA = (X − λ1 )ν1 … (X − λk )νk
In 8. 11 werden wir die νi allgemein charakterisieren.
Während wir bislang Körperelemente in Polynome des Rings K[ X ] eingesetzt haben
(jedes α ∈ K und p ∈K[ X ] liefert ein p(α) ∈ K), so setzen wir nun quadratische Matrizen
einer bestimmten Dimension n in die Polynome von K[ X ] ein: Ist
p = α0 X0 + α1 X + … + αk Xk ∈ K[ X ],
so ist für alle A ∈ Kn × n die Auswertung p(A) definiert durch
p(A) = α0 En + α1 A + … + αk Ak ∈ Kn × n .
Nun halten wir ein Matrix A ∈ Kn × n fest und werten alle Polynome p ∈ K[X] an der Stelle
A aus. Die Menge IA aller p mit p(A) = 0 ist ein Ideal in K[X], d.h., IA ist eine Untergruppe
von (K[ X ], +) und für alle p ∈ IA und q ∈ K[ X ] ist qp ∈ IA . Zudem gilt IA ≠ { 0 }. Denn
der Vektorraum Kn × n hat die Dimension d = n2 , sodass (En , A, A2 , …, Ad ) linear abhängig
ist. Es gibt also eine nichttriviale Nulldarstellung
0 = α 0 E n + α1 A + … + αd Ad .
Also ist A eine Nullstelle von p = α0 + α1 X + … + αd Xd , 1 ≤ deg(p) ≤ n2 . Der Satz von
Cayley-Hamilton besagt stärker, dass ein Polynom p ≠ 0 vom Grad n in IA als Element
enthalten ist: A ist Nullstelle des charakteristischen Polynoms pA .
Beispiele
(1) Sei A ∈ K2 × 2 mit den Zeilen (a, b), (c, d). Wegen pA = X2 − spur(A)X + det(A) gilt
pA (A) =
a2 + bc
ab + bd
ac + cd
2
bc + d
− (a + d)
a b
c d
+ (ad − bc) E2 = 0.
(2) Ist D = diag(d1 , …, dn ), so ist pD = (d1 − X) ⋅ … ⋅ (dn − X). Damit ist
pD (D) = (d1 En − D) … (dn En − D) = diag(0, …, 0) = 0.
8. 10 Der Satz von Cayley-Hamilton
219
(3) Sind A, B ∈ Kn × n ähnlich, B = SAS−1 , so gilt Bk = S Ak S −1 für alle k ≥ 0.
Ist p = ∑ i ≤ k α i X i ∈ K[ X ], so gilt
p(B) = ∑ i ≤ k αk (S A S−1 )k = ∑ i ≤ k αk S Ak S−1 = S p(A) S−1 .
Damit sind p(A) und p(B) wieder ähnlich.
Das eindeutig bestimmte Polynom mA mit der Eigenschaft (+) des Satzes heißt das
Minimalpolynom von A. Wichtige Eigenschaften dieses Polynoms sind:
pA und mA haben dieselben Nullstellen:
σ(A) = { λ ∈ K | mA (λ) = 0 }.
A ist genau dann diagonalisierbar, wenn mA = ∏ λ ∈ σ(A) (X − λEn ).
Beispiele
(1) Für A ∈ ⺢4 × 4 rechts gilt
3
pA = (X − 1) (X − 2).
k
Also ist mA = (X − 1) (X − 2) mit k ∈ { 1, 2, 3 }.
Einsetzen zeigt, dass (A − E4 )(A − 2 E4 ) ≠ 0,
(A − E4 )2 (A − 2 E4 ) = 0. Damit gilt also
A =
1
0
3
5
0
1
1
4
0
0
1
2
0
0
0
2
mA = (X − 1)2 (X − 2).
(2) Sei P ∈ Kn × n eine Projektion, d. h., es gilt P2 = P. Dann gilt P2 − P = 0, sodass
X 2 − X = X (X − 1) ∈ IP . Damit ist das Minimalpolynom eines der drei
Polynome X, X − 1, X 2 − X.
(3) Ein A ∈ Kn × n heißt nilpotent, falls es ein k ≥ 1 gibt mit Ak = 0. Beispiele liefern
alle Dreiecksmatrizen, deren Diagonaleinträge alle null sind, etwa
0 1 1 1
A =
0 0 1 1
0 0 0 1
0 0 0 0
0 0 1 2
, A2 =
0 0 0 1
0 0 0 0
0 0 0 0
0 0 0 1
, A3 =
0 0 0 0
0 0 0 0
, A4 = 0.
0 0 0 0
Ist r minimal mit Ar = 0, so ist mA = X r , σ(A) = { 0 }, pA = (−1)n Xn . Ist A ≠ 0, so
ist r > 1 und damit A nicht diagonalisierbar.
Minimalpolynom eines Endomorphismus
Wie für das charakteristische Polynom kann man auch das Minimalpolynom mf
eines Endomorphismus f : V → V, V endlich-dimensional, definieren: Man setzt
mf = mA , wobei A die darstellende Matrix von f bzgl. einer beliebigen Basis von V ist.
220
8. Eigenwerte
8. 11 Haupträume und Hauptraumzerlegung
Definition (Index, Hauptraum, Hauptvektor)
Haupträume von Endomorphismen
Seien V ein n-dimensionaler K-Vektorraum, n ≥ 1, und f : V → V ein Endomorphismus. Weiter sei λ ∈ σ(f ). Dann setzen wir
Hk = Hk (f, λ) = Kern((f − λIdV )k ) für alle k ≥ 1,
i(λ) = i(f, λ) = min({ k ≥ 1 | Hk + 1 = Hk }),
(Index von f bzgl. λ)
(Hauptraum von f bzgl. λ)
H(f, λ) = Hi(λ) .
Die Elemente von H(f, λ) heißen die Hauptvektoren von f zum Eigenwert λ.
Haupträume für Matrizen
Für eine Matrix A ∈ Kn × n definieren wir
Hk (A, λ) = Hk (fA , λ), H(A, λ) = H(fA , λ).
Das Ziel dieses und des folgenden Abschnitts ist es, die Trigonalisierung eines Endomorphismus, dessen charakteristisches Polynom in Linearfaktoren zerfällt, noch zu verbessern.
Wir streben eine Darstellung durch eine obere Dreiecksmatrix an, deren Einträge außerhalb der Diagonalen und der Nebendiagonalen verschwinden. Das entscheidende Hilfsmittel hierzu ist die Verallgemeinerung von Eigenräumen zu Haupträumen. Es gilt
Eig(f, λ) = H1 ⊂ H2 ⊂ … ⊂ Hi(λ) = Hi(λ) + 1 = H(f, λ),
Bild(f − λ IdV ) ⊃ Bild((f − λ IdV )2 ) ⊃ … ⊃ Bild((f − λ IdV )i(λ) ).
Bis zum Index i(λ) liegen strikte Inklusionen vor. Aufgrund der endlichen Dimension von
V muss irgendwann Gleichheit eintreten. Wichtige Eigenschaften sind:
v ∈ H k + 1 genau dann, wenn f(v) − λv ∈ Hk
f [ Hk ] ⊆ Hk , f [ H(f, λ) ] ⊆ H(f, λ)
(Invarianz)
dim(H(f, λ)) = μpf (λ)
Der Index i(λ) ist der Exponent des Linearfaktors (X − λ) des Minimalpolynoms m f .
Sind U1 , …, Ui(λ) mit Hk = U1 ⊕ … ⊕ Uk für alle k, so ist dim(U1 ) ≥ … ≥ dim(Ui(λ) ).
V = H(f, λ) ⊕ Bild((f − λIdV )i(λ) )
Die letzte Eigenschaft ist die Keimzelle eines Beweises von:
8. 11 Haupträume und Hauptraumzerlegung
Satz (Hauptraumzerlegung)
Sei f : V → V wie oben. Zerfällt pf
in Linearfaktoren, so existiert eine
Basis von V bestehend aus Hauptvektoren von f und es gilt
A(λ1 )
A(λ2 )
…
A(λm )
V = ⊕λ ∈ σ(f ) H(f, λ).
Fügen wir Basen der verschiedenen Haupträume H(f, λ1), …, H(f, λm) aneinander, so erhalten wir eine Basis Ꮽ von V. Aufgrund der Invarianz der Haupträume hat die darstellende
Matrix von f bzgl. Ꮽ eine diagonale Blockform.
Es gilt A(λj ) ∈ Kμj × μj wobei μj = μpf (λj).
Beispiele
(1) Für die nicht diagonalisierbare
(2 × 2)-Matrix A aus 8. 4 gilt
A =
0 −1
1 2
221
, pA = (X − 1)2 ,
σ(A) = { 1 }, Eig(A, 1) = span(e1 − e2 ), Kern((A − E2 )2 ) = Kern(0) = ⺢2 .
Also ist i(1) = 2 und H(A, 1) = ⺢2 (wie es nach dem Satz auch sein muss, da nur
ein Eigenwert existiert). Jede Basis von ⺢2 ist eine Basis aus Hauptvektoren.
2
0
0
(2) Für A =
(A − 2E3 )
2
=
1
2
0
0
1
3
0
0
0
gilt pA = − (X − 2)2 (X − 3), σ(f ) = { 2, 3 },
0
0
0
1
1
1
= (A − 2E3 )3 ,
Eig(A, 2) = span(e1 ), H(A, 2) = span(e1 , e2 ),
Bild(A − 2E3 ) = span(e1 , e2 + e3 ), Bild((A − 2E3 )2 ) = span(e1 + e2 + e3 ),
Eig(A, 3) = H(A, 3) = span(e1 + e2 + e3 ), Bild(A − 3E3 ) = span(e1 , e2 ),
⺢3 = H(A, 2) ⊕ H(A, 3) = span(e1 , e2 ) ⊕ span(e1 + e2 + e3 ).
Das Beispiel zeigt, dass
2
1
0
Hk (A, λ) ∩ Bild((A − λEn )k ) ≠ { 0 }
0
2
0
für k < i(λ) gelten kann.
0
0
3
Ꮽ = (e1 , e2 , e1 + e2 + e3 )
ist eine Basis aus Hauptvektoren. Die Matrix
links stellt fA bzgl. Ꮽ dar.
(3) Sei A ∈ Kn × n diagonalisierbar. Dann gibt es ein S ∈ GL(n, K) mit
A = S diag(λ1 , …, λn ) S−1 , σ(A) = { λ1 , …, λn }.
Für alle λ und m ≥ 1 gilt (A − λEn )m = S diag((λ1 − λ)m , …, (λn − λ)m ) S−1 , sodass
Kern((A − λEn )m ) = Kern(A − λEn ). Damit ist i(λ) = 1 und H(A, λ) = Eig(A, λ)
für alle λ ∈ σ(A).
222
8. Eigenwerte
8. 12 Die Jordan-Normalform
Satz ( Konstruktion von Jordan-Ketten)
Seien V ein n-dimensionaler K-Vektorraum, f ∈ End(V), λ ∈ σ(f ) und U1 , …, Ui(λ)
Unterräume von V mit Hk = U1 ⊕ … ⊕ Uk für alle 1 ≤ k ≤ i(λ). Weiter seien
k ∈ { 1, …, i(λ) } und vk ∈ Uk beliebig. Sind dann vk − 1 ∈ Uk − 1 , …, v1 ∈ U1 rekursiv
definiert durch
vj − 1 = f(vj ) − λvj
λ
so ist Ꮽ = (v1 , …, vk ) linear unabhängig und es gilt f [W] ⊆ W für
W = span(Ꮽ) ⊆ Hk . Die darstellende Matrix Jk (λ) von f|W bzgl.
der Basis Ꮽ von W hat die bidiagonale Form rechts.
1
λ
Jk (λ) =
1
… …
λ
1
λ
Man nennt (v1 , …, vk ) die Jordan-Kette von f zum Startwert vk und Jk (λ) ∈ Kk × k einen
Jordan-Block. Durch Konstruktion von r = dim(Eig(f, λ)) Jordan-Ketten
(v1, 1 , …, v1, k(1) ), …, (vr, 1 , …, vr, k(r) ),
i(λ) = k(1) ≥ … ≥ k(r) ≥ 1,
k(1) + … + k(r) = μpf (λ),
erhält man eine Basis (λ) =
v1, 6
H1 = U1 = Eig(f, λ)
U6
Hk + 1 = Hk ⊕ Uk + 1
(v1, 1 , …, v1, k(1) , …, vr, 1 , …, vr, k(r) )
des Hauptraums H(f, λ). Die Startwerte v1, k(1) , …, vr, k(r) wählt man in
Uk mit k ≤ i(λ) so groß wie möglich
(sodass jede Jordan-Kette eine
Spalte im Diagramm rechts ausfüllt). Die darstellende Matrix J(λ)
von f|H(f, λ) bzgl. (λ) ist aus
Jordan-Blöcken Jk(1) (λ), …, Jk(r) (λ)
gebildet. Ihre geringe Anzahl an
von 0 verschiedenen Einträgen außerhalb der Diagonalen ist optimal
in ihrer Ähnlichkeitsklasse. Die in
der Rekursion zuletzt konstruierten Glieder v1, 1 , …, vr, 1 der Ketten
bilden eine Basis des Eigenraums
Eig(f, λ). Die entsprechenden Spalten der Matrix J(λ) haben genau einen Eintrag λ.
Für alle Eigenwerte λ durchgeführt ergibt sich:
H6
H5
U5
v2, 4
v3, 4
H4
U4
v4, 3
H3
U3
H2
U2
H1
U1
v1, 1
v2, 1
v3, 1
v4, 1
v5, 1
v6, 1
Die Jordan-Ketten werden durch wiederholte Anwendung
von f − λ IdV auf frei gewählte Startwerte konstruiert.
Dabei fällt man in jedem Schritt von Uk nach Uk − 1 . Die
Länge der Ketten ist durch die Dimensionen der Uk festgelegt. Im Beispiel des Diagramms ist die algebraische
Vielfachheit von λ gleich 19 und J(λ) hat eine 6-4-4-3-1-1Form, mit 5 + 3 + 3 + 2 + 0 + 0 = 13 = 19 − dim(Eig(f, λ))
Einsen in der Nebendiagonalen.
8. 12 Die Jordan-Normalform
223
Satz ( Jordan-Normalform)
Sei f : V → V wie oben. Zerfällt pf in Linearfaktoren, so existiert eine Basis von V
derart, dass die darstellende Matrix J von f bzgl. die folgende Form hat:
J(λ1 )
, σ(f) = { λ1 , …, λm }, λi ≠ λj für i ≠ j.
…
J =
J(λm )
Beispiel
Wir untersuchen fA : ⺢6 → ⺢6 für die
Matrix A rechts.
Berechnung des charakteristischen Polynoms
A =
1
−1
−1
0
−1
−1
−1
−1
−3
−1
0
−2
1
2
3
1
2
2
0
1
1
1
1
1
1 0
1 −1
1 0
1 −1
2 −2
1 0
A − E6 =
0
−1
−1
0
−1
−1
−1
−2
−3
−1
0
−2
1
2
2
1
2
2
0
1
1
0
1
1
1
1
1
1
1
1
(A − E6 )2 =
−1
0
0
0
−1
0
−1
0
0
1
−2
0
2
0
0
0
2
0
1
0
0
0
1
0
1 −1
0 0
0 0
0 0
1 −1
0 0
(A − E6 )3 =
−1
0
0
0
−1
0
−2
0
0
0
−2
0
2
0
0
0
2
0
1
0
0
0
1
0
1 −1
0 0
0 0
0 0
1 −1
0 0
0
0
1
1
0
0
0
0
0
0
1
0
pA = (X − 1)6 , σ(A) = { 1 }, μpA (1) = 6
Schrittweise Berechnung des Hauptraums
k
Hk = Kern((A − E6 ) )
H1 = U1
U1 = span(e1 + e4 , e1 + e3 − e5 )
H2 = H1 ⊕ U2
U2 = span(e1 + e5 , e1 − e6 )
H3 = H2 ⊕ U3
U3 = span(2e1 − e2 )
H4 = H3 ⊕ U4
U4 = span(e4 )
Aus den Dimensionen der Uk ergibt sich,
dass J(1) eine 4-2-Blockform hat.
Bildung von Jordan-Ketten, Start in U4 und U2
v4 = e4 = (0, 0, 0, 1, 0, 0)
v3 = Av4 − v4 = (0, 1, 1, 0, 1, 1)
v2 = Av3 − v3 = (1, 0, 0, 0, 1, 0)
v1 = Av2 − v2 = (1, 0, 0, 1, 0, 0)
0
−1
0
−1
−2
−1
w2 = e1 − e6 = (1, 0, 0, 0, 0, −1)
w1 = Aw2 − w2 = (0, 0, −1, 1, 1, 0)
(A − E6 )4 =
Basis und Transformationsmatrix
= (v1 , v2 , v3 , v4 , w1 , w2 )
S−1 =
v1 v2 v3 v 4 w 1 w 2
J = J(1) = S A S−1
J(1) =
0
1
0
0
0
0
0
1
1
0
0
0
0
0
1
1
0
0
0
0
0
0
0
1
1
Überblick und Zusammenfassung
226
Überblick und Zusammenfassung
1. Algebraische Grundstrukturen
Für eine Operation ⴰ : G2 → G auf einer Menge G betrachten wir die Eigenschaften:
(1)
∀a, b, c a ⴰ (b ⴰ c) = (a ⴰ b) ⴰ c
Assoziativgesetz
(2)
∃ e ∀x x ⴰ e = e ⴰ x = x
Existenz eines neutralen Elements
(3)
∀a ∃ b a ⴰ b = b ⴰ a = e
Existenz inverser Elemente
(4)
∀a, b a ⴰ b = b ⴰ a
Kommutativgesetz
Die Quantoren beziehen sich dabei auf Elemente in G. In (3) ist e ein neutrales Element
von G wie in (2).
(G, ⴰ) oder kurz G heißt …
falls gilt:
Halbgruppe
(1)
Monoid
(1), (2)
Gruppe
(1), (2), (3)
kommutativ oder abelsch
(4)
Für zwei Operationen +, ⋅ : R2 → R auf einer Menge R betrachten wir:
∀a, b, c a(b + c) = ab + ac
erstes Distributivgesetz
∀a, b, c (b + c)a = ba + ca
zweites Distributivgesetz
(D)
Ist (R, +) ein Monoid mit neutralem Element 0, so sei R* = R − { 0 }.
(R, +, ⋅) oder kurz R heißt …
falls gilt:
Ring (mit Eins)
(R, +) ist abelsche Gruppe, (R*, ⋅) ist Monoid, (D)
Schiefkörper
(R, +) ist abelsche Gruppe, (R*, ⋅) ist Gruppe, (D)
Körper
(R, +) ist abelsche Gruppe, (R*, ⋅) ist abelsche Gruppe, (D)
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9, © Springer-Verlag Berlin Heidelberg 2015
Überblick und Zusammenfassung
227
2. Die Kongruenz modulo m
Teilbarkeit in den ganzen Zahlen
Eine ganze Zahl a heißt teilbar durch eine ganze Zahl m, in Zeichen m|a (gelesen: m ist
ein Teiler von a), falls es eine ganze Zahl d gibt mit d m = a.
Kongruenz modulo m
Sei m ≥ 1 eine natürliche Zahl. Zwei ganze Zahlen a und b heißen kongruent modulo m,
falls m|(a − b). Dies ist gleichbedeutend damit, dass a und b denselben Rest bei Division
durch m haben. Sind a und b kongruent modulo m, so schreiben wir
a ⬅ m b oder a ⬅ b mod(m).
Wir setzen:
[ a ] = [ a ]m = a/⬅ m = { b ∈ ⺪ | b ⬅ m a } = { …, a − 2m, a − m, a, a + m, a + 2m, … },
(Restklasse von a modulo m)
⺪/m⺪ = ⺪m = { [ a ] | a ∈ ⺪ } = { [ 0 ], …, [ m − 1 ] },
[ a ] + [ b ] = [ a + b ], [ a ] ⋅ [ b ] = [ a ⋅ b ] für alle a, b ∈ ⺪.
Rechenregeln
Für alle a, b, c, x, y ∈ ⺪ gelten:
(a) a ⬅m a,
a ⬅m b genau dann, wenn b ⬅m a,
a ⬅m b und b ⬅m c impliziert a ⬅m c,
(b) a ⬅m b genau dann, wenn a − b ⬅m 0,
(c) a ⬅m b und c ⬅m d impliziert x a + y c ⬅m x b + y d und ac ⬅m bd,
(d) a ⬅m b impliziert p(a) ⬅m p(b) für jedes Polynom p ∈ ⺪[ X ].
Algebraische Eigenschaften
Die Menge ⺪m bildet mit den Restklassenoperationen + und ⋅ :
(a) eine abelsche Gruppe (⺪m , +),
(b) einen Ring (⺪m , +, ⋅) mit 0 = [ 0 ] und 1 = [ 1 ],
(c) genau dann eine abelsche Gruppe (⺪m − { [ 0 ] }, ⋅), wenn m prim ist,
(d) genau dann einen Körper (⺪m , +, ⋅), wenn m prim ist.
228
Überblick und Zusammenfassung
3. Matrizen
Schreibweisen für Matrizen
A = (a i, j )1 ≤ i ≤ m, 1 ≤ j ≤ n = (aij )ij =
a11
…
a1n
…
…
…
am1
…
amn
∈ Km × n
A(i, j) = aij = „Eintrag in der i-ten Zeile und j-ten Spalte“
Nichtspezifizierte Einträge sind 0.
v1 … v n
=
v1 ; …; vn
∈ Km × n hat die Spalten v1 , …, vn ∈ Km .
v1 , …, vm ∈ Km × n hat die Zeilen v1 , …, vm ∈ Kn .
Die Matrizenmultiplikation
Für A ∈ Km × r , B ∈ Kr × n ist das Produkt C = A B ∈ Km × n definiert durch
cij = ∑ 1 ≤ k ≤ r aik bkj = ai1 b1 j + … + air br j (i-te Zeile mal j-te Spalte).
n-Tupel als einspaltige Matrizen
x1
(x1 , …, xn ) ∈ Kn wird identifiziert mit
…
∈ Kn × 1
xn
Das Matrix-Vektor-Produkt Ax = A (x1 , …, xn ) ist damit ein Matrizenprodukt.
Die Transposition
A
t
= (aji )ij =
x1
(x1 , …, xn )
t
=
…
xn
a11
…
am1
…
…
…
a1n
…
anm
∈ Kn × m
t
=
x1
…
xn
∈ K1 × n
Überblick und Zusammenfassung
229
Konjugierte und adjungierte Matrizen
A = ( aij )ij ,
A* = A
t
a11
…
am1
…
…
…
a1n
…
anm
= (aji )ij =
für A ∈ ⺓m × n
Man erklärt diese Operationen auch für reelle Matrizen:
A = A, A* = At für A ∈ ⺢m × n
Spezielle quadratische Matrizen für einen fest gewählten Körper K
d1
d2
diag(d1 , …, dn ) = (di δij )ij =
∈ Kn × n
…
dn
En = (δij )ij = diag(1, …, 1) ∈ Kn × n
a11
obere Dreiecksmatrix:
…
…
a1n
a22
…
a2n
…
…
∈ Kn × n
ann
a11
untere Dreiecksmatrix:
a21
a22
…
…
…
an1
…
…
∈ Kn × n
ann
Elementarmatrizen für K und n ≥ 1 fest gewählt
Additionstyp: Wij (λ) = En + λ Ei, j , i ≠ j
Multiplikationstyp: Wii (λ) = En + (λ − 1) Ei, i
wobei Ei, j = „die n × n-Matrix über K mit Eintrag 1 an der Stelle (i, j) und 0 sonst“
Bemerkung: Manchmal werden nur die Additionstypen als Elementarmatrizen betrachtet oder
auch weitere Typen dazugerechnet, etwa Transpositionsmatrizen.
230
Überblick und Zusammenfassung
4. Matrizen und lineare Abbildungen
Die einer Matrix zugeordnete lineare Abbildung
Für A ∈ Km × n ist fA : Kn → Km definiert durch fA (x) = Ax für alle x ∈ Kn .
Die darstellende Matrix einer linearen Abbildung
Für f : V → W linear und Basen Ꮽ = (v1 , …, vn ), Ꮾ = (w1 , …, wm ) von V bzw. W
Ꮾ
ist die darstellende Matrix AᏭ,
= „A f bzgl. Ꮽ, Ꮾ“ definiert durch
f
Ꮾ
AᏭ,
=
f
ΦᏮ (f(v1 )) … ΦᏮ (f(vn ))
∈ Km × n ,
wobei ΦᏮ (w) = (α1 , …, αm ) ∈ Km der Koordinatenvektor von w ∈ W bzgl. Ꮾ ist, d. h.
w = α1 w1 + … + α m w m .
Ꮾ
Kurz: Die Spalten von A Ꮽ,
sind die Koordinaten (bzgl. Ꮾ) der Bilder der Vektoren von Ꮽ.
f
Ꮽ, Ꮽ
Wir schreiben oft „A f bzgl. Ꮽ“ statt „A f bzgl. Ꮽ, Ꮽ“ sowie AᏭ
.
f statt A f
Im Fall W = Km kann man ΦᏮ (y) berechnen, indem man die Vektoren w1 , …, wm der
Basis Ꮾ als Spalten in eine Matrix S−1 schreibt und die zu S− 1 inverse Matrix S bestimmt
(vgl. 5. 5). Dann gilt ΦᏮ (y) = S y für alle y ∈ Km , sodass
Ꮾ
AᏭ,
=
f
S f(v1 ) … S f(vn )
= S
f(v1 ) … f(vn ) .
Darstellende Matrizen im Fall V = K n und W = K m
Ꮾ
Für f : Kn → Km linear und die Standardbasen Ꮽ, Ꮾ gilt AᏭ,
=
f
Für f = fA : Kn → Km , T −1 =
Ꮾ
= S
AᏭ,
f
f(v1 ) … f(vn )
v1 … v n
= S
, S −1 =
A v 1 … A vn
w 1 … wm
v1 … v n
gilt
= S A T −1 .
Ꮾ
Die Matrizen A und AᏭ,
sind also äquivalent.
f
Für f = fA : Kn → Kn , S −1 =
f(e1 ) … f(en ) .
gilt
−1
AᏭ
f = SAS .
Die Matrizen A und AᏭ
f sind also ähnlich.
Überblick und Zusammenfassung
231
5. Umformungen mit Elementarmatrizen
Seien K ein Körper, n ≥ 1 und A ∈ GL(n, K).
Umformung mit Additionstypen: Diagonalisierung
Es gibt Additionstypen L1 , …, Lk derart, dass Lk … L1 A eine Diagonalmatrix ist.
Analog gibt es Additionstypen R1 , …, Rk derart, dass A R1 … Rk diagonal ist.
Umformung mit Additions- und Multiplikationstypen: Invertierung
Es gibt Additionstypen L1 , …, Lk und Multiplikationstypen Mᐉ , …, M1 derart, dass
M ᐉ … M 1 Lk … L 1 A = En .
Analoges gilt für die Multiplikation von rechts.
Umformung mit unteren Additionstypen und Permutationen: LR-Zerlegung
Es gibt Additionstypen L1 , …, Lk und eine Permutationsmatrix P mit
(a) Li ist eine untere Dreiecksmatrix für alle i.
(b) Lk … L1 A P = R mit einer oberen Dreiecksmatrix R.
Für die untere Dreiecksmatrix L = (Lk … L1 )−1 gilt dann
AP = LR
(LR-Zerlegung)
Jede invertierbare Matrix kann also nach einer geeigneten Spaltenvertauschung als
Produkt einer unteren und einer oberen Dreiecksmatrix geschrieben werden.
Die Ergebnisse lassen sich durch verschiedene Strategien des Ausräumens der Matrix A
beschreiben. Hierbei spielen die Einträge auf der Diagonalen eine wichtige Rolle:
Sei B die durch das Ausräumen der Spalten 1, …, i − 1 unterhalb der Diagonalen produzierte Matrix. Ist bii ≠ 0, so räumen wir unterhalb von (i, i) mit Hilfe von unteren Dreiecksmatrizen Wk i (λ), k > i, aus. Ist bii = 0, so haben wir zwei Möglichkeiten:
(1) Wir bringen einen Eintrag bki ≠ 0, k > i, unterhalb von (i, i) an die Stelle (i, i)
(Multiplikation mit einer oberen Dreiecksmatrix Wik (λ) von links).
(2) Wir bringen einen Eintrag bij ≠ 0, i < j, rechts von (i, i) an die Stelle (i, i)
(Multiplikation mit einer Transpositionsmatrix Pij von rechts).
Die erste Version führt zu einer oberen Dreiecksmatrix Lm … L1 A. Analoges Ausräumen oberhalb der Diagonalen liefert die Diagonalisierung. Höchstens n Multiplikationen
mit Multiplikationstypen Mi verwandeln die Diagonalmatrix schließlich in En .
Die zweite Version ergibt die LR-Zerlegung. Sie benötigt im Allgemeinen eine Permutation der Spalten (Umbenennung der Variablen), kommt dafür aber mit unteren
Dreiecksmatrizen Li aus. Die LR-Zerlegung ist beim numerischen Lösen von linearen
Gleichungssystemen von Interesse.
232
Überblick und Zusammenfassung
6. Matrizengruppen
Die allgemeinen linearen Gruppen lassen sich in vielerlei Weise charakterisieren. Für
einen Körper K und n ≥ 1 gilt beispielsweise
GL(n, K) = { A ∈ Kn × n | A ist invertierbar } = { A ∈ Kn × n | rang(A) = n } =
{ A ∈ Kn × n | die Zeilen (Spalten) von A bilden eine Basis von Kn } =
{ A ∈ Kn × n | fA : Kn → Kn ist bijektiv } = { A ∈ Kn × n | det(A) ≠ 0 } =
{ A ∈ Kn × n | für alle b ∈ Kn ist Ax = b eindeutig lösbar }.
In der linearen Algebra spielen Untergruppen von GL(n, K) eine wichtige Rolle. Wir
betrachten einige von ihnen für K = ⺢ und ein beliebiges n ≥ 1.
Diagonalmatrizen
Die invertierbaren Diagonalmatrizen
Diag(n) = { diag(a1 , …, an ) ∈ ⺢n × n | a1 , …, an ∈ ⺢* }
bilden eine abelsche Untergruppe von GL(n, ⺢).
Dreiecksmatrizen
Die invertierbaren unteren Dreiecksmatrizen
Δu (n, ⺢) = { A ∈ ⺢n × n | aij = 0 für alle i < j, aii ≠ 0 für alle i }
sind eine Untergruppe von GL(n, ⺢). Eine Untergruppe von Δu (n, ⺢) ist
{ A ∈ Δu (n, ⺢) | aii = 1 für alle i } = { A ∈ Δu (n, ⺢) | A ist unipotent },
wobei ein A ∈ ⺢n × n unipotent heißt, falls (A − En )n = 0. Die Additionstypen Wij (λ),
die bei der Gauß-Elimination verwendet werden, sind beispielsweise unipotent.
Analoges gilt für die invertierbaren oberen Dreiecksmatrizen Δo (n, ⺢).
Die orthogonale Gruppe
Die orthogonalen Matrizen
O(n) = { A ∈ ⺢n × n | A At = En = At A } = { A ∈ GL(n, ⺢) | A−1 = At }
sind eine Untergruppe von GL(n, ⺢). Für alle A ∈ O(n) gilt |det(A)| = 1.
Die spezielle lineare Gruppe
Die spezielle lineare Gruppe
SL(n, ⺢) = { A ∈ ⺢n × n | det(A) = 1 }
ist der Kern von det : GL(n, ⺢) → ⺢* und somit ein Normalteiler von GL(n, ⺢).
Sie wird von den Additionstypen W ij (λ) erzeugt (vgl. 7. 8). Schließlich ist die
spezielle orthogonale Gruppe definiert durch
SO(n) = O(n) ∩ SL(n, ⺢).
Überblick und Zusammenfassung
233
7. Matrixzerlegungen
Wir diskutieren einige wichtige Zerlegungen A = B C einer Matrix A ∈ GL(n, ⺓). Mit
den üblichen Änderungen (transponiert/adjungiert, symmetrisch/hermitesch, orthogonal/unitär) ergeben sich analoge Zerlegungen für reelle invertierbare Matrizen.
LR-Zerlegung und Cholesky-Zerlegung
Das Gauß-Eliminationsverfahren liefert eine Zerlegung
AP = L R
mit einer Permutationsmatrix P, unteren Dreiecksmatix L und oberen Dreiecksmatrix R
(vgl. 5. 12 und Überblick 5). Ist A hermitesch und positiv definit, so kann P = En gewählt
werden und die LR-Zerlegung vereinfacht sich dann zur Cholesky-Zerlegung A = LL*
(vgl. 7. 11).
Die QR-Zerlegung
Das Verfahren von Gram-Schmidt (vgl. 6. 7) liefert für eine Basis (a1 , …, an ) des ⺓n
eine Orthonormalbasis (q1 , …, qn ) bzgl. des kanonischen Skalarprodukts mit
(+) span(a1 , …, ak ) = span(q1 , …, qk ) für alle k ≤ n.
Sind a1 , …, an die Spalten von A, so erhalten wir die Zerlegung
A = QR
mit einer unitären Matrix Q und einer oberen Dreiecksmatrix R. Dabei hat Q die Spalten
q1 , …, qn . Dass R = Q*A eine obere Dreiecksmatrix ist, folgt aus (+).
Die Polarzerlegungen
Ist SAT−1 = SAT* = diag(σ1 , …, σn ) = D die Singulärwertzerlegung von A (vgl. 8. 8)
mit S, T ∈ U(n) und positiven Singulärwerten σk , so gilt
(a) A = S* D T,
(b) Q = S* T ist unitär,
(c) P1 = S* D S und P2 = T D T* sind hermitesch und positiv definit.
Damit ergeben sich die linke bzw. rechte Polarzerlegung von A:
A = (S* D S) (S* T) = P1 Q,
A = (S* T)(T* D T) = Q P2 .
Die Determinante von A berechnet sich zu det(A) = (σ1 … σn ) det(Q), was wir wegen
σ1 , …, σn > 0 und |det(Q)| = 1 als Verallgemeinerung der Polardarstellung der komplexen Zahl det(A) lesen können.
234
Überblick und Zusammenfassung
8. Die Sesquilinearformen 〈 ⋅ , A ⋅〉 und positive Definitheit
Mit den kanonischen Skalarprodukten gilt:
〈x, Ay〉 = ∑ 1 ≤ i, j ≤ n xi aij yj
für alle x, y ∈ ⺢n und A ∈ ⺢n × n ,
〈z, Aw〉 = ∑ 1 ≤ i, j ≤ n z i aij wj
für alle z, w ∈ ⺓n und A ∈ ⺓n × n .
Oft gebraucht wird:
Seitenwechsel
〈x, Ay〉 = xt (A y) = (xt A) y = (At x)t y = 〈At x, y〉 für A ∈ ⺢n × n
〈z, Aw〉 = z* (A w) = (z* A) w = (A* z)* w = 〈A*z, w〉 für A ∈ ⺓n × n
〈x, Ay〉 = 〈Ax, y〉 für A ∈ ⺢n × n symmetrisch (A = At )
〈z, Aw〉 = 〈Az, w〉 für A ∈ ⺓n × n hermitesch (A = A*)
Eine symmetrische bzw. hermitesche Matrix A ist positiv definit, wenn die Sesquilinearform 〈 ⋅, A ⋅〉 : Kn × Kn → K dies ist, d.h. wenn 〈x, Ax〉 > 0 für alle x ≠ 0 (vgl. 6.12, 7.11). Der
Seitenwechsel liefert:
Positive Definitheit kongruenter Matrizen
Ist A ∈ ⺢n × n symmetrisch und S ∈ GL(n, K), so gilt
〈x, St AS x〉 = 〈Sx, A(Sx)〉 für alle x ∈ ⺢n .
Mit A ist also auch St AS positiv definit (da y = Sx mit x alle Vektoren des ⺢n − { 0 }
durchläuft). Analog ist für eine positiv definite Matrix A ∈ ⺓n × n und S ∈ GL(n, ⺓)
auch S*AS positiv definit. Kurz:
Positive Definitheit vererbt sich auf kongruente Matrizen.
Eigenwertkriterium der Definitheit
Eine symmetrische oder hermitesche Matrix A ist genau dann positiv definit, wenn
alle Eigenwerte λ1 , …, λn von A positiv sind. Denn nach dem Spektralsatz ist A
kongruent zur Diagonalmatrix diag(λ1 , …, λn ). (Dies kann man auch direkt mit
Hilfe einer Orthonormalbasis aus Eigenvektoren von A einsehen, vgl. 8. 7.)
Positive Definitheit von At A bzw. A*A
Für alle A ∈ GL(n, ⺢) ist At A positiv definit, da 〈x, At Ax〉 = 〈Ax, Ax〉 > 0 für alle x ≠ 0.
Analog ist A*A positiv definit für alle A ∈ GL(n, ⺓).
Überblick und Zusammenfassung
235
9. Quadriken in Normalform für n = 2
Die Quadriken Q(q) = { (x, y) | q(x, y) = 0 } ≠ ∅ mit q : ⺢2 → ⺢ in Normalform sind:
Typ 1
Typ 2
Typ 3
q(x, y) = λx2 + μy2 + c,
λ, μ ≠ 0
2
λ ≠ 0, b ≠ 0
2
λ≠0
q(x, y) = λx + b y,
q(x, y) = λx + c,
Ellipse
Punkt
Typ 1
sgn(λ) = sgn(μ)
Typ 1
0
0
sgn(λ) = sgn(μ)
sgn(c) = − sgn(λ)
c=0
0
0
Hyperbel
Kreuzende Geraden
Typ 1
sgn(λ) ≠ sgn(μ)
Typ 1
0
0
sgn(λ) ≠ sgn(μ)
c≠0
c=0
0
0
Parabel
Parallele Geraden
Typ 2
Typ 3
0
0
sgn(λ) ≠ sgn(c)
Doppelgerade im
Fall c = 0
0
0
In den ersten fünf Fällen und im
sechsten Fall mit c = 0 ist die
Quadrik Q(q) ein Kegelschnitt,
d. h. der Schnitt eines Doppelkegels mit einer Ebene. Doppelgeraden treten beim Schnitt
eines Zylinders („Kegelspitze
im Unendlichen“) mit einer
Ebene auf.
236
Überblick und Zusammenfassung
10. Normalformen
Wir stellen einige Normalformen von Matrizen zusammen, d. h., wir geben möglichst
einfache Repräsentanten für wichtige Äquivalenzrelationen an. Dabei beschränken wir
uns zunächst auf Matrizen in ⺓n × n , n ≥ 1.
Äquivalente Matrizen
Definition
A, B ∈ ⺓n × n sind äquivalent, falls S, T ∈ GL(n, ⺓) existieren mit B = S A T −1 .
Bedeutung
A und B stellen dieselbe lineare Abbildung bzgl. verschiedener Basen dar, d. h., es gibt
Ꮾ
Ꮾ′
ein lineares f : ⺓n → ⺓n und Basen Ꮽ, Ꮾ, Ꮽ′, Ꮾ′ des ⺓n mit A = A Ꮽ,
, B = A Ꮽ′,
.
f
f
Normalformen
Sei A ∈ ⺓n × n , und sei r = rang(A). Dann gibt es S, T ∈ GL(n, ⺓) mit
S A T −1 =
Er
0
0
0
.
(Normalformdarstellung)
Weiter gibt es S, T ∈ U(n) und σ1 , …, σr > 0 mit
S A T −1 =
diag(σ1 , …, σr )
0
0
0
.
(Singulärwertzerlegung)
Kongruente Matrizen
Definition
A, B ∈ ⺓n × n sind kongruent, falls ein S ∈ GL(n, ⺓) existiert mit B = S*AS.
Bedeutung
A und B stellen dieselbe Sesquilinearform bzgl. einer Basis des ⺓n dar, d. h., es gibt
eine Sesquilinearform ϕ : ⺓n × ⺓n → ⺓ und Basen Ꮽ, Ꮾ mit
ϕ(x, y) = 〈ΦᏭ (x), A ΦᏭ (y)〉kanonisch = 〈ΦᏮ (x), B ΦᏮ (y)〉kanonisch für alle x, y ∈ ⺓n ,
Normalform ( für hermitesche Matrizen)
Ist A hermitesch, so existiert ein S ∈ GL(n, ⺓) mit
E s+
S* A S =
− E s−
,
(Hauptachsentransformation, Trägheitssatz)
0
wobei s+ und s− die Anzahlen der positiven bzw. negativen Eigenwerte von A sind.
Überblick und Zusammenfassung
237
Ähnliche Matrizen
Definition
A, B ∈⺓n × n sind ähnlich, falls ein S ∈ GL(n, ⺓) existiert mit B = S A S − 1 .
Bedeutung
A und B stellen dieselbe lineare Abbildung bezüglich einer Basis dar, d. h., es gibt ein
lineares f : ⺓n → ⺓ und Basen Ꮽ, Ꮾ des ⺓n mit
Ꮽ, Ꮽ
Ꮾ, Ꮾ
, B = AᏮ
.
A = AᏭ
f = Af
f = Af
Normalformen
Sei A ∈ ⺓n und seien λ1 , …, λn die in ihrer algebraischen Vielfachheit gezählten Eigenwerte A. Dann gilt:
(1) Es gibt ein S ∈ GL(n, ⺓) und bij ∈ ⺓ mit i < j mit
SAS
−1
λ1 b12 …
…
b1n
λ2 b23
…
b2n
…
…
…
=
.
(Trigonalisierung, Schur-Zerlegung)
λn − 1 bn − 1, n
λn
(2) Ist für jeden Eigenwert λ die geometrische Vielfachheit dim(Eig(f, λ)) gleich
der algebraischen Vielfachheit μf (λ), so existiert ein S ∈ GL(n, K) mit
S A S−1 = diag(λ1 , …, λn ).
(Diagonalisierung)
(3) Ist A normal (d. h. AA* = A*A), so gibt es ein S ∈ U(n) mit
S A S−1 = diag(λ1 , …, λn ).
(unitäre Diagonalisierung, spektrale Zerlegung)
Insbesondere gilt dies für hermitesche A (A = A*) und für unitäre A (A* = A−1 ).
Genau für die hermiteschen Matrizen sind alle λi reell.
(4) Es gibt ein S ∈ GL(n, ⺓) mit
J(λ1 )
SAS
−1
=
,
…
(Jordan-Normalform)
J(λm )
wobei nun λ1 , …, λm , m ≤ n, die paarweise verschiedenen Eigenwerte von A bezeichnen und jedes J(λi ) eine aus dim(Eig(A, λi )) Jordan-Blöcken zusammengesetze Bidiagonalmatrix ist. Die algebraische Vielfachheit des Eigenwerts λi entspricht der Zeilen- und Spaltenzahl von J(λi ). Die Matrix SAS−1 ist eine obere
Dreiecksmatrix, sodass die Jordan-Normalform die Trigonalisierung verfeinert.
238
Überblick und Zusammenfassung
Normalformen für reelle Matrizen
Wir betrachten nun reelle Matizen A ∈ ⺢n × n . Die Ergebnisse für die Äquivalenz und
die Kongruenz bleiben gleich (mit „symmetrisch“ statt „hermitesch“). Für die Ähnlichkeit ergeben sich Unterschiede, da das charakteristische Polynom pA über ⺢ im Allgemeinen nicht in Linearfaktoren zerfällt:
(1) Eine Trigonalisierung ist im Allgemeinen nicht möglich.
(2) Die Diagonalisierung gilt unter den Vielfachheitsvoraussetzungen, wenn pA in
Linearfaktoren zerfällt.
(3) Eine orthogonale Diagonalisierung ist genau dann möglich, wenn A symmetrisch
ist. Wie für ⺓ ist dies ein zentrales Ergebnis der Linearen Algebra, vgl. 8. 6.
(4) Die Jordan-Normalform ist als Verstärkung der Trigonalisierung im Allgemeinen
nicht mehr erreichbar. Sie gilt, falls pA in reelle Linearfaktoren zerfällt.
Eine Matrix A ∈ ⺢n × n heißt normal, falls AAt = At A. Im Gegensatz zum komplexen Fall
ist die Normalität nicht mehr hinreichend für die Diagonalisierbarkeit. Das Beste, was
man erreichen kann, ist eine Diagonalform mit (2 × 2)-Kästchen: Es gibt ein S ∈ O(n) mit
λ1
…
λk
S A S−1 =
,
B1
(Normalform für normale reelle Matrizen)
…
Bs
wobei die λi die Eigenwerte von A sind und die Bi ∈ ⺢2 × 2 die schiefsymmetrische Form
Bi =
ai
−bi
bi
ai
, bi ≠ 0
besitzen. Dies zeigt man so: Wegen A ∈ ⺢n × n ⊆ ⺓n × n gibt es eine Orthonormalbasis Ꮽ des
⺓n aus Eigenvektoren von A. Da A reell ist, kann Ꮽ = (x1 , …, xk , z1 , z1 , …, zs , zs ) mit xi ∈ ⺢n
erreicht werden. Ersetzt man die komplexen zi -Paare durch 兹2 Re(zi ), 兹2 Im(zi ) ∈ ⺢n ,
so erhält man eine Orthonormalbasis Ꮽ′ des ⺢n , die A in Normalform bringt. Dabei ist
ai = Re(λ) und bi = Im(λ) für einen komplexen Eigenwert λ von A ∈⺓n × n .
Für den wichtigen Spezialfall einer orthogonalen Matrix A ∈ O(n) kann man
Bi =
cos αi − sin αi
sin αi
cos αi
, αi kein Vielfaches von π,
schreiben (da dann ai2 + bi2 = 1). Diese Matrizen stellen Drehungen dar. Da die Eigenwerte
einer orthogonalen Matrix den Betrag 1 haben, lässt sich die Normalform von A ∈ O(n)
als „±1-Kette + Drehkästchen“ beschreiben (vgl. hierzu die Tabelle in 7. 8).
Überblick und Zusammenfassung
239
11. Blockstrukturen
Seien A ∈ Kn × n und 1 ≤ k ≤ n. Dann definiert
A =
A11 A12
A21 A22
mit A11 ∈ Kk × k , A12 ∈ Kk × (n − k) , A21 ∈ K(n − k) × k , A22 ∈ K(n − k) × (n − k) eine 2 × 2-Blockstruktur
der Matrix A. Die Matrix A wird in vier Matrizen aufgeteilt, die linke obere Matrix A11
legt dabei die Struktur fest. Blockstrukturen können den Umgang mit großen Matrizen
wesentlich vereinfachen. Wir diskutieren einige Beispiele.
Die Blockmultiplikation
Das Produkt zweier Blockmatrizen lässt sich über die Produkte der einzelnen Blöcke
gemäß „Zeile mal Spalte“ berechnen:
A11 A12
B11 B12
A21 A22
B21 B22
=
A11 B11 + A12 B21
A11 B12 + A12 B22
A21 B11 + A22 B21
A21 B12 + A22 B22
.
Blockdreiecksmatrizen
Eine Blockmatrix der Form
A11
0
A21 A22
oder
A11 A12
0
A22
nennt man eine (untere bzw. obere) Blockdreiecksmatrix. Für diese Matrizen gilt
det(A) = det(A11 ) det(A22 ), σ(A) = σ(A11 ) ∪ σ(A22 ).
In 8. 4 haben wir die Blockdeterminantenformel im Beweis verwendet, dass die geometrische Vielfachheit eines Eigenwerts kleinergleich der algebraischen ist.
Das Schur-Komplement
Ist der linke obere Block A11 von A invertierbar, so gilt
A11 A12
A21 A22
=
Ek
0
−1
A21 A11
En − k
A11 A12
0
S
(Block-LR-Zerlegung)
wobei S = A22 − A21 A11−1 A12 das Schur-Komplement von A11 in A ist. Es gilt
det(A) = det(A11 ) det(S), σ(A) = σ(A11 ) ∪ σ(S),
sodass insbesondere die Invertierbarkeit von A äquivalent zur Invertierbarkeit von S
ist. Ist der rechte untere Block A22 invertierbar, so führen analoge Überlegungen
zum Schur-Komplement A11 − A12 A22−1 A21 von A22 in A.
240
Überblick und Zusammenfassung
12. Berechnung und Bestimmung
Matrizen
Berechnung von Koordinaten 5. 5, 5. 6
Invertierung einer Matrix 5. 6
Basiswechsel, Umrechnung auf neue Koordinaten 5. 7
Lösen eines Gleichungssystems 5. 11, 5. 12
Bestimmung der Normalform (bzgl. der Äquivalenz von Matrizen) 5. 12
LR-Zerlegung Überblick 5
Euklidische und unitäre Vekorräume
Orthonormalisierung (Gram-Schmidt) 6. 7
QR-Zerlegung Überblick 7
Bestimmung des darstellenden (Riesz-) Vektors 6. 10
Determinanten
Berechnung einer Determinante 7. 2, 7. 4, 7. 6
Volumen eines Parallelotops 7. 9
Bestimmung der Definitheit 7. 11, 8. 7, Überblick 8
Eigenwerte
Berechnung der Eigenwerte und Eigenvektoren 8. 3
Trigonalisierung (Schur-Zerlegung) 8. 5
Spektralzerlegung (orthogonale bzw. unitäre Diagonalisierung) 8. 6
Hauptachsentransformation 8. 7
Singulärwertzerlegung 8. 8
Hauptraumzerlegung, Exponenten des Minimalpolynoms 8. 11
Jordan-Normalform 8. 12
Ausblicke zu Eigenwerten
242
Ausblicke zu Eigenwerte
1. Eigenwerte ohne Determinanten
In der Linearen Algebra werden traditionell Eigenwerte, Eigenvektoren und Normalformen nach der Diskussion der Determinanten behandelt: Die Eigenwerte einer
Matrix A werden als die Nullstellen des charakteristischen Polynoms pA identifiziert,
welches mit Hilfe der Determinantenfunktion definiert wird. Ein alternativer Aufbau,
der die Verwendung von Determinanten vermeidet, ist möglich. An der Spitze steht dabei das folgende Argument:
Alternativer Beweis der Existenz eines Eigenwerts einer komplexen Matrix
Sei A ∈⺓n × n . Wir zeigen, dass A einen Eigenwert λ ∈ ⺓ besitzt. Hierzu sei
v ∈ ⺓n − { 0 } beliebig. Wegen dim(⺓n ) = n gibt es kleinstes m ≤ n, sodass
(v, Av, A2 v, …, Am v)
linear abhängig ist. Dann existieren α0 , …, αm ∈ ⺓, αm ≠ 0, mit
(+) 0 = α0 v + α1 A v + … + αm Am v = (α0 En + α1 A + … + αm Am ) v.
Nach dem Fundamentalsatz der Algebra gibt es λ1 , …, λm ∈ ⺓ mit
α0 + α1 X + … + αm Xm = αm (X − λm ) … (X − λ1 ).
Nach (+) gilt also
(++) αm (A − λm En ) … (A − λ1 En ) v = 0.
Ist nun 1 ≤ j ≤ m minimal mit
(A − λj En ) … (A − λ1 En ) v = 0,
so ist λj ein Eigenwert von A zum Eigenvektor
vj = (A − λj − 1 En ) … (A − λ1 En ) v ≠ 0, mit vj = v im Fall j = 1.
(Allgemein ist jedes λi ein Eigenwert von A, da man sonst (++) mit (A − λi En )−1
multiplizieren könnte und durch Ausmultiplizieren eine nichttriviale Nulldarstellung mit den Vektoren v, Av, A2 v, …, Am − 1 v erhalten würde.)
Aufbauend auf diesem Argument haben C. G. Broyden 1975 und S. Axler 1995 eine
determinantenfreie Eigenwert- und Normalformentheorie entwickelt, siehe
C. G. Broyden: Basic Matrices, The Maxmillan Press, London 1975,
S.Axler: Down withDeterminants!, American Mathematical Monthly 102 (1995),S. 139−154.
Wir verweisen auch auf
Garry J. Tee: Up with Determinants!, IMAGE (The Bulletin of the International Linear
Algebra Society) 30 (2003), S. 7−11.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9, © Springer-Verlag Berlin Heidelberg 2015
Ausblicke zu Eigenwerten
243
2. Eigenwerte ohne Fundamentalsatz
Unsere Beweise für die Existenz von Eigenwerten beruhen auf dem Fundamentalsatz
der Algebra. Für den wichtigen Spezialfall einer symmetrischen oder hermiteschen Matrix ist es möglich, den Einsatz des Fundamentalsatzes (und von Determinanten) durch
ein analytisches Argument zu ersetzen. Für die folgende Diskussion setzen wir Grundkenntnisse der mehrdimensionalen Differentialrechnung voraus.
Seien n ≥ 1 und A ∈ ⺢n × n . Dann heißt die Funktion R A : ⺢n − { 0 } → ⺢ mit
RA (x) =
〈x, Ax〉
〈x, x 〉
für alle x ∈ ⺢n − { 0 }
der Rayleigh-Quotient von A (dabei wird das kanonische Skalarprodukt verwendet). Wichtige Eigenschaften sind:
(1) Die Funktion RA : ⺢n − { 0 } → ⺢ ist stetig.
(2) RA (α x) = RA (x) für alle α ∈ ⺢* und x ∈ ⺢n − { 0 }.
(Homogenität)
(3) Ist λ ein Eigenwert von A und x ein zugehöriger Eigenvektor, so gilt
RA (x) =
〈x, Ax〉
〈x, x 〉
=
λ 〈x, x〉
〈x, x 〉
= λ.
Analytischer Beweis der Existenz eines Eigenwerts für symmetrische Matrizen
Sei A ∈ ⺢n × n symmetrisch, und sei Sn − 1 = { x ∈ ⺢n | 储 x 储 = 1 } die Einheitssphäre im
⺢n (mit der euklidischen Norm). Da RA stetig und Sn − 1 kompakt ist, nimmt RA |Sn − 1
in einem Punkt x ∈ Sn − 1 ihr Maximum an. Aufgrund der Homogenität ist dieses Maximum global, sodass der Gradient von RA im Punkt x gleich dem Nullvektor ist:
0 = grad(RA ) (x) = 2
〈x, x〉 A x − 〈x, Ax〉 x
〈x, x〉 2
.
(Bei der Berechnung des Gradienten verwenden wir, dass A symmetrisch ist.)
Damit ist 〈x, x〉 A x − 〈x, Ax〉 x = 0, sodass
Ax =
〈x, Ax〉
x = RA (x) x.
〈x, x 〉
Dies zeigt, dass RA (x) ein Eigenwert von A und x ein zugehöriger Eigenvektor ist.
Genauer ist RA (x) der größte Eigenwert von A.
Durch Bildung von orthogonalen Unterräumen ergibt sich induktiv, dass jede symmetrische Matrix eine Orthonormalbasis aus Eigenvektoren besitzt. Analoge Überlegungen
gelten für hermitesche Matrizen A ∈⺓n × n (dann ist RA auf ⺓n − { 0 } definiert, aber nach
wie vor reellwertig). Insgesamt ergibt sich ein Beweis des Spektralsatzes, der den Fundamentalsatz der Algebra nicht verwendet.
244
Ausblicke zu Eigenwerte
3. Gershgorin-Kreise und die Lage der Eigenwerte
Wir betrachten eine Matrix A ∈ ⺓n × n , einen Eigenwert λ ∈ σ(A) und einen zugehörigen
Eigenvektor z ∈ ⺓n − { 0 }. Wegen Az = λz gilt ∑ j aij zj = λ zi für alle i, sodass
∑ j mit j ≠ i aij zj = λzi − aii zi = (λ − aii ) zi für alle i.
Wir betrachten nun eine im Betrag maximale Komponente des Eigenvektors z. Sei also
i* derart, dass
|zi* | = max 1 ≤ j ≤ n |zj |.
Wegen z ≠ 0 ist zi* ≠ 0. Damit gilt
(+) |λ − ai*i* | ≤ ∑ j ≠ i* |ai*j |
|zj |
|zi* |
≤ ∑ j ≠ i* |ai*j |.
Damit haben wir den Abstand von λ zum Diagonaleintrag ai*i* abgeschätzt. Definieren
wir also für alle 1 ≤ i ≤ n den i-ten Gershgorin-Kreis von A durch
G(i) = { w ∈ ⺓ | |w − aii | ≤ ∑ j ≠ i |aij | },
so liegt jeder Eigenwert von A nach (+) in mindestens einem Gershgorin-Kreis von A.
Diese Kreise überdecken also das Spektrum von A:
σ(A) ⊆
艛1 ≤ i ≤ n G(i).
Hat A im Betrag kleine Einträge außerhalb der Diagonalen, so haben die GershgorinKreise einen kleinen Radius, sodass wir in einfacher Weise eine recht genaue Auskunft
über die Lage der Eigenwerte von A erhalten können.
Genauer lässt sich zeigen:
Ist ein Kreis G(i) disjunkt von allen anderen, so enthält er genau einen Eigenwert.
Für eine noch genauere Beschreibung setzen wir
G(I) =
艛i ∈ I G(i)
für I ⊆ { 1, …, n }.
Dann gilt, mit in ihrer Vielfachheit gezählten Eigenwerten:
Sind I1 und I2 disjunkt mit I1 ∪ I2 = { 1, …, n } und G(I1 ) ∩ G(I2 ) = ∅,
so enthält G(I1 ) genau |I1 | und G(I2 ) genau |I2 | Eigenwerte.
Die folgenden Diagramme zeigen die Gershgorin-Kreise für vier 2 × 2-Matrizen und
eine 4 × 4-Matrix. Die Mittelpunkte der Kreise sind durch kleine graue Punkte markiert,
die Eigenwerte durch größere schwarze Punkte. Die 2 × 2-Matrizen zeigen, dass die Eigenwerte am Rand der Kreise liegen können und dass ein Kreis im Fall einer Überlappung
oder einer Inklusion keinen Eigenwert enthalten muss.
Ausblicke zu Eigenwerten
1
1
3
2
1
1
2
2
3
1
1
2
1
1
2
1
A =
−1
−2
A =
1
1
−1
−1
3
2
2
1
2
1
1
1
2
2
3
1
1
2
3
4
1
1
2
2
3
A =
1
1
−2
−1
A =
1
1
−3
−1
A =
1 − 3i
0
0
2i
4
2
6
4
2
2
2
4
1
1+i
1+i
0
0
i
0
1
2 + 2i
0
−1 −3 + 2i
245
246
Ausblicke zu Eigenwerte
4. Matrixnormen
Ist n ≥ 1 und 储 ⋅ 储 : ⺓n → [ 0, ∞ [ eine Norm auf dem ⺓n , so definiert
储 A 储 = max { 储 A z 储
z ∈ Sn − 1 },
eine Norm 储 ⋅ 储 : ⺓n × n → [ 0, ∞ [, wobei Sn − 1 = { z ∈ ⺓n 储 z 储 = 1 }. Sie heißt die von
der Norm 储 ⋅ 储 induzierte Matrixnorm auf ⺓n × n . Da die Einheitssphäre Sn − 1 eine kompakte Teilmenge des ⺓n ist (unter der von der Norm 储 ⋅ 储 induzierten Metrik), nimmt die
stetige Funktion F : Sn − 1 → ⺢, F(z) = 储 A z 储 , ihr Maximum an, sodass 储 A 储 wohldefiniert
ist. Die Homogenität, Definitheit und Dreiecksungleichung folgen aus den entsprechenden Eigenschaften der Ausgangsnorm.
Die Spektral-Normen
Wir nehmen nun an, dass die Norm auf dem ⺓n die euklidische Norm ist und bestimmen schrittweise die Werte der induzierten Matrixnorm. Wir schreiben 储 ⋅ 储 statt 储 ⋅ 储 2 .
Diagonalmatrizen
Ist A = diag(d1 , …, dn ) und d = maxk |dk |, so gilt
储 Az 储 2 = |d1 z1 |2 + … + |dn zn |2 ≤ d 2 (|z1 |2 + … + |zn |2 ) = d 2 für alle z ∈ Sn − 1 .
Wegen 储 A ek 储 = 储 dk ek 储 = |dk | für alle k ist also 储 A 储 = d.
Unitäre Matrizen
Ist U ∈ U(n), so bildet f U die Sphäre Sn − 1 bijektiv auf sich selbst ab. Hieraus ergibt
sich, dass 储 U 储 = 1 und allgemeiner
储 A U 储 = 储 A 储 = 储 U A 储 für alle A ∈ ⺓n × n .
Normale Matrizen
Nach dem Spektralsatz (vgl. 8.6) lässt sich eine hermitesche oder allgemeiner normale
Matrix A unitär diagonalisieren: Es gibt ein S ∈ U(n) mit A = S* diag(λ1 , …, λn ) S,
wobei λ1 , …, λn die in ihrer Vielfachheit gezählten Eigenwerte von A sind. Nach
dem vorangehenden Überlegungen ist also
储 A 储 = max k |λ k |
der betragsmäßig größte Eigenwert von A. Die euklidisch induzierte Matrixnorm
heißt deswegen auch die Spektral-Norm auf dem ⺓n × n .
Allgemeiner Fall
Ist A ∈ ⺓n × n beliebig, so liefert eine Singulärwertzerlegung Matrizen S, T ∈ U(n) und
σ1 , …, σn ≥ 0 mit A = S* diag(σ1 , …, σn )T (vgl. 8. 8). Damit gilt 储 A 储 = max k σ k . Die
Spektral-Norm der Matrix A ist also stets der größte Singulärwert von A. Die Bezeichnung „Singulärwertnorm“ wäre demnach passender, ist aber nicht üblich.
Ausblicke zu Eigenwerten
2
E
2
1
A =
2
1
1
1
M
1
2
储A储 =
1
−3/2 −1/2
2
1
兹9 + 兹65
2
1
E
A =
0
1
1
2
0
1
−2
0
0
1
1
M
1
0
E = { Av
0
1
2
2
1
1
1
0
2
2
1
1
1
1
= 2,065…
2
2
247
储 A 储 = 2,5320…
0
1
1
储v储 = 1}
1
0
1
M = { 储 Av 储 v
2
储v储 = 1}
Die Diagramme visualisieren die Spektralnorm für reelle Matrizen. Links sind die Bilder der Einheitsvektoren v unter A dargestellt, rechts die mit 储 Av 储 skalierten Einheitsvektoren v. Die SpektralNorm ist nach Definition der Radius der kleinsten 2 bzw. 3-dimensionalen Sphäre, die die Menge
E oder gleichwertig M umfasst.
Die Spaltensummen- und Zeilensummennormen
Schließlich betrachten wir noch die Summennorm 储 ⋅ 储 1 und die Maximumsnorm
储 ⋅ 储 ∞ auf dem ⺓n (vgl. 6. 4). Für die zugehörigen induzierten Matrixnormen gilt
储 A 储 1 = max1 ≤ j ≤ n ∑ 1 ≤ i ≤ n |aij | = max 1 ≤ j ≤ n 储 a j 储 1 ,
(Spaltensummennorm)
储 A 储 ∞ = max1 ≤ i ≤ n ∑ 1 ≤ j ≤ n |aij | = max 1 ≤ i ≤ n 储 b i 储 1
(Zeilensummennorm)
für alle A ∈ ⺓n × n , wobei die aj die Spalten und die bi die Zeilen von A sind. Zur Berechnung von 储 A 储 1 summiert man für jede Spalte die Beträge der Einträge und wählt unter
den n Summen den maximalen Wert. Analoges gilt für 储 A 储 ∞ mit „Zeilen“ statt „Spalten“.
Die beiden Normen eignen sich zur Abschätzung der Spektralnorm 储 ⋅ 储 2 , denn für alle
A ∈ ⺓n × n gilt
储 A 储 2 ≤ 兹 储 A 储 1 储 A 储 ∞.
(Schur-Abschätzung oder Schur-Test)
Für Diagonalmatrizen ist die Ungleichung eine Gleichung.
248
Ausblicke zu Eigenwerte
5. Matrixexponentiale
Für eine Matrix A ∈ ⺓n × n ist das Exponential exp(A) = eA ∈ ⺓n × n definiert durch
exp(A) = ∑ k ≥ 0
Ak
,
k!
wobei die Reihe als Limes der Partialsummen bezüglich einer beliebigen Matrixnorm 储 ⋅ 储
zu verstehen ist. Die Reihe konvergiert für alle A, und die Konvergenz ist beschrieben
durch die Konvergenz der Einträge in ⺓:
exp(A)(i, j) = limn → ∞ ∑ k ≤ n
Ak (i, j)
k!
für alle 1 ≤ i, j ≤ n.
Für alle A, B ∈ ⺓n × n gilt:
(a) exp(0) = En ,
(b) exp(A) ist invertierbar und es gilt exp(A)−1 = exp(− A),
(c) exp(A*) = exp(A)*,
(d) exp(A + B) = exp(A) exp(B), falls A und B kommutieren (d. h. A B = B A),
(e) ist Am = 0 für ein m, so ist exp(A) = ∑ k < m Ak /k! ein Matrixpolynom vom Grad ≤ m.
Wir bestimmen die Exponentiale exp(A) wieder schrittweise.
Diagonalmatrizen
Ist A = diag(d1 , …, dn ), so gilt Ak = diag(d1k , …, dnk ) für alle k ≥ 0 und damit
exp(A) = diag(exp(d1 ), …, exp(dn )).
Speziell ist exp(λ En ) = diag(exp(λ), …, exp(λ)) = exp(λ) En .
Ähnliche Matrizen
Sind A, B ähnlich und ist S ∈ GL(n, ⺓) mit A = S−1 B S, so gilt
Ak = S−1 Bk S für alle k ≥ 0.
Hieraus ergibt sich
exp(A) = S−1 exp(B) S.
Damit sind also die Matrizen exp(A) und exp(B) ebenfalls ähnlich.
Diagonalisierbare Matrizen
Gilt A = S−1 diag(λ1 , …, λn ) S mit S ∈ GL(n, ⺓), so gilt
exp(A) = S−1 diag(exp(λ1 ), …, exp(λn )) S
nach den vorangehenden Überlegungen. Mit A ist also auch exp(A) diagonalisierbar.
Ausblicke zu Eigenwerten
249
Allgemeiner Fall: Bestimmung über eine Jordan-Normalform
Ist A nicht diagonalisierbar, so liefert eine Jordan-Normalform, dass
exp( J(λ1 ))
exp(A) = S−1
S
…
exp( J(λm ))
mit S ∈ GL(n, ⺓) und Jordan-Blöcken J(λ1 ), …, J(λm ) (vgl. 8. 12). Damit ist die
Berechnung von exp(A) auf die Berechnung des Exponentials von Jordan-Blöcken
reduziert. Zur Berechnung eines k × k Jordan-Blocks J(λ) schreiben wir
0
1
0
J(λ) = λEk + N mit N =
1
.
… …
0
1
0
Es gilt (λEk ) N = N (λ Ek ), sodass
exp( J(λ)) = exp(λ Ek ) exp(N) = exp(λ) exp(N).
Wegen N k = 0 ist exp(N) ein Polynom vom Grad kleiner als k. So ergibt sich zum
Beispiel
exp( J2 (λ)) = exp
exp( J3 (λ)) = exp
λ
1
0
λ
λ
1
0
0
λ
1
0
0
λ
0
= exp(λ) exp
0
1
0
0
= exp(λ) exp
1
exp(λ) N + N +
= exp(λ)
0
1
0
0
0
1
0
0
0
N2
= exp(λ) exp
2
1
1
0
1
,
=
1
1
1/2
0
1
1
0
0
1
.
Mit Hilfe der Jordan-Normalform lässt sich zudem zeigen, dass
det(exp(A)) = exp(spur(A)) für alle A ∈ ⺓n × n .
Da exp(x) > 0 für alle x ∈ ⺢ gilt, gibt es im Fall det(B) < 0 kein A ∈ ⺢n × n mit exp(A) = B. Man
kann jedoch zeigen, dass exp : ⺓n × n → GL(n, ⺓) surjektiv ist, sodass für alle B ∈ GL(n, ⺓)
ein (nicht eindeutiger) Matrixlogarithmus A ∈ ⺓n × n durch exp(A) = B erklärt werden kann.
250
Ausblicke zu Eigenwerte
6. Lineare Systeme von Differentialgleichungen
Seien A ∈ ⺓n × n und y0 ∈ ⺓n . Wir betrachten das in einer reellen Variablen t formulierte
Anfangswertproblem
ẏ(t) = A y(t), y(0) = y0 , d. h.
ẏ1 (t) = a11 y1 (t) + … + a1n yn (t),
y1 (0) = (y0 )1 ,
ẏ2 (t) = a21 y1 (t) + … + a2n yn (t),
y2 (0) = (y0 )2 ,
…
ẏn (t) = an1 y1 (t) + … + ann yn (t),
yn (0) = (y0 )n .
Die (nach der Theorie der Differentialgleichungen eindeutig bestimmte) Lösung
y : ⺢ → ⺓n , y(t) = (y1 (t), …, yn (t)),
des Anfangswertproblems ist gegeben durch
(+) y(t) = exp(tA) y0 für alle t ∈ ⺢.
Denn es gilt:
(a) y(0) = exp(0 A) y0 = exp(0) y0 = y0 ,
(b)
d
exp(t A) =
dt
d
tk k
tk − 1
∑k ≥ 0
A = ∑k ≥ 0
Ak = A exp(t A),
k!
(k − 1)!
dt
sodass
ẏ(t) =
d
exp(t A) y0 = A exp(t A) y0 = A y(t) für alle t ∈ ⺢.
dt
Damit kann das Matrixexponential also zur Lösung eines homogenen Systems von linearen Differentialgleichungen eingesetzt werden. Weiter gilt nach den Ergebnissen des
letzten Abschnitts: Ist A diagonalisierbar, so gibt es ein S ∈ GL(n, ⺓) mit
(++) y(t) = S−1 diag(exp(t λ1 ), …, exp(t λn )) S y0 für alle t ∈ ⺢,
wobei λ1 , …, λn die Eigenwerte von A sind. Wir können die in der Form (++) präsentierte
Lösung wie folgt beschreiben:
(1) Bestimme den Koordinatenvektor S y0 ∈ ⺓n des Anfangswerts y0 bzgl. einer Basis
aus Eigenvektoren von A. (Die Basisvektoren sind die Spalten von S−1 .)
(2) Multipliziere jede Koordinate von Sy0 mit dem entsprechenden Faktor exp(tλj ) ∈ ⺓.
(3) Wechsle durch Anwendung von S−1 in die kanonische Basis zurück.
Ausblicke zu Eigenwerten
251
Schreiben wir λj = ρj + i μj mit ρj , μj ∈ ⺢, so ist das Verhalten der Lösungskomponente
yj (t) im Wesentlichen von der komplexen Exponentialfunktion
exp(tλj ) = exp(t ρj ) exp(i t μj ) = exp(t ρj ) cos(t μj ) + i sin(t μj ) , t ∈ ⺢,
bestimmt. Ist ρj > 0, so strebt yj (t) für t → ∞ exponentiell schnell gegen ∞. Ist ρj = 0,
so oszilliert yj (t) wie cos(t μj ) + i sin(t μj ). Ist ρj < 0, so konvergiert yj (t) für t → ∞ exponentiell schnell gegen Null.
Ist A nicht diagonalisierbar, so kann die Lösung y(t) = exp(tA)y0 durch die Exponentiale
von Jordan-Blöcken beschrieben werden. Die (++) entsprechenden Funktionen haben
nun die Form exp(tλj ) pj (t), t ∈ ⺢, mit einem komplexen Polynom pj : ⺓ → ⺓.
Der harmonische Oszillator
Zu den wichtigsten Beispielen eines Anfangswertproblems der obigen Form zählt
ẏ(t) = A y(t), y(0) = y0 mit A =
0
ω
−ω
0
, ω > 0.
Komponentenweise schreibt sich dies als
ẏ1 = ω y2 , ẏ2 = − ω y1 .
Für die zweite Komponente erhalten wir also
ÿ2 = −ω2 y2 .
(harmonischer Oszillator der Frequenz ω)
Die Matrix A ist schiefsymmetrisch, d. h. A = − A*. Damit ist
exp(t A)* = exp(t A*) = exp(− t A) = exp(t A)−1 .
Als schiefsymmetrische Matrix ist A normal und damit unitär diagonalisierbar. Man berechnet
A = S* diag(iω, −iω) S mit S =
1
1
−i
兹2
1
i
.
Wenden wir die Lösungsformel (+) auf die beiden Anfangswerte y0 = e1 und y0 = e2 an,
so erhalten wir als Lösungen die trigonometrischen Oszillationen
y(t) = exp(t A) e1 =
cos(ωt)
sin(ωt)
bzw.
y(t) = exp(t A) e2 =
− sin(ωt)
cos(ωt)
Für einen beliebigen Anfangswert y0 = α e0 + β e2 erhalten wir damit die Lösung
y(t) = exp(t A) y0 = α
cos(ωt)
sin(ωt)
+ β
− sin(ωt)
cos(ωt)
.
.
Anhänge
254
Anhänge
1. Junktoren
In der Mathematik werden die Verknüpfungen
nicht, und, oder, impliziert, äquivalent
zum Teil anders verwendet als in der Umgangssprache. Wichtig sind:
(a) „A und B“ ist gleichwertig zu „B und A“,
(b) „A oder B“ ist gleichwertig zu „B oder A“.
(c) „A oder B“ ist kein exklusives „entweder A oder B“, sondern bedeutet „eines von
beiden oder auch beide“, „mindestens eine der beiden Aussagen ist richtig“.
(d) „A impliziert B“ bedeutet
„aus A folgt B“, „wenn A gilt, so gilt auch B“,
„A zieht B nach sich“,
„A ist hinreichend für B“, „B ist notwendig für A“.
Die Implikation will keine Kausalität ausdrücken. „A impliziert B“ ist gleichwertig zu „(nicht A) oder B“. Speziell ist die Aussage „A impliziert B“ stets richtig,
wenn die Aussage A falsch ist.
(e) „A ist äquivalent zu B“ bedeutet „A gilt genau dann, wenn B gilt“, „A gilt dann
und nur dann, wenn B gilt“, „(A impliziert B) und (B impliziert A)“.
Die folgende Tabelle gibt einen Überblick über die Junktoren.
Zeichen
Bedeutung
Name
¬
nicht/non …
Negation
∧
… und …
sowohl … als auch …
Konjunktion
∨
oder (nicht exklusiv)
Disjunktion
→
… impliziert …
aus … folgt …
wenn … so auch …
Implikation
↔
… genau dann, wenn …
… ist äquivalent zu …
… dann und nur dann, wenn …
Äquivalenz
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9, © Springer-Verlag Berlin Heidelberg 2015
Anhänge
255
Genauer wird die Semantik der mathematischen Junktoren durch die folgenden Wahrheitstafeln festgelegt. Dabei steht „w“ für „wahr, gültig“ und „f “ für „falsch, ungültig“.
A
∧
B
A
∨
B
A
→
B
A
↔
B
¬
A
w
w
w
w
w
w
w
w
w
w
w
w
f
w
w
f
f
w
w
f
w
f
f
w
f
f
w
f
f
f
w
f
w
w
f
w
w
f
f
w
f
f
f
f
f
f
f
w
f
f
w
f
Ist zum Beispiel A wahr und B falsch, so ist ¬ A falsch, A ∨ B wahr und A → B falsch.
Mit Hilfe von Klammern lassen sich mehrere Aussagen miteinander verbinden:
(A ∧ ¬B) ∧ C, (A ∨ B) → C, A ∨ (B → C), …
Um Klammern zu sparen, vereinbart man die Bindungsstärke
¬, ∧, ∨, →, ↔
(von stark nach schwach bindend),
die man sich durch Magnete vorstellen kann: Der Magnet ∧ ist stärker als →, sodass zum
Beispiel A ∧ B → C die Aussage (A ∧ B) → C ist und nicht etwa A ∧ (B → C).
Ist eine aus A, B, C, … zusammengesetzte Aussage für alle Wahrheitswerte „w“ und „f “
von A, B, C, … wahr, so heißt die Aussage eine Tautologie. Ob eine Tautologie vorliegt,
kann man mit Hilfe von Wahrheitstafeln überprüfen. Ein Beispiel ist:
A
→
B
↔
¬
A
∨
B
w
w
w
w
f
w
w
w
w
f
f
w
f
w
f
f
f
w
w
w
w
f
w
w
f
w
f
w
w
f
w
f
5
2
4
3
1
Die Zahlen geben an, in
welcher Reihenfolge die
Spalten berechnet werden. Die Tafel für ∨ wirkt
auf die Spalten 2 und 3,
die Tafel für ↔ auf die
Spalten 1 und 4.
Ist die zuletzt berechnete Spalte − die Ergebnisspalte der Tafel − nur mit dem Wert „w“
gefüllt, so heißt die untersuchte Aussage eine Tautologie oder allgemeingültig. Weitere Beispiele für Tautologien sind:
¬¬A ↔ A
(doppelte Verneinung, duplex negatio affirmat)
A ∨ ¬A
¬ (A ∧ B) ↔ ¬ A ∨ ¬ B,
(Prinzip vom ausgeschlossenen Dritten, tertium non datur)
¬ (A ∨ B) ↔ ¬ A ∧ ¬ B
A → B ↔ (¬ B → ¬ A)
(A → B) ∧ (¬ A → B) → B
(De-Morgan-Regeln)
(Kontrapositionsgesetz)
(Fallunterscheidung)
256
Anhänge
2. Quantoren
Zur Formulierung mathematischer Aussagen werden neben den Junktoren häufig Quantoren der Form „für alle“ und „es gibt ein“ verwendet. Einige Beispiele sind:
Es gibt ein x mit f(x) = 0.
( f besitzt eine Nullstelle)
Für alle n gibt es ein p ≥ n, sodass p und p + 2 prim sind.
(Existenz unendlich vieler Primzahlzwillinge)
Es gibt ein e mit x ⴰ e = e ⴰ x = x.
(Existenz eines neutralen Elements)
Für alle x gibt es ein y mit x ⴰ y = y ⴰ x = e.
(Existenz inverser Elemente)
Wie für die Junktoren können wir eine Tabelle angeben:
Zeichen
Bedeutung
Name
∀
für alle …
Allquantor
∃
es gibt (mindestens) ein …
Existenzquantor
Die drei wichtigsten Quantorenregeln sind:
¬ ∀x A(x)
↔
∃ x ¬ A(x)
¬ ∃ x A(x)
↔
∀x ¬ A(x)
∃ x ∀y A(x, y)
→
∀y ∃ x A(x, y)
Beispiele
(1) Sei A(x) = „Der Zwerg x hat rote Haare.“ Dann bedeuten
¬ ∀x A(x): „Nicht jeder Zwerg hat rote Haare.“
∃ x ¬ A(x): „Es gibt einen Zwerg, der keine roten Haare hat.“
Diese Aussagen sind äquivalent.
(2) Sei A(x, y) = „Der Lehrer x unterrichtet das Fach y.“ Dann bedeuten:
∃ x ∀y A(x, y): „Es gibt einen Lehrer, der jedes Fach unterrichtet.“
∀y ∃ x A(x, y): „Jedes Fach wird von mindestens einem Lehrer unterrichtet.“
Die erste Aussage ist für viele Schulen falsch, die zweite für die meisten Schulen
richtig.
Anhänge
257
3. Zum Funktionsbegriff
Abbildungen und ihre Graphen
Eine Funktion (gleichwertig: Abbildung, Zuordnung, Operator, Familie, Transformation) ist eine rechtseindeutige Relation (vgl. 1.4). Dadurch wird eine Funktion f mit ihrem
Graphen identifiziert:
f = graph(f ) = { (a, b) | f(a) = b } = { (a, b) | (a, b) ∈ f }.
Bemerkung
Diese Definition ist in der mathematischen Grundlagenforschung vorherrschend.
In der Algebra wird eine Funktion oft auch als Tripel f = (graph(f ), A, B) in der
Bedeutung f : A → B erklärt. Dadurch ergeben sich kleinere begriffliche und notationelle Unterschiede.
Definitionsbereich, Wertebereich, Wertevorrat
Jede Funktion f hat einen eindeutig bestimmten Definitionsbereich (engl. domain)
Def(f ) = { a | f(a) ist definiert } = { a | es gibt ein b mit f(a) = b }
und einen eindeutig bestimmten Wertebereich (engl. range)
Bild(f) = { f(a) | a ∈ Def(f ) }.
Wir schreiben f : A → B, falls A = Def(f ) und Bild(f ) ⊆ B. Die Menge B heißt dann ein
Wertevorrat oder eine Zielmenge für f. Ein Wertevorrat ist nicht eindeutig bestimmt. Für
jede Obermenge B von Bild(f ) gilt f : A → B.
Bemerkung
(a) Die Sprechweisen über Wertebereich und Wertevorrat sind nicht einheitlich.
(b) In der Tripeldefinition ist (graph(f ), A, B) ≠ (graph(f), A, C) für B ≠ C.
Ein Wertevorrat gehört hier zu einer Funktion fest mit dazu.
Terme und Variablen
Eine Funktion kann durch einen Term definiert sein, muss es aber nicht. In vielen Fällen ist eine Termdefinition nicht möglich (auch in der Analysis nicht, vgl. 1. 5). Um die
Sprechweise und Notation zu vereinfachen, wird oft vereinbart, dass eine Funktion mit einem sie definierenden Term gleichgesetzt wird. Der Definitionsbereich muss aber aus
dem Kontext heraus klar werden (Beispiel: die Funktion x2 auf [ 0, ∞ [ ⊆ ⺢). Eine Variable
muss bei der Angabe einer Funktion nicht angegeben werden (also einfach f statt f(x)).
Auch hier gilt, dass die Angabe einer Variablen suggestiv und notationell vorteilhaft sein
kann, man denke etwa an x(t) für eine zeitabhängige Ortsfunktion x : ⺢ → ⺢ oder die Bedeutung der Variablen bei der Berechnung von Integralen.
258
Anhänge
4. Zahlen
Wir stellen die wesentlichen Strukturmerkmale des Zahlsystems
⺞ ⊆ ⺪ ⊆ ⺡ ⊆ ⺢ ⊆ ⺓
im Überblick vor.
Die natürlichen Zahlen
Die natürlichen Zahlen sind durch ein Anfangselement 0 und die Nachfolgerbildung,
die jeder natürlichen Zahl n ihren Nachfolger S(n) zuordnet, bestimmt:
0, S(0), S(S(0)), S(S(S(0))), …, n, S(n), …
Das Anfangselement ist kein Nachfolger und je zwei verschiedene Zahlen haben verschiedene Nachfolger. Weiter wird jede Zahl n von der 0 aus erreicht, wenn wir S oft genug anwenden. Genauer kann man zeigen, dass es bis auf Isomorphie (bis auf die Namen der
Zahlen) genau eine Struktur (⺞, S, 0) mit S : ⺞ → ⺞, 0 ∈ ⺞ gibt mit:
(a) ∀n S(n) ≠ 0 ,
(Nachfolgeraxiom 1)
(b) ∀n, m (n ≠ m → S(n) ≠ S(m)),
(Nachfolgeraxiom 2)
(c) ∀X ⊆ ⺞ (0 ∈ X ∧ ∀n (n ∈ X → S(n) ∈ X) → X = ⺞).
(Induktionsaxiom)
Die Aussagen (a), (b), (c) heißen die Dedekind-Peano-Axiome. Die Funktion S heißt die
Nachfolgerfunktion und für alle n ∈ ⺞ heißt S(n) der (unmittelbare) Nachfolger von n (das „S“
steht für „successor“). Weiter heißt die 0 das Anfangselement von ⺞.
Mit Hilfe der Axiome der Mengenlehre kann man eine Struktur (⺞, S, 0) konstruieren,
die die Dedekind-Peano-Axiome erfüllt. Für die heute bevorzugte Konstruktion gilt:
0 = ∅, 1 = S(0) = { 0 }, 2 = S(1) = { 0, 1 }, …, S(n) = n ∪ { n } = { 0, …, n }, …
Damit sind die natürlichen Zahlen als Mengen eingeführt.
Aus der Nachfolgerfunktion S lässt sich die gesamte Arithmetik auf ⺞ gewinnen. Für
alle m ∈ ⺞ definiert man durch Rekursion nach n ∈ ⺞:
m + 0 = m, m + S(n) = S(m + n),
(Addition auf ⺞)
m ⋅ 0 = 0, m ⋅ S(n) = m n + m,
(Multiplikation auf ⺞ )
m0 = 1, mS(n) = mn ⋅ m.
(Exponentiation auf ⺞)
Die bekannten Rechenregeln lassen sich nun mit Hilfe des Induktionsaxioms beweisen.
Auf ⺞ erhält man eine lineare Ordnung ≤, indem man für alle n, m ∈ ⺞ setzt:
n ≤ m, falls ∃ k n + k = m.
(Ordnung auf ⺞)
Diese Ordnung ist eine Wohlordnung auf ⺞, d. h., jede nichtleere Teilmenge von ⺞ besitzt
ein kleinstes Element (Prinzip vom kleinsten Element).
Anhänge
259
Die ganzen Zahlen
Die Idee ist, ganze Zahlen als Paare (n, m) von natürlichen Zahlen n, m einzuführen.
Dabei steht (n, m) intuitiv für n − m, speziell also (n, 0) für n und (0, m) für − m. Da bei
dieser Lesart (n, m) und (n + k, m + k) für alle k gleich sind, ist die Einführung einer Äquivalenzrelation nötig. Für alle (n, m), (n′, m′) ∈ ⺞ setzt man:
(n, m) ⬃ (n′, m′), falls n + m′ = n′ + m,
⺪ = ⺞2 /⬃,
(Menge der ganzen Zahlen)
[ n, m ] = (n, m)/⬃,
(Vereinfachung der Notation)
(Addition auf ⺪)
[ n, m ] + [ n′, m′ ] = [ n + n′, m + m′ ],
[ n, m ] ⋅ [ n′, m′ ] = [ n n′ + m m′, n m′ + m n′ ].
(Multiplikation auf ⺪)
Die Struktur (⺪, +, ⋅) ist ein Ring. Durch Identifikation von n mit [ n, 0 ] kann man ⺞ ⊆ ⺪
annehmen. Weiter gelten
− [ n, m ] = [ m, n ],
n − m = [ n, 0 ] − [ m, 0 ] = [ n, 0 ] + [ 0, m ] = [ n, m ] für alle n, m ∈ ⺞.
Damit haben wir die ursprüngliche Motivation wiedergefunden. Wir können [ n, m ]
durch n − m ersetzen.
Eine lineare Ordnung auf ⺪ erhält man durch
[ n, m ] ≤ [ n′, m′ ], falls n + m′ ≤ m + n′ (in ⺞).
(Ordnung auf ⺪)
Die rationalen Zahlen
Ähnlich verläuft die Konstruktion von ⺡. Die Idee ist, dass das Paar (a, b) ∈ ⺪ × ⺪* den
Bruch a/b repräsentiert (mit ⺪* = ⺪ − { 0 }). Für alle (a, b), (c, d) ∈ ⺪ × ⺪* setzen wir:
(a, b) ⬃ (c, d), falls a d = b c,
⺡ = (⺪ × ⺪*)/⬃,
(Menge der rationalen Zahlen)
a/b = (a, b)/⬃,
(Vereinfachung der Notation)
(Addition auf ⺡)
a/b + c/d = (ad + bc)/(bd),
a/b ⋅ c/d = (ac)/(bd).
(Multiplikation auf ⺡)
Es entsteht so der Körper (⺡, +, ⋅). Durch Identifikation von a/1 mit a für alle a ∈ ⺪ erhält
man ⺪ ⊆ ⺡. Es gilt
b−1 = (b/1)−1 = 1/b
a⋅b
−1
für alle b ∈⺪*,
= a ⋅ 1/b = a/b für alle a, b ∈ ⺪ mit b ≠ 0.
Schließlich wird ⺡ zu einem angeordneten Körper durch die Definition
a/b ≤ c/d, falls ad ≤ bc (in ⺪)
für alle a, b, c, d ∈ ⺪ mit b, d > 0.
(Ordnung auf ⺡)
260
Anhänge
Die reellen Zahlen
Der Schritt von ⺡ nach ⺢ ist der komplizierteste, aber auch spannendste Erweiterungsschritt. Während ⺞, ⺪ und ⺡ abzählbar sind, entsteht nun eine überabzählbare Menge
von Zahlen.
Ausgangspunkt ist die Existenz ir⺡
rationaler Größen wie 兹2, 兹3, π, e.
f
Die Irrationalität von 兹2 führt zum
Beispiel dazu, dass f : ⺡ → ⺡ mit
1
f(q) = q2 − 2 für alle q ∈ ⺡
A
keine Nullstellen besitzt. Der Zahlenstrahl ⺡ ist damit kein Kontinuum,
wie es in der Analysis benötigt wird.
Von einem Kontinuum verlangen wir
folgende Eigenschaft:
1
1
⺡
1
Jede nichtleere und beschränkte Menge X von Punkten besitzt ein Supremum
(kleinste obere Schranke), d. h., es gibt einen Punkt s mit:
(a) x ≤ s für alle x ∈ X
(b) Ist t ein Punkt mit x ≤ t für alle x ∈ X, so ist s ≤ t.
(lineares Vollständigkeitsaxiom)
Ist s das Supremum von X, so schreibt man s = sup(X). Analog wird das Infimum s = inf(X)
einer beschränkten nichtleeren Menge X als die größte untere Schranke von X definiert.
Anschaulich ist sup(X) der rechte und inf(X) der linke Randpunkt der Menge X. Diese
Punkte können der Menge X als Element angehören oder nicht.
Es ist hier nicht der Ort, die Konstruktion eines Kontinuums im Detail zu diskutieren.
Im Wesentlichen besteht sie darin, alle Lücken von ⺡ mit neuen „irrationalen“ Zahlen zu
füllen. Eine Lücke von ⺡ wird dabei durch eine nichtleere und beschränkte Teilmenge A
von ⺡ markiert, die kein Supremum oder kein Infimum in ⺡ besitzt. Ein Beispiel ist
A = { q ∈ ⺡ | q2 < 2 }.
Die Menge A besitzt obere Schranken in ⺡ wie zum Beispiel 2, 3/2 oder 1,42, aber kein
Supremum in ⺡. Jede obere Schranke von A in ⺡ kann noch verkleinert werden. Analog
lässt sich jede untere Schranke von A in ⺡ noch vergrößern. Die durch A markierten Lükken von ⺡ entsprechen genau den Nullstellen der oben betrachteten Funktion f.
Zum Füllen der Lücken von ⺡ stehen verschiedene Methoden zur Verfügung. Man
kann zum Beispiel Teilmengen von ⺡ (Konstruktion von Dedekind) oder Folgen rationaler Zahlen verwenden (Konstruktion von Cantor). Insgesamt entsteht ein angeordneter
Körper ⺢, der das Vollständigkeitsaxiom erfüllt. Man kann weiter zeigen, dass dieser Körper bis auf Isomorphie eindeutig bestimmt ist, sodass alle Konstruktionen von ⺢ äquivalent sind. In ⺢ stehen nun die Zahlgrößen 兹2, 兹3, e, π, … zur Verfügung. Dabei ist „…“
trügerisch, da es überabzählbar viele irrationale Zahlen gibt. Das Vollständigkeitsaxiom
ist ohne Überabzählbarkeit nicht zu haben.
Anhänge
261
Die komplexen Zahlen
Die Erweiterung der reellen Zahlen ⺢ zu den komplexen Zahlen ⺓ ist aus technischer
Sicht wieder leicht möglich. Die Idee ist, den reellen Zahlen ⺢ negative Wurzeln hinzufügen, sodass zum Beispiel die Gleichung x2 + 1 = 0 eine Lösung im erweiterten Zahlbereich
besitzt. Diese Erweiterung lässt sich anschaulich durchführen, indem man die Punkte der
Ebene als Zahlen auffasst. Man setzt
⺓ = ⺢2 ,
(Menge der komplexen Zahlen)
(x1 , y1 ) + (x2 , y2 ) = (x1 + x2 , y1 + y2 ),
(komplexe Addition)
(x1 , y1 ) ⋅ (x2 , y2 ) = (x1 x2 − y1 y2 , x1 y2 + x2 y1 )
für alle (x1 , y1 ), (x2 , y2 ) ∈ ⺓. Die Addition ist
die übliche Vektoraddition in ⺢2 . Auch die
Multiplikation hat eine einfache geometrische Interpretation. Sind z, w ∈ ⺓, so gilt:
(komplexe Multiplikation)
z⋅w
1
w
z
(a) Die Länge von z ⋅ w ist das Produkt der Längen von z und w.
(b) Der (gegen den Uhrzeigersinn
gemessene) Winkel, den z ⋅ w mit
der positiven x-Achse einschließt,
ist die Summe der entsprechenden Winkel von z und w.
1
Multipliziere die Längen und addiere die Winkel.
Die komplexen Zahlen ⺓ bilden einen Körper mit 0 = (0, 0) und 1 = (1, 0). Durch die
Identifikation von x ∈ ⺢ mit (x, 0) ∈ ⺓ erreicht man ⺢ ⊆ ⺓. Weiter setzt man
Re(x, y) = x, Im(x, y) = y,
(Realteil bzw. Imaginärteil von (x, y))
i = (0, 1).
(imaginäre Einheit)
Es gilt i2 = (0, 1)2 = (0 − 1, 0 + 0) = (−1, 0) = −1, sodass i eine Lösung von z2 + 1 = 0 ist. Allgemein hat jedes Polynom über ⺓ eine komplexe Nullstelle (Fundamentalsatz der Algebra).
Die imaginäre Einheit dominiert das Rechnen mit den komplexen Zahlen. Es gilt
(x, y) = x + i y = Re(x, y) + i Im(x, y)
für alle x, y ∈ ⺢,
(x1 , y1 ) ⋅ (x2 , y2 ) = (x1 + i y1 ) (x2 + i y2 ) =
x1 x2 − y1 y2 + i (x1 y2 + x2 y1 ) = (x1 x2 − y1 y2 , x1 y2 + x2 y1 )
für alle x1 , y1 , x2 , y2 ∈ ⺢.
Die komplexe Multiplikation lässt sich also aus i 2 = − 1 durch Ausmultiplizieren motivieren (und rekonstruieren).
Eine wichtige Operation ist die Konjugation, die für alle z = (x, y) ∈ ⺓ definiert ist durch
z = Re(z) − i Im(z) = x − i y.
(komplex Konjugierte von z)
Sie entspricht der Spiegelung an der x-Achse. Für alle z ∈ ⺓ gilt z z = Re(z)2 + Im(z)2 ∈ ⺢,
sodass z z das Quadrat der euklidischen Länge |z| = 兹x2 + y2 von z = (x, y) ist.
262
Anhänge
5. Geometrische Grundlagen
Die euklidische Ebene ist definiert durch
⺢
2
w
= ⺢ × ⺢ = { (x, y) | x, y ∈ ⺢ } =
{ v | v = (v1 , v2 ) mit v1 , v2 ∈ ⺢ }.
Für alle Vektoren v = (v1 , v2 ), w = (w1 , w2 )
der Ebene definieren wir das euklidische
Skalarprodukt 〈v, w〉 von v und w und die
Norm oder Länge 储 v 储 von v durch
储 w 储 cos α
〈v, w〉 = v • w = v1 w1 + v2 w2 ,
〈v, w〉 = 〈w, v〉 = 储 v 储 储 w 储 cos α
兹v12 + v22 .
储 v 储 = 兹〈v, v〉 =
v
α
Kreise und Ellipsen
Für alle r > 0 ist die Kreislinie mit Radius r und Mittelpunkt 0 definiert durch
K r = { v ∈ ⺢2 | 储 v 储 = r } = { (x, y) ∈ ⺢2 | x2 + y2 = r2 } = { (cos α, sin α) | α ∈ [ 0, 2π [ }.
Für alle a, b ∈ ⺢ ist
Ea, b = { (a x, b y) | (x, y) ∈ K 1 } = { (a cos α, b sin α) | α ∈ [ 0, 2π [ }.
eine achsenparallele Ellipse mit den Halbachsen |a| und |b| (ist a = 0 oder b = 0, so ist die
Ellipse degeneriert). Für a, b ≠ 0 erhält man die Darstellung
y 2
x 2
+
(x, y) ∈ ⺢2
= 1 .
Ea, b =
b
a
{
}
Allgemeine Ellipsen mit Mittelpunkt 0 entstehen aus den achsenparallelen Ellipsen
durch Drehung. Sie haben (was keineswegs trivial ist) die Form
Ea, b, c, d = { (ax + by, cx + dy) | (x, y) ∈ K1 }, mit beliebigen a, b, c, d ∈ ⺢.
Eine Ellipse erscheint so als das Bild des Einheitskreises unter einer linearen Abbildung
(vgl. 4. 6 und 8. 9).
2
2
Ea, b für
Ea, b, c, d für
a = 2, b = 1
1
a = 兹3 = 2 cos α
1
b = −1/2 = − sin α
2
1
1
1
2
2
1
1
1
2
c = 1 = 2 sin α
d = 兹3/2 = cos α
mit α = π/6
2
2
Anhänge
263
Geraden
Für alle v ∈ ⺢2 − { 0 } ist
w
Uv = { α v | α ∈ ⺢ }
die durch den Richtungsvektor
v definierte Gerade durch den
Nullpunkt. Eine alternative
Möglichkeit, eine Gerade zu
definieren, ist, alle auf einem
bestimmten Vektor w ≠ 0 senkrecht stehenden Vektoren zu
betrachten:
2
Uv = Uw, ⊥
1
1
1
v
2
1
Uw, ⊥ = { v ∈ ⺢2 | 〈v, w〉 = 0 } = { (x, y) ∈ ⺢ | x w1 + y w2 = 0 }.
Die Dimension n = 3
Im dreidimensionalen Raum ⺢3 = ⺢2 × ⺢ = { (v1 , v2 , v3 ) | v1 , v2 , v3 ∈ ⺢ } sind das euklidische Skalarprodukt und die euklidische Länge definiert durch
〈v, w〉 = v • w = v1 w1 + v2 w2 + v3 w3 ,
兹v12 + v22 + v32 .
储 v 储 = 兹〈v, v〉 =
Für alle r > 0 ist
K r = { v ∈ ⺢3 | 储 v 储 = r } = { (x, y, z) ∈ ⺢3 | x2 + y2 + z2 = r2 }
die Oberfläche einer Kugel mit Radius r und Mittelpunkt 0. Weiter ist
Ea, b, c = { (a x, b y, cz) | (x, y, z) ∈ K 1 }
ein achsenparalleles Ellipsoid mit den Halbachsen |a|, |b|, |c|. Allgemeine Ellipsoide
mit Mittelpunkt 0 haben die Form (vgl. 8. 9)
{ (a11 x + a12 y + a13 z, a21 x + a22 y + a23 z, a31 x + a32 y + a33 z) | (x, y, z) ∈ K1 }.
Sind u und v Vektoren des ⺢3 ,
die nicht auf einer gemeinsamen
Geraden liegen, so ist
U = { αu + βv | α, β ∈ ⺢ }
2
U
w
2
2
3
eine Ebene des ⺢ . Alternativ
kann man eine Ebene als Menge
{ v ∈ ⺢3 | 〈v, w〉 = 0 } aller Vektoren definieren, die auf einem
Vektor w ≠ 0 senkrecht stehen.
2
2
2
264
Anhänge
6. Die Axiome der Mengenlehre
Die gesamte Mathematik lässt sich aus dem Mengenbegriff entwickeln. Zahlen, Relationen, Funktionen, algebraische Strukturen usw. lassen sich als Mengen einführen. Neben
der Gleichheit = wird dabei nur die Elementbeziehung ∈ verwendet. Die Eigenschaften
von ∈ werden durch Axiome beschrieben, auf die sich ein Mathematiker bewusst oder unbewusst stützt. Wir stellen die weit verbreitete Zermelo-Fraenkel-Axiomatik ZFC kurz vor
(Z = Ernst Zermelo, F = Abraham Fraenkel, C = „axiom of choice“ = Auswahlaxiom). Dieses
System besteht aus den folgenden Axiomen:
I. Extensionalitätsaxiom
Zwei Mengen sind genau dann gleich, wenn sie dieselben Elemente besitzen.
Eine Menge ist also durch ihre Elemente vollständig bestimmt.
II. Existenz der leeren Menge
Es gibt eine Menge, die kein Element enthält.
Die leere Menge wird mit ∅ oder { } bezeichnet.
III. Paarmengenaxiom
Zu je zwei Mengen a, b existiert eine Menge c, die genau a und b als Elemente hat.
Wir schreiben c = { a, b }. Mit Hilfe des Axioms können wir (a, b) = { { a }, { a, b } } setzen
und damit Relationen und Funktionen einführen (dabei ist { a } = { a, a }).
Hier und im Folgenden verwenden wir kleine Buchstaben a, b, c, … für Mengen. Da
jedes Objekt der Theorie eine Menge ist, ist jedes Objekt auch eine Menge von Mengen, sodass die Unterscheidung zwischen Punkt/Zahl, Menge, Mengensystem in der
axiomatischen Mengenlehre streng genommen bedeutungslos ist. Natürlich werden
Mengen in konkreten Kontexten suggestiv mit M, Ꮽ usw. bezeichnet.
IV. Aussonderungsschema
Zu jeder Eigenschaft Ᏹ und jeder Menge a gibt es eine Menge b, die genau die
Elemente c von a enthält, auf die Ᏹ zutrifft.
Wir schreiben b = { c ∈ a | Ᏹ(c) }. Für alle d gilt d ∈ b genau dann, wenn d ∈ a und Ᏹ(d).
Da jeder Eigenschaft ein Axiom entspricht, spricht man von einem Axiomschema. Das
System ZFC umfasst damit unendlich viele Axiome. Das Aussonderungsschema ist ein
Ersatz für das inkonsistente Komprehensionsschema, das die Bildung von
{ c | Ᏹ(c) }
(unbeschränkte Komprehension)
und damit die Russell-Zermelo-Komprehension { c | c ∉ c } erlaubt. Aussonderung genügt in vielen Fällen, da zumeist ein „großer Bereich“ wie ⺞, ⺢, ⺢2 usw. untersucht wird,
für dessen Teilmengen man sich interessiert. Das Aussonderungsschema wird nun durch
weitere Axiome ergänzt, die die Bildung dieser „großen Bereiche“ ermöglichen.
Anhänge
265
V. Vereinigungsmengenaxiom
Zu jeder Menge a existiert eine Menge b, deren Elemente genau die Elemente der
Elemente von a sind.
Wir schreiben b = 艛 a und setzen a ∪ b = 艛 { a, b }.
VI. Unendlichkeitsaxiom
Es existiert eine Menge a, die die leere Menge als Element enthält, und die mit jedem ihrer Elemente b auch b ∪ { b } als Element enthält.
Man setzt 0 = ∅, 1 = { 0 }, 2 = 1 ∪ { 1 }, …, n + 1 = n ∪ { n }, … Aus dem Axiom folgt, dass
⺞ = { 0, 1, 2, … } existiert. Genauer nennt man eine Menge a wie im Unendlichkeitsaxiom
induktiv und definiert ⺞ als den Durchschnitt aller induktiven Mengen. Man kann zeigen,
dass (⺞, S, 0) mit S(n) = n ∪ { n } für alle n ∈ ⺞ die Dedekind-Peano-Axiome erfüllt.
VII. Potenzmengenaxiom
Zu jeder Menge a existiert die Menge b aller Teilmengen von a.
Wir schreiben b = P(a). Das Axiom führt zu überabzählbaren Mengen. Aus P(⺞) gewinnt man die reellen Zahlen ⺢ und aus P(⺢) die Menge aller Funktionen von ⺢ nach ⺢.
VIII. Ersetzungsschema
Sei Ᏹ(a, b) eine Eigenschaft derart, dass für jede Menge a genau eine Menge b
existiert mit Ᏹ(a, b). Dann existiert für jede Menge c die Menge, die entsteht,
wenn jedes Element a von c durch das eindeutige b mit Ᏹ(a, b) ersetzt wird.
Das Schema erlaubt die Definition von Funktionen f auf einer Menge c der Form
f(a) = „das eindeutige b mit Ᏹ(a, b)“ für alle a ∈ c
(vgl. 1. 5). Oft genügt das Aussonderungsschema: Weiß man, dass alle (a, b) mit Ᏹ(a, b)
einer Menge d angehören, so ist f = { (a, b) ∈ d | Ᏹ(a, b) }. Das Ersetzungsschema erweist
sich aber als eine echte Verstärkung des Aussonderungsschemas.
IX. Fundierungsaxiom oder Regularitätsaxiom
Jede nichtleere Menge a besitzt ein Element b mit a ∩ b = ∅.
Das Fundierungsaxiom wird außerhalb der Mengenlehre kaum benutzt. In der Mengenlehre ermöglicht es einen stufenweisen Aufbau des Mengenuniversums, bei dem jeder
Menge ein Maß für ihre Komplexität zugewiesen wird.
X. Auswahlaxiom
Ist a eine Menge, deren Elemente nichtleer und paarweise disjunkt sind, so existiert
eine Menge b, die mit jedem Element von a genau ein Element gemeinsam hat.
Wir verweisen den Leser auf 1. 11 für eine Diskussion des Auswahlaxioms.
266
Literatur
Literatur
Birkhoff, Garrett / Mac Lane, Saunders A Survey of Modern Algebra. Macmillan, NewYork,
3. Auflage 1965.
Bosch, Siegfried Lineare Algebra. Springer, Berlin, 4. Auflage 2009.
− Algebra. Springer Spektrum, Berlin, 8. Auflage 2013.
Deiser, Oliver Reelle Zahlen. Springer, Berlin, 2. Auflage 2008.
− Einführung in die Mengenlehre. Springer, Berlin, 3. Auflage 2009.
− Grundbegriffe der wissenschaftlichen Mathematik. Springer, Berlin, 2010.
− Erste Hilfe in Analysis. Springer Spektrum, Berlin, 2012.
− Analysis 1. Springer Spektrum, Berlin, 2. Auflage 2013.
− Analysis 2. Springer Spektrum, Berlin, 2013.
Deiser, Oliver / Lasser, Caroline / Vogt, Elmar / Werner, Dirk 12 x 12 Schlüsselkonzepte
zur Mathematik. Spektrum, Heidelberg, 2011.
Ebbinghaus, Heinz-Dieter et al. Zahlen. Springer, Berlin, 3. Auflage 1992.
Fischer, Gerd Lernbuch Lineare Algebra und Analytische Geometrie. Springer Spektrum,
Berlin, 2. Auflage 2012.
Halmos, Paul Naive Mengenlehre. Vandenhoeck & Ruprecht, Göttingen 5. Auflage 1994
Huppert, Bertram / Willems, Wolfgang Lineare Algebra. Vieweg+Teubner, Wiesbaden,
2. Auflage 2010.
Jänich, Klaus Lineare Algebra. Springer, Berlin, korrigierter Nachdruck der 11. Auflage 2013.
Koecher, Max Lineare Algebra und analytische Geometrie. Springer, Berlin, korrigierter
Nachdruck der 4. Auflage 2003.
Kowalsky, Hans-Joachim / Michler, Gerhard Lineare Algebra. De Gruyter, Berlin,
12. Auflage 2003.
Lipschutz, Seymour Lineare Algebra. McGraw-Hill, Hamburg, Nachdruck 1988.
Lax, Peter Linear Algebra and its Applications. Wiley, New Jersey, 2. Auflage 1997.
Reiss, Kristina / Schmieder, Gerald Basiswissen Zahlentheorie. Springer, Berlin, 2. Auflage 2007.
Scheja, Günter / Storch, Uwe Lehrbuch der Algebra 1. B. G. Teubner, Stuttgart, 2. Auflage 1994.
− Lehrbuch der Algebra 2. B. G. Teubner, Stuttgart, 1988.
Stroth, Gernot Lineare Algebra. Heldermann, Berlin, 2008.
Trefethen, Lloyd / Bau, David Numerical Linear Algebra. SIAM, Philadelphia 1997.
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9, © Springer-Verlag Berlin Heidelberg 2015
Notationen
267
Notationen
Kapitel 0
a R b R c, 18
∏ i ∈ I Bi , 30
x ∈ M, x ∉ M, 8
d | a, 19
f(a1 , …, an ), 32
⺞, ⺪, ⺡, ⺢, 8
a ⬅m b, a ⬅ b mod(m), 19
a + b, a ⋅ b, a ⴰ b, …, 32
∅, { }, 8, 10, 13
a/⬃, [ a ]⬃ , [ a ], 20
〈B〉, 〈b1 , …, bm 〉, 32
N ⊆ M, N ⊂ M, 9
A/⬃, 20
f −1 , 34
M ⊇ N, M ⊃ N, 9
[ a ]m , 21
|A| ≤ (=, ≥) |B|, 36
{ x1 , …, xn }, 10, 13
⺪m , 21
(x1 , …, xn ), 11, 13, 27
X ≤ a, a ≥ X, 22
Kapitel 2
{ x | Ᏹ(x) }, 12
a ≤ X, X ≥ a, 22
e, 1, 0, 46
{ x ∈ A | Ᏹ(x) }, 13
max(X), min(X), 22
an , 45, 46
A × B, A × B × C, …, 13
sup(X), inf(X), 22
∏ k ≤ n ak , 45, 46
A2 , A3 , …, 13
≤ lex , 23
a− n , 48
P(M), 13
f(a) = b, 24
⺪m , ⺪m*, 49, 59
A ∩ B, A ∪ B, 14
f : a 哫 b, 24
SA , Sn , 49
A − B, A \ B, 14
idA , 24
M× , 49
Ac , 14
const Ac , 24
n a, 53
A Δ B, 14
χ AB , 1AB , 24
− a, a − b, 53
傽 Ꮽ, 艛 Ꮽ, 14
f : A → B, 28
∑ k ≤ n ak , 53
Ꮽc , 14
f : A ∋ a 哫 f(a) ∈ B, 28
1/a, a/b, 53, 60
(ba )a ∈ A , (b a | a ∈ A), 28
m⺪, ⺪m, 55
Kapitel 1
g ⴰ f , 30
H a, a H, 56
a R b, 18
f [ X ], f −1 [ Y ], 30
G/H, 56
Def(R ), dom(R), 18
f|C, 30
a + H, 57
Bild(R), rng(R), 18
BA , A B, 30
⺪/m⺪, 57
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9, © Springer-Verlag Berlin Heidelberg 2015
268
Notationen
R× , 58
Kapitel 4
Kapitel 6
K*, 60
G ⬵ G′, 98
〈x, y〉, 148
char(K), 61
Aut(G), 99
储 x 储 , 148
sgn(a), 62
Kern(ϕ), Bild(ϕ), 100
α(x, y), 149
K+ , K +0 , 62
L f (w), 110
〈z, w〉, 150
R(⺞) , 64
ΦB , 112
A, 151
X = (0, 1, 0, 0, 0, …), 64
HomK (V, W), EndK (V), 116
〈v, w〉, 152
R[ X ], 64
V*, 118
ᐉ 2⺢ , ᐉ⺓2 , 153
deg, 64
vj *, 118
N(v), 154
μp (w), 67
δ j, k , 118
储 x 储 ∞ , 155
f * : W* → V*, 119
储 x 储 p , 155
储 f 储 ∞ , 155
Kapitel 3
∏ i ∈ I Vi , 74
Kapitel 5
U ⊥ , 162
V n , V I , 74
A(i, j) = ai,j , 122
PU , 162
Kn , KI , 75
Km × n , 122
A*, 165
V (I) , 75
En , 123
O(n), 165
span(A), 〈A〉, 76
diag(a1 , …, an ), 123
U(n), 165
∑ i ∈ I αi vi , 76
Ei j , 123
f * : W → V, 168
ei , 77
fA , 124
f ⴰ : W* → V*, 168
∑ i ∈ I αi vi , 80
Kern(A), Bild(A), 124
Aϕ, Ꮽ , 170
ΦB (v), 81
Ꮾ
, „A f bzgl. Ꮽ, Ꮾ“, 128
AᏭ,
f
dim(V), 84
A−1 , 130
Kapitel 7
supp(f ), 88
GL(n, K), 130
det : Kn × n → K, 176
⊕i ∈ I Vi , 88
Wij (λ), 132
sgn : Sn → { −1, 1 }, 178
W1 ⊕ … ⊕ Wn , 88
Pπ , 134
An , 178
⊕i ∈ I Wi , 88
At , 138
Aij , 184
v + U, 90
rang(A), 140
A# , 186
Notationen
SL(n, K), 188
Anhänge
Griechisches Alphabet
E(n, K), 188
¬, ∧, ∨, →, ↔, 254
Alpha
Α
α
O(n), 188
∀, ∃ , 256
Beta
Β
β
SO(n), 188
⺞, ⺪, ⺡, ⺢, ⺓, 258
Gamma
Γ
γ
U(n), 189
sup(X), inf(X), 260
Delta
Δ
δ
SU(n), 189
Re(x, y), Im(x, y), 261
Epsilon
Ε
ε
volr (P), voln (P), 190
i, 261
Zeta
Ζ
ζ
a × b, 192
z, 261
Eta
Η
η
det(f ), 196
ZFC, 264
Theta
Θ
θ, ϑ
Jota
Ι
ι
Kappa
Κ
κ
Lambda
Λ
λ
My
Μ
μ
Ny
Ν
ν
Xi
Ξ
ξ
Omikron
Ο
ο
Pi
Π
π
Rho
Ρ
ρ
K(X), 204
Sigma
Σ
σ, ς
spur(A), 205
Tau
Τ
τ
EA , 216, 217
Ypsilon
Υ
υ
IA , 218
Phi
Φ
ϕ
mf , 219
Chi
Χ
χ
Hk (f, λ), 220
Psi
Ψ
ψ
i(f, λ), 220
Omega
Ω
ω
Kapitel 8
σ(f ), 200
Eig(f, λ), 200
σ(A), 200
Eig(A, λ), 200
AᏭ
f ,
203
pA , pf , 204
✮
269
270
Index
Index
A
bbildung, 24, 257
abelsch, 52
abgebildet (durch eine Funktion), 28
abgeschlossen, 32
Abgeschlossenheitsbedingung, 32f
Abschluss, 32
Abspalten von Nullstellen, 66
abzählbar, 36
abzählbar unendlich, 36
Additionstheoreme, 127
Additionstyp, 132
additive Funktion, 87
additives Inverses, 53
adjungierter Homomorphismus, 168
adjungierte Matrix, 165
Adjunkte, 186
affine Basis, 93
affine Kombination, 92
affiner Koordinatenvektor, 93
affiner Unterraum, 92
ähnlich, 137, 202
Algebra, 117, 127
algebraisch abgeschlossen, 67
algebraische Vielfachheit, 69, 206
allgemeine lineare Gruppe, 130
allgemeiner Darstellungssatz, 109
allgemeingültig, 255
Allquantor, 256
Alternation, 174, 176, 193
alternierende Gruppe, 178
Anfangswertproblem, 250
Angabe von Abbildungen, 29
angeordneter Körper, 62, 260
anordenbar, 62
Anordnungsaxiome, 62
Anteil bzgl. einer Basis, 81
Antikommutativität, 193
antisymmetrisch, 18
Anwendung, 28
äquivalent, 20, 129, 236, 254
Äquivalenzklasse, 20
Äquivalenzrelation, 20
Äquivalenzsatz für Normen, 156
Argument, 28
Assoziativgesetz, 44, 226
Assoziativität, 15
aufeinander senkrecht, 148
Auflistung, 13
Ausräumen, 231
äußere Summe, 88
Aussonderung, 13
Aussonderungsschema, 264
Austauschlemma, 82
Austauschsatz, 82
Auswahlaxiom, 38, 265
Auswahlfunktion, 38
Auswahlmenge, 38
Automorphismengruppe, 99
Automorphismus, 98
Axiomschema, 264
Bac-minus-cab-Regel, 193
Bahn, 179
baryzentrisch, 93
Basis, 80
Basisergänzungssatz, 83, 86
Basisexistenzsatz, 86
Basisvektor, 80
Basiswechsel, 136
Berechnung von Determinanten, 177
Berechnung von Koordinatenvektoren, 131
Bestapproximation, 163
Betrag, 62
Bidualraum, 119
bijektiv, 34
Bild, 18, 30, 100
Bilinearform, 170
Bilinearität, 148, 152, 193
Bindungsstärke, 255
binomischer Lehrsatz, 59
Blockstruktur, 239
boolesche Operationen, 14
Bra-Vektor, 167
Bruchnotation, 60
Bruchrechnen, 61
Cauchy-Schwarz-Ungleichung, 149, 151, 154, 171
Charakteristik, 61
charakteristische Funktion, 24
charakteristisches Polynom, 204
Cholesky-Zerlegung, 194, 233
Dann und nur dann, 254
darstellende Matrix, 124, 128
Darstellung linearer Abbildungen, 108
Darstellungssatz, 108f, 166
De-Morgan-Regeln, 15, 255
Dedekind-Peano-Axiome, 258
definiert/nicht definiert (bei Funktionen), 28
Definitheit, 154, 234
Definitionsbereich, 18, 257
Determinante, 174, 196
Determinantenaxiome, 176
Determinantenfunktion, 174, 176
diagonale Pivots, 142
diagonalisierbar, 202
O. Deiser, C. Lasser, Erste Hilfe in Linearer Algebra,
DOI 10.1007/978-3-642-41627-9, © Springer-Verlag Berlin Heidelberg 2015
Index
Diagonalisierbarkeitskriterium, 206
Diagonalisierung, 231
Diagonalmatrix, 123
Differenz, 14
Dimension, 84, 93
Dimensionsformel für Unterräume, 85
Dimensionsformel für lineare Abbildungen, 114
Dirac-Notation, 167
direkte Summe, 88
disjunkt, 14
Disjunktion, 254
Distributivgesetz, 226
Distributivität, 15
Division, 60
Divisionsbereich, 60
Divisor, 19
Doppelkegel, 235
Dorfbarbier, 12
Drehkästchen, 238
Drehung, 105ff, 125, 189
Dreiecksmatrix, 123
Dreiecksungleichung, 151, 154, 62
Drei-Finger-Regel, 192
duale Abbildung, 119
duale Basis, 118
Dualitätssatz, 139
Dualraum, 118
Durchschnitt, 14
E
chte Obermenge, 9
echte Teilmenge, 9
Eigenraum, 200
Eigenvektor, 200
Eigenwert, 200, 242f
Eigenwertkriterium, 213, 234
eindeutige Nulldarstellung, 78
Einermenge, 13
eingeschlossener Winkel, 149
Einheit, 58
Einheitskreis, 216
Einheitskugel, 156
Einheitsmatrix, 123
Einheitssphäre, 217
Einschränkung, 30
Einsetzen von Ringelementen, 65
einstellige Operation, 32
elementare lineare Gruppe, 188
Elementarmatrix, 132
Eliminationsverfahren, 144
Ellipse, 106, 216, 235, 262
Ellipsoid, 217
endlich, 36
endlich erzeugt, 84
endlich-dimensional, 84
endlicher Körper, 61
Endomorphismus, 98
Entwicklungssatz von Laplace, 184
Epimorphismus, 98
ergibt (bei Funktionen), 28
Ersetzungsschema, 265
erweiterte Koeffizientenmatrix, 145
erzeugend, 76
Erzeugendensystem, 76
erzeugt (von einer Funktion und einer Menge), 32
erzeugte Untergruppe, 55
es gibt, 256
euklidisch, 152
euklidische Norm, 148, 150, 154, 262
Existenz- und Eindeutigkeitssatz, 177
Existenzquantor, 256
Exponent Null, 46
Exponential (Matrix), 248
Extensionalitätsaxiom, 264
Extensionalitätsprinzip, 9
Faktorgruppe, 56
Faktorisierung, 20
Familie, 28, 257
Faser, 30, 110
Fehlstand, 178
Folge, Folgennotation, 28
Formel von Leibniz, 180
Fortsetzungssatz, 107
Fourier-Approximation, 163
Frequenz, 251
Fundamentalsatz der Algebra, 67, 261
Fundierungsaxiom, 265
Funktion, 24
Funktional, 118
für alle, 256
Gauß-Elimination, 144
Gauß-Jordan-Elimination, 144
genau dann, wenn, 254
geometrische Bedeutung der Determinante, 190
geometrische Reihe, 59
geometrische Vielfachheit, 200
geordnetes Paar, 11, 13
gerade, 178
Gershgorin-Kreis, 244
gleichmächtig, 36
Gleichungssystem, 111
Grad, 64
Gradient, 195
gramsche Determinante, 190
gramsche Matrix, 170, 190, 194
Gram-Schmidt-Orthonormalisierung, 160
größte untere Schranke, 260
Grundrechenarten, 60
Gruppe, 48
Gruppe der invertierbaren Elemente, 49
Gruppenaxiome, 49
Gruppenhomomorphismus, 96
Halbachsen, 217
Halbgruppe, 44
Hamel-Basis, 87
harmonischer Oszillator, 251
271
272
Index
Hasse-Diagramm, 22
Hauptachsentransformation, 171, 212
Hauptminoren, 194
Hauptraum, 220
Hauptraumzerlegung, 221
Hauptvektoren, 220
hermitesch, 169
hermitesche Form, 170
Hermitizität, 150, 152
Hesse-Matrix, 195
Hilbert-Raum, 167
Hintereinanderausführung, 31
homogen, 111
Homogenität, 154
Homomorphiesatz, 102
Homomorphismus, 96
Hyperbel, 235
Hyperebene, 189
Ideal, 218
Idempotenz, 163
Identität, 24
imaginäre Einheit, 261
Imaginärteil, 261
Implikation, 254
indefinit, 170
Index, 220
Indexmenge, 28
Indikatorfunktion, 24
Induktionsaxiom, 258
induzierte Matrixnorm, 246
induzierte Norm, 154
Infimum, 22, 260
inhomogen, 111
injektiv, 34
Inklusion, 9
innere Summe, 88
inneres Produkt, 148, 150, 152
Invarianz, 220
invers, 48
Inversenregeln, 50
invertierbar, 49, 58, 130
Invertierung einer Matrix, 133, 231
Invertierungsregel, 135
irrationale Zahlen, 260
irreflexiv, 18
isomorph, 98
Isomorphiesatz, 102, 104, 112
Isomorphismus, 98
Jacobi-Identität, 193
Jordan-Block, 222
Jordan-Kette, 222
Jordan-Normalform, 223, 249
Junktoren, 254
Kanonische Basis, 81
kanonisches inneres Produkt, 148, 150
kanonisches Skalarprodukt, 148, 150
kartesisches Produkt, 30, 38
Kegelschnitt, 235
Kern, 100
Kerndarstellung, 201
Kette, 40
Kettenbedingung, 40
Ket-Vektor, 167
Klammern, 45
Klasseneinteilung, 14
Klassifikation endlicher Körper, 61
Kleinsche Vierergruppe, 51
kleinste obere Schranke, 260
Koeffizient, 64, 111
Koeffizientenmatrix, 145
kommutativ, 52, 58
Kommutativgesetz, 52, 226
Kommutativität, 15
Komplement, 14, 162
komplementäre Matrix, 186
Komplementierung, 15
komplexe Zahl, 261
komponentenweise, 74, 157
Komposition, 30
kongruent, 213
kongruent modulo, 19, 21, 227
Kongruenz (Matrizen), 227
Konjugation (in ⺓), 261
konjugierte Matrix, 151
Konjunktion, 254
konstante Abbildung, 24
Konstruktion linearer Abbildungen, 106
Konstruktion von Abbildungen, 26
Konstruktion von Jordan-Ketten, 222
Konstruktionen von ⺢, 260
Konstruktionssatz, 106
Kontinuum, 260
Kontrapositionsgesetz, 255
Konvergenz, 157
Koordinatenabbildung, 81, 112
Koordinatenberechnung durch Invertierung, 131
Koordinatenbestimmung (Orthonormalbasen), 158
Koordinatenpicker, 118
Koordinatenvektor, 81, 93
Körper, 60, 226
Kosinussatz, 149
Kreislinie, 262
Kreuzprodukt, 13, 192
kritischer Punkt, 195
Kronecker-Symbol, 118, 123
Kuratowski-Paar, 11
Kürzungsregeln, 50
K-Vektorraum, 70
Länge, 80, 148, 261
Längensatz, 83
Längentreue, 164f
leere Menge, 13
leeres Produkt, 46
Legendre-Polynom, 159
Index
Leibniz-Formel, 180
Leitkoeffizient, 64
lexikographische Ordnung, 23
linear, 104
linear abhängig/unabhängig, 78
lineare Abbildung, 104
lineare Ordnung, 22
linearer Operator, 116
lineares Funktional, 118
lineares Gleichungssystem, 111
Linearfaktor, 66
Linearkombination, 76
Linkseindeutigkeit, 34
Linksnebenklasse, 56
Linksshift, 169
Linkstranslation, 51
Lipschitz-stetig, 157
Lösbarkeit von Gleichungen, 50
Lösbarkeitskriterium, 143
Lösen durch Invertierung, 131
Lösen eines Gleichungssystems, 145
Lösungsmenge, 110f
Lösungsraum, 143
LR-Zerlegung, 231, 233, 239
Lücke, 260
Mächtigkeit, 36
Manhattan-Norm, 155
Matrixexponential, 248
Matrixnorm, 246
Matrix-Vektor-Produkt, 124
Matrixzerlegungen, 233
Matrizenmultiplikation, 126
Matrizenring, 127
maximal, 22
maximal linear unabhängig, 80
Maximalstelle, 195
Maximum, 22
Maximumsnorm, 155
Mengenkomprehension, 12
Mengensystem, 11, 14
minimal, 22
minimal erzeugend, 80
Minimalpolynom, 218f
Minimalstelle, 195
Minimum, 22
Minus mal Minus, 58
Modul, 87
modulo, 19f, 90, 227
Monoid, 46
Monomorphismus, 98
Multilinearität, 174, 176
Multiplikationssatz, 182
Multiplikationstyp, 132
N
achfolgeraxiom, 258
Nachfolgerbildung, 32, 238
natürliche Projektion, 99, 102
n-dimensional, 84
Nebenklasse, 56, 90
Negation, 254
negativ, 62
negativ (semi-) definit, 170
neutrales Element, 46
nicht, 254
nichtnegativ, 62
nilpotent, 219
non, 254
Norm, 148, 150, 154
normal, 211, 238
Normalform, 145, 222, 235
Normalformdarstellung, 129, 213
Normalformproblem, 203
Normalteiler, 56
normiert, 64, 148, 150, 154
Normiertheit (Determinante), 174, 176
Normierung, 154
n-stellig, 32
Nullbedingung, 78
Nullmatrix, 123
Nullpolynom, 64
Nullring, 59
Nullstelle, 65f
Nullstellen von pA , 204
Nullstellenabspaltung, 66
nullteilerfrei, 58, 60
Nullvektor, 70
O
bere Dreiecksmatrix, 123
obere Schranke, 22
Obermenge, 9
oder, 254
Operation, 32
Operator, 116, 257
Ordnung, 22
orthogonal, 148, 150, 152, 162, 164
Orthogonalbasis, 158
orthogonale Gruppe, 188
orthogonale Projektion, 162
orthogonale Summe, 162
orthogonaler Homomorphismus, 164
orthogonales Komplement, 162
Orthogonalität (Kreuzprodukt), 193
Orthonormalbasis, 158
Orthonormalisierungsverfahren, 160
P
aar, 11, 13
Paarmengenaxiom, 264
paarweise disjunkt, 14
Parabel, 235
Parallelepiped, 191
Parallelogramm, 191
Parallelogramm-Gleichung, 154
Parallelotop, 190
Parseval-Gleichung, 158
partielle Ordnung, 22
Partition, 14
Peano-Axiome, 258
273
274
Index
Permutation, 26, 49
Permutation der Spalten, 144
Permutationsgruppe, 49
Permutationsmatrix, 134
Pivots, 142
p-Norm, 155
Polarisation, 155
Polarzerlegung, 233
Polynomdivision, 66
Polynom, 64
Polynomfunktion, 65
Polynomring, 64
positiv, 62
positiv definit, 170, 194, 213, 234
positiv semidefinit, 170
positive Definitheit, 148, 150, 152
Positivitätsregel, 62
Potenz, 45, 74
Potenzmenge, 13
Potenzmengenaxiom, 265
Potenzregeln, 45
Prinzip vom ausgeschlossenen Dritten, 255
Prinzip vom kleinsten Element, 258
Produkt, 45, 74
Produktregel, 62
Produkt von Vektorräumen, 74
Projektion, 97, 102, 162, 219
Pullback, 119
Pünktchen-Notation, 13
Punkt-Notation für Abbildungen, 148
punktweise, 74
Q
R-Zerlegung, 160, 233
quadratisch, 122, 213
quadratsummierbare Folgen, 153
Quadrik, 213, 235
Quantoren, 256
Quaternionen, 61
Quotientenraum, 90
R
ang, 140
Rayleigh-Quotient, 243
Realteil, 261
Rechenregeln in Körpern, 61, 63
Rechenregeln in Ringen, 58f
Rechsshift, 169
rechte Seite, 111
Rechte-Hand-Regel, 192
Rechtseindeutigkeit, 24
Rechtsnebenklasse, 56
Rechtstranslation, 51
reflexiv, 18
Regel von Cramer, 187
Regel von Sarrus, 181
Regularitätsaxiom, 265
Relation, 18
Repräsentant, 20
Repräsentantensystem, 20, 38
Rest, 66
Restklassenkörper, 61
Rieszscher Darstellungssatz, 166, 192
Riesz-Vektor, 166
Ring, 58, 226
Rotation, 189, 193
Rotationsspiegelung, 189
Russell-Komprehension, 12
Satz des Pythagoras, 148
Satz von Cantor, 37
Satz von Cantor-Bernstein, 37
Satz von Cayley-Hamilton, 218
Satz von Erdös-Kaplansky, 113
Satz von Lagrange, 56
Satz von Wedderburn, 61
Schiefkörper, 60, 226
schiefsymmetrisch, 251
schließlich gleich 0, 64
Schranke, 22, 260
Schubfachprinzip, 37
Schur-Komplement, 239
Schur-Test (Norm-Abschätzung), 247
Schur-Zerlegung, 208
Schwerpunkt, 93
Seitenwechsel, 234
selbstadjungiert, 168
Seminorm, 171
senkrecht, 148, 150, 152
Sesquilinearform, 170, 213
Sesquilinearität, 150, 152
Signatur, 212
Signum, 178
Singleton, 13
singulär (Matrix), 130
Singulärwert, 214, 216
Singulärwertzerlegung, 214
Skalar, 70
Skalarenkörper, 70
Skalarmultiplikation, 70
Skalarprodukt, 70, 148, 150, 152
Spalte, 122
Spaltenaxiome (Determinante), 183
Spaltenindex, 122
Spaltenrang, 140
Spaltensummennorm, 247
Spann, 76
Spannbedingung, 78
Spektral-Norm, 246
Spektralsatz, 210, 243
Spektrum, 200
spezielle lineare Gruppe, 188
spezielle Lösung, 111
spezielle orthogonale Gruppe, 188
spezielle unitäre Gruppe, 189
Spiegelung, 189
Spur, 205
Standardbasis, 81, 123
Standardvektoren, 77
stehen senkrecht, 150, 152
Index
Stelle einer Funktion, 28
Stelle einer Matrix, 122
strikte partielle Ordnung, 23
Struktur, 44
Subadditivität, 140
Subtraktion, 53
Summe, 53, 88
Summennorm, 155
Supremum, 22, 260
surjektiv, 34
Symmetrie, 148, 152
symmetrisch, 18, 138
symmetrische Bilinearform, 170
symmetrische Differenz, 14
symmetrische Gruppe, 49
T
aubenschlagprinzip, 37
Tautologie, 255
Teilbarkeit, 19, 227
Teiler, 19
Teilmenge, 9
Termauswertung, 26
Termdefinitionen, 26
tertium non datur, 255
total, 22
Träger, 75, 88
Trägermenge, 44
Trägheitssatz, 212
transfinite Zahlen, 41
Transformation, 257
Transformationsformel, 137, 203
Transformationsmatrix, 136
Transitivität, 9, 18
Translation, 51
Translationsinvarianz, 62
transponierte Matrix, 138
Transposition (Permutation), 26
Transpositionsmatrix, 134
Transpositionssatz, 182
Trigonalisierung, 208
trigonometrisches Polynom, 77, 159
Tripel, 11, 13
trivialer Homomorphismus, 97
Tupel, 11
Typ, 212
U
eberabzählbar, 36, 260
Überdeckung, 14
Überführung in Zeilenstufenform, 144
Übergangsmatrix, 136
Umkehrfunktion, 34
Unbestimmte, 64
und, 254
unendlich (Menge), 36
unendlich-dimensional, 84
Unendlichkeitsaxiom, 265
ungerade, 178
unipotent, 232
unitär, 152, 164
unitäre Gruppe, 189
untere Schranke, 22
Untergruppe, 54
Untergruppenkriterium, 54
Unterraum, 72
Unterraumkriterium, 72
Urbild, 30
Vektor, 70
Vektoraddition, 70
Vektorraum, Vektorraumaxiome, 70
Vereinigung, 14
Vereinigungsmengenaxiom, 265
vergleichbar, 22
Vergleichbarkeitssatz, 37
Verknüpfung, 30, 32
Verknüpfungstafel, 46
Vervielfachung, 53
Vielfaches, 19
Vielfachheit, 67, 200, 206
voller Rang, 140
Vollständigkeitsaxiom, 260
Volumenveränderung, 191
Vorzeichen, 62, 178
Vorzeichenfunktion, 178
Wahrheitstafel, 255
Wahrheitswert, 255
Wert, 24, 28
Wertebereich, 18, 257
Wertevorrat, 28, 257
Winkel, 149, 193
Winkeltreue, 165
wohldefiniert, 57
Wohlordnung, 258
Zeile, 122
Zeilenaxiome (Determinante), 183
Zeilenindex, 122
Zeilenrang gleich Spaltenrang, 141, 145
Zeilenstufenform, 142
Zeilensummennorm, 247
Zerlegung (Menge), 14
Zerlegung in Linearfaktoren (Polynom), 66
Zerlegungen von Matrizen, 233
Zermelo-Fraenkel-Axiomatik, 264
Zielmenge, 28, 257
Zielvektor, 111
Zornsches Lemma, 40
zugeordnete lineare Abbildung, 124
Zuordnung, 257
zwischen, 28
zyklisch (Untergruppe), 55
Zyklus (einer Permutation), 179
Satz und Abbildungen:
Oliver Deiser und Caroline Lasser
275
Matrizensterne
a
n=6
n = 12
n = 24
n = 48
Konstruktionsanleitung
Man wähle ein a > 0 (Zackenlänge), n ≥ 3 (Anzahl der Zacken) und setze
α =
2π
, Dα =
n
cos α − sin α
sin α
cos α
, A =
a
a cos α
0
a sin α
,
Q = „das Quadrat mit den Ecken 0, (1, 0), (1, 1), (0, 1)“,
C = „der in Q einbeschriebene Kreis mit Mittelpunkt (1/2, 1/2) und Radius 1/2“.
Die Sterne entstehen durch Zeichnen der Bilder von Q (Parallelogramme) und C (Ellipsen) unter den Abbildungen fA(k) : ⺢2 → ⺢2 , wobei A(k) = Dk α A für 0 ≤ k ≤ n − 1.