/
Text
probabilités
2
master
agrégation
Jean-Yves Ouvrard
CASSINI
Enseignement des mathématiques
1. J.-Y. Ouvrard. Probabilités 1
3. M. Cottrell, V. Genon-Catalot, Ch. Duhamel, Th. Meyre. Exercices de probabilités
4. F. Rouvière, Petit guide de calcul différentiel à l'usage de la licence et de l'agrégation
5. J.-Y. Ouvrard, Probabilités II
6. G. Zémor, Cours de cryptographie
7. A. Szpirglas, Exercices d'algèbre
8. B. Perrin-Riou, Algèbre, arithmétique et Maple
10. S. Francinou, H. Gianella, S. Nicolas, Exercices des oraux X-ENS, Algèbre !
ILS. Francinou, H. Gianella, S. Nicolas, Exercices des oraux X-ENS. Analyse !
12. S. Francinou, H. Gianella, S. Nicolas. Exercices des oraux X-ENS. Algèbre 2
1 ?, S. Francinou, H. Gianella, S. Nicolas. Exercices des oraux X-ENS. Analyse 2
14. S. Francinou, H. Gianella, S. Nicolas, Exercices des oraux X-ENS, Algèbre 3
15. H. Krivine, Exercices de mathématiques pour physiciens
16. J. Jacod, Ph. Prolter, L'essentiel en théorie des probabilités
17. M. Willem, Analyse foncnonnclle élémentaire
18. É. Amar, É. Matheron, Analyse complexe
19. B. Randé, Problèmes corrigés. Concours 2002 et 2003 (MP)
20. D. Perrin, Mathématiques d'école
21. B. Randé, Problèmes corrigés. Concours 2004 (MP)
22. P. Bourgade, Olympiades internationales de mathématiques 1970-2005
2?. V, Prasolov, Problèmes et théorèmes d'algèbre linéaire
24. R. Sa Earp, E. Toubiana, Introduction à ta géométrie hyperbolique cl aux surfaces de Riemann
25. L. Di Menza, Résolution numérique des équations aiLY dérivées partielles
26. B. Candelpergher, Calcul intégral
27. J, Hubbard, B. West, Éqiiaiioni différentielles et systèmes dynamiques, vol. I
28. J. Hubbard, B. West, Équations différentielles et systèmes dynamiques, vol. 2
JEAN-YVES OUVRARD
Probabilités
TOME II
Master — Agrégation
CASSINI
Jean-Yves Ouvrard est maître de conférences à l'Université Joseph Fourier de
Grenoble. Il est docteur d'État en mathématiques.
Troisième édition, 2009
ISBN 978-2-84225-144-4
© Cassini, Paris, 2000.
Premier*; édition (2000) ISBN 2-84225-010-9,
deuxième édition corrigée (2004) ISBN 2-84225-086-7
Table des matières
Introduction I
Chapitre 8. Lois et moments de variables aléatoires 3
8.1. Compléments de théorie de la mesure 3
8.2. Loi d'une variable aléatoire 9
8.3. Moments de variables aléatoires 15
Exercices 29
Chapitre 9. Indépendance de tribus, de variables aléatoires 39
9.1. Indépendance de familles d'événements et de variables aléatoires 39
9.2. indépendance et événements asymptoriques 47
9.3. Quelques résultats liés à l'indépendance et au modèle de pile ou
face 52
9.4. Convolution et loi de la somme de variables aléatoires
indépendantes 61
Exercices 63
Chapitre 10. Convergences et lois des grands nombres 87
10.1. Convergence en probabilité et presque sûre 87
10.2. Convergence hp et équi-intégrabilité 93
10.3. Séries de variables aléatoires indépendantes 98
10.4. Lois des grands nombres 101
Exercices 116
Chapitre 11. Probabilités et espérances conditionnelles 135
11.1. Noyaux et lois conditionnelles 135
11.2. Moments conditionnels 147
11.3. Espérance conditionnelle 150
11.3.1. L'espérance conditionnelle comme projecteur
orthogonal
dansL2(Q,-A,P) 151
11.3.2. Extension de la définition de l'espérance conditionnelle à
L1 (Q, A, P) 154
11.3.3. Extension de la définition de l'espérance conditionnelle à
¦M + (A) 157
v
11.3.4. Théorèmes de convergence 159
11.3.5. Inégalité de Jensen 162
11.3.6. Calcul d'espérance conditionnelle . 163
Exercices . 164
Chapitre 12. Transformées de Fourier et fonctious caractéristiques 191
12.1. Définition et propriétés immédiates 191
12.2. Le théorème d'injectivité 193
12.3. Propriétés relatives à l'indépendance 200
12.4. Fonction caractéristique et moments . 203
Exercices . 212
Chapitre 13. Variables aléatoires gaussiennes 235
13.1. Définition et propriétés 236
13.2. Existence des mesures gaussiennes. Condition d'absolue
continuité 238
13.3. Marginales 244
13.4. Régression ; le modèle linéaire . 250
13.4.1. Estimation des paramètres de régression 252
13.4.2. Le modèle linéaire gaussien 259
Exercices ¦ 2^7
Chapitre 14. Convergence de mesures et convergence en loi 289
14.1. Convergence de mesures bornées sur Rd ........... 289
14.2. Convergence en loi 3°3
14.3. Théorème limite central 3T3
14.4. Estimation 32«
Exercices 327
Chapitre 15. Processus et martingales discrets 349
15.1. Quelques exemples de processus ¦ 349
15.2. Processus et martingales : définitions 35i
15.3. Temps d'arrêt . 354
15.4. Premier théorème d'arrêt 35&
15.5. Lemme maximal et martingales dans L2 360
15.6. Décomposition de Doob 3^5
15.7. Convergence de martingales integrables . 3°9
15.8. Deuxième théorème d'arrêt 376
15.9. Convergence de sous- et surmartingales 378
Exercices 379
Chapitre 16. Chaînes de Markov 397
16.1. Introduction 397
16.2. Indépendance conditionnelle 401
16.3. Chaînes de Markov : propriétés générales 405
16.3.1. Propriété de Markov ; matrices de transition 405
16.3.2. Propriété de Markov simple ; lois fini-dimensionnelles 417
16.3.3. Loi initiale ; propriété de Markov forte 422
16.4. Visites à un état fixe 426
16.4.1. Étude de la suite des temps de passage en un point . . 428
16.4.2. Lois du nombre de visites d'un point et du premier temps
de passage en ce point 430
16.5. Classification des états 435
16.5.1. Communication; périodicité 435
lb.5.2. Récurrence 440
16.5.3. Comportement asymptotique et classification .... 442
16.5.4. Critère analytique de récurrence 450
16.6. Calcul de la matrice potentiel et de P^(T], < +00) 453
16.6.1. Calcul de la matrice potentiel 453
16.6.2. Calcul de F(x, y) = Px(Tly < +00) 454
16.7. Mesures invariantes 457
16.8. Loi forte des grands nombres 470
16.8.1. Théorème de loi forte 470
16.8.2. Estimation de la matrice de transition 475
Exercices 477
Chapitre A. Résumé de théorie de la mesure 517
A.]. Mesure et probabilité 517
A.2. Intégrale 521
A.3. Trois théorèmes de convergence 523
A.4. Mesure produit et théorème de Fubini 526
Index 531
Liste des chapitres du premier tome
1. Phénomènes aléatoires et modèles probabilistes
2. Familles sommables de nombres réels
3. Indépendance
4. Probabilités et lois conditionnelles
5. Moments d'une variable aléatoire discrète
6. Variables aléatoires à densité
7. Approximation de lois. Loi faible des grands nombres
Introduction
^4 mon ami François Brodeau,
avec qui j'ai longuement participé
au jury de l'agrégation.
Le premier tome de cet ouvrage présentait la théorie élémentaire des
probabilités. Nous abordons maintenant l'exposé moderne de cette théorie, qui repose
entièrement sur la théorie de la mesure.
C'est grâce à elle que des fondements rigoureux ont pu être établis pour les
probabilités au xxu siècle, en faisant ainsi une véritable théorie mathématique. La
première note de Lebesgue sur le problème de la mesure date de 1901, l'introduction
du formalisme (Q, A, P) par Kolmogorov date de 1927.
Comme nous l'avons vu dans le premier tome, le simple emploi de ce formalisme
permet de donner un sens précis à la notion d'événement ou de variable aléatoire,
ou à celle d'indépendance. Ce n'était pas du tout évident avant Kolmogorov. Bel
exemple de modélisation réussie... Mais nous avons éprouvé certaines difficultés,
pour le cas des variables aléatoires à densité, à formuler l'analogue du théorème
de transfert, ou à justifier les critères usuels d'indépendance (cf. ch. 6, p. 190,
p. 201) : c'est qu'il faut pour cela toute la force de la théorie de la mesure ; de même
pour formuler et démontrer un résultat de convergence presque sure comme la loi
forte des grands nombres. On n'imagine plus à notre époque d'enseignement des
probabilités, y compris en vue des applications, en-dehors du cadre fourni par la
théorie de la mesure.
Cet ouvrage a été conçu à l'intention des candidats au CAPES et à l'agégation.
Mais la forme que nous lui avons donnée lui permet d'être utilisé tout au long des
études universitaires. Le premier tome sera utile aux étudiants de licence ou des
classes préparatoires. Le présent volume pourra servir de manuel aux étudiants en
master désireux d'approfondir leurs bases en probabilités.
Voici, dans la perspective des concours, un bref mode d'emploi de ces deux
volumes. Le premier correspond aux programmes du CAPES et de l'agrégation
interne. Le second répond aux besoins des candidats à l'agrégation externe. Dans
la configuration actuelle du concours (programme de 1999) on demande à tous
les candidats d'avoir une connaissance solide de la théorie, correspondant à nos
chapitres 8 à 14. Certaines questions de modélisation, mettant en jeu des variables
discrètes ou des lois de probabilité classiques, amèneront à se référer au premier
tome. Les chapitres 15 (martingales) et 16 (chaînes de Markov) sont destinés aux
candidats ayant choisi à l'oral l'option Probabilités et statistique (étant entendu
que certaines notions sur les chaînes de Markov finies sont exigibles de tous les
candidats).
Le candidat trouvera dans ce livre les matériaux pour construire lui-même sa
leçon, aussi bien dans le corps des chapitres que dans les très nombreux exercices
corrigés : ou notera que dans notre exposé chaque notion introduite est suivie d'un
i
introduction
exemple. I e candidat devra aussi au cours de sa préparation rechercher dans d'autres
sources des informations complémentaires et des exemples d'application, relatifs
notamment aux thèmes proposés par le programme de l'année. Il devra en outre
se former à l'utilisation d'un logiciel de calcul formel, et apprendre à illustrer avec
ce logiciel les sujets exposés; de nombreux exercices de ce livre pourront servir de
support à cette illustration.
Pour rendre l'ouvrage plus vivant, nous avons donné, sous forme de notes,
quelques renseignements biographiques sur les principaux mathématiciens qui ont
contribué à l'élaboration de la théorie des probabilités ; notre source d'information
principale a été le livre de B. Hauchecorne et D. Suratteau, Des Mathématiciens de
A à Z, (Ellipses, 1996, Paris). Enfin, nous avons donné en annexe un Résumé de
théorie de lu mesure, mais nous avons maintenu dans le corps de l'exposé, au début
du chapitre S. certains résultats essentiels au probabiliste qui ne figurent pas toujours
dans les cours d'intégration.
Je tiens à remercier les éditions Cassini : en rendant accessible cet ouvrage à un
public motivé par la perspective d'un concours, mais aussi curieux d'apprendre et
de réfléchir, elles me permettent d'apporter une aide, je l'espère fructueuse, à toute
personne qui aura eu la patience de me suivre.
Je remercie tout particulièrement André Bellaïche, avec qui j'ai eu de longues et
fructueuses confrontations sur cet ouvrage.
Enfin, je remercie les relecteurs de cet ouvrage; leurs remarques oui contribué au
polissage du manuscrit et conduit à la forme définitive de ce livre. Je souhaite que le
lecteur trouve ici matière à un travail agréable et enrichissant.
Chapitre 8
Lois et moments de variables
aléatoires
Dans ce second tome, nous supposons connue la théorie de la mesure
abstraite et de l'intégration. Le lecteur pourra trouver un résnmé détaillé de
cette théorie dans Pannexe figurant en fin de ce livre. À ces rappels, nous
ajoutons ci-dessous quelques compléments, en général omis dans les cours
d'intégration, mais indispensables en probabilités.
Dans la suite du chapitre nous donnons la présentation définitive, dans
le cadre de la théorie de la mesure, des notions de loi et de moments d'une
variable aléatoire.
8.1. Compléments de théorie de la mesure
Nous commençons par une élude du principe de prolongement par
mesnrabilité. très fréquemment utilisé en probabilités.
Définition 8.1. Une famille "G de parties d'un ensemble Q est appelée n-
système si elle est stable par intersection finie.
Une famille S de parties d'un ensemble Q est appelée A-système si elle
satisfait aux deux axiomes suivants :
(Ai) pour toute suite croissante (S„ d'éléments de S on a
U S„ e S;
(X2) pour tous éléments A et B de S tels que A C B, on a
B\AeS.
Nous aurons besoin de la notion de n-système (resp. À-système)
engendré par une famille £ de parties de Q. On observe d'abord que
l'intersection d'une famille quelconque de jt-systèmes (resp. de À-systèmes) est un
71 -système (resp. un A-système). De plus, -?"(£2) est à la fois un 7r-systètne et
un À-système; il existe donc un ix-système (resp. un À-système) contenant
JÉ. On définit alors le jr-système (resp. le À-système) engendré par £ comme
l'intersection de tous les jr-systèmes (resp. les À-systèmes) contenant <£.
3
4
chapitre 8. lois ct moments de variables aléatoires
On peut aussi caractériser le jr-système (resp. À-système) engendré par
X comme étant, au sens de l'inclusion, le plus petit tï-système (resp. A-
système) contenant X.
Remarque. Il faut noter que, tout comme dans le contexte des tribus, ce
procédé de définition par « fermeture » n'est pas constructif : en général,
on n'a pas d'expression explicite d'un élément générique du A-système
engendré par X. Toutefois, le tï-système engendré par X est la famille de
toutes les intersections finies d'éléments de X (cette famille est le plus petit
7T-système contenant X).
Exemples 8.1. Sur R, les familles constituées
- des intervalles ]a, b[, (a Hb);
- des intervalles ]a,b],[a $ b) ;
- des intervalles [a, b], (a $ b), et de l'ensemble vide ;
- des demi-droites [a, +oo[, (a € R) ;
- des demi-droites ]—oo, a], (a € R)
sont des 7T-systèmes.
De même, sur Rd, les familles constituées des ouverts, des ouverts
bornés, des fermés, des pavés de la forme rC=i[rt>'>^]' (ai ^ M et de
l'ensemble vide, sont des tï-systèmes.
Dans la suite, à maintes reprises, on rencontrera des A-systèmes. Pour
fixer les idées, voici un exemple de A-système qui n'est pas une tribu : si Q
est un ensemble non dénombrable. la famille de ses parties dénombrables
est à la fois un n-système et un A-système; toutefois, cette famille ne
contient pas Q, et plus généralement, elle n'est pas stable par passage au
complémentaire : ce n'est donc pas une tribu.
Les relations entre ces différentes structures sont précisées par le lemme
suivant.
Lemme 8.2. Pour qu'un A-système S sur Q soit une tribu sur Q, il faut et il
suffit que -S soit un n-système et que Q e S.
Démonstration. La condition nécessaire est triviale. Démontrons la
condition suffisante ; si S est à la fois un X-système et Tt-système sur Q qui contient
Q, S est stable par rapport au complémentaire (puisque Q e S) et par union
finie ; pour ce dernier point, il suffit de remarquer que si A et B sont des
éléments de S, Ac et Bc le sont aussi ; puisque l'on a
(A U B)'' = Ac n Bc,
et que S est un k -système, on a ( A U B)c e S, et donc aussi A U B e S. Reste
à démontrer que S est stable par union dénombrable. Si (A„)„eN* est une
suite d'éléments de S, on construit une suite (Bn)„^s* croissante d'éléments
8.1. COMPLÉMENTS DE THÉORIE De LA MESURE
5
de S ayant même réunion que la suite (A„)„eN* : il suffit de définir B„ par
récurrence en posant B] = Aj et pour « ^ 2,Bn = \J"=l Ay. ?
Le lemme suivant est d'usage fréquent en probabilités. Il permet
d'étendre une propriété possédée par une famille d'événements ayant la structure
de À-système à la tribu engendrée par cette famille.
Lemme 8.3 (Principe de prolongement par mesurabilité ; version ensem-
bliste). Soit S un A-système sur Q qui contient un 7T-système G et tel que
Q € S ; alors S contient la tribu a(G) engendrée par G.
Démonstration. Il suffit de démontrer que le X-système A engendré par G
et £2 est égalàaO?).
A est un n-système ; en effet, définissons, pour tout Ae^3 (Q), la famille
d'ensembles
AA = {B € A | B H A € A} .
A étant un X-système, on vérifie qu'il en est de même de AA. De plus :
AA C A. En particulier, pour tout A € G, puisque, par définition de A,
Q e AA et G C AA. on a AA = A, la famille A étant le plus petit A-système
contenant G et Q ; on a donc :
VA € G, VB € A B 0 A € A,
ce qui s'écrit : VB e A, G C AB. Mais alors. VB € A, la famille AB est un
X-système contenant G et Q, donc : AB = A. On vient de démontrer que,
VB € A, VC € A, B n C € A, c'est à dire que A est un n-système.
Il résulte du lemme précédent que A est une tribu et donc que : A D
a(G). Mais o(G) étant un X-système contenant G et Q, on a : A c aÇ€) ;
l'égalité A = a(G) en résulte. ?
Voici une application importante de ce lemme :
Théorème 8.4 (Théorème d'unicité des mesures). Soient fi} et ji2 deux
mesures positives sur l'espace probabilisable (Q, A) telles que
VA€£ fil(A)= fi2(A),
où G est un jt-système qui engendre la tribu A.
1. 5/ fÀi et fiz sont bornées et de même masse, alors ji\ — ¡12-
2. Si l'une des mesures fi] ou fi2 est non bornée, et s'il existe une suite
(E„)„eN d'éléments de G telle que Q — {Jn€Ti Ert et telle que
Vn € N fii(En) = fi2(En) < +00 ,
alors fi 1 — fi2-
6
chapitre S. lois et moments de variables aléatoires
Démonstration. Si /Xj et fi2 sont bornées et de même masse, la famille
S = {A € A | /X](A) — /i,2(A)} est alors un X-système contenant et Q ;
elle contient donc la tribu A engendrée par t?. Ceci démontre que ji\ = fj.2-
Pour le cas où l'une des mesures est non bornée, on considère les
restrictions de fi, et ji2 aux E„ ; d'après la première partie, elles sont égales
pour tout n. Par application de la formule de Poincaré (proposition 1.6,,
tome 1), qui reste valable pour des ine sures _/îmes (et c'est le cas pour chaque
restriction de ces mesures aux E„ ), les restrictions de p., et fi2 aux ensembles
F„ — Uo=s./=s« sont encore égales ; les mesures ¿1, et ji2 coïncident donc
sur Çl, puisque la suite d'ensembles F„ est croissante de réunion Çl. ?
Remarque. Les hypothèses du théorème impliquent que ¡1^ et fi2 sont
crûmes. De plus, il résulte de ce théorème que si deux probabilités coïncident
sur un jt-système engendrant A, elles sont égales.
Exemple d'application. Si deux mesures sur E coïncident sur toutes les
demi-droites ]—00,x], xeE, elles sont égales.
Le corollaire ci-dessous est très souvent utilisé en calcul des probabilités,
Notation. ¥?,x(?.d) (resp. ¥^(Ed)) désigne l'ensemble des fonctions
continues à support compact de Rd dans E (resp. et positives).
Corollaire 8.5. Soient fil et ¡12 deux mesures positives sur (Rd, 33Rd) finies
sur tout compact (on dit que ce sont des mesures de Radon). Si
les mesures [i\ et /x2 sont égales.
Démonstration. La classe *€ des ouverts bornés de Rd est un n-système. Les
mesures et fi2 coïncident sur ; en effet si O € 'C, il existe une suite
croissante d'éléments de (Rd) convergeant simplement vers lo-
D'après la propriété de Beppo Levi1 et l'hypothèse, on a :
Mi(O) = lim / fn dfii = lim / /„ dfi2 = /¿2(0) < +00.
Il suffit d'appliquer le théorème précédent. ?
Voici maintenant une version fonctionnelle du lemme 8.3.
Théorème 8.6 (Principe de prolongement par me&urabilité ; version
fonctionnelle). Soient 'C un n -système sur Çl et M un espace vectoriel de
fonctions réelles sur Çl tels que :
1. La propriété de Beppo Levl est aussi appelée théorème de convergence monotone,
8.1. compléments de théorie de la mesure
7
(i) pour toute suite croissante (/z„)„eN d'éléments positifs de M telle que
h m sup/( hn soit fini (resp. borné), on a h € M ;
(ii) In € M et, pour tout C € G, lc e ;
a/or¿' contient toutes les fonctions réelles a (G)-mesurables (resp. a(G)-
mesurables et bornées).
Démonstration. Il suffit de montrer que les fonctions 1a, A g g (G), sont
dans M. En effet, si c'est le cas, l'espace vectoriel M contiendra toute
fonction étagée cr(ï?)-mesurable, puisqu'une telle fonction s'écrit £]í€, îi(-1a(-
(I fini, ai g E et A¡ g a(G)). Toute fonction o-(ï?)-mesurable
positive finie (resp. bornée), étant limite croissante de fonctions étagées o(G)-
mesurables, sera alors dans M, en vertu de l'hypothèse (i). Enfin M
contiendra toute fonction o-(ï?)-mesurable finie (resp. bornée) h, puisqu'une telle
fonction se décompose sous la forme h — h+ — h~, où h+ et h~ sont
positives finies (resp. bornées) et <r(ï?)-mesui'ables.
Il reste à démontrer que les fonctions 1A, A e g (G), sont dans M, ce
qui s'écrit S D a(G), où on pose S = {A £ 3>(Q) | 1A € M). Par
hypothèse, on a S D G et Q e S. De plus S est un X-système car, d'une
part, 3t étant un espace vectoriel, pour tous Sj et S2 tels que S¡ D S2? on a
ls,\s2 = lsL — ls2 € M et, d'autre part, en vertu de la première hypothèse,
pour toute suite croissante (S„)„eN C S, on a l(j„eN s„ — suPn ls« e Il
résulte du lemme 8.3 que a (G) C S. Le théorème est démontré. ?
Nous terminons cette section en rappelant (sans en donner de
démonstration) les énoncés de quelques théorèmes d'usage constant dans la suite.
Définition 8.7. Soit ¡i une mesure positive sur l'espace probabilisable (Q, A).
Soit f une fonction numérique mesurable positive définie sur cet espace. La
mesure : A \~> fAf d{i est dite niesnre de densité / par rapport à ti et
notée2 f ¦ il.
Définition 8.8. Une mesure v sur (Q, A) est dite absolnment continue par
rapport à fj. si, pour tout A € A tel que /a (A) = 0, on a y (A) = 0. On note :
v « il.
Les mesures ti et v sur (Q, A) sont dites étrangères s'il existe N g A tel
que ¿i(N) - 0 et v(Nc) = 0. On note : v _L ti.
Exemple 8.2. La mesure de Lebesgue X sur E et la mesure de Dirac So en 0
sont étrangères, puisque A({0}) = ^({O}*') ~ 0.
Si v — / • /i, on a bien sûr v p.. La réciproque fait l'objet du
théorème de Radon-Nikodym (cf. par exemple Neveu ou Métivier pour une
démonstration).
2. Cette notation est justifiée par la formule (8.1).
8
chapitre 8. lois et momen (s de variables aléatoires
Théorème 8.9 (Théorème de Radon-Nikodym). Soit sur un espace
probabilisable (Q, A) une mesure a-finie ¡á et une mesure v telles que v \x; alors
il existe une fonction mesurable positive f (unique à une équivalence ¡i-p.p.
près) telle que v — f ¦ ¡i.
Proposition 8.10 (Intégration par rapport à nne mesure à densité). Soient
¡i une mesure positive sur l'espace probabilisable (£2, A) et f une fonction
numérique mesurable positive définie sur cet espace. Soit v — f ¦ ¡xla mesure
de densité / par rapport à \i. Soit h une fonction mesurable sur (Q, A).
- Si h est positive, on a :
- Si h est de signe quelconque, pour que h soit v-intégrable il faut et il
suffit que h ¦ f soit ¡.i-intégrable et, dans ce cas, l'égalité (8.1) est encore
Définitiou 8.11. Soit T une application mesurable de l'espace
probabilisable (Ei. 8] ) dans l'espace probabilisable (E2. 82)- Soit ¡i\ une mesure sur
(Bl, La mesure sur (E2, B2) définie par
est appelée mesure image de par T et notée Tf/^).
Théorème 8.12 (Théorème de la mesure image, ou théorème de transfert).
Soit T une application mesurable de l'espace probabilisable (Ej,^) dans
l'espace probabilisable ÇE2, &i); soit T(/Ai) la mesure image de ¡ix par T;
soit h une fonction mesurable sur (E2, B2).
— Si h est positive, on a :
- Si h est de signe quelconque, pour que h soit Ti^i^-intégrable il faut
et il suffit que h o T soit ^x -integrable et, dans ce cas, l'égalité (8.2) est
encore valable.
Théorème 8.13 (Théorème de changement de variables). Soit T un dif-
féomorphisme d'un ouvert U de Rd sur un ouvert V de Rd, de classe C1.
Soit f une fonction réelle mesurable définie sur U. Alors f est Lebesgue-
intégrable sur U si et seulement si la fonction v \-+ \ det (T-1 ) (u) | /' [T-1 (v)]
est Lebesgue-intégrable sur V. Dans ce cas, on a :
(8.1)
valable.
VB€g2 Ja2(B) = Ja1[T-1(B)]
S f(x)dXd(x) = f IdetiT-'yOOl/tT-1^)] dXd(v). (8.3)
8,2. loi d'une variable aléatoire
9
Remarque, On dit souvent que le second membre de (8.3) s'obtient à partir
du premier membre au moyen du changement de variable v = T(a), ou
x — T_1(t')i v est la « nouvelle » variable, x 1"« ancienne ». De plus,
det(T_1)'(u) est souvent noté ^ et est appelé jacobien du changement de
variable.
8.2. Loi d'une variable aléatoire
Toutes les variables aléatoires seront définies sur un même espace pro-
babilisé (Q, A, P). Une variable aléatoire X à valeurs dans l'espace proba-
bilisable (E, S) est alors par définition une application mesurable de (Q, A)
dans (E, S) c'est à dire une application telle que :
VB€S X~i(B)eA.
Définition 8.14. On appelle loi (ou loi de probabilité) de la variable aléatoire
X à valeurs dans l'espace probabilisable (E, g) la mesure image Py de P par
X.
Afin d'étendre aux variables aléatoires à valeurs dans W1 (d > 1) la
notion de fonction de répartition, on introduit un ordre partiel sur Rd en
posant
x ^ y si et seulement si V/ — 1, 2,..., d x¡ ^ y; .
Pour d — 1, on retrouve l'ordre habituel (total) sur E.
Définition 8.15. Soit X une variable aléatoire à valeurs dans (Rd, ¿8ffij ).
(a) On appelle fonction de répartition de X la fonction Fx de M.d dans
E+ définie par
V.v e Rd Fx(x) = P(X ^ x).
où ^ est l'ordre partiel usuel de M.d.
(b) On dit que X admet la fonction f pour densité si sa loi Px admet f
pour densité par rapport à la mesure de Lebesgue Xj sur Rd.
Si une variable aléatoire X possède une densité toute fonction Xj-
presque partout égale à / est encore une densité de X et inversement
toute densité de X est A^-presque partout égale à /. La densité de X est
donc définie à l'égalité A^-p.p. près et on la confond souvent avec sa classe
d'équivalence pour cette relation, qu'on note fx. La densité de X vérifie
donc
VA e Sjtd
PX(A) = [ fx{x)dXAx)-
Ja
10
chapitre 8. lois et moments de variables aléatoires
Le théorème d'unicité des mesures permet d'affirmer que pour que X
admette une densité, il faut et il suffit qu'il existe une fonction positive /x de
X1 (Rd, SRd, Xd ) qui vérifie ;
Vx €
FX(
= / fx(u) dXd{u)
(8.4)
En particulier si d = 1 et s'il existe une fonction positive fx integrable au
sens de Riemann qui vérifie
Fx(*)
¦L
]~oa,x]
/x(«) dX(u),
en remarquant que, dans ce cas, cette intégrale est aussi une intégrale
de Riemann, on retrouve la définition élémentaire d'une densité donnée
antérieurement (chapitre 6).
Si la loi Px est une mesure à densité par rapport à la mesure
dénombrement de M.d, la variable aléatoire est discrète (cette définition est un
peu plus générale que celle donnée dans le premier tome). L'ensemble
val(X) — {x | P(X = x) 7^ 0} est alors dénombrable et l'on a, Sx désignant
la mesure de Dirac en x,
VAe£R, Px(A)= Y P(X = *)MA),
xev&HX)
ce qui, en termes de probabilités, s'écrit
Px= Y p(x = *>^
*eval(X)
On rappelle que, pour une telle variable aléatoire discrète X, on a
/ € Xl{Rd, iBBd,Px) si et seulement si
Y ?)|P(X = .v)<
-oo
et que, s'il en est ainsi, on a
f fdpx= Y /(*)p<x = *).
Remarque importante. Si X est à valeurs dans (Rd,iîRd), il résulte du
corollaire 8.5 que sa loi est entièrement déterminée par la famille des
intégrales jQ f(X) dP = fR<i f dPx où / parcourt Ceci
fournit un procédé très efficace pour étudier la loi d'une variable aléatoire à
valeurs dans (Rd, i8Rd), les théorèmes d'intégration s'appliquant tous sans
problème.
8.2. loi d'une variable aléatoire
h
Exemple 8.3. Soit X une variable aléatoire réelle de loi gaussienne -JVr(0, 1),
c'est à dire de densité fx définie par
,2-
1
'In
exp
(-y)-
On se propose d'étudier la loi de la variable aléatoire X2. Alors, pour tout
/ € ¥?j£(Rd). on a, par le théorème de transfert3 et celui d'intégration par
rapport à une mesure à densité :
f f(X2)dP = f f(x2)dPx(x)
Jq Jr
= f f(x2)^exp(~^)dX(x)
Jr V2n v 2 /
= ~7=f f(x2)exp(^)dX(x).
Le changement de variables associé au difféomorphisme T de ]0, +oo[ sur
lui-même défini par T(x) = xz, donne
f /(X2)dP= f f(y) 1
'Iti
exp
H)
y\-2 dX(y),
puisque, pour tout y e]0, -foci on a T_1(y) = */y et (T l)'(y)=±y ?. Il
en résulte que
/ f(X2)dP= / fgdk,
Ja Jr
où g est la fonction définie sur R fowf enfr'er par
1 /
y \ r
Vy 6 R
g (y) = V+(.V)^==exp[-
V27T V
2/
Ceci démontre que la variable aléatoire admet la densité g. La loi de
probabilité de densité g est appelée loi y(^, Nous reparlerons des lois gamma
(cf. aussi le tableau de lois classiques).
Exemple 8.4. Soit U = (1^, U2) une variable aléatoire à valeurs dans R2
de loi normale ^V"K2(0,1K2), c'est à dire de densité fu, fonction définie sur
par
Vw € R2 fv(u) = ~- exp(-^L)
(il s'agit de la norme euclidienne usuelle). Soit g l'application de M2 dans
définie par
3. Remarquer que formellement il suffit pour l'écrire de transformer la grande lettre
désignant Ja variable aléatoire en la petite lettre correspondant aux valeurs prises par celle
variable aléatoire.
12 chapitre 8. lois et moments de variables aléatoires
7t 1 + X
1 , . ( — Si M2 # 0
VM € R g(H|,Mz) = { »2
( 0 si m2 = 0,
et soit X = g(V). On se propose d'étudier la loi de la variable aléatoire
X. Pour tout / € Ï?£(R2), il résulte du théorème de transfert et de celui
d'intégration par rapport à une mesure à densité que (se rappeler que la
mesure de Lebesgue d'une droite de R2 est nulle) :
J f(X)dP - J if o g)(x) dPx(x)
= f f?)± exp(-^)^2(W,M2).
Soit T le difféomorphisme de R2 \ {u2 = 0} sur lui-même défini par
T(w,,m2) = f—."a) ;
Vw2 '
son inverse T_1 est déterminé par les systèmes équivalents suivants
ce qui donne
T"1(-ï.y) = (-ry.y)-
En faisant le changement de variables associé à T, de jacobien
det(T-1)'(*, y), encore noté Dfy'uyf, et qui vaut
D(ui.m2) _ i v -v | _
D(x,y) ~ 1 0 1 1 ~ y '
il vient
f f(X)dP = f f(x)±QXp{JlJrf)y2\\y\dx2(x.y),
(ne surtout pas oublier la valeur absolue du jacobien), soit encore, puisque
une droite est de mesure de Lebesgue nulle,
£ /(X) dP = /(x)^exp(-U + *2)>;2)|y| dX2(x.y).
D'après le théorème de Fubini, applicable automatiquement pour les
fonctions mesurables positives, on a alors
c i î
= / f(x)-T~^dX{x).
Jr
8.2. loi d'une variable aléatoire 13
1 I
7T 1 + X2
c'est à dire que X suit la loi de Cauchy.
Remarque. La famille des parties de Erf de la forme {y € Ed \ y ^ x} où
jc 6 Ed forme un 7T-système. Si donc on connaît la fonction de répartition
de la variable aléatoire X à valeurs dans Erf, on connaît sa loi Px sur ce
71 -système et on la connaît donc entièrement d'après le théorème d'égalité
des mesures, La fonction de répartition est donc un outil pour identifier la
loi d'une variable aléatoire. Sa définition est liée à une structure d'ordre;
elle sera donc en particulier bien manipulable lorsque la variable aléatoire
étudiée sera définie à l'aide d'opérations relatives à cet ordre (exemples :
sup, inf, max, min).
La proposition suivante permet d'obtenir la loi d'une variable aléatoire
transformée d'nne autre par nn difféomorphisme.
Proposition 8.16. Soit X une variable aléatoire à valeurs dans Rd et T un
difféomorphisme de Rd sur lui-même. Si X admet une densité fx, la variable
aléatoire Y = T o X, aussi notée T(X), admet une densité fy définie par
Vy € Rd fY(y) = | detCT-Vtv)! fx [T-l(y)] .
Démonstration. Pour tout / 6 if^(E'') fixé, il résulte du théorème de
transfert et de celui d'intégration par rapport à une mesure à densité que :
f fCt)d?= f /oTt»tfPx(x)= f foT{x)fx(x)dXd(x).
En faisant le changement de variables y — T(x) de Rd sur lui-même défini
par le difféomorphisme T, on obtient :
f f(Y)dP=[ f(y)\det(T~l)'(y)\ fx[T-l(y)] dXAy),
d'où le résultat. ?
Définition 8.17. Soit X une variable aléatoire à valeurs dans Rd = ]~[f=i ^
et soit TLi la projection canonique de Rd sur M.d'. La variable aléatoire
Xi — fi,- o X, à valeurs dans Erf', est appelée i-ième marginale de X
Les propositions suivantes permettent le calcnl de la loi des marginales.
Pour alléger l'écriture, nous ne les énonçons que pour k = 2, le cas général
se calquant sur ce cas particulier.
La variable aléatoire X admet donc une densité fx définie par
14 chapitre 8. lois et moments de variables aléatoires
V X] e R¿i
fxl (*l) = ^
f fx(Xy
x2) dXd
2(x2)
V x2 e R*2
fx2(x2) =
f fx(x1
x2) dXd
(b) Si X est une variable aléatoire discrète, Xi et X2 le sont aussi et on a :
Vx,e val(Xi)
P(Xi
X2€v'MX.2)
V x2 e val(X2)
P(X2
jqÊvaKXj)
Démonstration, (a) Pour tout / € '€jC(Rdï) fixé, il résulte du théorème de
transfert et de celui d'intégration par rapport à une mesure à densité que
l'on a
f f(X,)dP = f (/onJi^rfPxW
= / (/ o TíA(xux2)fx(xl,X2) dXd(xux2),
soit, d'après le théorème de Fubini (applicable car / est mesurable positivé)
f f(Xl)dP = f /(*,)(/ fx(xuX2)dXd2(x2))dXdl{xl),
d'où le résultat annoncé.
(b) On rappelle que si X est discrète, val(X} est dénombrable et que
l'on a
V X] eval(Xt) (X, - Xl) P-¦ (+J [(X, - x,) n (X2 - x2)],
j:2£val(X2)
d'où le résultat. ?
Remarque. Les propositions 8.16 et 8.18 sont souvent utilisées
consécutivement. L'exemple suivant fera bien ressentir cette association.
Soit X = (X t, X2) une variable aléatoire à valeurs dans R2 de densité fx
définie par
V(A"i . X2) € R2 /X(*l,X2) = P2 1M+(A-,)1je+1-V2) &Xp[-p(x] + X2)] ,
Proposition 8.18. Soit X une variable aléatoire à valeurs dans Rd = R1*1 x
(a) Si X admet une densité fx alors X{ et X2 admettent des densités fXï
et fxz données par
8.3- moments de variables aléatoires
15
où p > 0. On cherche la loi de la variable aléatoire Y = 2Xi — X2. Pour
cela, on introduit la variable aléatoire (Y,X2), transformée de X par le
difféomorphisme TdeR2 sur lui-même défini par T(,ïi . v2) = (2xr—x2,x2) ;
Y en est la première marginale. La variable aléatoire (Y,X2) admet la
densité f(Y,x2) définie par
V(y,X2) € M2 f(YX2)(y,X2) = l~ /x(^~,*2) .
La marginale Y admet donc la densité fY définie, pour tout y €
/y 00 =
/ f(Y,x2)(y>x2) dX{x2)
= f exp(—y ) j P !r+ (y + x2) 1r+ (x2) exp
p ( py\h°° r 3?
^-exp(-— / pexp'
^ ^ Z / Jmax(-v.01
3 exp^-—Jexp
par
dX(x2)
3pmax{— y,0)
soit
Vy €
/yOO = f L
(y)exp(-^r) + exp(y)lR*-0') .
8.3. Moments de variables aléatoires
Les moments d'une variable aléatoire, quand ils existent, sont des
paramètres qui donnent des renseignements sur la loi de cette variable aléatoire,
et quelquefois, même, la déterminent complètement. Avant de donner une
définition des moments et d'en étudier les propriétés, nous établissons les
inégalités de Holder et de Minkowski et en déduisons les premières
propriétés des espaces Xp.
Définition 8.19. Soit un réel p S 1; on note XP(Q,A,P) l'ensemble des
variables aléatoires X définies P-p.s., à valeurs dans M. ou M. et telles que
fQ \X\P dV < +oo. PouruntelXon note
On note X°°(Q, A, P) l'ensemble des variables aléatoires X définies P-p.s., à
valeurs dans R ou R et telles que sup {x | P(|X| > x) > 0} < -f-oo. Pour un
tel X on note
11X11«, = sup{x | P(|X| > x) > 0} = inf{.T | P(|X| > x) = 0}.
on dit alors que X est essentiellement (ou P-p.s.) bornée.
I6
chapitre 8. lois et moments de variables aléatoires
Remarque. Si X € £P(Q,A, P), X est P-p.s. finie.
SiX e X°°(Q,A,P), on a P-p.s. |X| $ RXII^.
Définition 8.20. Deux réels pet g sont conjugués s'ils sont strictement positifs
et satisfont à l'égalité ; ^ ^
- + - = 1 ;
p q
on a bien sûr p > 1 et q > 1. On définit de plus le conjugué de 1 comme étant
+ CO.
Lemme 8.21. Soient p et q deux réels conjugués différents de 1. Pour tous
a,b e "
I „D t_ff I
(8.5)
, ap bq
ab ^ — -I
P <7
Démonstration. La fonction x i-> — In x étant convexe sur on a, pour
tous x, y > 0 ^ ^ j
— ln( — + — ) ^ lnx ln y,
\p qS p q
soit
et donc :
ln
\p qJ
p q
Il suffit alors de choisir x et y tels que : a = xxlp et b — yllq pour obtenir
l'inégalité (8.5). ?
On déduit de ce lemme l'inégalité suivante :
Proposition 8.22 (Inégalité de Holder). Soient p et q deux réels conjugués,
finis ou non.
(a) Pour toutes variables aléatoires X, Y à valeurs dans E+ et définies
P-ps.; on a l'inégalité dans M.+ :
j XYdP^(J XpdPy/P(J y* d?y'9. (8.6)
(b) SiX e £P(Q,A, P) etY e £q(Q,A, P), le produitXY est integrable
et on a l'inégalité de Holder
liXYH, ^ 11X11, ||Y||ff
(8.7)
Si p — q = 2, cette inégalité implique l'inégalité de Schwarz :
LxYdp\<Lx2dp)"2(LY2dp)
1/2
8.3- moments de variables aléatoires
17
Démonstration. (a) Cas de variables aléatoires positives. Si p et q sont
finis ; si l'un des deux termes du membre de droite de l'inégalité (8.6) est nul,
par exemple le premier, alors X = 0 P-p.s. et on a alors fa XY dP = 0. Si
ces deux termes sont non nuls, il suffit de démontrer l'inégalité (8.6) lorsque
les deux termes du membre de droite sont finis. Il résulte du lemme 8.21 que
l'on a X Y IX* 1 Y*
<: —
M, ||Y||fl ^ p HXIIJ q HYIIJ '
ce qui, en intégrant, démontre l'inégalité (8.6).
Si p = 1 et q = +00 ; on a 0 ^ Y ^ llYj]^ P-p.s., et donc 0 ^ XY ^
X HYJloo P-p.s., ce qui, après intégration donne (8.6).
(b) Cas de variables aléatoires de signe quelconque. On applique
l'inégalité (8.6) aux valeurs absolues. ?
On en déduit l'inégalité de Minkowski.
Proposition 8.23 (Inégalité de Minkowski). Soit un réel p > 1, fini ou non.
(à) Pour toutes variables aléatoires X, Y à valeurs dans E+ et définies
P-p.s., on a l'inégalité dans E+ :
(X+Y)p dP}1/P ^(J XpdPy/P + (J Yp dPjlP . (8.8)
(b) SiX € £P(Q,A,P) etY e £P(Q,A,P), la somme X + Y est dans
XP(Q, A,P) et on a l'inégalité de Minkowski :
IX + YILS ||X|L+||Y|
(8.9)
Démonstration. (a) Cas de variables aléatoires positives. Si p > 1 est
fini : par linéarité, on a,
[ (X+Y)pdP= f [(X+YJ^X] dP+ f [(X+Y)p~lY] dP.
En appliquant l'inégalité (8.7) à chacun des facteurs du membre de droite,
on obtient :
j (X + Y)p dP^ (X + Y)q{p'l) dV)l\J X? dP^j
+ (j (X+Y)*ip-V YpdP^'P.
Il suffit alors de remarquer que q(p — 1) = p.
Si p = +00, on a
|X + Y| ^ |X| + |Y| ^ ||Xj|? + ||Y||? P-p.s.,
et donc
l|X+Y||?S ||X||? + ||Yfl? ¦
i8
chapitre 8. lois et moments de variables aléatoires
(b) Cas de variables aléatoires de signe quelconque. Les variables
aléatoires X et Y étant définies et finies P-p.s., il en est de même de X + Y;
il suffit alors d'appliquer l'inégalité (8.9) aux valeurs absolues pour obtenir
que (fa |X + Y\p dP)Vp < +00. ?
De ces deux inégalités, on déduit des propriétés des ensembles
Zp(£i,A,P).
Proposition 8.24. (a) Si p 5 1, ZP(Q, A, P) est un espace vectoriel semi-
norme.
(b) Soient p et q deux entiers tels que : 1 ^ p $ q ^ + oc ; on a l'inclusion
des ensembles ZQ(Q,A.P) C £P(Q, A, P) et on a l'inégalité de semi-normes
|X||P^||X||9
(8.10)
Démonstration. (a) Pour le premier point, cela résulte de l'inégalité de
Minkowski et de ce que l'on a, pour tout réel4 c, ||^X||p = \c\ \\X\\p.
(b) Il suffit d'étudier le cas où p et q sont distincts. Soient alors X €
£q(Q,A,P) et r le conjugué de |, c'est à dire r = ^L. L'inégalité de
Holder (8.6) permet d'écrire
j \X\p-\dP^(J (\X\P)Q/P dP)P/q(J V JP)l/r= ||X||£ <+00,
ce qui démontre que X € ZP(Q, A, P) et l'inégalité (8.10). ?
Remarque. On a ainsi montré que si 1 $ p ^ q ^ +00, on a5 :
Z°°(Q,A,P) c £q(Q.A,P) c ZP(Q,A.P) c Z](ti,A,P). (8.H)
Si p ^ 1, l'application X \\X\\p est une semi-norme sur ZP(Q, A, P)
et on a \\X\\p = 0 si et seulement si X = 0 P-p.s. L'espace vectoriel
quotient de ZP(Q,A,P) par la relation d'équivalence d'égalité P-p.s. est
noté Lp (Q, A, P) ; c'est alors un espace vectoriel norme dont la norme est
obtenue par passage au quotient de la semi-norme X h» \\X\\p (on parle de
la « norme p » de X). Il est d'usage de noter de la même façon une variable
aléatoire et sa classe ; on fera de même pour la semi-norme et la norme
quotient.
Définition 8.25. Soit X une variable aléatoire réelle définie sur l'espace
probabilisê (Q, A,P).
(a) Si X € Zl(Q, A,P) la quantité J^XdP est appelée moyenne ou
espérance mathématique de X. Elle est notée E(X) ou EX.
4. On rappelle la convention 0 x (±00) = 0.
5, Bien se souvenir que pour une mesure non bornée ces relations d'inclusion sont fausses !
8.3. moments de variables aléatoires
19
(b) Si X € Xa(Q, A, P), où a > 0, la quantité JQ Xa dP est appelée
moment d'ordre a de X. C'est donc aussi la moyenne E(Xa) de la variable
aléatoire Xa. En particulier, si a > 1 et si X e Xa(Q, A, P), la quantité
E [(X — EX)"] est appelée moment centré d'ordre a de X.
(c) Si a = 2, le moment centré d'ordre 2 est appelé variance de X et noté
ax. Sa racine carrée positive ox est appelée écart-type de X
Proposition 8.26. E est une forme linéaire (continue) sur l'espace vectoriel
&(Q,A,P).
Démonstration. C'est un résultat de la théorie de l'intégration (prop. A.21).
Définition 8.27. Si X e £1(Q,A, P), la variable aléatoire X = X - EX
est appelée variable aléatoire centrée associée àX. SiX e X2(Q, A, P), la
variable aléatoire ^ (resp. ~ ) est appelée variable aléatoire réduite (resp.
centrée réduite) associée à X.
Remarque. 1. Toutes ces définitions ne présument en rien de la forme de la
loi de la variable aléatoire X; elles recouvrent en particulier les définitions
données dans les chapitres précédents pour les variables aléatoires discrètes et
à densité (tome 1 ). Nous renvoyons donc le lecteur à ces chapitres, tant pour
les résultats classiques que pour les exercices concernant de telles variables
aléatoires.
2. Il résulte des relations d'inclusion (8.11) que si une variable aléatoire
admet un moment d'ordre p > 1, elle admet un moment de tout ordre 1
et^ p.
Calcul des moments
Si X e Xa(Q, A, P), le théorème de transfert donne :
En particulier,
- si X est une variable aléatoire discrète, puisqu'alors la loi de X vérifie
?
o
o
Px= E p(x = *h
x e val (X)
il vient :
E(X") = J2 *a P(X = '
xeval(X)
20
chapitre 8. lois et moments de variables aléatoires
- si X est une variable aléatoire à densité fx, puisqu'alors la loi de X
vérifie Px = fx ¦ ^> il vient, par le théorème d'intégration par rapport
à une mesure à densité :
E(X*) = f xafx(x)dX(x).
Jr
Proposition 8.28. Si X € X2(Q, A, P), sa variance vérifie :
ax = E(X2) - [EX]2 et V(a,b) € R o2aX+b = a2ax .
Démonstration. Développer le carré et appliquer la linéarité de l'espérance.
?
L'écart-type est donc invariant par translation et positivement homogène.
Définition 8.29. Si XetY appartiennent à £2(Q, A, P), il résulte de Vinêga-
lité de Schwarz que la variable aléatoire (X — EX)(Y — EY) appartient à
%1 (Q, <A,P) ; la quantité E [(X - EX)(Y - EY)] est appelée covariance de X
et Y. Elle est notée cov(X, Y).
Proposition 8.30. Si XetY appartiennent à Z2(Q. A,P), on a :
cov(X,Y) = E(XY)-(EX)(EY) et a2+Y = ax + o2 + 2cov(X, Y) .
Démonstration. Pour la première égalité, développer le produit et appliquer
la linéarité de l'espérance, pour la seconde remarquer que ;
^x+Y-E[(X+Y)2" .
Développer alors le carré et appliquer la linéarité de l'espérance. ?
Nous généralisons ces notions au cas où la variable aléatoire est à valeurs
dans un espace vectoriel de dimension finie ; pour un tel espace F, on note
de manière générique, F* son dual algébrique et (¦, •) la forme bilinéaire de
dualité. Nous rappelons que toutes les normes sur F sont équivalentes; on
note ||-|| Tune d'elle. L'espace F est muni de sa tribu borélienne F (engendrée
par les ouverts de F). Généralement, dans les applications, F sera un espace
euclidien, la forme bilinéaire étant alors le produit scalaire ; F sera alors
identifié à son dual.
La présentation adoptée a pour but de définir des moments de manière
intrinsèque. Le lecteur pourra se contenter de penser que F est l'espace M.d
muni du produit scalaire canonique.
Proposition 8.31. Soit X une variable aléatoire à valeurs dans F et p €
[1, +00]. Les assertions suivantes sont équivalentes :
8.3- moments de variables aléatoires
21
(i) HXH 6 £p(n,A,~P)
(ii) Vx* 6F* {X,x*} eXp(Q,A,P).
Démonstration. Si F* est muni de la norme définie par
|[x*|| = sup {*,**>,
H*ll€i
l'implication (i) donne (ii) résulte de l'inégalité :
Vx* eF* \{X,x*)\ ^ \\X\\\\X*\\
Pour l'implication inverse, soit (e/)i=i,,„,rf tine base de F et (e*);=i,la
base duale dans F* ; on a ;
d
liX||^|{X,e*)||M .
i = i
La fonction x xp étant croissante sur E+, il suffit d'appliquer l'inégalité
de Minkowski. ?
Notation. Zp(Q,A,P) est l'espace vectoriel des variables aléatoires à
valeurs dans F telles que ||X|| e XP(Q, A, P).
Définition 8.32. Soit X e <£F(£2, A, P). La forme linéaire sur F* : .x* h->-
/fi {X, .y*) dP est appelée moyenne de X et notée E(X). Identifiant F et son
bidual, c'est à dire le duai algébrique^ de F*, la moyenne E(X) est Tunique
élément de F qui satisfait à :
Vx* eF* (E(X),x*) = E{X,x*
(8.12)
Remarque. 1. On note de la même façon l'opérateur moyenne sur
A,P) et £^(Q,A,P); si F == E, ils coïncident. L'opérateur E est
encore linéaire sur <£p(£2, A, P).
2. Si F — Md muni de sa base canonique, il résulte de (8.12) que E(X) est
le vecteur de Rd de ie composante E(X,).
Pfoposition 8.33. Soit X 6 XF(£2, <A. P); soient A e £(F, G) et b € G, ow
G w/7 awfre espace vectoriel de dimension finie. Alors la variable aléatoire
AX + b e JEjj(fi,.A,P)ei:
E(AX + 6) — A E(X) + b .
6. Le fait que F soit de dimension finie garantit que F et son bidual sont isomorphes ; ce n'est
plus le cas en dimension infinie. Dans ce cas, ]a définition de la moyenne peut poser problème.
22
chapitre 8. lois et moments de variables aléatoires
Démonstration. On a
IIAX + èll $ ||A|| [|X|| + ,
ce qui démontre que AX + 6 € #¿(£2, A P). De plus, en utilisant la
définition du transposé de A, on a
V/ e G* {E(AX + b),y*} — E (AX + b, y*}
= E[(X,A*y*) + (b,y*)]
=- (EX,A*j/*) + {b, y*)
= (AE(X) +b,y*} ,
ce qui démontre le résultat.
?
Définition 8.34. SoitX e £p(£2,AP)- La forme quadratique positive sur
F* : je* fQ{X — EX, x*)2 dP est appelée variancedeX et notée ox(:). Elle
est associée de manière bijective à l'opérateur linéaire auto-transposé positif
Ax € X(F*,F) par la relation :
Wx* eF* {Axx*,x*) =cr*(x*).
Cet opérateur est appelé opérateur d'auto-covariance de X. Si
est une base de F et (e*),-=i5...^ la base duale dans F*, la représentation
matricielle Cx de l'opérateur Ax dans ces bases est appelée matrice des
covariances de X. Elle vérifie :
Vi,j=i,...,d (Cx)u = cov((X, ef), (X, e])) .
Remarque. Si F = Rd est muni de sa base canonique, Cx est la matrice
symétrique positive d x d :
Cv -
2
cov(Xy,X()
cov(X(-,Xj)
>Xd/
Proposition 8.35. Soit X e £2(£2, A P) ; soient A e £(F, G) et b e G, oii
G est un aiifre espace vectoriel norme de dimension finie. Alors la variable
aléatoire AX e AP) on a
A
AX+Ô
= AAXA
8.3- moments de variables aléatoires
23
Cax+6 = ACxA* .
Démonstration. On a
|AX + è||2^-(||A|
1X1
l*l|2).
ce qui démontre que AX + b e £q(Q, A,P). De plus, en utilisant la
définition du transposé de A et la proposition 8.33, on a
Vy*eG* (AAX+by*,y*) = E[(AX,y*)2]
= E[{X,AV)]2
- (AxA*y*,A*y*>
- (AAxA*y*,y*) ;
par bilinéarisation, il en résulte que ;
Vx*,y* eG* (Aax+6**,/"> - (AAxA*x*,y*) ,
ce qui démontre le résultat. ?
Nous donnons deux inégalités classiques, bien que grossières, qui
permettent de donner quelques renseignements sur la concentration des valeurs
prises par une variable aléatoire, en particulier autour de sa moyenne ; elles
sont numériquement très mauvaises, ce qui ne surprend pas quand on étudie
leur démonstration. Ces inégalités servent surtout à démontrer des
convergences en probabilité (voir chapitre 10).
Proposition 8.36 (Inégalité de Markov). SiX e Zl(Q,A,P) est positive, on
a, pour tout s > 0 ;
P(X £ e)
EX
et a fortiori
P(X > s) ^
EX
En conséquence, si X e X^(Q, A, P), on a, pour tout s > 0 :
P(||X|| > e)
<
EHXI
Démonstration. Si X e X1 (Q, A, P) est positive, soit D — {X 5 e}. On a les
minorations successives :
EX = / X dp £ / XdP £ eP(D) ,
ce qui s'écrit, dans le cas de matrice de covariance :
24
chapitre 8. lois et moments de variables aléatoires
d'où la première inégalité ; la seconde résulte alors de l'inclusion (X > e) C
(X=5fi).
Si X G £F(Q,A,V), il suffit d'appliquer l'inégalité précédente à la
variable aléatoire positive ||X||. ?
Proposition8.37(Inégalitéde Bienaymé-Tchebîtcliev). Si' Xe£F(&, A. P),
où F est un espace eucKdien, on a, pour tout e > 0 ;
P(||X-EX|| > e)
<
tr(Ax)
En particulier, si F — E, on a :
P(|X-EX| > e)
Démonstration. Tl suffit d'appliquer l'inégalité de Markov à la variable
aléatoire positive ]|X — EX]j2 et au réel e2 et de remarquer que
|X-EX||>e) = (||X-EXf>£2)
et que
E||X|| =tr(Ax):
en particulier, si F = E, on a :
E(X)2 = aJ.
?
L'inégalité de Markov a pour conséquence les inégalités suivantes qui
mettent sur la voie des inégalités de Bernstein, amélioration de celle de
Tchebitchev, et qui sont le départ de la théorie des grandes déviations.
Proposition 8.38. Soient f une fonction de E dans E, croissante et
strictement positive, et X une variable aléatoire réelle telles que f o X e
£l (Q, A, P). Alors, pour tout réel e :
P(X > e)
E/(X)
m
En particulier, si X est une variable aléatoire réelle telle que pour un a > 0 on
ait exp(oX) G £l(Q,A, P), alors on a, pour tout réel s :
P(X > e) <= exp(^ûe) E [exp(oX)] .
Démonstration. Il suffit de remarquer que, puisque / est croissante, on a
(X > e) C (/(X) =s f(B)),
8.3. moments de variables aléatoires
25
et donc : ,
P(X>e);SP[/(X) =s/(*)].
L'inégalité de Markov (avec inégalité large) appliquée à la variable aléatoire
/(X) et au réel positif f(s) permet de conclure. La seconde inégalité
s'obtient à partir de la première en prenant f(x) = exp(ax). ?
On introduit la notion de coefficient de corrélation qui, comme on le
verra ensuite permet de « mesurer » une certaine liaison entre des variables
aléatoires.
Définition 8.39. Soient X et Y e Z2(Q,A,P) de variance non nulle. On
appelle coefficient de corrélation deXetY le réel
cov(X, Y)
px.y — ^—
CrxOY
Proposition 8.40. Soient X et Y G Z2{Q., A, P) de variance non nulle; leur
coefficient de corrélation px,y possède les propriétés suivantes ;
(a) \px,y\ ^ 1 ;
(b) Pour que \px,y\ = l, il faut et il suffit qu'existent trois réels a, b,c non
tous nuls tels que :
P(aX + bY + c = 0) = 1 .
Démonstration. (à) L'inégalité de Schwarz permet d'écrire :
|E(XY)| ^E|XY| $(EX )5(EY y ,
ce qui démontre l'inégalité annoncée.
r 0 0 T2
(b) Si Ipx.yÎ — 1. Ie polynôme du second degré en A, E[X + AYJ , a
son discriminant réduit nul et admet donc une racine double A0 ; on a alors
E[X + XqY]2 = 0. Il en résulte que P(X + A0 Y = 0) = 1.
Réciproquement, supposons qu'existent trois réels a,b,c non tous nuls tels
qUe P(aX + bY + c = 0) = 1. (8.13)
Si c 7^ 0, û et 6 sont différents de 0 ; en effet, si par exemple a = 0, on a
alors P(Z>Y + c = 0) = 1 et donc ofY+c = ao = 0, soit encore Z>2aY — 0 et
donc b = 0, ce qui est impossible d'après (8.13). Dans ce cas on a
P(X = «Y + 0) = 1 , (8.14)
où a 7e 0.
Si c = 0, on a <a 9e 0 ou Z> ^ 0. Si par exemple a ^ 0, l'égalité (8.14) est
encore satisfaite avec /3 = 0 (si c'était è, on ferait un calcul analogue).
Dans ces deux cas on a donc
cov(X, Y) = E[(ofY)Y] — ot <jy et <x£ = a<JY+tf = «2<*y -
26
chapitre 8. lois et moments de variables aléatoires
ce qui donne px,Y —
|-,et donc: | px, y I = 1.
?
Y
Problème de régression linéaire
Les variables aléatoires X et Y e X2(Q, A,, P) étant données, on cherche
une « meilleure » approximation de Y comme fonction affine de X au sens
des moindres carrés, à savoir une solution en le couple (a,b) e E2 du
problème de minimisation
Ce problème est appelé, improprement d'ailleurs, problème de régression
linéaire.
Il n'y a formellement pas un mot à changer à l'analyse que nous avons
faite au tome 1 pour les variables aléatoires discrètes. Nous redonnons
toutefois la résolution de ce problème dans ce cadre général. On a :
Pour tout a fixé, cette quantité est minimum pour b = ba — EY — aEX.
Eeste à minimiser en a la quantité
<b{a,ba) = o\~2acov(X,Y) + a2ox ;
une valeur a minimisant ce polynôme du second degré est l'unique solution
de l'équation
inf(3>(u,ò) I (a,b) el2),
où
®(a,b) = E [Y - (<*X + &)]2 .
3>(a,6) =E[Y-aX + (EY-tfEX-6)]2
= E[Y - aXf + [EY - aEX - bf
(y-EY) - px>Y -i(jc-EX) = 0
est appelée droite de régression linéaire de Y en X. La « meilleure »
approximation de Y comme fonction affine de X au sens des moindres carrés
est
8-3- moments de variables aléatoires
27
EY + px,Y^(X-EX)
et on a P[(X, Y) e D] = 1 si et seulement si $(â, b$ = 0.
Cas particulier. Si la variable aléatoire est de loi uniforme sur l'ensemble des
n points du plan {(Xi,yt)}i^i^„ alors $(a, b) = J YJ^=1 [vl- - (a.tj + &)]2.
On retrouve la droite d'approximation des moindres cariés des physiciens.
(Exercice : déterminer alors l'équation de la droite D).
Les lois les plus courantes
Ci-dessous un tableau des lois fi les plus courantes, avec leurs moyenne
m et variance a2 quand elles en admettent ; on donne aussi leur transformée
de Fourier p, (voir plus loin pour une définition).
Lois discrètes
Nom
(paramètres)
Mesure de
probabilité p
ß(t)
m
a1
Loi de Bernoulli «8(1, p)
(0<p< Uq = \-p).
pSi+qSo
peif + q
P
pq
Loi binomiale B(n, p)
(0 < p < 1, n entier > 0).
k=0
{peU+q)n
np
npq
Loi de Poisson
(A>0)
E , *•
t—1 ni
n=a
exp[X(eu - 1)]
X
X
Loi géométrique sur N, ^(p)
(0<p<\)
00
P
1
P
1
P2
Loi géométrique sur N*.
$n*<P) (0 </><!)
oo
peil
1 - qeil
1
P
1
P2
Lois à densité p =¦ f ¦ X
Nom
(paramètres)
Densité f(x)
{x e R)
ß(t) (t e R)
m
a1
Loi uniforme sur [a, b]
(a < b)
eitb -eita
a+b
(b-a)2
, 1 «,6 ]\x)
b - a
it(b-a)
2
12
Loi de Cauchy
1 1
71 1 +X2
e-v\
n'existent pas
28
chapitre 8. lois et moments de variables aléatoires
Nom
(paramètres)
Densité f(x) (x e
¡1
Loi de Gauss
(m réel, cr2>0)
1
u-Jïk
(x—mi2
e 2d-
V
Première loi
de Laplace
1 +r
Loi
exponentielle
exp(f>) (j?>0)
lR+(x)pe
l~7
Loi Gamma
Y{a,p)
(a>0, p>0)
x\JL-e-pxxa-i
0-rP
Loi du chi-deux
à n degrés de
liberté xl
"jc2"
2«
Loi Bêta
de lre espèce
(fl>0, ö>0)
T
B(o.ö)
(* e [o, U)
b-\
ab
a+b
(a+b)2(a+b+i)\
Loi Bêta
de 2e espèce
(a>0, b>0)
1
ä(ä + b - I)
B(r;.è) (1 + x)a+b
(x e R+)
b- 1
si & > ] ;
n'existe pas
si£ ^ 1
{b - l)2(b-2)
üb > 2;
n'existe pas
sib 5 2
Loi de Student
à n degrés de
liberté
r(ïp-) t2 ü±i
n-2
si « > 2 ;
n'existe pas
sin = 2
Remarque. Une loi exponentielle exp(p) est une loi y{\, p). Une loi du chi-
deux à n degrés de liberté est une loi y(~, 5). Une loi uniforme sur [0,1] est
une loi Bêta de première espèce B(l, 1).
Rappels .-fonctions eulériennes B (Bêta) et T (Gamma). On a
/• + 00
I» = / &xp(~x)xa~l dx (a > 0)
T(a) = (a - 1) T(a - 1) (a > 1)
B(a,b)= i dx = I xa~l(\-xf-ldx. (a,b>0)
(1 + x)a Jq
B{a.b) =
= f xa~H\-x)b-ldx. (a,b
h
T(a) T(b)
T(a+b) "
Lois à densité fi = / ¦ X (suite)
exercice 8.1
29
exercices
Toutes les variables aléatoires introduites sont définies sur un même
espace probabilisé (Q, A, P).
Exercice 8.1. Résultat fondamental pour In simulation de lois de probabilité. Soit
X une variable aléatoire de fonction de répartition F. On définit la fonction G de la
variable réelle par
Vf g R G(f) = inf(x I F(x) > f) ;
cette fonction G est appelée pseudo-inverse de F.
1. Démontrer successivement que
(a) si F est continue, on a, pour tout t e]0,1 [, F[G(f )] = f ;
(b) si F est strictement croissante, on a, pour tout x g R, G\F(x)] = x ;
(c) si F est continue et strictement croissante, F est bijective de R sur ]0,1 [ et on a
G = F-1.
2. Démontrer que si F est continue et strictement croissante, F(X) suit la loi
uniforme sur {0,1].
3. Démontrer que si Y suit la loi uniforme sur [0,1], la variable aléatoire G (Y)
admet F comme fonction de répartition.
Solution.
1. On sépare bien l'influence des hypothèses de monotonie et de continuité.
(a) Soit, pour tout t g]0,1{, l'ensemble A( ~ {x \ F(x) S t). C'est une demi-
droite car, F étant croissante, pour tout xq g A( et tout y ^ xo, on a
F (y) =: F(*o) S t, et donc, y e A(. De plus, on a
F{G(f)]^f7
en effet, puisque G(t) = inf A, et que Ar est une demi-droite, pour tout
y > G(f), on a y € At et donc F (y) ^ t. La fonction F étant continue à droite,
il suffit de prendre une suite de réels yn € Ar convergeant en décroissant vers
G(f), pour obtenir :
F[G(f)]=lim\F(y„)£f.
Si F est continue, on a de plus :
F[G(Q]gf7
en effet, par définition de G, pour tout y < G(f), on a F (y) < t. La fonction
F étant continue à gauche, il suffit de prendre une suite de réels y„ < G(f)
convergeant en croissant vers G(f), pour obtenir :
F[G(f)]=lim/F(y„)^f.
Au total, si F est continue, on a, pour tout t e]0, l{,F{G(f)] = t.
30
chapitre 8. lois et moments de variables aléatoires
(b) Pour tout x e R, par définition de G, on a
G [F(x)] = inf(y | F(y) S F(x)) $ x ;
de plus, si F est strictement croissante, pour tout y tel que F(y) S F(x), on a
y £ x (sinon, on aurait y < v, et donc F(y) < F(x)), ce qui démontre que
G|F(x)] > x. Il en résulte que G[F(x)] = x.
(c) Si F est continue et strictement croissante, on a à la fois :
Vt e ]0,1[ F[G(f)] =t et Vx e R G\F(x)] = x.
Il en résulte que F est bijective de R sur ]0,1 [ et que : G = F-1.
2. Si F est continue, pour tout y e]0, 1[, on a F[G(y)] = y et donc, en utilisant la
croissance stricte de F,
P[F(X) S y] = P[F(X) S F[G(y)]] = P[X ^ G(y)] = F [G(y)] = y .
Puisque de plus on a
P[F(X)^y] =
0 si y < 0
1 si y > 1 ,
F(X) suit la loi uniforme sur [0,1].
3. On a l'équivalence : F(x) >. t x S G(f) ; donc, si Y suit la loi uniforme sur
[0, l],ona:
Vx eR P [G(Y) ^ x] = P [Y ^ F(x)] = F(x),
ce qui démontre que G(Y) admet F comme fonction de répartition.
Remarque. Les résultats de cet exercice permettent théoriquement de simuler toute
loi sur E à partir d'une variable aléatoire de loi uniforme. En effet, un appel à la
fonction « random >• (ou « rand >' ou autre appellation, suivant les langages) d'un
ordinateur est censé donner une réalisation y d'une variable aléatoire Y de loi
uniforme sur [0,1], ce nombre •.< aléatoire », ou au hasard, étant fabriqué par un
générateur uniforme. Si on veut simuler une variable aléatoire réelle de fonction
de répartition F, on calcule (lorsque c'est faisable) sa pseudo-inverse G. et G(y)
est alors une réalisation de la variable aléatoire G(Y) de fonction de répartition F.
Cette méthode peut être numériquement très lourde, ou même impraticable ; des
méthodes spécifiques existent pour simuler un certain nombre de lois classiques,
comme on le met en évidence dans les exercices suivants.
Exercice 8.2. Simulation de lois de variables aléatoires discrètes. Soit X une
variable aléatoire réelle discrète prenant les valeurs d'une suite strictement
croissante (x„)„eN telle que, pour tout « e H, P(X = x„) = pn > 0, avec £^=o pn = l.
Soit U une variable aléatoire de loi uniforme sur [0. 1], et Y la variable aléatoire
définie par
Y = Xo l(U<p0) + 1(?+P)+'"+P/7-l<U</>o+/>l+"'+/>>,)¦
exercice H-4
31
Vérifier que X et Y ont même loi.
Solution. On a
P(Y = .t0) = P(U</7„) = /;û
et. pour n ? 1,
P(Y = xn) = Hpo + pi +¦¦¦ + p„-i < U < pn + px H h pn) = p„ .
Remarque. Le résultat de cet exercice permet donc de simuler toute loi discrète sut
M à partir d'une variable aléatoire de loi uniforme.
Exercice 8.3. Simulation de la loi exponentielle. Soit U une variable aléatoire de loi
uniforme sur [0,1], et X la variable aléatoire définie par X = —j ln(U), où p > 0.
Déterminer la loi de X.
Solution. En appliquant le théorème de transfert, puis en effectuant le changement
de variable associé au difféomorphisme de ]0, l[ sur JK+* défini par v = ~ ln(u), il
ce qui démontre que Px est la loi exp(p). Remarque. Le résultat de cet exercice
est couramment utilisé pour simuler une loi exponentielle à partir d'une variable
aléatoire de loi uniforme, sans avoir recours à la méthode générale (mais plus lourde)
d'inversion de la fonction de répartition.
Exercice 8.4. Lois normales dans Rz, lois exponentielle et de Hotelling. Soit
X = (Xi.Xi) une variable aléatoire à valeurs dans R2 de loi normale -^2(0.1),
c'est à dire admettant une densité /x donnée par
où )) ¦ )1 désigne la norme euclidienne usuelle.
L Déterminer la loi de la variable aléatoire ||X||-.
2. Soit D = {(^1,^2) € M2 | xi = X2}. Démontrer que la variable aléatoire T
définie par
admet une densité ; la calculer (la loi de T est appelée loi de Hotelling ).
7. Cette loi apparaît dans l'étude du test de comparaison d'une moyenne expérimentale à
une moyenne théorique (cf., par exemple, C. Fourgeaud et A. Fuchs, Statistique, Dunod, p. 129)
vient :
32
chapitre 8. lois et moments de variables aléatoires
Solution.
1. Par application des théorèmes de transfert et d'intégration par rapport à une
mesure à densité, on a, pour tout / € rJ^(M),
E/(||X||2) = j f^xf)±atp(-^f.)dk2(x)
= f, f{\\x\\2)^sxp(~^p)dk2(x).
Jr2\1+x{o} 2tt v 2 /
Effectuons le changement de variables en coordonnées polaires associé au difféo-
morphisme de K+*x]0, 2tt[ sur R2 \ E+ x {0} défini par
x = p cos 9 y = p sin 9 ,
de jacobien p, et appliquons le théorème de Fubini :
E/(||X||2) = f f{p2)±eXp(^\pd{X®X)(p,e)
= f f(p2)exP(-Ç)pd\(p).
Par un dernier changement de variables associé au difféomorphisme de R+* sur
lui-même défini par u = p2, on obtient :
V/e^(R) E/(||X||2) = f /(k)ix+(„)Iexp(-^) d\(u),
ce qui démontre que ||X||2 a la loi exponentielle exp(i).
2. Par application des théorèmes de transfert et d'intégration par rapport à une
mesure à densité, on a pour tout / e l?^(R) (puisque X2(D) = 0) :
jr2\D LVxj -x2/ -I2jt V 2 /
Effectuons le changement de variables associé au difféomorphisme de R2 \ D sur
R2 \ ({0} x R) défini par
X[ + x2
u
Xi - x2
V — X\ 4- x2
Xl = ~(v + -I
2V u'
1 , V.
2V u'
de jacobien
D(X|'^=detf^ Ì(1 + ^|-_JL
V 2u2 2U u'
exercice 8-5
33
et appliquons le théorème de Fubíní ; on obtient, pour tout / € (?),
E/(T) =i- Í /(w2)exp[-ii;2(l + ^)]|^|aA®A(U,i;)
4tt Jm* m Lys rL 4 w2'J J
Mais, par comparaison des intégrales de Lebesgue et Riemann généralisées, on a
jf |„| exP[--U2<l + ¿)] dX(v) = 2Jo+OC v exp[-I,2{l + ¿)] dv
, + oc g
= / —pexp(—ui) au)
y° 1 + ^
1 '
1 + -r
u2
d'où, pour tout / e
E/(T)=i /* /[M2]_2 =_1 /* t ff)/(f) 1 dX(t).
n Jr* w- + 1 jt A (r + l) s/;
Ceci démontre que T admet la densité fy donnée par
c'est une loi Bêta de deuxième espèce : B{^,
Exercice 8.5. Moments d'ordre a et théorème de Fubini. Soient X une variable
aléatoire positive et G la fonction définie par
Vx € R G(x) = P(X > x).
Démontrer que pour que X admette un moment d'ordre a ^ 1, il faut et il suffit
que la fonction x h> xa_ 1 G(xï soit Lebesgue-integrable sur R+ et que, dans ce cas,
on a :
E(Xa) = a f x°~lG(x)dX(x).
Jr+
Solution. D'après le théorème de Fubini pour les fonctions mesurables positives, on a
f xa'1G(x)dX(x) - f x""' f l(x>x)dP dX(x)
J&+ Jr+ Un
= (\ f x^l^dXix)
Jq et
dP
34
chap! ire 8. lois et' moments de variables aleatoires
d'où le résultat.
Exercice 8.6. Formulation équivalente de l'inégalité de Hôlder. Soient p, q et r des
réels positifs tels que 4- ~ = ~ ; démontrer que
1. Pour toutes variables aléatoires X, Y à valeurs dans R+ et définies P-p.s., on a
l'inégalité dans M :
(j (XY)VP)17'' 5 XpdPy/P(j Y*dpy/<1. (8.15J
2. Si X € XP{Q.A,P) et Y € &(Q,A.V), on a XY € X\Q.A,P) et on a
l'inégalité
||XY||, í ||X||_ ||Y|L . (8.16J
En déduire que si p, q et r sont des réels positifs tels que ~ + | + £ = 1, si
X e XP(Q,A. P), Y e £«(£2, AP) et Z e ^(Œ.^.P), alors XYZ e X'(f2,^,P)
et on a l'inégalité :
IIXYZII,^ ||X|L IIYIL ||Z||r . (8.17)
Solution.
1. Il résulte de l'inégalité (8.6) appliquée aux variables aléatoires Xr et Yr avec les
réels conjugués j et f que l'on a
/
?Pí(í (x')*/r ^)r/"(í (Yr)¿p)r/*,
ce qui, en élevant à la puissance ~. donne l'inégalité (8.15).
2. SiX € XP(Q, A, P) et Y e £«(£2, A P), il en résulte que
/n?P,(/n|x^r,<(/n|Y^Py
< +0O ,
et donc que XY e dC(f2,^,P); l'inégalité (8.16) en résulte.
Remarque. Cette formulation est donc équivalente à celle donnant l'inégalité de
Hôlder (pour la réciproque, prendre r = 1).
Enfin, si p, q et r sont des réels positifs tels que ~ + ^ + £ = 1. définissons a par la
relation ì = A + ±. Soient X e d£p(í2, A, P), Y € d£?(£2, A, P) et Z e Xr(Q.A,P);
d'après ce qui précède, on a YZ e Xa(Q. A,~P) et
||YZ||a Í ||Y||? ||Z||r .
Les réels a et p étant conjugués, le produit X(YZ) est integrable, l'inégalité de
Hôlder donne
IIXÍYZ)!!, Í ||X||p ||YZ||B ,
ce qui, en vertu de l'inégalité précédente démontre l'inégalité (8.17).
liXERCICE S.S
35
Exercice 8.7. Variance, opérateur de covariance et support de loi. Soit X e
X2,(Q,A,'P) une variable aléatoire à valeur dans un espace euclidien F, d'opérateur
de covariance Ax- Démontrer d'abord que si F = K, on a :
X = EX P-p.s. <=^> ox = 0.
En déduire que dans le cas général, on a :
P-p.s. (X - EX) e (ker AX)X .
Solution. Si F = K, on a :
a2. = 0 E(X - EX)2 = 0 <=> X = EX P-p.s.
Dans le cas général, on a alors :
x 6 kerAx E({X.x)2) = 0 (x.x) =0 P-p.s.
Soit alors (ei)i=ii__.j une base de kerAx- Pour tout i = 1,...,/, il existe un
o
ensemble de probabilité nulle Ni tel que, pour tout tu ^ N/, on ait : (X(ft)),ej) = 0.
Soit N = (J=1 H ; on a P(N) = 0 et
V« ^ N V/ = 1,...,/ {X(ûj),«i) = 0,
et donc : _^__^^__„
Vw £ N X(w) G (kerAx)"1" ¦
Exercice 8.8. Généralisation du problème de régression linéaire au cas de variables
aléatoires à valeurs dans un espace euclidien. Soient deux variables aléatoires
X 6 X2(?2, AP) et Y e Z^iQ.A,?) où F et G sont des espaces euclidiens;
on suppose que l'opérateur d'auto-covariance Ax est inversible. On cherche une
« meilleure » approximation de Y comme fonction affine de X au sens des moindres
carrés, à savoir une solution en le couple (A,b) e £(F, G) x G du problème de
minimisation :
inf($(A, b) | (A, b) e X (F. G) x G),
où :
4>(A,fc) =E||Y-(AX+£)||2 .
On introduira l'opérateur d'interrovariance de X et Y, unique opérateur Ax,y £
£(F, G) vérifiant :
V(x, y) e F x G (Ax,y*, .v) = E[(X, x)(Y. y)],
et on remarquera que : Ax y = (Ay,x)*-
36 CHAPITRE 8. LOIS ET MOMENTS DE VARIABLES ALÉATOIRES
o o
Solution. On a. Y — AX étant centrée :
$(A,b) =E||Y-AX+(EY-AEX-ô)||2
= E||Y-AX||2+ ||EY-AEX-è||2 +2E{Y-AX, EY-AEX-è)
= E||Y-AX||2 + ||EY-AEX-6||2
Pour tout A fixé, cette quantité est minimum pour 6a = EY - AEX. Reste à
minimiser en A :
$(A,ÎA) = E||Y-AX||2.
Mais on a :
E||Y-AX||2 =trE[(Y-AX)(Y-AX)*]
roo* oo* o o * o °
= trE[YY + A(XX )A* - (Y X )A* - AXY*]
= tr [Ay + AAXA* - Ax,yA* - AAY,x] ¦
Si * est l'application (différentiable) de Z(F, G) dans M définie par
*(A) = tr[AY + AAXA* - Ax,yA* -AAy,x] ,
son application dérivée est donnée par
VH € Z(F, G) tf'(A)(H) =tr[HAxA*+AAxH*-AXYH*-HAY,X]
= 2tr[(AAx-Ax,Y)H*] .
Un point stationnaire A est donné par
a= Ax.yAx1 -
Ce point stationnaire correspond bien à un minimum. En effet, on a :
VH g Z(F, G) tf"(A)(H)(H) = 2tr [HAXH*] S 0.
De plus, si (^r)i=i,„. d est une base orthonormée de G, on a
d d d
tr[HAxH*]«E(HAxH^,eI-)=E(AxH*ei,H*«i)«E|AxÏH*«.-| !
/=1 7=1 j=l
puisque Ax est inversible, il en résulte que *"(A)(H)(H) = 0 si et seulement si
H*e,- = 0 pour tout i = 1 d, autrement dit. si et seulement si H*, donc H, est
nul. Cela assure que A correspond à un minimum.
La solution du problème de régression linéaire est le couple
(A,î-) = (Ax.yAxVEY-AjcyA^CEX)).
La surface D (sous-espace affine) d'équation
0,_ey)-ax.yAx-1(.*-ex) = o]
exercice S.fi
37
est appelée surface de régression linéaire de Y en X. La ¦< meilleure » approximation
de Y comme fonction affine de X au sens des moindres canes est
EY + Ax,yAx1(X-BX)
et on a P [(X, Y) € D] = 1 si et seulement si $(Â,= 0.
Chapitre 9
Indépendance de tribus, de
variables aléatoires
L'indépendance est une notion fondamentale en calcul des probabilités
et en statistique. Elle sera toujours relative à un espace probabilisc fixé
(Q, A. P). Toutes les variables aléatoires seront définies sur cet espace.
Les notions élémentaires sur l'indépendance étudiées dans le chapitre 3 du
tome 1 sont supposées connues.
9.1. Indépendance de familles d'événements et de variables
aléatoires
Définition 9.1. Soit (Q, A., P) un espace probabilisé.
(a) Les événem.ents A e A et B G A sont indépendants si :
P(AH B) = P(A)P(B).
(b) Deux familles d'événements Ai et A2 sont indépendantes si tout
élément de Ai est indépendant de tout élément de A2.
Remarque. On vérifiera (cf. chapitre 3, tome 1) que pour que A e A et
B € A soient indépendants, il faut et il suffit que les tribus a ({A}) et a ({B})
soient indépendantes. Le théorème suivant généralise cette propriété et est
d'un usage courant.
Théorème 9.2. Soient Gl et G2 deux n-systèmes contenus dans A; on note
J^i (resp. 3*2) la tribu engendrée par t?, (resp. KC2). Pour que les familles
d'événements 'â~i et soient indépendantes il faut et il suffit que les familles
d'événements t?i et G2 le soient.
Démonstration. La condition nécessaire est évidente d'après la définition
de l'indépendance de deux familles d'événements.
Pour la condition suffisante, supposons que t?L et ~G2 soient
indépendantes. Nous allons utiliser le principe de prolongement par mesurabilité
dans sa version ensembliste (lemme 8.3). Soit donc D l'ensemble des
événements indépendants de tout clément de ~€2 :
D = {D g A | VA2gE2 P(D n A2) = P(D)P(A2)} .
39
chapitre 9, indépendance de tribus, de variables aléatoires
Par hypothèse, t?, c <£> et 0, e £>. Démontrons que £> est un À-système.
- Si D] et D2 e £> sont tels que Di D D2, on a, pour tout A2 e f2.
Comme de plus {Jn&N D„ e A, il vient : [JneN D« e 10 •
Il résulte alors du principe de prolongement par mesurabilité que D D
.Fi, ce qui s'écrit :
VF, e F, VA2 e ç2 P(F, n A2) = P(F0P(A2). (9.1)
Soit alors S l'ensemble des événements indépendants de tout élément de
Fi ¦
S = {E e A I VF, e f, P(Fi nE) = PfFOPfE)} .
La relation (9.1) s'écrit S D t2. On a Q e g et g est bien sûr encore
un À-système ; il résulte alors encore du priucipe de prolongement par
mesurabilité que S D 3*2, ce qui démontre le théorème. ?
Notation et rappel. Soit X une application de Q dans E ; si § est une famille
de parties de E, on note X-1 (§) la famille de parties de Q ;
En particulier, si § est une tribu sur E, la famille X 1 (§) est une tribu sur Q
dite tribu engendrée par l'application X.
Définition 9.3. Soient X,-, i — 1,2, deux variables aléatoires définies sur
l'espace probabilisé (p,,A,Y) à valeurs dans des espaces probabilisables
respectifs (Ei; Si). Les variables aléatoires X, et X2 sont indépendantes si
les tribus X.Jl(8\) et X2 1 (82) engendrées respectivement par les applications
Xi et X2 sont indépendantes.
VneN VA2 e £2 P(D„ n A2) = P(D„)P(A2).
et donc, par limite monotone,
{X-1(G) e I G &¦§} .
ç). i. indépendance de familles d'événements et de variables aléatoires
41
Remarque d'usage courant. Soient, pour i = 1,2, deux variables aléatoires
X, définies sur l'espace probabilisé (Q,fA,P) à valeurs dans des espaces
probabilisables respectifs (Ef. £,) et f deux applications mesurables de
(E,, 8j) dans l'espace probabilisable (Fj, 3^). Si les variables aléatoires X*
sont indépendantes, il en est de même des variables aléatoires f o X;
(souvent notées f(Xi)).
Exemple. Si les variables aléatoires X, sont à valeurs dans Udi et sont
indépendantes, toute marginale de X[ est indépendante de toute marginale
de X2.
Proposition 9.4. Avec les notations précédentes, soit, pour i = 1,2, un n-
système t?, engendrant Pour que les variables aléatoires X, et X2 soient
indépendantes il faut et il suffit que les n -systèmes X"1 (Cj). i = 1,2, soient
indépendants.
Démonstration. On rappelle que les tribus engendrées par les applications
Xi,i = 1,2, satisfont la relation
La famille d'événements X^Ow) étant un ?r-système, la proposition résulte
alors immédiatement du théorème 9.2. ?
On obtient alors le critère général d'indépendance suivant pour deux
variables aléatoires en termes de lois de variables aléatoires.
Corollaire 9.5. Soient X,, 1 = 1.2 deux variables aléatoires définies sur
l'espace probabilisé (0,, A, P) à valeurs dans des espaces probabilisables
respectifs (E,, Si). Pour que les variables aléatoires Xj et X2 soient indépendantes il
faut et il suffit que :
Pxi,x2 =Px, ®Px2 , (9.2)
où P\, ® Px2 désigne la probabilité produit des probabilités Px, et PXl, lois
deXx etX2.
Démonstration. Par définition, pour que X, et X2 soient indépendantes, il
faut et il suffit que
2
VA] e 81 VA2 e S2 P(x;,(A,)nX^(A2)) = I"IP(xr'(A0)-
¿=1
Mais, pour tout A] € Si et tout A2 G S2, on a
P(X7i(AOnX-,(A2)) =P[(X1.X2)~1(A1 xA2)] = PXl.x2 [A,xA2]
np(XT1(A,-)) = Px, ®Px2(A,xA2).
,'=1
42
CHAPITRF 9- INDF.PP.NPANCi; PR TRIBUS, PI-, VARIABLES ALÉATOIRES
II en résulte que pour que X, et X2 soient indépendantes il faut et il suffit
que
VA, eS, VA2 e Ê2 Px,.x2[A, x A2] = Px¡ <g> Px2(A, x A2),
ce qui, en vertu du théorème d'unicité des mesures (théorème 8.4), est
équivalent à
Px,;x2 =Px, ®Px2,
puisque l'ensemble des pavés Ai x A2, où A, e et A2 e S2 est un
tt-syslôme qui engendre la tribu produit Si ® S2. ?
Ce critère prend la forme fonctionnelle suivante :
Proposition 9.6. Soient X,-, i ~ 1,2 deux variables aléatoires définies sur
l'espace probabilisê (Œ,,À.P) à valeurs dans des espaces probabilisabI.es
respectifs (E,-, S¡ ). Les trois assenions suivantes sont équivalentes :
(i) Les variables aléatoires X, et X2 sont indépendantes ;
(ii) Pour toutes fonctions f] réelles positives 8,- -mesurables (i — 1,2,),
on a
it °
(iii) fV)wr toutes fonctions f¡ réelles bornées S¡-mesurables (i — 1,2|,
/Jn
ce í/mí s'écrit encore
E[/,(X,)/2(X2)] = E[/,(X,)] E[/2(X2)] .
Démonstration. Remarquons d'abord que pour les fonctions considérées
dans (ii) et (iii), on a, par le théorème de transfert,
Ufi/'
o X¡
fel xe2 i=\
^Pxj ,X2(-":i , -""2)
et
f[ f fi o Xi dY=f\( MX,-) dPK¡(x¡).
i = I (=1 '
On démontre alors successivement les implications :
(i) => (ii) et (iii) : il suffit d'appliquer la relation (9.2) et d'appliquer le
théorème de Fubini.
(iii) => (ii) : la relation est en particulier vraie pour des f) positives
bornées 8,-mesurables. Pour des f¡ positives S,--mesurables quelconques,
9-1- IMiÍTKNpANCh Pl.' KAMII.I..KS p'JÍVKNfc'Mfc.K[S [ÎÏ I>IÍ VARIAIM.I'S Al.I'AHHUhS
43
considérer les suites de fonctions positives bornées -mesurables min(/j, n)
et appliquer la propriété de Beppo Levi.
(iii) => (i) : en prenant f¡ — 1a- où A,- € 8¡, on obtient de suite la
relation (l).2), ce qui est équivalent à l'indépendance de X] et X2. ?
Du critère général d'indépendance, on déduit les critères particuliers
suivants ;
Corollaire 9.7. Soient X¡, i -- 1,2 deux variables aléatoires définies sur
l'espaceprobabilisé (Q, rAf P) à valeurs respectivement dans (Rd¡, =SB</; ).
1. Critère d'indépendance en termes de fonctions de répartition. Pour
que les variables aléatoires Xj et X2 soient indépendantes il faut et il suffit
que :
Vjc, e M 1 V.v2 g
>d2
P\i,x2i.xi,x2) = FX|(a-|)F>î2(a-2).
(9.3)
2. Critère d'indépendance eu termes de densités.
(a) Si les variables aléatoires Xt etX2 admettent des densités respectives fx,
at fx2 et sont indépendantes, alors la variable aléatoire (X[,X2) admet une
densité ,/x[,x2 produit direct de /x, et /x2, c'est-à-dire qui vérifie :
V.v, g
>d2
fx„X?XXuX2) - fx,(X\)fx7.(x2) ¦
(9.4)
(b) inversement si la variable aléatoire (X],X2) admet une densité fXi.x2
produit direct de deux fonctions integrables positives f\ et f2, c'est-à-dire qui
vérifie la relation :
VX, e
Vx2 eEd2 fx.X7(Xl,x2) = /,(x,)./2(x2)
(9.5)
alors f\ et f2 sont, ci un facteur positif près, les densités respectives de X| et
X2, et les variables aléatoires X i et X2 sont indépendantes.
3. Critère d'indépendance pour des variables aléatoires discrètes.
Si les variables aléatoires X\ cl X2 sont discrètes, il en est de môme do la
variable aléatoire (X,, X2). Pour que les variables aléatoires X, et X2 soient
indépendantes il faut et il suffît que :
V.v, e XjíQ) Vjc2 G X2(Q)
P [X, = , X2 = x2] = P(X, - x, ) P(X2 = x2) .
(9.6)
Démonstration. 1. Si les variables aléatoires Xi et X2 sont
indépendantes, la relation (9.3) résulte du critère général. Inversement, si la
relation (9.3) est satisfaite, les probabilités Px,,x2 et ^Xi ® ^x2 coïncident sur le
7T-système
{{M, ^ Xy) x !u2 <,v2} I Xi e Rd\x2 € Rd2}
44 chapitre 9, indépendance de tribus. de variables aléatoires
qui engendre la tribu produit $Kd, g) £Rd2 ; elles sont égales, et les variables
aléatoires Xj et X2 sont donc indépendantes.
2. Soit Xt la mesure de Lebesgue sur M.di. Dans les deux cas considérés,
on a Px; = fxi ¦ Xi, et donc, par le théorème de Fubini,
Px, ®Px2^/xi/x2-Al(g»Aa. (9.7)
(a) Si donc Xi et X2 sont indépendantes, le corollaire 9.5 et la relation
précédente assurent que (X|,X2) admet une densité A[.x2 Pr°duit direct
de Ai et fX2.
(b) Inversement, si la relation (9.5) est satisfaite, la variable aléatoire Xi
(resp. X2) admet une densité Ai (resp, A2) donnée par
Vx, e Udl fXl(xi) = fiixù f f2(x2)dX2(x2),
respectivement,
Vx2 e K<*2 fX2(x7) = A(x2) f MxùdXdx,) .
Intégrant par exemple la première égalité, il vient
1 - ( f Mxô rfA,(X!))( f Mxz) dX2(x2)).
Il en résulte que
Vxx e Rdl V*2 e Ai(*.)A2(*2) - /i(xi)/2(x2),
ce qui, en vertu de l'hypothèse, démontre que
Pxi.x2 = fxlfx2-X1®X2. (9.8)
En rapprochant les relations (9.7) et (9.8), il vient
Pxi,x2 =PX, ®Px2,
ce qui démontre l'indépendance des variables aléatoires Xj et X2. À noter
qu'alors la relation (9.4) est encore vraie.
3. Si les variables aléatoires Xi et X2 sont discrètes, la condition
nécessaire est évidente. Démontrons que la condition est suffisante. Si la relation
(9.6) est vraie, pour tout A] G BRdi et tout A2 e #Ed2, on a
Pxi,x2(A1xA2) = J2 pKxi 5=8 x^ n (X2 = **i ® MAi*A2),
^2ex2(Q)
et donc, par le théorème de Fubini.
9-1- indépendance de familles d'événements et de variables aléatoires
45
PXj.x2(A,xA2)=( £ P(X, (A,))
x( £ P(X2=*2)MA2)),
x2eX2(ïi)
soit encore
Px^XzCA! xA2) = PXl(A,)Px2(A2).
Le théorème d'unicité des mesures (théorème 8.4) assure l'égalité des
probabilités
Px,.x2 =Pxi ®Px2-
Ceci démontre l'indépendance des variables aléatoires Xi et X2. ?
Les propriétés suivantes liant indépendance et moments de variables
aléatoires sont d'un usage constant.
Proposition 9.8. Soient Xt et X2 deux variables aléatoires réelles définies sur
l'espaceprobabilisé (Q, A, P) ^indépendantes.
(a) Si X] et X2 admettent une moyenne, il en est de même de la variable
aléatoire X,X2 et on a
Ë(XiX2) = E(X1)E(X277
(p) Si Xi et X2 admettent un moment d'ordre deux, on a :
covtXi, X2) = 0 et ojt +X; = oXl + al2 .
Démonstration. («) D'après la proposition 9.6, on a
j \X.xX2\dV={j \Xi\dP){j |X2|rfp)<+oo.
Il résulte alors du théorème de transfert que
/ X,X2^P = / x1x2dPXlx2U1,x2).
L'indépendance des variables aléatoires Xi et X2 étant équivalente à
l'égalité Px[Xj ~ Pxi ® Px2, le théorème de Fubini permet d'écrire que
jaX{X2d? = / Xlx2d(PXl ®Px2)(xitx2)
= E(X1)E(X2).
(b) Appliquer ce dernier résultat et le calcul général de la variance d'une
somme de variables aléatoires (proposition 8.30). ?
46
CHAPITRE 9- INDÉPENDANCE DE TRIBUS, DE VARIABLES ALÉA 101KKS
Corollaire 9.9. Soient X; e XjUfì, A, P), i = 1.2, où E est un espace
euclidien. Si les variables aléatoires X, et X2 soni indépendantes, on a la
relation suivante sur les opérateurs de covariance :
Ax,+x2 — Ax, + A*2 .
Si de plus E = IK"1, cette relation donne en ternies de matrices de covariance :
Cx[+x2 = Cxt + C\2 -
Démonstration. Pour tout x e E, les variables aléatoires {Xl,x) et (X2,-v)
sont indépendantes. On a alors
(Ax|+x:-V,.v) = <J(Xl+S2,A) = ^(x,,x) +a(x2.,} - (Axrv.A-) + (AXz.r,x) ,
d'où le résultat. ?
On généralise maintenant la notion d'indépendance d'événements, de
familles d'événements, de variables aléatoires à des familles quelconques
indexées sur un ensemble I.
Définition 9.10. Soit (A,)/£[ une famille d'événements. Les événements a,
(i e \) sont indépendants si
VJe^(l) P(f|A/) =np(a')-
j&j /€J
où 3>f(}) est l'ensemble des parties finies de I.
Remarque. On parle aussi, dans ce cas, d'une « famille d'événements
indépendants ». Ceci est une notion d'indépendance globale ; nous renvoyons au
chapitre 3. tome 1, pour la notion d'indépendance n à n cl ses relations avec
cette dernière.
Définition 9.11. Soit (<Aj)iei une famille de familles d'événements. On dit que
les familles d'événements A, (i E I) sont indépendantes si, pour tout choix
d'un ai dans A, (i E \)t les' événements a, (i e I) sont indépendants.
Remarque. Dans cette définition, les familles Ai n'ont aucune structure
particulière. Toutefois, cette notion est particulièrement utilisée dans le
cas où ces familles d'événements sont des n -systèmes ou des tribus (on
parlera par exemple d'une suite de sous-tribus de A indépendantes). Le
théorème 9.2 se généralise alors à une famille quelconque de n -systèmes
indépendants.
9.2. indépendance et événements ASYMI1ottqoes
47
Théorème 9.12. Soit une famille Ow)/eT de it-systèmes contenus dans A et
indépendants ; on note ^ la tribu engendrée par , Soit{[j}Jsj une partition
quelconque de I. Pour tout j € J, on note A / la tribu engendrée par la famille
d'événements [Jiel. t[, c'est-à-dire la plus petite 1 tribu contenant [Jie]. ï?,-.
Alors les tribus A-n j € J, sont indépendantes. En particulier les tribus 5^
engendrées par les (/ e l) sont indépendantes.
Démonstration. Nous n'en donnons que les grandes lignes. Il est clair qu'il
suffit de démontrer ce résultai dans le cas où I est fini, et donc dans le cas
où T = {1, 2,..., n] ; une récurrence permet de le faire. Pour éviter les
problèmes d'indexation, nous nous contenterons de démontrer que si "€,-,
i ~ 1, 2, 3, sont des it-systèmes indépendants les tribus engendrées par t?,
et t2 U "€?, sont indépendantes. La famille d'événements t2 U ï?3 n'est plus
un n-système ; soit ï?4 le jt-système engendré par "€2 U ï?3 et Q, c'est-à-dire
{C2 n C3 | C2 e c52 U {Q} et C3 e c53 U {Q}} ; on a
t2 U t?3 C tA C a(c52 U c53),
et donc, a(c54) = o(€2 U c53). Ti est clair que les jt-systèmes c5, et c54
sont indépendants; par le théorème 9.2, il en est de même des tribus
engendrées. ?
Définition 9.13. La famille (X,),€i de variables aléatoires à valeurs
respectivement dans des espaces probabilisabies (E,-, S,), i e 1, est une famille de
variables aléatoires indépendantes si les tribus X-'1 (S,), i e T, engendrées par
ces variables aléatoires sont indépendantes.
On dit alors souvent plus brièvement que « les variables aléatoires X,
(i € I) sont indépendantes ».
Tous les critères étudiés précédemment pour des familles où 11 j = 2 se
généralisent facilement au cas où T est fini. Pour le cas où T est quelconque,
il faut définir la notion de mesure produit sur Yliei E/. Cela est possible par
exemple si E,- = R pour tout / e I par le théorème de prolongement de
Kolmogorov, mais ce résultat ne figure pas au programme de l'agrégation
(cf. Annexe, théorème A.39 et corollaire A.40, pour un énoncé2).
9.2. Indépendance et événements asymptotiques
On étudie dans cette section deux théorèmes célèbres qui sont d'usage
fréquent dans l'étude de la convergence presque sûre de suites ou de séries
de variables aléatoires, étude que nous ferons ultérieurement.
1. Au sens de l'inclusion entre familles de parties.
2. Pour une démons Ira lion de ce théorème, on pourra consulter le livre de Jacques Neveu,
Bases mathématiques du Calcul (les Prohabilités, Masson & Cic (1964).
48
chapitre 9. INDÉPENDANCE DE TK|BUS, DE VARIABLES ALÉATOIRES
Définition 9.14. Soit, sur l'ensemble Q, une suite (A„)n^ de sous-tribus de
la tribu A. On note V„eM -^n Ia tribu engendrée par lJrteN An, c'est-à-dire
la plus petite tribu (au sens de l'inclusion entre familles de parties) contenant
U/î€N '^n- On appelle tribu asymptotique la tribu
a*> = n(v^)-
Les éléments de Aoo sont appelés événements asymptotiqnes. Une variable
aléatoire Aoo-fnesurable est dite asymptotique.
Exemple 9.1. Tribu asymptotique associée à nne suite de variables
aléatoires. Soit (Xiî)neN une suite de variables aléatoires définies sur (£2, A. P) à
valeurs respectivement dans l'espace probabilisable (E„, Sn).
On prend pour Ap la tribn X"1 (Sp) engendrée par la variable aléatoire
Xp, encore notée a(Xp). C'est la tribu des événements de la forme (Xp e
Ap), (Ap e Sp) : pour un o) donné, on sait donc dire si un tel événement est
réalisé ou non, dès que l'on connaît la valeur Xp(cû).
La tribu \f pï>„ X~l (Sp) (plus petite tribu sur £2 rendant mesurables
simultanément toutes les applications Xp, p ^ /1), encore notée a{Xp |
p > n), est, par définition, la tribu engendrée par la famille de variables
aléatoires (X^)^ ; elle est constituée d'événements dont la réalisation,
pour un tú donné, dépend de la suite (Xp{cù). Xp+1(cû), ...) (il faut toutefois
se garder de penser que cette dépendance peut être explicitée).
La tribu asymptotique est alors
Aoo = f] Cf(Xp \ p^n).
Un événement est dans Aoo si sa réalisation, pour un to donné, tout en
dépendant de la suite (X0(&>), Xi (m). ...) ne dépend pas des n premières
valeurs, et ce, quel que soit l'entier n. C'est le cas. par exemple, lorsque les
X„ sont à valeurs réelles, de l'événement
{la suite (Xw)w€N converge dans RJ.
Montrons précisément que cet événement est asymptotique. Rappelons
d'abord qu'une suite numérique (a„)«eN converge dans R si et seulement
si on a
liminffln = limsupaw ;
" n
elle converge donc dans R si et seulement si
—00 < liminffl„ — limsupfl„ < +00
9-2. LNDÉPENDANCE HT ÉVÉNEMENTS ASYMPl'OTlQlJES
49
Ainsi, on a l'égalité des événements
{la suite (X„)b€n converge dans R} = {limsupX,, — liminf Xff e R} ;
il "
il suffit donc de démontrer que les variables aléatoires limsup„X„, et
lim inf„ X„ sont asymptotiques. Il suffit de traiter le cas de lim sup„ X„. Pour
cela, notons bn la tribu <7(xp | p ^ ri) ; on remarque que, pour tout p
et pour tout n ^ /}, sup^ xic est Ü^-mesurable. Il en résulte que, pour
tout p, lim„(supi;&„ Xfe) est £$p-mesurable, autrement dit, que lïmsupn X„
est rA>oo-mesurable.
On en déduit aussitôt que l'événement (la série Yl x„ converge dans R)
est aussi asymptotique. Une autre justification est d'ailleurs aussi de dire
que, d'après le critère de Cauchy, on a
m
(]C x" conver&e) = (¡jm Xk = °)e n ®* ~ •
n€K ' k=n ra£n
Théorème 9.15 (Loi du tout ou rien ou loi de 0, 1). Soit, sur l'espace
de probabilité (£2, ¿4. P), une suite (Aî)„en de sous-tribus de la tribu a,
indépendantes, et soit A^q la tribu asymptotique associée. On a alors :
VA e aoo P(A) = 0o«l.
Démonstration. 11 résulte du théorème 9.12 que, pour tous entiers M et N
tels que M < N, les tribus an, n ^ M, et \//>sn Aî> sont indépendantes.
Mais, pour tout N, aoo C V/>5n^- donc, pour tout M, les tribus an,
n $ M, et sont indépendantes ; il en est alors de même des tribus a»,
n e N, et Aoq. Maïs alors les tribus \jpi>i <a>p et a^ sont indépendantes et,
puisque aco c ^/>> 'a Lr"inu ^oo est indépendante d'elle-même. En
particulier, on a :
VA e aœ P(A HA) = P(A)P(A),
d'où le résultat. ?
Corollaire 9.16. Avec les mêmes notations que dans le théorème précédent,
toute variable aléatoire a^-mesurable est presque sûrement constante.
Exemple 9.2, Soit (X„)„en une suite de variables aléatoires réelles
indépendantes définies sur (£2, a, P). Alors la série X^em x« converge ou diverge
presque sûrement, c'est-à-dire :
P(^y^ X„ converge) ^ 0 ou 1 .
En effet, on a vu (exemple 9.1) que l'événement (X^sn X„ converge) est
asymptotique ; la loi du tout ou rien donne le résultat.
50
CHAPITRE 9. INDÉPENDANCE DE TRIBUS, DE VARlABLES ALÉATOIRES
Remarque. En conséquence, si (Xk)„£n est une suite de variables aléatoires
réelles indépendantes définies sur (£2, A,V), pour démontrer que la série
X^çn X„ converge presque sûrement, il suffit de démontrer que
P^y^ X„ converge^ > 0 .
Remarque. Un cas particulier de l'exemple précédent est celui où X„ =
sn/n, les variables aléatoires sn (n e N) étant indépendantes, à valeurs 1
ou —1, de même loi donnée par
P(eB = l)=P(SB=-l) = i.
La loi du tout ou rien nous dit que l'une de ces deux assertions est vraie
(sans préciser laquelle) :
(i) La série de terme général ^ est P-p.s. convergente,
(ri) La série de terme général ^ est P-p.s. divergente.
Rappel. Soit (A„)n€N une suite de parties de £2. On définit les deux parties
de £2, limite supérieure et inférieure3 de la suite d'ensembles (AK)„eN par
limsupA« = p| {J Ap liminf A„ = {J f] Ap .
L'ensemble limsup„ A„ est l'ensemble des co e £2 qui appartiennent à une
infinité de A„. L'ensemble liminf„ A„ est l'ensemble des co e £2 qui, à partir
d'un certain rang (dépendant de co, bien sûr) appartiennent à tous les A„.
On a donc l'inclusion :
lim inf A„ c lim sup Art ;
" n
de plus, on a les égalités :
(lim sup An)c = liminf Acn et (liminf A„)c = lim sup Acn .
n n n n
Ces ensembles jouent un grand rôle dans l'étude des convergences de
suites de variables aléatoires, l'outil fondamental étant le lemme de Borel-
Cantelli.
Lemme 9.17 (Lemme de Borei-Cantelli). Soit (An)ne^ une suite
d'événements.
{a) On a l'implication :
+00
^P(A„) < +oc P(limsupA„) =0.
»=0
3. Autres notations : limsup,, A„ = lim An et liminf« An = um An .
9-2. indépendance et événements asymptottques
51
[b) Si les événements A„ sont indépendants, on a :
+00
^P(A„) = +°° => P(limsupA„) = 1.
«=o "
Démonstration. (a) Pour tout n € N, on a
P(limsupA„) 5=P(U Ap) s= £P(A,),
" p&n p^n
ce qui donne le résultat, le membre de droite étant le reste d'ordre n d'une
série convergente.
(b) On a:
P(limsupA„) = 1 - PQiminf ALn).
Puisque les événements AJj sont aussi indépendants, on a, d'après les
propriétés d'une probabilité pour les suites monotones (propriété dite de
monotonie séquentielle) :
1
P(limmf AS) = \imn limq p( f] A^
p=n
q
= lim„ lim^ l\ P(A« )
p=n
q
= \imn\imq H [' -p(Ap)i ¦
p=n
Mais, puisque exp(—x) > 1 — x, on a :
q q
0 s n t1 - p(A^)] * exp(- E p(A^)). :
p=n p=n
le membre de droite convergeant vers 0 lorsque g tend vers l'infini, on a
9
Iimf][l-P(A/,)]=0,
p=n
ce qui démontre le résultat. ?
Remarque. La première implication du lemme de Borel-Cantelli est toujours
vraie (il n'est pas besoin de supposer les A„ indépendants) ; par contre sa
réciproque est fausse : prendre l'espace probabilisé ([0,1], ¿8[o,i], A) où A
est la restriction de la mesure de Lebesgue à [0,1] et, pour tout « e N*.
A„ =]0, 1/«]. On a limsup^A,, = 0, et donc P(limsupnA„) — 0, et
pourtant ESp(A„) = +00.
52
CHAR l HT q. INDÉPENDANCE DE TRIBUS, Dl. VARIAIH ES ALÉATOIRES
Ce même exemple montre de plus que la deuxième implication ne
peut être vraie en général, ce qui explique l'hypothèse supplémentaire
d'indépendance.
9.3. Quelques résultats liés à l'indépendance et au modèle de pile
ou face
Nous avons vu comment construire un modèle probabiliste décrivant un
jeu de pile ou face en n coups (avec une pièce équilibrée).
Mathématiquement, cela revient à la construction d'un espace probabilisé (Q. A.P) et de
n variables aléatoires indépendantes X, (i = 1 n) de même loi
uniforme sur [0, 1 [ définies sur cet espace : on peut prendre Q, = \0, 1muni
de la probabilité uniforme, et pour X, la projection sur le /-ième facteur :
(.Vj. .. xn) h* Xi.
Le problème analogue dans le cas d'une suite infinie de lancers devrait
conduire naturellement à prendre pour espace des événements Q =
{0. 1}N . Toutefois l'existence sur cet espace d'une mesure de probabilité
dont pour chaque i la /-ième marginale soit la loi uniforme sur {0, 1} n'est
pas évidente. Si on veut l'obtenir par application d'un résultat général, il faut
employer le théorème de Kolmogorov (cf. corollaire A.40).
Mais le problème pose possède une autre solution, a priori plus
élémentaire, où on prend notamment pour Q. l'intervalle [0.1[. muni de la mesure
de Lcbesgue. Cette solution, que nous allons étudier ci-dessous, n'est pas
en fait si éloignée que cela de la précédente : à chaque .v e [0,1 [, on peut
en effet faire correspondre une suite appartenant à {0, I }N en écrivant le
développement de x en base 2 :
.v = 0,XiX2...x„...
(il y ambiguïté pour les rationnels de la forme p/2q, car ces nombres
possèdent deux développements en base 2, par exemple I/2 = 0.1000... =
0,0111..., de même que les rationnels de la forme p/\0'' possèdent deux
développements décimaux : 0.70000... — 0.69999...; on convient ici de
choisir celui des deux développements qui s'achève par une suite de zéros).
On définit ensuite sur Q — [0, 1 [ (muni de sa tribu borélienne et de la
mesure de Lebesgue) des variables aléatoires Dw (n e N") en prenant
pour D„(x) la «-ième décimale dyadique de x. On montre alors (voir
prop. 9.18 ci-dessous) que ces variables aléatoires sont indépendantes et de
loi uniforme sur {0, 1}, ce qui fournit une solution au problème posé.
Développement dyadique d'un réel x e [0,1[. Définissons pour tout x e
[0. I [ les suites de terme général D„(.v) et Rw(.v) par :
Ro(a-) — x
93- KESULl ATS LIÉS À L'INDÉPENDANCE ET AU MODÈLE DE l'fLL. Ol1 fACE
53
et, pour n e N*,
D„(.v) - [2R„_,(x)] R„(.v) = 2Rrt_l(.v)-D„(x).
Par construction,
D„(x)e{0,1} et Rw(x)e[0, 1[
et un raisonnement par récurrence conduit immédiatement à :
V/ieN* x = Y 5^ + -R„(x);
2'
./ = i
En faisant tendre n vers l'infini, on obtient :
+ 00
D7-(x)
i = \
De façon générale, lorsqu'on a
x,
on écrit symboliquement
x - 0,*,x2....y/... (9.10')
et on dit que le second membre de (9.10) ou de (9.10') est un développement
dyadique de x. Nous avons donc montré que tout x e [0, l[ possède une
développement dyadique.
Le développement dyadique d'un réel n'est pas unique ; on a en effet
1 +0Û I
VneN* —- = V-t (9.11)
j = n
si bien que, pour tout k e N* et toute suite finie {Xj)x^j^k <= {0, 1 }k, on a
./ = 1 y = l /=¿ + 2
soit
0,.ri.ï2...x* 10000... - 0,x1x2....vyt0111 I... (9.12')
Puisque tout entier impair peut s'écrire sous la forme xx2k + x22k~l +
¦¦¦ + Xfc2 + I (écriture d'un entier en base 2), on vérifie aisément que
les nombres de la forme (9.12) sont exactement les rationnels de In forme
p/2q (appelés rationnels dyadiqties) de l'intervalle ]0. 1[. On dispose donc
54
CHAPITRE g. INDÉPENDANCE DF. TR[RUS, DE VARIABLES ALÉATOlRRS
pour les rationnels dyadiques de deux développements : le premier, appelé
développement fini, s'achève par une suite ininterrompue de 0, le second
s'achève par une suite ininterrompue de 1.
// n'y a pas d'autre cas de non-unicité : supposons en effet
0,xix2...Xj... - Q,yly2...yi...
Soit k le premier entier tel que x* 7^ yt - En échangeant au besoin les deux
membres de l'égalité précédente, on peut supposer que x& — 1. yk = 0. On
a alors ^
l=k+\ j=k+ï
On déduit de la relation (9.11) que la seule possibilité est x,- = Û pour tout
j >- k + l, yj = l pour tout j > k + 1, autrement dit qu'on se trouve dans
la situation (9.12).
Retenons pour finir que pour x g [0, 1[ la suite de terme général Dff(x)
fournit les chiffres du développement décimal de x lorsque celui-ci est
unique. Lorsque x g ]0, 1 [ est rationnel dyadique, elle fournit les chiffres du
développement fini. En effet, un calcul simple où on pose d„ — D„ (x) pour
alléger l'écriture montre que R/((x) = Q,dn+idn+2.... Puisque 0.111... — 1
et que R„(x) < 1, le développement x = Q,d]d2...d„... ne peut pas être
formé à partir d'un certain rang d'une suite ininterrompue de 1.
Proposition 9.18. Soit l'espace probabilisé ([0, 1[, =S[o,i[. P) où P est la
restriction de la mesure de Lebesguc à [0, 1[. Sur cet espace, la suite (Dn)nef4*
est une suite de variables aléatoires indépendantes de même loi de Bernoulli
=S(1, |) = ^(¿'0 4- 8{). De plus, pour tout n G N*, la variable aléatoire Rn
est de loi uniforme sur [0, 1 [ et les variables aléatoires R„ et (D\, D2, .... D„)
sont indépendantes.
Démonstration. • Pour tout n g ïi* et pour tout n-uple — (s\. ¿2 £«)
G {0. 1}", notons \nSn l'intervalle dyadique
V 2" L
7 = 1 7=1
Cet intervalle est constitué des réels de [0,1[ dont le développement
dyadique commence par 0,£Ie2---£n- P;1'' exemple, pour n — 2, on a :
t2 t2 t2 t2
A00 MO 'il
0 I 1 £ 1
4 2 4
(J-3- RÉSULTATS LIÉS À LINUtl'EN DANCI7 F'I AU MODÈLE DE ['[[.htm l'Ail-
55
On a
si bien que :
J = l
Mais alors, pour toute partie non vide J de {1.2, n], on obtient, en
sommant sur tous les e Jc :
2U\ '
En particulier, pour tout j e {1, 2,..., n}, on a
P(Dy =fcV)= \.
On obtient alors que
c'est-à-dire, puisque « et J sont arbitraires, que les variables aléatoires Dy
forment une suite de variables aléatoires indépendantes de loi de BemouHi
m, i).
• On a, en notant I l'application x h-> x de [0.1 [ dans K :
R„ - 2"l-^2"-'Dy .
Alors, pour tout f € é?f /oh/ e„ — (ei, e2 £«) e {0, ]on a
E[/(R„) f] l(d,=f= E[/(2«l - ¿2""'^) f] l(dy=s/)]
= f ll»Jx)f(rX-£i2»-Jej)dX(x),
— j = 1
soit, en faisant le changement de variables dans l'intégrale de Lebesgue
défini par y = 2nx - V"=l 2n~h.h
E[/(R.)rïl(D/=,,i] = / 1iSa(^ + Ê^)Av)^rfA(y)
= ^ / l[o,i[(v)/(.v)^A(v).
1 Jr
56
chapitre 9. indépendance de tribus, de variables aléatoires
soit encore
Er/rR^n^i-^l-Pfn^^^li/h^[{y)ny)dX(y)). (9.13)
j=\ j=i Jr
et donc, en sommant sur e„ g JO. 1}" dans chacun des membres de (9.13) :
E[/(R„)]= f llo.nO")/(y)rfA(.v).
Je
Ceci démontre que R„ est de loi uniforme sur [0,1[. De plus, pour tout
f g "G^fR). pour toute partie J de {1,2,...,«} et pour tout g {0, 1}J,
il vient en sommant dans chacun des membres de (9.13) sur tous les ey,
i'eJc:
ce qui démontre que R„ et (D:, D2,.. -, D„) sont indépendantes. ?
Remarque. La suite de variables aléatoires (RM) ne constitue pas une famille
de variables aléatoires indépendantes : on peut par exemple observer que si
c'était le cas, puisque
Dn = -Rn + 2Rn_1
et que R„_j et R« admettent une densité, il en sérail de même de D„ (voir
section suivante, prop. 9.23), ce qui est faux !
En corollaire, nous donnons une démonstration constructive de
l'existence d'une suite de variables aléatoires réelles indépendantes de lois
arbitraires données4.
Corollaire 9.19. Soit (/¿/);eN- une suite de probabilités sur (K, .Si). Il
existe une suite de variables aléatoires réelles (Xj)j^* définies sur l'espace
probabilisé ([0, 1[, &[o,i[, P). où P est la probabilité restriction de la mesure
de Lebesgue à [0,1[. indépendantes et telle que, pour tout j € N*, X; soit de
loi fi j.
Démonstration. On commence par prouver l'existence d'une suite de
variables aléatoires indépendantes de même loi uniforme sur l'intervalle [0. 1[.
Le cas général s'en déduit aisément.
4. La première présentation mathématiquement rigoureuse des suites de variables
aléatoires indépendantes — et en particulier du jeu de pile ou face — est due à Hugo Steinbaus
(1923, 1930), qui proposa de considérer ces variables aléatoires comme des fonctions
mesurables définies sur [0, t]. Le travail de Steinhaus précède de quelques années ]a publication
par Kolmogorov de sa construction axiomatique de la théorie des probabilités, fondée sur la
théorie de la mesure et l'emploi d'espaces probabilisés arbitraires (£2. A, P) (1929,1933).
93- résultats liés à l'indépendance et au modèle de pile ou face
57
Reprenons les notations de la proposition 9.18. Les fonctions D„ (n €
N*) sont considérées comme des variables aléatoires définies sur [0,1[ muni
de sa tribu borélienne et de la mesure de Lebesgue.
Soit (NyJygN* une suite de sous-ensembles infinis formant une partition
deN*: „ , ,
N = l+J N,-
j EN*
et soit (fj la suite obtenue en prenant dans l'ordre croissant les éléments
de N/. Pour obtenir une telle partition, on peut partir d'une bijection
$ : N* x N* -> N*, par exemple la bijection donnée par par <S>(j,k) =
(.j+ic~2)ii+k~j) +£ Qn n0(;e y. la suite croissante & \-+ .k) et on appelle
N; l'image de N* par cette suite.
Pour / e N*, on pose
k=l
(En d'autres termes, on répartit les décimales dyadiques de x en une infinité
de sous-suites et on forme un nouveau réel, noté Yj (x) avec chacune de ces
sous-suites.)
Les variables aléatoires Yj, y G N, sont indépendantes. En effet chaque
Yj est mesurable par rapport à la tribu a(D„,n € N/) et ces tribus sont
indépendantes puisque les forment une partition de N* et que les D„,
n e N* sont indépendantes (cf. th. 9.12).
Pour tout j e N* la loi de Yj est uniforme sur [0. 1[. En effet, posons
pour n e N* n
k=l
La loi d'une somme de variables aléatoires indépendantes ne dépend que
des lois de ces variables aléatoires (voir plus loin, prop. 9.22). Comme les
variables aléatoires Di, D2,..., D#,... sont indépendantes et ont toutes la
même loi, la loi de YjiH est donc la même que celle de
k=i
Notons que Z = lim„ /* Z„ est en fait la fonction identité sur [0,1 [. Puisque
Yj = lim„ / Yj,n, on a (Yj ^ y) = lim„ \ (Yy]B € .v). De même
(Z < y) — lim„ \ (Z„ ^ y). Par suite on obtient pour y e [0,1}
PO0 < y) = limP(Yi|B ^y) = limP(Z„ ^ y) = P(Z 5 y) = y.
n n
Enfin, si F; est la fonction de répartition de la probabilité pj définie par
Vjc el F/(jc) = pj(]-oo,x]).
5*
chapitre 9. indépendance' de tribus, de VAKIABLHS ALÉATOIRES
si G ; est sa « pseudo-inverse » définie par
V; € M G,-(0 = inf(.v I Fy(x) >¦ t),
et si X¡ — Gj(Yj), il résulte de l'exercice 1 du chapitre 8 (résultat
fondamental pour la simulation de lois de probabilité) que la loi de X, est
\Xj. ce qui restait à démontrer. ?
Complément. Probabilités produit sur {0. I }N*.
Modélisation du jeu de pile ou face au moyen d'un espace de suites.
II est en fait possible, à partir du modèle fondé sur [0:1 [, de construire
un modèle où l'espace fondamental csl l'espace des suites {0,1, qui est le
modèle « naturel » auquel nous faisions allusion au début de cette section.
Notons D l'application de [0. 1| dans {0, 1 }^*" définie par :
Vxg[0J[ D(x) = (Dn(.ï))„eH.
11 résulte de la relation (9.9) que D est injective. En vertu de l'analyse que
nous avons faite du développement dyadique, D a pour image {0, 1 }n privé
du sous-ensemblc f2] formé des suites qui valent 1 à partir d'un certain rang.
On munit {0. li"J de la« tribu produit » A, produit des tribus des parties
sur chacune des composantes ; plus précisément A est la tribu engendrée par
la famille des parties de la forme :
Y\ A„ = ja) g {0, \ y!* I Vh g N* a)n g A«[ ,
où A„ est une partie de {0. 1} égale à {0, 1} sauf pour un nombre fini
d'indices n.
L'application D de ([0, 1[:^8[o.l[) dans ({0. ]JK .A) est mesurable: en
effet il suffit de constater que pour tout 1 g ¿Pf(H*), pour tout « g I. et
pour tout A„ — {e„ \ où s„ g {0. I [, on a :
D"'(n a«) = rv°"=?">e
neh"* «et
On note alors Q la probabilité sur (£2. A n Q), image de P par
l'application mesurable D.
En prenant pour Z, la projection de (0. 1¡T: sur le /-ième facteur,
on obtient une suite de variables aléatoires définies sur ({0, 1}^*.^, Q).
indépendantes et de même loi ,3(1. 1/2). On a en effet D¡ — Zy o D pour
/ g N*. II en résulte, par définition même de la probabilité Q, que Q(7V =
e) ~ P(Dy- — e). et plus généralement que Q(Zy, — e¡t...., Z;„ = s¡lt) —
P(Dy-, = S/y, D/„ — £;„). Par suite. Z, a même loi que D; et les Z; sont
indépendants puisque les Dy le sont.
9-3- k fou liais lii'.s à l'in dépendance et au modèle de pile ou v\çf
59
On peut noter que Q est exactement la mesure produit des probabilités
uniformes sur les facteurs {0, 1} (voir cor. A.40 pour une définition) :
les proriétés à vérifier pour le montrer traduisent exactement le fait que
les variables aléatoires Z,-, / e N* sont indépendantes et de même loi
5(1,1/2).
Exemple d'utilisation. Dans une partie infinie de pile ou face, la probabilité
de voir se réaliser une infinité de fois une suite (e\,..., s„) est égale à 1. En
effet, l'événement considéré s'écrit limsupH(A„), où
Aj = {(Z;+l.Z/+2 Zj+n) = (et,...,(¦:„)} ;
or si
B/ = {(Z;-„ + i. Z^-i-2. ¦ ¦ -, Z(/ + 1)„) = (e,,..., s„)) ,
les événements B -, sont Q-indépendants et
limsupB„ C [imsupA„.
I! n
De plus, puisque Q(B;-) = 1/2", on a
+ 00
£Q<b;) = +oc
/=i
et, par le lemme de Borei-Cantelli, Q(limsupn B„) = LA fortiori, on a
0(limsupH A„) - 1.
Remarque. Pour répondre à la question, on notera qu'il suffit d'avoir
un modèle permettant de parler d'une suite infinie de variables aléatoires
indépendantes de même loi B(\, 1/2).
Modèle canonique pour une suite de variables aléatoires de Bernoulli
indépendantes.
Si maintenant on considère une suite de variables aléatoires de lois
données ptj, on peut transporter à {0, 1 }N la solution du problème « construire
une suite de variables aléatoires indépendantes de loi pj » obtenue au
corollaire 9.19 : les variables aléatoires X; que nous avons construites étant
définies sur l'espace [0, I [, il suffit après avoir observé que l'application D_l
delinic sur {0, IP \ Ci | est mesurable, de considérer les variables Xj o D_l
(on les prolonge arbitrairement sur l'ensemble Cii, qui est de Q-probabilité
nulle).
On obtient bien un modèle où l'espace fondamental est un espace de
suites, mais il n'est pas réellement « adapté » au problème : les variables
aléatoires X,- ne sont pas comme dans le modèle de pile ou face ci-dessus en
relation avec les projections sur les espaces facteurs (dites aussi applications
coordonnées).
6o
chapitre 9. indépendance de tribus, de variables aléatoires
Voici, en supposant pour simplifier que les lois données fij soient des
lois sur {0,1} (lois de Bernoulli de paramètre pj), comment construire un
modèle mieux adapté. Ce modèle conviendra par exemple à la description
d'un jeu de pile ou face avec une pièce non équilibrée, les py étant alors tous
égaux à p.
Soit X: [0. l[->{0,1}N* l'application qui à x associe la suite (X/(x))yeN*.
Notons que cette application dépend du choix de la suite p, = (hj)jgn*.
L'application X est mesurable : vu la définition de la tribu <A sur {0, 1}N*, il
suffit de vérifier que pour tout «, l'application x \-> (Xi(x) ... ,Xn(x)) est
mesurable, ce qui est le cas.
Soit l'image par X de la probabilité P. Alors, si {0,1}N* est muni
de la tribu <A et de la probabilité P^, les projections Zy = pry sont
indépendantes et de loi jXj (j € N*). Comme ci-dessus, par définition même
de la probabilité image, on a P^fZy, — ejt , Xjn = sjn) — P(XJi =
Sjif..., Xyn = £j„), d'où il résulte que Zy a même loi que X, et que les Zy
sont indépendants.
On a montré du même coup que PIX est la probabilité produit des
probabilités fj,j, j e N*.
En particulier, la loi P^ ne dépend que des jaj, et non des Xy dont la
construction fait intervenir des choix arbitraires. C'est pourquoi on peut
appeler le modèle que nous venons de construire (espace fondamental
({0, 1}N , A, Plt) et variables aléatoires Zj,j € N*) modèle canonique pour
la réalisation d'une suite de variables aléatoires de Bernoulli indépendantes
et de lois données. On peut observer que nous avons démontré le théorème
de Kolmogorov dans un cas particulier.
Constatons aussi qu'une fois de plus on a obtenu pour la solution d'un
problème de modélisation deux solutions équivalentes (et cette fois assez
différentes) : la présente solution et celle du corollaire 9.19.
Remarque. Considérons le cas où les jaj sont toutes égales à B(l,p) avec
0 < p < 1. On écrit alors Pp au lieu de P^ (on a par exemple P,/2 = Q).
La mesure Pp est diffuse, et étrangère à Q si p ^ ~. On a en effet pour
co € {0,1} et pour tout « € N*
pp(M) = P/.(Zi = ai,..., Z„ = con,...)
^ Pp(Zi=cou...Zn=con)^pn
où p = sup(p, 1 - p). D'où PP({co}) ^ lim^ p" = 0. Pour montrer que Pp
et Q sont étrangères, le plus simple est d'exhiber un événement qui soit à
la fois de probabilité 1 pour Pp et de probabilité 0 pour Q. C'est le cas de
l'événement lirrv, ^(Zi + • • • + Z„) = p (loi forte des grands nombres, th.
10.20).
On tire de là la construction d'une mesure sur [0,1] diffuse et étrangère
94- CONVOLUTION El' loí DE la SOMME DE V.A. INDÉPENDANTES
6l
à la mesure de Lebesgue. Les probabilités Pp et Q attribuant l'une et
l'autre la mesure 0 au sous-ensemble dénombrable £2,, on peut restreindre
ces probabilités à {0,1}N* \ £2^ D'autre part D définit une bijection de
[0,1[ sur ce dernier ensemble et l'inverse de cette bijection, que nous
noterons D-1, est mesurable. En effet, la tribu <3[o,i[ étant engendrée par
les intervalles dyadiques de la forme [~, rpr[, il suffit de remarquer que
l'image inverse d'un tel intervalle par D-1 est l'ensemble des co € £2
dont les « premières coordonnées sont égales aux « premiers chiffres du
développement dyadique de En considérant maintenant les images par
D-1 des probabilités Q et Pp on obtient d'une part la mesure de Lebesgue
sur [0,1[, d'autre part une probabilité diffuse sur [0,1[, nécessairement
étrangère à la mesure de Lebesgue.
9.4. Convolution et loi de la somme de variables aléatoires
indépendantes
Définition 9.20. Soient /j., et \i2 deux mesures bornées (resp. deux
probabilités) sur (M.d, 33Rd). Soit S l'application somme sur Hd. La mesure image de
¿¿i <8> £¿2 Par S esi appelée produit de convolution de juj et \i2 et notée ¡i] *¿¿2.
C'est une mesure bornée (resp. une probabilité) sur (R.d, 33 Rd).
Proposition 9.21. Pour toute fonction mesurable positive f sur Rd on a :
(9.14)
/ / ¿(/i, * pi2) = / f(Xi + x2) d(fil ® fi2)(xux2).
Deplus, f € (M.d, 33Rd, fii* fii) siet seulement si l'application (xux2) v->
f(xi +x2) est (¡ii®pi2)-intégrable. Dans ce cas l'égalité précédente est encore
satisfaite.
Démonstration. La démonstration est standard. Si / — 1a, où A € 33Rd,
c'est la définition de ¡ii * \i2. L'égalité (9.14) est alors vraie par linéarité pour
toute fonction étagée positive, puis par la propriété de Beppo Levi, pour
toute fonction mesurable positive (prendre une suite croissante de
fonctions étagées positives convergeant vers /). Le reste de la démonstration est
encore standard : pour l'intégrabilité, prendre les valeurs absolues et
appliquer (9.14) ; enfin, décomposer / en ses parties positive et négative. ?
Proposition 9.22. Soient sur l'espace probabilisê (£2, <A, P) deux variables
aléatoires indépendantes Xi et X2 à valeurs dans Hd. La loi de X, + X2 est
le produit de convolution des lois de Xi et X2 :
PxI+x2 =PXl *Px2.| (9.15)
62 chapitre g. indépendance de tribus, de variables aléatoires
VyeR* /x1+x2O0 = f fxi(^)fx2(y~x1)dXd(x1)
- / fxx{y - x2)fx2(x2) dXd(x2).
On dit que fX] +x2 est le produit de convolution des fonctions fXi et fx2.
Démonstration. Pour tout A € 3SRd, on a, d'après la proposition 9.22 et le
fait que Xi et X2 admettent des densités et sont indépendantes :
PX]+x2(A) = / UOi +^2)/xi(^i)/x2(^2) dXd ®Xd(xx,x2).
Faisons le changement de variables
Ji = *i + x2
y2 = x2 .
Le difféomorphisme associé étant de jacobien 1, il vient
Px]+x2(A) = / 1aoi)/xioi -y2)fx2(y2) dXd ®Xd(yi,y2),
jrd
soit, d'après le théorème de Fubini,
Px[+x2(A) = [\[ /X] (y, - y2)fx2{y2)dXd{y2)] dXd{yi),
ce qui démontre le résultat. ?
Exemple 9.3. Soient Xi et X2 deux variables aléatoires réelles définies sur
l'espace probabilisé (Q, <A, P), indépendantes, de lois respectives y (a,, p) et
y(a2i p), où «i, a2 et p sont des réels strictement positifs. La loi de Xi + X2
est la loi y(fl| + a2, p).
En effet, pour i — 1,2, on a
V* € R fXi(x) = lR+(x) -jÇ- expC-px)^'-1 ,
i (ai)
Démonstration. Puisque X! et X2 sont indépendantes, on a PX] ,x2 = Pxj ®
Px2 ¦ H en résulte que :
Px,+x2 = Pso(x,,x2) - S [PX| ® Px2] = Px, * Px2 ¦ ?
Proposition 9.23. Si, outre les hypothèses de la proposition 9.22, on suppose
que X, et X2 admettent des densités respectives fXi et fx2, alors X, + X2
admet une densité fxl^rx2 définie par
exercice 9.1 63
I.
(l-ur-^-Uu=T(ai)r(a2)
r(fll+a2)
Exercices
Sauf mention spéciale, toutes les variables aléatoires seront définies sur
un même espace probabilisé (Q, <A, P).
Exercice 9.1. Variables aléatoires gaussiennes indépendantes; indépendance du
rayon et de l'angle polaire. X et Y sont deux variables aléatoires réelles
indépendantes de même loi gaussienne =%((), 1). On note £> l'application de R+*x]0, 2jt[
sur R2 \ R+ x {0} (transformation polaire) définie par
V(p,0) € R+* x]0,2tt[ $(p,0) = (pcos#,psin#),
et * son inverse. On définit alors l'application * de R2 dans R x [0,27r[ par
$rrv(_| *O.JO si(*,v)eR2\R+x{0}
{ 'y> ~ \ (0,0) sinon.
5. Le maniement méticuleux des fonctions indicatrices évitera bien des erreurs dans la
détermination du support des lois.
et X] + X2 admet pour densité le produit de convolution des fonctions fXï
et fx2 ; or, on a
fx^y- x2)fx2(x2) =
ir+O -x2)1r+(x2) f\P^ zxp(-py)(y - x2y^xa22~l,
et, comme on a5
!i+ O ~ x2)lm+ (x2) = 1r+ 0)1(0,,] (*2> ,
il vient :
fxi+x2(y) = lR+0)r, ,r, , exp(-pj) / 0-^r'-'^2"1 rfx2,
1 (fli)i (a2) Jo
soit, après changement de variables,
fxi+x2(y) = \+(y)rr^rr ^ expC-py)/^2-1/'^-»)"1"1»02"1^:
1 (ûji («2) y0
Mais, puisque l'application y i-> ir+O)/^^) &xp(-py)yai+a2~1 est
une densité de probabilité, la fonction fx\+x2 est égale à cette densité (le
coefficient normalisateur est unique !) et Xt + X2 suit la loi y(a.\ + a2, p).
On obtient de plus ainsi la relation :
(TIAPILRE <j. INDÉPENDANCE DL IIÍIP.US. DE VAIÎIARI.FS ALÉATOIRES
On définit la variable aléatoire (R, &) par
(R,0) = *(X.Y).
Déterminer la [oi de la variable aléatoire (R. 0) par sa densité ; justifier
l'indépendance des variables aléatoires R et 0 d'une pari, et des variables aléatoires S = R2
et B d'autre part. Spécifier la loi de S.
Solution. Pour tout / e t?^(M2). on a, par Je théorème de transfert :
E[/(R, &)} = E[f o $(X, Y)] = / fo >¦) dPçxwix, y).
Je2
Les variables aléatoires X et Y sont indépendantes el admettent des densités : on a
donc :
E[/(R, 0)] = f fo V(X. y) ./x(-v)./y()') dk2(x. y).
Puisque, dans le plan, une demi-droile est de mesure de Lebesgue nulle, on a alors :
E[/(R,<-)V] = / f °nx,y)Jx(x)My)dX2(x,y)
f 1 ^-2 ,2
Effectuons le changement de coordonnées polaires défini par le diffcomorpnisme lly,
de jacobien r ; il vient
E[/(R. 8)] = / /(i-, 0)— exp(--)r dk2(r, 0),
soit encore :
E[/(R, 0)] = j /(r. 6) 1R + X[0i2w](r. <?) — exp(-y)r dk2(r, 9).
On en déduit que (R, 0) admet la densité /(Ri@) donnée par
V(r.d) e M2 /(R,R)lr.0) = l[0,2„\(8) ^1R+fr)exp(-^^-.
La densité /(r,©) étant produit direct de deux fonctions mesurables positives, les
variables aléatoires R et 0 sont indépendantes et de densités respectives /r et /©
données par
Vrëi /h(0 = lH+('-> exp(-y)r.
VtfeM /0(^) = l[o,2Jrl(^)¿.
La loi de 0 est la loi uniforme sur [0.2n].
EXERCICE 9.2
Les variables aléatoires S et 0 sont encore indépendantes comme fonctions
mesurables de telles variables aléatoires.
Enfin, pour tout /' e t?jç(M), en suivant les mêmes étapes que précédemment,
on a
E[/fS)l =E[/(R2)]= f f(r2)dPR(r).
soit, puisque la mesure de Lebesgue d'un singleton est nulle,
E[/(S)]- f f(r2)cxp(-~)rdX(r),
et, en effectuant le changement de coordonnées défini par s = r2, difféomorphisme
de P.+* sur lui-même de jacobien —V :
—Js
E[/(S)] = f /(j)lï+*(i)iexp(-M dX(s),
c'est-à-dire que S suit la loi exponentielle exp(i).
Exercice 9.2. Sur la voie de la simulation de deux variables aléatoires indépendantes
de loi ganssienne <A/p.(0, I). S et O sont deux variables aléatoires réelles
indépendantes de loi respective la loi exponentielle e.\p(l/2) et la loi uniforme sur [u,2jr].
On définit les deux variables aléatoires réelles X et Y par
X = vS cos 6 Y = VS sin 0 .
Quelle est la loi de la variable aléatoire (X, Y) ?
Solution- Remarquons que P(S > 0) = 1 ; (X. Y) est donc définie presque sûrement.
Pour tout / e t°jf (R2). ou a.
E[/(X.YJ] =F,[/(VScos0.VSsine)] ,
soit, par le théorème de transfert,
E[f(X, Y)l = / f{ y/s cou 9, V^sintf) dPp@)(.s,9).
h.2
Les variables aléatoires S et 6 sont indépendantes et admettent des densités; on a
donc
E[/(X.Y)] - / fXy/s~cos6,y/s~sm9)fs{s)M9)dX2(s.9),
Jr2
soit :
E[/"(X,Y)] - f fi^scosB. v^sin^) — -expf--) dX2(s\9).
Jr+*x]o,2»1 271 2 v 2/
Effectuons le changement de variables associé au difféomorphisme H de R + *x]0,1rt\
surR2 \ R+ x {0} défini par
V(s,0) € R+* x ]0.2jt[ x ~ Vscosd y = y/s un 9 .
ITI \ PITRE C). IMJI'Pf \l),\!s( I III (RIBUS. L>L - VMilAIH ES Al h AKllHTS,
Puisque
et que
—K= COS 9 — y-v si'1 à
—K= sin 0 s7cos 9
(H'')'(.ï.>¦) = [H'O-nV. vìi] 1
le jacobien du difféomnrphisme vaut :
i
detd-r')'(.\. y) =
c\etH'(H-'(A. v»
Il vient alors
E[/(X.Y)] = f /(-V->)-l-evp(-"^4Z-) dk2(x.y).
soit, puisque toute demi-droite est de mesure de Lebes°ue nulle
Ceci démontre que (X. Y) admet la densité /(x.Y) donnée par
e K2 /,\.v,<v. v) = -^Lexp(-^)-Lcxp(-^)
Il en résulte que X el Y soni deux variables aléatoires réelles indépendantes de
même loi gaussienne -A r (0, I ).
Remarque. On a vu en exercice que si l ! est une variable aléatoire de loi uniforme sur
]0. 1 [. la variable aléatoire -2 In U suit la loi exponentielle exp(i/2) ; cette remarque
et Pexercice donnent alors une méthode de simulation de deux variables aléatoire
indépendantes de loi gaussienne =A%(l). 1 ).
Exercice 9.3. Loi el moments de maximum de variables aléatoires de loi
exponentielle. On se donne une suite (X„)„eN* de variables aléatoires indépendantes de
même loi exponentielle exp(l). On définit pour tout n *£ N* les variables aléatoires
Y„ et Z„ par
Y„ = max X;
Démontrer par récurrence que Y„ et Z„ ont même loi ; en déduire les moyenne et
v;iriance de Y„.
Solution.
• La fonction de répartition de Y„ est donnée par. pour tout y g M,
<ô\p(—u)du ) si y
> 0
SÌ V £¦ (L
KXhIV ?. h ij Ì
Lü variable aléatoire Y„ admet donc une densité donnée, •-auf en 0, par la dérivée
de FY„ , soit :
Vr € il ?„(?) = ly+íyin cxp(-y){l cxp(-v))"
• On ;t Y| = 7, ; ees variables aléatoire ont donc meine loi. Supposons que Y„
et 7-n aienl même loi ; on a :
'/ - 7 j- x/, + 1
Z„ + 1 - Z„ + — .
" -I- 1
Les variables aléatoires Z„ ctX/H-i/1'7 +" l) soni indépendantes; Z„_|_| ? alors une
densité convolution de celles de Z,, et X„+l/(>? + I ) ; or (petit calcul classique), la
loi de X„+ ! /(? -I- 1) est In loi ???(? + I ), on a done pour tout : ? i ;
'?,+,|?)= J b + O'^^P*-.V1 ( 1 - expt-i ))""'
[(n 4- l)l|,- + ii - y)exp(-(n -F l'<- ?))] i/Aly),
soit, puisque lR + (y)l^H (z - y) = lll+(z)l[0,zi(y),
f/eH , í:) = 1^.i(r)/7(í7+l)e\-p(-(/7-l-l)r) / exp(/í,v)(l - c\p(-y))""' i/y .
Mais on a
/ ?.\?(/7?)(1 -exp(-v))" Vr = / cxp(y-)(e\p( vi - I )" ' c/.r
(???(?) - 1)" j"
/; j
(cxp(z)- 1)"
ce qui démontre que
/2„+1 (-) = lK i fr) (/í + hexpi-i)(l -exp( -1)" = /y„ M(-l
c'est-à-dire que : //„., , = /Y;,+ 1 -
• On a alors EY„ = V.Z„ = ; FX;, soil :
EY„ = £
i .es variables aléatoires Y„ el 7,„ on I aussi même variance el. Ics variables aléatoire*
X; ébnl indépendantes, on ? ?? ; = n¿( = ,^ a\ - :
68
CHAPITKI 9, INUÉPENlMNCE 1)1. TRIBUS. DP VAF,[AU| F.S A|.bAIO[RLS
Exercice 9.4. Lois du ehi-deux et de Studcnt. (Xrt)„e^* est line suite de variables
aléatoires indépendantes de même loi gaussienne <A>(0. I). On définit poui' tout
DëN* les variables aléatoires Y„, et T„ par
7 = 1 v "
Démontrer par récurrence que Y„ admet une densité f\n donnée par
VreR A-,(v) = l<+(y) „ ' CKv(-y)y'i-> . (9.16)
2~i Hf) v 2'
Calculer les moyenne et variance de Yn. Démontrer que Vn admet une densité que
l'on calculera. En déduire que T„ admet une densité f\n donnée par
i r?) t
La loi de Y„ est la loi du chi-deux à n degrés de liberté, celle de T„ est la loi de
Strident de paramètre n.
S;ms utiliser la densité de T„. déterminer pour quelles valeurs de n les moyen nu
et variance de T„ existent et. dans ce cas, les calculer.
Solution. • Par la même méthode standard que dans les exercices précédents on
montre que, pour tout / e c?^(]R) :
E/'(Xf)= / /(x)1B+(x)-Lexp(-^)x-i dX(x).
ce qui démontre que Y, admet une densité donnée par la relation (9.16) à l'ordre 1.
Supposons que Y„ admet une densité /Y;î donnée par la relation (9.16) à l'ordre tu
Les variables aléatoires Yrt et X^ + , sont indépendantes et on a Y„+1 = Y„ + X2 + ] ;
Y,j_|_| a alors une densité couvolulion de celles de Y« et X^+1. et, comme de plus
ct Xf om 'nÊ,'ne |oi> i' vient
Vy <= M /V|I + | (y, = £lK+(.v,^^exp(-|)^-'
[lR+ !>' ~ x) ^v(--~yy - dX(x).
Il en résulte que, pour tout y e K :
Mais, pour y > 0, p;ir le changement de variables x = v\\ on a
/ ^:_1(v-^)-i r/A(x) - vH1-1 / -u)~i JA()0.
Ao.yl .'[o.i]
On a donc
VyeK /y„ + 1(.v) = KlM+(y)cxP(- ~)y""2L
(9.18)
K
^2=r(ï) Vil
Pour identifier K. il suffît d'écrire que t\n + ] est une densité, d'intégrer sur K et de
[aire le changement de variables / = y/2. On obtient le résultat demandé.
» On,-'
et donc, par linéarité.
EYi = E(X2)-a2 +[EX,]2
Les variables aléatoires X2 étant indépendanlcs, on ;i
/=1 J
or on a
o2 = E(X'|) - [EX,]" .
et. un calcul simple conduisant à fc-fXf i — 3, il vient
in
• Remarquons que. puisque Y„ admet une densité, Tj( est définie l'-presque
.sûiemenl. De plus, Y„ et X„ + i sont indépendantes. On a alors, pour tout / e
et, par le théorème de transfert,
R/fO = / ./ )A„+1 (*) A„ (>i ^A2(x.>¦,.
soit :
EHT^ =
7"
t'JIAPllKt 1). INDKl'HNPANCE DE ItîlHUS. DE VAKIAIÌI.ES ALÉA| OlKl'S
Faisons le changement de variables associé au diffcomorphisme de l'ouvert M x
sur lui-même défini par
= y
x=ty/
et de jacobien :
dix, y)
d(t.z)
Il vient
efxv„)= f f(n^—L—cxp(-z-([+t2))ztt^--ldx2u.z),
et. par le théorème de Fubini.
c/n;)= / /u;
J¥
—-- cxp(- I +;2))-- "2-"ldx(=
dx[i).
soit, après le nouveau changement de variables clé 11 n i par u = ^-(1 -f t2) ei après
réduction :
ef<X„)=j f{t)
1-N2 2
cxp(-u)u 2 ~ldx(u)
dx(t)
Ceci démontre que T' admet une densité donnée par
s/* V('X)
Enfin, puisque T„ = */iït'n, on a
V/ e E /,,,(') = /V (-^)~•
ce qui démontre la relation (9-17).
• Les variables aléatoires )Xn_|_i | et l/^/Y^ sont indépendantes et positives ; on
alors écrire, dans IK"1 ,
/o|T.|rfP=^(/o|X„ + ,|rfP)(/o-^rfP).
Le premier facteur du membre de droite est fini ; quant au second, par le théorème
de transfert, il s'écrit
d?= f ~j\„iy)dx(y):
r.xr.Kc îffi 9.5
71
M eu résulte que fQ |T„|</P < -hoc si et seulement si /; > I. Dans ce cas on a, toujours
par indépendance,
ET„ =^E(X„+,)e(-^z).
'Y„
soit :
ET„ = 0.
De même, les variables aléatoires X2+| et sont indépendantes et positives ; on
peut donc écrire dans F.+ :
Le premier facteur du membre de droite est nui ; quant au second, par le théorème
de transfert, il s'écrit
f V- dp== /\ -/v«(>')^(y).
11 eu résulte que fa T^r/P < + 00 si et seulement si n > 2. Si n > 2, on a, toujours
par indépendance :
ET2- = nE(X2n+i)E(^) .
Comme on a
il vient, après changement de variables,
1
et donc :
T" n - 2
Exercice 9.5. Loi de la somme de deux variables aléatoires indépendantes, l'une à
densité, l'autre discrète X et Y sont deux variables aléatoires indépendantes de loi
respective la loi géométrique ^ (/>), où 0 < /> < 1, et la loi exponentielle expfl).
Étudier la loi deZ = X -f Y.
Solution. Pour tout / € if^fM), tenant compte successivement de l'indépendance
de X et Y, et donc de celle des variables aléatoires l(x=n) ct f(n + Y), puis du
théorème de transfert, on a
E/(Z) = W /(«+Y)rfP
= J2[P(\=n) f /(n+Y)rfP]
- E[P(X = '^Z /'(« +>')V+(v)exp(-r) rfA(y)]
72
chapitre 9. indépendance de tribus, de variables aléatoires
On note q = 1 - p ; on obtient alors, en faisant un changement de variables dans
chaque intégrale,
E/(Z) =£[P(X = «)/ /(;)lK+(2-«)exp(-U-n))rfA(2)l
r r lz] 1
= / /(r)lE+(z)|E^)"Jexp(-z)^A(r).
^E »=0
La variable aléatoire Z a donc une densité fz donnée par
V2 € R /z(x) = p 1R+ (z) f-^-e exp(-z) .
Exercice 9.6. L'indépendance de variables aléatoires n'est pas tonjours intuitive!
Lois gamma et bêta. X et Y sont deux variables aléatoires indépendantes de loi
respective y (a, p) et y(b, p) où a, b, p sont des réels strictement positifs. On définit
les variables aléatoires U, T, Z par
U = X + Y
T =
X
X + Y
Étudier la loi de la variable aléatoire (U. T) et en déduire l'indépendance des
variables aléatoires U et T. Préciser les lois des variables aléatoires U, T et Z.
Solution. Les variables aléatoires X et Y sont indépendantes et admettent des
densités ; X + Y admet donc aussi une densité, si bien que P(X + Y = 0) = 1 et
qu'ainsi, l'application (U,T) est définie presque sûrement. Ponr tout / € ¥?j£(R2),
le théorème de transfert permet alors d'écrire
E[/(U,T)]
* + y,
)fx(x)fY(y) dki'x.y).
t\à \ X + y
où A est la droite ',(.\. y) € IR2 [ x + y = 0Î, soit encore
E[/(U,T)] = K f f(x + y, -^-)exp(-p(x + y))xa'lyb'1 dX2(x,»,
J(R + *)2 ^ X + y>
où K est une constante strictement positive qui dépend de a, b, p. Effectuons
le changement de variables associé au djfféomorphtsme de l'ouvert (R+*)2 sur
E+*x]0, l[ défini par
u = x + y
x
t = —-
x + y
X = ut
y = m(1 -r).
de jacobien
D(u,D
t u
-1 -u
exercice 9.7 73
/CU,T)(«.0 = K{lM+*(U)exp(-U)W«+i'-1) (l]0ti[(0'fl"1(l -0*"1) ¦
La fonction /(ut) est produit direct de deux fonctions mesurables positives; [es
variables aléatoires U et T sont donc indépendantes. De plus la loi de U est la loi
y (a + b, p) et celle de T la loi bêta B(a,b) de première espèce (portée par [0, l]).
Quant à la loi de Z, il suffit de remarquer que
T
Z =
1 -T '
et d'appliquer la méthode de calcul de loi maintenant standard. On trouve que Z
admet une densité fz donnée par
VzeR yz(z) = lM+(z) 1
B{a,b) (1 +r)
~\a+b '
La loi de Z est la loi bêta B(û, b) de deuxième espèce (portée par R+ ). Évidemment,
les variables aléatoires U et Z sont encore indépendantes !
Exercice 9.7. Une caractérisation des lois exponentielles. Soient X et Y deux
variables aléatoires réelles, indépendantes de même loi \i ; on suppose qu'elles
admettent une densité / (autrement dit \x = / ¦ X, où X est la mesure de Lebesgue
sur R) telle que f{x) > 0 si et seulement si x € R+. On définit les variables
aléatoires U et W par
U = min(X,Y) W= |X-Y|.
1. Démontrer que la variable aléatoire (U.W) admet une densité que l'on
exprimera en fonction de / (pour cela, on pourra calculer, pour toute fonction g définie
sur R2, mesurable positive et éventuellement bornée, l'intégrale jQ g(U,W) dP).
En déduire que les variables aléatoires U et W admettent des densités J\j et _/w-
2. Pour simplifier, on suppose de plus que / est bornée et que sa restriction à R+
est continue. Démontrer que U et W admettent des densités fu et fw dont les
restrictions à R+ sont continues. Déduire des résultats précédents que \x est nne
loi exponentielle si et seulement si U et W sont indépendantes.
3. Démontrer qu'en fait, même si on ne suppose plus que / est bornée et que sa
restriction à R+ est continue, \x est une loi exponentielle si et seulement si U et W
sont indépendantes.
Il vient
E/(U,T) = K / /(w1/)exp(-w)(wOo~1["(l-0]i'~1l -u\dX2(u,t),
soit encore :
E/(U,T) = k/ /(«,01R+*(«)c",'«'i+i"ll]o,i[(0'a"1n ~t)b-ldX2(utt).
Il en résulte que (U.T) admet une densité /(u.T) définie en tout [utt) € R2 par
74 chapitre 9. indépendance de tribus, de variables aléatoires
Vm e I /i,(wj = 2f(u) / f(u + w) dX(w) ,
¦/«+ j
et ______________ .
Vu; e M - 21s+(uj) / f(u)f(u + w) dX(u) .
_______Jr _______
2. Il en résulte que pour que les variables aléatoires U et W soient indépendantes il
faut et il suffit que pour À2-presqiie tout (u, w)ëRxI+,on ait
f(u)f(u + w) = 2(f(u) J f(u +a)dk(a)^J f(a)f(a + w)dX{a)) . (9.19)
6. On note classiquement 1 A y = min(x. y) et a- V y = max(.ï.y),
Solution.
1. Pour tout g e rJ^.(K3). l'indépendance de X el Y cl le théorème de transfert
permettent d'écrire6 :
Ete(U.W)] = f x(x*y,\x-y\)Mx)My)dk2(x,y)
= f g(x,y-x)fx(x)fY(y)dX2(x,y)
+ / g(y,x-y)fx(x)fy(y) dX2[x,y).
Mais, puisque _/x = /y = / et que Ai({x = y}) = 0, on a
/ g(y, x - y)fx{x),h (y)dX2(x, y) =f g(y,x - y)jx(y)fY(x)dk2(x, >')•
J(x>y) J(x^y)
et donc :
Efc(U.W)] =2 f g(x,y-x)f(x)f(y)dX2{x>y).
Effectuons le changement de variables associé au difféomorphisme de l'ouvert M2
sur lui-même défini par
) u = x ( x — u
j w — y - x ( y = u + w .
de jacobien I ; il vient
EL?(U,W)] = 2 f g(u,w)f(u)f(u +w) dX2(u,w).
ce qui démontre que la variable aléatoire (U. W) admet une densité /(t;,W) donnée
par
V(w,uO e M2 /(u.w)(w.w) = 2 lK+(w) f(u)f(u + w) .
Les variables aléatoires U et W admettent alors des densités f\j et /w données par
liXRRCICE 9.7
75
On vérifie facilement qu'il en est ainsi lorsque ji est une foi exponentielle.
Inversement, supposons que la relation (9.14) soil satisfaite pour À2-presque tout
(u.w) e ? x R + . Puisque f(u) > 0 dès que ? 0. on a, après changement de
variables, pour /b-presque tout (u. w) et+x M'1".
f(u + w) = 2(j f(a)dk(a))(f f(tr)flct + w)dX(a)). (9.20)
On suppose de plus que / est bornée et que sa restriction à R+ est continue. On va
montrer qu'en fait, cette égalité est vraie pour tout (u. w) e I+xR+ : puisque / est
bornée et de restriction à continue, l'application ir ^ /R f(a)/(a + w) d\(a)
est continue sur f-? (d'après le théorème de convergence dominée) ; les applications
/ et ? w +oc^ f{a) dX(a) étant de plus continues sur R+. l'application
(w,iw)i->- f(u + w)-2(i f{a)dX(a))( / (a) f{a + w) dX(a))
V[m,+oo[ /xJv_ 1
est continue sur R+ x R + . Il en résulte7 que l'égalité (9.20) est vraie pour tout
(u. w) e M + x 1K + . En particulier, on peut y prendre w = O^ce qui donne, pour tout
h 6 IR + ,
f(u)-=2CÌ f(a)dXia). (9.21)
J[u.+oc[
OÙ
? = / [jiu)\2 dX((X) > 0
Jk
(l'égalité (9.21) assure que l'on a ? > (), puisque f{u) > 0 si ? >. 0). Puisque /'
est continue sur K + . l'application ? /|? +oc^ /'(») dX{a) est derivable sur 1K + de
dérivée / ; on a alors, d'après l'égalité (9.21 ),
Vu e R+ f'(u) = -2Cf(u).
La solution générale non nulle de cette équation différentielle est donnée, pour tout
? e R+. par
f{u) = /?exp(—2Cu), où p > 0 :
la solution qui fait de /' une densité de probabilité est alors donnée par, pour tout
i/ e E+.
/"(») = 2????(-2??) :
c'est-à-dire que // est une loi exponentielle.
Lemme. Une fonction g continue sur K+ x R+ mille À^-prcsque partout est nulle
partout sur R+ xi + .
En effet, puisque g est en particulier continue sur R + * x E + *, l'ensemble ? — {l e
R + * x R + * I g(t) ? 0} est un ouvert de R + * x R+*. Si ? est vide, g est nulle sur
R + * xR + * ; sinon, il existe une boule ouverte (donc de mesure strictement positive)
contenue dans O, ce qui contredit le fait que g soit nulle Xd-presque partout. Ainsi,
g est nulle sur P. + * x R + Il résulte alors de la continuité de g sur R+ x R+ que g
est aussi nulle sur les axes.
7. Ct. le lemme ci-dessous.
(HAH IKE i). INüÉl'hNIlANtT DETUIIiUS. Ull VA til ABI E.S ALÉA 1û1k ES
3. On ne suppose plus que / est bornée et que sa restriction à M+ est continue. Si
les variables aléatoires U et V sont indépendantes, pour À2-presque tout (u.w) e
S+ x P. + . on a toujours l'égalité (9.20) qui s'écrit encore
f(u + w) = G(m) /w(w)- (y-22)
où G est la fonction continue définie sur M+ par. pour tout u S 0,
G(u) = / f(a) dX{u). (9.23)
J[u,+oo\
On a alors, pour Â-presquc tout w e 1R+.
G()r) - / f'{a)dX(a) = j f(u + w)dX(u) = j Gin) fw{w)dX(u).
soit
G(«.') = m fw(w) . (0.24)
où m = /p_j_G(w) dk(u).
Le support de la densité /w étant contenu dans K+, il résulte de l'égalité (9-24)
que la fonction G est integrable sur R"*", d'intégrale non nulle. Ainsi, on a, d'après
l'égalité (0.22), pour A^-presquc tout (u. w) € P,+ x R + ,
f(u + w) = l . (9.25)
m
Tenant compte de [a définition de G, on a alors, pour tout w e R"1" et tout i: + ,
G(í-í + i;) = / f{w)dX(w) = / f (u + w) dX(w),
et donc, d'après l'égalité (9.25), pour A-presque tout u e M+ et tout v, elR+ ,
f G(w)G(i'0 , Gíw) f
G (m + d) = / - V - ¿A(w) = ^ / G(io) ¿A(u>) .
¦/|>, + CO[ m « J[v, + 00[
Pai' continuité de G, on a alors pour tout u € JR + et tout u € E+,
G(u + v) = —- / G(w) dX(w).
m J[v,+cc[
Puisque G(0) = 1, on a alors pour tout v e K+,
G(v) = - l G(u-) ¿A(uO ,
[w,+ oo[
ce qui implique que G est derivable (G est continue) et que
G (v) = — .
EXtKfJCE Ç)-8
77
En tenant compte de ee que G(0) = 1, il vient pour ioni v e R + ,
G(v) = exp(- - ) ;
V m '
d'après l'égalité (9.23). on a alors, pour A-presqtic tout u e ?. +.
f(u) = -G'(h) - -i cxp('--) .
ee qui démontre que // est encore la loi exponentielle.
Exercice 9.8. Loi de Dirichlet et statistiques d'ordre. Soit (X,)i^,^„ une suite
finie de variables aléatoires réelles indépendantes de même loi // et admettant une
densité / continue par morceaux : on note F leur fonction de répartition. On définit
l'applicalion r de IR" dans lui-même par
V(x].x2—,xn) e
r(xl.X2,...,X„) = (X(i),X(2),...,X(n)),
où les v<7) sont les réels a,- rangés par valeur croissante, c'est-à-dire les réels définis
par
{x},X2,..-,x„} ~ {x(i).x
(2)-
et
c0)
c(2)
On définit la\ariable aléatoire (X0j. X(2) X(n)) = r(X,, X2 X„),Si I % k 5
u. X(kt est appelée la k* statistique d'ordre. Calculer la fonction de répartition de
X(£) en fonction de F et / et justifier l'existence d'une densité f\(/,, pour la variable
aléatoire X^j : l'expliciter. On identifiera la loi de X^) dans le cas particulier où ¡1
est la loi uniforme stir [0. t], avec t > 0.
Déterminer la loi de la variable aléatoire (X(i).X(2) \n)) dans le cas
Ialiti culi cr où n est la loi un'üouiie *ur \\). t), avec t U. Celle loi est appelée loi
de Dirichlet.
Solution. On remarque d'abord que, puisque la variable aléatoire (Xi - X2,.... X„)
admet une densité,
P(Xl0 <X(2) < ... <X(„))= l.
Alors, pour tout y eK.nna
PlX(k) <y) = P
U
Bj
Li*.? / V.t-2, . .10)
i=k
1±J
"Pi=/
bj = n^x/--vMn n^>>')
L/ei J
^j'en ayant remarqué que si |J| = |J'| on a Bj n Br = 0. Mais, pour / lixé, les
probabilités P(Bj) sont les mêmes pour toutes les parties J telles que |J| — / ; il
en résulte que :
Vv e
Fxw(>') = E^j [F(.vj]'[l-F(ji]"-'"
78
U!AP! VK\l 9. INiîlVlCNDANC!; !)!¦. TRifïKS, \)\. VARIA li! .KS A f.KA'l ()! R|vS
La fonction F est derivable de dérivée / ; il en est de même de Fx(A.r La variable
aléatoire X(/f) admet donc une densité fxf/n - dérivée de Fx(À.P ce qui donne, pour
tout v e R :
fx(k)(.v) = __>[; )/(.)') [F(>')]''-] [1 -FO")]"-''
~/Ooî>->')^ fF(.v)]'"fl -F(y )!"-'"¦
soit, en tenant compte des relations
^-1
,n\ 11 - 1
et en faisant le changement d'indice j = i - \ dans la première somme :
fxuJ-y) = "/(.vj E ("?) [] -F(>-)f" 5" ;
j=k- r
Après simplification, il vient
Vc
/x(A)(.v) = «/(.v) (rD^Cvll^'ti -F(>-)]
in -k
En particulier, si ¡1 est la Ioiuniforme sur [O.t]. on a
V>>€& ./X(,XV) =
(* - !)!(/? - A)!
irr—k
autrement dit, la variable aléatoire X^ suit ta loi bêta de première espèec- sur
l'intervalle [0. (] de paramètres k et n - k + 1.
Déterminons lu loi de la variable aléatoire (X(j|,X|2) dans le tas
particulier où ¡1 est la loi unil'orine sur [0. t\ oii / > 0.
Notons Sn le siinplexe de R".\x( -< x_ ¦< ¦ ¦ ¦ ^ x„ \. Pour toute permutation a e
Efl, définissons Pisoniétrie !Pa de !R" sur lui-même par. pour tout (xL. x2_ . . .. xn) e
On a l'égalité
•<Pa(Xl,X2, . . . ,.*„) = (.Vif(],..Vif(2), ¦ - -,.!>(„))
R" = l+J ,P-'(£„).
(9.26)
(tes,
La variable aléatoire (X[, X2 ,X„) admet la densité /c„ = f)r l[o./l" ¦ Pour tout
g e Ç+(R").on a
E[g(X([>X(2) X(,0)] = E[go/-(X,,X2,....X„)] .
txLKCicL 9.9
79
soit par le théorème de transfert,
E[g(X(i).X(2) X{n))]
~ / (g°r)(xi,x2 xn) /c (x¡.x2 xn) dXll(xt,x2,...,xn).
On notant Xj, = (xi, x2 xn), et en tenant compte de l'égalité (9.26), on a alors
B[g(X(]).X(2) X(rt))]= J2 I feo')(^)./cíi(^)¿A„(^)
a£2„J9>° (*»>
= Y, [js«[P<rM](g°r)(^)fc„(xn)dXn{x»).
Le changement de variables £„ = ^(j^défini par l'isomélrie <pa (de jacobien ± 1 )
donne alors :
EU'(X(1)-X(2).---,X,„))] =
tres,, Pl" ~~
La fonction (g o r) ¦ fc„ étant invariante par ÍP~l, les intégrales figurant dans le
deuxième membre de cette égalité sont indépendantes de a ; on a donc :
E[i(X(I),X(2)....,X(n))]=«! Í ($°r)(y^)fcJy^)dXn(yn).
Jsn — — —
Tenant compte de la valeur de la densité fc„ , on en déduit que la variable aléatoire
(X(i).X(2) X(„)) admet une densité ./(x(1),x(2)....,x(,„) donnée par
/i :
./(x(1),x(2>,-.,x(;¡)) = p \oax^x2*Z-i~X„&)
Exercice 9.9. Loi niultinomiale. Soil k € N* fixé. Pour tout n e H* on considère
une partition (AJ'li^;^ de £3, où A" e A. On suppose que les familles, indexées
sur n. consumées par les éléments de ces partitions sont indépendantes. On suppose
de plus que :
V* e N*, V/ = 1.2 A- P(A?) = /?, ,
où pi > 0 et y]f=i ? = I- On définit les variables aléatoires X" et Y" à valeurs
dans Mk par
: et Y" = X-' .
On note S = \e\.c2 e^} la base canonique de Rk et
X" =
8o chapitre g. independance de tribus. de variables aleatoires
Déterminer P(Xrt = ef) pour tout j tel que t $ j $ k, et en déduire, pour tout
y e D„, la probabilité P(Y" = y). La loi de Yn est appelée loi mulliiiomiale de
paramètres n, pi, p2,-,pk-i et notée M (m; px. p2.pt-\) : elfe généralise la loi
binomjalc. Déterminer les moyenne et matrice de covariauce de Y".
Solution. On a
Puisque
p(X»=ey)=P(A,î) = p/.
EY" = _ZlZxi = E (IX/) = T,^ = n,
' = 1 i = [ j = [ j = 1 i = 1 /" = 1
on a Y"(Q) c D„. Soit y e D„ ; notant j?" >>'2.-.n l'ensemble des partitions de
{0. 1,2,...,«} à A éléments J,, .i2, h le Is que |Jt | = yj, jj2| = v2, - - ¦, \-h I ¦=
yt,on a
(YB - >>) =
l+J [f| (X"^,,)ri fi (X«=e2)...n fi (XJ*=ek)],
{.li,J3,...JA-}eJ>'i'i'2 >"*ryi ej, ' ¦ "
J2-32
Jk £h
ce qui donne, en tenant compte de l'indépendance des variables aléatoires X' :
w = y)= E
Pl Pl ¦¦¦Pk
Mais on a
/ n \/n-J']\//i-(ji +j-2>i /«-Oi +yi + - + yk-2)\
v>-1 ' V y2 1 \ y h 1 "'\ yk-i I
cardai->'2--w^ -
/ n Wn-J']\//1-(JI + J<
V>|/V y2 i\ y s
c'est-à-dire, en tenant compte l'égalité y-i 4- y2
y'k-ì = n ->'*.
ni
yi!y2!...y/;!
(on reconnaît le coefficient multinomial). On a donc
Vy e D„ P(Y" - y)
vi V2 .va'
La loi de Y" s'écrit :
On a
y€D,,
EX" =
/Pl)
\Pk)
EXERCICE 9-11
8l
et donc :
:
»Pk)
La matrice de covariance Cx" a pour termes
(Cx»),y =4' =E(1^)-(E1A«)2 = PiO-p;),
/ i 1
et, si' i ^ j :
(CX«)/,/ = cov(Xf .X'j) = E(1A71A„) -[E(1A«)] [E(lA«)] = -piPj .
Y" étant somme des variables aléatoires indépendantes XJ, sa matrice de covariance
est la somme des matrices de covariance des X7 soit :
Cy" = n Cx'i ¦
Exercice 9.1(1. TJn résultat lié au théorème limite central. Soil (Xw)„€^j* une suite
de variables aléatoires réelles indépendantes de même loi, admettant un moment
d'ordre 2, eentrées. Pour n e M*, on définit la variable aléatoire Z„ par
1 "
z"~ hXj'
On admettra que si la suite (Z„)„eN* converge presque sûrement vers une variable
aléatoire Z, il résulte du théorème limite centra] (voir le chapitre sur les
convergences en loi) que la loi de Z est la loi ^VrCO, 1). En déduire que la suite (Z„)„<=K*
ne peut pas converger presque sûrement.
Solution. Définissons, pour tout n e N*. la tribu An = a(Xp j p > n) et la tribu
asymplotique Aoo = flneN* ^« : Pour tout n<j fixé, et tout p 2= io> notons Yno,p =
-j^ Xly=n() X/ • ei1 n°tant (U„ —>) l'ensemble où la suite de variables aléatoires
(U«)»eN* converge, on a (Y„0>p e Ano ; mais on a (Zp = (YKOtP ->) et
donc, pour tout no fixé. (Zp ->) e «A„0. Il en résulte que (Zp ->) e -Aco- Mais alors.
,ïï la suite (Zn) converge presque sûrement vers une variable aléatoire Z, Z est
presque sûrement égale à ime variable aléato ire î^oQ-mesurable et donc, par la loi
du tout ou rien, égale presque sûrement à une constante, ce qui est en contradiction
avec le fait que la loi de Z est la loi <A/jr(0, 1).
Exercice 9.11. Une application du lemme de Borel-Cantelli. Soit (Xn)„e^* une
suite de variables aléatoires réelles indépendantes, démontrer l'équivalence :
+00
P(sup X„ < +oc) = I 3A > 0 te] que £ P(X„ > A) < +co .
j = i
CHAl'ilKl' <). INDtl'KN l>AN(T. DC lUIBIJS, Dr. VA K [ A HI LS ALÉATOIKLS
Solution. S'il existe A > 0 te] que 2~^=*i P(X„ > A) < -foc, il résulte du ]cmme de
Borel-Cantellîque P(]rm sup„ (X„ > A)) = 0, soit encore P(lim inf„ (X„ ^ A)) = I.
Il résulte alors de l'inclusion
lïm inf(X„ 4 Al C (sup X„ < +00)
que
P(sup X„ < +00) = 1 .
Supposons maintenant que. pour tout A > 0- on ait Y2~j~^ P(X„ > A) = +00.
Les variables aléatoires X« étant indépendantes, il résulte de la *' téciproque » du
lemme de Borel-Cantc-Hi que
VA > 0 P(limsi[p(X„ > A)) = l.
11
et donc, puisque N* est dénombrable. que
p[ p) (lîm sup(X„ > A))] = 1 .
AeN* "
On a la suite d'implications :
10 e p| (|imsup(X„ > A))
VA g n\ V/ieN*, B p tel que Xp(w) > A
==> VA e N+ supX„(«) > A supX„(a;) = +00.
Il en résulte que
P(supX„ = +cc) - 1 .
on encore
P(supX„ < +00) = 0-
Si donc P(supX„ < +00) = I, il existe A > 0 tel que E/^ p(Xn > A) < +00.
Rxereice9.12. Lemine de Borel-Cantelli et convergence presque sûre. Soit (Xn)^*
une suite de variables aléatoires réelles indépendantes, de même loi. Démontrer
l'équivalence :
Remarque. Cette propriété est utilisée iors de l'étude de lois tories des grands
nombres.
Solution. Rappelons d'abord (voir exercice du chapitre 8 tome 2) qu'à l'aide du
théorème de Fubinî, on démontre l'égalité, dans M + .
f |X,|dP = f P{\X]\> x)dX(x).
i \krcic;Bg.i2 83
Inversement, si fn |X11 dp <" + oo, il résulte de (9.27) que. pour tout s > 0, On a
Ei'[|x,|>(« + iy]
et donc aussi, puisque les variables aléatoires X„ ont même loi :
On a donc, pour tout ? > 0.
f \Xi\clP= ? I P(|Xi| > .r) £/A(jc).
JSÌ ï__tJlne.(n+l)8[
Puisque l'application ? -> P(]X|| -> x) est ilccmisscitutu il en résulte la double
inégalité :
+ CO s. -t-co
En particulier, en prenant ,c = 1. il vient
/ |Xî| rfP<+0c «==> ?* P(|Xi| >«) <+oo.
cl, puisque les variables aléatoires X„ ont même loi,
/ |X| I dp < +oo ^> IJ(|X„| > n) < +oo.
? = 1
Mais, les variable:, aléatoires X„ etani indépendantes, il résulte du lemme de Borei-
Cantelli que l'on ;i les équivalences
- +cv
/ (?^??-'+?? ^> VP(|X„|>«)<+co P(limsup(|X„|>n))-0.
et
+ CO
/ |Xi| r/P=+cc Vp(|X,f|:-n) = +^ P(limsup(|X„|>n)) = 1.
Ainsi, on a les implications :
p( — ?) = 1 P(limsup(|X„| > ?)) = 0 / |X,| dP < +00.
v n > „ 7o
«4
CHAPITRE ?- INnÉI'hNli \ NCL ?!' IKIBllS, DE VA«lM4,F.S Al¿ATO! EES
]| resulte alors du lemmc de Borel-CantcUi que
Vfî > ?
on a alors, Q + * étant dénombrable,
PÍ |J limsupllX„l - (>/ + LU-)
Il s'en suit que
(
X,
-ti
n
n + I
et pa( conséquent
L'équivalence est démontrée.
Exercice 9.13. Duplication et symétrisation, À une variable aléatoire réelle X
définie sur l'espace probabilisé (Q..A. P). on associe les applications X et ??. défi [lies
sur le produit cartésien S7 < il et à valeurs respectivement dans IP.2 et R, par : pour
tout (?. ??') 6 Q x J7,
X(o).û/)= (Xi,o),X(w')) et X'Uo.ù)') = X(a>)-X(w').
1. Vérifier que X et X" sont des variables aléatoires définies sur l'espace probabilisé
produit (£3xS7, ?&?.?&?) et que les marginales X| et X2 de X sont indépendantes
de même loi que X.
2. Soit p > \. Démontrer que si X e XP{Q. -?.?). la symétrisée ??* appartient
à XP(S2 x £2..A ® ?.? & P)- En particulier, si X e ^f!2. calculer les moyenne et
varianee de Xs.
3. Soit (X,),e[ une famille de variables aléatoires réelles définies sur (£2.-A,P).
indépendantes; démontrer que les variables aléatoires X, (resp. les svmélrisées X| )
associées sont P <g> P-indépcndantes.
Remarque- Cette propriété est utilisée en particulier lors de l'étude de convergence
P-p.s. de séries de variables aléatoires indépendantes.
Solution.
I. Pour tous bo ré liens A et R de (FL on a
ce t]tli démontre que X est une variable aléatoire: il en est alors de même de X'f.
fonction mesurable de X. Par ailleurs, pour tous boréliens A et B de R, on a
X~](A x ?) — X"1
(A) x X 1 (B) t= ? <g> ? .
??'(?) ? Xj'(B) = ?_|(?) x ?'"??).
i-.xrKOCiî 9.13
«5
ce qui donne, en jouant successivement sur la définition de la mesure produit, et sur
l'égalité P(fi) = 1,
P&P X7,(A)nX2",(B) = P[X-'(A)] -P[X_I(B)]
= P®P[X-1(A)xfi]-P®P[fixX~'(B)]
= P®p[xi-'(A)]- P^pJx^tB)] .
ce qui démontre la P ® P-indépendanee de X] et X2. De plus, en prenant pour B
lensemblc S. on a
P® p[xY'(A)] = P-8 pJx^tAjn X2'(!*)]= P[X_iiA)] -P[X-'(K)] ,
soit
P8> PJX^fA)] = P[X_,(A)]
ce qui démontre que les variables aléatoires X] et X ont même loi (et donc anssi
X2).
2. Il résulte du théorème de Fubini que
/ |Xi|r^P®P=
J__y__ j<2lj__
Xi(toV)|p</P(a>)]*/P(«')
|XM|"</P(«)] JP^/) = J \X(oj)\p dYlû)).
ce qui démontre que si X e £p, les variables aléatoires X] et X2 sont dans Zp', et
donc aussi Xs,
3. Si X e X2. puisque X'1 = Xj - X2, et que Xi et X2 sont de même loi, donc de
mêmes momenls, que X, on a
EX* = EX, - EX? = 0 .
Puisque de plus X t et X2 sont indépendantes, on a
X[ x2
4. 11 suffit de le faire pour T fini. Pour tous boréliens A, et B,,i e J, de R, on a
P&pfn-X'-'tA' *B/)] =P®P[(nX'"'(A'-)) x (nX7'(B/))]
tel /et
= p(nV(A-))- p(nx7'(R/))-
soil, par indépendance des X,,
P&p[f|X<-[(A, vB,-)] =n WCA/W-n^jV8/))
= []P&P(X-'(A(>xX-I(B,))
= np®p(v'(A'-xB'»-
l'el
/et
86
CHAPl'IKE 9- lNDl'.Pl.Nl>AN('r. Dl TR1RUS, DE VAlUABl.ES Al ÉATOIRF.S
ce qui démontre l'indépendance des X; ; les svmélrisées X? étant fonction
mesurables des X/ sont aussi P ® P-indépendantes.
Chapitre 10
Convergences et lois des grands
nombres
Dans la première partie de ce chapitre, on étudie les notions de
convergence en probabilité, presque snre et hp ainsi que les relations entre ces
divers modes de convergence; la notion d'équi-intégrabilité est introduite
à cette fin. La deuxième partie traite des lois faible et forte des grands
nombres.
10.1. Convergence en probabilité et presque sûre
Dans ce paragraphe, toutes les variables aléatoires sont définies sur le
même espace probabilisé (£7, A, P) et à valeurs daus Md, d S 1, ou dans E.
On note indifféremment j ¦ | la valeur absolue dans itë, (éventuellement
prolongée à E ; cf. tome 1, p. 33) ou une norme sur Md.
Définition 10.1. (a) Une suite (X„)„ên de variables aléatoires converge
presque sûrement vers une variable aléatoire X s'il existe un ensemble C e A
de probabilité 1 sur lequel la suite converge ponctuellement (ou simplement)
vers X. On note :
X„^X.
(b) Une suite (Xff),|(=K de variables aléatoires converge en probabilité
vers une variable aléatoire X si, pour tout t: > 0, la suite de terme général
P(|X„ — X| > t:) converge vers 0. On note :
v
X„—>X.
(c) Une suite (X„)„eK de variables aléatoires converge presque sûrement
(resp. en probabilité) s'il existe une variable aléatoire X telle que cette suite
converge presque sûrement (resp. en probabilité) vers X.
Nutation. On note (X„ —>) (resp. (X„ —>¦ X)) l'ensemble des œ pour
lequel la suite (X„(&>))„eK converge (resp. converge vers X(ft>)).
Remarque. 1. Si une suite (X„)„eN de variables aléatoires converge presque
sûrement (resp. en probabilité), la limite X est P-p.s. unique. C'est clair pour
*7
CHAPITRE 10. CONVERGbNCES ET LOIS UtS GRANDS NOMBRES
la première convergence. Pour la seconde, soient x et x' deux limites en
probabilité ; pour tout h > 0 et tout n t N. on a, par l'inégalité triangulaire,
<|x-x'| > e) c (|x-x„| > e-) U (|x„ - x'| > *-),
et par conséquent :
P(|x - x'| > e) P(|x - Xn > ~) + P(|XB - x'| > |) -
En passant à la limite, il vient
Vp > 0 P(|x-x'| > e) = 0.
On a le résultat en remarquant que
(x#x') = U (lx-x'!>^)-
rt€N*
2. La convergence en probabilité x„ x s'écrit de manière
quantifiée :
Vf > 0, VS > 0 3N(e. *)<sN tel que n £ N(6\S) =? P(|x„-x|>e) $ S.
Ceci est équivalent à l'assertion :
Ve > 0 3N(e)eN le] que n ^ NU') =>¦ P(|X„ -X[ > t) .< e.
Il est trivial que la première assertion implique la seconde. Réciproquement,
supposons vraie la seconde assertion et soit e > 0 et S > 0. Si S >. s\ il suffit
de prendre N(*\ 8) ~ N(e) ; si 8 < s, on prend N(e, 5) = N(S). On a alors,
pour loul n 5 N(<S),
P(|x„ -X| > tf) -< s,
et le résultat vient de l'inégalité
(|X„-X[>e)c(|X,-X|>5).
3. Si l'espace des valeurs prises par les variables aléatoires est Rd avec
d ^ 2. Je choix de la norme est indifférent (on le voit facilement en
exprimant que toutes les nonnes sont équivalentes). De plus, pour que
p p
x„ —> x il faut et il suffit que, pour tout j = 1, 2,..., d, on ait XJn —> xj,
où XJn désigne la jeme composante de X„. La condition nécessaire est triviale :
la condition suffisante résulte des inégalités suivantes (on choisit la nonne
max) :
d d
P(max. |XÎ-x'|>*)<P(U(|x^ - *'|>^ EPdX« " X'l>*>-
I O.I. CONVERGENCE EN PROBABILITÉ ET PRESQUE SÛRE
Les conditions suffisantes de convergence P-p.s. données ci-dessous sont
d'un usage fréquent.
Théorème 10.2. S'il existe une série à fermes positifs de terme généra! f„
convergente et telle que
+00
^P(|X„+1-X„|>ert)<+oo,
la suite de variables aléatoires (X„)„6]j converge presque sûrement.
Démonstration. Le lemme de Borel-Cantelli assure que
P[limsup(|X„+1 - X„| ¦> e„)] = 0.
L'ensemble C — ]iminf„(|X„+1 - X„| ^ e„) est alors de probabilité 1 et,
pour tout co e C la série de terme général \X„+i(to)-Xn(co) \ est convergente
et donc aussi la suite de terme général X„(a>). ?
Remarque. Ce théorème sera en particulier utilisé dans la comparaison de la
convergence eu probabilité et de lu convergence presque sûre (tlt. 10.4).
Théorème 10.3. 5/ X est une variable aléatoire telle que, pour tout s > 0,
+00
£]P(|X„-X|>f)<+co,
la suite de variables aléatoires (X„ )„eN converge presque sûrement vers X.
Démonstration. Le lemme de Borel-Cantelli assure que pour tout e e Q*+
P[limsup(|X„ - X| > f.)] = 0.
n
et donc aussi, puisque Q*+ est dénombrable,
p[ M limsup(|Xn -X| >£)]= 0.
L'ensemble C ~ Hs-eo*-! liminf„(|X„ — X| ^ f) est alors de probabilité 1 ;
or cet ensemble n'est autre que l'ensemble des co pour lesquels la suite de
terme général X„(o>) converge vers X(a>). ?
Remarque. Le théorème 10.3 fournit une condition suffisante mais non
nécessaire de convergence P-p,s. En effet, considérons sur l'espace proba-
bilisé ([0. 1]. S[o,,].P), où P est la mesure de Lcbcsguc sur [0, 1], les variables
aléatoires X,, — l[o,i/«[ ; pour tout s ~> 0. on a P(|X„ | > e) ~ \/n, et donc
f.HAl'llUr t(>. CONVl'l«;i-n< (-S M [ ois PCS GHANDS INOMBKt-S
2_j=\ P(|X„ I > r) = + 00. alors que la suilc de (erme général X„ converge
P-p.s. vers 0. Une réciproque partielle est étudiée dans l'exercice 2.
On compare maintenant les différents modes de convergence.
Théorème 10.4. (a) Si la suite (X« )„€^ converge presque sûrement, eV/e
converge en probabilité et les limites sont P-p.s. égales.
(b) Si la suite (X„)„eK converge en probabilité vers X. /7 existe une sous-
suite (X„ ¦ ) t/»/ converge presque sûrement vers X.
(c) F(;f(?" (/wt- la suite (X„)„t^ converge en probabilité i/m* X ///àw/ il
suffit qu'elle soit de Cauchy pour la convergence en prohabilité, c'est à dire
que, pour tout s -> 0, la suite double de terme général P(|X„ — Xm| > t:)
converge vers 0.
Démonstration. {a) En effet, soit X une limite presque sûre de la suite
(X„)„eti ; pour tout e > 0, on a
(X„ —» X) c lnninf(|X„ — X| s; f).
soit, en prenant les probabilités des complémentaires.
0 ^ limsup„ Pl|X„ - X| > f)-< P[limsup^(|Xff - X| > s)]
S P[(X„ —?X)'] =0,
Il en résulte que X„ —^ X.
(b) Sila suite (X„)fl€M converge en probabilité vers X, elle est de Cauchy
pour la convergence en probabilité; tela résulte de ce que pour tout e > 0
et tous n,m e N. on a
fjX„ -Xm| -> s) c (|X - \„| > U (|Xm -X| > |).
On a d'ailleurs ainsi montré la condition nécessaire de la troisième assertion.
Montrons maintenant que si (X„)„eu est de Cauchy pour la convergente
en probabilité, il eviste une sous-suite (X„.)/eK qui converge presque
sûrement. Pour ceki, on construit la suite d'entiers n, en posant n(l — I
et. pour loul y t N *.
I \ J_-
3'-
Puisque la suile iX,,),,,^ est de Cauchy pour la convergence eu probabilité,
la suite ainsi construite tend en croissant vers +00 : on a de plus
+00
Ep(|X'v-n-X'''l> t7)<+~-
11 résulte du théorème 10.2 que la suite (Xn/)y-€^ converge presque
sûrement.
n j = iiiï
// >«,¦_, I Vp,</ >h P(|XP-XJ > ^) < ~
III. i. CoNVKR'.ENl E EN I'KUHAHH HE V \ PRESQUE SÛRE
91
i :.n résumé, si In suite (X„)„eN converge en probabilité, elle est de Cauchv
el on en extrait une sous-suite qui converge p-p.s.
(t) Reste à démontrer que si (X„)„ers est de Caiichy pour la convergence
en probabilité, elle converge en probabilité. Soit X la limite presque sûre de
la suite extraite (X„ , ) j±h : d'après l'assertion (a) démontrée ci-dessus, cette
sous-suite converge en probabilité vers X; de plus pour tous entiers // el /'.
i>n a
p(|x„-X| > s) =sp(|x„-xb,.| > |) + p(|X„. -x\>ty
[..a convergence en probabilité de la suite (X,,),,^- vers X résulte alors de ce
qu'elle est de Cauchy et de la convergence en probabilité vers X de la suite
|Xfl,)/EN- ?
Voici un exemple de suite convergeant en probabilité mais pas presque
sûrement ; (X„)„epj* est une suite de variables aléatoires indépendantes à
valeurs 0 ou 1 telle que
Vn € N* p(X„ - 1) - - et p(X„ = (!) = I - i ,
n n
La suite (X,i)„e^* converge en probabilité vers 0 puisque, pour tout tk -> 0,
on a I
p(|X„| > e) = p(X„ = 1) = - .
n
File ne converge pas p-p.s. Fn effet, si elle converge p-p-s.. c'est vers 0, ce qui
n'est pas, comme le montre l'argument suivant : les événements (X„ = i)
sont indépendants el satisfont à l'égalité
-(¦oo
)]p(xn = i) = +00 .
n = ]
Le lemme de Borel-Canlelli assure alors que
p(limsup(X„ = 1)) - 1 .
ce qui signifie que la suite prend p-p.s. une infinité de fois la valeur 1 et ne
peut converger p-p.s. vers cl
Remarque. 11 est évident que si / est une fonction continue de Wd dans
Kfc et si la suile (X„)„ek converge presque sûrement vers X. la suite
converge presque sûrement vers /(X), Nous allons établir un
résultat analogue pour la convergence en probabilile,
Proposition 10.5. Soit f est une fonction continue de K"* dans- Wk ; si la suile
(X„)„efy de variables aléatoires à valeurs dans Wd converge en probabilité
vers X, la suite (/tX„))„eN converge en probabilité vers f(X).
92
l il Am KL Kl. C flNVl K<rl N< 1 S [¦'[¦ [,OlS DES f, HANDS M1MHKKS
Demonstration. Soil 5 > 0 quelconque. Choisissons a > 0 tel que
P.x \B(0,o)c] " <V? (c'est possible puisque lim„ PX[B((>, n/] - Px(0) - 0).
Écrivons que j csl uniformément continue sur la boule fermée B /(0. 2a) :
V&>u, 3n(t)>0lcJ que | t-v|^/;(£) et x, veB / (0. 2a) =» |/(.r)-/{v)|^f.
En particulier, en vertu de l'inégalité triangulaire, pour s > 0 fixé
quelconque .<¦?. a
|a'| 5 a et |.t - j| 5 77(e) a a =>¦ \f(x)~f(y)\<y.
soit, en prenant la conlraposée de cette implication ;
|/(.v) — /(>')! > s \x\ > a. ou \x — y\ > r)(f) a a .
Il en résulte que, pour tout // € N, on a l'inclusion :
(|/(X„)-/(X)1 > *) C (|X| > a)U (|X„-X| > W) ^ a).
La suite (Xn)„eN convergeant en probabilité vers X, il existe un enlicr N tel
que, pour tout n ;> N. on ait
P{\X„-X\>v(s)Aa)$S-.
On a alors, pour tout // :- N.
P(|/(X„)-/iXH > h) ¦< P(|X| >a) + P(|X„ -X[ •> //(¿0 a</) < A\
On a montré que, pour tout b > 0, lim„ P(|/(X„) — /(X)| > - 0. ?
Exemple 10.1. Soient deux suites (X„)„eN et (Y„)„€n de variables aléatoires
à valeurs dans Ed convergeant en probabilité respectivement vers X et Y.
Alors (X„, Y„) -—f (X, Y) ; en effet, la suite ((X„, Y„))„eN à valeurs dans
M2'' converge en probabilité vers (X. Y) et le produit scalaire est continu.
Par le môme argument, si d = 1, on a max(X„, Y„) ——» max(X. Y).
Remarque. 11 apparaît que dans tout ce qui vient d'être exposé, on peut
changer les variables aléatoires sur un ensemble de probabilité nulle sans
altérer ni les définitions, ni les résultats, ce qui suggère une « théorie »
des convergences sur les classes de variables aléatoires. Plus précisément-
soit X une application de D\ € A il valeurs dans W1 ou M : on dit
que X est une variable aléatoire définie P-p.s. si X est mesurable par
rapport à fii tribu trace Dx n -A de Dx sur A et si P(DX = 1)- On dira
que les variables aléatoires définies P-p.s. X el Y sont égales P-p.s. si
P(1&j € 0\ H DY | X(oi) = Y (to)}) = I. Suivant que l'espace des valeurs
prises par les variables aléatoires est Ud ou on définit alors l'ensemble Cl
des variables aléatoires définies P-p.s. (resp, définies P-p.s. et P-p.s. finies):
93
c'est un espace vectoriel ; le sous-ensemble K des variables aléatoires P-p.s.
i1 gales à 0 en est un sous-espace vectoriel. L'égalité P-p.s. est une relation
d'équivalence; l'ensemble quotient L°(QltA,P) de G par cette relation
d'équivalence est l'espace vectoriel quotient de G par K et est appelé
ensemble des (liasses de) variables aléatoires définies P-p.s. (et. dans le cas
ile IR, P-p.s. finies). Tout ce qui a été dit sur les convergences se transporte
dois à A.P). On peut définir sur L°(Q.A.P) une métrique qui le
i unde complet et telle que la convergence de suite au sens de celte métrique
soit équivalente à la convergence eu probabilité (cf. exercice I, chapitre 10).
10.2. Convergence hp et équi-intégrabiltté
Dans ce paragraphe, toutes les variables aléatoires sont définies sur le
même espace probabilité (Q. A. P) et à valeurs dans Rd, d >- 1. ou IR.
Si X est une variable aléatoire intégrable, le théorème de convergence
dominée implique que
lim / |X| dP = 0.
a^+°° J(\X\>a)
La notion d'équi-intcgrahilité généralise cette propriété à une famille
quelconque de variables aléatoires en lui donnant un caractère uniforme.
Définition L0.6, La famille de variables aléatoires (X_),<_i, où 1 est an
ensemble quelconque, est équi-intégrable si
lim sup / |X,| dP = 0.
o-»-l-oo ,-ei J(\Xj\*,_)
On donne une condition suffisante d'équi-intégrabilité.
Proposition 10.7. Si la famille (X, est uniformément bornée par une
variable aléatoire positive et intégrable X, c'est à dire si
Vf € I |X,| < X P-p.s.,
elle est équi-intégrable. En particulier, toute famille finie de variables
aléatoires intégrablcs est équi-intégrable.
Démonstration. On z\ (|X,-| > a) C (|X| > a) pour tout i e I et pour tout
a > 0. 11 en résulte que. pour tout a "> 0. on a
V, € I / |X,| dP<? I |X| dP,
et donc aussi a n
sup / |X,| dp ^ / |X| dP :
,E] J(\X;\>a) J(\X\>a)
44
CHAI'H'Kl' lu. ' ONVl KUHN! fS FI ! (>1S DES CjKANTlS NnvmBHS
ceci démontre que hi famille est cqui-iiilégnib|c, le membre de droite
tendant vers 0 quand a tend vers l'infini.
Si I est fini, la variable aléatoire positive x = max(-<=[ |x/1 est integrable ;
il suffit d'appliquer la première partie. q
On donne maintenant une condition nécessaire et suffisante d'equi-
intégrahilité. Il nous faut auparavant définir la notion d'éqiii-continiiité.
Définition 10.8. Soil 1 est un ensemble quekimque. Lu famille de variables
aléatoires (x,j,ei est étjui-continue si
Ve > 0 3//> 0 telque P(A) ^/y sup / \Xi\dP e.
î<E[ Ja
Remarque. Cette notion n'est autre que la notion habituelle d'équi-conti-
uuité eu un point d'une famille de fonctions- En effet, il est classique de
définir l'atgèbre métrique A. c'est à dire l'ensemble A muni de Pécari
(pu pseudo-distance) défini par l'application (A.B) i-* P(A/\ B) : P(A)
représente alors la « distance » de A à 0 et. dans cette optique, il s'agit en
fait de l'équi-conttnuité en 0 de la famille de fondions A i-> /a |x,| dP.
Proposition 10.9. La famille de variables aléatoires (x; ),-*=[ est équi-inte-
grable si et seulement si c//c est équi-continuc et bornée dans Ll, c'est à dire
telle que supíel Ja \X, | d P < +oc.
Démonstration, m Condition nécessaire. Supposons la famille équi-inté-
grable. Pour tout A e A et tout a > 0, on a, pour tout / € 1.
f \X,\dP-, f |x; j dP + f |x,-| d?
ja J Ani\X¡\i_a) ^Ari(|x/|>a)
^ «P(A) +sup / |X,| dP :
/et J(\X;\>a)
on a donc, pour tout A e A cl lout a > 0,
sup / |x,| dP z< aP(A) + sup / |X¿| dP.
iei Ja ;ei ./(ix,k'i
En prcnanl pour A ["ensemble £2, on obtient que la famille est bornée
dans L1. Par ailleurs, r -> 0 étant donné, on choisit a > 0 tel que
M1P>6l / lX'l ^P < ~ PU*S ~ 2a '¦ a,0rS- dès ^ r1, °n a
A|x/|>«) 2
sup,e[ / |x, I dP ^ î; cl la famille est équi-coiitinue.
Ja
• Condition suffisante. Supposons la famille équi-continue et bornée dans
L1. M résulte de l'inégalité de Markov (cf. chapitre 8) que l'on a. pour tout
Hi ^ I DNVEKOENCE \P El ÉQIJI-IK l'I (iR ABU ITE
9S
./ - 0 Cl lOUt ( € i,
P(|X;| >a) $ - f \Xi\dV $ -sup / \Xt\dV.
d J a ,-ei J
1 a famille étant bornée dans U, il vient alors :
lim supP(|X,| > a) = 0. (10.1)
Soit e > 0 quelconque ; la famille étant équi-continuc, on choisit n > 0 tel
que l'on ait l'implication
p(A) ^n=> sup / [X;| dP -<c. (10.2)
On choisit alors M > 0 tel que l'on ait, pour tout a ^ M, sup/el P(|X,| >
</) ^ r), ce qui est possible d'après (10.1). 11 résulte alors de (10.2) que l'on a
Vû £ M ci v/ e i / |x,| dP
'tlx,-i>fl>
cl donc
Va £ M sun / \X;\dP
-ai
sup /
<el .'(IX, I
:e qui démontre l'équi-intégrabilité de la famille. ?
Définition 10.10. Soit p >¦ \. Une suite (Xn)n^ de variables aléatoires
mlmcttanl un moment d'ordre p converge dans X1' vers une variable aléatoire
X wX e £P(Q.A, P) et si
iim E[\Xn - Xf'j - 0.
On note : £P
Xn —> X.
l.a suite (X„)„fEij de variables aléatoires converge dans Xr s'il existe une
variable aléatoire X e XP(Q. A. P) telle que cette suite converge dans Xp
vers X.
Remarque. Si p = I (resp. p — 2) on dit que la suite converge en moyenne
(resp. en moyenne quadratique). Si p '>. ], comme il résulte de l'inégalité
de Minkowski (cf. chapitre S), l'application X \-> [E|X|^]1 '''^ est une semi-
norme sur X;'(Q. A.P): les notions de convergence Xp sont les notions
de convergence relativement à cette semi-norme. En particulier, si une
suite (X„)„eN de variables aléatoires converge dans X1'. sa limite est P-p.s.
unique. L'ensemble quotient de XP(Q. A, P) par la relation d'équivalence
d'égalité P-p.s. est noté L^iQ.A.P); c'est, en vertu de l'inégalité de
Minkowski, un espace vectoriel norme, dont la norme est obtenue par passage
CHAI'liRF 10- CONVFRfiJ-NCES FT lois des Ci RANDS nombres
au quotient de la semi-norme X t-^ j^E|X|p] '^(on parle de la norme p de
X cl on noie usuellement \\X\\P — [E\X\PY': clans cet espace de classes
de variables aléatoires, la limite d'une suite est alors unique. Il est d'usage
de noter de la même façon une variable aléatoire et sa classe; on en fera
de même pour la semi-norme et la norme associée et on parlera
indifféremment de convergence Xp ou Lp.
Le théorème suivant établit les relations entre convergence en
probabilité et convergence \J et démontre que si p >¦ 1, l'ensemble ZP(Q. A, P) est
complet (non séparé). L'espace Lp(Œ. A, P) est alors un espace de Banach.
Pour démontrer ce théorème, nous utiliserons l'inégalité de convexité
suivante :
Lemme 10.11. Soit p ï 1. Pour tous réels a, b, c on a
\a - b\p ^ 2»-] [\a - c\p + \c - b\p] (10.3)
Démonstration. La fonction x m* xp étant convexe sur E + , on a, pour tous
it,v positifs ri ip
]-(u + v)
soit
(u + i'V « 2"-' {up + vp):
tenant compte de l'inégalité triangulaire et de la croissance de la fonction
v H-7- xp, il vieni alors
\a -b\p ^ -c| + \c -b\)p £ 2""1 [\a-c\p + \c - b\p] . ?
Théorème 10.12. Soient p ~>- \ et (X„)„em une. suite de variables aléatoires
admettant un moment d'ordre p. Les assertions suivantes sont équivalentes :
(i) la suite (X„)„eN converge dans Lp ;
(ii) la suite (X„)„£]-! est de Cauchy dans hp, c'est à dire que
lira E|X„ -XM|' = 0:
(iii) la suite (\Xu\p)n&i est équi-intcgrable et il existe X e £P(Q,A, P)
p
telle que X„ —> X.
Démonstration, (i) => (ii) : si la suite (Xn)nSN converge dans LA il existe
X e £P(Q,A.V) telle que
lim E[|X„ - XH = 0 ;
l'inégalité de Minkowski assure que. pour tous m et n,
||Xw-X^,$||Xfl-X||p + ||X-XM||, ,
in ¦ CONVERGENCE \ f El ÜQIJI-1NTEGRA W LU F
97
rc qui démontre que la suite est de Cauchy (on n'a fait que rétablir dans
(V cas particulier le fait général que toute suite convergente pour une semi-
norme est de Cauchy relativement à cette semi-norme).
(ii) => (iii) : soit £ > 0 et un entier N tel que l'on ait. pour tout n, m ^ N,
I ¦' 11 >C„ - Xm\p] ^ s/2p. Il résulte alors de l'inégalité (10.3) que, pour tout
A e ,A, on a, pour tout n >¦. N,
I |X„|íVP^2/'-,[J |XN|^P+J |X„-XN|"Î/P]^2';-|J |XN|p£/P+^;
en a alors, pour tout A G A.
sup S \Xn\p dP^2p~l f |Xn|*î/P+^.
«>-n Ja Ja -
cl donc,
sup [ \X„\P d? <: sup f |X„|" ¿P + 2p_l f |Xn|pî/P+^. (10.4)
II en résulte déjà que la famille {|X„|/' \ n e N} est bornée dans L'. De plus,
la famille finie {\Xtl\p \ n N} étant équi-integrable, est en particulier équi-
eonlinue. La majoration (10.4) montre alors que la famille | n e NJ
est aussi équi-continue, donc équi-intégrable, puisque bornée dans L'.
Enfin, il résulte de la croissance de la fonction x t-^- xp et de l'inégalité
de Markov que l'on a, pour tout t: > 0, pour tous n et m,
P(|X„-XJ > E|X„-Xm|" .
H en résulte que la suite (X„)n€^ est de Cauchy en probabilité et converge
donc en probabilité vers une variable aléatoire X. La suite (|X„|p)weN étant
bornée dans L1, il résulte du lemme de Fat ou que
[ \X\P dP í liminfElX,,^ ^ supE|XM|p < +oo .
7i2 " ieN
ce qui démontre que X G ZP(Q, A, P).
(ii¡) (i) : pour tout s > 0. on a, d'après l'inégalité (10.3).
E\Xn-X\p$f \Xn-X\pdP + 2p~l\ f [|Xn|*+|X|"]¿P
J(\X„~X\^e^") L7(|x;,-x|>sl//J)
soit
E|Xrt-X|i' +2"-l\ f \Xn\"dP + ( \X\>'dP
(10.5)
y»
C1I\P[[IÍE 10. tXi,NVI-.KÍjENCl's y-\ COlS DT.S GRANDS NOMKRf-S
L'équi-continiiiié de la famille {|X„ |p. n € M ; |X|''} permet de trouver n > 0
tel que l'on ait
sup / |X„|/'i/P+ / |x|" í/P í —î-r dès que P(a) $ r; ;
de plus, la convergence en probabilité de la suilc (Xn)n€.M vers X implique
qu'il existe N tel que l'on ait, pour tout n >¦ N,
P(\Xn-X\>el^)^rj.
Il résulte alors de l'inégalité (10.5) que Ton a
Vs > 0 limsupE|X„ - X\p il 2s.
n
ce qui démontre que la suite (X„)„efj converge dans ]_p vers X. ?
Un contre-exemple : si. pour tout/? € N*, X„ est de loi ¿¡¿¡„1 + (1 - ¿)á0, on
a. pour tout f > 0. P(]X„ I e) = ^ et EX„ = // ; la suite (X„)ne] ( converge
donc en probabilité vers 0 mais ne converge pas dans X.1
10.3. Séries de variables aléatoires indépendantes
On étudie une condition suffisante de convergence P-p.s. et F2 de série
de variables aléatoires indépendantes admettant un moment d'ordre denx.
On donne d'abord l'inégalité de Kolrnogorov qui généralise l'inégalité de
Tchebitchev.
Théorème 10.13 (Inégalité de Kolrnogorov). Soient n variables aléatoires
X\, X2..... X„ indépendantes, admettant un moment d'ordre deux et
centrées. Pour tout e > 0, on a l'inégalité
i=l 1=]
Démonstration. On note, pour tout k tel que 1 ï; k C n,
k
Sfc = y^X, el M* — max |S,|.
j = 1
11 s'agit de majorer la probabilité de l'ensemble E — (M„ > e) ; s'il est vide,
l'inégalité est Irivrale et on se place dans le cas où il ne l'est pas. Faisons
apparaître l'indice pour lequel |Sfc| dépasse pour la première fois le seuil
s ; on introduit pour cela les ensembles
k-1
E, - (JS]| >-f) el,si2 EA - (|Sfr| > e) n [f](\Si \ < e)] .
Kl.}. SÉRIES DE VARIABLES Al r.<MOil*ES IN DEPENDAIS lï;.S
99
( es ensembles forment une partition de E et par conséquent, on it
n
p(e) = 5]p(tîJt).
Il résulte de la définition de Et que
p(E,)^E(lE, Si),
et donc que
" ¿=1
Démontrons alors que, si l ^ k ^ n, on a
E(1Ea Sj)^E(lh, SJ): (10.7)
en effet, on a
e(iEA sJ) = e[iea (s*+ Y, xfy]
i = k + l
soit
e(ln4s;)=e(lra.sî)+2E[(lejtst)( £ */)]+e[lEfc( E Xj) }
j=k+\ i=k + i
Les variables aléatoires l_K&ic et YL"j=k+] sont indépendantes et la
variable aléatoire _"j=k + ]X/ est cctitrée; le terme médian du second
membre est donc nul et, le troisième ternie étant positif, on obtient
l'inégalité (10J). En reportant dans l'inégalité (10.6) le majorant ainsi obtenu,
et en tenant compte de ce que les ensembles E* forment une partition de E,
on obtient :
«E> « ^ ÊECt, S'.) = 1h(u Si) « Ie(s;).
k=l
Les variables aléatoires X, étant indépendantes et centrées, on a E(S^) —
X^ = i °x-' ce 9m acriève la démonstration. ?
On en déduit une condition suffisante de convergence p-p.s. d'une série
de variables aléatoires indépendantes.
Proposition 10.14. Soit (X„ une suite de variables aléatoires réelles
indépendantes, centrées et admettant un moment d'ordre deux. Si YL^l^ °x„
+oo, la série ^ ^« <'(> terme général Xlt converge P-p.s. ri dans L2.
CU \ PITRE ll>. CONVI kCUNChS fc I I.OIS Dr S GRANDS NOM lì Kl S
Démonstration. On démontre d'abord la convergence P-p.s. Pour m t M*,
notons
m
Sm = X, Am = sup \Sm+k - SJ et A — inf Am .
Il résulte du critère de Cauchy pour les séries numériques que Ton a
|^X„ converge} — {A = 0* .
Mais on a {A 4- 0} - LUm- > ¿1 ¿1-pour tout n e M*, JA > ~\ c
O^n* :> i}> œ clui donne l'inclusion :
!A /0} c |J f) JAm > i|. (10.8)
Puisque supfcer^* jSm+fc - Sffi| - linv / sup,^r |Sm+t - S„,|, la suite
d'ensembles |sup|<;A.<f \H„,+k - Sm| > est croissante, et on a
JAm > -| = M { sup |Sm+A-Sm| > -}. (10.9)
Il résulte de l'inégalité de Kolmogorov que
p( sup \snl+k -Sm| > -) ^ »2 £ •
l'égalité (10>1) faisant intervenir une suite croissante d'ensembles, il vient
+ 00
1 I +0°
p(a,„ v- -) = limpY sup \SM+k -Sm\ > ) * u2 Y
i=m\-\
TI en résulte que, pour tout m e N*, on a
osprnK>s)]^(A-4)sHi 2
le membre de droite convergeant vers 0 quand m tend vers l'infini (reste
d'une série convergente), il vient que, pour tout n e P[p|^eH*(Ap >
1/«)] — 0. Il résulte alors de l'inclusion (10.8) que P(A ^ 0) = 0, c'est à
dire que la série de terme général X„ converge P-p.s.
Il y a aussi convergence dans L2 puisque la suite des sommes partielles
est de Cauchy pour la norme 2: en effet, les variables aléatoires X„ étant
centrées cl indépendantes, on a, si m < n,
n
E [($„ - Sm)2] = £ a2..
1(1.4- L0,S llt-S GRANDS NOMBBUS
ce qui démontre le résultat, la série des variantes étant convergente. ?
T/étude de phénomènes aléatoires conduit fréquemment à poser le
problème de convergence de la suite des moyennes arithmétiques d'une
suiie de variables aléatoires indépendantes de même loi. C'est le cas par
exemple, en statistique, en théorie de l'estimation : si X est une variable
aléatoire qui modélise une grandeur liée à un phénomène aléatoire, se pose
le problème d'eslimer sa loi, ou certains paramètres de cette loi, au vu
d'une suite de réalisations de ce phénomène, réalisations obtenues au cours
d'expériences indépendantes. On est alors conduit à introduire une suite
(X„)„,= ;i* de variables aléatoires indépendantes de même loi que X, et à
étudier, pour une certaine fonction /, la suite de terme général de la forme
Si (Xn)ne%* est une suite de variables aléatoires réelles, on note, pour
tout n e N*,
En termes statistiques, X„ est appelée moyenne empirique de l'échantillon
(X,. X2 Xn). On donne le nom de loi des grands nombres à deux
théorèmes principaux qui affirment la convergence de la suite de terme général
X„ sous certaines hypothèses. Pour la loi faible, il s'agit de convergence en
probabilité. Pour la loi forte il s'agit de convergence presque sûre. On donne
aussi le nom de loi des grands nombres (faible ou forte, suivant le cas) à de
nombreuses variantes de ces deux énoncés, obtenues avec des hypothèses
plus ou moins fortes.
Noter que pour les lois faibles, l'hypothèse d'indépendance des variables
aléatoires X„ n'est pas nécessaire 1 : on demande seulement la non
corrélation ou l'indépendance deux à deux des variables aléatoires, alors que pour
les lois fortes, on demande l'indépendance gli>bale2 des variables aléatoires.
On laisse le lecieur établir, a titre d'exercice, une version de la loi forte pour
des variables aléatoires deux à deux indépendantes.
Rappelons pour commencer deux lemmes élémentaires d'analyse qui
seront plusieurs fois utilisés pour établir des lois des grands nombres ».
1. On a fait l'hypothèse d'indépendance globale dans renoncé du ihéorème 7.9 {tome 1)
par so-nei de simplicité.
2. Les lois des grands nombres apparaissent dans de multiples pioblcnutiques et t'ont
l'objet d'une abondante littérature; en particulier, dans le cadre de noire étude, l'hypothèse
d'indépendance peui être levée «race à la théorie des martingales.
10.4. Lois des grands nombres
[02
CHAPITRE 10. CONVrKGENŒS FT LOIS DES fjHANDS NOMHRCS
Lemme 10.15 (Lemme de Cesàro3). Soit une suite (-r„)„eN* de réels
convergeant vers x quand n tend vers l'infini. La suite de terme général ~ YTj=\ xi
est convergente de limite x.
Démonstration. Soit e > 0 quelconque puis N tel qu'on ait, pour tout n >: N,
\xn — x\ ^ s ; puisque
il" 1 N 1 " 1 N
\~ xj - x =£ - \x i - x I + - \x, - x \ $ - \.\f - x \ + t:.
; = i y = i /=N + 1 ./=[
onalimsuPiJ
<
s, ce qui démontre le résultat, vu l'arbitraire
de k. q
Lemme 10.16 (Lemme de Kronecker4). Soient une série de terme général
réel xn convergente et une suite croissante (£>„)„en* d£ réels tendant vers
l'infini avec n. On a alors
1 "
Démonstration. On note S = J2^™\xi &U pour toui " e —
—S + YTj = ] x/, s' bien que la suite (S„ tend vers 0 quand n tend vers
l'infini. On a a-„ — S„ — S«-i et donc, par transformation (ou sommation)
d'Abel, pour tous entiers n et N tels que n > N >¦ 2,
biXJ - MS7 - S/-l) = S"b" - ^nSN-[ - ^ S;(èy + 1 - bj) ,
i=N /=N /=N
soit, dès que b„ 4- 0,
La suite de terme général Z)^=, &/A, - ^"j^"1 + S„ tend vers 0 quand n
tend vers l'infini. Soit alors s > 0 et N tel que, pour tout n >. N, on ait
3. Emesto Ccsàro (l$?9-1906), ne à Naples, devient professeur à l'université de celle ville
en 1883. Ses activités mathématiques sont variées : il s'est en particulier intéressé aux liens entre
l'arithmétique et le calcul intégral, ainsi qu'au comportement des séries entières sur le cercle
de convergence.
4. Leopold Kronecker (1823-lKt)I) est né à Liegnitz, en Pologne. Apres des études à
Berlin et Bonn, il s'enrichit, dans les finances, ce qui lui permet ensuite de se consacrer aux
mathématiques. I! enseigne à Berlin à partir de 1861. Ses travaux portent sur |a théorie
des équations, sur les fonctions elliptiques et |a théorie algébrique des nombres. Il s'est
farouchement opposé à la théorie des ensembles de Cantor; et a la construction des nombres
réels proposée par Wejerstrass.
Mi I LOIS DES GRANOS NOMBKbS
N
103
I '
=1
bu SN_i
X i - —r h S„
et |S„|í-.
Puisque )a suile (A/^tN- est croissante, on a
en resulte que
limsup — I ¿ s/^j + i s 7'
/1 * 'h
i done que limsup,, ^- ^' = 1 ^/A'y ^ £- ce qin démontre le résultat, vu
l'arbitraire de î\
?
Théorème 10.17 (Loi faible des grands nombres). Soit (X„)„<=n* une mite
de variables aléatoires définies sur l'espace probabilisé (Q. A,P), admettant
an moment d'ordre deux, et deux à deux non corrélées*. On suppose la
1 -onvergence des suites :
m et
rt-*+co
1 "
0.
/ = 1
Alors, la suite des variables aléatoires X„ = i £]; = i co"verge en
probabilité vers m.
démonstration. On u
EX^- ¿EX;.
7=1
4 ^
Les variables aléatoires X„ étant deux à deux non corrélces, on a aussi :
1 "
7 = 1
L'inégalité triangulaire conduit à l'inégalité :
_ __ « " » " ,
|X„-m|5; Xn--VEXy +
n j—1 I n L—' 1
7 = 1 7 = 1
S. Deux variables aléatoires réelles admettant un moment d'ordre deux sont dilcs non
cnrréléus si leur coefficiem de corrélation est nul (ce qui est équivalent à dire que leur
cuvariance est nulle).
CHAPITRE 10. CON\LUMiNCCS VI I.OlS DES GRANDS NOMBIthS
Mais, pour tout e > 0, il existe N(e) £ N* tel que, pour tout n ^ N(ê), on
ait |i £"=J EX7 — m\ ^ f. Pour tout n >. N(e), on a donc l'inclusion des
ensembles
(|x„-ièEX,|<î)c(|X„-,„Kf),
ou encore, pour les complémentaires, l'inclusion :
(|XB - m\ > e) C (|x„ - - £ EX/ | > \)-
t = \
L'inégalité de Bienaymé-Tchebitchev permet d'écrire :
V " n !\ 2/ s2 x" e2 ^- x'
il en résulte que, pour tout " ? N(&), on a :
4 1 "
P(|X„-m| - £a^,
ee qui. en utilisant la seconde hypothèse, démontre le résultat. ?
Remarque. \/hypothèse sur les vatiances contraint les variables aléatoires
à ne pas être « trop dispersées » autour" de leur moyenne. Les hypothèses
du théorème précédent sont toutes satisfaites, en particulier, si les variables
aléatoires X„ sont indépendantes et de même loi et si X, admet un moment
d'ordre deux. En fait, si les variables aléatoires sont indépendantes et de
même loi, il suffit de l'existence d'un moment d'ordre un, comme le montre
le théorème de Khintcliine6 énoncé ci-dessous.
Avant d'étudier ce théorème, on rappelle un cas particulier du théorème
préeédent (il faut noter toutefois qu'il lui soit historiquement antérieur) ; il
>;"agit du théorème de Bcrnoulli étudié au tome h chapitre 7, p. 236.
Théorème 10.18 (Théorème de Bcrnoulli). Soit [ \„)„^ une suite
d'événements indépendants de même probabilité La suite des variables aléatoires
^ Y,"=] Vv, converge en probabilité vers p.
Démonstration. Les variables aléatoires lAjj, n e N*, sont indépendantes
de même loi de Bernoulli ; elles admettent un moment d'ordre deux, et on
se trouve dans la situation de la remarque. ?
6. Alevindre Khintcliine ()K°4-1959) a été professeur à l'université de Moscou à partir de
14^2. Ses travaux concernent l'analyse réelle, la théorie des nombres, et les probabilités. I| a
introduit, parallèlement à P. Lévy. la notion de variable aléatoire. On lui doit la définition de
processus aléatoires stationnaires.
Ml.4- LOIS PFS GRANDS NOMBRES
Remarque. Ce théorème assure que, si on fait une suite d'expériences
aléatoires répétées de manière indépendante, la suite des fréquences relatives
d'apparition d'une certaine propriété liée à cette expérience converge en
probabilité (au sens de la probabilité P du modèle adopté) vers la probabi-
lilé de l'événement lié à cette propriété. C'est donc un théorème de eohé-
iL-nee du modèle probabiliste avec rapproche fréquentiste et intuitive de la
notion de probabilité qui est à l'origine du calcul des probabilités.
Théorème 10.19 (Théorème de Khintchine ; loi faible des grands nombres).
Soit (X„)„eN* une suite de variables aléatoires définies sur l'espace probabi-
Usé (Q, ¿4.. P), deux à deux indépendantes de même loi p et admettant une
moyenne. Alors, la suite des variables aléatoires X„ — ^ X/ converge
en probabilité vers la moyenne commune EX,.
Démonstration. On se ramène au théorème 10.17 par un procédé de
troncature. Soit
Les variables aléatoires Y„ sont indépendantes deux à deux et bornées; on
va démontrer qu'elles satisfont les hypothèses du théorème 10.17. On a
X
et
V>Y;
/=1
fi
,=1 Jt=0 "'^
(fc<|je|^Ar 4 1)
X d[t{x)
soit
ce qui donne
ii
i\x\<n)
x dp(x).
L'existence de la moyenne de Xti implique que l'on a
et que la série de tenne général j{k<
lemme de Kronecker assure alors que
(k<\x\^k + \)
x dp(x) est convergente; le
lof) CHAPITRE 10. < (>NVFR(jE-Nl."E5 ET LOIS DES GRANDS NOMBRES
/ = 1
Pur ailleui"s, on a
o-y. ^ EY; = / x2 d/t(x) ï= / j:2 (/m(a-),
e t donc
0 < — Y^aY . ^ - / x2 dii(x)
nl fr1, J n J(Ms»)
~\ f x2 djx(x') + /" x2 dji{x) .
Il en résulte que l'on a
puisque j \x\ dfj.(x) < +do, le membre de droite tend vers 0 et on a
O^^-Y^a2..^-^ j \x\d(i(x)+ f \x\dfx(x);
1 "
lim — al — t).
j = l
Le théorème 10.17 assure alors que
Y„ EX, . (10.10)
Si n > r, on note
1
I
/=[ j=r+t
On a
n
£p(Yy7^X;) = J lmxl[(j)dii(x).
/=r+1 /=r+l
et, puisque
1 "~l f
lim Y^k x d{t(x) ~ 0,
" " ^ j(k<\x\$k + i>
ce qui donne n
lim - EY_; ^ EX, .
10.4. I .CHS DES GRANDS NOMÏÏKbS ?7
Il +OO
il vient _ _ /¦
P(Y„, #X„)^ / \x\dp(x).
j(\x\>r)
Pour tout s > 0, il existe donc r > 0 tel que, dès que n > r, on ait
P(Y,Kr / X„) 5 §. Alors, pour tout à' > 0, on a
?[(|?„-??,|>^)?(?„,? #XB)]+P[(|Xe-EXI|>3)n(YB>r = X„)].
et donc :
P(|X„ - EX, I > 3)5 P(Y„,r # XB) + P(| Yn/ -EX, I > S)
^ + P(|Y„,,-EX,|>S).
Mais d'après (10.10), on a lim„ P(|Y„>(. — EX, | > 5) = 0 ; il existe donc
N > /* tel que, pour tout n >; N on ait
PflY^-EXjl >S)^~;
en résumé, on a montré que, pour tout s > 0 et tout S > 0, il existe N tel que
P(|X„ — EX, J > 8) ^ s dès que n ^ N, c'est à dire que la suite (X„)„eN*
converge en probabilité vers m. ?
Théorème 10.20 (Loi forte des grands nombres). Soit (?„)????* une SU!tl> de
variables aléatoires définies sur l'espaceprobabilisé . ?. P), indépendantes
et admettant un moment d'ordre deux. On suppose que :
+ 0O j
EX„ —m <?* / —— civ . < +oo .
?/ors, /a suite des variables aléatoires X„ — ^ X^=, X/ converge P-p..t e?
Jnw L2 vers m.
Démonstration. Il résulte du lemme de Cesàro que
— I "
EX„ = - ???; —? m. (10.11)
? = 1
Les variables aléatoires Y„ = Xf' ~EX|Î sont indépendantes, centrées, et de
variance X ob ; on a donc
CHAPITRE 10. ( O.N\ l'Util NCt'S tT l-OIS nr.S GRANDS NO,\|HKI"S
ce qui, en vertu du théorème 10.14 démon ire la convergence P-p.s. de la série
de terme général Y„. Le lemme de Kronecker assure alors que la suite des
moyennes arithmétiques des variables aléatoires nYn converge P-p.s vers 0,
et donc que la suite des variables aléatoires X„ converge P-p.s vers m.
Pour la convergence L2, remarquons que, par indépendance des
variables aléatoires X„ — EX„, on a
11 Z—' 2 112 z—'
/=1 /=1
'X,
le lemme de Kronecker, conjointement à l'hypothèse, assure que
I "
lim — Y* = 0.
j=\
Puisque l'on a, pour tout n e N*,
1 " 1 "
X„ - m = - £(X,- - EX,) + [- exj ~ m
n j=\ " /=i
la relation (10-11) et l'inégalité triangulaire conduisent à la convergence L2
vers m de la suite de ternie général X„. ?
Comme le montre l'exemple sui\an1. une cuite de variables aléatoires
pent snivre la loi faible des grands nombres sans pour autant suivre la loi
forte.
Exemple 10.2. Soit (X„)n>2 une suite de variables aléatoires indépendantes
de lois données par
i\, = tt~(s» + + 0 - t~!—)s° ¦
2nmn 2n In n
Les X„ sont centrées : s'il y a convergence P-p.s. de ^, c'est vers 0. Mais on a
Ep(ix„i =
I
- — +oo ;
n
les \„ étant indépendantes, le lemme de Borel-Cantelli assure que
P[!imsup„(lXwl y w)] = I ; puisque l'on a ~ = sf - '-^^-.il en résulte
que, P-p.s. la suite de terme général ^ ne converge pas vers 0.
Par contre, la loi faible s'applique. En effet, on a a2;,, = j™. La fonction
-Y i—*¦ étant croissante sur [e, +cc[, on a la majoration
KI.4- I.UIS fl\-.H GRANDS N(>M|íKKS
el done „
ri' qui démontre que lim,, ^ £]£=2 a\k ~ U' *>ar 'e théorème 10.17, la suite
ilv terme general ~ converge vers 0 en probabilité.
Si les variables aléatoires X,, sont seulement integrables, on a encore une
loi forte des grands nombres, à condition de rajouter une hypothèse, à savoir
que les X„ sont équidistribuées. C'est l'objet du théorème suivant.
Théorème 10.21 (Théorème de Kolmogorov-Khintchine). Soit (Xrt)„eN*
mie suite de variables aléatoires définies sur l'espace probabilisé (£2, <A,P),
indépendantes; de même loi. Les deux assertions suivantes sont équivalentes :
(i) il existe un réel c tel que la suite des variables aléatoires Xn —
!, I^/=i X/ converge P-p.s. verse;
(¡i) X, e£l(Q,A,P);
Si l'assertion (i) est vraie, on a c = EX,.
Démonstration. On a démontré en exercice (exercice 12, chapitre 9) que, si
les Xn sont indépendantes et de même loi, pour que la suite de terme général
\„//î converge P-p.s. vers 0, il faut et il suffit que X, soit integrable.
• Supposons que la suite (X„)„e-;* converge P-p.s. vers e ; puisque, pour
mut n e N* ona
X„ _ n — 1 _
— — x„ - Xrt_] ,
/; n
la suite de terme général X„ /n converge P-p.s. vers 0. et en conséquence X,
est integrable.
• Inversement, supposons que X, soit integrable; la suite de terme
général X»/n converge alors P-p.s. vers 0 et on a donc P(lim sup„(|X„| >
//)) = 0. En introduisant pour tout /; la variable aléatoire X„ = 1(|x„|î„)X„,
il en résulte que l'on a P(lim inf„(X„ = X„)) = 1. Si on note
SK = ¿Xy et S„=£xy,
j'-i
on a alors
PÍf — ) converge]—P (Y — ) converge) n liminf(X„ = X„)
L\ n /neN* J LWj /ne i' > «
^converge) n límínf(X„ = Xrt)
soit
( — \ converge =P ('— ) converge
A n /«eh"* J L\ n /«eN*
CHAPITRE in. ( í)ISVf''K(ih>N<>'S ET' LOIS DLS ',H.\NE)S NOMBRES
Il suffit donc de démontrer la convergence P-p.s. de la suite , ce qui
se fait à l'aide du théorème 10.20, puisque les Xn sont dans X2. Vérifions les
deux conditions sur les moments :
• les X„ ayant même loi, il en est de même des X„ ; ces dernières ont
donc même moyenne, ci, X| étant integrable, on a
limEX„ = limE[X|l(|X])Sn)] = EX, ;
• on a
Dí<Í < EtX;> = E[Xíl(|x1|í»)] ¦
et. par la propriété de Beppo Levi,
-Too , +00
Mais, puisque X2 l(|Xl = X? Ym=i l(m-i<\x¡\*m), on a, dans ]R + ,
n = I 11 = i m= [
m=[ ii=ni
ce qui donne l'inégalité :
De plus, on a la majoration
-roo . +co
H2 /772 Z—' (fl + 1)
^mh x- m2 Jm .v2
ce qui donne m VJ"^! -r ^ 1 + I < 2. Il en résulte l'inégalité
^2 Xí 'tl^il^») ^ 2 fXll,('"-l'INil««> = 2iXll :
1=1 m=1
on a alors, d'après l'inégalité (10.12),
E y 4„ ~- E[E ~¡ XI V|x,i*o] Í - E|X, I <
fl = 1 »1 = 1
IO-4- LOIS DES GRANDS NOMRRES
On a donc démontré la convergence P-p.s. de la suite (^f )„eN* et donc
aussi de la suite (X„)„<=n* vers EXj. ?
Une application importante du théorème précédent est le théorème
fondamental de la statistique sur la convergence des fonctions de répartition
empiriques.
Soit X une variable aléatoire réelle de loi ju. ; soit (X„)„e-]* une suite de
variables aléatoires réelles, indépendantes de même loi ¡i et de fonction de
répartition F.
Définition 10.22. Le vecteur aléatoire (Xj, X2, ¦ ¦ ¦. X„) est appelé échantillon
de taille n de X. La fonction F„ Lie ¡K x Q dans [0,1] définie par
1 "
VLv,ù>) elx£2 ??{?,?) = - J]l(x,^)(^)
./ = 1
i'.vr appelée fonction de répartition empiriqne (associée à X) basée sur
l'échantillon (XbX2,..., X„).
Remarque. Pour une réalisation o), le vecteur (?? (a>), X2Uo) . ??(?>)) est
appelé échantillon empirique ; pour tout réel x, le nombre /îF„ (x. oj) est le
nombre d'indices ? pour lesquels on a ??«0 ^ x.
Théorème 10.23 (Théorème fondamental de la statistique ou théorème de
Glivenko-Cantelli). Avec les notations ci-dessus, pour Y-presque tout ??, (a
suite des fonction de répartition Fn(-.(o) converge uniformément vers F,
autrement dit, on a
Y-p.s. lim sup |F„(.v. ¦ ) — F(x)\ = 0 .
" ???
Démonstration. Il faut remarquer que, pour tout a>. F„{-,o>) et F étant
continues à droite, on a
sup|F„(x. •) -F(x)| = sup \Fn(x, •) -F(x)|,
??? xe<Q
ce qui montre que sup^g |F„(x, ¦ ) - F(x)| est bien une variable aléatoire.
Pour tout réel.v. la suite (1(X/ rrX))j&n* (resp. (1(X/ <X))jeh'* ) est une suite
de variables aléatoires indépendantes de même loi et integrables. De plus,
on a
Elrx^*) = P(X./ 5 x) - F(*) et El(Xy<xJ = P(X, < x) = F(x-) ;
il résulte alors du théorème 10.21 que
P-p.s. lim F„(x, ¦) = F(x) et limFrt(x- ¦) = F(a-). (10.13)
CHAPITRE 10. COINVt.miFNCrS ET LOIS DES GRANDS |\f)MBRECS
Soit alors D la réunion de l'ensemble des rationnels Q et de l'ensemble,
dénombrable et éventuellement vide, des points de discontinuité de F;
cet ensemble D est dénombrable et dense. De l'assertion (10.13) résulte
l'existence, pour tout x € D, de deux ensembles de probabilité nulle, N'
et N2, tels que l'on ait
Vo> g Ni IimF„(x.oj) = F(x) et Vo> £ N:. lim F„(x~, a>) = F(x-).
n n
L'ensemble N — [Ujten U [Ux^d est encore de probabilité nulle et
on a
V&> ^ N, VieD limF„(jt,w) - F(x) et HmF„(x- o>) = F(x-).
n n
En appliquant le lemme 10.24 ci-dessous, on obtient que
V&> ^ N, Hm sup |F„(x, co) — F(x)| = 0 ,
ce qui est le résultat annoncé. ?
Pour être complet, il ne reste plus qu'à énoncer et démontrer ce lemme.
Lemme 10.24. Soient f et f„, n e N*? des fonctions définies sur R positives,
croissantes et bornées par 1.
(a) Si la suite (/n)neN* converge simplement sur un ensemble D
dénombrable et dense de R, elle converge simplement sur l'ensemble des points de
continuité de f.
(b) Supposons de plus que les fonctions f et f„ sont des fonctions de
répartition. Soit D l'ensemble, dénombrable et dense, réunion de Q et de
l'ensemble des points de discontinuité de f. Si
VxeD lim fn(x) = /'(x) et lim /„(*-) = /(x-),
n n
la suite {/«)„eN* converge vers f uniformément sur ?..
Démonstration. (a) Soit x un point de continuité de /. Soient f > 0
quelconque et > 0 tel que l'on ait
x' e [x-i),x + n] \.f(x) - f(x')\ ^e.
Soient y et y' appartenant à D tels que l'on ait x — n < y < x < y' < .v -f n ;
la croissance des fonctions / et fn et l'hypothèse de convergence de la suite
permettent d'écrire ;
/(^)= lim/4^)^liminf/4x)^limsuplim/„(/)=/(/).
n n n n
Il en résulte que, pour tout s > 0, on a
|liminf f„(x) — limsup f„(x)\ ^ ^ et |limsup f„(x) — f(x)\ =S £,
Il»4. 1 OIS DES GRANDS NOMBRES
ce qui démontre, s étant quelconque, que l'on a
liminf f„(x) = limsup/„(x) = f(x);
n n
autrement dit, la suite {f„{.x))„^* converge vers f(x).
(b) Pour tous entiers j,k tels que l .< j ^ k, posons
xJJc - supjx e R | f(x-) /(x)}
(on convient que sup 0 = +po) et xo,a = —oc. Puisque / est une fonction
de répartition, on a lim.t__00 f(x) = 0 et lirn^+oo f{x) = 1. il en résulte
que Xjtk<Xj+i!iç dès que k e N* et 0 < j ^ k ~ l. Les intervalles
|^V,fe,Xy+lîfc] forment donc une partition de R. Posons
Aj (k) = max I /„ (x M ) - / (X/,* ) 1 ,
os;—1
A;(fc)= max l/„U;jt-)-/(.y,,*-)! et A„-sup |/b(x)-/(.ï)|.
On a, pour tout teN*,
A„ ^max(AH(*),AB(*)) + i. (10.14)
Rn effet, si x e]x/,fc, xJ+i on a
/(xM) ^ f(x) « f{xj+lt-) fn(xM) 5 /„(.y) /rt(xJ + ,,ft-)
et 0</(JC/ + u-)-/(xM)^i,
ce qui donne
/«(*) - ./X-ïKAUy+i.fc-) - /C*;.*)^/*(*/+!,*-) - + ^
et
/«(-v) - f(x) 5 yn(xM) - ./%*, + ,,*-) > - /O*/.*) - i ,
ce qui démontre l'inégalité (10.14), puisque l'on a, pour tout k e N*.
A„ = max sup \f„(x) - f(x)\.
Par ailleurs, pour tout k e N*, on a lim„ A^(fc) = lim„ Ajj(£) = 0; en effet
on a
lim f„(xjjk) - f(xjÂ) et lim fn(xJjk~) = f(xjyk-) = f(xjM).
car soit Xjk est point de continuité de /, et cela résulte de la première partie
du lemme, soit Xjk est point de discontinuité de /, et c'est l'hypothèse; il
"4
CHAPITRE 10. CONVERGENCES ET l,OIS DES GRANDS NOMBRES
suffit alors de remarquer que dans Ayn (k) et A2 (k ) ne figurent qu'un nombre
fini de quantités \fn(xj,k)-f(xjrk)\ ou \f„(xjtk-) - f(Xj>k-)\. Il en résulte
que, pour tout i:eN*,ona
0 $ limsup A„ = 0,
n
ce qui démontre que la suite de terme général converge vers 0. ?
Le théorème de Glivenko-Cantelli 10.23 suggère l'idée du test de
Kolmogorov-Smirnov ; avec les notations employées dans ce théorème, il
s'agit de tester, au vu d'un échantillon de taille n, l'hypothèse que la
variable aléatoire X a pour fonction de répartition la fonction continne F.
La méthode de test consiste à donner une région d'acceptation de
l'hypothèse avec une probabilité d'erreur de a, a étant appelé senil ou nivean du
test. Ce test est non paramétrique, au sens où l'hypothèse consiste à dire
que F appartient à une classe de fonctions, à savoir les fonctions continues,
par opposition à un test paramétriqne où on suppose que F appartient à une
famille de fonctions déterminées par des paramètres (par exemple la famille
de toutes les lois gaussiennes de paramètres m et a2) et où l'hypothèse porte
sur les valeurs de ces paramètres.
Le test est basé sur la remarque que la variable aléatoire D„, appelée
statistique de Kolmogorov-Smirnov, et définie par
D„ =sup \Fn(x, - )-F(x)|,
a une loi indépendante de F. Démontrons ceci : soit G la pseudo-inverse de
F, à savoir la fonction définie par
G00 - inf(x | F(x) & y).
On rappelle (voir exercice 1 du chapitre 8) que G est définie sur [0,1] et
que, F étant continue, on a, pour tout y e [0, I], F(G(j)) = y ; de plus la
loi de F(X) est la loi uniforme sur l'intervalle [0, 1]. Enfin, puisque F est
continue, en tout point x de croissance stricte7 de F, on a l'équivalence
F(x) $ F(y) si et seulement si x $ y. Si on note C l'ensemble des
points de croissance stricte de F, l'ensemble Cc des paliers de F est réunion
dénombrable d'intervalles }a,, b-{ [, / e I, les paliers de F correspondant aux
sauts de la fonction croissante G ; on a alors, si 1 ^ j ^ n,
P(Xy e C) < Y, p tx; e = - F<fl'>] =0 ;
ainsi, puisque les variables aléatoires X,- sont indépendantes, on a P-p.s.,
(Xi,X2,... ,X„) e C". Pour des réels x,, x2,..., xn, x, notons
7. Un point x est un point de croissance stricte pour la fonction F, s'il existe un intervalle
ouvert contenant x sur lequel F est strictement croissante.
in.4. LOJS DBS GRANDS NOMBRES
"5
>'n(xlwv2 y,,,x) ~ y^l(.y^x)
le nombre de x/ inférieurs où égaux à x. On a P-p.s.
D„ =sup|Fn(x, -)-Hr)l= sup |F„(x,-)-F(*)|,
a-€M *SG(l)
puisque, si x > G(l ), on a P-p.s. F„(x, ¦ ) = F(x) = 1 ; ainsi on a P-p.s.
D„ — sup
*SGO)
= Slip
-v„(Xi.X2,--.tXn,x)~F(x)
v„(X1,X2....,X„.G(}0)-F(G(.y))
c'est à dire,
P-p.s. D„ = sup
j-eliu]
-p«(X,,X2,....X„,G(v))->'
mais, puisque P-p.s., (Xi, X2,..., X„) G C", on a P-p.s.
yn(X,.X2)....XnjG(>-))= ^(F(X1).F(X2),...,F(X„),F(G(3')))
- vB(F(X1),F(X2),...,F(XB).>0.
autrement dit.
P-p.s. D„ = sup -v„(F(X,),F(X2) F(X„)..y)-v|.
ye[o,i\ n
En remarquant que les variables aléatoires F(X,). F(X2)...., F(X„), sont
indépendantes de même loi uniforme sur [0,1], on a bien montré que D„ a
une loi indépendante de F. Cette loi est tabulée 8. Le test consiste alors, pour
un niveau a donné à déterminer dans cette lable la valeur da pour laquelle
on a P(D„ ^ da) = 1 — a. On accepte l'hypothèse que X a pour fonction
de répartition F si on a, pour tout x e K. |F„(x. •) — FLv)| ^ da, c'est à
dire si le graphe de F est situé dans la bande déterminée par les graphes
translatés de ±da de la fonction de répartition empirique construite à partir
de l'échantillon (.v,, x2,..., x„).
Exemple numérique. On se demande si, au niveau 0.05, on peut accepter
l'hypothèse que l'échantillon suivant, de taille 15, issu d'un générateur
aléatoire, soit bien celui d'une variable aléatoire de loi uniforme sur [0, 1] :
0.8 0.4 0.25 0.7 0.6 0.2 0.5 0.3 0.15 0.1 0.65 0.9 0.45 0.85 0.55
S. On peut par exemple trouver une table de la loi de dn dans le livre de Kishor S.Trivedi
( 1982), Probability and Statistics with Reliability, Queuing, ami Compurcr Science Applications,
Prentice-Hall, Inc., Englewood CljlCs, N.I, p. 599.
11(1
CHAPITRE l(>. CONVERGENCES H I OIS DES GRANDS NOMliRES
La fonction de répartition empirique croit par saut de aux points
d'abscisse X;- La table donne (¿0.05 = 0.34. Une représentation graphique montre
rapidement que la « première bissectrice est intérieure à la bande délimitée
par les fonctions F„ ±0.34 » (un calcul peut d'ailleurs aussi bien le montrer)-
Ainsi, avec une probabilité 0.05 de se tromper, on accepte l'hypothèse que
l'échantillon esl bien celui d'une variable aléatoire de loi uniforme sur [0, 1].
Exercices
Sauf mention du coutraire, toutes les variables aléatoires sont définies
sur uu même espace probabilisé {Q, A, P).
Exercice 10.1. Métriques et convergence en probabilité. Soit £u (resp. L°),
l'ensemble des variables aléatoires (resp. des classes de variables aléatoires) définies
P-p.s., et, dans le cas de IR, P-p.s. finies. On pose, pour tout X et Y de XQ (resp. de
</(X, Y) = E
IX-YI
| + IX-Y|
et à'(X.Y) = E[mii](l,|X-Y|)]
Démontrer que d et 8 définissent sur l'espace vectoriel Z° (resp. sur L°) deux
pseudo-métriques'' (resp. métriques) équivalentes et telles que la convergence des
suites au sens de ces métriques soit équivalente à ]a convergence en probabiliié. En
déduire que ees espaces « métriques •> sont complets.
Solution. La fonction x i-> élanl croissante sur Ki] résuite de l'inégalité
triangulaire que. pour tous réels positifs x, y et z, on a
|."v — r| |x —z| + |z-y| lz~>'l
l+|.E-y| i + \X - ~\ + |- - V| \+\x-z\ \ + \Z - y\
l'inégalité triangulaire pour d en résulte par croissance de l'intégrale. De plus
d(X, Y) = 0 si et seulement si X = Y P-p.s., si bien que (/. étant de plus symétrique,
est un écart sur X°.
II résulte de l'inégalité triangulaire que, pour tous réels positifs x, y et z, on a
min(l. \x — >i)^ min(l, \x - z\ + \z — y])^ min(l, \x — z\) + min(l. \z - y|) :
l'inégalité triangulaire pour 6 en résulte par croissance de l'intégrale. De plus
H(X, Y) — 0 si et seulement si X = Y P-p.s., si bien que X. étant de plus symétrique,
est un écart sur Xn.
On vérifie facilement que Ton a, pour tout x > 0.
1 x
- minf 1. x) < ^ minfl, x\,
2 1 + .y
9. Une pst-iido-métriquc csi encore nppelée écart.
I \HRCICE I0.2
ce qui conduit à l'encadrement
^(X, Y) ^ ei(X.Y) $ 6{X.\);
autrement dit. les écarts d et S sont équivalents.
La fonction x etriiit croissante sur M+ et bornée par 1. on a pour tout
> 0:
Y^pdx - Y| > fi) =S rf(X. Y) Ç Y^tlflx-Yi^)] + E[lf|x-Y|>e)] •
l'c qui donne
-^-P(|X-YI > fi) < d(X, Y) « fi + P(|X- Y| > fi):
1 + E
il est alors clair que la convergence d'une suite au sens de la métrique d soit
équivalente à la convergence en probabilité. Puisque pour qu'une suite converge
en probabilité, il faut et il suffit qu'elle soit de Cauchy pour la convergence en
probabilité, il en résulte que l'espace pseudo-métrique (X°-d) cl Jonc aussi <)),
est complet.
Remarque. On aurait pu procéder de manière inverse, à savoir, montrer
préalablement que (X'\d) est complet, puis en déduire que pour qu'une suite converge en
probabilité il faut et il suffit qu'elle soit de Cauchy pour la convergence en
probabilité Montrons directement que d) eslcomplet : si (X„)„,=n est une suite de C'au-
cliy pour d, On extrait une sous-suitc (Xnk )keh telle que Y2t^o ''(^«a • X«ft+1) <
¦foo. c'est à dire, par la propriété de Bcppo Lcvi, que
-t-oo
i +\\„k -xBt+liJ
k = 0
\x„fc - xnf
|X/j(. — Xnk + l
Il en résulte que P-p.s. Y^k=o ~,——v i +°° ; puîsqu'alors on a
1 4- \Xnk - X„/f+l I
P-p.s. limi |XHA. - X„k+l I - 0. on a encore P-p.s. ^T+j^ \Xnk - X„ft + I | < +oo.
Par conséquent, la sous-suite (X„h )/c&ì converge P-p.s. et, par le théorème de
convergence dominée, il y a aussi convergence pour la métrique d ; mais toute suite
de Cauchy qui admet une sous-suite convergente est elle-même convergente.
Exercice 10.2. Une réciproque partielle au théorème 10.3. Démontrer que si
(X„)„eN est une suite de variables aléatoires indépendantes qui converge P-p.s. vers
0. on a, pour tout e > 0,
£P[(|X«I>£)]
« = (i
Solution. L'ensemble C = flex) nni mT« I ^ s) cst l'ensemble des a> pour
lesquels la suite de terme général X„(a>) converge vers 0; il est de probabilité 1.
Pur conséquent, pour lout p > 0. on a P[lim inf„ (|X„ | ^ fi)] = 1. soit encore.
11«
chapitre 10. convergences et LOIS des GRANDS NOMESRFS
P[limsupK(|X„| > s)~\ = 0. Les X„ étant indépendantes, le lemme de Borel-Ganlclti
assure que pour tout e > 0,
+ 0o
£>[(|X„|>>0]<+°o.
,1 = 0
Exercice 10.3. Équi-intcgrabilitc et convergence Xp de suites de variables aléatoires
gaussiennes. Soit X Line variable aléatoire réelle de loi gaussienne ?%(m.o2).
1. Démontrer l'inégalité
E[exp|X|] ^ 2chm cxp(y) - (10.15)
2. Soient 1 un ensemble quelconque et, pour tout / e 1. une variable aléatoire X/ de
loi gaussienne ,of). Démontrer que si les familles de réels (m,-),'ei et (of)ie\
sont bornées, les familles de variables aléatoires (\Xi\p)jtE[ sont équi-intégrables
pour tout p >. 1.
3. Si de plus 1 = N et si ]a suite (X„)„epj converge en probabilité vers une variable
aléatoire X, démontrer que X est gaussienne et que la convergence a Heu dans tout
Xp, p 2 1.
Solution,
i. On a
E[expX] — / exp(x)—— cxp( ^~=— ) d.\
(tV2jt v 2a-
.2
(a- - m)2
exp(m + aT)f^-±= cxp[-^,x - (m y a2)f] dx -
soit
.2
B[expX] = exp (m +
Puisque —X est de ]oi -N-^(-m,n2), il en résulte que Pou a
(j2 <j'
E [exp |X|] ^E [expX] + E [exp -X] ^ exp (m + j- cxp(~m +- %^
ce qui donne la formule (10.15).
2. Soil p >- I. 11 existe M > 0 tel que Ton ait, pour tout x >. M, |a"|/j ^ exp(|), si
bien que, pour tout i. on a la majoration
|X,r ^M" J(|xinm) + 1(|x,-|>m) cxp(^).
Il en résulte que, pour tout A e A, on a, par l'inégalité de Schwarz,
S \Xi\" d?^Mp?{A) -f-[P(A)]i Eexp(|X,|).
11 résulte de (10.15) et du fail que les familles de réels (m,-),-ei et (a(2),-ei sont bornées
que supie[ E exp(|X, |) < +cc, ce qui permet de conclure que la famille (|X,\f')ie\
est équi-intégrable.
) xim ht. 10.4 1 iy
3. La .suite {X%)h£m est alors équi-iiifégrable pour tout /> > I. Ainsi, puisque la suite
( X„ )„c| 1 converge en probabilité vers X, elle converge dans tout Xp ; en particulier,
on prenant p = 1.2, il en résulte que les suites do terme général mn et on sont
convergentes et que
limm„ — EX et lima2 = a\ .
I -il fi n- soit / GÏ?^(R) quelconque ; on a
EJ(\n) = / f(x) -=. exp ( - ) dx ,
rrn \j2tt
¦-oit. par le changement de variables y =
,2.
E/(X„) = I f(a„y + m„)—== exp(~Y) d>' ¦
La fonction /' étant bornée, le théorème de convergence dominée assure que
f{fjy +m)-^=exp(--
•>oit encore, par le changement de variahles y =
v2
limE^(X„)= / /'(aj; +m) —Lexp(-M dy ,
n ' Je J2n \ 2 /
limE/(X„)= [ f(x)—)=exP(-^~^-)
Puisque / est continue et bornée, la suite de terme général f{Xn), d'une part
converge en probabilité vers /(X), el d'autre part, est équj-intëgrable ; elle est donc
aussi convergente dans X 1, ce qui démontre que l|m„ E f{Xn) = E/(X), et donc
que :
E/(X)=/ /(*)4= exp(-^Uv.
M en résulte que. / étant quelconque, la loi de X est la loi •A'ifm. a2).
Facitìcc 10.4. Une condition nécessaire à la convergence P-p.s. de séries de
variables aléatoires uniformément bornées. Soit (Xn)ne> une suite de variables
aléatoires centrées et indépendantes. P-p.s. uniformément bornée par c :> 0. On
note S„ = Ylk=o Xfc ¦ pocir Lin entier / > I fixé, on introduit les ensembles
A = \ sup |S„ I ^ / \ et Ap = l slip ¡S„ | 5 /
1. Démontrer que l'on a l'inégalité
E[lA,^+|]>E[lA/,S^+P(A»rT^,
ÍJ0.16)
120
chapitre 10. convergences et lois des grands nombres
2. En déduire que la condition P(supn|S„| < +co) > 0 implique que l'on a
X]h=^o'°x» < *r'oc: en P^rticuLier il en est ainsi si la série de ternie général X„
converge P-p.s.
Remarque. C'est une réciproque partielle du théorème 10.14.
Solution.
1. On a'
e[ia,sJ+1]~e[ia,(s, + x,+1j2]
et, les variables aléatoires l^s^ et xp+1 étant indépendantes,
E[1APS^+l]-E[lAir;S2p3+2E[lAiJS/,]E[Xp+13 + E[lApXj+1] .
Puisque Xp+i est centrée et que lAp et Xp+i sont indépendantes, on a alors
e[iapsí+i]=e[íAí,s|] + e[1ai,]e[xJ+1]:
il ne reste plus qu'à remarquer que Á C Ap pour obtenir l'inégalité (10.16).
2. Puisque l'ensemble {sup„ [s„j < +co} est réunion croissante de la suite des
ensembles {supri [s„.| í ¦/}, / € N*, on a
P(sup|Srt| < +oo) = fimP(supjS„| $ /) ;
h l n
on peut donc choisir un entier l tel que P(sup„ |S„| ^ /) > 0, c'est à dire, avec
les notations ci-dessus tel que P(A) > 0. Il résulte alors de l'inégalité (10.16) et de
l'inclusion Ap D Ap+i que
P(A)^.ifl a[iApW+1 sJ+1] + e[iA/j+1 Sj+l]-e[iAï>Sj] .
Mais, fa suite {x>t)neN étant P-p.s. uniformément bornée par c > 0, on a, sur
|Sp+1|i \Sp\ + \Xp+i\<l +c,
ce qui conduit à l'inégalité
*A>°Í,+, í(I+^p(ap\a,+1) + e[iAí+i sp+1]-e[ia,psp¡ .
En sommant membre à membre, il vient, pour tout n S 2,
*<A>ï>i+1 í0+c)2+E[iAMsa,
èt donc, par définition de k„,
«-1
p=ï
exercice T0.5
121
Puisque P(A) > 0, il en résulte que J2t^o axn < +ao- ^n particulier, si la la
série de terme général X„ converge P-p.s. on a P(sup^ |S„| < +00) > 0 et donc
Remarque. Comme le montre l'exemple ci-après, l'hypothèse de bornitude est
nécessaire. Si les X«, n e N*, sont indépendantes et de loi -£¡$(8» + á-n) + (1 — ~s)8o,
elles sont centrées. On a E|XMj = si bien que l'on a E^+j^1 jx„|] < +00
et donc P[Y^+j^ jX„| < +00] = 1. De plus on a = EX2, — ¿, si bien que
~52n^oaxn ~ +°°' mais 'a suite n'est pas P-p.s. uniformément bornée par une
constante c > 0 !
Exercice 10.5. Théorème des trois séries de Kolmogorov. Soit (Xn)n€N une suite
de variables aléatoires réelles indépendantes. On note S„ — Yl=o Xfc et ^« =
l(|XrtNc)^-«» ou c est un réel strictement positif quelconque. Démontrer que pour la
série £XK converge P-p.s., il faut et il suffit que les trois séries £EY„, Y,aY„ et
£ P(|X» ! > c) convergent.
Pour la condition nécessaire, on se ramènera au cas de variables aléatoires
centrées par le procédé de symétrisation (cf. exercice 13, chapitre 9) et on utilisera
l'exercice 10.4 ci-dessus.
Solution. Si la série converge P-p.s., la suite de terme général X„ converge
P-p.s. vers 0; on a donc
P(liminf(|X„| Í c)) = 1, (10.17)
ou encore P(LimsupH (|X«j > c)) = 0. Les événements (|X»| > c) étant
indépendants, il résulte alors du lemme de Borel-Cantelli que l'on a X^=S) I >
c) < +00.
Par ailleurs, l'égalité (10.17) s'écrit encore P(lim inf„ (X„ = Y„)) = 1. Il en
résulte que la série £ ^n converge P-p.s. Soit, sur l'espace probabilisé produit, la
symétrisée Y£ de Y„ (cf. exercice 13 chapitre 9). Les Y£ sont indépendantes et
centrées; puisque la série £Y„ converge P-p.s., il résulte du théorème de Fubini
que la série £ Y* converge P ® P-p.s. Les variables Y£ étant de plus bornées par 2c,
il résulte de l'exercice 10.4 que Y,n^o a\s k +°°- Comme a*s — 2<7y , on a aussi
0
Enfin, les variables aléatoires indépendantes et centrées Y« = Yrt -EY„ vérifient
£¿¿0 °o < ^ en r^ulte que la série £ Yn converge P-p.s. ; comme de plus
Yb
la série Y Yn converge P-p.s., la série £ EYM converge.
Inversement, si les trois séries £ EY„, £ ffY„ et £ ^(í^« I > c) convergent, on
a Yt^o ao K et 'a se"e £ Y« converge donc P-p.s. ; il en est alors de même
Y„
de la série £ %»• De P*us> puisque l'on a
+00 +00
P( ?, ? Y,)) - Y, F(\Xn\ > c) < +oo,
n=0 n=0
CHAt'JI'KIi IO. CONVI'IUÌTNCTS pT LOIS DES GRANDS NOMBRES
il résulte du lemme de Boiel-Oantdli que P(lim sup„(XH 7^ Y,,)) = 0, ce qui s'écrit
encore P(liminf„(X„ = Y„)) = 1. La coni ergerne P-p.s. delà série ^ X„ en résulte.
Exercice 10.6. Il n'y a pas de lemme de Cesàro pour la convergence en probabilité.
Soi( (X„)„erj* une suite de variables aléatoires réelles îndépendantes, X„ étant de
fonction de répartition F„ définie par
0 si v ^ 0
—*— si .v ¦> 0
x + n
On note S„ = Y2'l = i -^k et = ~f - Démontrer que la suite (X„)n^* converge
vers 0 en probabilité, mais que la suile (Y„)„e^-* ne converge pas vcjs 0 en
probabili té.
Solution. Les variables aléatoires X„ soni P-p.s. positives. On a, pour tout s > D.
p(|X„|>e) = 1-Fn(fï = -J—•
£ -f- fì
et donc ltm„ P(|X„ 1 > n) — (). c'est à dire que la suite (X„)„gN* converge vers 0 en
probabilité.
Par ailleurs, si M„ = max^i-^,, Xk, les X„ etani P-p.s.positives, 011 a ? Y„
P-p.s. ; on a donc, pour tout h > 0,
P(e < ~)<P(s < Y„).
Les X„ étant indépendantes, on a, pour tout .v > 0,
n n
P(MH 5 X) = P[P|(*A ^ *>] = fi Pl(X* ^ *>]
k = \
Il en résulte que
l-(l-^)%p(.^)SF(f<Y„).
v n (e + D ' v n '
ei donc, en passanl à la limite inférieure,
0 < 1 - exp(—— ) 5 liminf P(ê < Y„) ,
ce qui prouve que la suite (Y„ i„6-]*ne converge pas vers 0 en probabilité.
Exercice 10.7. Le théorème 10.20 donne une condition suffisante niais non
nécessaire à la loi forte des grands nombres. Soit (X«)„eNi une suite de variables
aléatoires réelles indépendantes. X„ étant de loi Px„ — 2"" _ wH'^i + ^-1) +
I XFKCICF )O.S
[23
+ Û-2" )¦ Démontrer que Yt^x ^5 = -t-~K< et que, toutefois, la suite
- + 0O J
'" = 1 n'
(X„)„e- ;+ >ali^fait à la loi des grands nombres.
Solution. 1 ,a loi de X„ étant symétrique, on a F.X„ = 0. On n donc
vl = EX2 = 1 - + (2" )2 — = I - — + 2" .
ce qui prouve que °x„ — +°° -
Soit par ailleurs Y„ = l(|x„|^i)XM ; Y„ est à valeurs 0 ou ± 1 et on a P(Y„ =
f I) = p(X„ - ±1) = 1- l-ctP(YM = 0) =P(|X„| =2") - i-, et donc
qui prouve que
P(X„ ± Y„)=P(|Xn| - J>= ¿,
I c le m me de Borel-Cantelli assure alors que
"1
= 0.
soit encore
De plm, on a
P^linisup(X,; f Y„
P [lim inf(X« = Y„)l = 1 . (10.18)
1 I
ov- = EY2 = 1 . cl donc y — ne <- +oc .
n = l
[| résulte alors du Ihéorème 10.20 que la suite de terme général ¿-V'/'_[ Y,
couve tue P-p.s. vers 0. D'après (10.18), la suite de terme général ¿ Y) = \
comerge aiiîisi P-p.s. vers 0.
Exercice 10.8. Une application de la loi forte des grands nombres : la méthode de
Monte-Carlo pour le calcul d'intégrales. Soient D un domaine de tid et f une
fonction réélit; définie sur rd mesurable, tels que Ïd ¦ f soit Lebesgue-integrable. Soit
(Ura)ne:i* une suite de variables aléatoires réelles indépendantes, de loi uniforme sur
|(), 1]. On définit, pour tout n, la variable aléatoire U„ à valeurs dans ll^ par —
(U,»¿+[.lV,(/+2----.Li(« + nrf) et la variable alearon e réelle X„ = (In' /") o IV
Démontrer que la suite de terme général S„ = ¿ J]" = 1 X/converge P-p.s, vers Pin-
(égraJe 1 — (Dny, ty{ jix) dx et que. si / est bornée par c > 0, on a, pour tout
c > 0.
P(|SH-l|^f)i-^. (10.14)
il f,
CHAPITRE 10. CONVt.KChNOS E|' LOIS DES GRANDS ^OMIIRTS
Solution. Les vu ri ¿1 blés aléatoires Vn sont indépendantes; il en est donc de même des
\„. De plus, les X„ sont de même loi et. par II- théorème de transfert et l'hvpotlièse
que lp- /' est Lebesguc-intégrable, elles admettenl nue moyenne. Le théorème de loi
forte 10.21 s'applique. Il reste à calculer la moyenne de X [. Le théorème de transfert
donne
EX, = / fl» -/)(.*) </P[.„<.vh
et. puisque (j„ est de loi unifottne sur [0. 1]''. il vient ;
jp
nX[ - / aD-/)(A)iu, Ml/(ï) d.\ =
. - ¦• |0.I|
ainsi
] X - P-p.s. f
-^X,-^ / f(x)dx
Si / est bornée par c > 0, puisque D n [0, l]d est un domaine borné, les variables
aléatoires X„ sont dans X2 ; puisque elles ont même loi et sont indépendantes, on a
or
CS„ = EX, = I et d." = ---i .
L'inégalité de Tchebitchcv appliquée à S„ et la majoration
*x, ^ElXTj-lEX.l^EtXÏ]^.:2
donnent l'inégalité ( 10,19).
Remarque. En dimension I et pour des fonctions bien régulières, cette méthode ne
peut rivaliser avec les méthodes classiques d'analyse numérique; par contre elle
devient utile si la fonction est très irregulicre (on n'a demandé que la mesurabilité)
ou si d 5 2. On peut aussi améliorer la majoration (10.19) avec une inégalité du type
Bernstein.
Exercice 10.9. Inégalité d'Ottaviani. Soient n variables aléatoires X(, X2 X„
indépendantes. On note, pour tout k tel que I T K .*... n.
k
et si 0 s A =5 n - 1.
n
Pour tout f; > 0. on introduit les ensembles E = (M„ > 2f ). F,[ = (|S( | > 2e) et, si
? •. k il,
k - I
f.fr =(|sA.|>2e) n[fl(|s,| S2*-)].
I St-KCICr. 10.10
125
Démontrer l'inégalité
11
P(|S„|>f) ^P[(|SA..„Uf»ririA]
A- = l
ii en déduire l'inégalité rTOttaviani :
mu, P(JS;,„| < f)P(|M„| > if.) " P(|S„f > r).
Solution. Les ensembles formant nue partition de fi, on a
h
<|S„| >fi|D (|S„| > DOt = |+)[(|S„| -£)nEAJ. (10.20)
l'uisque S„ = Sk + Scorta
\Sk\ > 2eet |Sa.„| |S„| > e,
car sinon on aurait |S^| ^ |S„| + IS^,,] s' 2e et il y aurait contradiction avec
IS(| > 2s. On a donc
(|S„| > on Et j (|SA.W| * ri n F* ,
ri par conséquent, d'après (10.20).
; =1
f es ensembles (JS^/il ^ et Ek etani indépendants,on a alors
n n
P(\$n\> s)ï Y?(\Sk,n\<r)P(Ek)>, min P(|Sa.w|^s) VrtT*) ;
k-i k=l
m tenant compte de l'égalité Yil = i P'E*) — P(E): on obtient l'inégalité d'Otta-
\ mm.
Remarque. Conlrairenient à l'inegalilé de Kolmogorov. cette inégalité ne nécessite
l'existence d'aucun moment pour les variables aléatoires.
Kxercice 10.10. Equivalerne ries convergences en probabilité et P-p.s. de séries de
i.priiibles aléatoires indépendantes (ihéorèinc de Lé*> >. Soil (X„)rtel ¦ « une sui le de
\;iriables aléatoire;, réelles indépendantes Demolitici que si la série V X„ de terme
:'.urlerai Xn converge en probabilité, elle converge P-p*.. (on utilisera l'inégalité
d'Ottaviani démontrée à l'exercice 10.°, chapitre 10).
Solution. Pour/» e N*. notons
m
S« = V X/ Aw = sup |Sw+a- - Sw| cl A — inf Am .
itti* mfeM*
126
( H AIM IKK CONVKKCiKNCl S b'f LOIS PKS (IKANDS NOMBRES
Il résulte du critère de Cauchy pour les séries numériques que l'on a
\Y1X" «mvergej - {A - 0{ .
Ma[s on a
(A^0[= \j \a>sj
et, pour tout f/eN*,
{A •> f! C (~) \am ^ f\ .
W€M*
ce qui donne l'inclusion :
{A 7^0! C U P) SA,,, . (1Ù.21)
eeQ+* "ieN*
Puisque supfce^* \srn+k -Sw| = limr / sup|?S(tSj |Sm+£; -Sm|, la suite
d'ensembles {sup[^^r |Sm+(t — S,„| > s) est croissante en r. et on a
{a„!>f.}= M | sup \sm+k -Sm| > a] - (10.22)
Remarquant que Sm+(t -S,„ - £/=i x; l w- °n applique l'inégalité d'Ottaviani à
la suite (Xj / eM* î ee qui donne l'inégalité :
min P(|Sm+,-Sm+A| ££)P( max \sm+k ~ sm\> 2i)
u<i& M-<A.:ë> / (10.2^)
- P(|S,-+m -Sm| > e).
La série X„ convergeant en probabilité, la suile de termu .général S„ est de Cauchy
eu probabilité. Pour >/ ^ 0 donné, on peut alors choisir un entiei NE -n tel que l'on ait.
pour tout m >. Nfi.^,
P(|Smfr — S^+jt | > e) S r\ dèsqueo •= k < r , (10.24)
soit encore :
l-?l<. P(\Sm + r - Sm+k\ s^e) dès que () < k $ r.
Pour un tel choix, on a donc
\-q$ min P(jSm).r-S^+aI .1't).
I ^k -<r
et. par les inégalités (10.23) puis (10.24),
P( max |Sm+A -S„, + r[ > 2e) 5= y-^ P(|Sm+, - Sj > e) £ j^-
L'égalité (10.22) faisant intervenir une suite croissante d'ensembles, il vient
P(AW •> r) = Km P( sup \sm+k - S,„| >
I JíhRUCE U).l I
i27
II en resulte que, pour tout m > Non a
ü == p[ f| f Ap > f;)] $ P(A„, > p) s yA- .
Lu conclusion, on a montre que, pour tout r¡ > 0, on a
il' qui démontre que, pour tout e > 0. on a PfPlpeN* (Ap > s)] = 0. Il résulte alors
de l'inclusion (10.21) que P(A ^ 0) = 0, c'est à dire que la série de terme général
\„ converge P-p.s.
Remarque. La réciproque étant toujours vraie, on a bien équivalence des
convergences en probabilité et P-p.s. de séries de variables aléatoires indépendantes.
Exercice 10.11. Inégalité de type grandes déviations : inégalité de HoelTding.
1. Soit X une variable aléatoire réelle P-p.s. bornée par I. c'est à dire telle que
|x] :-¿ I P-p.s. : on suppose que X est centrée.
(îj) Soit un réel / quelconque. Justifier l'inégalité de convexité suivante :
V.v e [-1, 1] exp(i.ï) S ^(1 -x)exp(-t) + 1(1 + -r)exp(/)
(h) Après avoir justifié Pexistcnce de la moyenne de la variable aléatoire exp(iXt.
en déduire l'inégalité
Eexpl/X)^ i(exp(-/) + exp(/)).
Démontrer alors l'inégalité
Eexp(/X)$exp(^); (10-25)
(ou pourra comparer les termes généraux des développements en série entière
des fonctions concernées).
2. On considère une suite CX-n)nçn* de variables aléatoires réelles indépendantes,
bornees P-p.s. et centrées: on suppose que |X^¡ ^ c„ P-p.s., avec cn > 0. On note,
pour tout h G N*,S„ = xj-
(a] Démontrer que. pour tout /, on a
E exp(/S„) Í exp(- £ ¦ (^b)
s = \
10. La fond ion / h-> fc" expj/X) est appelée transformée de La plan; on fonction généiülnce
de la variable aléatoire X.
128
chapitre io. convergences et lois des grands nombres
(b) Déduire alors de l'inégalité de Markov que, pour tout t > 0 et tout s > 0, on a
2 "
P(S„ > s) ^ exp(-re CJ2) ¦ (10-27)
(c) En minimisant en t le second membre de l'inégalité (10.32), en déduire que,
pour tout £ > 0, on a l'inégalité
P(S„ > s) $ eXp(--—i—-j) . (10.28)
(d) Démontrer alors que. pour tout s > 0, on a l'inégalité de Hoeffding :
P(|S„| > b) $ 2 expf- f 2) . | (10.29)
V ^2w = t(V
(e) Soit a > 0. On suppose que la suite de terme général cn est telle que
£;=1f2^«2a-^où^>o.
Démontrer que, pour tout e > 0, la série de tenue général P(|S„| > nas) est
convergente. En déduire que
P (J limsup(|S„| > nae)} = 0;
que dire alors de la convergence P-p.s. de la suite de terme général n aS„ ?
3. On suppose de plus que les X„ ont la même loi triangulaire, ou plus précisément
qu'elles admettent la densité g définie par
?(x) = l[o,i]([*|)
(a) Calculer, pour tout réel r, E exp(rXi).
(b) Démontrer que l'application <E> : t h» E exp(rXt) est indéfiniment derivable
et que l'on a, pour tout k € N*,
$?)(0) = B(X\),
En déduire la variance de S„.
(c) En utilisant les résultats de la deuxième question, démontrer que, pour tout
a > |,ona lim„ «""S,, = 0 P-p.s.
Solution.
i. (a) Soit f un réel quelconque. On remarque que, pour tout x tel que \x\ ^ 1.
on a
0^i(l-Jr)sl,0^^1+x)^l.et^(l-x) + i(l+x) = l:
exercice 10.11
129
puisque, de plus, on a l'égalité rx = 1(1 - x)(—t) + 1(1 + x)t, la fonction
x h» exp(ï.ï) étant convexe (sa dérivée seconde est strictement positive), on a.
pour tout x e [— 1,1],
exp(fx) 1(1 - x)exp(-t) + 1(1 +x)exp(t) .
(b) La variable aléatoire X étant P-p.s. bornée par 1, la variable aléatoire exp(ïX)
est bornée P-p.s. et admet donc une moyenne. De plus, d'après la question
précédente, on a P-p.s.
expp-X) ^ 1(1 -X)expf-f)+ ^(1 +X)exp(0.
11 en résulte que
E exp{tX) ^ 1e(1 -X)exp(-f) + ~Efl +X)exp(0 :
la variable aléatoire X étant centrée, il vient
E exp(fX) l(exp(-t) + exp(f » = ch(0 ¦
2
On a
mais, pour tout n € N, on a
ni 2" = 2-4-.-2n ^ (2/i)L
ce qui démontre l'inégalité ch(r) ^ exp(—).llen résulte que
E exp(/X) ^ exp(—j .
(10.30)
2. (û) Soit t quelconque. En appliquant l'inégalité (10.30) à la variable aléatoire
on a, pour tout t'
E«p(,'£)se*p(Ç).
et, en prenant t' = tc„, il vient
Eexp(ïX„) ^exp(yc^j.
Par ailleurs, les variables aléatoires exp(rX„) étant indépendantes, on a
n
E exp<fS„) = J~[ E exp((Xj):
y'=i
CHAPITRE [0. CONVERGENCES ET LOIS DES GRANDS NOMBRES
on a ainsi démontré que, pour tout t, on a
2 «
/ î
E exp(rS„) ^ exp(—
./ = 1
(10.31)
(/>) Soient t > 0 et t > 0 quelconques. La fonction .v i-*- exp(/x) étant croissante,
on a
(S„ >e)C (e\-p(rS„) > exp(r^)) ;
il résulte alors de l'inégalité de Markov que
P(S„ > e) P(expUS„) > exp(/e))
E exp(/S„)
et. d'après l'inégalité (10.31). que
P(Sa>fc-)£exp(-,,-+Ç£t-3).
(10.32)
/ = t
(t ) Soit e > 0 quelconque et soit a = ^Z" = [ t'j In fonction t a'-j — te atteint
son minimum pour t = e/a > 0; ce minimum vaut —e2/2a. L'exponentielle
étant (strictement) croissante, il vient
/2 '' 2
P(S„ > 0 < exP[mio(~/fi tj)] = exp(-^f—^) . (10.33)
2 T" c2
Z - 7 = 1 S
((/) Soit £ > 0 quelconque. On a les égalités
<|S„| >e) = fS„ ^ s) U (S„ < -r.) = (S„ > £) L» (-S„ > r),
et donc l'inégalité
P(|S„| > e) $ P(S„ > e) + P(-S„ > s) .
Appliquant l'inégalité (10.33) aux variables aléatoires —Xn, il vient
P(-S„ ,f) sexp{-~r-2r
Il en résulte que
2
P0SB|>e)-<2cxp(-^—
(10.34)
KCICK 10. I I 131
P(|S„| > flV) s= 2 exp(-—^—5) .
(<•) Soi! / > 0 quelconque ; prenant f — /7"«' dans l'inégalité ( 10.34), il vient
soit, puisque £^=1 cj 5 n2a_/i.oii £ > 0.
P(|S„| > nV) * 2 exp(-f'V) . (10.35)
La série de terme general exp(— e 2np') est convergente : en effet, à partir d'un
certain rang, on a
£2n& S 2In/;, et donc, 0 $ exp(-e'2/ï^) < n~2 .
De Tinégalilé (10.35) résulte alors la convergence de la série de terme général
P(|S„| > //'V). et lelemmede Bore! Cantclli assure alors que
P[lunsup(|S„| > nV)] = 0.
n
Puisque q+* est dénonibrable, il en résulte que
p[ |J limsup(|S„| > nas)] = 0,
On a donc, eu passant au complémentaire,
p[ pl liminf(|S„| S nae)~\ = 1.
e€Q+*
ce qui veul dire que la suite de terme général n~aS,; converge P-p.s. vers 0,
3. (a) Soit ( quelconque. On a, par le tliéorème de transfert et le théorème
d'intégration par rapport à une mesure à densité,
Hexp«Xi)= / exp(M)(/PxU) = / exp(rx) l[0,i](|xj) (1 - \x\)dx ,
S01t
E e\p(rXi) = J exp(/a't (1 + x) dx + J cxpiv.v) (1 - x) dx ;
en faisant le changement de variables y = — x dans la première intégrale, et en
regroupant, on obtient
E exp(fX,} = f [e-xp(-fx) + exp(fjt)] (I - x) dx ,
soit
E exp(/X,} = 2 f ch(rx)(l - x) dx .
Jo
< H Al'l'l RT 10. C0NVLI,'(,LMI.S l"l LUI S DES (1U AN OS NOMBRES
Si t = 0, E exp(/X, ) = 1 ; si t ^ 0. une intégration par parlies donne alors
E exp(;X0 = 2 (1 -x) — +/ —— tlx \,
Ll / Iû Jq i J
soil
( chin - I
t- /,v v 2 Si / ^ 0 ,
I si/=0.
L'application t \—r cxp(/Xi ) est indéfiniment derivable et on a. pour tout k G ! !
el tout t e K,
|xfcxp(rX,)| ^exp|E| P-p.s. ;
le théorème de dérivation d'une intégrale dépendant d'un paramètre
(corollaire du théorème de convergence dominée) assure que O est indéfiniment
derivable et que l'on a, pour tout k e II*,
en particulier on a
Il en résulte (formule de Taylor-Young) que, pour tout n e N*.
k=\
en particulier, pour" = 2.
k=\
*(/) = I +/EI.X0 + — E(X2) + o(ï2)
Puisque par ailleurs on a. d'après l'expression de <î>.
<!>(/) = 1 + 2- +o{t2),
par unicité du développement limité, on retrouve que E(Xj ) = 0, et on obtient
que
a2 = E(xf) = 2-2- = -;
X| V 1 4! 6
les variables aléatoires X„ étant indépendantes de même loi. ou a alors
i Kl.Ri WE H). I 1
(c) On peut prendre, dans ce cas, r„ = 1 pour lout 11 c N *. On a alors Yl'} = \ c] ~
n et. pour réaliser la condition de la question I.e., il suffit de trouver /S > 0 tel
que 1 = 2a — fi > 0 ; si a > \, — 2a — I > 0 convient. Il en résulte que.
pour tout û- > j.ona lim„ n_"S„ = 0 P-p.s.
Remarque. Comme on le verra au chapitre 14. il résulte du théorème limite
rentrai que. pour tout .v e M.
autrement dit la suite de terme général n - S„ ne converge pas P-p.s. vers t).
Chapitre 11
Probabilités et espérances
conditionnelles
11.1. Noyaux et lois conditionnelles
Nous avons vu (chapitre 4 du tome 1) comment définir la loi
conditionnelle d'une variable aléatoire Y par rapport à une variable aléatoire discrète
X ; il est évident que ce procédé est impossible à mettre en œuvre dès que X
n'est plus discrète, en raison de l'impossibilité de diviser par zéro. Dans ce
chapitre, on introduit la notion de noyau ou probabilité de transition pour
définir les lois conditionnelles dans un contexte général.
Dans la suite, (E.£) et (F. 3r) désignent deux espaces probabilisables
quelconques.
Définition 11.1. Une application v de E x 3+ dans [0, 1] est appelée noyau (de
probabilité) sur E x 37 ou probabilité de transition de (E, G) vers (F. 3r), si
elle satisfait les deux propriétés :
(i) pour tout x e E, l'application v(x, ¦ ) est une probabilité sur (F. !F);
(ii) pour tout h e 5% l'application v(-, B) est une fonction G-mesurable.
Exemple 11.1. Soit P une probabilité .sur (F. 3r) ; l'application v de E x T
dans [0, 1] définie par
VB e F v(-,B> = P(B)
est un noyau sur Ex^.
Exemple 11.2. Soit p une application mesurable de (E, 8) dans (F. Sr). Si,
pour tout >• e F, on note Sy la mesure de Diracen y, l'application v de Ex3*
dans [0,1] définie par
Vx e E v(x, ¦) = Sp{x)
est un noyau sur E x T ;la mesunibilité, pour tout B e 3?, de v( ¦, B) résulte
de la relation v( ¦, B) — Ib o p.
Exemple 11.3. Soii /' une application de E x F dans E+, Ë <g) 3r-me sur a ble
et soit p une mesure positive sur (F, 3*). Soit de plus une probabilité p sur
*35
chapitre ! i. probabii ! tes et espérances conditionnelles
(F, 'F). L'application v de E x y dans [0, 1] définie en tout (x. B) e E x f
par
est un noyau sur Ex
La première propriété est évidente. La nicsurabilité pour tout B e 37
de i>(-,B) s'obtient en utilisant un résultai intermédiaire du théorème de
Fubini qui assure la mesurabilité des applications x v-* fh f (x, y)dp(y) et
x ^ S¥f(x.y)dp(y).
Remarque. Si fF f{x, y)dp(y) e]0,+oo[, l'application B v-> u(.v,B) est
la mesure de densité f(x, -)/ f¥ f(x, y)dp(y) par rapport à p. Un cas
particulièrement utilisé est celui où E — E" et F — M"\ ces espaces étant
munis de leur tribu borélienne et la mesure de référence p étant la mesure
de Lebesgue sur R"\
La donnée d'nn noyau et d'une probabilité permet de définir une
probabilité sur l'espace produit :
Théorème 11.2. Soit X une probabilité sur (E, G) et v un noyau sur E x 5".
Soit X ¦ v l'application définie sur la semi-algèbre des pavés, notée abusivement
8 x par
L'application X ¦ v est o -additive sur 8 x T ; il existe un prolongement unique
en une probabilité sur l'espace probabilisable produit (E x F, 8 <gi 3^) encore
notée X • v-
Démonsiration. On applique le théorème d'existence et d'unicité d'un
prolongement d'une fonction a-additive sur une semi-algèbre en une
probabilité sur la tribu engendrée. Démontrons la a-additivité de X ¦ v sur la semi-
algèbre 8 x 37. Soient A x B e 8 x $ et (A„ x B„)„eH C 8 x f une suile
d'ensembles disjoints telle que
JB f{x,y)dp.(y)
P(A',B) - l jFf{X,y)dp(y)
. P(B)
si fp /(¦*. y)dp(y) e]0, +oq[ ,
sinon,
(11.1)
ce qui est équivalent à
V(.v. v) G Ex F l|AxB)(.v.y) = ^lA„(.v)lB„Ci').
1.1. NOYAUX El 1-OlS CONnillONNELLFS
137
intégrant, à x fixé, en v par rapport à la probabilité v{x, ¦ ), il vient :
+00
VieE lA(x)y(x,B) = ^lAii(x)y(x.B„).
Reste à intégrer par rapport à la probabilité X et à utiliser la c-addiiivité de
l'intégrale ;
/ la(a'Mx,B) dX(x) = y[f lan(*)v{x.BJdX(x),
c'est-à-dire : +0Û
X ¦ y(A x B) = J^A ¦ v(A„ xB„). ?
Remarque. 1. Dans l'exemple 1 1.1, la mesure X • v est alors la probabilité
produit A (g) P.
2. Dans l'exemple 11.2, la mesure A ¦ v est définie par
VAxBe^xf X ¦ t-(A x B) = / 1B o p dX .
3. Dans l'exemple 11.3, si p est une mesure c-finie, la mesure A ¦ v est
définie en tout A x B e G x !F par
A ¦ u(A x B) = / li^ll d(X <8> p)(x, y) + A(A n Cc)p(B),
où g est définie par
VxeE g(x) = J f(x.y)dfi(y).
cl
C = {*eE|*(.v)e]0,+oG[} .
Si A(C) - 1. on a A g> //[(A n C) x B] = A <8> //[A x B] et la mesure A ¦ v est
définie par
VAxBeêxf A - p(A x B) = / ~p- àX % p(x. y).
Jaxb
C'est alors une mesure à densité par rapport à la mesure produit A ® p.
Notation. Selon le contexte, si / est une fonction sur F intégrable par
rapport à la probabilité v(x. ¦ ). son intégrale est notée indifféremment
u(.ï. /) ou fpfiy) "(-*. dy) ou encore vf(x).
On donne maintenant un théorème d'intégration par rapport à la mesure
A ¦ v qui généralise le théorème de Fubini (lequel correspond au cas de
l'exemple 11.1).
chapitrp ]]. prorabili tés et espérances conditionnelles
Théorème 11,3 (Théorème de Fubiui généralisé). Soit f une application
mesurable de l'espaceprobabilisableproduit (E x F, 8 <gi 3<) dans (M.
(a) Si f est positive, l'application x h> jF f{x, y) v(x, dy) est 8-
mesurable et on a
/ / dX-v - \ / f(x,y) v(x,
Jexf Je Uf
dy)
dX(x). (11.2)
(b) Si f est X ¦ v-integrable, alors pour X-presque tout x, l'application
partielle f(x, -)est v(x, ¦ )-intégrable, et l'application définie pour X-presque
tout x par [F f(x. y) v(x, dy) est X-intégnibh et l'égalité (112) est encore
vraie.
Démonstration. La démonstration est standard :
(a) La famille de parties
^-{AeʫJ|iK v(x, A2) est ^-mesurable},
où A2, est la section 1 en _v de A, est un X-système ; en effet,
- pour tous A. B de S tels que A C B. on a A2. C B2 et (B\ A)2_ = B2X\A2X
et donc, v(x, ¦ ) étant une probabilité.
v{x,<p\A)2x) = v{x.Bl)-v{x,A2x);
l'application x \-> u(a. (B \ A)2) est alors ^-mesurable et on a ainsi
B\Ae$.
- Pour toute suite croissante (A„)„eN d'éléments de S, on a, pour tout
h € N.fAJÎ C (A,( + i);et [U^A,,]' - LUnÍAO* ; v(x, ¦ ) clam
une probabilité, il vient :
¦(*> [U A«]") = H,m s v(x> <A»)x) ;
new
l'application x m- v(x, [{J„eU A„]^) est alors ^-mesurable et U»ew A" e
S.
Il est évident que 5 contient le jr-système des pavés 8 x et donc la tribu
8 (¿i 'f engendrée par 8 x T. On vient de prouver que S — 8 <g .T. c'est-à-
dire encore que l'application x h-* jF f(x. y) v(x, dy) est £-mesurable pour
tout f fonction indicatrice d'un ensemble A e Ê®i",et aussi, par linéarité,
pour toute fonction mesurable étagée. On obtient le résultat, pour toute
fonction mesurable positive, en prenant une suite croissante de fonctions
étagées positives convergeant simplement vers /. On peut alors délinir,
pour toute fonction mesurable positive /. l'élément de R+ :
1. Si A e ¡PiE x F), on définit les -¡eclinns éventuellement vides : A|. —
{x e F I (,T.y) e A), si r e F.el A; = {y G F J [y.y) e A), si v E E.
i 1 I NUV^L'X ET LOIS CONDITIONNELLES
*(/) = fjfFf(*>y) »<x¦<*>')] dX(x).
<l> est une intégrale qui coïncide, par définition de A ¦ v, avec l'intégrale
/ \-r fhxFf d(X ¦ v) sur l'ensemble des fonctions indicatrices des pavés
mesurables ; elles sont égales.
(b) Si / est A ¦ u-intégrable, l'égalité (11.2) est encore vraie pour ]/|,
ce qui démontre que pour A-presque tout x, l'application partielle f(x, ¦)
rsl v(x, ¦ )-intégrable, et que l'application, définie A-presque partout. \ \->
/, fix.y) j'( v. dy) est A-intégrable. L'égalité (11.2) est aussi vraie pour /+
11 /~ ; alors, par définition de l'intégrale de / par rapport à la mesure A ¦ v.
i ut a
f fd(X-v)= f f+d{X-v)~ f f-d[X-v)
.'Ex F Jtx F ,/ExF
- f\[fj+(x,y)v(x,dy)]dX(x)-j^jj~(x,y)v(x,dy)]dX
= / [f(x>y^v(x'dy>>]dl(x)'
?
Corollaire 11.4. Avec ¡es notations du théorème 11.3, f application définie sur
:i~ par
VB € y p(B) = J v{x. B) dX(x)
est une probabilité sur l'espace probabilisable (F, T). Soit g une application
mesurable de l'espace probabilisable (F, T) dans (?., ¿B^).
{a) Si g est positive, on a
jYgdp = J^>(x,g)dX(x). (11.3)
{b) Si g est de signe quelconque et p-intégrable, l'application v{-.g)
est définie X-presque partout, égale X-presque partout à une fonction G-
mesurable et l'égalité (11.3) est encore vraie.
Remarque. On peut obtenir sans difficulté une version du théorème 11.2 et
de son corollaire dans le cadre des t'oactions à valeurs dans M.1* ou un espace
euclidien.
Dans ce qui suit, X et Y désignent deux variables aléatoires à valeurs
respectivement dans les espaces probabilisables quelconques (E, G) et (F. y").
Si X est discrète et si G contient les points, c'est-à-dire si tout sin (Jeton
est un élément de 8, définissons le noyau v sur Exi par
U( c _ , D, J P'^'fYeB) sixeval(X)
I P(B) sinon,
140
CHAPITRE I i. probabilités et ESPERANCES CONDITIONNELLES
où p est une probabilité quelconque sur (F. 37). Remarquons que val(X) =
{x ç E j P(X — x) y£ OJ, réunion dénombrable de singletons, appartient
alors à S et que Px[val(X)] — 1. Pour lout A € S et B e F, on a
P[(XtA)n(YeB)] = ]T P [(X — x) fi (Y g B)]
^€val(X)nA
- J2 v(x,B)Px{{.v});
xeval(X>nA
puisque la probabilité Px s'écrit
jteval(X)
il vient
P(x,y)(AxB)- j v(x,B)dPx(x),
ce qui est équivalent à P(X,y> = Px ¦ v. Cette relation sera le point de départ
pour définir une loi conditionnelle dans le cas général.
Définition 11.5. On appelle loi conditionnelle de Y sachant X un noyau v
sur E x y tel que
P(x,Y} - Px ¦ v ¦
On la note souvent Py ' et la formule de définition s'écrit ainsi :
P(X.y) = Px ¦ PC- - (11.4)
Exemple 11.4. Si A et p sont des mesures ct-finies respectivement sur (E. G)
et (F.37), et si P(x.y) — / ¦ (A (8> p)- où / est une fonction mesurable
positive sur (E x F, G (g> 37) de A (8> /i-intégrale 1, le noyau v défini dans
l'exemple 11.3 est une loi conditionnelle de Y sachant X. L'application
x m. fF /{x, y)dp(y) n'est autre que la densité de Px par rapport à A.
Définition 11.6. Dans le cas où E = JRrt et F — Wm, munis de leur tribu
borélienne, si v est une loi conditionnelle de Y sachant X telle que, pour Px-
presque tout x e M", v(x, •) est une mesure de densité _f^~x par rapport à la
mesure de Lebesgue de Mm, on dit que f*=x est une densité conditionnelle
de Y sachant X — x.
Exemple 11.5. Cas particulier usuel : E = R" et F = R"1 munis de leur tribu
borélienne, les mesures de références étant les mesures de Lebesgue sur ces
espaces.
Supposons que (X, Y) admette une densité /(x,y> ; X admet alors une
densité /x et pour toute probabilité p sur (Rm, <Sr>"), le noyau v défini pour
(x, B) e R" x Smm par
1 i.i. noyaux ET lois l'on DJ J jonnelles
141
v(x,B) =
7(x,y)(-v. v)
fx(x)
P(B)
dXm(y) si /XU)>0,
si /x(-*) = 0.
est une loi conditionnelle de Y sachant X (c'est un cas particulier de
l'exemple 11.4). Si fx(x) > 0, la mesure v(x,-) admet Ja densité
ti\.Y)(x, -)/fx(x) par rapport à la mesure de Lebesgue Xm. La marginale
Y admet donc une densité conditionnelle par rapport à X (ou sachant X)
notée /Yx='qui vérifie, pour tout (x, y) € (Rn x Rm) tel que /x(jc) > 0 :
f(X,Y)(x.y)
fx(x)
(11.5)
Inversement, si. pour Px-presque tout x e M", il existe une densité
conditionnelle de Y sachant X = x, notée fy=v, et si X admet une densité
/k. la variable aléatoire (X, Y) admet une densité f<x.v) qui vérifie, pour
P(x,y)-presque tout (x, y) e M" x 1*' :
/(x,y)(*,:v) = /x(*)/yx^O0.
(11.6)
Ln effet, par définition de la loi conditionnelle, on a alors, pour tout A e
:BKn et B € Se/.. :
P(x,v)(AxB)= /"[/" /^=J:(>')û?Am(3')]/x(-v)rf^(j:)
a jb
ce qui donne le résultat après application du théorème de Fubini.
Montrons comment ces deux situations peuvent apparaître
simultanément. On considère deux variables aléatoires réelles X et Y indépendantes,
de même loi exponentielle exp(X) ; on note S = X + Y et on cherche une loi
conditionnelle de X sachant S (X et Y représentent par exemple les temps
d'attente de deux clients arrivant indépendamment à un guichet).
En raison de l'indépendance de X et Y, la variable aléatoire (X.Y)
admet une densité produit direct des densités des marginales, et par le
changement de variables (de jacobien 1) défini sur M2 par
x — t
y=s-l .
la variable aléatoire (X, S) admet une densité /(x,s> donnée par
V(t.s) el2 /(x,s)(M') - /x(0 Mt.s-t).
11 en résulte que (résultat déjà vu par ailleurs) S admet une densité /s
donnée par
V s €
M*) = 1r+(-0 X2sexp(-Xs),
142
CHAPITRE I I. I'ROBABlI.nr.S ET ESPÉRANCES CONDITIONNELLES
et. que, pour tout s > 0, X admet une densité conditionnelle sachant S — s
donnée, après réduction, par
As=s(-0 = jW*).
Ainsi, pour tout s appartenant à l'intérieur du support de la loi de S, la loi
conditionnelle de X sachant S est la loi uniforme sur l'intervalle [0, ,v].
Un exemple concret va montrer que l'on a bien défini une notiou de loi
conditionnelle qui correspond à Piutuition.
Exemple 11.6. La variable aléatoire (X, Y) représente un point aléatoire
tiré au hasard dans le carré [0, autrement dit, (X, Y) est une variable
aléatoire de loi uniforme sur [0, l]2 et a pour densité l[0,i]2- On note S —
X -f Y et l'on cherche une loi conditionnelle de X sachant S (noter que X et
Y sont alors indépendantes de même loi uniforme sur [0, 1 ]).
On est dans la même situation que dans l'exemple précédent, mais
avec une loi différente. On développe le calcul plus en détail; soit T le
difféomorphisme de R2 sur lui-même défini par
V(x, y) e R2 T(x. v) - (x. x + y).
Son inverse est donné par
V(w,,v) e R2 T"'(w,,t) - (u,A--w);
le jacobien du difféomorphisme est de valeur absolue 1 et l'on a (X. S) —
To(X, Y). La variable aléatoire (X, S) admet donc une densité /(x,s) donnée
par
V(m,.v) e E /(x,s)(w,y) - /(x,Y)(w,.y-u),
soit
V(u,s) e IKr /(x]s)(m,J) = 1lo.i](«) 1[o,i]Cs -
La marginale S admet alors la densité donnée par
V.veK /s(.v) = / /(X.s)(i/^-)^"= / 1[0,,](w)1[o,,](-v-h)./I(.
Jr Jw.
En décomposant le produit d'indicatrices sous la forme
l[o,i](w)l[o,il('V - m) = 1[0,i](j)1[o.*](m) + l]i;2]C01[.v-i,i](w) >
il vient :
V.s G R Ms) = sl[0A]{s) + (2 - s)lM(s).
La loi de S est la loi triangulaire. Pour tout s de l'intérieur du support de
/s, la variable aléatoire X admet une densité conditionnelle sachant S = s.
/x=î, donnée par
ii I. NOYAUX RI" LOIS CONDITIONNELLES
'43
Vjr g R /x=sU) -
- 1[o.í]U) si 0 <s'í I
1
2 - .v
I a variable aléatoire X admet donc comme loi conditionnelle sachant S = s
la loi uniforme sur [0, s] si 0 < s < I, sur [.v — 1,1] si 1 < a < 2, résultat bien
naturel.
exemple 11.7. Si X et Y sont deux variables aléatoires indépendantes à
valeurs respectivement dans les espaces probabiljsables quelconques (E, S)
ci (F. T), le noyau « constant » v défini par
Vx g E i'(x, ¦) = PY
est une lui conditionnelle de Y sachant X.
En effet, X ei Y étant indépendantes, on a P<x,y) = Px ® P\- ce qui peut
s'écrire, pour tout A g G et B g T :
P(x,yi(AxB) = / v(x.B)dPx(x).
.'a
Remarque. Il est évident que tout autre novau r' sur E x 3< qui vérifie, pour
lout B g 7, v'( •, B) = , B) Pxps. est encore une loi conditionnelle
de Y sachant X. I| n'y a donc pas unicité de la loi conditionnelle. Se pose
maintenant le problème de l'existence. Celui-ci est partiellement résolu dans
les exemples ci-dessus. Nous donnons à titre d'information un théorème
assez général d'existence ; sa démonstration sort du cadre de ce livre.
Théorème 11.7 (Théorème de Jirina). Soient E et F deux espaces métriques
separables complets (en particulier des espaces euclidiens) munis de leur tribu
borélienne et XetY deux variables aléatoires à valeurs respectivement dans
E et F ; il existe une loi conditionnelle de Y sachant X.
Donnons une version du théorème de Fubini généralisé en termes de lois
conditionnelles, aucune démonstration n'étant nécessaire.
Théorème 11.8. Soit (X, Y) une variable aléatoire à valeurs dans un espace
probabilisable quelconque (ExF, G(&£) telle qu'existe une loi conditionnelle
Py=" de Y sachant X. Soit f une application mesurable de l'espace
probabilisable (E x F, G ® r) dans (I, %).
(a) Si f est positive, l'application s i-» Jv f(x, y) d Py=v(y) est G-
mesurabh' et on a :
J ^ f dP(x,Y) = fjfF /U. v) d P'v=*(.y)] dPx(x). (11.7)
144
CHAPITRE II. I'K0BAB|L| l'KS F.ï ESPÉRANCES CONDITIONNELLES
(b) Si f est de signe quelconque et P'(x,Y)-integrable, pour ï*x.-presque
tout x, l'application partielle f(x. -) est Py=x-integrable, et l'application
définie P\-presque sûrement par x i-v jFf(x.y)dl>*=x(y) est ?\-intégrable
et l'égalité (77.7) est encore vraie.
Il en résulte un théorème de transfert « conditionnel » qui est souvent
utilisé dans les calculs de lois conditionnelles.
Théorème 11.9 (Théorème de transfert conditionnel). Soit (X, Y) une
variable aléatoire à valeurs dans l'espace probabilisable (E x F, 8 & telle
qu'existe une loi conditionnelle v — P^=l de Y sachant X. Soit f une
application mesurable de (E x F, 8 ® F) dans un autre espace probabilisable (G, tt).
Une loi conditionnelle de f(X, Y) sachant X est donnée par le noyau p en
termes de mesure image par
Vx e E ?. -) = f{x, -)[v(x, •)] ,
ce qui peut s'écrire de manière plus suggestive :
Vx e E
pX =x . pX=.i
r/(X,Y) - rf(x,Y)
En particulier, si X et Y sont indépendantes, on a :
Vx e E
(11-8)
(11.9)
Démonstration. Pour tout A e 8 et tout B e ~§, on a, avec les notations
habituelles, et en utilisant le théorème 11.8 :
P(x,/(x.v»(A x B) = P(x.y>[(A x F) n /"'(B)]
= j J h\xr(x.y)lf-içi)(x,y)v(x,dy)] dPy(x).
Mais on a
ï(x.y)lf-iiB)(x,y) = lA(x)l
[/<*,.)]-'<B)
00.
ce qui donne, par définition de la mesure image fi(x, •) de v(x, •) par
P(x,/(x,ï))(AxB)= / M(x,B)<7Px(x). ?
Ja
Les deux exemples suivants illustrent les différentes notions et
théorèmes introduits jusqu'à maintenant dans des situations non standards où les
lois et lois conditionnelles sont des mélanges de lois à densité et de mesnres
ponctuelles (pondérations de mesures de Dirac).
I 1. NOYAI.! \ KT LOIS CONDITIONNELLES
exemple 11.8. Soient (X, Y) une variable aléatoire à valeurs dans (M2, ^2)
ci h e]0, |j. On suppose que X est de loi nnifornie sur l'intervalle [0,1]. On
note A la mesure de Lebesgue sur R. On considère les deux cas suivants :
- Cas 1. Une loi conditionnelle P* = de Y sachant X est donnée par
Va- 6 [0.1] Py=v - 1(M, -X-T-eSt,
c'est-à-dire que la probabilité P^=> est mélange de la probabilité
uniforme sur l'intervalle [e, 1] et de la masse de Dirac en x.
- Cas 2. Une loi conditionnelle Py=' de Y sachant X est donnée par
Py- =
l[e,i] ¦ A -f e8x Va- 6 [0.e[
t/([0, I]) V.v e[e,\[.
c'est-à-dire que, si 0 ^ x < e, la probabilité Py=* est encore mélange
de la probabilité uniforme sur l'intervalle [f. I] et de la masse de Dirac
en x et si e < a < 1, Py=< est la loi uniforme sur [0, 1].
Ou étudie dans ces deux cas la loi de la variable aléatoire Y. Par définition
d'une loi conditionnelle, on a, pour tous boiéliens A et B de ŒL
P<x,Y)(AxB) = j pX=*(B)dPx(*),
soit ;
- Cas 1.
P|\.y)(AxB) = j li(),,](a)[A(Bn[f.l]) + ab(a-)] dX(x) ,
ce qui peut s'écrire
P(x,y)(A x B) = A(A n [0, 1J)A(B n [e, 1]) + eX{A n B fl [0, 1]).
La loi de Y est obtenue en prenant A = E, soit, VB e £Îr :
PY(B) - A(B n [f, 1]) + eX(B n [0. 1]) - f [l[e „ + ^o,,]] dX .
Je
La variable aléatoire Y admet donc une densité J'y donnée par
A - + fl[0,L] ¦
ou encore :
fy = el[0,£[ -f (1 + f) l(e,q .
Cas 2.
P(x,y,(A x B) — f l[0,q(a)[A(B fl [e, 1]) -f e 1b(a )] dX(x)
JAnfO.el
f llQA](x)X(Bn[0J])dX(x),
JAn[fi.lf
/An[0,e[
CHAPITRE II. PROBABILITÉS El ESPÉRANCES CONDITIONNELLES
ce qui peut s'écrire :
P(x.v)(A x B) — A (A Pi [0, e[) A(B n [p. 1]) + eA(A n B n [0. e[)
+A(An[f,I])A(Bn[0.1]).
La loi de Y est obtenue en prenant A = R, soit, après simplifications.
VB 6 Pv(B( = A(Bn[0,1]).
La variable aléatoire Y est donc de loi uniforme sur l'intervalle [0. 1].
Ceci est donc un exemple de variables aléatoires X ei Y, chacune de
loi uniforme sur l'intervalle [0. 1], el telle que la loi du couple (X. Y)
n'est pas la loi uniforme sur le carré [0. I]'.
On calcule dans ces deux cas la covariance des variables aléatoires X et Y.
Les variables aléatoires X et Y sont bornées par 1 ; par le théorème de
transfert, l'application {x.y) \-r xy est donc P^Yrintégrable el l'on peut
appliquer le théorème 11.8. ce qui donne
E(XY) = j[J xydpX=x(y)]dPx(x).
soit :
Cas 1.
E(XY)= I x\[ ydX(y)+exh[0>l](x)dX(x),
et, en identifiant intégrales de Lebesgne et Riemann,
f1 1
H(XY) - / x[-(l-f-2) +ex] d\\
Jù
ce qui donne E(XY) = ^(1 - e2) + ^. Un calcul élémentaire donne
1 1 , e
EX=^ et EY=-(I-f2j+-;
en tenant compte de l'égalité cov(X. Y) = E(XY) - (EX)(EY) il vient
alors
cov(X, Y) =
12
- Cas 2. De même
E(XY) = / x\ ydX(v) +sx] dX(x)
J[0,£l LJ[t.l] J
+ i x\f ydX(y)}dX(x),
J[ea] LJ[0,H J
soit, en identifiant intégrales de Lebesgue et Riemann,
¦ i
E(XY) = | a\ -<1 - e2) -f f\]dx + ^ / xdx
11.2. MOMENTS CONDITIONNELS
147
ce qui donne après calcul : E(XY) = \ + ^. Les variables aléatoires X
et Y étant, dans ce cas, de loi uniforme sur [0, I], on a EX = EY = \.
ce qui conduit à l'égalité :
cov(X,Y) - —
11.2. Moments conditionnels
On définit, lorsqu'ils existent, les moments conditionnels.
Proposition 11.10 (Proposition et définition). Soient X une variable aléatoire
à valeurs dans un espace probabilisable quelconque (E, 8) et Y une variable
aléatoire réelle telles qu'existe une loi conditionnelle Py~ de Y sachant X. Si
pour un p 6 N*, Y admet un moment d'ordre p, alors, Vx~presque sûrement :
( \y\p </PY="(v) < -foc.
¦m
Si p = I, on appelle moyenne conditionnelle une fonction 8-mesurable
égale Yx-presque sûrement à mx=' — /R y dP*='{y).
Si p = 2, on appelle variance conditionnelle une fonction 8-mesurable
égale Px-presque sûrement à fv[y - jm y dP§=\y)Y dPy="(>')¦
Démonstration. Puisque, par hypothèse
E|Y|'' = S \y\p dP(x,Y){x,v) < -foc,
le théorème de Fubini généralisé assure que :
J^l \y\" dP*=x(y)\dPx{x) < +oo.
On obtient le résultat. ?
Remarque. 11 résulte du théorème de Fubini généralisé, puis du théorème de
transfert, que Ton a, pour loul C e 8,
J m^=xdPx(x) = ydp^x{y)]dpx(x)
= / lc(x)y dP(XiY)(x.y)
jex]r
j lc(X)Yi/P.
Jq
148
soit :
CHAJ'itre l ]. l'kobalili.IÏF.s et espérances conditionnelles
ve e e
m
Je
-L
Y dP.
X " i (C)
(11.10)
Autrement dit, la moyenne conditionnelle m§~' et la loi de X suffisent pour
calculer la moyenne de Y sur un élément quelconque X~'(C) de la tribu
engendrée par X.
Nous donnons un exemple de calent de moyenne conditionnelle.
Exemple 11.9. Reprenons l'exemple 11.8 et calculons la moyenne
conditionnelle de Y sachant X dans les deux cas envisagés.
- Cas 1. On a, pour tout x e |0. 1], w*=A' = j'[t n y dX{y) + fx. soit :
m
\=x
La moyenne conditionnelle de Y sachant X est affine sur [0,1].
Cas 2. Utilisant le calcul précédent, on a. pour tout x e [0. e\ :
m
y-1 = 2° -fc'2>+**-
Puisque, pour tout x e [e, 1]. on a
la moyenne conditionnelle de Y sachant X est afjine par morceaux sur
[0.1], avec une discontinuité en s ; elle s'écrit :
SX
Nous reprenons la situation du théorème de transfert conditionnel 11.9
et donnons une formule de calcul de lu moyenne conditionnelle très utile.
Lemme 11.11. Soit (X(Y) une variable aléatoire à valeurs dans l'espace
probabilisable (E x F, G & 71 telle qu'existe une loi conditionnelle v = Py='
de Y sachant X. Soit f une application mesurable de (E >. F, S <S> 7) dans
(E.Siî.). On suppose que ./'(X.Y) e Xl(Q,A,P). On a alors, pour Px-
presque tout x e E ;
'/(N.V)
Vl.v,v)
En particulier, si X et Y sont indépendantes, on a, pour P\-presque tout
x e E;
"r)^Y) = E[/(x,Y)]
11.2. MOM EN I S CONDITIONNELS
144
Demonstration. La définition de la moyenne conditionnelle '"/^'y, et
K- théorème de transfert conditionnel 11.9 permeltcnt d'écrire, pour Px-
presque tout ,v e E :
m^VÌ= / zdP^,(z|.
'* - [
/(X,Y) — J L urf(x.\)'
ce qui donne le résultat. Dans le cas d'indépendance, il suffit alors
d'appliquer la relation (11.9). ?
Nous terminons ce paragraphe en donnant une application de la notion
de moyenne conditionnelle an problème de régression. C'est un problème
de moindres carrés qui généralise celui de régression linéaire que nous avons
étudié au premier tome.
Le problème général : soit (X, Y) une variable aléatoire à valeurs dans
l'espace probabilisable (ExRê®^) telle qu'existe une loi conditionnelle
i1 = PÇ=" de Y sachant X, On veut estimer dans quelle mesure Y est
« voisine » d'une fonctionnelle de X. Celle formulation heuristique donne
naissance au problème de minimisation précis suivant auquel nous nous
limiterons :
On suppose que F est l'ensemble M muni de sa tribu borélienne (une
généralisation possible et simple est de prendre F euclidien) et que la
variable aléatoire Y admet un moment d'ordre 2. On cherche à résoudre
le problème de minimisation ;
mia {E [Y - foX}2 | / G £2{E. S,PX)} . (11.11)
Remarque. Pour interpréter géométriquement ce problème, transformons-
le en un problème de projection dans l'espace hilbertien L2(Q, A,P) :
admettons provisoirement que le sous-espace
nx = j./^X I / e £2(E,£,Px)j
est un sous espace fermé de L2(£2,-A,P) (/oX désignant la classe de
foX). Les solutions du problème (11.1 I) sont alors les représentants de
la projection orthogonale de la classe de Y sur nx.
Lemme 11.12. Le sous-espace I~IX est fermé dam l?(Q. A, P).
Démonstration. Soit une suite (fn)ne.s d'éléments de X2(E. 8, Px) telle que
la suite (/,oX)„e, converge vers Z G L2(Q,A.P). La suite (/„ o X)„erj
est bornée dans £2(Q,A.P) par un réel c > 0 cl il existe une sous-suite
(fnk)k£n telle que la suite (fnkoX)ken converge P-p.s. (vers un représennuvt
de Z) ; en particulier, si / = lim supfc f„h. la suite (fnh o X)k&{ converge
i5»
CHA PI I RE I (. PROBA (II i I'll S ET ESPERANCES CONDII HEM NEI I ES
P-p.s. vers / o X. On a, d'après le théorème de transfert et le lemme de
Fa ton :
f \f(x)]2 dP^(x) = ( [foX]2JP= ! \im[f„k oX]2 dP
Je ,/n Jsi k
Slim [ [f„k oXf d?^c,
k Ja
ce qui démontre que / e <Ï2(E. S, Px). Puisque de plus / oX = Z, le
lemme est démontré. ?
Proposition 11.13. La moyenne conditionnelle m^=' est une solution du
problème de régression (11.11).
Démonstration. 11 résulte du théorème de Fubini généralisé que, pour lout
/ e X2(E,8,PX) :
E[Y-/oX]2 = f[j[y-fix)\2 dP$=x(y)\ dPx(x).
Toute solution /„ au problème (11.11 ) vérifie, pour Px-presque tout x :
j[>-/o(x)]2</P,=,(y)=mm^
Il s'en suit que. pour Px-presque tout x, fo(x) doit être un point slalionnaire
du polynôme Q, du second degré en z :
Q(r) =z¿-2:
soit :
2= f y dP*=*(y),
fu(x) = J y ,/Pv = l(v).
et ce point correspond bien à un minimum. ?
11.3. Espérance conditionnelle
L'étude d'un phénomène aléatoire conduit, pour une certaine informa-
lion, à adopter comme modèle de base un espace probabilisé (Q, A, P). Si
l'information est « moins grande on peut être conduit à travailler avec
un espace probabilisé (Q, ÎÏ,P) oCi S est une sous-tribu de A, c'est-à-dire
une tribu telle que B C A; c'est en particulier le cas lorsque l'on étudie
des phénomènes aléatoires qui dépendent du temps, l'information
croissant avec le temps. Si Y est une variable aléatoire sur l'espace probabilisé
iQ.A, P), comment calculer sa moyenne sur des éléments de S.
uniquement à l'aide d'une variable aléatoire .©-mesurable ? L'espérance
conditionnelle, outil fondamental des probabilistes. permet de répondre à cette
ii/v espérance conditionnelle
151
question. On peut dire que son utilisation permet un calcul « progressif »,
comme on le verra constamment en étudiant les martingales (chap. 15) et
les chaînes de Markov (chap. 16).
Dans ce paragraphe, on se donne un espace probabilisé (Q, A.P) et une
sous-tribu S de A. On notera identiquement, sauf mention du contraire,
mie variable aléatoire X et sa classe X.
11.3.1. L'espérance conditionnelle comme projecteur orthogonal
I emiiie 11.14. Le sous-espace L2(Q, $,P) est fermé dans V espace hilbertien
L2(Q,-A,P). Le projecteur orthogonal sur L2(Q,S,P) est noté Es. La
projection orthogonale ESY ^ Y 6 L2(Q,A,P) est caractérisée par la.
relation d'orthogonalité :
Démonstration. Le sous-espace LZ(Q.S.P) est complet, donc fermé dans
\r{Q, A, P). La relation (11.12) est l'écriture de l'orlhogonalité de Y-EBY
Remarque. L'unicité de la projection orthogonale sur un sous-espace fermé
d'un espace hilbertien implique que Es Y est l'unique classe U de variables
aléatoires .©-mesurables qui satisfasse à la relation :
V Z 6 L2(£2,S,P) EÍZY) = E[ZU].
Cette unicité permet sonvent d'identifier l'espérance conditionnelle.
Définition 11.15. Si Y e L2(£2,-A,P) (classe de variables aléatoires), la
classe de variables aléatoires E®Y est appelée espérance conditionnelle de Y
sachant B. Si Y e £2(Q,A, P) (variable aléatoire), ESY est encore appelée
espérance, conditionnelle de Y sachant S et notée E^Y.
Remarques et notation. On parle donc indifféremment de l'espérance
conditionnelle d'une variable aléatoire ou d'une classe de variables
aléatoires, celle-ci étant toujours une classe. De plus, par abus de notation, s'il
n'y a pas risque d'erreur, E1® Y pourra désigner un représentant quelconque
de celle classe (souvent appelé version de l'espéranee conditionnelle). Pour
indiquer que LJ est une version de ESY on écrira
dans L2
(Ü,A,P)
V Z e L-(Q,£,P) E(ZY) = E[Z(E*Y)] .
(11.12)
au sous espace L2(Q, S,P).
?
U ¦= E Y P-p.s.
Proposition 11.16. Soit Y 6 L2
éi la relation 1
(Q, A, P) ; la relation (11.12) est équivalente
VBeS E(1BY) - E[1B(ESY)] ,
(11.13)
CHAPITRE II. P HO BAH 11 1 IKS r.T ESPERAN CPS CONCH1 ION MELLES
ce qui s'écrit encore :
VB g B
L
Yí/P
E Y dP.
(11.14)
Démonstration, Soit Y e L2(Œ,,A,P); ['implication (11.12) (11.13)
est évidente. Inversement, si (11.13) est vérifiée, par linéarité, (11.12) est
vérifiée pour toute variable aléatoire Z étagée ,S-mesurable ; l'ensemble
de ces variables aléatoires étant dense dans L2(!T2, ,S,P), on conclut par
continuité, les applications qui à Z g L2(!T2,,S,P) donne l'un ou l'autre
membre de l'égalité (11.12) étant, d'après l'inégalité de Schwarz, des formes
li néaires continues. ?
Remarque. L'espérance conditionnelle est donc encore caractérisée comme
l'unique classe U g L2{Q, £,P) de variables aléatoires ^-mesurables qui
satisfasse à la relation :
Noie préliminaire sur Tordre défini sur l'ensemble des classes de variables
aléatoires. La relation d'équivalence « égalité P-p.s. » est compatible avec
l'ordre partiel sur les variables aléatoires réelles (ou à valeurs dans R),
elle induit un ordre partiel sur les classes encore noté ^. En particulier, si
(Xn)„eN et (Y„)„çn sont des suites de variables aléatoires telles que
on a, puisque une réunion d'ensembles de probabilité nulle est de
probabilité nulle :
P-p.s. V/î g N X„ = Y„ .
On a alors les égalités P-p.s. entre variables aléatoires à valeurs dans M :
P-p.s. supX„ = sup Y„ et infX„ = irrfY,, .
Remarque. Il faut noter qu'il n'en est plus de même si on considère des
familles non dénombrables de variables aléatoires, les sup et mf pouvant
même ne plus être des variables aléatoires !
Proposition 11.17. L'opérateur Es est linéaire continu sur L2(£2, -A,P), de
norme 1. H est de plus positif, c'est-à-dire qu'il satisfait à l'implication :
Y £ 0=» E*Y 5 0.
En particulier, si Yj, Y2 g L2(!T2, A, P) sont telles que Yi ^ Y2, on a :
VB g B
V/i g N
P-p.s. X,
Y,
I I .3. espérance <" UN DI i ION N elle
153
Démonstration. Cesl une propriété îles projecteurs orthogonaux. La posj-
iivitc vieni de ce que si Y > 0, on a pour tout B e /B E^Y </P S 0. ce
qui est équivalent à dire que E^Y > 0. ?
Proposition 11.18. Soit Y € L2(Q. A, P). On a les propriétés suivantes :
{a) E[ESY] =EY;
(b) si Y est 3-mesnrabIe, on a E^Y — Y;
(c) si Z est 3-mesnrable et bornée, on a
E^fZY) = ZE^Y P-p.s.
(tl) « Théorème des trois perpendiculaires » : si ¡8 \ et 0j sont deux sous-
tribus telles que 351 c 33 2 :
E^'Y-E^' [E^Y] .
(11.15)
(e) \E®Y\£E*(\Y\).
(f) L'opérateur Es deL2(Q,A, P) dans L2(Q, 33,P) e¿/ í/í1 nonne 1 pour
/r.v normes L1, c'est-à-dire que l'on a, pour tout Y € L2(Q. -A, P),
E Y
IYI
(11.16)
Démonstration, (a) 11 suffit de prendre Z — 1, qui est bien 33-mesurable,
dans la relation (11.12).
(b) Y est dans le sous espace L2(Q, J3.P).
(c) Si Z est bornée. YZ e L2(Q, A, P) et. pour toutT e L2{Q. 33.P). on
,1 par définition de E^ÍZY) :
E^TEs(ZY)j = E [TZY] .
Mais ZT étant ¿8-mesurable, par définition de E^Y, on a
E [tEs(ZY)] - E [(TZ)Esy] .
ce qui peut se lire ;
e[tE*(ZY)] = e[t(ZEsY)] .
Mais ZE^Y e L2(Q. ,S,P), la première remarque permet de conclure.
(d) C'est une propriété générale des espaces de Hilbert (connue en
géométrie dans l'espace sous le nom de théorème des trois perpendiculaires).
L2(Q,iBi.P) étanl un sous-espace fermé de L2(Q, S2,P). Redémontrons
cette propriété dans ce contexte; pour tout Z e L2(Q, ¡8[,P>. Z est 332-
mesurable et donc r
E(ZY) - E Z(E 2Y)
154
CHAPITRE II. PROBA RI I l'if S FI rS ITERANCES CON |>11 ION N bl_ l.tS
Alors, par définition de ESl [ESz Y], on a
E(ZY) - E
ZE"
e^2yJj ,
ce qui démontre le résultat.
(e) L'espérance conditionnelle étant linéaire, utilisons la convexité de la
fonction valeur absolue en écrivant que c'est l'enveloppe supérieure de ses
minorantes affines; plus précisément, en ne prenant que les extrémales, si
a = {-]. U,on a :
Vx g M \x\ = sup(ax)
(cet argument de convexité sera repris plus loin pour établir l'inégalité de
Jenscn). On a alors
et donc
Va e A
P-p.s.
P-p.s. aE^Y = Bs(aY) 5 E^|Y|,
Va e A üEsY í ES|Y|,
?8,
ce qui implique :
P-p.s. |E^Y| = supfaE^Y
$ E^IYI .
(/) Il suffit d'intégrer la relation précédente.
?
11.3.2. Extension de la définition de l'espérance conditionnelle à
L1 (SI, ei4, P).
Proposition 11.11. Soit Y € L1 (Q. -A. P) ou X1 (Q. -A.P). Il existe une unique
classe de variables aléatoires -fi-mesurables U g L'(Q,,S,P) qui satisfasse à
la relation : p p
VB g m / Y dP = / UdP. (11.17)
Elle est encore notée E£Y et appelée espérance conditionnelle de Y sachant
J3. Elle vérifie
E-°Y
(11.18)
Démonstration. On se ramène au cas L2(Q. A: P) de la manière suivante :
soit (Y„)„ej| la suite définie par
Vn G H Y„ = 1(|y1c»jY.
Pour tout il g 11, on a Y„ g L2(Çl. A. P), et
|Y„-Y| S |Y|.
La suite (Y„)„ex convergeant P-p.s. vers Y, il résulte du théorème de
convergence dominée qu'elle converge aussi dans L'(Q, A, P) vers Y. Soit
i 1.3. espérance condii I0NNE1.1 e
155
alors, pour tout n g N, Z„ — ESY„ g L2(Q. $.P) ; d'après l'inégalité
(I 1.16), on a, pour tout n, m g N,
||Zn-Zn,||, <: ||Y„-Ym||l .
I a suite (Y„ )„ÇH convergeant dans L'(f2, A,P) est de Cauchy ; il en est alors
île même pour la suite (Z„ )„e(v ; l'espace Ll(f2, ¿4, P) étant complet, la suite
(/-,,)«en converge dans L1 (Q. <A, P) vers Z; plus précisément, puisque, pour
lout n e N, Z„ est .©-mesurable, on a Z g LX(Q.B,P). Par ailleurs, pour
(out B e Si et tout n g N, on a :
Y„ dP = ZndP.
b Jb
\â\ convergence des suites (Y„),(€[ et (Z,,),,^; dans L'(Q,
casser à la limite, ce qui donne la relation :
VB g
¡1, P) permet de
Y dP = / Zt/P.
' b Jb
Nous avons- démontré l'existence; l'unicité est triviale. Reste à démontrer
l'inégalité (11.18). Pour cela, on applique, pour tout ik l'inégalité (11.16) à
Y„ et on « passe à la limite » : il en résulte que ;
E|Z| = limEIZJ $ limE|Y„| = E[lim|Yn|l - E|Y|. ?
Proposition 11.20. L'opérateur E£est linéaire continu sur \J(Q.,A.P) de
norme I. Il est positif.
Soit Y 6 L1 (£2. A, P). On a les propriétés suivantes :
(a) E[ESY] = EY;
(b) si Y est Si-mesurable, on a E£Y = Y ;
(c) si Z est .©-mesurable et bornée, on a
E-2 (ZY) - ZE^Y P-p.s, ;
(d) si Si, et S32 S'Mt deux sous-tribus telles que &{ v_ Si2, on a
E*'Y = e*' [E^y] :
(11.19)
(e) \E*Y\ ^ E^(|Y|).
Démonstration. La linéarité résulte de la caractérisntion (11.17) de E^Y.
L'inégalité ( 1 ] Jb) montre que E^3 est continu de norme inférieure ou égale
à 1 ; cette norme est de t'ait égale à I puisque si Y g L1 (Q, B,P). il résulte
de la caractérisation (11.17) que E£Y = Y- lotîtes les autres propriétés se
déduisent alors par continuité des propriétés analogues dans L2(Q, A, P) ou
directement en utilisant la caractérisntion (11.17) et les mêmes arguments
qu'à la proposition 11.18. ?
CHAPITRE 1 I. PKOÍlAfll LI ( F.S EC ESPÉRANCES CO|\ Du lONNEI | .ÎÎS
Remarque. Puisque E£ est continu sur L1 ..A,P), si une suite (X„)„e^
converge vers X dans L1 (Í2, Á, P), la suite (E£X„)n(£]-\ converge vers E^X
dans L1 (fi, A.P).
Proposition 11.21. Si Y G L'f^.^.P) et siY et 33 sont indépendantes (c'est-
à-ilire si les tribus <j(Y) et 3$ le sont), ou a :
\l:ilY = EY P /xs.
Démonstration. Puisque pour tout B G ¿3. les variables aléatoires 1B et Y
sont indépendantes on a
E(1BY) = E(1B)E(Y),
soit
E(1BY) = E[1BE(Y)] ;
reste à utiliser la caractérisation (11.17) de E^Y. ?
Remarque. Bien noter qu'ici, on a une égalité entre classes el que EY
représente la classe des variables aléatoires P-p.s. égales à EY.
La généralisation suivante de cette propriété est aussi très souvent
ntilisée dans les calculs
Proposition 11.22. Soient (X. Y) une variable aléatoire il valeurs dans l'es-
pace probabilisable (E y. F, 8 ® F) et f G #'(F x F. 8 ® F.P<X.Y)). On
suppose que X est 33-rnesurable et que Y et B sont indépendantes. La
fonction f définie par
V.vGE f(x) — E [f(x, Y)].
est 8-mesurable et on a :
E* [f(X, Y)] = / o X P-p.s.
(11.20)
Démonstration. Les variables aléatoires X et Y étant indépendantes, on a
P{x<y> = Px ® Py. Remarquant que
V.vGE f(x) = j /(.v,y) dPv(y),
la propriété de mcsurabilité de / résulte du théorème de Fubini. Par
ailleurs, l'espace vectoriel engendré par les fonctions (x.y) i-> gix)h(y)
où # G ^'(E.S.Px) et A e Z1(F,.F,Py) est dense dans £'(E x F. S ®
'•F• P(x.v))' De plus les. applications
fn/oX et / i-> 6fl [/(X,Y)]
i i ( espérance' condi hon nelle
157
.ont continues de X1 (E x F, 8 ® -F,P(X,Y)) dans L'(Q, ,A,P). En effet, ii
icsiilte des théorèmes de transfert puis de Fubini que l'on a
I/"oXIL= / I / fi\.r)dPy(y)\dP
Jn 1 Jt 1
puisque P(x,vi = Px Py, on a donc :
< tuant à la continuité de l'application / m> E [/"(X. Y)], elle résulte, par
application du théorème de transfert, des relations
t sil/CX^y, = ||/||, .
Uesle donc à démontrer, en raison de la linéarité, la relation (11.20), pour
/ produit direct de g e V(E, g, Px) et h e X'(F, F.PV). Mais g o X est
ti-mesurable et h o Y est indépendante de £ ; on a donc
bsL/(X,Y)] = Es[U'oX)(/ioY)] = teoX)Es[/ioY] = (g oX)E[/i o Y].
soit :
l-:V(X, Y)] - (goK)j[h(y)\dPy(y) = ^<£oX)[/hv)]</Py(v) - ?oX.
?
Exemple 11.10. Soient X et Y deux variables aléatoires réelles, Y étant de
loi de Poisson de paramètre A > 0; on suppose que X est -mesurable et
que Y et .S sont indépendantes. Calculer E£ [cos(XY)].
Solution. On a
7(.v) - Ecos(xY) = exp(-A) J^Î=o ¿7 cos(fcx):
or.
Xk / Xk
— cos(Âr.v) — M(— exp(ït.ï)j — iRe\p[Àexp(;.v)] .
¿=0 " k=0
ce qui donne :
E-2 cos(XY) — exp [-A(l — cos X)] x cos(A sin X).
11.3.3. Evtension de la définition de l'espérance conditionnelle à M.+ (A )
On note M+(&) l'ensemble des variables aléatoires à valeurs dans
et ¿8-mesurables.
E [AX, Y)]
chapitre II. PROBABlUÏ es e| espérances CONDITION N fi |.f.s
Proposition 11.23. Soit Y g M+(A). Il existe une unique classe U d'éléments
de M + (S3) qui satisfasse à la relation :
VB g S3 J YdP = / UdP. (11-21)
Jb Jb
Elle est encore notée E£Y et appelée espérance conditionnelle de Y sachant
S3.
Démonstration. Rien de changé pour l'unicité. Pour l'existence, soient, pour
tout n g N, la variable aléatoire bornée Y„ = inf(Y,n) et U„ une version
de E^Y,,. La suite (Yn)neu converge en croissant vers Y et P-ps. la suite
(Un)neN est croissante, donc convergente dans M vers une limite S3-
mesurable U. La propriété de Beppo Levi assure de plus que, pour tout
B g S3, on a
/ Y dP - lim / Yn dP = lim / U„ dP = / U dP. ?
Jb " Jb n Jb Jb
Proposition 11.24. Pour tous Y,Z g M + (A) telles que Y ^ Z. on a
E^Y ^ E^Z.
De plus on a la propriété de Beppo Levi conditionnelle : si une suite
(Y„)„gN d'éléments de M+(A) converge en croissant vers Y, la suite
(E£Yn)n€î* converge en croissant vers E^Y.
Démonstration. Pour la première propriété, on a, pour tout n g N,
inl'(Y,n) ^ inf(Z. n ) et donc
E^ [inf(Y, n)] <; E^ [inf(Z,n)] .
Il suffit de passer à la limite dans M+ et de revenir à la définition de E^Yet
E£Z.
Pour la propriété de Beppo Levi conditionnelle, la croissance de la suite
(E,sYi,)„eN résulte de la première propriété ; cette suite converge alors dans
R+ et, d'après la propriété de Beppo Levi usuelle, pour tout B g S3, on a
/ E£YdP= f Yf/P=lim \YndP = lim / E£Yndp- S limEsYn dP.
Jb Jb n Jb n Jb Jb n
11 en résulte que :
E^Y = lim E^Yn - ?
n
Remarque. En corollaire, les quatre premières propriétés de E® citées à la
proposition 11.20 sont encore vraies sur M+ (A).
i i. i. ESPÉRANCE CONDITIONNELLE
159
11.3.4. Théorèmes de convergence
Ayant obtenu une propriété de Beppo Levi conditionnelle, on obtient
selon la même démarche qu'en théorie de l'intégration, un lemme de Fatou
n un théorème de convergence dominée conditionnels.
].emine 11.25 (Lemme de Fatou conditionnel). Soit (X,,),,^ une suite
d'éléments de M+(A). On a :
limint, X„
< lim \nî„ E (X„).
inf Xk < Xp
k~2n
Démonstration. On a, pour tout n G N,
cl donc, par croissance de l'espérance conditionnelle :
Vpïn E^infxJ ^ E^Xp.
11 en résulte que :
Tînf Xfcl s£ inf E^Xp .
Reste à appliquer la propriété de Beppo Levi conditionnelle.
?
Théorème 11.26 (Théorème de convergence dominée de Fatou-Lebesgue
conditionnel). Soient (X„)„eM une suite de variables aléatoires finies P-p.s. et
Y e Zlw(Q. A, P) telles que
V n e
|X„] <: Y P-p.s.
(a) On a :
Es [lim inf X„ 1 ^ lim inf E£ (Xn)< 1 im sup E^ {Xn)<E£ [lim sup X„ .
(b) De plus, si la suite (XM)„ePj est P-p.s. convergente, la suite (E X„)„en
est P-p.s. convergente et on a
^[lim„ X*
= lim„Es(X„) P-p.s.
Démonstration. Les variables aléatoires Y + X„ et Y — XM sont définies
et positives P-p.s., Y et X„ étant P-p.s. finies; notons de la même manière
leur prolongement mesurable par 0. Le lemme de Fatou conditionnel donne
alors r -,
E lim inf (Y + Xw) ss lim inf E (Y + Xn),
l_ n j n
chapitre ii. PROBABILITÉS fit espérances conditionnelles
soit
E^Y + E:
lim inf X„
^E^Y + liminfE^Xn,
ce qui donne la première inégalité puisque E^Y est integrable, donc fini
P-p.s. Pour la seconde inégalité, on procède de même avec Y — Xn.
Enfin, si la suite (X„)neN est P-p.s. convergente, ce qui est équivalent à
liminf„Xn — limsup^X„ — limwXw, on a (théorème de convergence
dominée) lim„ X„ e £UQ,A, P) et
]imX„
liminfEjS(X„) ^ limsupEjS(X„) ^ Es limXw
ce qui donne le résultat annoncé.
?
Corollaire 11.27. Soit (X„)neN une suite de variables aléatoires finies P-p.s.
telle que
+00
^E|X„] < +00.
Alors, P-p.s. la série X„ est absolument convergente, sa somme appartient
àXUQ,A,P) et
+ OO +OO
Démonstration. Appliquer le théorème de Lebesgue conditionnel à la suite
des sommes partielles. ?
Exemple 11.11. On reprend l'exemple 11.10. En supposant d'abord que X
est bornée par M, on calcule E-2 [cos(XY)] en développant en série entière
le cosinus ; le cas général est alors résolu par passage à la limite.
Remarque. Il s'avère que celte méthode est beaucoup plus longue et montre
le chemin que l'on a parcouru en établissant la proposition 11.22.
Solution : On a
On va vérifier que, sous l'hypothèse |X| ^ M, on a
\ E < +00 .
^ (2r)\
Puisque Y suit une loi de Poisson, on peut écrire dans E+ :
il 1. ESPÉRANCE CONDl'110NNFXLE
+00 ^t
= exp(-A)£ — ch(M*)
exp(—À)
2
¿=0
A;!
[exp(A exp(M)) + exp(À exp(—M))] < +00.
( )n a donc :
E*c«(XY) = g(-irE*[<g£].
Mais, puisque X2r est iB-mesurable et que Y2r et «S sont indépendantes, il
V'C,,t : E*(X2rY2r) = X2rES(Y2r) = X2rE(Y2r) .
Un calcul identique au précédent, les interversions de signes « somme »
étant justifiées par l'absolue convergence de la série double donne :
k=0
-rx> . k + 00
= exp(-À) 2^~k\\Z-^ (2r)! j
A;!
* = 0 r=0
= exp(-À) — cos(A:X) ;
k=Q
^7 cos(fcX) = T7 exp(/A:X)) = m exp [À exp(/X)] ,
Xk
kl
fc=0
ce qui donne :
fc=0
E£ cos(XY) = exp [-X( 1 - cos X)] x cos(A sin X).
(11.22)
Si X est quelconque, on définit, pour tout n € N, X„ = l^xi^X. Alors, la
suite (cos(X„Y))„eiM est P-p.s. convergente, et on a, pour tout n e N.
|cos(X„Y)| s= 1 .
11 résulte du théorème de convergence dominée conditionnel que la suite
(Es cos(X„ Y))„eK est P-p.s. convergente et que
E^ cos(XY) = limEs(cos(X„Y)) P-p.s.
iô2
CHAPHRE II. PKOllAHll ||fS bl rS|>t»ANCtS CON DrUON NT LLE.S
La formule (11.22) esî donc vraie pour X quelconque.
11.3.5. Inégalité de Jensen
C'est une inégalité de convexité souvent utilisée. Nous en donnons
d'abord une version élémentaire, puis une version améliorée.
Proposition 11.28 (Inégalité de Jensen). Soient g une fonction convexe2 sur
RwY€ X\Q.A,P) telles que g o Y e £l(Q,A,P). On a
g[EsY]^Es [g o Y]
(11.23)
Démonstration. La fonction g étant convexe, i) existe deux suites de réels
telles que
Vx € R g(x) = sup(«„x + bn).
On a alors
Vn € N P-p.s. a„EaY + b„ = Es [aflY + bn] $ Es [? ° Y] ,
et donc (une réunion dénombrable d'ensembles de probabilité nulle est de
probabilité nulle)
P-p.s. VneN anE£Y + bn $ E^ [g o Y] ,
ce qui implique :
P-p.s, sup(</„E*Y + h„) S. Es [g o Y] .
L'inégalité est démontrée. ?
Corollaire 11.29. Soit p e M*. Si Y e Lp(fi.«A.P), otiaE^Y e LP(Œ.S,P)
Autrement dit, Es e.« «ne contraction fie LP(!T2, <A,P) L/'fCi, S,P).
Démonstration. On applique l'inégalité de Jensen a la fonction convexe
a' h-* M'. ?
Proposition 11.30. (a) Soit Y € Xl(&. A, P) prenant ses valeurs dans-
un convexe fermé K de E (c'est-à-dire un intervalle fermé). L'espérance
conditionnelle E"®Y est P-p.s. à valeurs dans k.
Pour toute fonction g convexe continue sur K, à valeurs dans R U J+co},
positive ou telle que e o Y e A, P), l'inégalité de Jensen (11.23) est
2. On rappeile que loule fonction réelle coflVf.it-' détinie sur un intervalle ouvert de K est
continua Ceci est faux sur un intervalle non ouvert : prendre g définie sur [0. +co\ par#(0) = 1
et g(x) = Osi.y > 0.
IH. HSl'HKANCr. (.ONDrriONM.l.LË
l63
r 0
(b) Soit Y zine variable aléatoire à valeurs dans 1R . Pour toute fonction
convexe continue sur E+, telle que g(+00) — +00, positive ou r*?//e </zze
Y e , A, P), l'inégalité de Jensen ( 11.23) est satisfaite.
Démonstration. Elle est en tout point identique à celle de la proposition
précédente. ?
Remarque, il n'est pas difficile de généraliser la notion d'espérance condi-
lionnelle au cas où la variable aléatoire Y est à valeurs dans un espace
euclidien. La proposition précédente est encore vraie dans ce contexte, tout
convexe fermé étant intersection dénombrable de demi-espaces fermés.
11.3.6- Calcul d'espérance conditionnelle
On a déjà donné un exemple de calcul. Un cas particulièrement fréquent
est celui où la sous-tribu S est engendrée par une variable aléatoire X et où
il existe une loi conditionnelle de Y sachant X.
Proposition 11.31. Soient X une variable aléatoire à valeurs dans un espace
probabilisable quelconque (E, 8) et Y € ^' (Q, A, P). On suppose qu'existe
une loi conditionnelle P*= de Y sachant X. Alors mj=' oX«7 une version de
l'espérance conditionnelle E°"'X'Y, m y"" désignant la moyenne conditionnelle
de Y sachant X, ce qui s'écrit7, :
E<KX)Y=wx=-oX P-p.s.
Démonstration. Notons que sous ces hypothèses, la moyenne conditionnelle
existe bien et rappelons que a(X) — |X_1(C) | C € 8} et que lx-wc) —
l('oX. Pour tout Ce 8, il résulte successivement des théorèmes de transfert
cl de Fubini généralisé que
/ m*=bXdP=f\c(x)m^=xdPx(x)^f lrU)[Y ydP*=x (.y)l^Px(.v)
Jx~Uc) Jp- Jl Mk j
= f lc(x)j</P(X,Y)(x.}')= / YdP,
ce qui démontre le résultat. ?
Exemple 11.12. Reprenons l'exemple 11.5 où X et Y sont indépendantes
de même loi exp(À). On a vu que pour tout s > 0, Px=s est la loi uniforme
sur [0, s] et donc que nix=s — s/2 : S/2 est alors une version de l'espérance
conditionnelle Eo(s)X.
3. Certains auteurs écrivent l'espérance conditionnelle Ea'x'Y sous la forme E(Y | X).
Nous empioierons quelquefois cette écriture, lorsque le contexte typographique nous y incitera.
164
Cl IAPI I KI". II. l'KOKABlU IES El RSPÉKANCES CONDITIONNELLES
Comme le montre l'exemple ci-dessous, ce résultat est indépendant de ia
nature de la loi de ces variables aléatoires.
Exemple 11.13. Soient Xj et X2 deux variables aléatoires réelles
indépendantes et de même loi fx. Soit S — X, + X1. Démontrer que Ea(S)X( —
E°(S)X2 et en déduire Eo(S,X,.
Remarque. Cet exemple sera généralisé ci-dessous en exercice.
Solution : Tenant compte de l'indépendance de X| et X.. on a, pour tout
borélien C de E,
/ X, dP = f lc(.v, + x2)x, d(PX| ®?x2)(xi,x2)
.'S-'(C) 7»2
et, puisque Xi et X2 ont même loi,
/ X, dP = f lc(.Ti +.t2).v, d{PX2®PXl)(x1,x2).
Il en résulte que :
VC € £R f
ce qui démontre l'égalité :
Xi dP = / X2 dP.
(O /S-'fC)
E0(S)X] = EŒ^X2.
Alors. S étant a(S)-mesnrable, on a
Eff(S)(X, 4- X,) = S = EfffS)X, + Eff's,X2 P-p.s.
et donc ;
Ea,s)x = * p
2 * ~
résultat bien naturel.
Exercices
Sauf mention spéciale, toutes les variables aléatoires seront définies sur
nn même espace probabilisé (Q. A. P).
Exercice 11.1. Lois de Poisson et multinomïale. Soient n variables aléatoires
X1.X1 X„ indépendantes de loi de Poisson respective 'P(Xf). / = 1,2, n.
Ou note X = (Xi.Xt Xn). variable aléatoire à valeurs dans N", et S„ =
YH= 1 ^! ¦ Déterminer une loi conditionnelle p\" =' de X sachant S„.
I <¦ I l«'lCb 11.2
Solution. On rappelle que S„ suit une loi de Poisson ^(VJ"=] Xi). De plus, pour tout
U-i,Ar2 kn.x) e N"+1,ona
i- ,=] J 1 L, = i
soit, par indépendance des X/,
n 1 k,
(f|(X, = kl))n($n =x)
= 'es?-, /,-=-x)C*i exP(- g n ^77
On a donc, pour lout {k-i.k2 k„.x) G N" + 1,
«p(-S»n&
exp(-I»
/=1
soil
= 1
,(^1.^2 *„)
c'est-à-dire que. pour tout x G N*. P^" x est la loi multinofiliale
m( ^î A2 Àff \
vv;E';=iA/-E^7-"^E"=iA./^
Si a" = 0. P^"—* est la mesure de Dirae en Û.
Remarque. On retrouvera cette propriété des lois de Poisson ci-dessous, dans
l'exercice sur le processus de Poisson : elle sera alors interprétée.
Exercice 1.1.2. Lois de Bernoulli et uniforme. Soient n variables aléatoires X]. X^.
.... X„ indépendantes de même loi de Bernoulli :B(\, p) où 0 < p < l. On note
X = (X1.X2, X„), variable aléatoire h valeurs dans N". et S„ = £;'=i X/.
Déterminer une loi conditionnelle P^" ~ " de X sachant S„.
Solution. On rappelle que S„ suit une loi binomiale Bin, p). De plus, pour tout
(ki.k2 kn.x) e ¡0, 1}" x i-j.ona
P[(n"=,? =kj))n(S„ = x)]
166
chapitre i [. PKOHAIililïES ET ESI'lkancf,S CONDITIONNELLES
soil, par indépendance des X/.
['[(n-=,(X, =A-/))ri(S„ =x)]
= Veil, /,.=.0^-^..fi |>o - />)'-*']
; = I
= 1{,( = A.) (* I - ¿2 ) /'* ( 1 " p) ' -* ¦
On a donc, pour tout (kuk2.. . ,kn,x) e {0, 1 !" x N.
/'Ml -
SOlt
c'est-à-dire que, pour tout x s N*, Px" * est la loi uniforme sur l'ensemble
{(ky.k2 k„) e ¡0.11" I /<, = xf.Si a = 0, Px" = v est la mesure de Dirac
en 0.
Exercice 11.3. Processus de Poisson. Soit (W„)weM* une suite froissante de
variables aléatoires positives telle que Wo = 0. Soit, pour n e M*, la variable
aléatoire T„ = W„ —\V„_[. On suppose que les variables aléatoires T„ , n ç N*. forment
une famille de variables aléatoires indépendantes, de même loi exponentielle exp(A).
où A > 0. On pose Xo — 0 et, pour tout / > 0,
La famille de variables aléatoires (Xt),eE+ est appelée processus de Poisson
d'intensité A.
1. Soient y, f tels que 0 <. s < t. Calculer par récurrence l'intégrale définie pour tout
n <s M* par
ln(s*t) = / l(s*Xl$X2^~<x„&) dXn{xx. x2.-.-,x„).
jr"
2. Calculer, pour tout h e N* et toute famille t/y)i^/^» de fonctions mesurables
positives bornées sur R, la quantité
n
e[i,x,=,) Y\fjWj)].
En déduire la loi de X, et une loi conditionnelle de (Wi,Wz ,VV„) sachant
(X, = n).
EXERCICE ]].3
3. Soient t > 0 puis un entier A ï= 1 quelconque et une suite finie quelconque de
reels tels que 0 = /0 í íi Í í ^ = /. Déterminer la loi de la variable aléatoire
(X/i -Xî2 — Xt| X[k —X[k_¡ ) et justifier l'indépendance des variables aléatoires
XM , X,,, - Xf, Xt/C — Xtjt_1.
On dit que le processus (Xt)[€p + est à accroissements indépendants.
Quelle est, pour tout „v, t tels que 0 Í s < t, la loi de la variable aléatoire X, - X4 ?
Bn déduire sa movenne E(X, - Xs).
4. Soit k eN* tel que] í k =c n. Déterminer une loi conditionnelle P^'"" de
sachant Xt = n : l'identifier.
Remarque. Le processus de Poisson est un cas particulier des processus de comptage :
une propriété apparaît aléatoirement au cours du temps: \V„ est la date de la n1'
réalisation. T„ est le temps écoulé entre les (n — 11e et «c réalisations, X, est te
nombre de réalisations de la propriété dans l'intervalle de temps [0, /] ; il apparaît
en particulier dans les modèles de file d'attente,
Solution.
1. Par le théorème de Fubini :
h(s.0= S (f dX(x2))dX(Xí)= [ (t - x,) dXl = ^^p-.
Supposons que. pour tous s. / tels que 0 í î í i, on ait
(/ -s)n
ï„(s,t)= -— . (1l2.í)
n\
Par le théorème de Fubini, on a
Ij/ + i0\ 0=^1{ííx1íí)( j l{xi^x2zz~-^x„+t^t) dX,,(x2 x„+l)jdX(xi)
= / '(^.«iî/I ln(xl.t)dX(xl) = / —— dXl = ———— :
¡I en résulte que. pour tout n e N* :
\ln(sj) =
| n\
2. Par définit! onde Xt, on a
n n
soit, en utilisant les variables aléatoires Tn (lesquelles portent l'information proba-
biliste) :
e[ttxf-Bl fi fjWi)] = e^T^nn^' IV>o II ^(X>)[
]f>R
CHAPITRE |1. PROBABiLI IfcS bl~ ESPERANCES CONDITIONNELLES
En utilisant îe théorème de transfert et le fait que les variables aléatoires T„ sont
indépendantes de loi exponentielle de paramètre À. il vient :
e[i«,=», fi /><W,)] = / [l , fl fj{t*)]
j=l JK j~\ 1=1
n+\ /1+1
j'=l '=1
Par le changement de variables sur K" + J, de jacobien I, défini par
¡('2 = + /i
lUB + i = ^ + t2 + ¦ ¦¦ + f„ + 1
f, = ix'|
f i = 1(?2 — W |
( tn+i = W,t + i - Wn ,
il vient
(wj«=ëOn(w;„+|>()
tl+1
il
/=1
• 1R+ (m-'i) Il 1u+A"+1 exp(-A»-« + , ) dA„+] (w,, w2, ...,it';1 + ,).
7 =2
et, par le théorème de Fubini,
n ç
1 J=\ J J[t,+°o[
0>(r) = f A"
jk"
On a donc :
'(«'ri^rllfOCWi «UJ2-ï?|H„^() P| .M"'/ ) ^A„f«'i, 102,
j = i
= i
[y fl )1(os.u)1s;1,i2"-^«-,,-ïVil/Art(u.1,. u,'2 u'„)j.
,/ = i
x I
(11.26)
En particulier, si /,¦ = I pour tout y. il vient
E[](X>=n)] = A" exp(-Xî)y. }n{0j),
ce qui donne
P(Xf = n) = exp(-A/)
(Af)"
i SP.HC'ICE IÏ.3
ccst-à-diYe que X, suit la loi de Poisson de paramètre Xi. On a alors
EX, = Xt .
De plus, en prenant par exemple fj = où A; e ^8g, il résulte de l'égalité
( 11.26) que la variable aléatoire (W|, W2 W„) admet une densité conditionnelle
^ichnnt (X, = n), /(w"wi w,,)- donnée par en tout (u1]. ï(<2, w») e M" par
yX,=n
(W, ,W2 W„){Uï' ' W-- " " "'") - ^ 1(0*1«, «u>:-^
c'est-à-dire que la loi conditionnelle de (Wj, W2, ¦ ¦ ¦. W„) sachant (X, = n) est la
loi de Dirichlet,
X Soient des entiers positifs quelconques tt|, o^, ... .û^ ; notons n leur somme.
Définissons, pour j tel que 1 j < k :
! j = ai + a2 + h oc/ .
Remarquons que, puisque 1^ = /1, e1 que T2)~i (!j ~ !j-1 ) ~ ' • on a
fj <X,_,. - Xry_, = aj) C (X, - n).
et donc :
k
f)i*,j -X;/_, =<*,)= IX, =„)n[P)(X,, = /,)]
/=1 j=i
k-l
= (X, =fl)n[P)cW/;. Sf;,n<W/;+1 >f/)].
il résulte alors de l'égalité (11.26) que
k
,'2 = / FI 1(M,,
^(0^w\^W2'"^w„^t) dXn(W\ , W2, •... wn) ;
or, en posant /0 = 0, on a
170 CHAMIKT". II. PROliAHll 1TÉS El' ESPÉRANCES CONDITIONNELLES
compte tenu de ce que lj - //_i = a;, le théorème de Fubini permet donc d'écrire
k k
p[P)(Xr/ -XIy,., = a,-)] =A"expHljx (r,-!. /y).
>=i ./ = i
soit
P[ H (*, - X,,., = «;)] = fl «P [->¦«., - 0-.)] ^ "g'J,"')]°J-
(11.27)
Ceci démontre que les variables aléatoires X^. — Xl/_i sont indépendantes et de loi
respective la loi de Poisson de paramètre X(t j - tj~\).
Les ij étant quelconques, il en résulte que la loi de X, - X^ est la loi de Poisson de
paramètre A(/ - .v) et que
x= E(X, - X,)
t - s
d'où le nom, pour le paramètre A, d'intensité d» processus.
La variable aléatoire Xt suivant une loi de Poisson de paramètre Xt, il résulte de
l'égalité (11.27) que, après simplifications, on a
c'est-à-dire que la loi conditionnelle de (X,, .Xt-, — X(|, X!f, - X,A_, ) sachant
(X, = n) est la loi mutfinomiale M(/t; '±, '-^ ).
Interprétation intuitive : soient n variables aléatoires indépendantes X\, X2 Xn
de loi uniforme sur ]0, t] et
(Y.-Y2 V,)= (j]l]0,îi](X/)^l](|,2](XJ).....^l]tt_1^](X;))
; = ' j' = i j = l
la variable aléatoire qui indique le nombre de« points » dans chaque intervalle
tj] ; sa loi est la loi mnltinomiale
M(»:Î1.^L y
On vient de montrer pour te processus de Poisson que, sachant que la propriété
s'est réalisée exactement n fois dans l'intervalle de temps ]0. t], la variable aléatoire
donnant te nombre de réalisations de la propriété dans chacun des intervalles
de temps ]tj_i,tj} (qui forment une partition de ](),(]) a la même loi que celle
de (Yi. Y2,.... Yfc), et ceci quelque soit la partition choisie! Cela traduit une
uniformité dans te temps pour la réalisation de cette propriété.
I M'.KCICE I l 3
171
4. Soft / e t?j£ (R) ; en prenant dans l'égalité ( 11.26) toutes les fonctions fj égales
:i I sauf 4 que l'on prend égale à f. il vient
i-:[i<x,=,,)/"<wA)]
= A" exp(-Aï) x ! f f\wk) 1(0$«,, ^W2$-$u;/;$o ^An(uji, uj2, ...."'«) ! ;
( il" )
;iprès avoir remarqué que
le théorème de Fubini permet d'écrire, en intégrant d'abord par rapport aux k — 1
premières variables, et en utilisant l'égalité (11.25),
E[1(X, =„,/<Wt)] = À"exp(-A0 xR(i), (11.28)
où
R(') = /a.-,+11-^">w/""t)
Ifwi '/A„^ + ,(»Ji. f.... w„).
Mais, toujours par le théorème de Fubini, on a
R(î) = / /(w)*)1(0<m,a^o
i
x 1 / *(w* s-'wa 11 -^«'„$0 ^Afl^(u)jt+], — u:„)
soit, par définition des intégrales I„Cv./).
f (u-'fr)*'-1
R(0 = / /(,"a)1(05w/,';£077~~TT x '«—fcO^fc.O dX(wic).
jb (k — \ y
ou encore, d'après l'égalité {11.25).
R(0 = | /0«*)l(o^so-<fcT7J! («-Jfc)r rfA(u;A) '
Ainsi, en reportant dans l'égalité (11.28), on a
E[l(x, =„,/'?)] =A"exp(-A/)
ce qui s'écrit encore
E[»i.x,=«)/(Wfr>]=^ xP(X, =n)
172 chapitre 1 [. probabilites et esperances conditionnelles
Vu, e R /*="(«,) = Wu» - ]-Dk~l(i - ^
La loi conditionnelle de sachant (X( = n) est donc une loi bêta de première
espèce B(fc, n — k + 1) sur [0, t].
Interprétation intuitive. Soit toujours n variables aléatoires indépendantes Xy.Xi-
... ,Xn de loi uniforme sur ]0, t] et X(^) la ks « statistique d'ordre » (cf. l'exercice 8
« Loi de Diricblet et statistique d'ordre » du chapitre 9). On vient de montrer pour le
processus de Poisson que, sachant que la propriété s'est réalisée exactement n fois dans
l'intervalle de temps ]0, t], la date de la ke réalisation de la propriété est une variable
aléatoire qui a même loi que celle de X(£->. Cela traduit encore une uniformité dans
le temps pour la réalisation de cette propriété.
Exercice 11.4. Tirage uniforme et intervalle de longueur aléatoire. Soit (L^X^)^^}
une famille de variables aléatoires réelles indépendantes de même loi uniforme sur
[0.1]. On définit, pour tout n € N*. l'application S„ par
n
Va» e Sn(co) = Y l[o.l(a,)](Xy(w)) .
j = i
1. Vérifier que S/j est une variable aléatoire et déterminer une loi conditionnelle
Po=' de S„ sachant L.
2. En déduire la loi de S„.
3. Déterminer une loi conditionnelle PL"~' de L sachant S„. Calculer la moyenne
s
conditionnelle mLra de L sachant Sn et retrouver la moyenne EL de L.
Solution.
1. Les variables aléatoires Y = (Xi, X2,.... Xn) et L sont indépendantes. Si / est
l'application définie sur R" x [0, 1] par
n
V(>',/) e R" x [0,1] /0./) = Y l;o./](v,).
on a P-p.s. S„ = f (Y, L), et donc, pour Pi.-presque tout / :
ps,f = p/(y.l) = p/(y.l) ,
la dernière égalité résultant de l'indépendance de Y et L. Or pour tout / e]0, 1],
P/(y,o est la loi binomiale B(n.l), c'est-à-dire que :
pour Pi,-presque tout / 1 = B(n J).
Il existe donc une densité conditionnelle f^!~" de sachant (X( = n) donnée
par
I.XERCKT [ 1.4
173
2. On a alors, pour tout A e Si :
f l[o,i](OfE (" -t)n-%(A)] dX(l)
e (l)^(A)B(/;+i'/,~fc+i);
puisque
n! r(fc + l)r(n -fc + 1)
H + 1
¿=0
c'est à-dire que la loi de S„ est la loi tioiforme sur {0. 1,2, «f.
3. La loi du couple (S„, L) est alors déterminée par la donnée, pour tous A, B
de P(s„,d(A x B), soit :
= ^*(l-0B-*«t(A)]l[0,ij(/)dA(/)
= E -^*i(A)f/l|o,i](0|J(« + -/)"-* dA(0
= / ^(k + l,n-k + l)(E)dPsn(k),
Ja
où on note /îj(/c -I- 1,h — A: + Ij(-) la loi bêta de première espèce sur [0.1] de
paramètres k + 1 et u - k + 1.
Pour tout A e {0,1, 2,.,,,«}, la loi conditionnelle p^"=^ de L sachant S„ = k est la
loi^i(/c + l,n — A + 1").
La moyenne conditionnelle de L sachant S« est alors donnée (cl' les tables de loi) par
VA: e ¡0,1,2,....n} m,"~k -
On retrouve la moyenne de L, puisque
k = 0
k+l
n + 2 '
[74
CHAPITRE II. PKOliABlL 1IHS fc | ESPERANCES CONDITIONNELLES
soit, en tenant compte de ce que
5> + u =
k=0
(n + !)(« + 2)
EL = - .
2
Exercice 11.5. Parties entières et décimales. Soït X une variable aléatoire positive
de densité fx- Soit Y = X - [X] où [¦] désigne la partie entière.
1. Déterminer la loi de la variable aléatoire ([X], Y) en fonction de fx- En déduire
les lois de [X] et Y. Retrouver directement la loi de [X].
2. Déterminer les lois conditionnelles de Y sachant [X] et [X] sachant Y, p^~" et
3. On suppose que X suit la loi gamma y(a, p) où a > 0 cl p > 0 ; pour quelles
valeurs du couple (a. p) les variables aléatoires [X] et Y sont-elles indépendantes ?
Déterminer les lois de [X] et Y dans le cas où X suit la loi exponentielle exp(p),
p > 0.
4. On suppose que la densité fx de X est donnée par
+ 00
n=0
Démontrer que les variables aléatoires [X] et Y sont indépendantes et déterminer
leur loi.
5. On suppose à nouveau que X suit la loi gamma y(a, p). Calculer les moyennes
conditionnelles mi^~ et '"^y" (on n'explicitera ni les intégrales, ni les sommes de
séries intervenant dans Jes résultats.
Solution.
1. On a. par le théorème de transfert, pour tout A, B e Sp. :
P([x],Y)(A xB)=í 1au>])1bî> - [x])fxi.x) dX(x)
JR
= V / *Ailx]nb(x~\x])fx(x)dk(x)
„ = QJ[n,n + l[
= V 8n(A) / lB(.x - n)fx(x) dX(x).
J\njt + l\
On a donc, pour tous A. B e ,
p([X],Y)(a¿b) =
£«i.(a) /
1b{x)Jx{x +n) dX(x).
(11.29)
I XTKClCE 11.5
On obtient la loi de [X] en prenant B = r : on a, pour tout A €
Ppq(A) = P([x].Yl(A x M) - Và„(A) / fx(x+n) dX{:
c'est-à-dire que [X] est une variable aléatoire discrète à valeurs dans N telle qut
Vh s T.f P([X] = m) = / fx(x + n) dX(x),
J[o,i[
résultat que l'on obtient directement en écrivant que
f[X] = n) = (n X < n + 1),
ce qui donne
l\[X\ =,1) = l\([n.n+ l[) = f ./x(.vW-Uv).
J[n,n+l[
et, par changement de variables,
P([X] =n)= f fx{x +n)dX(x).
-M<M[
On obtient la loi de Y en prenant A = M : on a, pour tout B € !Br,
+00
, l,o,if(*)[
Py(B) = P([x],y)? y B) = / 1I0,i[(j:)[X) + «)] ^A(x).
La marginale Y admet donc une densité /\ donnée par
+ 00
V.y € 1P. ./Y(,V) = '[Oj[(v) X] /x(y + n) ¦
n=0
2. Pour tous A, B e Sr, l'égalité (11.29) s'écrit encore
1[0,i[(-ï)/x(-ï + »ï
«ev;ll(X)
P([Xl,Y)fA x B) = V S„(A)P[X]({»}) /
P[xi(î«!)
Pour tout 77 e val([X[), Y admet donc une densité conditionnelle sachant [X]
donnée par
i76
CHAPITRE 11. L'l«>HAH|[.|irS P i t'.SPI'KA NCES CONDITIONNF LLES
De même, pour tous A, B € jBr, l'égalité (11.29) s'écrit encore, avec la convention
d'écriture g = 0,
+ 00
P([Xi.Y)(AxB) = j l[0,i[0')B=Q+oo —ft(y)dX(y).
n-i)
Pour tout y tel que fy(y) ^ 0. [X] admet donc une loi conditionnelle sachant Y = y
donnée par
+oo
E,t°^x<>- + «>
3. Si Px = y (a. p), on a, pour tout « t N,
/ + n)ttk(x) > ».
J[o.H
ce qui implique que val([X] ) = N ; on a donc, pour tout n e N et tout y € E,
,(Xl=n. . . , . exp(-f>)lr -f/i/'
j\ (y) = l[o,[[0)
/[o..UexP(-P-v>(-v + nf~ydX{x) '
Cette expression n'est indépendante de n que si a = 1 ; dans ce cas uniquement,
c'est-à-dire si Px - exp(jj), les variables aléatoires Y et [X] sont indépendantes.
Si Px = ?xp(p), on a
P([X] = n) = exp(-;m) / pQxp(-px) iiX(x).
soit
P([X] = n) = exp(-pn)(l -exp(-/>)).
c'est-a-dire que [Xj suit la loi géométrique sur N de paramètre l — cx.p(-/i), et
+ OÛ
Vv e R /Y(v) = l[0,i[U-) £ pexp(-p{y +¦«))
» =o
soit
— exp(-p)
exp(-pv)
i ur< he i 1.6
'77
-1. Dans ce cas, on a, d'après l'égalité (11.29), pour ions A.Bt Si :
4-oc
|-+00
AU).
soi!
+ 0O
r ' ~ A" l r f t
P,[x],y)(Ax B) = [£MA)exp(~A) —JN J[(U[U) rfAUjJ.
ce qui démontre qu'alors Y et [X] sont indépendantes et de loi respective la loi
uniforme sur [(), 1] et la loi de Poisson t!P(A).
5. On a
VflevaKfX]) mfl=" = f v4X1=w(v)rfA(>-)-
jr
soil
/ y exp(-py)(v + »)"~VA(v>
1^1 ='« = ^">"
/ exp(-px){x + ti)a~ld\(x)
île plus, pour tout y lei que /y ( v) ^ 0, on a
soit :
"'[V = Lxtlp[x]yw*
[XI -
E^exp(-/)/i)0- +n)û"
lit-marque. Dans le cas où // = 2. ' est la restriction à l'intervalle (0. I [ d'une
fonction homograph ique.
Exercice 11.6. Espérance conditionnelle et variable aléatoire gaussienne;
différentes méthodes de calcul. Soient S une sous-tribu de A, X et Y deux variables
aléatoires réelles telles que X soit .S-mesurnble et que les tribus B ei a(Y") soient
indépendantes. On suppose de plus que Y a la loi normale .Nr{0. 1 ).
1. Démontrer l'équivalence des trois propriétés suivantes :
(i) exp(4r) est P-intégrable
(iif exp(XY) est P-intcgrable
(iii) exp(|XY| ) est P-intégrable
2. On suppose que exp(4p ) est P-intégrab[e.
<T[-\PITKL. IT. PROBABlr IIC5 El' ESPÉRALES CONDITIONNELLES
(a) Sans calculer l'espérance conditionnelle, démontrer que
E^exp(XY) i' 1 P-p.s.
(h) Dans le cas où £ = a(X), calculer Es exp(XY).
(c) Dans le cas général (a priori o(X) c S), calculer par deux méthodes
l'espérance conditionnelle E^expfXY), d'abord en faisant un développement en
série de l'exponentielle, puis en utilisant la proposition 11.22.
3. On ne suppose plus que exp(^r) soit P-intégrable. Calculer E^8 cxp(XY).
Solution.
1. Les variables aléatoires X et Y sont indépendantes. 11 résulte alors des théorèmes
de transfert et de Fubini que l'on a, dans M+,
/ exp(XY) <iP = / exp(jtv) d?x V> Pyix. v)
= f[j ™rt*y) dP^\y)] rfPx(.T).
Mais, Y étant gaussienne, en tenant compte de l'égalité
exp(.v>Ocxp(-y) = cxp(y) exp(~^LT^~) '
on a, pour tout .v e R :
L cxp(XJi)7^ e*p(~y) ,/A(>', = M'y)-
11 en résulte que
I exp(XYMP = £exp(y)dP.
L'équivalence de (i) et (ii) est alors claire.
Par ailleurs, en tenant compte de l'égalité, pour tout x e M,
exp(.v|>'|)exp(~y) = IM+(>') oxp(y) exp
/X \ I (v + .V)2 v
+1r-' ty) exp^ — )exp^--—y— ).
on a l'inégalité (intégrer sur ¥.+ ei M"*) :
(1130)
(11.31)
(.OLzfïl)
11 en résulte que
j cxp(|XY|) íÍPí 2y exp(y)i/P.
ce qui démontre que (i) implique (iii). Enfin (iii) implique (ii) puisque exp(XY)
exp(|XY|).
iAbKc'iOK 11.6 T79
(a) Il suffit d'appliquer l'inégalité de Jensen pour obtenu :
exp [ES(XY)] S EB exp(XY).
Mais, X étant /fi-mesurable, on a
ES(XY) = XES(Y) ¦
Les tribus S et a (Y) étant indépendantes et Y étant centrée, il vient
ES(XV) = XE(Y) = 0,
et donc ;
I < E^exp(XY) P-p.s.
(b) Si !B = o(X), une version de E^8 cxp(XV) est obtenue en composant avec X
la moyenne conditionnelle de evp(XY) sachant X. Mais, par le théorème de
transfert conditionne!, on a, pour P\-presque tout a ,
n'?^(x>.=mSiY) = ^expUY).
(la dernière égalité résultant de l'indépendance de X et Y), ce qui donne,
d'après l'égalité (1 1.3(1) :
"'?xpO<Yj =exp(^-).
11 en résulte que :
Esexp(XV) =
P-p.s.
(r) Cas généra).
• Première méthode. Puisque, pour tout p e N, on a
e( que exp(|XY|) est P-intégrable. il résulte du théorème de convergence
dominée pour l'espérance conditionnelle que
Mais. X" étant S-mesurable. on a
ES[(XY)"] - XBES(Yn).
CHAPITRE II. PROBABILITÉS ET ESPÉRANCES CONDITIONNELLES
Les tribus S et ct(Y) étant indépendantes, ¡1 vient
ES[(XY)M[ = X"E{Yn).
La variable aléatoire Y étant gaussienne, centrée réduite, un calcul classique
sur les moments (intégration par parties) conduit aux relations, pour tout
p e N* ;
E(Y2'"H) = t) E(YZ^) = 1 ¦ 3 ¦ S---(2/7 - t).
Par conséquent, on a
E,rap(XY).Ei±±^x^Ei(^,
1 /X2\»
soit encore :
Es exp(XY) = exp(^) P-p.s.
• Deuxième méthode. Si / est la fonction définie par
Vx el f(x) = E cvp(A-Y).
l'égalité (11.30) s'écrit
V-v t P. /(.v) = exp( — ) ,
et la proposition 11.22 affirme que / o X est une version de E1® exp(XY).
Remarque. On retrouve alors le résultat précédent; en effet, en raison de
finclusion des tribus S d o{x) et de la a(X)-mesurabilité de la variable
aléatoire exp(^|-). on a
Eff(X> exp(XY) = Eff(x)[Esexp(XY)] = exp^) P"Ps'
2. Soit, pour tout n e N, la variable aléatoire X„ = l,j\|^„jX ; elle est bornée par
n, et exp(^ ) est alors P-intégrable. On a donc, pour tout « € N.
¦X?
ESexp(X„Y) = exp(^) P-p.s.
La suite de terme général positif cxp(X~/2) converge P-p.s. en croissant vers
exp(X2/2). De plus, le théorème de Fatoit-Lebesgue conditionnel 11.26 donne
E^expiXY) = Es [[iminf„cxp(X„Y)] s Iiminf„ Esexp(X„Y)
£ limsup,, E£ exp(X„ Y) 5 Es [limsup„ exp(X„ Y)] = E£ exp(XY) .
i \i kcirr 11.8 1S1
Il eu résulte que la suite de terme général e1® exp(X„ Y) converge P-p.s. et que
Es exp(XY) = limEs exp(X„Y).
Il vietiL alors
X2
E^exp(XY) = exp( — ) P-p.s.
Kxercice 11.7. Espérance conditionnelle et indépendance. Soienl X ë ^1(£Î.-4.P')
H deux sous-tribus ,At el ,A2 telles que les tribus A\ v ct(X) et «A2 soienl
indépendantes («Ai v ct(X) désigne la tribu engendrée par «Ai et ct(X), c'est-à-dire la plus
petite tribu contenant «Ai eto(X)). Démontrer l'égalité
£.¦4»! V.42 ^ _
Solution. Pour tous Aj e At et A2 € A2, puisque 1a, X et 1a2 s°f t indépendants,
ou a
E[lA,nA2X] =E[1A|1a2x] =E[1a|x]E[1A:] .
et donc, par définition de E^1 X.
e[lAlnA2x] = e[u,E^x]e[ïa2] .
Mais 1A| e*4' X el 1A, sont indépendantes: il en résulte que
E[lA,nA2X] = e[(lale^'X)lA2] = e[laina2e"A'x] .
Puisque {Ai n A2 j A, e Ai et A2 £ A2) est un ^--système qui engendre la tribu
-Ai -y A2. il résulte alors du théorème de prolongement par mesurabïlité que l'on a :
VA e A] v A2 e[1AX] = e[iaE^ixJ .
Pour conclure, il reste à remarquer que e^1 X est Ai v «A2-mesurable.
Exercice 11.8. Sur la voie d'une loi forte des grands nombres. Soit fX„),,€^* une
suite de variables aléatoires réelles indépendantes et de même loi ¡1, Soit S„ =
YTj=\ X/- Démontrer que pour tout / tel que 1 5 i s; n, on a
et en déduire E^'^'X!. puis E^'Xi. où. AH = a{Sn+j \ j g N) (utiliser le résultat
de l'exercice précédent).
Remarque. Cet exercice généralise l'exemple 11.1?.
Solution, Tenant compte de l'indépendance des X/, on a pour tout borélien C de K :
/_ Xi dP = j lcUi+.ï2 + - ¦¦ + xn)
"1(C) *i <ÌPX, ®Px>®-®PxHUl-^2 xn)
i%2
CHAPITRE II. PKOP.ABJLIIES F.r ESPERANC F.S CONDITIONNELLES
et, puisque les X/ ont mênie loi p,
j Xy^P = f IcOi + X2 +¦¦- + X„)Xt dll®"(Xl,X2
= f lc(*l + X2 + ¦¦¦+ dll®n(xl,X2 Xn)
jw."
Il en résulte que :
VC e £K /" X,- a"P = f X, rfP,
ys,7'(C) Js,7' (Ci
ce qui démontre l'égalité demandée.
On a alors. S„ étant o"(S„)-mesurable,
et donc :
Puisque pour tout k €
on a l'égalité de tribus
ECT*s"'Xi =
n+k
y=n-H
,ytw =ff(S„)vo( £ X,|ieN*),
Il résulte de l'exercice précédent que
EA"Xi = Eff's"»Xi .
ce qui donne
EA"Xi =
Exercice 11,9. Méthode de .simulation par rejet et introduction aux méthodes de
chaînes de Markov. Soient f et g deux densités de probabilité sur r (par rapport à
la mesure de Lebesgue). l'objectif est de simuler une variable aléatoire Y de densité
f déforme analytique a priori >< compliquée » en utilisant g choisie « voisine » de f et
déforme analytique « plus simple ». On pose (avec la convention = 0) et suppose :
t(x) =
et 1 < t = sup / (x) < +co .
.te m
On considère une famille de variables aléatoires indépendantes {X„.YP \ n e
N*. p g N*} telle que, pour tout n e M*, X„ soit de densité g et Y„ de loi uniforme
i m wcK'b 11.9 103
sur l'intervalle [O.i]. On introduit les variables aléatoires à valeurs respectivement
dans!2 etR U\+oc} :
M« = (X„. Y„) et Xoo = limsupX„ .
( >u considère l'ensemble G = {(.v, y) e | t{x) > y\ et les applications T etXx a
valeurs respectivement dans NetRU { + co} définies en tout co e £2 par
TfíwJ = inf(í7 e N* ] Mflfw) e G) et XT(w) = Xt(w)(û;) .
où on fait la convention inf 0 = + co.
1. Démontrer que pour toute fonction <p mesurable bornée sur K, la quantité
\{(p) = E^l(M„eG)^(X/,)]
est égale, à une constante près que l'on déterminera, à l'intégrale f^^pf dX. En
déduire la probabilité P(M„ e G).
2. Vérifier que T et X-j- sont des variables aléatoires; déterminer la loi de T et en
déduire que Xr est P-p.s. finie. Calculer la moyenne de T.
3. Déterminer la loi de Xx-
4. Toujours avec la convention int'0 = + 00. on définit la suite d'applications à
valeurs dans N définies par Ti = T et, pour tout k e N*,
Va; e Q Tjt+|iu)) = mf(/i > Tk(co) | M„ e G).
Ou note An la tribu a(M,- | 1 Í ./" í n).
(a) Démontrer, par récurrence sur k, que pour tout k & N*, pour tout /7 e N*.
(Tfc = fi) e An et que T& est P-p.s. fini. On définit pour tout k e N* la famille
d'événements
ATk ~ {A e A I A n (Tk = n) e 4,, Vn e N*} .
Vérifier que, pour tout k e N *, on a l'inclusion :
A-¡k C AJ/t+i . (11.32)
(b) Soit, pour tout k e N*, /& une fonction mesurable positive bornée
quelconque ; calculer pour tout n e N*, l'espérance conditionnelle
E^[lCI>=n)A+1(XT,+ i)].
En déduire l'espérance conditionnelle
E** [fk+l(XTk + i
puis la loi de Xy/t+1,
CHAPITRE II. PROBABILI TES ET ESPÉRANCES CONDITIONNELLES
(c) Démontrer que pour tout k e N*, la variable aléatoire fk(Xrk) est ATk-
mesurable et en déduire que (Xt* )&€N* est une suite de variables aléatoires
indépendantes.
(d) Application numérique. Prendre, pour a > 2 et h > 0 tels que ah > 1, / et g
définies par
ba _ 1 / x\
¦/(*) = Ir+Wj^^-1 exp(-ôx) et g(x) = lE+(x)-exp^--j.
Vérifier que t est bornée, déterminer "x tel que t(x) = 1. Dans les deux cas
suivants, b = | et a = |, puisé = I et a = |, vérifier que 7 > I et déterminer
une valeur numérique à 10~2 près de P(M„ e G) et ET. (On rappelle que
r(i) =
Solution.
1. Le théorème de transfert, s'applique, ip étant bornée ; de plus, Xn et Yn étant
indépendantes, de densité respectives g et lr0 ,j, on a
%) = Eri(M„eG)<?(Xn)l = f ÏG(x,y)ip(x)ll[()j](y)g(x)dX2(x,y),
L J Jn2 t
et, par le théorème de Fubini (^ est bornée) :
1(f) = f <p(x)g(x) t idX(y) dX{x) = \ [ <p(x)f(x)dX(x).
L'inclusion [g — 0} C {/ = Of résulte des inégalités : pour tout x € R,
0 ^ f(x) ^ ïg(x), et 7 > 0 ; il s'en suit que l'on a
/ \<p(x)\f(x) dX{x) S f \<p(x)\f(x) dX(x) =0,
et donc :
%) = = / ^(x)/(xWÂ(x).
En particulier, si <p = 1, on obtient :
P(M„ e G) = = .
2. T est bien une variable aléatoire à valeurs dans N, puisque l'on a (T = I) =
(M, e G) e A et que, pour tout n > 2, on a
1
(T= ») = [H(M/ * G)n (M« e G>] e
i.XERClCE [1-9 i&5
il en résulte bien sûr que (T = +00) = (T e N*)L" e A. De plus, les variables
aléatoires M„ étant indépendantes de même loi, on a
P(T= l)=P(Mj eG)= 1,
et. pour tout n ^ 2,
1/. l\"->
P(T = n) = J~[ P(Mj £ G) x P(M„ e G) = -(l - =)
c'est-à-dire que T a la loi géométrique sur N*, -§N* (=). Il en résulte que T est P-p.s.
Unie, et, puisque
(XT = +00) C (T = +00),
que Xt est P-p.s. finie. De plus, on a
ET = /.
3. Pour tout <p € t?^(TK), on a alors :
E^(XT) = V [ v>(X„)dP
= / *>(x,)dp+x; /[n Vy^g,]i(m„eg)^(xrt)dp.
Les variables aléatoires ]~fy1(m,£G) et l(m„eo)<p(Xn) étant indépendantes, il
résulte de la première question que l'on a
n — l
E<p(XT) = %)[l + n P'Mi * G>]
-'w[. + E0-r']
n>2
1
= 7%).
On a ainsi démontré que :
autrement dit, Xj admet la densité /.
chapitre ii. prouaiui nés m espérances conditionnelles
(a) La propriété est déjà démonliee pour T|. Supposons la vérifiée jusqu'à l'entier
k. Si 7i < k, on a (T^ + i = n) — 0 g A„. Si n >- k + 1, on a
n-l «-]
(T*-h = ») = l+J [(T* = y) H f] (M, £ G) n (M„ e G)] . (11.33)
y = i / = / +1
où on pose
f] (M,- £ G) — Œ :
en vertu de l'hypothèse de récurrence et du fait que, si 1 < j ^ n - 1, on a
LTfc = / ) e <Ay C -An. il eu résulte que (Tk + , = h) g A,.
On sait déjà que Ti est P-p.s. fini. Supposons que soit P-p.s. fini. Il résulte
des égalités ensembhstes ci-dessus que l'on a. pour tout n e H* .
P(T^+i-n) = =P(T^«-l) + X;[p(Tt-./-)F(l-=)M J ]:
cil sommant sur N*, il vient
«eK* «en* neN*y' = J
^P(Tt< + oo) + i v>t,.;) EO-rr-1]
/en* w^/+2
= 1p(T^ + oo)+ I £ [p(Ti = /)(l-i)7]
= P(Tfc<+^),
et donc P(l¿4-] <" +eo) = 1. Il en est donc ainsi pour tout A:.
Soit A g : l'égalité ( 11.33) montre que l'on a, pom tout ft t II *.
A D (Tfc+] = n) t ,
c'est-à-dire que A e <4t>+1 '• Par conséquent on a : Ajk C -^t^ + i ¦
(b) On a alors
1(1/.=«)./*-t-if^Tj + i) - ^ 1(ta=„)./a + i(X„+/)I(ta + i=«+/')
/-1
= [1a*=«)/* + ]CX«+') Il ï{M„ + y^G)l(M/i+/eG)] -
/eN* ./=]
avec la convention n%i l(M„+/^r.) = 1-
I M:I«"ICF | I.l)
I87
En prenant L'espérance conditionnelle par rapport a <A„, et en tenant compte
de ce que (Tfc =n)e^„,ona
/-1
= 12 1("TA=«)E'"4"[.4+l(X«+/) il l(M„+.y^G)l(M,(+/€G)]
/-l
- l(TA=n,r-[./fc + i(X„+/) Y] l(M//+_/^G)1(Mff+/eCÎ)] ¦
/eN* /=1
la dernière égalité résultant de l'indépendance des tribus rj(M„+; | j e N*)
et -A„. 11 vient alors
htk=n)EA»fk + 1(xik + l) = lçlk=,l) £(l-=/~Vi + 1).
soit
lrr,^)^" /;- + i(XT/i + t) = ltu=nJn(/t+i).
Soit A e =>4>T(lr quelconque. Puisque A n ("L £ — n) e A, et que Tj. est fini
P-p.s.. on a
E[lAyi+I(X-,A + l>] = £ E[lAn(T,=,0./,+ l(X-rA+l)]
= £ E[lAltTA=«)ïï(A+i)]-
Ainsi, pour tout A e Ajk - »n a
E[1a^-+[(XTa + |)] =E[1a7K/* + ])] ,
ce qui prouve. J\(f]i + \) étant constant et donc Ayh -mesurable, que
E^'a [/t + KXTAfl)] = M(A + 1).
En prenant l'espérance, on a alors
eU+i(X1> + ij] = e[e^* [./t+,(XT,+I)]]=n(A+1).
c'esl -a-dire
e[A+i(X-1>+i)] = A+iWW^(x).
Autrement dit, XT(( + I admet encore la densité /'.
i88
CHAPITRE II. PROBABILITÉS ET ESPÉRANCES CONDITIONNELLES
(c) Remarquons que pour tout k 6 N*, fk(Xyk) est AT/C-mesurable. En effet,
pour tout borélicn B de R, on a, pour tout ueN*,
(Tk =n)n [MXTk)]~l (B) - (Tk =n)n [MXn)]~l (B) e An ,
puisque (Tfe = «) g ^ et que [,/i(X„)]_1(B) G Ai. Compte tenu de
l'inclusion (11.32), le produit YIjZa //(xT/) est alors Aik_l -mesurable.
On peut alors écrire
./=i
E[nU'(XTy)] -e[ea'*-i n/y(xt/)]
k-i
= e[f]/,-(xt/)eAr*-i ./?,)]
y = l
= E[n/i(xt7)]n(./A),
soit
./ = 1
k i-1
E[n ./)(xt/)] =E[n /y(xt;)]e[/*(xtjfc)] ,
/=1
et par itération rétrograde :
E[n»<xT/)]= riE[//(xTy)] ¦
7 = 1
Ceci étant vrai pour toutes fonctions fK mesurables positives bornées, la suite
des X-\j est une suite de variables aléatoires indépendante» (de densité /).
(d) On a
Vjceft+ t{x) = — x^expl-xfb--)].
T(a) L v îï'J
Soit /i = In of. On a :
V*€ft+* h/(x) = a—i--(b--) et /î"(x) = -i-^<0;
jt V a) x1
on a de plus :
/,'(0+) = +cg et lim h'(x) = -ab~l < 0.
x—>+oo a
Il en résulte que h, et donc r, admet un maximum unique sur ]R+ en x solution
de l'équation h'(x) = 0, soit :
^fl-l)_
X~ «6-1 '
41 kcice 13.9
on a alors
^ (ab)a / a~ \ \fl-i
- Si £> = 1 et a — I, on a
í =
5\£
27 exp(-^) - 1,66,
31
— V71
2 2V
ce qui donne :
P(M„ 6 G) 2:0,6 et ET — 1,66.
- Si b = 1 et a = I, un calcul analogue conduit à
P(M„ eG)-0,44 et ET = 2,26.
Chapitre 12
Transformées de Fourier et
fonctions caractéristiques
La transformation de Fourier associe une fonction à toute mesure bornée
définie sur WLd. Opérant sur l'ensemble des mesures bornées définies sur Md,
cette transformation est injective; elle permet donc, sans perte
d'information, de substituer à l'étude d'une famille de mesures celle de la famille des
fonctions associées. Plus précisément, la puissance de la transformation de
Fourier vient de ce qu'elle transforme le produit de convolntion des mesures
en produit de fonctions, et que les propriétés de convergence des mesures
se traduisent eu termes de convergence de leurs transformées de Fourier.
12.1. Définition et propriétés immédiates
Sauf mention du contraire, dans cette section // est une mesure bornée
sur WLd muni de sa tribu borélienne et X une variable aléatoire définie sur
l'espace probabilité (Q,, A,P) à valeurs dans Rd.
On note ( •, ¦ ) le produit scalaire euclidien usuel sur U.d.
Puisque, pour tout t 6 1^ | exp(;(.v./))| = 1 et que p. est une mesure
bornée, la fonction x \-> exp(/(,x./)) est /(-integrable.
Définition 12.1. On appelle transformée de Fourier de la mesure bornée p.
l'application p, de W1 dans 'C définie par
V/ € HT /<(/) = / exp(/{x,r)) dpi(x).
(12.1,
On appelle fonction caractéristique de la variable aléatoire X la transformée
de Fourier de sa loi PX- Elle est notée <pX-
Remarque. 11 faut bien noter que la notion de fonction caractéristique est
relative à la loi de la variable aléatoire X et non à Y application X elle-même.
La formule fondamentale suivante résulte du théorème de transfert :
V/ e MJ (px{t) - E expO'(X.i)) ¦ (12.2)
Les notions de transformée de Fourier et de fonction caractéristique
se généralisent immédiatement, et sans changement dans les formules, au
[92
CHAPITRE [2. TRANSFORMÉES DE EOUHIER ET FONCTIONS CARACTÉRISTIQUES
cas où IR est remplacé par un espace vectoriel de dimension finie E : le
crochet est alors la forme bilinéaire de dualité 1 entre E et son dual E* et
p est défini comme une fonction sur E*. Si $ est un isomorphisme de E
sur et si $[//.] désigne la mesure image de p par un calcul immédiat
montre que $[//.] — p o où désigne l'adjoint de 3>, défini sur Ud
et à valeurs dans E*. Si X est une variable aléatoire à valeurs dans E,
sa fonction caractéristique est alors définie, par la même formule (12.2),
comme fonction sur le dual E*. Les propriétés démontrées dans le cas de Md
se transportent alors au cas « général ». On pourra traiter cette extension en
exercice.
Nous donnons en parallèle les propriétés immédiates de p et (px-
Proposition 12.2. Avec les notations précédentes, on a :
1. p(0) = p(Rd) et <px(0) = 1,
2. Vf e K
3. Vi 6 Ra p{~t) = p(t)
4. Soient A € tfmd
\p(t)\ ^p(Rd) et |ç>x(0|=Sl,
et <px(-t) = <px(0 ¦
k)etb &Rk;ona:
(1231
où A* désigne l'adjoint de A.
5. Les fonctions p. et <px sont uniformément continues sur Rd.
Démonstration. Les trois premières propriétés sont immédiates et la
démonstration en est laissée au lecteur.
Pour la quatrième, on a, pour tout t e Rk,
(fAX+b(0 = Eexp(z(AX + /M)).
Par définition de l'adjoint de A, on a
(AX + b,t) = (X.AV) + (b.t)
et donc :
9Ax+bif) = exp(/(è,f))Eexp(i(X,A*()) = <px(A*t) exp(z (6, t)).
Démontrons que p. est uniformément continue. Soit s > 0 fixe ; puisque
p est une mesure bornée, on peut choisir un entier n tel que
1. Rappelons que si E est muni d'une structure euclidienne, E* s'identifie naturellement
àE.
1 2.2. LE THÉORÈME D'iNJECTIVlTÉ
193
l'out tous u,t € E , on a
p(u)~p{t)\ ^ / |exp(z(x,w))-exp(r."(x,/))| dp(x) + 2p (B(0. n)c) .
Mais l'inégalité des accroissements finis donne
| exp(/ {x,u)) — exp(i (x,t))\ $ \\u — t\\ \\x\
et donc :
//(") - m(0| ^ n^(JRd)||M 4- 2^(B(0,/î)c).
Si " — —b:, on a alors :
Vw,f6Rd tel que |/î(w) - /¿(01 ^ £ -
ce qui démontre le résultat, s étant quelconque. ?
12.2. Le théorème d'injectivité
[Notation. Dans ce chapitre, on note g(x) dx l'intégrale de Lebesgue de
g sur Kl/,
Définition 12.3. Si ¡1 est une mesure bornée sur WJ, et j une fonction
horélienne telle que, pour tout x, lu fonction y 1-» fix — y) soil p-intégrable,
lu convolution de f et p est lu fonction f * p définie pur
Vx€Rrf (f*LL)(x)=[ f(x-y)dp{y).
Si g est Lebesguedntégrable, on note g sa transformée de Fourier, c 'est-à-dire
la fonction définie sur Md pur
W € Wd g(t) = / g{x)expQ{x,t)) dx .
Pour nous la propriété fondamentale de la transformation de Fourier est
son injectivité : autrement dit, une mesure bornée ¡1 sur Rd est déterminée
par sa transformée de Fourier Cette propriété sera démontrée par une
succession de lemmes.
lemme 12.4 (Propriétés du noyau ganssien). Soit, pour tout a > 0, la
fonction ga. appelée noyau gaussien. définie sur M.d pur
Vx e
OU
est la norme euclidienne usuelle de Rd.
exp
2cr2
'94
CllAPI'IRF. 12. TRANSFORMÉES |)K FOUKIi'R F.T FONCTIONS CARACTÉRISTIQUES
(a) La fonction g„ est une densité de probabilité sur
(b) Pour tout e > 0, on a
lim / ga(x) dx = 0.
(c) Pour tout f e r5A(Rd) et tout x G
(/ —>o->o f(x).
(d) La transformée de Fourier de gy est donnée par
Vf
g Rd gat) = exp(-^) = (V2^)"gi(0
(12.4)
(12.5)
Démonstration. (a) Commençons par le cas — 1. Le changement de
variables x — oy permet d'écrire
f —)^=exA~^) dx = f "7^cxp(-^t) dy = 1
Je oV2jr V 2a2/ JR V2jt V 2/
(pour la dernière égalité, voir tome 1, ch. 6, p. 213). Dans le cas général, le
théorème de Fubiiii donne alors
ga(x) dx = Y\
| X
e*p(-^) rfx, ] = 1 .
(b) On note provisoirement || - |j2 la norme euclidienne de Md et || ¦
la norme max ; il existe une constante c > 0 telle que, pour tout a' g Rd, on
ait c||x||2 5 \\x\\oo et donc, pour tout s > 0
>II^U^c-e}c{||x||2^£}.
Alors
gjx) dx ^ / ga(x) dx ^ 1.
flMIao^e} J{.\\x\\2^e)
Mais, par le théorème de Fubini
d
ga(x) dx
{\\x\\oo^c*}
n
1
jj^{\xi\^ce\ g-j'llt ' ^ 2(T
i / y
exp
et donc
t\\x\\oo^cS}
i\y\^i s/1%
ga(x) dx —>o^0 1.
X
eXp(-2^) d*>)
\d
dy) -
ce qui assure le résultat.
I 2.2. li". TNl'ìORLÌMIÌ D'iNJI't l'I VI ir.
195
Remarque. On peut aussi démontrer ce résultat en passant en coordonnées
sphériques ; en effet le calcul montre qu'il existe une constante c(i > 0 telle
que
ga(x) dx - cc
i\\xh>s}
exp -
2
.d-l
dr .
(c) Soit x e R . Le changement de variables z = Ù-^L, de jacobien n ,
donne
f(X-GZ)gl(z)dz.
-I|2
dy
(12.6)
Mais, / étant continue bornée, on a lim^o f(x - oz) = /(x) et |/(x -
ctz)\ ^ ll/llco, constante integrable par rapport à la probabilité de densité
ifi ; le théorème de convergence dominée (appliqué à une suite positive
quelconque qui converge vers 0) donne le résultat.
(d) Soit / e Rd ; il résulte du théorème de Fubini (applicable en raison
de l'intégrabililé de la fonction x m* exp(/ {x, r)) par rapport à la probabilité
de densité g¡) que
7 = 1
!2ix
exp
- -k dxJ * ¦
On en déduit
?,(/) = exp(- —) ,
pourvu que l'on montre que
Vw e
f 1 T- A"21 7 / »2\
i . exp /xi/ dx — expl —— 1 .
Jr v2jt l 2 J V 2 /
Démontrons ce dernier résultat, utile par ailleurs : on a
Vz e
1
'27t
exp
(x - zf
j dx = 1,
ce qui donne, en développant le carré.
Vz e
'2it
exp
^- àx - exp(y) -
(12.7)
De plus, pour tout z e c, on a
1
'2jr
exp
Izxl - — \ dx < +oo.
1 2 J
J9<~>
CUATI JHT. I 2. IKANSrORMrrS Dr FOUR1ER ET FONCTIONS CARACTERISTIQUES
ce qui démontre d'une part l'inlégrabiliié de l'application x i—<• exp[r.v— ^J,
puisque
exp
:X —
2 J
<
exp
zx -
2 J
et d'autre part l'inégalité suivante, par convergence monotone :
+°° f 1 |za|" r x2-]
/ ¦ ' exp dx < +oo .
Le corollaire du théorème de convergence dominée relatif aux séries (cf.
annexe, corollaire A.33) assure alors que, pour tout ztC,
1
2jt
exp
za* —
1 -,"
àx-'Y —
n = f)
1
:a eXp
X
"T
dx
La fonction z i— /R y= exp[zA- — ^-] f/.v est donc une fonction entière qui
coïncide sur ? avec la fonction entière z h-s» exp(y-) - en vertu du principe
du prolongement analytique, ces fonctions coïncident sur C. Il reste à faire
z = lu dans l'égalité (12.7). ?
Le lemme suivant est la clef de la démonstration du théorème d'injec-
tivité; il affirme que la donnée de ¡1 détermine les produits de convolution
gv * ¡1 (c > 0). La démonstration du théorème 12.6 consistera ensuite à
montrer comment la donnée des g„ * ¡1 détermine à son tonr la mesure fi.
Lemme 12,5. Soit ¡1 une mesure bornée sur Rd. Pour tout o > 0 et tout
y € Rd, la fonction ga{- — y) est ji-intégrable et
.?t*mk.v) =(V2¿)~d f /7((0£l(ar)exp(-/()•,;*)) dv . (12.
8)
Démonstration. Soit y £ Rd. La fonction ga{ ¦ —y) est /¿-integrable puisque
bornée (ainsi que ¡x). La relation (12.5, entre g] et sa transformée deFourier
g i permet d'écrire
ga{y ~ x) - gai* - y)
1
8\
(Os/27T)d
soit, par le changement de variable v = ^ de jacobien ^7.
1
ga(y~x) =
(s/2x~y
I gi{ov)exp(i {x - y, v)) dv.
On a donc
Kgrr * ¡i)(y) - Í j— , [ g\{av)exv(i {x - y.v)) dv dp(x).
2
12.2. IT IHhORÈMP n'iNIEClIVifÉ
107
Comme on a
cl comme la fonction déterminée par le membre de droite est ¡i ® Xj-
intégrable (là encore l'hypothèse ¡1 bornée est importante !). il résulte du
théorème de Fubint que
{go * H){y) = (V^rr</ / I" / exp(/(a-, v))dn(x)]gy(ov) exp(-/{y, v)) dv.
jltd lj:\ld j
ce qui est le résultat annoncé. ?
Théorème 12.6 (Théorème d'injeetivité de la transformation de Fourier).
Deux mesures bornées sur R'1 qui ont même transformée de Fourier sont
égales:
Démonstration. On rappelle qu'une mesure ¡1 bornée sur ?.d est
déterminée par la donnée, pour tout / e rf/J,(TR'/), des intégrales f?ll f d¡± (cf.
ehap. 8, corollaire 8.5). Soit donc / g r5/,(M1') quelconque: on montre que
son intégrale par rapport à \x est fonction de /¿, ce qui assure l'injectivité de
la transformation de Fourier.
Soit une suite positive (cr„)>,e] 1 quelconque qui converge \ers 0.11 résulte
de la relation (12.4) que, tout ,\ é [p/,
lim(/*.?ffH)a) = /(.icj ¦ (12.9)
n
Notons que, d'après (12.6), on a, pour tout « e N.
¡(/*.sVj(v)|$¡[/¡loo ¦ (12.10)
puisque toute fonction constante est /¿-integrable, le théorème de
convergence dominée assure alors que
/ / dfi= / l\m(/ * ga„)(x) d/X(x) = Uni / (/ * ga„)(x) d¡x{x).
soil encore :
f /-£//!= lira f \ f fivïga„(x-y)dv]dtnx). (12.11)
On peut, dans cette dernière expression, changer l'ordre des intégrations,
après avoir observé que la fonction (x,y) hh* f{y)ga,Xx ~~ est ^d ® M"
integrable. On a en effet, par application du théorème de Fubini pour les
fonctions positives.
d yïo
f(y)goll{-y-y)\dXd®n(x.y) = i \f(y)\\ i g<lr,(x-v)dXd(x)]dii{y).
CHAPITRE [2. [KANSKJUMÛ-,1! DI. I OL.Kir.R FT rONCTIONS CARACTÉRISTIQUES,
te qui implique que
/ i/(v)iV„(-v->-)|^A(/®^(.t.r)
3 f Wf\\J f ^„(x-y)dXtl(x)]dp{y).
Puisque, pour tout y <E Rd, on a
/ g<t„(* -)') àXd{x) - / ga„{x) dXd{x) = I ,
on obtient alors les inégalités
\f(y)gvA* - v)l dXd®nix,y) < \\f\\ooimd) < +oû.
</v = lim / /(>')(tfffjJ */*)(>¦)</>'.
ce qui permet d'appliquer le théorème de Fubini aux intégrales apparaissant
dans l'égalité (12.11 ). En tenant compte de la parité de g„n, on obtient alors
/ fdp, = \\m /(>¦) / ga„(x-y)dii(x)
.soit, d'après l'égalité (12.8),
f dp - (72^)--* Uni / /(>)[ / /i(i;)^i(a«t')exp(-({v, v))dv]dv.
Ceci montre, comme annoncé, que }^ti f dp est fonction de p et le
théorème est démontré. ?
Remarque importante. Il résulte de la propriété d'injectivité que la fonction
caractéristique d'une variable aléatoire à valeurs dans Rd caractérise
entièrement la loi de cette variable aléatoire (d'où son nom): en particulier, le
tableau du chapitre 8 donnant les lois de probabilité et leur transformée de
Fourier se lit dans les deux sens! Cette propriété a été démontrée pour la
première fois par Paul Lévy2, en 1922, pour les variables aléatoires réelles
et en termes de leur fonction de répartition.
Pour préciser le théorème d'injectivité, il existe une formule donnant
explicitement la fonction cumulative3 d'une mesure bornée sur Rd en
7. Paul Lévy (1886-1971), né à Paris, enseigne à l'École des mines de Saiar-Indenne, puis
a celle de Paris, en enseignant parallèlement à l'École polytechnique. Ses premiers iravaux
pOTtem sut l'analyse fonctionnelle, mais il sr îpumr cite veis le calcili îles probabilités. Sa
contribution à la théorie des probabilités est lies importante, en particulici. d,ms le domaine
des processus aléatoires et du mouvement brownien. Ses teuiTes sont rassemblées dans une
série de trois livres édités pai (iauthier-VillarS en 1970 et 1980.
3. La fonction cumulative d'une mesure bornée \t. sur est la fonction dé Unie sur ?.d :
i fi({y | y ^ x}). le signe ^ désignant l'ordre partiel usuel de R(/. Si ¡1 est l.i loi d'une
uiriable aléatoire X à valeurs dans R''. la l'onction cumulative de /i n'est autre que la fonction
de répartition de X.
i 2.3. i.ë i hCOkème n"[n.lbC'][V['l'f.
fonction de sa transformée de Fourier (voir l'exercice 10 de ce chapitre).
Nous nous contentons d'étudier ici le cas où la mesure est absolument
continue.
Proposition 12.7. Soit p une mesure bornée sur Rd telle que sa transformée
Je Fourier p soit Lebesgue-intégrable. Alors ¡1 est absolument continue par
rapport a la mesure de Lebesgue et sa densité est donnée Xj-p.p. par la
fonction continue h définie par
Vx e Rd h(x) = / p(t)exp(-i(xj}) dt
(27l)d fad
Démonstration. Pour identifier la mesure p il suffit de calculer les intégrales
if:.<j .1 dp pour tout f e '£fc{Rá). Reprenons la démonstration du
théorème d'injectivité à son terme ; on a, pour tout / e ~€x?d) et toute suite
positive (g„)u<=n qui converge vers 0 :
/ f dp = lim / f(v)igv„ * ItHy) dy .
Mais, d'après (12.8), on a
\ga„*fi{y)\^ / \í¡(v)\gi(onv) dv $ / [pi(v)\ dv <+oo,
et donc
\f(y)go„*fi()')\ - l./'OOIIIill,., ¦
Le membre de droite est alors Lebesgue-intégrable. puisque / est continue
à support compact et on peut appliquer le théorème de convergence
dominée :
/ / dp = / /(r)[lim(^aii *pHy)] dy,
fa* fa'J "
ce qui demontre que p est absolument continue par rapport à la mesure de
Lebesgue et que sa densité est donnée Xcj-p.p. par la fonction continue h
définie par Jim„(gajl * p)(y)- On obtient le résultat en notant que
\imp(v)gi(a„v)exp(~i(y,v)) = (s/27r)~d p{v) exp(-i (y, v))
et en appliquant une nouvelle fois le théorème de convergence dominée, ce
qui est licite puisque /? est integrable et que, d'après Ut relation (12.8), on a
\V-(v)gdonv)t\p{-i (y,v))\ 51 \Jï(v)\.
La continuité de h est obtenue par le théorème de continuité des intégrales
à paramètre, corollaire du théorème de convergence dominée. ?
200
CHAPITRE 12. TRANSFOKMÉFLÍi DF I UURlER B'| FONCTIONS CARACTÉRISTIQUES
12.3. Propriétés relatives à l'indépendance
Sur Rdl xlrf: le produit scalaire euclidien usuel vérifie, pour tous (Xj. x2)
et (t,. H) de lRrfJ x R'^ :
((x),x2),(fl,/2)} = (*,,/,) + (x2,/2) .
Il en résulte immédiatement la proposition suivante :
Proposition 12.8. Si /i, et p2 sont des mesures bornées respectivement sur
R 1 et R 2, la transformée de Fourier de la mesure produit est le produit direct
des transformées de Fourier de p\ et p2- ce qui signifie que :
V(i],r2) e Rd] x
iii ® P2ÌUJ2) = /Ai'(íi) 112(h) ¦
Démonstration. La fonction (x,, x2) i-> exp[/ ((a"[, ,v2), , r2)}] est bornée
donc /¿! cgi /¿2-integrable ; le théorème de Fubini donne le résultat en tenant
compte de la relation
exp[i ((x,.x2). (t[.r2))] = exp[/ (xL,f[)]exp [i (x2j2)] .
?
On obtient alors un critère d'indépendance de variables aléatoires en
termes de fonctions caractéristiques.
Corollaire 12.9 (Critère d'indépendance). SoitX = (X[,X2) une variable
aléatoire à valeurs dans Rdï x Rd2. Pour que Xi et X2 soient indépendantes,
if faut et il suffit que
V(í,,í2) e Rd" xR'h- V(Xi,x2)Íí1.í2) - ^x,Ui) <Px2(î2). (1112)
Démonstration. Pour que X, et X2 soient indépendantes, il faut et il suffit
que P(Xi,x2) = Pxi cgiPx2, soit, par le théorème d'injectivité, que P(\, ,x2) ~
Px, ® Px2 - l-a proposition précédente donne le résultat. ?
Remarque. La fonction caractéristique d'une marginale s'obtient très
facilement ; avec les notations du corollaire 12.9, on a
Vi, e R''' ipriti) = íP(Xi.*2><'i'0)>
VÎ2f£Ë^ íox2(í2) = 9>(x1ix2jÍO.í2).
(12.13)
Le corollaire 12.9 peut donc encore s'énoncer sous la forme :
Corollaire 12.10 (Critère d'indépendance bis). Soit X = (X],X2) une
variable aléatoire à valeurs dans Ed| x Rd2. Pour que X, et X2 soient
indépendantes, il faut et il suffit que
y(tuti) e F/1 x
<Ax 1 ,x2)(íi. H) = (p(X] ,x2)0i, 0)v(x, .x2i(0. Í2)
(12.14)
[ 1.3. PROPRIÉTÉS RFI.ATCVES À I_'lN DÉPfcNDANt.fc
201
exemple 12.1. Soient X] et X2 deux variables aléatoires réelles
indépendantes de même loi de Laplace, de fonction caractéristique <p donnée par
V/eR (p(t) = y^j-2 ¦
On définit les variables aléatoires Y] et Y2 par
Y, = X,-X2 Y2 = X,+X2,
c'est-à-dire -YA^/I -1\/X,
D'après l'égalité (12.12). la fonction caractéristique de (Xi,X2) est définie
l^r j j
V(/i,r2) € M2 (p(xux2)iti,t2) = 72 7—72
et, d'après l'égalité (12.3), la fonction caractéristique de (Y,, Y2) est définie
par
V(fl,f2)elR2 <fi(yly2){tl ,h) = V(X[,x2)^i +'2.-/1 +11)
1 1
1 + + h)2 1 + (-i. + i2)2
On obtient les fonctions caractéristiques des marginales Yi et Y2 par les
relations (J2.13) :
Les variables aléatoires Yi et Y2 ont même fonction caractéristique, donc
même loi; elles ne sont pas indépendantes puisque ^(y( .y-,)(U 1) — \ 7^ Yè ~
(1)(^yz(1).
On peut toutefois remarquer que ces variables aléatoires sont non
corretees puisque, X, et X2 ayant même loi, donc mêmes moments, on a
E[Y,Y2] = E(Xf)-E(Xi)=0 el E[Y,] = E(X,) - E(X2) = 0
etdonccov(Y]. Y2) = 0.
L'un des intérêts essentiels de cette théorie est que transformée de
Fourier de convolution de mesures bornées et fonction caractéristique
de somme de variables aléatoires indépendantes se calculent facilement,
comme nous allons le voir maintenant.
Proposition 12.11. Si fii et /i2 sont des mesures bornées sur Md, la
transformée de Fourier du produit de convolution de et p.2 est le produit de leur
transformée de Fourier
202
CHAPITRE 12. TRANSFORMÉES d\~- 1 OURIFR ET FONCTIONS CARACTÉRISTIQUES
Démonstration. La convolution * [i2 étant la mesure image de ft[ ®
(i2 par l'application somme et l'exponentielle complexe étant bornée, le
théorème de transfert donne :
Vf € Rd [Cr^Tiiit) - / exp(/ (.v, + x2,t)) dfix <8 /i2(.V|,x2) -
Jp,d
Le résultat s'obtient en factorisant l'exponentielle et en appliquant le
théorème de Fubini. ?
Corollaire 12.12. Soient Xt et X2 deux variables aléatoires indépendantes à
valeurs dans M*'. La fonction caractéristique de leur somme est donnée par
Vf eR* «*i+x2(0 = vx,(0tfx2(0.
Démonstration. Il suffit de se rappeler que, du fait de l'indépendance, la loi
de Xi + X2 est la convolution des lois de X, et X2. ?
On obtient alors, compte tenu de l'injectïvité de la transformation de
Fourier, un moyen de calcul de la loi d'une somme finie de variables
aléatoires indépendantes.
Exemple 12.2. On rappelle le cadre de modélisation de la loi mnltinomiale.
Soit k e N* fixé. Pour tout n e N*, on considère une partition (A"),^,-^
de Q, où A" e A. On suppose que les familles d'événements, indexées
sur n, constituées par les éléments de ces partitions sont indépendantes. On
suppose de plus que :
où pj > 0 et rj/=i Pj ~ 1- On définit les variables aléatoires X" et Y" à
V// e N , Vy = 1,2, k P(Ap - Pj ,
valeurs dans Rk par
X" = [ : I et Y» = J^XJ .
Les variables aléatoires X; étant indépendantes de même loi, la fonction
caractéristique de Y" est donnée par
V'eR{ <pYn(t) = yx] (/)]".
De plus, puisque (A')^.^ forme une partition de on a
k Ç k
Vf e R* (fri (0 = X) / exP(/ <X' • ')) (/P = PJ expUtj),
hDNCTlON CARACTF.RISllOUE ET MOMENTS
203
et donc
k
(12.15)
Remarque. Il en résulte que si Zi et Z2 sont deux variables aléatoires, à
valeurs dans ffife, indépendantes, de lois multinomiales respectives
Mdi]-. />,. p2,..., pk-]) et M(;f2: pi, ¦ ¦ ¦,la variable aléatoire
Z, +Z2 est de loi multinomiale M(/>1 + n2: p\ . pi pk- \ )¦ Autrement dit,
la famille des lois multinomiales M(n; p^ p2 pk-ô, n € N*, est stable
par convolution.
12.4. Fonction caractéristique et moments
On étudie les relations entre les propriétés de dérivabilité de la fonction
caractéristique et l'existence des moments d'une variable aléatoire. On
rappelle, sans démonstration et sous une forme vectorielle, le théorème de
dérivation d'une intégrale dépendant d'un paramètre.
Tbéorème 12.13. Soit p une mesure a-finie sur l'espace prohabilisahle
(£2. -A). Soient E et F deux espaces vectoriels normes de dimension finie et
O un ouvert de. E. Soit f une application de O x £2 dans F vérifiant :
1. Pour tout co € £2, l'application partielle / ( •, co) est de classe O dans O
et il existe g € £X{Q,-A.p) telle que
V.v € E
dx
$8-
2. Pour tout x e O, l'application partielle f(x, • ) est p-intégrable.
Alors l'application de O dans F. x ^ fQf (,v. co) dp(o>) est différentiable
et on a pour tout x e O :
J f(x.a>)dfi(to) = J -^f(x,io)dhi((o).
Démonstration. La démonstration résulte d'une simple application de Tin-
égalité des accroissements finis et du théorème de convergence
dominée. ?
Dans un premier temps, pour éviter les « difficultés » inhérentes au calcul
différentiel, on s'intéresse aux variables aléatoires réelfes.
Proposition 12.14. Soit X une variable aléatoire réelle et <px sa fonction
caractéristique.
21 >4
ci Ia p] 1 rt I 2. TRANSFORM PI ".S 1)1 ¦ 1 1)1 irii'R l.l' R)NC'IIONS ( 'A R AL' ITK IS ligi; l!S
(a) Si X admet un inameni d'ordre ti e N*, <px est de classi' C" et, pour
tout entìer k tei que 1 $ k < ti, on a
Vi ^o)^,;* / xfc exptùX) rfP. (12.16)
et, en parliadier,
(12.17)
tpW(0) = ìk EX*.
(b) Inversement, si <px est k fois dérivable en 0 (k ^ 2), X admet des
k
moments jusqu'à l'ordre 2[—] ; ils sont donnés par la formule (12.11).
Démonstration. (a) Puisque
-~ exp(/7X) = (iX)k exp(/;X),
dtK
on a k
^exp(,7X)| S|X|\
et on peut appliquer h fois le théorème 12.13.
(b) Démontrons le résultat pour k — 2. Dans ce cas, <px admet un
développement limité de Taylor-Young à l'ordre deux et donc :
lim = <pK(0).
Alors, puisque
<px(0 + <PxH) = 2ï'U^x(0) = 2Ecos(fX),
ona -î-cosax)-] i
r — COS Al
1™X ^J=-2»'î(°)
L'inlégrande étant positive, il résulte alors du lemme de Fatou que, si f/fl)weN
est une suite convergeant vers 0, on a ;
1 — cos(£„X)-
fX2 dV=E
Jq
2 lini inf„
_.. . ,crl -cos(/„X)i
2hm inf E < +oo.
» L /3 j
Supposons avoir démontré l'existence de tous les moments jusqu'à ['ordre
2(« — 1) = 2[|] — 2; il nous faut démontrer que le morne tu d'ordre
2n — 2[|] existe. (I résulte de la proposition directe que
^""'V, + tp^-l\-t) = (-\)"-l2E[X2(,,-s\oH(X)]
Êt ^,"-"(0) = (-ir-'E[X2,"-I)].
I 2.4. FONCIlON CARACTERISTIQUE El MOM EN 1 S
205
Par ailleurs, ?>x " l> étant par hypothèse deux fois deïivable en 0, admet un
développement limité de Taylor-Young à l'ordre deux, cl donc :
lim
-2("-|)(0 + yxt"-')H)-2y
t2
De ces trois dernières relations, on déduit que
2(n-0
X
(0)
lim E
1^0
J 2
On conclut avec le lemme de Faton, de la même manière que ci-dessus. ?
Remarque. Comme le montre l'exemple ci-dessous (cf. Stoyanov, p. 64,
ou Jeu lin, chap. 2, p. 20), la fonction caractéristique peul être derivable à
l'origine (et même en tout point) sans que la variable aléatoire admette une
moyenne.
Exemple 12.3. Soit X une variable aléatoire réelle de loi Px = YZk^i a^k
symétrique, c'est-à-dire telle que - et telle que V^eN kak ~ +oo.
On a
+ 00
/ |Xj dP = 2 V kak = +oc et <px(t) - a0 + 2 ^T\/fr cos(fcf).
On choisit la suite (ak)k<=z telle que la suite (ka^ken* tende en décroissant
vers 0. On rappelle la majoration :
sin(/cx)
k=o
y^exp(i^x)
1 - exp(ï(n + l).v)
¿=0
On a donc, si a e]0. 2jt[ ;
1 - exp(/x)
sin(^)l
Vn e N*, Vx e [a.2x - a]
y^sin(fcx)
k=o
sin(-)|
Le critère d'Abel assure la convergence uniforme sur l'intervalle [a, 2jt - a]
de la série de fonctions de terme général kak sin kt ; la fonction est donc
dérivable sur cet intervalle et donc aussi sur IR \ 2;rZ, puisqu'elle est 2jr-
périodique. Il reste à choisir convenablement la suite {cik)kçz pour obtenir
la dérivabilité en 0. Prenons la suite définie par
c
a0 = u, = £ï_! = 0 et V/c 5 2 ak = ti-k ~ ,
K Itl K
où c — \{^Zk^-, j±\nk) 1 0a série de terme général ak est une série de
Bertrand convergente). Toutes les conditions requises précédemment sont
2(>6
CHAPITRE 12. iKANShORMl'.l'N III I i II1 |i|i[R |i| FONC I |ONS < A|í ACl KlílS'l'lOU I .S
satisfaites. De plus, pour tout / / 0. on a. par le théorème de transfert :
0 e LzlhíH = IE|] _ cos(/X)l - — V —(I -cositk)).
l t / —* A- ^ In A-
k=2
Pour km W telqueO < / < 1/2. éclatons cette somme en deux, suivant que k
est plus petit ou plus grand que t~l. Les fonctions x i-> (In i )~' et x i-> ,v~2
étant décroissantes (comparaison séries et intégrales), on a
1^1 f , s 2^1 2 C+OÜ 1 ,
7 E Fïï^1-«»''*» *-7ta7 Z^s-j^h^**
2 ,m + i _l
--,([!]_ Dm, - -[f]-i l-ir
Par ailleurs, en utilisant l'inégalité
V.v e 1 I - cos y < —
2
il vient de même :
- V , 1 , (I - cosú/ó) g t V -i-r- 5= — + í —
/ ^ A2 In A-v ^ InA- ln2 ^ In*
í ^ fk 1 , / /'' 1 ,
< h i > / — r/x Í + i I — dx.
In 2 ¿-> A , lnx ln 2 ^ J, In .y
De plus, classiquement, par une intégration par parties, on a :
1 r -t
dx -
y
1
r2 lnx Un x h J2 (lnx)1
Mais puisque, pour x tendant vers l'infini. ^„^2 - on a ai,ssi- pour
v tendant ver*, l'infini / dx — o( / — dx\ : il en résulte que
lim t I — dx - 0,
î^O /2 lnx
ce qui achève de démontrer que
lim — — 0.
/-?0 t
c'est-à-dire que <px est derivable en 0 de dérivée nulle. En résumé, pour un
tel choix de lui, X n'admet pas de moyenne, cependant que vJx est derivable
partout
12.4- FONCTION CARACTÉRISTIQUE I 'I MOMENTS 207
La proposition 12.14 se généralise an cas de variables aléatoires à valeurs
dans Rd. Par souci de simplification, nous n'étudions dans ce cas que les
moments d'ordre inférieur ou égal à deux.
Proposition L2.15. Sc/f X une variable aléatoire à valeurs dans Rd et soit <px
sa fonction caractéristique.
(a) Si X admet une moyenne (c'est-à-dire est de norme integrable), <px
est différentiable ; sa différentielle en t, application linéaire de Rd dans C est
donnée par
Vf e Rd ,~ix e RJ (px(0(x)=' f (X..v) expfï (X,/)) dP;
ru particulier, on a :
^(0)(.ï)=/(EX,
(b) Si la norme de X est de carré intégrable, tpx est deux fois différentiable
et sa différentielle seconde en t, application bilinéaire de Rd dans C est donnée
par
VfeJR^. Vy, yçR'' i&(')(-r,y)=-f (X.x) (X.y) exp(f (X,r))rfP;
en particulier, on a :
JQ
V.v e Rd <p^(0)(x,x) = -E{X,x]
La variance de X est alors donnée par la relation
Vx e Rd <?*(x) -tf/x(0)(x.x) + [<f'x{0)(x)Y ,
et la matrice de covariance Cx de X est donnée par
1
a2 \
/ i) 'à \
Cx = (
-8(i3^(0))H
Démonstration. (a) Puisque
¿¦exp(/{X,í)) = /{X,-)exp(í{X,í)),
on a
-exp(/ (X,i))
y,a
< 11X11 ,
et on peut appliquer le théorème 12.13.
20K
CHAPHkE 12. 1KANSI-OHMÉF.S DI- [DUkihB bl K"i\r MONS CARACTÉRISTIQUES
(b) De même, pour x, y e Ed,
-9/
- exp(i <X.f» U.j) = - (X,x) (X, v) exp(f (X,/)),
et donc
df
exp(i(X.O)
S IIXI
et on peut encore appliquer le théorème 12.13.
Enfin, pour calculer la variance, il suffit de se rappeler que
Vx e Rd a2{x) = E (X,x)2 - |E (X.x)f .
L'opérateur d'auto-covariance de X, Ax, étant obtenu par bilinéarisation de
la variance, vérifie
Vx,y e jRrf (Ax*,>'> = -^'(0)(x, v) + [^.(0)(.v)] [^.(0)(v)],
ce qui donne la matrice de covariance Cx, représentation matricielle de Ax
dans la base canonique (les dérivées partielles en 0 sont les valeurs de la
différentielle en 0 prises aux différents vecteurs de cette base). O
Exemple 12.4. (Suite de l'exemple 12.2.) Calculons la moyenne et la matrice
de covariance de Y„ (n ? 2). On a. d'après l'égalité (12.15),
(0 = inpj exp(tij) Pm exP(''m)
d'où
Cl donc
—<pYn(°) = inpj ,
E(Y„) — npj .
Si j /, on a
d2
<py.,(!) - -n(n - l)/'/^exp(/;J)exp(/7i)^^;7,„exp(^m)j
a2
'ôtidtj
et donc
dii'dlj
ce qui donne, après calcul :
<^Y„(0) - -n(ll - ))p,pl .
Enfin, on a
J z.4. FONCTION CARACTÉRISTIQUE F! MOMENTS
209
3,j
<pYn(t) = inpj expO'fy) / pm exp(/f,„)
*- m= 1
k
+/(/7 - \)pj exp(ïf;)[^ pmexp(z*fm)j
et donc
9^y„(0) = [1 +(«- \)pj] ,
ce qui donne, après calcul :
(c-\n)jj = "PjO - Pi) -
L'existence de moments permet d'obtenir un développement limité de
la fonction caractéristique en zéro, ce qui est particulièrement utile pour
l'étude des convergences en loi (voir au ch. 141a démonstration du théorème
limite central), mais aussi pour calculer les moments, par identification
des coefficients du développement limité). On donne aussi une condition
suffisante pour que la fonction caractéristique soit développable en série
entière.
Proposition 12.16. Soit x une variable aléatoire réelle et soit <px sa fonction
caractéristique,
(a) Si x admet un moment d'ordre n € N*, <px admet un développement
de Taylor en 0 avec reste intégral qui s'écrit sous la forme, pour tout 1 e R,
Vx<0 = F ^exfc + -^-e[x" f (1 -m)""» exp(iiuX) du
kl (/( — 1)! |_ Jq
fc=o
II en résulte que
" (it)k iit)"
Vf e R <px(t) = -^~Exk + "^T8^ -
k=()
(12.18)
(12.19)
ou
\sn(t)\ ^ 2e|X"| et lim £-„U) = 0.
On obtient ainsi en particulier un développement limité d'ordre n de <px au
voisinage de 0.
(b) Si x admet des moments de tout ordre et si
l|X||» 1 ,
lim sup — — < +00 .
n n R
(12.20)
2 1 0
LHAPITKF }2. TRANSFORMÉE Dt HDl'KIF.R FT FONCTION S C ARAC] ÉH1S l'IQUFS
où \\X\\n est la norme4 n deX (cette condition est en particulier satisfaite si la
variable aléatoire X est bornée), alors <px est développante en série entière au
voisinage de tout réel, le rayon de convergence étant 5 R/e (In fonction ipx
est donc analytique). En particulier, <px admet dans l'intervalle ]— R/e, R/e[
le développement
(12.21)
Démonstration. (a) La formule de Taylor avec reste intégral appliquée
à l'exponentielle complexe donne, pour tout yel,
ex,
et donc, pour tout / e M,
H-l
exp(iVy) du .
fe=û *' (« !»¦
(12.22)
On obtient la formule (12.18) en intégrant par rapport à P. Par ailleurs, en
remarquant que {
[ {l-u)n~i du = -.
Jq »
on a, pour tout v e R,
exp(ô>) = JT + f [(1 - wr-^expCiwy) - 1)] du,
ce qui donne, pour tout t e e,
exp(zVX) - è^-X* + t^V.X" f [(l-w)"-l(expO'wrX)-l)] du.
En intégrant par rapport à P. il vient, pour tout tel,
ou
k=o
• i
.;„(t) = « J [xrt jf (1 - u)n~l [exp(iutX) - 1] rfw rfP.
-t. On rappelle que la norme » d'une variahle aléatoire X est dëiïnie par ||X||„ =
(Jo |X|" (/P) dans la mesure où cette quantité est finie.
I 2.4. FONCTION CARACTÉRISTIQUE ET MOMENTS
Ën utilisant le théorème de Fubini, on obtient la majoration :
MOI < 2«EjX"| / (1 - w)""1 du = 2E\X"\.
De plus, on a
|X"(1 -u)"-l[exp(iurX)- 1]| ^2|Xri(l
majoration indépendante de i par une application A[0,i] & F-intégrable.
Après application du théorème de Fubini. il résulte du théorème de
convergence dominée (prendre une suite quelconque qui converge vers 0) que
lim e„(0 = 0.
(b) Soit un réel quelconque t0. La variable aléatoire X admettant des
moments de tout ordre, sa fonction caractéristique <px (à variable réelle...)
est c?°°. Celle-ci admet un développement de Taylor de tout ordre n, donné,
pour tout réel t, par
*x(0 = <Px(to) + è ^p-^f'o) + R»(/o, 0 ,
4 = 1
où le reste est défini par
''0
Il s'agit de démontrer que ce reste tend vers 0. Remarquons qu'il résulte de
Jtn n-
i
12.16) que l'on a
|R„(vn|4"-'"ll,X,U']
1+1
(n + 1)!
Soit s > 0 quelconque ; la condition (12.20) implique qu'il existe N tel que,
pour tout n^N, on ait
n R
soit, en utilisant la formule de Stirling :
[<^]^I(_,Ki + .KGr^(l + ^ + ^ '
Le membre de droite convergeant vers \t — to\(^ + s)e, il résulte de
l'arbitraire de e que
,imsup[LzMW,|(
n L »! -I R
212
CHAFITRF 12. TRANSFORMÉES DL KHJKiliK liï FONCTIONS CARACTÉRISTIQUES
Alors, pour tout t tel que \t - t0\ < R/e, le lest de Cauchy montre que la
série de terme général \t - t0\n \\X\\^/nl est convergente. Il en résulte que le
reste de Taylor Rn(t0, t) tend vers 0 quand n tend vers l'infini, ce qui prouve
l'existence du développement de Taylor en t0 pour <p\ et aussi l'analycité
de <px- On obtient alors le développement (12.21) en prenant t0 = 0 et en
tenant compte de la valeur des dérivées de <px en 0 donnée par (12.17). ?
Exercices
Toutes les variables aléatoires introduites sont définies sur un même
espace probabilisé (Q, A, P).
Exercice 12.1. Fonction caractéristique et injectivité, loi triangulaire; des fonctions
caractéristiques peuvent coïncider snr un intervalle sans être égales (Stoyanov). Soit
<f> la fonction définie sur R par, pour tout réel t :
[) j 0 sinon.
Soit X une variable aléatoire de loi triangulaire sur l'intervalle [—1, ]], c'est-à-dire
que X est de densité fx =
1. Calculer la fonction caractéristique <px de X. On note p la loi uniforme sur
[—|, i]. Justifier le fait que la loi Px de X est le produit de convolution p * p.
2. Démontrer que <E> est la transformée de Fourier d'une probabilité ¡1 =¦ f ¦ x sur
R où / est une densité de probabilité à déterminer.
3. Soient Y et Z deux variables aléatoires telles que Y soit de densité / et Z soit à
valeurs dans l'ensemble des entiers relatifs Z, de loi donnée par
pz= 2S° + £ (2k - 1)2*2 *(2*-D*.
k€Z K '
11 s'agit de démontrer que les fonctions caractéristiques de Y et Z coïncident sur
l'intervalle [—1. 1] et ne sont pas égales. Pour cela, développer en série de Fourier
la fonction *J>, périodique de période 2 et égale à 1 — 0> sur l'intervalle [-], 1] et
conclure.
Solution.
1. La densité de X étant paire, on a
<px(t) = J (1 - \t\)cxp(itx) dx = 2j (1 - t)coa(tx) dx ,
ce qui donne, après une intégration par parties, valable pour tout / ^ 0,
] cos /
V; ^ 0 <px(t) = 2 et <pX(0) = 1 .
rxrunce u.i
213
Ceci s'écrit encore
Vi
¦ 2 f
sin -
2
í 0 <px(t) = 4 = [£(/)] et ?(0) = 1
puisque la transformée de Fourier de p vaut, en lout t =¿ 0.
p{t) = f cxp(ííx) t/x = 2 -,
11 résulte de ki propriété d'injectivité de la transformée de Fourier que la loi de X est
la convolution de la toi uniforme sur [—¿.5] par elle-même.
2. Puisque C> est integrable, il résulte de la proposition 12.7 que si \i est une
probabilité telle que /À = <f>, elle est de densité / donnée par
1 f A 1
Vx e IP: /"(*) - —== / /¿(f) exp(-i.ví) <íí = <t>í-.v).
^/2jr ,'r \/2jr
'2jt ,/r V2jt
Puisque la variable aléatoire X est de densité fx = 0, sa fonction caractéristique <px
vaut <î»; on doit donc avoir
/0) = -^<px(-x).
jin
l-I donc, puisque ip\ est paire.
Il reste à vérifier que la probabilité ¡1 =. f ¦ X ainsi définie vérifie bien /< = O. On a,
pour tout réel ; :
JT(/) = f f(x) exp(Jxt) <lx = i / ^x(ï)exp(/.v( ) rfx ;
on a donc, toujours par la proposition 12.7 (<px est intégrable), que ^lit) = fx(—t),
et puisque fx est paire, que = fx = O.
3. La fonction caractéristique de Z vaut en tout réel / :
soit
1 4 +0Û 1
»*('> = 5 +^ E ptTT? 0081(2*-1),r'1-
Par ailleurs, la fonction U*, est paire, périodique de période 2, continue et cl par
morceaux. Le théorème de Dirichlel assure que, pour tout réelï.
*(0 = ? + ^ancq%(lnn
, ^~„-_-v ^
>¡— 1
214
CHAPIÏHF \z. TRANSFORMÉES LUÌ rOlliíll-'K F,l FONCTIONS CARACTÉRISTIQUES
OU
a<) = I \t\dt = \ et
f1 t fl
an = i |/| cos(2;m—) dl = 2 i tco§{xni)di si/jtFJ'
J—\ 2 7o
Si « e N*, on a, après intégration par parties,
Í 4
"ii j ) ~~ -> •> si'î esi pair
( 0 si » est impair ;
on a donc, pour tout / réel ;
1 4 +OÛ 1
K— l
11 en résulte que, sur l'intervalle [—1, 1] :
<p.A(,) = 1 _ = 4>(f) =
^Moli est à remarquer que la variable aléatoire Z est discrète tandis que la variable
aléatoire Y admet une densité.
Exercice 12.2. Fonction caractéristique d'un produit de variables aléatoires
indépendantes. Soient X ei Y deux variables aléatoires réelles indépendantes.
1. Démontrer que la fonction caractéristique du produit XY est donnée par la
relation ; pour tout t e R,
Si de plus X et Y ont même loi normale --%¦((). 1), déterminer la fonction
caractéristique de XY.
2. Soient Xi, X2. X3, X4, quatre variables aléatoires réelles indépendantes, de loi
normale rjVjnfO, 1). Déterminer la fonction caractéristique ei la loi de la variable
aléatoire XiX2 +- X3X4.
3. Quelle est la loi de la variable aléatoire IX1X2 -(-X3X4I?
Solution.
1. L'application i.v. y) m- exp(itxy) étant bornée, le théorème de transfert assure
que
<Pxy(0 = i exp(iixy) dP(XtY)(x.y).
Jm2
Les variables aléatoires X et Y étant indépendantes, la loi du couple (X, Y) est le
produit des lois de X et Y. L'application (x,y) i-> exp(/r.vy) étant bornée, donc
Px S1 Py -integrable, le théorème de Fubini permet alors d'écrire
<f\y(t)= ([( cxp(itxy) dPx(x)] dPy(y).
XI'KClCE 12.3
215
ce qui démontre la formule demandée. Dans le cas de variables aléatoires de loi
normale .jVp.(0, 1 ), la fonction caractéristique de X Y est alors donnée par, pour tout
; t K :
m(o =</Re3tp(--i-)^exp(-t)^
1 / (l +f2)yS
VÎT
2. Les variables aléatoires XiXz et X3X4 sont indépendantes et de môme loi que
celle de XY ; on a donc, pour tout f e r,
1
"pXlX2+X.-,X4(0 = ^X[X2<?) <px-.ix4(') =
1 + i'
M résulte du théorème d'injectivité de la transformation de Fourier que X]X2 4
X3X4 suit la loi de Laplatt de densité la fonction v \-? \ e.\p(-|x|) (voir le tableau
des lois).
X Pour toute/ e ^(M). on a alors
f /(|u|)dP|xi.x2+x3X4l<H) = f /0m|) l exp(-|M|)./M.
soil, en utilisant la parité de l'intégrandc :
I /(|w|) dP|XiX.+x,x4lO'l = / f(u)\p+(u)c\p(-u) du.
J~r " jr
la variable aléatoire |X[Xj + X3X4I suit donc la lui exponentielle de paramètre l.
notée exp(l).
Exercice 12.3. Fonction caractéristique, convolution et moments. Soit U une
variable aléatoire réelle de densité f\j donnée par, pour tout uel:
A"
n=0
1. Calculer la fonction caractéristique ipn de U et en déduire que la loi de U est la
coiivolution de deux lois à ptéciser.
2. Déterminer alors sans calcul la moyenne et la varianee de U.
3. Soit T une variable aléatoire indépendante de U et de loi uniforme sur l'intervalle
[0, 1). Déterminer la fonction caractéristique de la variable aléatoire W = T 4- U
(penser à utiliser la première question). Justifier sa dérivabilité et donner, sans calcul,
sa dérivée en 0.
Solution
2l6
CHAPITRE I 2. TRANSFORMÉES DE FOUR 1ER fcT PONCTIONS CARACTÉRISTIQUES
1. Soit Mm réel quelconque. On a
<pij{!) = j ùxp[int)fu(u) du.
Puisque
+00
V / |exp(/fu)|l[B(B+l[(Mjcxp(-A)— du = Vexp(-A) — = 1,
il résulte du corollaire du théorème de convergence dominée sur les séries de
fonctions (cf. annexe, corollaire A.33) que, pour tout t ^ 0,
J^^exp(-A)— j exp(//M)l[wjI + i[(ï/) rfuj
+00
v-^ , , À" exp(i;(« + lu - exp(i/n)
^>p<-^ t,
«=0
exp(-A) [exp((7)^-_l] y? [kexp{it)]n
tt
soit
expO'n — 1
<pv(t) - exp[À(exp(/r) - t)] ¦
Par la propriété d'injectivité de la transformation de Fourier, il en résulte que la loi
de U est convoiution de la loi uniforme sur l'intervalle [0.1] et de la loi de Poisson
2. Soient deux variables aléatoires indépendantes X et N, la première de loi
uniforme sur l'intervalle [0, 1] et la deuxième de loi de Poisson fp(x). La loi de X -f N
est alors la loi de U. On a donc
EU = EX + EN - I + A .
et, puisque X et N sont indépendantes.
3. Supposons de plus que les variables aléatoires X et N introduites ci-dessus soient
aussi indépendantes de T. On a
Pw = Pt*Pu = Pt * (Px *Pn).
En prenant les transformées de Fourier. il en résulte que :
<p\\ = <n <fi\ <pn
i'XERCLCE 12-4
217
(remarquer qu'ainsi, en utilisant à nouveau l'injectivité de la transformation de
Fourier, on démontre que le produit de convolution est associatif). On a donc, pour
lout f ^ 0,
fexp(('n - 112
^w(0 = ~—^y2 î-exp[A(exp(/0 - 1)] .
I .es variables aléatoires T, x et N admettent une moyenne ; il eu est de même pour
W. La fonction caractéristique <pw de W est donc derivable ei on a
<p^(0) = /EW = iE[T + x + n] = ((] + A).
Exercice 12.4. Fonction caractéristique ; développement limité et développement en
série entière. Soient x, Y et Z trois variables aléatoires indépendantes de même loi
normale (AfofO, 1 )-
1. Déterminer les moments de tout ordre de X à partir de sa fonction earactéris-
liquc-
2. En déduire les moments de tout ordre de la variable aléaioire U — XY ; trouver
ainsi la fonction caractéristique de U (voir le premier exercice pour une autre
méthode qui est d'ailleurs plus rapide).
X On note V la variable aléatoire YZ. Déterminer la fonction caractéristique du
couple (U, V). En déduire la fonction caractéristique de la variable aléatoire ^"-^ _
V2
Comparer la loi de cette dernière variable aléatoire à celle de U.
4. Les variables aléatoires U et V sont-elles indépendantes ? Sont-elles corrélées ?
Solution.
1. La fonction caractéristique <px de X admet un développement limité de tout
ordre, et on a pour tout n :
Vt e R <px{t) = exp(-T) = £ ~tzr + -
k=0
I .a variable aléatoire x admet donc des moments de tout ordre (ce que l'on peut voir
directement) ; ils sont donnés, pour tout k e M, par
E(X2k+1 ) = 0 et E(X2k) = = 1 ¦ 3 ¦ ¦ ¦ (2k - 3)(2k - l).
On remarque de plus que <px est analytique sur R.
2. La fonction caractéristique de II admet un développement de Taylor de tout
ordre n, donné, pour tout réel /, par
k = l
218 CIIAPIÏRI'. I 2. iRANSFOKMh'KS 1)1'' | OURll m F/| PONCTIONS CARACTÉRISTIQUES
où le reste est défini par
Les variables aléatoires X et Y étant indépendantes, U admet des moments de tout
ordre donnés par
F,(U") = F.(X")E(Y") ,
soit, pour tout k e N,
E(V2k+i) = 0 et
E(U2*) = [^f = [ I ¦ 3 - - - (2k - 3)(2* - 1)]:
11 s'agit alors de démontrer que le reste de Taylor R„(/) tend vers (). Remarquons
qu'il résulte de (12.16) que Pon a
n+I CIT Tl« + 1
E]U|'
|RA(r)| s= —
1 ' " (n + 1)!
Par l'inégalité de Schwarz, on a
E\V\2k+i * (E|U|2/CP (E\U\2k+2)K
soit, en tenant compte des valeurs de ces moments :
E|U|2* + 1 * (2k + 1)E(U2*),
ce qui donne la majoration
lR*C>|* ^ -M + ^
on a tie plus la majoration
|R2A-l(0l < I'
2k l-3---(2fr-3)(2À:-l)
1 2**1
Le reste de Taylor R«(0 tend donc vers 0 dès que |/1 < 1 et on a alors
son
Par le principe du prolongement analytique, cette formule est alors vraie pour tout
réel.
i mcrciciì 12.4
\ Soit (a,b) e M2 quelconque. Les variables aléatoires X, Y, Z étant
indépendantes, les théorèmes de transfert, puis de Fubini (l'intégrande est bornée)
! (induisent à l'expression de ta fonction caractéristique de (U, V) suivante :
<p((Sy)(a.b) = exp(i(ax + bz)y)dPy(y)] dPx ® dPz (x, z)
= / <p\{ax + bz) dpx ® (x, 2).
h2
c'est-à-dire
t
t
2n
(ax+bz)2-\ r x'
exp
2 J r"L 2
(t +û2)jc2 + 2afrjtz + (I + b2)?2
2
— ] Éfjcrfs.
I e théorème de Fubini donne
V(u,v)(".*) =
/" r (1 +
calcul cont
/• r au2 + 2hui ,h\ f r v2i I
lexpL-—^— r = expU i/x4-2-J >
r (t +b2)z2+ lubxzi 1
exp[- ^— -JrfzJ dx.
2tt h " r" t 2 JL/„ "L 2
Un simple calcul conduit à démontrer que, pour tout (a. h) e U2
aii2 + 2/)U
' 2
Il vient alors
¥>(i!.v)(«» — exp[-
ce qui donne après réduction :
2tt (b\
(I + a2)jt:
2;r
exp
7262X2
+ 62 ' V2(l +b2)
dx
VT+a2+b2
a fonction caractéristique de l^-v est donnée par, pour tout l e R,
^(0=?.V)(^.^-7=Î.
Le théorème d'injectivité de la transformation de Fouricr assure que les variables
aléatoires u+-v et U ont même loi.
4. On a
?.v)(a./>) 7^ c>(u.v)(«,0)«)(u^v)(0» = <pu(a)<pv(b),
ce t|ui démontre que les variables aléatoires U et V ne sont pas indépendantes. Par
contre, les variables aléatoires X, Y, Z étant indépendantes, on a
E(UV) = E(XY2Z) = E(X)E(Y2)E(Z) = 0.
Puisque U et V sont centrées, il en résulte que les variables aléatoires U et V sont
non corrélées.
220
CHAPITRE 12. TRANSFORMÉES UK KOIJHII.H ET FONCTIONS CARACTÉRISTIQUES
Exercice 12.5. Critère d'indépendance de variables aléatoires bornées (M. Kac).
Soient x et Y deux variables aléatoires réelles bornées. Démontrer que pour que x
et Y soient indépendantes, il faut et il suffit que
V(M) e N2 B[XkY1} = E(X*)E(Y'). (12.23)
Solution. La condition est nécessaire, puisque si X et Y sont indépendantes, les
variables aléatoires Xk et Y* le sont aussi, ce qui donne la relation (12.23).
Inversement, supposons la vraie. La fonction caractéristique de (x, Y) est donnée en tout
(u, v) e R2 par
¥>(X.Y)(w,v) = e[exp(/wX) exp(^Y)] =e[(^ v ' )(^ )].
k=0 ' 1=0
Soit C un majorant de |x| et |Y|. On a
¿2 ITn ¦ = exp(|w|C) cxp(|u|C) < +oo.
Il en résulte que la famille j0"'^** ^v]\y/ | (k.I) e N2} est sommable et,
puisqu'elle est dénombrable, que l'on a, par application du théorème de convergence
dominée :
?,Y)(«,,)= E '*+'wE[^Y']-
En tenant compte de Phypothèsc, il vient
?y)(«,«)= X) 'fc+/^-E(xA)E(Y'».
Cette dernière famille est encore sommable et il vient, par application de la propriété
de Fubini, puis à nouveau du théorème de convergence dominée,
nx,v, («..-) =[E'*FE<x<:)][^i'7rE<Y')]
ken leN
fc€N ' leN
c'est-à-dire
¥>(X,Y)(w,f) = <px(u)<py(v)-
Ceci démontre l'indépendance de x et Y.
Exercice 12.6. On peut avoir <px+y = <px <py sans que 'es variables aléatoires x et
Y soient indépendantes. Soit / la fonction définie sur R2 par
V(x,y) eR2 f(x,y) = l-lc(x,y)[l +xy(x2 -y2)],
où C = [-1, l]2.
HXr.KClCE 12.6
221
1. Vérifier que / est une densité de probabilité sur R2 relativement à la mesure de
I .ebesgue.
2. Soit (X, Y) une variable aléatoire à valeurs dans R2 de densité /. On définit la
variable aléatoire Z = X + Y. Calculer les densités des variables aléatoires X, Y, Z.
Préciser les lois de X et Y.
3. Démontrer que si U est une variable aléatoire réelle admettant une densité paire,
sa fonction caractéristique vérifie :
r+oo
Vi e R (pu(t) =2 cos(îm) /u(w) du .
Jo
Calculer alors les fonctions caractéristiques de X et Y. Exprimer la fonction
caractéristique de Z en fonction de celles de X et Y.
4. Calculer le coefficient de corrélation de X et Y.
5. Remarques sur cet exercice.
Solution.
1. La fonction / est positive ; en effet, pour tout (x, y) e C, on a
-1 < -y2 < x2-y2 x2 $ 1 et donc \xy(x2 - yz)\ ^ 1 ;
il en résulte que
1 + xy(x2 - y2)^0.
La fonction / est mesurable ; c'est une densité, puisqu'en utilisant la linéarité puis
les symétries, on trouve que :
[ f(x, v) dxdy = \ [ [1 + xy(x2 -y2)) dxdy = 1.
Jr2 4 Jc
2. La variable aléatoire marginale X admet la densité fx donnée par, pour tout réel
x,
fx(x) = [ f(x,y) dy = ~h-iA](x) / + 1 [1 +xy(x2-y2)] dy.
Jr 4 J-i
U en résulte que :
fx = - l[-t,i] ¦
La variable aléatoire X est de loi uniforme sur l'intervalle [—1,1]. Par symétrie, il en
est de même pour la variable aléatoire Y. Remarquons que / n'est pas le produit
direct des densités de X et de Y ; les variables aléatoires X et Y ne sont donc pas
indépendantes.
Étudions maintenant la loi de Z, La variable aléatoire (X + Y, X) est transformée
par un difféomorphisme linéaire de la variable aléatoire (X, Y) ; le jacobien étant de
valeur absolue 1, la variable aléatoire (Z, X) admet la densité /(z.x) donnée en tout
(z, t) e R2 par
./(Z,X)(Z.0 = /(X,Y)('.Z -t).
222
CHAPITRE 12. TRANSFORMEES UE FOURIER F.T H>NC DONS CARACTÉRISTIQUES
La variable aléatoire Z admet la densité fz donnée en tout z € B par
/+00
f(x,y)(t,= ~t)dt
-00
1 ç + 00
= [1 + ((2 - t)(t2 - (z-,)2)\C(t.z-t)] dt ,
4 J-<x>
soit
min(?+[,I)
ma.\(r-i,-i)
[\+t(z-l)(l2~(z-t)2)] dt.
Si 0 < z < 2, on a
fy.(z)
1 r1
= - / [1 + zt(z-t)(2t-z)] dt .
4 Jz-i
En faisan! le changement de variables u = 2l — 2, on obtient
-2-Z r
j'zu) =
1
-(2-Z) L
2-z r
-(2-z)
1 + Z«
u -y- z z — u
2
du
z2-u2^
1
¦2-z
zu du + - j du .
-(2-z)
soit, la première intégrale étant nulle.
2-z
Les variables aléatoires (X, Y) et (—X, —Y) ayant même loi, il en est de même des
variables aléatoires Z et —Z ; il en résulte que fy est paire. On a donc
VZGE _/z(--) = l[_2,2i(2)
2 - \z\
3. Si U a une densité paire, sa fonction caractéristique (p\_\ vérifie, pour tout t
(pu(t) = f [cos(rw) + i sin(ïw)] fv(u) du .
Je.
SOlt
f+QG
(pu(t) — 21 cos(rw) fxj(u) du .
Jo
La fonction caractéristique de X est alors donnée par
1 1
V«eM tpxKt) = 2 / cos(fw) - du .
'0 2
soit
Sin !
Vf 0. ^x(/) = rpvpj = —- et ipx(<)) = V-'y(O) = 1 -
i XEKC1CE 12.7
223
De même, la fonction, caractéristique de Z est donnée par
f2 2-z sin2î 1 f2
W ^ 0 mz(t) = 2 f cos(/z) dz = / z cos(?r) t/z,
70 4 t 2 J0
soit, après une intégration par parties,
1 — cos2/ sin2 t
yz(f)= 2;2 =
On a donc
<P'A = <PX <PY ¦
autrement dit, par la propriété d'injectivité de la transformation de Fourier, on a
Px + v = Px *Py-
4. On a EX = EY = 0. De plus
E(XY) = 1 j xy [1 + .vvt-v2 - y2)] dx dy ,
soit
E(XY) = \[J^ ¦* V dy - J x2y4 dx rf>>] = 0.
Le coefficient de corrélation de X et Y est donc nu).
5. En résumé, on a un exemple de variable aléatoire (X.Y) de loi non uniforme
sur C dont les deux marginales sont de loi uniforme et sont non indépendantes tout
en étant non corrélées. Toutefois, ces marginales vérifient <^x+y = fx <py (et donc
Px+y =Px*Py).
Kxercîce 12.7. Encore un exemple où l'on a <px+y = 9x <Py sans que les variables
aléatoires soient indépendantes ; lois de Cauchy. La loi de Cauchy \ia de paramètre
a > 0 est la probabilité sur K de densité fa définie par. pour tout réel x.
fa(x) =
it (a1 + x2) '
1. Démontrer la relation sur les transformées de Fourier :
Vf s R îTa(l) = iï\(at) ;
en déduire que si une variable aléatoire Z suit une loi de Cauchy de paramètre 1, la
variable aléatoire n'L suit une loi de Cauchy de paramètre a.
1. Soient U et V deux variables aléatoires de loi de Cauchy de paramètre 1. On
rappelle que j±\(t) — cxp(—|f |), comme un simple calcul par résidus peut le montrer,
Soient quatre réels strictement positifs a,h,c.d et X et Y les variables aléatoires
définies par
X = aU + b\ Y = cU + dV.
Calculer la fonction caractéristique de la variable aléatoire (X. Y) et en déduire que
X et Y ne sont pas indépendantes.
224
chap1trf 12. f'KANSrOKMKfcS DE FOURJl'K I I FONCTIONS CARACTÉRJSMQlIËS
3. Calculer la fonction caractéristique de X + Y et en déduire l'égalité des lois
Px+Y = P\ * PY •
Solution.
1. Pour tout réel t, on a. par changement de variables,
a . f , x, I dx
fia(t) — l exp(j'fx) -—r — dx = l cxv(ial-)
J'ii x{<>2 + x-) U a'
ce qui montre que
fiait) — fiiiat).
La fonction caractéristique (paz de aZ est alors donnée par, pour tout réel t,
(pazO) = (pz(ai) = fi (at) = fiait).
La propriété d'injectivité de la transformation de Fourier assure alors que la loi de
aZ, est la loi /<„.
2. On a
(?
où A est la matrice
'a h'
Pour tout fû\/î) e M2, on a
. c d
A 1 "'-^la+rfjSj
il en résulte que. pour tout [a. fi) 6 R2 :
<P(X,Y)W-fi) = <P(U,V)(«« + f^,/)ff + dfl).
soit, puisque les variables aléatoires U et V sont indépendantes.
<P(X,Y){ot-P) = (pv(a<x+cj3)(pv(ha+dfi) = exp(—[ \aa -\-cfi\ + \ba + d(i\ \)
On a
<px(a) = ^(X.Y)(«-0) =exp(-[a +b]\u\).
et donc,
¥>(X,Y)(<*. 0) # VJx(«)ipY(^).
ce qui démontre que les variables aléatoires X et Y ne sont pas indépendantes.
3. Toutefois, on a, pour tout réel a,
tp\+Y(a) = (t>(\.Y)(ûf,ûf) =expt-[(a + c + b + d )\a\] )
ce qui démontre, par injectivité de la transformation de Fourier, que
Px+Y = PX *PY.
l'XF-RCICIi I 2-9 225
Exercice 12.8. Fonction caractéristique et support de loi. Soit X une variable
aléatoire réelle de fonction caractéristique <p\.
1. Démontrer que s'il existe un réel t0 ^ 0 tel que jgcxOo)I = 1, alors il existe un
réel a tel que
/ 2jl \
Px(a + 2-) = l.
2. S'il existe deux réels lx et t2 non nuls tels que t\jt2 soit irrationnel et tels que
kx(f[)i = \<Pxih)\ = 1, alors la variable aléatoire X est dégénérée (c'est-à-dire
qu'elle est P-p.s. égale à une constante).
3. Démontrer que pour que la variable aléatoire X soit dégénérée, il faut et il suffit
que \<px0\ = 1-
Solution.
1. Soit un réel t0 ^ 0 tel que <fx(h) = txp(ii{lu). c'esl-à-dire tel que E[cxp(('r0(X -
«))] = I. On a alors
E[l - exp(i/0(X ~a))] - 0,
et, en prenant la partie réelle,
E[l -cos</0<X-a))| - 0 ;
l'intégrande étant positive, il en résulte que P-p,s. eos(Co(X — a)) = 1, et donc que
px(« + 2f ) = l.
2. Supposons qu'existent deux réels t\ et t2 non nuls tels que ^ soit irrationnel et
tels que \ifx(h)\ = Ipxte)! = 1- D'après la question précédente, il existe deux réels
a et h tels que
Vx(a+1—)=?x(b + I.—) = \
fi ' ^ ' '2
Si la variable aléatoire X était non dégénérée, les ensembles a + Z2^- et h + Z2^
auraient au moins deux points communs distincts, c'est-à-dire qu'il existerait des
entiers k k' el / ^ /' tels que a + ~ h + / g et a + k'2^ = b +
On aurait alors
, M , 2jt 2tz lit
a — b = l k— = / — - k — ,
H h t2 l,
el donc
'2 t\
ce qui est impossible si ti/t2 est irrationnel. I.a variable aléatoire X est donc
dégénérée.
3. Si la variable alénloire X est dégénérée et vaut P-p.s. a, on a, pour tout réel /.
— exp(ila) et donc \(px\ = I.La réciproque résulte de la question précédente.
Exercice 12.9. Fonction caractéristique et espérance conditionnelle. Jeu de pile ou
l'ace (variante). Soil (Un)«eN une suile de variables aléatoires réelles indépendantes
île même loi (S-{ + On pose U_, = n. On définit la suite de variables
226
chapitre 12, transi-o uméks l'ourier et fonctions cauacl'f.kistiques
aléatoires (Y„)„eN par
n
On note, pour tout n e N, 5^ la tribu engendrée par les variables aléatoires Uy,
0 ^ ./ ^ n. La variable aléatoire Yn peut représenter le gain algébrique, après le
n-ième jet, d'un joueur jouant à pile ou face avec une pièce équilibrée, avec la règle
de gain suivante : il gagne une unité après le «-ième lancer si le résultat est le même
qu'au lancer précédent; dans le cas contraire, il perd une unité (c'est aussi, avec la
règle habituelle, le gain d'un joueur qui mise toujours sur la face qui vient de sortir).
1. Calculer, pour tout réel f, l'espérance conditionnelle
E^-' [exp(ifUB_iUn)].
2. Calculer, pour tout réel t et tout entier / tel que 1 ^ / $ n, l'espérance
conditionnelle E^"-' [cxp(i!'Y„)] (on pourra procéder par récurrence sur /).
3. En déduire la fonction caractéristique ip\n deY„.
4. Déterminer la loi de Y„,
5. Étudier, pour tout réel t, la suite de terme général ç\n_(t).
n
Solution.
1. Les variables aléatoires (U0, Ult,.. ,U„_!) et U„ étant indépendantes, on a
E^'-' [exp(//U„_iU„)] - /(U0, Ut,..., U„_i),
où l'application / est délinie sur M" par
V(m0."i; ¦ •., wB-i) eR" /(uq.uu-. .,un-i) = E[exp(i/u„_iU„)],
soit
f(u0, ui ,un-\) = - [exp(//u„_!) + exp(—itu„-i)\ = <ms(tun-{),
11 en résulte que :
E^-i [expO'iU^-jU^] = cos(/U„_,),
2. puisque Yn_l est .f„_i-m.esurable, on a
E5r»-i[exp(ifYrt)]=exp(i/YÍJ-I)Eír"-i[evp(;/U„_iUn)]
= expO'/Yíj-Ocosfí Urt-O-
Un calcul à l'ordre deux et trois permet de poser l'hypothèse de récurrence à l'ordre
/ :
(HR/) E57"-' [exp(i tYn) = exp(; tYn_,) cos(/U„_/) cos/_1 (/),
227
Vérifions que cette formule est vraie à l'ordre / +1. En vertu de l'inclusion 5^ / _t C
:r„ -i, on a :
£¦^«-(/ + 11 [exp(ifY,,)] = Ey»-'-i [Ey»-'[exp([/Yn>]] ,
soit, d'après l'hypothèse de récurrence,
Ey«-t'+i>[exp(í/Y„)] = Ey''-'-' [exp(iíYfI-i)cos(íU„_,)cos'~1(/)].
soit encore, puisque Y„_(; + i, est i^-/^,-mesurable,
Ey«-"+"[exp(i/Y«)]=exp((/Yn_(/ + 1)J
E5r«-/-i[exp(í/U„_(/+1)U„_/)cos(íU„_/)cosí-,{0]-
Un calcul analogue à celui de la question précédente conduit à l'égalité
En-(/ + o[exp(ííY„)] = exp(ííY„_(; + 1))
x[~ exp(/'íUíl_{/ + 1)) cos{í) + 2 exPHíU«-(i + i>) cos(-/)j cos7"1 (t),
soit
Ey"-í'+D[exp(í/Y„>] - expf(íYíl_(,+ 1))cosfíU„-(/+1))cosífí) ;
ceci démontre la formule pour lout / tel que [ -< I ^ n.
3. La fonction caractéristique de Y„ est alors donnée en tout réel t par
<PY„{í) = E[Ey<)[cxp(i/Y„)]] = E[exp(/iYo)cosfiU1))]cos,'-1(0 ,
soit, puisque Y<f = 0 :
<PY„(t) = \ [cos(/) +cos(-/)]cos"-1(r);
on a donc :
<PY„(t) =cos"if).
4. On remarque que la transformée de Fourier en t de la probabilité (<3_] +8] )/2esl
cos t. Il résulte de la propriété d'injectivité de la transformation de Fourier que Y„ a
même loi que la somme de n variables aléatoires indépendantes de loi + s\)/2,
c'est-à-dire même loi que la variable aléatoire Y^„, Uj - Ainsi, pour tout entier k
tel que —n ^ /c -< h, on a, en tenant compte de l'indépendance des U/ :
P(Y„ = ¿) = P
1+J jn<U/ = i)n Q(uy = -1)}
Lic{i n) /e.l /ej£'
1,1*+"
soit
P(Y„ = *) = X
2"
JC{i n!
i,i k + n
2 2*
C11AP1TRL 12. TKANSlOH\1l")-S 1T ri)1]K11 K 1.T ] om 1 carai ) KKISDOUt'.S
On a donc, pour tout A tel que —n^k^~~ n
Wn =k) =
k+n
si k h n pair,
si k + n impair.
5. On a
el donc
en résulte que
<PY„ (f) = <PY„(-) = COs"(-
r '2 11
In y"*,, (t) - « fn I - —^ + «(-t) -
feC) =exp -— +<>(-).
^ L 2n n J
et donc que
fini,, ipv„ (0=1
Remarque. On vient de démontrer que la suite de terme général Y,,/''/ converge en
loi vers 0 (ou étudiera la notion de convergence eti loi au chapitre 14),
Exercice 12.10. Formule d'inversion de la transformée de Fourrier d'une probabilité.
Soit u une probabilité sur (P.. se) de transformée de Four ici" \p. 11 s'agit, pour
commencer, d'établir la formule d'inversion suivante : pour tous réels a el h tels
que a < b. on a
I + l ex[:
Uni — /
" + t exp(-ffa)-exp(-/r/j)
il
«,<(() Jt = -fi(\aJ}\) +- ii(|a,/)f).
(12.24)
Les résultats des questions 2 et 3 sont aussi intéressants el utiles.
1. Pour tout réel positif T. on définit la fonction complexe de la variable réelle x par
Va £ R
1 f+T exp(>;(.\ - - cxp(it(x - b))
i(v) = — / — lit.
J.t J_j H
Démontrer que, pour tout /écl x,
. lim h(x) = l-ha_b}{x) + l\a,h[(x) ¦
1—>--f-oo 2
2. En déduire la formule d'inversion (12.24).
3. Suivre la même démarche pour démontrer que. pour tout réel b. on a
u(\h'f) = lim / cxn(-irb)w(!) dt.
T—• -f-cc 2 i
4. Démontrer Pénalité dans
1 /+1
—+.rxj 21 y._r ^
Pour cela on introduira deux variables aléatoires indépendantes X et Y de loi /x el
on appliquera les résultats précédents â la fonction caractéristique de la variable
akalofre X — Y.
Solution.
1. Pour toni .r f Ui~b'< on a. par changement de variables,
¦+'ï*-«) sin,») _ I fviu-h) sj|1(„)
Il résulte de l'égalité
I rsint») I P
l'i (a ) = — / - —- du - — / du .
2jt. J_V(x_a) ii 2jt ,/^-uï_..ft)
hm / — du — —
a^+ooJn U 2
que
• si A" < a ou x ^ h. on a lim,->+oo 't(a) = 0.
1
• si a < x />. on a limy-, -i-oo ItU) = — (jt + n ) = |
• si x = a. on a
iT(«j = -/ jt~dt
,+'y Ì - axUlk ~ a)) f+T s\n(t(b-u)) , ,
¿71 Lj _[ ^ J^T
soit, par changement de \aiiabics el propriété de parité,
l'tlu'-"' sin(w)
lr(rt) = z— i du .
2ji J- [¦(/>-«) »
Il en résulte que : limT_» + 00 \j(a) = j, On a de même lini'i -^+0o 11 (b) = \.
2. En vertu de l'inégalité des accroissements finis, la fonction mesurable (t.x) m>-
exp(-i"0-cxpi-r;J>) oxp(//.v) est bornée kw |-T. T] x R. Il résulte alors du théorème
de Fubtni que
— / —— ——1 —lfj(t)dt=— / It(a)^U).
iti. J_t it 2tt Jr
Par ailleurs, la fonction a i-> sl"jM) (V» esl uniformément continue s[ir F et tend
vers jt/2 quand a tend vers + oc; il en résulte qu'il existe un réel M tel que. pour
lout (x.T), on ail |h'(-x:)| < M. Le théorème de convergence dominée assure que
lim — / —1— î——-^(r)</f = — / hm \ vix) dfi(x),
ce qui. compte tenu de la question précédente, démontre la formule d'inversion
(12.24).
CHAPITRE 12. TVANSJ-OWMLtsm. )'01;SII.K )¦! l-ONCTIONS ( "AKAl'lf k1stioijfs
3. Il résulte du théorème de Fubini que
I exp(-itb)<p(t) dt = j [J exp(il(x - b)) rfrj dji(x).
Mais, si x ^ b. on a
¦+t
i:
sin(T(ï - b))
exp(it(x - b)) dt - 2 - ,
x ~ b
ce qui donne
1 /-+t
^ j exp(-/7j>)<o(7) rfï
Puisque la fonction h h* (prolongée par 1 en 0) est bornée et tend vers 0 quand
u tend vers ±oo, le théorème de convergence dominée assure que l'intégrale du
membre de droite tend vers 0 quand T tend vers + co, ce qui démontre que
limT^ + ,^ —
1 f+T
— J e\p(-itb)<fi(t) dt = ii({b\).
4. Soient deux variables aléatoires indépendantes X et Y de loi ¡1. La fonction
caractéristique cpx-y de la variable aléatoire X — Y est donnée par
Vr e R <px-yU) = <p\(t)*P\(-i) = W(t)\2 -
Le résultat de la question précédente assure alors que
1 f+T
P(X - Y = 0) = lim — /
r+T
/_ lv(01
'¦dt.
Mais, les variables aléatoires X et Y étant indépendantes de loi il résulte du
théorème de Fubini que
P(X-Y=Q)=n®ii({x=y})= f\f l{x=y)dft(y)]dn(x)= S fi(lx})dfi(x).
jml jk j Jr
L'ensemble S = \.\ \ u({x)) ^ 0} étant dénombrable, on a
f !i({x}) dii(x) = f ii{{x}) dfi(x) = £>({*})2 = £ M({A-})2 .
Il en résulte que
lim-r^+co ^ f \<p(t)\2 dt = ^2 iidx})2 .
2T J-T
i vfrcice 12.11
F,\ercice 12.11. Fonctions caractéristiques de variables aléatoires vectorielles, calcul
de moyennes conditionnelles et injectivîté de la transformation de Fourier. Soient
deux variables aléatoires réelles X et Y telles que Y soit de loi de Bernoullî
.8(1.1 — p) et qu'une loi conditionnelle de X sachant Y soit donnée par
p£=° =S0 et Pj=l =exp(A),
oii <\) est la mesure de Dirac en 0 et exp(A) la loi exponentielle de paramètre A > 0.
1. Calculer la fonction caractéristique cpx de X. On note u la loi de X (on ne cherche
pas à la calculer).
2. En déduire les moyenne et variance de X.
On considère une famille de variables aléatoires indépendantes X0, e„, n € N*. On
suppose que les s„ sont de même loi u et que X0 est de loi exp(A). On définit par
léeurrence les variables aléatoires Xn par
V« e N* X„ = pX„_, +sn.
3. Justifier l'indépendance, pour tout n e Et*, des variables aléatoires s„ et
(Xy, Xi,... ,X„-i) et démontrer par récurrence que les variables aléatoires X„ ont
même fonction caractéristique ; identifier leur loi.
Solution.
1. Le théorème de transfert donne
V/ e P. <px(t) = / cxp(itx) dPçz,v){x. v).
Je-
La fonction (x,y) >—* cxp(;'/-c) étant bornée, on peut appliquer le théorème de
Fubini généralisé (chap. 11, théorème 11.3) et obtenir successivement, puisque la
loi de Y est PY = ph + (1 - p)Si :
<px(() = f\fcxp(itx)dvl=y(x)]d^(y)
= p / expO'r.v) dPx=<JÇ\) +¦ (l ~p) / exp(//A) </Px' = 1(-v)
= p expdt ¦ 0) + (1 - p) / exp(ffA-) 1M+ (x)A exp(-Ax) dx .
On obtient :
A
viéR <fx(t) = p + 0 - p)-,—r-
2. La fonction caractéristique de X est deux fois derivable ; la variable aléatoire X
admet donc un moment d'ordre deux et on a
E(X) = -(>x(0) et E(X2) = -^(0),
ce qui dorme, puisque
232
chapitre 12. transformées de l'ourii'r ICI' fonctions caracteristiques
E(X)
l-o - 2(1-p)
x2
3. La variable aléatoire (Xo, X],. .., X„-i ) est une fonction linéaire de
(xo, S],.. ., £„-]) ; elle est donc indépendante de d'après les hypothèses
d'indépendance faites.
La fonction caractéristique de Xo vaut, en tout réel /, <pxt,(i) = jèjj- Supposons
que ^x„_i — ^Xo- Les variables aléatoires xn — \ et en étant indépendantes, on a, en
appliquant l'hypothèse de récurrence, pour tout réel t.
et donc
soit encore
<PXn (t) = <PpX„ l {t)<ps„(t) =<PX„_l(pt)<pen{t),
X r kl
?„(0 = - — P+(\-P)t—~\.
X — ipt f X-iti
<Px„(i) =
X~it
11 en résulte que, pour tout n, <px„ = <£>Xo- et donc que les variables aléatoires X„
ont même lot exponentielle cxp(A).
4. Puisque X„_| et s„ sont indépendantes, la moyenne conditionnelle m^"'—' de
X„ sachant X„-i est donnée par, pour tout réel a„_| ,
ffx„_l=*„_1 =pXn_] +E(e„),
soit
X„_l=x„-l _ 1 ~P
5. La fonction caractéristique <p(x„-, ,x„) ^e 'a variable aléatoire (Xfl_i.X„) vaut,
en tout (h, v) s R2,
<P(x„-, ,x„i»< v)=K\pxp{i (wXn-i+vX,,)J=E[exp(i(w+pw)X»-i) exp(iue„i
soit, par indépendance des variables aléatoires X„-i et en :
ï'(X„-l,X„)("-l;l = <fx„_l(w +pv)^w(u) ¦
11 vient
A
A - / (m + pu)
[p + d-P)
X
X — iv "
6. Le couple (X„_i, X„) admettant une moyenne, sa fonction caractéristique est
différentiable et on a
î^¥î(x,t-i.x„)("-u) ='"E[X„_, cxp(/(wX„_i +vx„))] .
r:x¡;RCicr; I2.U
233
II en resulte que
g^CX,, .i,x„)(0,tí) =í'E[Xn-i expO'uX»)] .
soít, d'après le théorème de Fubinj généralisé,
ou encore, puisque X„ est de loi exponentielle cxp(A),
VueR — (p(x«_,,xw)(0-u) = ' / exp(íu*)/(a) dx = i J(v),
vu Jm
où la fonction /, integrable positive, (de transformée de Fourier /) est définie par,
pour tout réel -ï,
f(x) = \^{x)XQxp(-Xx)m^ -
Par ailleurs, le calcul direct de la dérivée partielle <p(x„„., ,x„) donne
Ai
Vu £
tonxn-lx«)(<>,*) = -¿_ipvkk_iv)
Il en résulte que la transformée de Fourier f de f vaut en tout réel v :
?<») - A
(A — ipv)(X — iv)
fonction Lebesgue-intégrable. La formule d'inversion assure alors que
1 f X
/(*) =
2n h (A - ipv)(X -iv)
Reste à calculer cette intégrale : on a
A 1 1
exp(— ixv) dv.
(A — ipv)(X — iv) 1—p A
p
— p A — iv
et. d'après le théorème d'injectivité de la transformation de Fourier (appliqué à la
transformée de Fourier de la loi exp(A)).
/
Jr
X
2tz ./r X — iv
fl en résulte que :
exp(-ixv) dv = 1r+(a) exp(—A.v).
1 x / X
jix) - -ln, i-(-) exp —x
J ' ' \-p R p' Vp/ l-p
La définition de / et un calcul facile montrent que
lR+(x)exp(-Xx).
Va- e !R m*" ~x = (x) '
A(l - p)
1 -exp(-
A(l -p)
Chapitre 13
Variables aléatoires gaussiennes
Ce chapitre est consacré à l'étude des variables aléatoires gaussiennes
à valeurs dans un espace vectoriel de dimension finie E; cette étude est
laite de manière intrinsèque, c'est-à-dire indépendamment du choix d'une
base de F. Bien que cela ne joue aucun rôle dans la définition des variables
aléatoires ganssiennes à valeurs dans H, il est utile de supposer £ muni
d'un produit scalaire : cela évite l'intervention explicite du dual, et cela
permet notamment de considérer la variante comme une forme quadratique
sur E (cf. chap. 8). La structure euclidienne peut d'ailleurs apparaître
naturellement : par exemple, dans l'étude de problèmes d'estimation, ou de
tests statistiques, qui conduisent à l'étude de variables aléatoires à valeurs
matricielles.
Le lecteur pourra, s'il le désire, supposer E = Rd. On se ramène
aisément à ce cas en choisissant une base orthonormée de E.
En fin de chapitre, on étudie le problème de régression dans le contexte
gaussien. En particulier, on résout, dans le cadre du modèle linéaire gans-
sien, le problème d'estimation des paramètres et les problèmes de test et de
détermination d'intervalles de confiance relatifs à ces paramètres.
Dans ce chapitre, sauf mention du contraire, toutes les variables
aléatoires seront définies sur un même espace probabilisé (fi, -A.P). On
désignera par E un espace euclidien réel fixé, de dimension ¿1, où le produit
scalaire est noté ( ¦, ¦ ). L'espace E est identifié à son dual ; ainsi une forme
linéaire m sur E sera notée aussi ( ¦, u). On note 8 la tribu borélienrte de E,
c'est à dire la tribu engendrée par la famille des ouverts de E. L'espace E
sera toujours supposé muni de la tribu 8.
Rappels (cf. chap. 8). La loi gaussienne sur JR, appelée encore loi de
Lapïace-Gauss ou loi normale, de paramètres m e R et a2 > 0, est la
probabilité de densité / par rapport à la mesure de Lebesgue, où / est
définie pat-
cette loi est notée indifféremment M (m, a2) ou M9(m,a2). Sa transformée
de Fourier est donnée par la relation
VxeR
236
C:i|APlïRI: 13- VARIABLES Al.fATOIRES CiAUSSIENNES
V; e
M(m,o2)(t) — exp(itm)
expira'
(13-1)
Une variable aléatoire réelle X est dite gaussienne (ou normale) si sa loi
est gaussienne. Si la variable aléatoire X est de loi M(m.a2), sa fonction
caractéristique est définie par
Viel <px(t) — exp(ïim) exp(-^-) ;
(13.2)
sa moyenne est m, sa variance a2. Elle admet des moments de tout ordre,
que l'on peut par exemple obtenir par des développements limités de çpx.
En particulier (cf. chap. 12. ex. 4), si X est de loi -M(Q, I), on a. pour tout
n G N,
EX2«+, -0 et sin £ 1, EX2" =
2"«!
= 1 -3--(2n - 3)(2n - 1)
La généralisation à l'espace euclidien de la notion de loi (ou mesure)
gaussienne conduit à considérer une mesure de Dirac comme une loi
gaussienne dégénérée : des variables aléatoires gaussiennes portées par un sous-
espace affine s'introduisent en effet naturellement dans celle étude; une
variable aléatoire P-p.s. constante (donc de variance nulle), est alors encore
gaussienne.
13.1. Définition el propriétés
Définition 13.1. On appelle loi gaussienne (ou normale) sur E une
probabilité p sur (E, 6) telle que (a mesure image de p par toute forme linéaire sur E
soit une loi gaussienne sur ÎL
Une variable aléatoire X 0 valeurs dans E es! dite gaussienne {ou normale)
si sa loi Px est gaussienne sur E.
Remarque. Une variable aléatoire X à valeurs dans E est gaussienne si
et seulement si pour tout m e E, la variable aléatoire réelle (X. u) est
gaussienne (cela résulte de l'égalité des probabilités ( •. w)(P\-) et P{x,«))-
Nous allons étudier quelques conséquences immédiates et importantes
de ces définitions. Elles nous permettront de démontrer l'existence de lois
et variables aléatoires gaussiennes de moyenne et de variance données.
Notation. On note X+(E) l'ensemble des opérateurs (ou endomorphismes)
auto-adjoints et positifs : un endomorphîsme A de E appartient à £+(E) si
et seulement s'il vérifie A — A* et si (A.t, .y) >. 0, pour tout x e E.
13-1. DÉHNIÏïON F.I PROPRIÉTÉS
237
Proposition 13.2. Soit X une variable aléatoire à valeurs dans E.
(a) Si X est gaussienne, la variable aléatoire ||X|| est dans Z2, et X admet
donc une moyenne m (élément de EJ et une variaiice rr2-, forme quadratique
sur E. On note Ax l'opérateur d'auto-covariance de X, unique opérateur
auto-adjoint positif tel que
ViëE
On rappelle que Von a :
(Ax-y.x) = ol(x) ¦
V.v e E E(X,jc) = (m,*) (tx(jc) = ff(x*) ~ (Ax^,-*)
(13.3)
(b) La variable aléatoire X est gaussienne si et seulement si sa fonction
caractéristique tpx est donnée par
V(eE <Px(0 ~ cxp(i (m,f)) exp --{Ct, t
(13.4)
0/'/ m & E et C e <ï+ (E). D««y ce au, on a m — EX ci C = A x-
E11 conséquence, EX et Ax caractérisent entièrement la loi de la variable
aléatoire gaussienne X.
(c) Une mesure p sur (E, S) est gaussienne si et seulement si sa
transformée de Fourier p est donnée par la relation
W e E p{f) = exP(i(mJ)) exp[-^(0,,)] ¦
(13.5)
où m e E et C e. d£+(E); m et C sont alors uniquement déterminés; c'est
en fait une probabilité sur E. Celte loi de probabilité est notée fA/"E(m, C) et
appelée ' loi gaussienne (ou mesure gaussienne^ de paramètres m et C.
(d) Soit F un antre espace euclidien ; sîX est gaussienne de loi Nt(m. Ax),
pour tout A € Z(E. F) et tout b e F, la variable aléatoire AX + b, à valeurs
dansV\ est gaussienne de loi My (Km + bt AA\A*).
Démonstration, (a) Pour tout x e E, la variable aléatoire réelle (X. x) est
gaussienne, donc dans X2, ce qui est équivalent à dire que ||X|| est dans Z2
(cf. chap. 8, prop. 8.31) ; le reste découle immédiatement des définitions.
{b) Pour tout ? e E et tout a e 1R. on a
tpxiat) = E[exp(*(X.af))] =v>{x,o(a);
si X est gaussienne, d'après (13.3), (X, f) est de loi gaussienne
M({m.t).{kxtJ)),
(13.6)
1. Pour L'inMauL rien ne dit que cette mesure existe son existence sera démontrée au
théorème 13.4.
23$
CHAPITRr. 13. VARlABI.rS ALÉATOIRES OAUSSlENNBS
ce qui, en prenant a — 1 et en utilisant (13.2) donne le résultat.
Inversement, si tp\ ^st donnée par (13.4), il résulte de (13.6) que, pour
tout t e E et tout a e R, on a
ce qui démontre que {X. t) est gaussienne, et donc aussi X. Plus précisément,
la loi de (X. t) est la loi N({m,t), (Ct. t)) ; on a donc
Vf e E E{X,t) = {m.t) et a(2x() = (O, t) ,
ce qui démontre, compte tenu de (13.3), que :
EX = m et Vf e E a^Xr) = {Ct, t) = {Axt, t) .
Autrement dit, on a EX = m et C = Ax-
(e) L'application identique I sur E, vue comme une variable aléatoire
définie sur l'espace probabilisé (E, 8, p) à valeurs dans (E, 8) est de loi p et
de fonction caractéristique /7. Ainsi \ est une variable aléatoire gaussienne
si et seulement si la mesure p est gaussienne; il suffit alors d'appliquer la
caractérisation précédente.
(d) En utilisant la définition du transposé, on a, pour tout t e F,
<pAxu>(t)=exp(i{b,t))<pxiA*t)=exp(i(Ani + bj))exp (AAX A*r, r) ,
Remarque. On rappelle (cf. chap. 8) que la matrice Cx, qui représente
l'opérateur Ax dans une base orthonormëe (ey)i^est la matrice de
covariance de X dans cette base et que l'on a
En particulier, si E = Rd, la base usuellement choisie est la base canonique ;
dans ce cas, l'opérateur Ax est représenté par la matrice Cx des covariances
cov(X,-. X/) des marginales X,. La loi gaussienne de X est alors encore notée
13.2. Existence des mesures gaussiennes. Condition d'absolue
continuité
Lemme 13.3. La mesure produit [.A/"s(0, \)]®d sur (?.d. <SRj) est la mesure
gaussienne ,MW! (0, lRj ), où l^d est la matrice identité de W1.
ce qui. ainsi qu'on vient de le voir, donne le résultat.
?
(C*),, =cov({X.cl),{X,eJ)).
I ^.2. r-XIST'ENCT des mesures GAUSSI r.NNES. ABSOLUE CONTINUITÉ
239
Démonstration. La transformée de Fourier d'une mesure produit étant le
produit direct des transformées de Fourier des mesures facteurs, on a, pour
tout / € Ud,
_ d
[JVpfO. l>]®3(/)= PJ^bCO. n](ïy->
= fi exp(- *i)=exp(" ).
/=1
ce qui démontre le résultat par injectivité de la transformation de Fourier.
?
Remarque. Ceci assure l'existence de la mesure gaussienne (0, lv<j ). Par
ailleurs, la mesure produit [^(0. l)]®d admet une densité/, produit direct
des densités des mesures marginales ; elle est définie par
V.vcR< /,,,= ^evp(-lÇ).
Ainsi, la mesure gaussienne tJVjpy (0, lRd) admet la densité /.
De ce dernier lemme, on déduit le théorème 13.4 qui assure l'existence
d'une mesure gaussienne de moyenne m et d'opérateur d'autocovariance
A donnés. Ce théorème a un contenu purement algébrique : il s'agit de
montrer l'existence d'un opérateur B tel que BB* — A. Nous donnons
deux démonstrations de ce fait, la première s'appuyant sur le théorème
spectral relatif aux opérateurs auto-adjoints, la deuxième n'utilisant que la
décomposition en carrés des formes quadratiques.
Théorème 13.4 (Théorème d'existence). Pour tout vecteur m € B et tout
opérateur auto-adjoint et positif - A. // existe une unique mesure gaussienne
Mr.On. A).
Démonstration. 11 suffit d'exhiber une variable aléatoire X à valeurs dans E,
gaussienne, de moyenne m et d'opérateur de covariance A.
En vertu de la proposition 13.2, toute variable aléatoire de la forme
\=m + BX0 .
où X0 est une variable aléatoire à valeurs dans m,k. de loi ?&k (0. I^a-), et où
B e Z(Rk.E) est tel que
BB* - A (13.7)
répond à la question.
2. Mais pns nécessairement défini pcisitit '.
240
CHAPITRE! 13. VARIABLES ALÉATOIRES gauss1ennes
Il est toujours possible de prendre pour X0 l'application identique de Rk
sur lui-même, considérée comme une variable aléatoire définie sur l'espace
probabilisable (ea, BRk) muni de la probabilité ,JVRit (0, l^k).
Pour montrer l'existence d'un opérateur B satisfaisant l'égalité (13.7),
il y a deux méthodes, la première ((a) ci-dessous) basée sur la propriété
des opérateurs auto-adjoints de pouvoir être diagonalisés dans une base
orthonormée, la seconde ((b) ci-dessous) basée sur la décomposition en
carrés des formes quadratiques (décomposition de Gauss).
(a) On définit d'abord un opérateur auto-adjoint positif À tel que
À2 — A .
(On peut démontrer l'unicité d'un tel À. On dit que À est la racine carrée
positive de A.)
Pour cela, puisque A est auto-adjoint, il existe une base orthonormée
(ei)i^ï^d de E formée de vecteurs propres de A. L'opérateur A s'écrit donc
d
A ~ X^'' ('>ei)ti ,
i=i
où les A, sont les valeurs propres de A, répétées avec leur ordre de
multiplicité (elles sont positives). L'opérateur
d
A — ^ y^j (-,£,¦)<?/
1=1
est lui aussi auto-adjoint, positif, et vérifie À2 = A. Soit <£ l'isomorphisme
de Rd sur E associé à la base (e,)^^- Il est défini par
d
V(fli,. ..,ad)€Rd <Kaj, ¦ ¦-¦ad) - Y2a>ei ¦
i=i
On peut prendre B — A<J>. En effet, l'adjoint de O, isomorphisme de E sur
Rd, est défini par
VyeE <S>*(y) = ((y,el),....(y,ed)),
(cela résulte immédiatement de la définition) et on a
= 1E
(identité sur E). On a donc
BB* = A4>0>*A* = A2 - A .
(b) Le théorème de décomposition en carrés des formes quadratiques
(décomposition de Gauss), appliqué à la forme quadratique x m*- (Ax, x),
13.2. EXISTENCE DES MESURES GAUSSCENNES. ABSOLUE CONTINUITÉ
241
affirme qu'on peut écrire, pour tout x e E,
r
<A.T,x) =£<«,-,*>2 ,
1 = 1
où r est le rang de A et où les m, sont des formes linéaires (identifiées à des
cléments de E) indépendantes sur E.
Définissons A e £(E,Rr) en posant, pour tout x e E,
Ai = ((m,,x) , (ur.x)).
On a immédiatement, pour tout x e E,
{Ax,x} = (Ax.Ax) = {A*A*.*) .
En observant que A admet pour adjointe l'application linéaire B e
X(Ur ,E) définie, pour tout» e Rr, par
r
Ba = ^ &i u, ,
1 = 1
on obtient, pour tout j: e E,
(Ajc,x) = (BB*.v,x) ,
et donc A = BB*. ?
Remarques importantes. 1. Dans les deux cas ((a) avec k = d, ((b) avec
k — r), on observe que X est portée par le sous-espace affine m + Im B.
• Avec (a), il est immédiat que ImB = Im A.
• Avec (b), on écrit que ImB - (KerB*)x = (Ker A)L. Or
Ker A - {x | {m|) a-) = ... = {ur,x) - 0} = {x | (A.y.x) -- 0} .
d'où3
Ker A = Ker A et Im B = Im A .
2. Avec (b), on a un peu plus, sans effort.
• La mesure gaussienne fA/*e(m, A) est l'image de la mesure standard
^'(O, Te') par l'application
r
a (-> m + ui. (13.8)
1=1
3. Rappelons qu'il ne faut pas confondre le cône isotrope d'une forme quadratique q
(ensemble des vecteurs ;t tels que q{x) = 0) et le noyau de q (ensemble des vecteurs x tels
que <p(x, y) ~ 0 pour tout y, où <p est la forme bilinéaire associée à q). Toutefois ces deux
ensembles coïncident dans le cas d'une forme positive, en raison de l'inégalité de Scbwarz
wu.y)\^q(x)q(y).
242
CUAHTKE 13. vauialil.ES AI r.ATOf líi's GAUSSIENN ES
Si r = d, c'est-à-dire si l'opérateur A est défini positif, cette application
est un difféomorphisme, et la mesure JVe(/w.A) possède une densité par
rapport à la mesure de Lebesgue4 sur E (voir prop. 13.6 pour le calcul de
cette densité).
• Si r < d, l'application (13.8) est un difféomorphisme de E** sur le
sous-espace affine m + 1mA. Dans ce cas, la mesure JVeOw,A) possède
une densité par rapport à la mesure de Lebesgue r-dimensionnelle sur
m + 1m A. (cette mesure de Lebesgue est bien définie grâce à la structure
euclidienne...)
3. Les deux méthodes proposées pour la démonstration de ce théorème
sont constructives et permettent, de manière évidente, d'écrire deux
algorithmes de simulation d'une variable aléatoire gaussienne de loi tV"M,/ (m. A ),
le deuxième (issu de (b)) consommant a priori moins d'appels au générateur
aléatoire que le premier (issu de (a)) dès que r < d (cela ne veut pas dire
qu'il soit plus rapide).
Définition 13.5. Avec les notations employées ci-dessus, une variable
aléatoire gaussienne de loi JvF.(m, A) est dite dégénérée si le sous-espace affine
m 4- Im A (encore égal à m + (Ker A)-1) est un sous-espace strict de E.
Nous avons vu (cf. chap. 8, exercice 7) qu'une variable aléatoire X de
carré de norme integrable prend P-p.s. ses valeurs dans le sous-espace affine
EX + (Ker Ax)"1 (sous-espace d'ailleurs identique à EX + 1m Ax). Ainsi
pour qu'une variable aléatoire gaussienne à valeurs dans E'' admette une
densité, il est nécessaire que ce noyau soit réduit à {0}. Nous allons voir que
cette condition est aussi suffisante.
Proposition 13.6. Soient ni e rd et C une matrice d xd symétrique positive et
soit X une variable aléatoire à valeurs dans m.'1 de loi gaussienne jV^j (m, C).
(a) Si C est définie positive, alors X admet une densité fx donnée par,
pour tout x € r<!,
fx\x) = ' , (detcH cxp(-Uc-Hx-m),(x-m)
(V2jr)" v ¿
(13.9)
(b) Si C n'est pas définie positive, alors X prend P-p.s. ses valeurs dans
le sous-espace affine m + Im C et, en conséquence, n'admet pas de densité
{autrement dit, sa loi n'est pas absolument continue; elle est même étrangère
à la mesure de Lebesgue sur rd j.
Démonstration, (a) Supposons C définie positive. Soit Y une variable
aléatoire à valeurs dans )\ld de loi gaussienne JV[Rf/ (0, Il résulte du lemme
4. Pour une définition de la mesure de Lebesgue sur l'espace euclidien E, voir le
complément en fin de celle secîion.
I !,.!. r.XIM'ENCF ntS MESUKFS <", AUSSIF N N ES. ABSOLUE CUN'IINLI lï
243
13.3 que les marginales de Y sont indépendantes de même loi gaussienne
¦M«(0, 1) e( que la variable aléatoire Y admet une densité /Y (produit direct
des densités de ses marginales), donnée, pour tout v e Ud, par
où II - y désigne la norme euclidienne usuelle de Wl. Soit B la racine carrée
positive de C. La variable aléatoire Z — m + BY est de même loi gaussienne
NRd(m,C) que X. L'application y m*- m + Bv est un difféomorphisme,
puisque les matrices C. et donc B, sont inversibles. La variable aléatoire
Z admet donc une densité fz donnée, pour tout 1 € RJ, par
/zU)=/v(B-1(r~m))|det(B-1)|
ce qui démontre le résultat après avoir remarqué que
||B_1(z-m)f = (C_1(x-m),{x-m)) et del(B_1) = (detC)"2
(on utilise le l'ait que B est auto-adjoim et que B2 = C).
(b) Si C n'est pas définie positive, on a Px(>" + Im Cl — 1 (puisque X
prend P-p.s. ses valeurs dans le sous-espace affine m + Im C), tandis que l'on
a Àj(//7+Im C) — 0, puisque le sous-espace affine m + lm C est stricte. Ainsi
la loi de X esi étrangère à la mesure de Lebesgue Xd- ?
Complément. On définit la mesure de Lebesgue sur l'espace euclidien E de
la manière suivante : on identifie M.'1 à E au moyeu de l'isoinorphistne 4>
introduit dans la démonstration du théorème 13.4, après avoir choisi une
base orthonormée de E. La mesnre de Lebesgue sur E est la mesure image
/.( de la mesure de Lebesgue sur Rd par <î>. Elle est en fait indépendante
du choix de la base orthonormée.
En effet, notons 4/ un autre isoinorpliisme correspondant à un autre
choix de base orthonormée de E, et i> la mesure image de la mesure de
Lebesgue Xd sur Md par f. On a, pour tout B e S,
i'(B) = A^V-'ffi)) = / lBo#<Urf.
Puisque 4> = 1E, on a
V(B) = / flB o $) o ($* o Uj) dXd ,
soit, en faisant le changement de variables défini par le difféomorphisme
<P* o u/ de jacobien ± 1 (<J>* o u/ est une isométrie),
244
CUAPllRH l^. VARIABLES ALHA1UIRES GAUSSIKNNrS
13.3. Marginales
On s'intéresse aux propriétés d'indépendance des marginales. Étudions
d'abord le cas simple où E — Rd et où les marginales considérées sont
toutes uni-dimensionnelles.
Proposition 13.7. Soit X — (X| X^) une variable aléatoire à valeurs
dans W1 de loi gaussienne (m. C), où m £ Rd et où C est une matrice
d x d symétrique positive. Alors, les variables aléatoires X;, 1 ^ j ^ d, sont
gaussiennes.
De plus, pour que les variables aléatoires Xr 1 $ / ^ (/. soient
indépendantes il faut et il suffit qu'elles soient non corrélées deux à deux (ce
qui est équivalent d dire que la matrice des covariances C de X est diagonale).
Démonstration. Les variables aléatoires Xj, l ^ j $ d, sont gaussiennes
comme transformées linéaires de la variable aléatoire gaussienne X.
Si les variables aléatoires Xj, \ < j' ^ d, sont indépendantes, leur
covariance deux a deux est nulle, et la matrice des covariances C de X esl
diagonale.
Inversement, supposons que la matrice des covariances C de X soit
diagonale. La fonction caractéristique de X vérifie alors, pour tout u de Rd,
{Cu. u]
(px(u)= expf/ (m,u)) exp(^ —j
d
i = ï ,/ = i " ./=1
ce qui démontre que, pour tout u de Rd,
d
<Px(«) = n^x/("^'
la fonction caractéristique de la marginale X, ^'obtenant en effet par le
calcul suivant :
<PXj(uj)=<px(Q.---,0, ,i,,0 0)=exp(/^w;-i^)exp(--^CyyM^.
Ainsi les variables aléatoires X; sont indépendantes. ?
On s'intéresse maintenant aux propriétés d'indépendance des
marginales d'une variable aléatoire à valeurs dans l'espace euclidien L.
MARGINALFS
24S
Pour cela, on rappelle la définition de l'opérateur d'inlercovariance de
deux variables aléatoires à valeurs dans des espaces euclidiens (cf. chap. 8,
exercice 8).
Définition 13.8. Soient F et G deux espaces euclidiens et soient deux variables
aléatoires X G P) c( Y € £2.(Q, <A, P). L'opérateur
d'intercovariance de X er Y est l'unique opérateur Ax.y £ £(F, G) vérifiant
V(.v.v)eFxG (Ax,yx,)') - B[(X,.t)(Y.v)] =cov((X..ï),(Y,.y)).
/,e.v variables aléatoires X er Y sow rfifcs non corrélées vi A,\.y = 0.
Remarque. L'opérateur A\,\ n'est autre que l'opérateur d'auto-covariunce
de X. Cette notion de variables aléatoires non corrélées coïncide, dans le cas
où E = F = R, avec la notion de variables aléatoires réelles non corrélées,
définie au chapitre 8.
Proposition 13.9. Soit X une variable aléatoire à valeurs dans l'espace
euclidien E de loi gaussienne ¦Mf.{w, A), où m tE et A Ç £ + (E).
Soit E — ®" = i E,, n < f/, ///jc décomposition en somme directe de E
lioui x e E s'écrit donc de manière unit/iw x — Y^*f~, xJt oit \y € Ej.pottr
lout j — \,n). La variabh'aléatoire s'écrit ainsiX = y^nt^\X.j, où, pour
tout j - \.... ,n, Xj est une variable aléatoire à valeurs dans lesous-espace
E,
Alors, les variables aléatoires X,- sont gaussiejutes.
De plus, pour que les variables aléatoires Xn l /' < /7, soient
indépendantes il faut et il suffit qu 'elles soient non corrélées deux à deux.
Démonstration, Les variables aléatoires X/ sont gaussiennes. comme
transformées linéaires (par les projections sur les E, ) de (a variable aléatoire
gaussienne X.
Soient j et k deux entiers distincts, 1 ^ j ^ n, i ^ k ^5 n. Si les variables
aléatoires X,-, 1 ^ j ï; n, sont indépendantes, il en est de même, pour tout
x, € Ej et tout Vk e , des variables aléatoires (X,. .y, ) et (X*. y~k) et par
conséquent, on a A\;.xA. = 0.
Inversement, on suppose que les variables aléatoires X;. I ^ j s; sont
non corrélées deux à deux. Pour tout choix de i/, dans E,. I ^ j ^ n. la
variable aléatoire ((Xt. ), (X2, w?) {X„. un)) est gaussienne à valeurs
dans P.". Par hypothèse, sa matrice des covariances est diagonale ; il résulte
alors de ta proposition 13.7 que les variables aléatoires (Xy-, 1 ;< y < n,
sont indépendantes. On a alors
246
ClIAPlIKI' 13. V-\KIABI f S ALÉA lOIKES (JAUSS|L'NNT.S
^(Xl,X2....,X»)("l.M2
soit, par indépendance,
Ç>(xi.x2 x„)("i."2.---,«„) - ]~[E[exp(/ {Xhu,))] ;
/=1
puisque la fonction caractéristique de Xy vérifie, pour tout u, eE(,
(pxjiuf) = <*><*,.x2 x„)(0 0.»j,0 0) = E[exp(/{X_,-,w;))],
on a montré que, pour tout (u,. u2, u„) e ,
V(X,.X2,...Xn)("l."2-..-»Wfl) - |~I^X/(l'-'"' •
j = i
ce qui est équivalent à l'indépendance des X,. ?
Remarque. On obtient une proposition analogue à celle de la
proposition 13.9, en remplaçant dans celle-ci la décomposition en somme directe
(By=] El par le produit cartésien Yl"j = i E/> puisqu'on fait ces ensembles
sont isomorphes pour la structure euclidienne.
En particulier, on obtient le corollaire suivant relatif aux marginales
d'une variable aléatoire gaussienne à valeurs dans un espace Rd. Nous
l'énonçons (évidemment sans nouvelle démonstration), étant donné son
importance « pratique ».
Corollaire 13.10. Soient des variables aléatoires Xj, 1 ;< j ^ n, définies
sur l'espace probabilisé (Q.. A. P) à valeurs dans Ud'. Si la variable aléatoire
X = (X[.X2,... ,Xn), à valeurs dans Rd[+d2+"'+d", est gaussienne, et si les
X, sont non corrélées, alors les variables aléatoires X, sont gaussiennes et
indépendantes.
Remarque, Comme le montre le contre-exemple suivant, dans la proposition
13.9 (et donc aussi dans son corollaire 13.10), il ne faut surtout pas oublier
l'hypothèse que la variable aléatoire globale X est gaussienne. Par ailleurs, il
est équivalent de dire que les X; sont non corrélées ou de dire que la matrice
de covariance de X est diagonale par blocs.
Contre-exemple. Soit X une variable aléatoire réelle de loi symétrique à
densité fx et admettant un moment d'ordre deux. Pour tout réel positif;/,
un)= E[exp(; ^ (Xy, Uy)j]
n
MARGINALES
=47
"ii définit la variable aléatoire Y,, par
y a = -XlrjxjSn) + X l(jX|>«) = X(21(ix|>n> - 0-
I es variables aléatoires Ya et X ont même loi. En effet, pour tout f G
( ^(H), on a, d'après le théorème de transfert,
E/(Yfl) = f f(-x)fx(x) dx + f Hx)fx(x) dx,
J(U l^fl) J(\x\>~a)
¦oit, en faisant le changement de variables x m» — x dans la première
mlégralc. et en utilisant la parité de /¦<.
E/(Y„) = f f(}')fx(y) + f /(.v)./x(-v) dx
= [ f{x)fx(x)dx = Ef{X),
ce qui démontre que Ya et X ont même loi. Puisque la loi de X est
symétrique. YB et X sont centrées et leur covariance est donnée par
cov(X, Y„) = E(XY,,)=E[X2(21(|X,^,-I)] =4 f x2fx(x)dx - EX2.
En particulier, si X est de loi <Mi(0, 1), il en est de même de Ya. Par contre
la variable aléatoire X + Ya ~ 2Xlt|X|>û) n'est pas gaussienne, puisque
Ton a P(X + Yfl = 0) — P(|X| < a) > 0; par conséquent la variable
aléatoire (X, Ya) n'est pas gaussienne. Enfin, on peut choisir a positif tel
que cov(X, Y^ ) = 0 ; en effet, sous les hypothèses précédentes, on a
cov(X, Ya) - 0 <==^ 4 / -v-2/x(.v) dx = 1 -
Ainsi, puisque f.R+. x2fx(x) dx — |. et que la fonction a ^jix>aj a'2/x(-v) dx
est strictement décroissante sur R+ et tend vers 0 quand a tend vers +oo,
il existe un nnique a positif tel que cov(X, Ya) — <-). Pour cet a, Ya et X
ont même loi gaussienne, sont de covariance nulle, et cependant, le couple
(X, Ya) n'est pas gaussien.
On a toutefois la proposition importante suivante :
Proposition 13.11. Soit une variable aléatoire Z — (X, Y) à valeurs dans
E x F, où E et F sont des espaces euclidiens. On suppose que XetY sont
indépendantes. Pour que Z soit gaussienne. il faut et il suffit que X et Y le
soient.
Démonstration. Si Z est gaussienne, X et Y le sont comme transformées
linéaires de Z. Inversement, si X et Y sont gaussiennes, leurs fonctions
24«
CHAPITRE 13. VARIABLES ALÉATOIRES GACSSIENNES
et
caractéristiques sont données par
Va eE <px(u) — exp(/ (EX, w)E) expj^— - {Axu, w)Ej
Vu 6 F <Py(v) = exp(i (EY. v)F) e*p[~^ (AYv, v)f] ¦
L'indépendance de X et Y implique que la fonction caractéristique ipz de Z
est le produit direct de cpx et y>Y, ce qui donne, pour tout (u, v) e E x F.
yz(w,u) = exp[í"({EX,w)E + {EY,u)F)]exp[-Í({Axm,m)e + (Ayu,»)f)].
Le produit scalaire sur E x F étant défini par la relation
pour tout (w, v) et tout (u'', v') de E x F,
{(u, v), («', v'))ExF = {u, w')E + {v, v')F ,
si on définit l'opérateur A e^+(ExF) par
{A(m, v), (u, v))ExF - {Axu, u)E + (AYf, t;)p ,
on a bien
<pz(u, v) = exp [i{(EX,EY),(m, l>))exf] exp -i{A(w,u). (m, v))exf],
ce qui démontre que Z est gaussienne. ?
Voici deux autres corollaires de la proposition 13.9.
Corollaire 13.12. Soit X une variable aléatoire à valeurs dans l'espace
euclidien E de loi gaussienne MF{m,K), où m e E et A e £ + (E) et soit
(e\,..., e¿) une base orthogonale de E.
Pour que les variables aléatoires (X, e¡), 1 $ i S; d, soient indépendantes
il faut et il suffit que, pour tout i = \.... ,d, e¡ soit vecteur propre de A
{ce qui est équivalent à dire que la matrice de covariance Cx, représentation
matricielle de A dans la base (e) ,e¿) est diagonale).
Démonstration. Notons que
(Ae,-,ey-> - cov((X.e/), {X,ej}). (13.10)
Si les variables aléatoires (X, e-,), 1 Í / 5 d, sont indépendantes, elles sont
non corellées deux à deux et on a, si i 7^ j,
<Ae,-,ey) =0 ,
ce qui implique que, pour tout i — 1,.,., d,
d
13-3- MARGINALES
249
Ainsi, e¡ est vecteur propre de A associé à la valeur propre (Ae,-,e?,) =
Inversement, supposons que, pour tout i — 1,... ,d, e¡ soit vecteur
propre de A associé à la valeur propre positive A,, c'est à dire que Ae,- =
A,<?,. La base {e\e¿) étant orthogonale, on a, si ; ^ y,
et donc, en vertu de (13.10), les variables aléatoires (X, e,-), 1 $ 1 ^ d.
sont non corellées deux à deux. Leur indépendance résulte alors de la
proposition 13.9. ?
Corollaire 13.13. Soit X une variable aléatoire à valeurs dans l'espace
euclidien E de loi gaussienne <A/e(îïî, A), où m e E et A e ¿£ + (E). Soient Ey,
j = \,... ,n, les sous-espaces propres de A ( ils sont orthogonaux et stables
par A et forment une décomposition en somme directe de E); on note PI y
le projecteur orthogonal sur Ey. Les marginales Xy — Il y o X. de X. sur
les sous-espaces E,, j — ],...,k, sont indépendantes de lois respectives
(n;m, Ay), où A¡ e X + (Ef) est la restriction de A à Ey.
Démonstration. L'indépendance résulte de ce que les Ey, y = 1
forment une décomposition en somme directe de E (cf. proposition 13.9).
Les Xy sont gaussiennes, de moyenne Ilym et d'opérateur d'autocovariance
flyAIÏ* = Ay, puisque les Ey sont stables par A. ?
On a vu dans le contre-exemple ci-dessus (p. 246) qu'une variable
aléatoire pouvait avoir des marginales gaussiennes sans être elle-même
gaussienne. La proposition suivante donne une caractérisation de variables
aléatoires gaussiennes.
Proposition 13.14. Soit une variable aléatoire Z — (X, Y) à valeurs dans
E x F, où E et F sont des espaces euclidiens. On suppose que Z est de carré
de norme integrable. On note Ax (resp. A.\) l'opérateur de covariance de X
(resp. Y) et Ax,y g X(E,F) l'opérateur d'inter-covariance de X et Y. On
suppose que Ax est inversible.
Alors, la variable aléatoire Z est gaussienne si et seulement si les deux
conditions suivantes sont satisfaites :
(i ) la marginale X est gaussienne ;
(ii) il existe A e X(E,F), b e ¥ et A e £ + (F) tels que, pour Px-
presque tout x e E, la loi conditionnelle Py^* de Y sachant X = x est la
loi gaussienne <?f(Ax + b, A).
Dans ce cas, on a
mÇ=I - EY + Ax,yAx'(x - EX) et A — Ay — Ax/yA^A^y.
où niy~x est la moyenne conditionnelle de Y sachant X= x.
CHAI'IIKL" 13. VAHIAR1XS Al.tAI01RES GAC SSII.NN |.S
Démonstration. Supposons Z gaussienne. La marginale X est alors gaus-
sienne. Pour C <s dC(E,F), on définit Y' — Y — CX; la variable aléatoire
(X, Y'), transformée linéaire de Z est alors gaussienne. Un calcul simple
monlre que
Ax,y' = AX;v-CAx;
par conséquent, Ax,y = 0 si et seulement si C — AX,YA^' . Choisissons
pour C cette valeur; il résulte de la remarque 1 suivant la proposition 13.10
que les variables aléatoires X et Y' sont indépendantes. On a donc les
égalités de lois conditionnelles suivantes : pour Px-presque tout x e E,
pX=x pX=x _ pX=x
rY — rY,+cx — rY>+Cx ,
soit, puisque X et Y' sont indépendantes,
py=* - iv+c, = jVf(EY' + Cx, AY/),
ce qui achève de démontrer la condition nécessaire. En fait, on a alors, pour
Px-presque tout x e E,
fpx=* = «Afr(EY + Ax.yA^'U -EX), Av - Ax,y A~'Axy)7
en effet, on a EY' = EY — CEX et, par indépendance de Y' et CX,
A y = Av + ACx = Ar + CAxC* - KY. + {\x.Y^x)^xi A^yA*1)* .
ce qui donne, en tenant compte du fait que Ax est auto-transposé,
Av = Ay-Ax,YAxlAXiY.
Inversement, supposons que X est gaussienne et qu'existent A e
£(E, F), h e F et A e tels que, pour Px-presque tout x e E,
la loi conditionnelle Py^* de Y sachant X = x est la loi gaussienne
,Nr(Ax + b. A). Soit Y" — Y - AX - b. fl résulte du théorème de transfert
conditionnel que, pour Px-presque tout x e E,
loi indépendante de x ; les variables aléatoires Y" et X sonl donc
indépendantes et la loi de Y" est la loi gaussienne <?y(0, A). 11 résulte alors de la
proposition 13.11 que la variable aléatoire (X, Y") est gaussienne, et donc
aussi la variable aléatoire (X. Y), transformée linéaire de (X, Y"). ?
13.4. Régression ; le modèle linéaire
Nous avons étudié au chapitre S le problème de régression linéaire entre
variables aléatoires réelles et sa généralisation au cas de variables aléatoires
à valeurs dans un espace euclidien (chap. 8, ex. S). Rappelons la formulation
et la solution de ces problèmes.
i i I kVi !K [.SSION I IX MODÈLE LINEA 1ST
251
< :is de variables aléatoires réelles
Les variables aléatoires réelles X et Y € X2(Q, ,A, P) étant données, la
- meilleure » approximation de Y comme fonction affine de X nu sens des
moindres carrés, identifiée à la solution en le couple (a, h) e R2 du problème
de minimisation
inf($(a./)) I (a,b) e R ),
oii ®(a,b) = E [Y - foX + b)}2, est
EY + px.y—(X-EX) .
ox
c couple optimal (a. h) est donné par
a - px.r
ox
b = EY — EX • pxr
OY
"x
(13.11)
I a droite de régression linéaire de Y en X est la droite d'équation
(y-EY)-px.Y—(x-EX) = 0,
ox
;t l'erreur de prédiction est
$(a. b) = E [y - aX 2 = (7Y - 2âcov(X, Y) + a2u\ = a2(l
Px,y) ¦
En particulier, si la variable aléatoire est de loi uniforme sur l'ensemble des
n points du plan {(.y,, y,)}^*'" on a <$(a, b) — {- X^=1[y< ~ (axi + b)]7 et
on retrouve la droite d'approximation des moindres carrés des physiciens.
Cas de variables aléatoires à valeurs
dans* un espace euclidien
Soient X e . <A, P) et Y e £2}(Q, A, P) deux variables
aléatoires prenant respectivement leurs valeurs dans des espaces euclidiens F
et G ; on suppose que l'opérateur d'auto-covariance Ax est inversible. La
« meilleure » approximation de Y comme fonction affine de X an sens des
moindres carres, identifiée à la solution en le couple (A,b) e £(F, G) xG
du problème de mirvimisation
inf($(A, b) I (A. b) e £(¥, G) x G),
où $(A, b) = E y Y - (AX + ò)||2, est
EY
Ax.yA^X-EX);
252
CHAI'I'I Kl- 13. VARIABLES ALÉATOIRES GAL'SSlENNES
dans celte formule, Ax.y désigne l'opérateur d'mtercovariance de X et Y.
Le couple optimal (A,b) est donné par
(Â, b) = (??,¥??], EY - ?????1 (EX)) .
La surface de régression linéaire de Y en X est la surface (sous-espace
affine) d'équation
(? - EY) - ??,???' (* - EX) = 0,
et l'errenr de prédiction est
?(?,?) = e||y-Âx||2- 1?[??+????*-??,??*-???,?].
soit, en tenant compte de ce que A — ??.??^1,
?(?,?) = tr[AY -Ax,yAx'A*iY] .
Ces résultats sont théoriques et nécessitent, pour être appliqués, la
connaissance des « moments » d'ordre deux du couple (X, Y). Se posent
alors différents problèmes statistiques; au vu de résultats expérimentaux
(^i->'i)) (^2.J'2) (x„.yn), valeurs du couple (X, Y) obtenues lors
d'expériences indépendantes, on veut avoir des renseignements sur la droite de
régression de Y en X. Plusieurs attitudes peuvent être adoptées, donner une
estimation de la droite de régression, c'est-à-dire eu fait donner une
estimation des paramètres a et b, tester les « bonnes » valeurs de a et b, ou donner
un intervalle de confiance pour ces paramètres. On peut aussi se poser la
question de prédiction de valeurs de Y connaissant une réalisation de X.
Nous abordons ci-dessous ces différents problèmes. Les notions
introduites pour les formuler précisément et les traiter ont une portée
générale en statistique, mais nous n'en donnons de définition que dans le cadre
limité du problème de régression. Le problème d'estimation sera introduit
de manière plus systématique au chapitre 14, section 14.4. La notion de test1
est abordée à différents endroits de ce livre (voir dans l'index à : test du chi-
deux, de Student, de Kofmogorov). Dans la suite, par souci de simplification,
nous ne considérons que des variables aléatoires réelles.
13.4.1. Estimation des paramètres de régression
Problème 1. Suite à la modélisation probabiliste d'un phénomène aléatoire,
on s'intéresse au couple de variables aléatoires réelles Z = (X, Y) censé
représenter deux « grandeurs réelles » liées à ce phénomène. La loi de Z
est inconnue de l'expérimentateur: toutefois, celui-ci, à l'issue de calculs
5. Concernant la mise en œuvre pratique de ces problèmes statistiques, on pourra consulter
le livre de Gilbert Sapotla (1990), Probabilités, analyse des données et statistique, Technip, Paris.
i 3.4. RÉGRESSION ; LE MODÈLE LINÉAIRE
253
et raisonnements, est conduit à formuler des hypothèses sur cette loi (en
particulier, que les variables aléatoires X et Y sont d'ordre deux). Il s'agit
d'estimer la droite de régression de Y en X au vu d'un échantillon de taille
11 de Z, à savoir le vecteur — [Lvj : _>-,). Lv2, yi) >(xn,yn)] de lfê2/î,
obtenu en observant n réalisations « indépendantes » de ce phénomène.
Cet échantillon est censé être la réalisation (c'est-à-dire la valeur pour une
réalisation co) de n variables aléatoires Z,, Z2...., Z„, indépendantes, de
même loi6 que Z. La méthode est celle des moindres carrés; elle consiste à
choisir, pour cet a), la droite d'équation y = c7n(to)x + bn(co) où le couple
(îi„(aj), bn(o))) est solution du problème de ininimisation
inl'(e(a,6) | (a.b) e E2),
où
n
j = l
La droite d'équation v — a„(co)x + bn(co) est appelée estimée (au sens
des moindres carrés) de la droite de régression de Y en X. Une autre
justification de l'emploi de celte estimée sera apportée par le théorème de
Gaiiss-Markov ci-dessous. Cette estimée est déterminée (pour tout co) par
la proposition suivante.
Proposition 13.15. Soient deux variables aléatoires réelles X ef Ye X2 (Q ,A,¥)
et soit Z„ = [(Xi. Y,), (X2, Y2), - - -, (X«, Y„)] un échantillon empirique de
taille n de la variable aléatoire Z — (X, Y). Les coefficients de l'estimée (au
sens des moindres carrés) de la droite de régression do Y en X sont donnés
par
~ «Yn
«n ~ —
h v? y ksy,/t
On — 1 n A.„ ¦ rn (
(13.12)
où on note les moments empiriques associés à cet échantillon de la manière
suivante : X„ et Y„ sont les moyennes empiriques de X et Y, sx,n, s'yt„ sont
les variances empiriques de X et Y, et rn est le coefficient de corrélation
empirique de X et Y. Ces quantités sont ainsi définies :
6. La variable aléatoire = (z\. Z2 7.,,) est appelée « échantillon empirique » de
taille n de la variable aléatoire Z.
254
CHAI'IIÏÎK 13. VARIABLES \LÉA'I OlRliS CiA|JSSIENNES
1 1 "
= -y>,, y- =-Î2yj-
j=\ /=1
4,„
~~ £" = 1 X ; Y j - X„ Yn
r -Îî- .
'n —
Démonstration. Il suffit d'appliquer, de la manière suivante, les résultats
sur la régression linéaire rappelés ci-dessus. Pour tout oj fixé, considérons
l'espace probabilisé (R2, i3R2,/v), où \i0) = ¿ £y=i ¿(x/(*>).y,•(*>)) est la
mesure empirique associée à l'échantillon, et considérons sur ce nouvel
espace probabilisé les variables aléatoires U et V, projections canoniques
de IE2 sur TE. Puisqu'on a
®(a,b) = Y][Yi(co)-(aXi(ü))-r-b)]2 = n I [V - (aU + b)f dfiw ,
les formules (13.11) donnent le résultat. ?
Remarque. Les coefficients an et b„ introduits dans cette proposition sont en
fait des variables aléatoires dont les valeurs en chaque eu déterminent une
estimée de la droite de régression ; ce sont des estimateurs (c'est-à-dire des
fonctions mesurables de l'échantillon Z„) des vrais coefficients de régression
linéaire a et b.
Problème 2. Dans bien des situations, la variable aléatoire est déterministe ;
par exemple, lors d'une réaction chimique, X est la dose de catalyseur et Y
est la quantité d'un certain produit formée par cette réaction. Le modèle
linéaire consiste alors à considérer que Y s'écrit sous la forme
Y = ax + b + s, (13.1.3)
où e est une variable aléatoire centrée d'ordre deux, représentant une erreur
d'approximation ou de mesure. Le problème est alors, au vu de résultats y-¡,
yi, }'n d'expériences indépendantes faites respectivement aux « niveaux »
X[, x2, .... xn de valeurs de .y, d'avoir une estimation des coefficients a ei b.
Le modèle statistique associé est le suivant. On définit n observations
indépendantes Yi, Y2,..., Yrt de Y faites aux niveaux Xi, x2,xn de valeurs
de x ; autrement dit, les Y,- sont des variables aléatoires qui s'écrivent
Y,- = ax, + b + E¡, (13.14)
où les variables aléatoires s¡, 1 $ /' í n, sont indépendantes centrées
d'ordre deux, de même vatïance inconnue o2. On cherche des estimateurs
I V4- RÉGRESSION 1 LE MODF.I h LINÉAIRE 255
mm |(7{YiU) -ru(Yi„
Théorème 13.17 (Théorème de Gauss-Markov). Soient n observations
indépendantes Y\, Y2, Y„, de Y faites aux niveaux xl} x2 x„ de valeurs
de v ; autrement dit, supposons que les variables aléatoires Y, s'écrivent
Y, =ax, + b+8,. (13.16)
où les variables aléatoires £l; 1 ^ / ^ n, sont indépendantes centrées d'ordre
deux, et de même variance inconnue rj2.
L'estimateur linéaire de variance minimum parmi tous les estimateurs
linéaires sans biais de (u.b) est l'estimateur (ân,bn), où ân et h„ sont les
estimateurs de moindre carré de a et b donnés par la. proposition ¡3.15 ; ils
s'écrivent t vv
Un — rn
(13.17)
7 Y — 'W.i
On ~~ ~~ %n ' fn -
où ou note
de a et b en termes des Y;. On peut utiliser une technique de moindre carres
en ramenant ce problème à un problème de type 1 : ou considère que la
variable aléatoire X, est constante et égale à x/ cl on minimise la somme des
carrés des erreurs. Le théorème de Gauss-Markov donne une justification de
l'emploi des estimateurs de moindre carré trouvés par cette démarche. Dans
la suite, saut mention du contraire, ( •, ¦ ) désigne le produit scalaire usuel de
II-!" et || ¦ || la norme associée.
Définition 13.16. Un estimateur linéaire du paramètre inconnu (a. b) € R2
est une transformée linéaire du vecteur Y — ( Y,, Y2, - Y„) du type Tuv =
((Y>«), (Y. v)), où u, v G Rn. Un estimateur du paramètre inconnu (a,b) G
Iffi2 est sans biais si sa moyenne est égide à (a, b), pour tout (a, h) e R2. Un
estimateur linéaire TUiV du paramètre inconnu (a, b) est de variante minimum
parmi tous les estimateurs linéaires sans biais de (a,b) s'il est solution du
problème de minimisation
Wv u\ + tffv ,\ \tt-v <^Rn\ . (13.15)
256
CHAPITRE 13. VARIABLES ALÉATOIRES GAUSS1ENNES
Démonstration. Notons e = (1,1,..., 1), x = (xj,..., xn), et s —
(fii, ¦ ¦ ¦, On a alors
Y = ax + be + e, (13.18)
et donc, puisque la variable aléatoire § est centrée,
E(Y) = «x + be . (13.19)
Un estimateur linéaire TUtV — ((Y. u), (Y, n)) de (a, b) est alors sans biais si
et seulement si, on a. pour tout (a.b) € M2,
E({Y,w)) = a et E((Y.u))=&,
soit encore, d'après (13.19), si et seulement si u e A et u e B, où on note
i A = {(x,u) = 1 et (e,u) = 0}
\ B= {(.r.î>) =0 et (e, y) = 1} .
Remarquant que
a^Y,u) "(V'l')^ff2 ll«H2 .
l'estimateur linéaire sans biais est alors de variance minimum (quelque
soit a) parmi tous les estimateurs linéaires sans biais de (a, b) lorsque tiet'v
sont solutions des deux problèmes de minimisation sous contrainte
min{||u||2 J u € AJ (13.20)
et
min {H|2 J v € B} . (13.21)
Étudions le premier problème d'extremum lié (13.20) ; aux multiplicateurs
de Lagrange A et fi, associons la fonction <t>À,M définie en tout u € M." par
<DA,„(w) = \\uf -A((x,w) - 1) ~/t (e,w) . (13.22)
Un point u est solution du problème d'extremum relatif lié associé à (13.20)
s'il existe A et ¡1 tels que
<D^(Û) = 0. (x.u) = 1 et (c,m) - 0 ; (13.23)
puisque
= 2 {«, -)-A(x, - •) -2(W, .)-(Ax+/xe, ¦) ,
on a tï>^ (u) — 0 si et seulement si û = J(Ax + fie), et û est donc solution
du problème d'extremum s'il existe A et /x solutions du système
!x, Z16) j ~ *
e, -(Ax + /xe)| = 0 ,
] 34- RÉGRESSION ; LE MODELE LINÉAIRE
2S7
encore équivalent au système (puisque {e, e) = n)
X\\x\\2 + (i{x,e) =2
X {x,e) + riß — 0 .
Ce système a pour solutions
2n -2(x,e)
(n\\x\\2-{x.e)2) ^ (n\\xf~(x,e)2) '
L'unique solution u trouvée est donc
- ],, 1 / 2« 2{x,e) \
u — ~(Xx + lie) — -r - r — x — = r-e I ,
2V ' J 2\(„||x||2-(x,e)2) (n\\x\\2-{x.e)2) >
soit I
u =
(« ||.vf - (x,e)2)
(nx — (x, ^ ,
et û correspond donc à un extremum global. Il faut encore montrer que ce
point correspond à un minimum. Pour cela, décomposons tout u e A sous
la forme u — û + 8. Puisque ïï e A, on a que
{x.8)=0 et <e,3)=0,
ce qui implique que
{u,8) =|i(Àx+/^),^= l-\X (*.&) +11 (e,&)]=0-
Ainsi, on a, pour tout « e A,
\\u\\2 = \\uf+ \\8\\2 5 ||û||2 ,
ce qui démontre que û est l'unique solution du problème d'extremum lié
(13.20). On a alors
Y,w = S , "~ 1 (13.24)
ce qui n'est autre que l'estimateur «„, comme un calcul simple le montre.
Étudions le deuxième problème d'extremum lié (13.21 ) ; aux
multiplicateurs de Lagrange X et //, associons la fonction ^ M définie en tout v e Rn
= ||i'||2 ^ X {x. v) - fi{(e.v) - 1) . (13.25)
Un point v est solution du problème d'extremum relatif lié associé à (13.21)
s'il existe X et \i tels que
v^f?) = 0, {x.v)=0 et (e,v) = \: (13.26)
CIIAPUKr l>. V.\R|AB|.ES ALEATOIRES GAUSSIENNEK
puisque
^Jv) = 2{v.-)-X(v,-)-p{e.-)=2{v.-)-{\x + fLe,.) .
on a ^ ti(v) — 0 si cl seulement si v = i(À-v -f- /if), et est donc solution
du problème d'extremum s'il existe À et ¡1 solutions du système
x, -(Aa- + fie)) - 0
r- ^(A.r + fie)
encore équivalent au système (puisque (e, e) ~ n)
I A ||.v||2 + n {x.e)
I A (x,c) + nfj.
0
2 .
Ce système a pour solutions
-2 {x.e)
A =
(n \\x\\2~{x.e)2)
L'unique solution v trouvée est donc
^ 1 1 -2{x,e
v =-{kx + (xe) =-{
(« \\x\\2-{x,e)z)
x +
2\\x\\2
sou
V —
2\n\\x\\2 - {x.e)2)' 0'\\x\\2 -{x.e)2)
x\\2 e — {x.e) x) ,
(" \\*t-(*,e?)
et î> correspond donc à un extremum global. 11 faut encore montrer que ce
point correspond à un minimum Pour cela, décomposons tout v e B sous la
forme y = v + S. Puisque v e B, on a que
(xj) = 0 et {ej) - 0.
ce qui implique que
(v.&) =|Iav+^).ij= I[A<.r.3) + /i <<¦.*)]=<).
Ainsi, on a, pour tout « eB,
ce qui démontre que v est l'unique solution du problème d'extremum lié
(13.21). On a alors
.y||a(Y.f)-(x-.e)(Y.
(«||.v||2 - {x.e)2)
(13.27)
l ;-4- Regression ; le modki.e linémhl
ce qui n'est autre que l'estimateur bn, comme le montre un calcul un peu
long, mais simple. ?
13.4.2. Le modèle linéaire gaussien
Nous étudions plus avant le modèle linéaire (13.13) et sa formulation
statistique (13.16). Pour obtenir des renseignements quantitatifs sur les
estimateurs trouvés, il nous faut renforcer les hypothèses, à savoir, faire une
hypothèse sur la loi des erreurs indépendantes s, : nous supposons que les e-,
sont toutes de même loi gaussienne >?a(0. a2), de variance a2 inconnue. On
parle dans ce cas du modèle linéaire gaussien. La loi de la variable aléatoire
Y définie en (13.18) est alors, avec les notations de la section précédente, la
loi + />e.o"2l„), où 1„ désigne la matrice identité de P.". Sa densité
(appelée vraisemblance par les statisticiens) est alors donnée, pour tout
y € M", par
1 / \\y-m(a.b)l\
où on note m(a,b) - ax + be et7 c = a2. Dans un premier temps, nous
définissons et donnons des estimateursK du maximum de vraisemblance de
a, b et c. Ces estimateurs sont obtenus de la manière suivante : pour tout y.
on détermine les paramètres qui maximisent la vraisemblance en y ; dans ce
problème, ils existent et sont uniques, on les note respectivement «(y), b(y)
et ci y). Les estimateurs du maximum de vraisemblance de a, b et c sont
alors les variables aléatoires a (Y). b (Y) et c (Y).
Ici, il est plus facile de maximiser en a, b et c ce que l'on appelle la log-
vraisemblance en y, à savoir la quantité
\y -m(a,b)\\2
In [/y(>0J = ~2 ]n(2jïC)
2c
Cherchons les points stati on naires. On a ^ In [./V(y)J - 0 si et seulement
si ^||y - m(a.b)\\2 = 0 et on a ^ In [.A~(>')J = 0 si et seulement si
^ Il y -m(a.b)\\2 = 0. Puisque
\\y -m(a,b)\\2 - ||y||2-2{v,m(û)è)) -4- \\m(a.b)f .
on a
JL
la"
\y-m(a,b)f = ~2{y, -)x +2{m(a.b), ¦ )x-2 [{m (a, b)-y, - )]x,
7. Le paramètre à estimer est ia vj ciance, et non l'écart-type.
8. L;i notion d eslimateut do maximum de vraisemblance est introduite de manière plus
systématique au chapitre 14.
2Ó0
CHAPITRE 13. VARIABLES ALÉATOIRES GAUSSlK.NNES
et
~\\y~m(a,b)f = ~2{y,-)e + 2{m{a.b),-)e=2[{m(a.b)-y,-)]e-,
db
par ailleurs, on a
'à > [ r , A » , \{y -'«(«^)ll2
or ~\ n
2c2
Un point stationnaire («(.y), b(y),c(y)) doit donc vérifier
ïi(y)x + b(y)e = y , (13.28)
6t II V -»'(â(y)My))\\2
c(y) = 11 ^ - V/J y>>* . (13.29)
En faisant successivement le produit scalaire des deux membres de (13.28)
par .v et c. on trouve que a(y) et b(y) doivent être solution du système
j u{y)\\xf + b{y){x.e) =<>-..v> 3
( â(y)(xte) + b{y)\\e\\2 = (y,e) ,
système qui a pour unique solution (tenant compte de l'égalité ||e||2 = /7) :
n{y.x)-(x.c)(y.e) r- \\x\\2{y.e)-{x.e)(y,x)
n\\x\\- - {x,e)2 n\\x\\2 - (x,e)2
(13.31)
Il en résulte, en comparant aux égalités (13.24) et (13.27) que «(Y) = an et
Autrement dit. pour le modèle linéaire gaussien, les estimateurs du
maximum de vraisemblance de a et h sont aussi les estimateurs de moindre
carré et ceux de variance minimum parmi tous les estimateurs linéaires sans
biais. L'estimateur du maximum de vraisemblance c„ de la variance est alors
I Y - (ànx + bne)\\2
c„ = ± = . — — . (13.32)
n
Théorème 13.18. La variable aléatoire (an. bn, Y - {(înx + bne)) à valeurs
dans K"+2 est gaussienne. L'estimateur (a„.bn) est une variable aléatoire
gaussierinc indépendante de ~cn. Les moyennes et variances de ân et b„ sont
données par
134- régression ; le modfi k linéaire
261
La variable aléatoire suit la loi du chi-deux xl-->- ^n conséquence, on a
E(en) = — o2 ai = ^ _ (U34)
n <',' nz
Démonstration. La variable aléatoire (S,,, b„. Y—(anx-\-bne)) est une
transformée linéaire de la variable aléatoire gaussienne Y, comme le montre un
examen des égalités (13.24) et (13.27) ; elle est donc elle-même gaussienne,
et il en est bien sûr de même de la variable aléatoire («„. bn). Les moyennes
et variances de «„ et b„ se calculent facilement à partir des égalités (13.24) et
(13.27). Notons V le sous-espace vectoriel de R" engendré par les vecteurs
x et e et déterminons la projection orthogonale y\ = ax + fie d'un vecteur
y quelconque de R". Elle est caractérisée par la relation d'orthogonalité
V(u, v) e R2 (y - (ax + fie), ux + ve) = 0 .
relation équivalente à
V(i/,iO el2 u[{y.x)^\\x\\2-p{x,e)]+v[{y,e)-â(x.e)-p\\e\\2] = 0,
relation encore équivalente au système
\ a\\x\\2 +^{x.e) = {y,x)
| â{x.e)+p\\ef = {y.e) .
Ainsi, â et fi sont solutions du système (13.30), ce qui prouve que la variable
aléatoire Y^ — TiyY (où nv est le projecteur orthogonal sur V) vérifie
Yy = ânx + b„e .
Il en résulte que l'on a (ponctuellement) l'égalité ; Y — (ânx + b,,e) =
Yv.l, projection orthogonale de Y sur V"1. Puisque Y est de loi gaussienne
J4¥n (ax + be, o2l„), les variables aléatoires Yv et Yvj_ sont indépendantes
(d'après la proposition 13.9) et donc aussi les variables aléatoires Yvj_et
(a„, hn), puisque cette dernière est fonction mesurable de Yy. Ceci prouve
l'indépendance de (a„, bn) et c„.
Par ailleurs, la dimension de Vx est n — 2 et on a
nv±(«jc + be) - 0 et AvvJ ^ nv±Aynv± = o2nv± ;
la loi de Yv± est donc la loi j^r"(_0. o2Tlvj_), ce qui entraîne que la loi de
I Yv_l/o"||2 est la loi du chi-deux /2_2 ; c'est aussi la loi de n^, puisque ces
deux variables aléatoires sont égales. On a alors
E(«^|)=«-2 ff2(»%=2(/i-2).
CHAl'URh n VARI Alti US ALbAlOIKLS <;U.SSIhNNES
ce qui donne immédiatement les égalités (.13.34). ?
Le théorème 13.18 permet alors d'obtenir des tests et des intervalles de
confiance pour les différents paramètres de régression, puis avec le modèle
estimé, de faire de la prédiction.
Tests d'hypothèse
Par exemple, si on veut tester l'hypothèse Ho que la vraie valeur de
la variance de l'erreur s est a2, on se fixe un seuil a et on détermine,
à l'aide d'une table ou d'un logiciel statistique, la valeur ca telle que
Zn_2([/'.¥• +oo[) = a. On rejette l'hypothèse U0 si > ca. soit encore
si c„ > ~ca. Compte tenu des égalités, (13.24), (13.27) et (13.32), la zone
de rejet de l'hypothèse H0 est donc la partie de M" :
j|| (n{y,x)~{x,e)(y,e) \\x\\2{y. e)~{x, e){y, x) \\2\
Ì v n\\xV~(x.e)2 X+ n\\x¥~(x.e)2 * ) T
De même, on peut tester une hypothèse sur le paramètre b. Pour cela,
on introduit la variable aléatoire B„(è), qui est la variable aléatoire centrée
réduite associée à l'estimateur bn, mais dans laquelle a2 est remplacée pat-
son estimation sans biais c„ ; tenant compie des égalités (13.33), elle est
définie par
ou encore
lMr-{.v,<r «-2
2 _ 1
1
\\*\
ln2,s7r n~2
.1.11
7(b?-b). (13.35)
On rappelle alors que, si X et Y sont deux variables aléatoires
indépendantes de lois respectives la loi gaussienne JV"k(0, 1 ) et la loi du chi-deux
la loi de la variable aléatoire est la loi de Student à n degrés de liberté
(cf. ex. 4. chap. 9). En conséquence, il résulte facilement du théorème 13.18
que la variable aléatoire B„(6l suit la loi de Student (nous laissons ce
calcul à titre d'exercice).
Ainsi, pour tester l'hypothèse Ho que la vraie valeur du paramètre b est
bo contre l'hypothèse Ht que b > ¿»0, on se fixe un seuil a et on détermine,
à l'aide d'une table ou d'un logiciel statistique, la valeur /),_0 telle que
/„_2(]-oo. bi-a]) = 1 - a. On rejette l'hypothèse H0 si B„ibo) >
Compte tenu des égalités, (13.24), (13.27) et (13.32), la zone de rejet de
l'hypothèse H0 contre l'hypothèse H, est donc la partie de F." :
\y-(â(y)x+b{y)e
_ 9
(î(^)-M>fri-«}-
Si on veut lester la même hypothèse H0 contre l'hvpothèse H; que
h /?o- on choisit /7.0 < p < 1, et on détermine, à l'aide d'une table ou d'un
logiciel statistique, les valeurs ^i-o;^ telle que r„-2(]—oo, = I —
et ii_„(i_P) telle que /„_2(]—co. = 1 - a(l - /?). Puisque la loi
/„_2 est symétrique, on a alors
^_2(]-oo.-fr]_B(i_p)])= /n-2([*i-u(i-^). +oo[)
- 1 - /«-^(J-oo.òi-^fi-p)]) - a(l - /0 .
On a alors
'„-2(]-no.-/)i_«(1_p,] U [bi-ap, +ocQ = a(l - p) + up = a .
On rejette l'hypothèse H„ si Bn(bo) > lh-aP «li si B„ (/><,) < -&i_a(i_p), On
écrirait de même que ci-dessus la zone de rejet pour ce test d'hypothèse de
Ho contre H2, mais cela n'apporte rien de plus.
On peut évidemment tester, de manière analogue, une hypothèse sur la
vraie valeur du paramètre a.
Intervalles de confiance
Donnons juste en détail l'exemple de construction d'un intervalle de
confiance pour h au niveau /}. On détermine, à l'aide d'une table ou d'un
logiciel statistique, la valeur b. a telle que /„_z(l-oo, b /< 1) = I - ~. On
1- 2 vj 1_2 A'
a alors , v
/^(J-oo,-/?,^] U +oo[J =
11 résulte encore du théorème 13.18 que la variable aléatoire B„(b) suit la
Ioide Studeiit /n_2 ; on a alors
(13.36)
égalité qui donne, au niveau f}. l'intervalle de confiance |I. S], où
et
l = b„ - b{_#
S = bn + /) a
« - {x. e)
- n —2
n .y
- (.y.c)2 H
_ 1
En s'appuyant toujours sur le théorème 13.18, on peut aussi construire des
intervalles de confiance pour les paramètres a et a2. Par exemple, pour a,
264
CHAPl ÏRh 13. V,\KIAI11.I7S ALÉATOIRES GAUSSIENNES
on introduit la variable aléatoire
i
2
(a*-a), (13.37)
et on détermine la valeur telle que /„_2(]—00, = 1 — |. On a
alors de même r _ -,
P[\An(a)\ == û!_^J = i-a, (13.38)
et on termine de manière analogue.
Prédiction
Le modèle théorique étant toujours décrit par l'égalité (13.13), il s'agit
maintenant de faire une prédiction sur le résultat d'une expérience qui serait
faite au niveau"x de valeur de .y. On travaille pour cela avec le modèle estimé
à partir d'un échantillon de longueur n, et défini par l'égalité
Y„+i = anx + b„ +e„ + l. (13.39)
oti les variables aléatoires 3„, b„. &.n sont celles introduites précédemment.
II s'agit d'obtenir un intervalle de confiance pour Y„ + t.
On remarque d'abord que les variables aléatoires a„x + hn et s„+i sont
gaussiennes cl indépendantes; la variable aléatoire Y„+i est donc aussi
gaussienue. On évalue maintenant sa moyenne et sa variance. Puisque les
estimateurs an et h„ sont sans biais et que e„ est centrée, on a
E(YB+[) =ax+b. (13.40)
Par ailleurs, il résulte des égalités (13.17) que
bn — \ n Xft &n 1
on a donc _ ^ _
anx + bn = alt{x - xn) + Y„ .
Les variables aléatoires an et Y„ ne sont pas indépendantes, mais on a la
majoration suivante de la variance de a,fx + b» :
ai- r < 2(oi + ) = 2(Çc - xH)z<£ + 0* ) ;
an.\+h„ an(x-x,i) v a„
tenant compte de l'expression de la variance de an (cf. 13.33), et de l'égalité
ai = ~, on a alors la majoration
in "
An(a) =
ns
l„ n-2
134- RÉGRESSION ; LE MODE!.F I INÉAIKE
265
Les variables aléatoires a»x + b„ et s„+\ étant indépendantes, on en déduit
l'inégalité
Notons Y„ + ( la variable aléatoire gaussienne centrée Y„ + 1 - (ax' + b).
11 résulte du théorème 13.18 que les variables aléatoires (a^x + bn.en+\)
et »r„/o2, et donc aussi les variables aléatoires Yt,+ i et ricnjci2, sont
indépendantes. Puisque ncn/az suit la loi du chi-deux la variable
aléatoire „ ,
Z„ — -Jn — 2
Y
'1 + 1
ne.
suit la loi de Student
On peut alors construire de la manière suivante un intervalle de
confiance pour Y„+1 à un niveau inférieur ou égal à a. + j3 + y (avec 0 <
o" + + y < ')¦ Comme précédemment, on détermine, à l'aide d'une table
ou d'un logiciel statistique, la valeur z,_^ telle que
frt_2(]-°û,-z, y] U [z,_y , +oo[) = y .
On a alors
y ¦
p[|Z„|<z,_,]= 1
Par définition de Zfl. on a l'équivalence
^ iv i< ayf'+( r " ^ "F -
|Z„I
en tenant compte de la majoraiion (13.41 ), on a alors l'implication
05
2
jr,/i
On a donc
>!->'. (13.42)
Ainsi, en posant
lrt = u7 + b - z._
2(x--x„)2 | 2
«5;
et
ttlAftnil- 1,1- V\fif \BLtS M^ÉAÏOlliF.S GAUSSII'NNEi
S„ = ax + b +
on a
P(Y„+i g [l„,Sn]) ? 1 - y.
mais ceci ne donne pas un intervalle de conuance pour Y«+i, puisque
l'intervalle |I„, S„] dépend des paramètres inconnus a et Pour déterminer
un tel intervalle, il faut encore faire intervenir les valeurs estimées de ces
paramètres. Pour alléger ce texte, nous ne donnons que le principe de la
méthode de construction.
Après avoir déterminé, par la méthode ci-dessus, des intervalles- de
confiance pour a et b aux niveaux respectifs a et /3 (à l'aide des égalités
(13.38) et (13.36)), et compte tenu de (13.42), on est dans la situation
suivante : on a déterminé des variables aléatoires un(a), i)«(/3) et w„(y)
telles que l'on ait simultanément les inégalités
P(|û ~ân\ Í un(a)) ^ 1 -a, Pflfc -6„| Í v„(P))
P(|Y„+, - {ax + h]\ < w„iy)) >,]-y.
où on a posé
T 1 n „ 12
1 ? Líí2s2 n n —2 J
Or, si A, B, C sont des événements vérifiant les inégalités
P(A) > 1 - a , P(Bl > I - /3 . P(C) 5 1 - y ,
on a
P(AC U Bc U C?) $ P(AC) + P(BC) + P(C') î£ a + ¡3 + y,
et donc
P(A OBnC)5 1 - (a + j3 4- y ).
Ainsi, par l'inégalité triangulaire, on a, avec une probabilité supérieure ou
égale à 1 - (a + £ 4- y ).
\Y„+x-(an7+bn)\^ \Y„+x-(àx+b)\ + \a~ân\\x'\ 4- \b~bn\
^ wn(v) + Un(a) ïx\ + i'„(fi),
ce qui permet de dire que l'intervalle |1„, S„] est un intervalle de confiance
pour Y)1+1 à un niveau inférieur ou égal à a + /3 4- y, où on a posé
0 + +
V us2 n n ' \n — 2 '
L4EKCICE [3.1
2?7
h = a„x + b» - (unia)\x\ + v„{p) + «¦„{)')) >
4- b„ + iu„(a)\x\ + u„(0) 4- wa(y)) ¦
Donnons quelques valeurs de la fonction inverse de la fonction de
répartition d'une variable aléatoire X de loi de Student r„ pour différentes
valeurs de n : pour n et y fixés, la table donne la valeur v telle que P(X $
v) =y.
n ?
0.75
0,90
0,95
0.990
0.995
5
0,727
1.476
2,015
3,365
4,032
10
0,700
1,372
1.812
2,764
3.169
15
0,691
1,341
1,753
2.602
2,947
20
0,687
1.325
1,725
2,528
2.845
Pour conclure, signalons que. par souci de simplification, nous n'avons
traité que des modèles linéaires à un seul facteur .v. Un modèle linéaire à ?
facteurs Xj, est un modèle théorique de la forme
k.
Y = YlaJxJ +b + s- (13.43)
/=1
où s est une variable aléatoire centrée d'ordre deux, représentant une erreur
d'approximation ou de mesure. On peut trouver l'étude statistique générale
des modèles linéaires (et une bibliographie sur ce sujet) dans, par exemple,
le premier chapitre du livre de A. Antoniadis1'; en fait, ce livre traite
essentiellement des modèles non linéaires.
Exercices
Sauf meut ion du contraire, toutes les variables aléatoires sont définies
sur un même espace probahilisé (Q, Ai P).
Exercice 13.1. Une mesure non gaussienne dont les marginales le soni. Soit X
une variable aléatoire réelle de loi gaussienne (0,1 ), On considère les variables
aléatoires à valeurs dans K2, y — (X. —X) et Z = (X. X). On étudie la probabilité ¡1
sur R2 définie par ?, = (py+pz)/-- On note ??| et ?? les applications coordonnées
définies par ????.?) = x et ??(?". y) = y , pour tout (x. y) e R2 ; enfin, on note
¿¿2 — ?](?) et fX2 ~ ?2(?) les marginales de ?, c'est à dire les mesures images de
???? fli et ?2.
9. Antormdis A., Beouyer J.. Cannons R. (1992), Régression non Hiivaire et upptkaiions,
hconotnica, colleetion Économie ci statistiques avancées. Par ??.
268
CHAI'I I Kl'- 13. VA|i|AHI ES ALÉATOIRES GAUSS1ENNES
Démontrer que /j.t et Uz sont égales à la mesure gaussicnne «A/r(0, 1 ). Calculer
la transformée tic Fourier de /1 et en déduire que u, n'est pas gaussienne.
Solution. Pour tout / e Ç^(E), il résulte du théorème de transfert, de la définition
de u et du fait que fi, (Y) = fi, (Z) ~ X que l'on a
f fdm = I /on,^^/ [/on1(Y)T/oIl1(Z)](/P= / f(X)dP,
et donc
/ fdft, = f fdPx,
ce qui prouve que /t, = Px = Jvr(0. 1). On a de même
/ fd,i2= [ fon2dtl = ~[ [/on2(y) + /fln2(z)mp,
ju2 ja
soit
/ fdfi2=\f [/(-X) + /(X)] dP,
et donc, puisque Px est symétrique,
f fdfi2 = f fdpx,
ce qui prouve que a.% = Px = <A/'iR(0,1).
Par ailleurs, la transformée de Fourier jt de u, est donnée par
1^ -, 1
fl = '(Py +P?) = ^(<PY +<fz).
ce qui donne, pour tout u e
¡1(11) = -[exp( ^—— J+exp(- ^ jj,
(«t + M2)'
soit, après réduction,
1 / ("f + "2) \
^(«) = - exp(-- J [exp(u1m2) + exp(-uiw2)] ,
ou encore
- / (u2 + uh\
fi(u) = exp^ J ch(H,u2).
Ainsi, la mesure /t n'est pas gaussienne.
Remarque, Par injectivitc de la transformée de Fourier. on retrouve que u.\ et ¿¿2
sont gaussiennes. puisque que l'on a
/'i(«0 = ¿¿(»1.0) " exp^—-J et /12(^2) = /i(0,M2) = exp(-^ J.
liXEKClCE I3.3
Exercice 13.2. Une transformée non linéaire de variable aléatoire ganssienne peut
être gaussienne. Soient X, Y et Z trois variables aléatoires réelles indépendantes,
gaussiennes de loi jvr(0. I). On définit la variable aléatoire U par
u=X + YZ
VïTz^
Déterminer une loi conditionnelle P^=' de U sachant Z ; en déduire que U et Z sont
indépendantes et déterminer la loi de U. Conclure.
Solution. Une loi conditionnelle P^"" de U sachant Z est donnée par le noyau défini
pour Pz-presque tout réel z par
pZ=- _ pZ=z
ru — r x+yz ¦
soit, par indépendance des variables aléatoires X + Yz ctZ,
FIT" = P X+YZ = ^(O.fj2^^) .
'1+z-
Puisque X et Y sont indépendantes, on a
2 , „2„2
^= ~ 1+Z2
l+z2
il en résulte que l'on a, pour Pz-presque tout réel z,
Pfj=z = ^R(0,l),
u
quantité indépendante de z, ceci démontre que les variables aléatoires U et Z sont
u
indépendantes et que l'on a Pf~z = Ptj = ^(0,1), c'est à dire que la loi de U est
la loi gaussienne ^(0, 1).
En conclusion, la variable aléatoire U, transformée non linéaire de la variable
aléatoire gaussienne (X.Y.Z) à valeurs dans M3 est gaussienne. On peut même
remarquer que la variable aléatoire (U, Z) est gaussienne à valeurs dans M2, puisque
U et Z sont indépendantes et de loi gaussienne J/m(0, Y).
Exercice 13.3. Caractérisation des lois gaussiennes sur R. Soient X et Y deux
variables aléatoires réelles, admettant un moment d'ordre deux, indépendantes et
de même loi fx telle que
/ x dfi(x) = 0 et f x2 dfx(x) =
Démontrer que si fx est la loi ^vr(0,o-2), la variable aléatoire a pour loi
t%(0, a2). Démontrer qu'inversement, si la variable aléatoire (X + Y)/V2 a pour
loi fx, alors u. est la loi Jvr(0,<72). Pour la réciproque, on supposera que a — 1.
Démontrer que l'on a, pour tout réel t et tout entier n,
270
CHAPITRE IV \ \K1 ABlXS ALKAT C.URfcS V< MJSSIENNES
puis que 'p.(i) l). Poser alors, pour tout / / 0,
ln 1/401
lui) =
f
et démontrer que la fonction h est constante. En déduire \p.(t)\ puis
Solurian. Si est la loi -.A%(0, a2), X et Y étant indépendantes de loi .Kr (0, a2),
la variable! aléatoire (X, Y) est gaussienne et donc aussi la variable aléatoire
v 2
Pttisqu'alors on a
¦ v2 > V2 1
on a bien que P.\+\ = p.
Inversement, on peut supposer, sans perte de généralité, que a = [. Par
indépendance des variables aléatoires X et Y. la fonction caractéristique <px + y vérifie,
pour tout réel t.
l'hypothèse que la variable aléatoire a pour loi p se traduit alors par Ia relation
y.e« î(o = [i:(^)]!.
ce qui implique que, pour tout ( eR,
Il en résulte que. par itération, on a, pour tout réel / et tout entier /7,
Ê<0 = [£(i)]4 ¦ h3.44)
Supposons alors qu'il existe i0 tel que p(t0) = 0- Il résulte de (13.44) que. pour tout
entier h, on a /x(^f) =0, et, par continuité de /À, que ¿¡(0) = 0. ce qui faux, puisque
/À(0) = 1. On vient de démontrer que la transformée de Fourier /À ne s'annule pas.
H résulte de (13.44) que, pour tout entier n, on a
= = '—— = ~7jJt- =*M ¦
l2« J
Mais, la variable aléatoire X ayant une moyenne nulle et une vartance 1, la
transformée de Fourier /À admet le développement limité d'ordre deux au voisinage de 0
donné par
tz
liiS) = ] - - +o(i~M
I-Xr.RClCr. 13.4 271
un a donc aussi
IM0l = l-y+o('2).
ce qui donne
[2 I
ln = -j+o(t2) et h(t) = --+«<]).
11 résulte alors de (13.44) que. pour tout réel 1 ^ 0. on a le développement
asymptotique en fi :
1
On a donc, pour tout réel t /0,/ï(î) = —-, et par conséquent
Écrivons alors, pour tout réel / / 0, ^(t) sous la forme polaire
£(0 - Ç(t)\cxp[ig(t)}.
Il résulte de (13.44) que l'on a. pour tout entier 11.
cxp[ig(t)} =exp(^)Wf) = exp(r-)[/7(^-)] ,
ce qui donne le développement asyniptotique en n
exp[/g(0]=exp(^)[l-^+o(~)]4 .
Le membre de droite convergeant vers 1, tl en résulte que l'on .1, pour tout réel / / 0.
exp [/#(/)] - l- On a démontre que. pour tout réel t,
w) = exp(-y) •
c'est à dire que // est la loi gaussienne (0, I ).
On étudie maintenant une autre caractérisalion de variables aléatoires
gaussiennes. Il s'agit d'une version d'un théorème de Bernstein un peu plus
générale que celle usuellement énoncée.
Exercice 13.4. Caraclérîsatîon des variables aléatoires gaussiennes : théorème de
Bernstein. Soient X et Y deux variables aléatoires réelles indépendantes et telles
que les variables aléatoires X +Y et X-Y soient indépendantes; l'objet de l'exercice
est de dèmoni re r que X et Y sont deux variables aléatoires gaussiennes. Pour cela,
on nate /x = P\. [¦ = Py et y = \x * v.
27- CHAI'MKI- 13. v\r|,\BLLS Al l'ATOlkES GAIJSSirNNES
/'(.v) = f dt ,
Jo
puis, après avoir remarqué que, pour tout réel x, on a
Jia)
ou en déduira que <D est derivable, ce qui permet de conclure.
5, En déduire qu'existent un réel m et un réel a > 0 tels que Fou ait, pour lout réel
t,
y(t) = exp(imt -a—^ ¦ (13.49)
Démontrer alors que les variables aléatoires X ei Y sont gaussiennes.
6. Généraliser ce résultai à ties variables aléatoires à valeurs dans W1.
Soin f ion.
1. Par indépendance des variables aléatoires X 4- Y et X - Y d'une part, puis des
variables aléatoires X et Y d'autre part, on a, sur les fonctions caractéristiques, la
relation : pour tous réels w et u,
1. Démontrer que fa transformée de Fourier y de y vérifie la relation
V(u.u) e F2 y(u + v)y{u - v) = [y(u)f \y{v)\2 (13.45)
2. Soit y la probabilité définie par, pour tout borélien A, y(A) = y(—A)eliS = y*y.
Démontrer que la transformée de Fourier S de X vérifie la relation
V(i/. ti) e P.2 ?(M + v)X(u - u) = p(u)J2 (13.46)
et que l'ensemble G = \t £ K | è'(f) ^ i)\ est un groupe. En déduire que la
transformée de Fourier S ne s'annule jamais ; déterminer alors S puis (y\.
3. On pose, pour tout réel r, g(f) = Démontrer que ^ vérifie la rekition
V(M, v) e K2 g2(u + v) = g2iui .«fV> (^-47)
4. Soit <ï> une application borélien ne de JR dans C telle que
- pour tout réel t, |3>(0l =
- pour tous réels 5 et
<0(j + / J = *(0- (13.48)
Démontrer qu'il existe un réel c tel que l'on ait, pour tout réel t, <î>(t) ~ exp(ict).
Pour cela, on démontrera qu'il existe un réel a tel que f(a) ^ 0, où / est la fonction
définie, pour tout réel x, par
i M'ROICE 13.4
puisque l'on a aussi, pour tous réels u ei v.
ou en déduit la relation : pour tous réels u et v,
<Px<« + v)<py(u - v) — <px(u) <p\-(n)<px(v) •
en changeant r en — v dans cette dernière relation, on a pour tous réels u et v,
<Px<u - v)<py(u + v) = (pxUi) <p\(u)>/'x(v) ¥>Y(i'> :
en multiplianl membre à membre ces deux dernières égalités et en remarquant que
y =pv = v^x+v = <Px<f'\ ¦
on obtient filors la u'iation
V(u, r) € R2 y(" + v)y<« - v) = [î'ittlf \?{i'i\2 ¦ U3.50)
2. Le théorème cle transfert permet d'établir l'égalité sur les transformées de Fourier
de y et y :
V/ e R 7(r) = 7(0 ¦ (13.51)
Il en résulte que l'on a, pour tout réel t.
$(t) = y(t)f<t) =y(J)y\!) = |7(/)|2 S 0; (13.52)
en prenant les modules dans la relation (13.50). on obtient alors que, pour tous réels
u et ?>.
?(U + v)8(u - v) = p\u)] p(u)] . (13.53)
Il en résulte que si u et v sont tels que 6[u) et tS(u) sont différents de 0. on a aussi
#(w 4- d) ^ 0 et u) i=- 0; puisque de plus 5(0) = 1, G est un groupe. De plus, S
étant continue. G est ouvert et est donc ideutUjue à M. Autrement dit. S ne s'annule
pas el esl donc strictement positive Posons alors, pour tout réel 1,
/m--lnS(t);
la relation (13.53J donne, pour tous réels u et i\
/(« +v) + f(u - v) = 2 [f(u) + f(v)} . (13.54)
Puisque / est continue, positive, et que f(U) = 0, il en résulle rpi'i) existe 1,1 a > 0
tel que l'on ait. pour Unit réel u, j(u) = nu2, soil encore S(w) = c\p(—au2). F_n
utilisant la relation (13.52). on vit-ni de démontrer qu'il existe a > 0 tel que l'on ;ul :
Vf |7(/)| -cxp(-^)
(13.55)
1tl. On utilise l'drguraem classique ;siir les en tiers, puis sur les rationnel*;, puis pjr con limine,
ou prolonge aux reels.
2.74
ClIAï'IIKE. 13. VAHIABLES .M_hArO)KF.S GADSSIENNES
3. En prenant les modules dans la relation (13.50), ¡1 vient, pour tous réels u et v,
\y[u + v)\ \y{u - v)\ = \y(u)\2 \y(v)\2 , (13.56)
et en quotientant membre à membre les égalités des relations (13.50) et (13.56), on
obtient :
V(w,u) e R2 g(u + v)g(u~v) = g2(u) ;
en échangeant u en u,on a aussi
V(u,i<) e R2 g(« + v)g{v -u) = g2(v).
et donc, en multipliant membre à membre ces égalités, en tenant compte de ce que,
pour tout t, on a g(-t) = g(t), et \g(t)\ = 1, il vient :
V(«. v) € R2 g2(u + v) = g2(y)g2(v) . (13.57)
4. Si on avait, pour tout a, f{a) = 0, les fonctions iTt(<t>) et Im(<I>) seraient nulles
presque partout, ce qui n'est pas, puisque |<t>| = 1 ; soit donc a tel que /(</) 7^ 0. On
a
x+a
f(x + a)~ /(jc)= / $>{t)dt .
Jx
et, après le changement de variables s = t — x et application de la propriété de
semi-groupe (13.48) pour <Ê,
f{.\ + a) - f(x) = f <D(jc + s) ds = OÙ) / <t>(i) = 0>(,ï) /(«) ,
Jo Jo
ce qui donne
La continuité de / implique alors celle de O ; la fonction /, définie comme fonction
de la borne supérieure de l'intégrale de O. est alors derivable, ce qui entraîne à son
tour, en vertu de (13.58). que O est derivable. En dérivant par rapport à .v dans
l'égalité <£>(s + t ) = <$>($) <t>(?)- on a donc, pour tous s et t,
Q'(s + t) = &(s) 0(/) .
et donc, pour tout t,
0'(/) = O'(0) O(f) . (13.59)
Si $'(0) = 0, ou a alors pour tout t. O'(r) = 0 et O est constant, non nul. puisque
on a |<fi| = 1 ; d'après (13.48), on a alors 0(0 = 1 pour tout t et c = 0 convient.
Si O'(0) ^ 0. il résulte de (13.59) que O<0) - 1. Soit alors c = -iO'(0); on a
O'(î) = ic O(f), et donc
~ [O(0exp(-/c/)] = &(t)exp(-ict) - ic<$(l.)cxp(-ict) = 0 .
Il en résulte que l'on a O(f) exp(—ici) = $(0) = 1, soit, pour tout t, 0(0 =
exp(f'cr). Enfin, puisque |0(1)| = |exp(/c)| = ],c est réel.
exercice I3.5
275
5. En vertu de la relation (13.57) et de la définition de g, on peut appliquer le résultat
de la question précédente à fonction g2 ; il existe donc un réel m lel que Ton ait, pour
lout t, g2{t) = cxp(i2mt). Puisque g(0) = 1, on obtient par continuité de g que
g(t) = exp(j'mï). Il résulte alors de (13.55) que l'on a, pour tout t,
¦y(r) = exp^/mï — a — ^ ,
(13.60)
où a > 0; autrement dit, y est la probabilité gaussienne rN^(m,a). La variable
aléatoire X + Y est donc gaussienne ; on montrerait de même que X - Y est
gaussienne. Ces variables aléatoires étant indépendantes, la variable aléatoire (X +
Y, X—Y) est aussi gaussienne ; ainsi, les variables aléatoires X et Y sont ganssiennes.
comme transformées linéaires de la variable aléatoire gaussienne (X + Y, X — Y).
6. Pour généraliser à Rd, il suffit d'appliquer, pour tous x et y de Rd, le résultat
précédent aux variables aléatoires réelles (X, x} et (Y, y).
Exercice 13.5. Une caractérisation de la loi gaussienne en termes de moyenne et
variance empirique. Soient Xl5 X2,...,X„ des variables aléatoires réelles
indépendantes de même loi ¡1 telle que
/ x2 dji(x) <
On définit les variables aléatoires, appelées respectivement moyenne et variance
empirique, par
1 " 1 "
M, = - VX,- et E„ = - ]pX2 -M2 .
i=\ 1=1
On note X la variable aléatoire à valeurs dans R", X = (Xi,X2,X„).
1. On suppose que ¡1 est la loi gaussienne J^R(m, a2). Quelle est la loi de X? Soil C
une matrice orthogonale n xn telle que, pour tout j = 1,2..., n on ait Cij ^ \/«Jn.
Exprimer M„ et £„ à l'aide des composantes de CX et en déduire que M« et £„ sont
des variables aléatoires indépendantes.
Dans le cas où m = 0 et a = 1, préciser les lois des variables aléatoires M„ et raS„.
2. On s'intéresse à une réciproque : on suppose que les variables aléatoires M„ et Z„
sont indépendantes. Pour simplifier, on suppose les variables aléatoires X/ centrées.
On note fj2 = fu x2 dji(x), (p la transformée de Fourier de /x, puis S„ = nMn et
(a) Calculer la moyenne E(V«) en fonction de o~.
(b) Démontrer que l'application de M2 dans C : (h, 1;) 1-» E[exp/(uS„ + uV„)] est
differentiate. Justifier la relation :
Va e R E[V„exp/(uS„)3 = [<p(u)]n E(V„). (13.61)
(<;) Calculer E [V„ exp/(uS„)] à l'aide des dérivées première et seconde de <p.
276
t'HAI'II'HE 13. \AR|AB|.ES Al f VCOIHF-S GAI "(SIENNES
la) Déduire alors de la relation (13.61) que cp est solution de l'équation
différentielle
et en conclure que fi est la loi gaussienne JVe(0. o2).
(e) Démontrer qu'il en esl de même si on ne suppose plus les variables aléatoires
X, centrées.
Solution.
1. Les variables aléatoires X,- sont indépendantes et de loi gaussienne jVyJm,(j2),
la variable aléatoire X, à valeurs dans W. est donc aussi gaussienne de moyenne
(m. m,..., m) et de matrice de covariance a2l, où 1 est la matrice identité de JP:". Il
résulte de la définition de C que
M„ = -UCX)i ¦
et donc que
»S„ = ||X||2-[(CX),]2:
la matrice C. étant orthogonale, conserve la norme, ce qui donne :
«
= J>CX),]2.
La variable aléatoire CX. transformée linéaire de la variahle aléatoire gaussienne
X, est elle-même gaussienne de moyenne (Cm. Cm,..., Cm) et de matrice de
covarianec a2OC* = a2l (puisque la matrice C est orthogonale). Il en résulte que
les composantes de CX sont indépendantes, et donc aussi que les variables aléatoires
M„ et Z„ sont indépendantes.
Dans le cas où m = 0 et a = I. la variable aléatoire M„ suit alors la loi ^«(0. 1 /«) ;
«£„ étant somme de n — I carrés de variables aléatoires gaussiennes centrées
réduites et indépendantes, la variable aléatoire ni.,, suit la loi du chi-deux s n — I
degrés de liberté.
2. Les variables aléatoires M„ et Y.n étant indépendantes, les variables Sn et V„ le
sont aussi. On suppose dans un premier temps que les variables aléatoires X( sont
centrées.
n ES2
et donc. EV„ = Y" EX2 - —- ;
< ' n
1 =1
0, on a, par indépendance des X/,
(a) On a
1 -1
n
mais puisque ES« = ^ EX/ =
EXERCICE 13.5
277
Enfin, les X/ étant centrées, on a ox. = EX2, ce qui donne donc :
E(Vn) = (« - l)a2 .
(6) Les variables aléatoires S„ et V„ sont indépendantes; on a donc, pour tout
(m. v) e R2,
e[exp¿(iíSrt + VV„J| = (os„(w) fv„(v).
où i/>s„ et ipv,, sont les fonctions caractéristiques de S„ et V„. Ces variables
aléatoires admettant un moment d'ordre un, leur fonction caractéristique est
dérivable; par conséquent, l'application (11,v) v~t e [exp í (i/M„ + uL„)] est
différentiable.
Les variables aléatoires S„ et V„ étant indépendantes, il en est de même de
variables aléatoires Vn et expi'(wS„) ; puisqu'elles sont integrables, on a, pour
tout réelw,
E{V„exp(<«S„)] = E{V„] E|exp*(MS„)] = <f-$„(u) E(V„) :
les X,' étant indépendantes, il eu résulte que Ton a :
VueK E[V„exp/>S„)] = [<p(u)]n E(V,J . Í13.62)
Remarque. On aurait aussi pu déjà exploiter la différentiabilité établie ci-
dessus et dire que
[^E[cxPi(MSn + ',v«)]]y=0 = VS„<«> Vv„(«) ^
putsque de plus [ exp¿(uSn + ?;V„)| Í l.quc
exp/tuS» + uV„)l = |V„ expí(nS„ + t'V„'ï| 0 |V„|.
et que y„ est P-integrable, il résulte du théorème de dérivation d'une intégrale
dépendant d'un paramètre que
— E[exp¿(wSn + i'V„)] = iE[V„cxpi(i/Sn + i'V„>] .
(iv
Comme on a
^vi;((l) = i'EV« ,
en tenant compte de l'indépendance des X,. on retrouve la relation (13.62).
(ci Puisque V„ = xl - ï"- on a
n
E[V„cxpi[uSn)] = ^E[xjexp!(ï/Snj]- - E [S2 expi(wS«)] . (13.63)
k=i "
Il resulte de l'indépendance des X¿ que Ton a, pour fout k < n fixé,
E[x£expi(uSn)]= { fi E[cxpí(i/X¿)]¡E[Xjexpf(uXA)] .
CHAI'lIKI' 13. \AK1AIU.ES ALÉMOlkES GAUSSIENNES
soit, puisque les variables aléatoires X/ sont indépendantes,
E[xJexp/(MS„)] = \<p{u)}n-' U[xlcxpi(uXk)] . (13.64)
Puisque les variables aléatoires X^ et S« admettent un moment d'ordre deux,
leur fonction caractéristique est deux fois dérivablc et on a
E[X2.cxp/(mXa.)] = -^(w) et E[S2exp,>S„)] = -<(»)¦ (13.65)
Les variables aléatoires X* étant indépendantes et de même loi. on a (ps^u) =
[<p(u)]n. Il résulte alors de (13.63), (13.64) et (13.65) que l'on a
E[Vrt expi>S„)]= -n [^(w)]"-1 (p"{u)
+ ]- [n(n~\)[ip(u)\"-2 [<p'(u)]2 +n[<p(u)\*-l<p"(u)]
soit
E[V„ evpituS,,)] - -(n - l) [<p(u)]»-1 /'(«) + (« - 1) [<p(u)]u-2 [tp'(u)f .
(13.66)
(d) Remarquons d'abord, puisque <p est continue et que <p({)) = [, que ip~i{{0}<:)
est un voisinage ouvert de 0. En tenant compte des égalités ( 13.62) et (13.66)
ainsi que delà valeur de EV„ .011 voit que,sur l'ouvert <p~l ([0\c),tp est solution
de l'équation différentielle :
Puisque, de plus, on a <p(Q) = \ et cpf(Q) = 0 (car les X,- sont centrées), il existe
et] > 0 tel que l'on ait, pour tout a e [—a y ,ai\,
1 a2u2\
<p(u) = exp(- — J. (13.67)
En particulier, <p(at) 7^ 0 ; <fi étant continue est non nulle sur un intervalle
\—al.ii2] où C12 > <J| et l'égalité (13.67) est encore valable sur cet intervalle.
Par récurrence, on montre de même qu'existe une suite strictement croissante
de réels a„ > 0 tels que l'égalité (13.67) soit encore valable sur l'intervalle
[—ai,an]. Si cette suite était bornée, elle convergerait vers un réel a > 0. On
aurait, pour tout <p(an) ~ exp(—a2u2/2) et aussi, par continuité de <p et
de l'exponentielle. <p(a) = exp(-a2<ï2/2) > 0 et il y aurait contradiction. En
conclusion, l'égalité (13.67) est valable sur [—al, +oo[ et donc en fait sur tout
R, puisque, pour lout réel u. on a cp(-u) = (p{u). On vient de démontrer que
¡1 est la loi gaussienne ^(0, a2).
(e) Si les variables aléatoires X,- sont de moyenne m, on considère les variables
o
aléatoires centrées X, = X, — m, qui sont encore indépendantes, de telle sorte
qu'un calcul simple conduit aux égalités :
1-AfcKCICE i3.6
Si les variables aléatoires S„ et V„ sont indépendantes. ¡I en est de même
des variables aléatoires S„ et V» et ainsi, d'après la question précédente, les
variables aléatoires X, sont de loi ,%(().o2). Il en résulte que la mesure ¡1 est
la loi gaussiennc ,M^.(in, a2).
Exercice 13.6. Initiation à la théorie du signal. Soient S (le signal) et V (le
bruit) deux variables aléatoires réelles indépendantes, gaussiennes de loi respectives
Mji (m. a2) el ,.Vk ((), t), où m est un réel quelconque, a et t sont des réels strictement
positifs. L'observation est la variable aléatoire
Calculer la meilleure approximation au sens des moindres carrés du signal au vu
de l'observation, c'est à dire l'espérance conditionnelle ˰"(R,S. où a(R) désigne
la tribu engendrée par R. Pour cela, choisir des constantes a et A telles que les
variables aléatoires flR -l- AS el R soient indépendantes et en déduire l'espérance
conditionnelle Ep(R)S.
Solution. Puisque les variables aléatoires S et V sont indépendantes et gaussiennes,
la variable aléatoire (S. V) est gaussienne el donc aussi sa transformée linéaire
(i/R+AS, R). Ainsi, pour que «R+AS et R soientindependantes.il faut et il suffit que
cov(aR + AS. R) = 0. En vertu de la bilinearité de la covariance et de l'indépendance
des variables aléatoires S et V, on peut écrire les égalités
covfaR + AS, R) = aa\ + A cov(S, R) = a(t2a2 + 1) + bta2 .
On choisit a et b différents de 0 cl tels que
et ainsi les variables aléatoires uR + AS et R sont indépendantes. On a alors
R — íS + V .
a = —
ta2 + 1"
E"(R)(«R + AS) = E(aR + AS) = aE(R) +AE(S):
on a aussi
Ea(R)ùrR + AS)
a
R + AEa(R)(S).
ce qui donne
AE<í(R,(S) = -tf(R
E(R)) -f AE(S),
soit, en tenant compte du choix de a et A,
E"ÍR,(S) =
ta2 + 1
(R-tm) + m.
ou encore :
Ep(R»(S)
m + a2R
ta2 + I
280
ClIAPI'lKl' H- VARIAB[.F5 ALÉATOIRES GAUSSII-NNES
Exercice 1.3.7. Initiation à la théorie dn signal (suite). Soient n réels strictement
positifs t\J2 /„. Soient S (le signal) et. pour / — 1. 2.....«, W(; (le bruit à l'instant
tj). des variables aléatoires réelles indépendantes, gaussiennes de loi respectives
,Vin(m,(T2) et ,%((), tj), où m est un réel quelconque et a un réel strictement positif.
I/observation à l'instant lj est la variable aléatoire
R,- = r,S + Wf/ .
On munit R" de sa base canonique et on note t le vecteur de composantes
11. /2. tn, R et W les variables aléatoires à valeurs dans Rn de composantes
respectives R]. R2,.... R„, et W,j, W,2,.... \Vtll, de sorte que l'on a :
R = St +W.
Calculer la meilleure approximation au sens des moindres carrés du signal au vu
des observations R,, R2..... R„. c'est à dire l'espérance conditionnelle Ea(RIS, où
fj(R) désigne la tribu engendrée par R. Pour cela, choisir un vecteur u de E" et une
constante b tels que les variables aléatoires {u. R) + bS et R soient indépendantes et
en déduire l'espérance conditionnelle E'f(-K'S.
Solution. Puisque les variables aléatoires S et Wf,, W,2,.... W,n sont Indépendantes
et gaussiennes, la variable aléatoire (S. W) est gaussienne et donc aussi sa
transformée linéaire ({u, R) +bS, R). Ainsi, pour que (u, R) +1>S et R soient indépendantes,
il faut et il suffit que la matrice de covariance de ((i/. R) + bS, R) soit nulle, ce qui
s'écrit encore
Vy = 1,2 n cov«w.R) +/>S.Ry) = t).
soit
Vy =1.2 n cov((u. K), R / ) + b covlS. Ry) = 0 . (13.68)
On a, par indépendance de S et Wfy.,
covfS, R,) = cov(S,r,S + W,; ) = tj ct|:
de plus on a
cov((w.R).R/) = {uj)œv(S,R/) + cov((u. W), R/).
soit
cov((w. R). R;) = {u.l ) [tj as2] + [tj cov({w, W). S) -f covf<u, W), WJ; )] ,
soit encore, puisque les variables aléatoires (u. W) et S sont indépendantes
cov«w.R),R,-) = {uj) [tjoi] +cov««,W),W,,.).
La variable aléatoire W ayant ses composantes indépendantes, on a
eov({w. W). Wï;.) =m-(t^_ =ujtj
J VhJiClCE J 3-K 2K1
Ainsi, la condition d'indépendance (13.68) s'écrit, en simplifiant par t-,,
V; = 1,2,... ,n {u,t} <j- +uj +ho2 =0. (13.69)
Pour u, ou prend le vecteur I dont toutes les composantes valent 1 et on choisit alors
h tel que
{l.t) a2 + 1 +bo2 = 0. (13.70)
et ainsi, pour ce choix, les variables aléatoires (1, R} ¦+- bS el R sont indépendantes.
On a alors
Ea(R)((I, R} + bS) = E((I, R} + bS) = E((l, R}) + hE(S) ;
on a aussi
Eff(R)((I,R> + bS) = (I,R) + bEa<R){$).
ce qui donne, en comparant les membres de droite de ces égalités.
&ECT(R)(S) = -(I,R) + E((LR» +hm.
Pu tenant compte de la valeur de b donnée par l'égalité (13.70) et de l'égalité
E((I. R)) = (I.ER) = m {1.1) .
il vient
?>=(TJ)^TT<,-R> + '-((r7yirT7)-
ou encore :
Exercice 13.8. Forme quadratique d'une variable aléatoire gaussienne. (Théorème
de Cochran.) Soit X une variable aléatoire à valeurs dans un espace euclidien E de
dimension d. de loi gaussienne oVr/(0.1), où I est l'application identique sur E. Soit
a un vecteur unitaire de E et U et V les variables aléatoires réelles défi nies par
\) = (X.u) et V=\\Xf-(X,a)2.
1. Démontrer que les variables aléatoires LJ et V sont indépendantes et identilier
leur loi.
2. Soit Y une variable aléatoire à valeurs dans E de loi gaussienne ^F,(m,I). où
m € E. Déduire de la question précédente que la loi de |]Y]|2 est la convoliitîon d'un
clii-dcux à d — 1 degrés de liberté et de la loi du carré d'une variable aléatoire réelle
gaussienne de loi -A/in(||m||, I ).
Solution.
2«2
OtMTIKt-. 13- VARIAI» FSALÉAlOtRES GAOSStGNNES
1. Soit (fi/)i = i,„.,rf une base orthonormée de E de premier vecteur a. On a alors
U = <X,e,> et V = J^{X,eif ,
1 =2
et les variables aléatoires (X. <";), / = 1 d. sont indépendantes. L'indépendance
de U et V en résulte. La loi de 11 est gaussienne ; on a
EU= (EX.e,) =0 et a2Xe]) = {Axa,a} = ||a||2 = 1 ;
la loi de U est donc la loi rJvft(0, 1). De même, les variables aléatoires (X,e;),
i = 2 a\ sont de loi <Jv*i(0,1) et sont indépendantes, la loi de V est donc la
loi du chî-deux à d - 1 degrés de liberté.
2. On a
||Y||2 = |[Y - m||2 + 2 (Y - m.m> + ||m||2 ,
soit encore
llYf = [llY_„lf_(Y_m.^^ + KY_.^) + l„„^.
La variable aléatoire Y — m suit la loi ^(0.1) ; d résulte de la question précédente
que les variables aléatoires [|Y — m\\2 - (Y - m, j^)2 et (Y - m, + ||m|| sont
indépendantes de lois respectives la loi du chi-deux a d - I degrés de liberté et la [ot
«A'p.dl"'!!- U- cc démontre que la loi de [|Y1|2 est la convolutîon d'un chi-deuv à
d - 1 degrés de liberté el de la loi du carré d'une variable aléatoire réelle gaussienne
de loi r%(||m||, 1).
Exercice 13.9. Moyenne et variance empiriques. Soient Yt. Y2, ...,Y„, n variables
aléatoires indépendantes à valeurs dans un espace euclidien E de dimension d,
de lot gaussienne Jv^fO, I), où I est l'application identique sur E. On note Y =
(Y[. Y2. —. Y„) [a variable aléatoire à valeurs dans E" muni de la structure
euclidienne produit.
1. Démontrer que les variables aléatoires [|Y||2 et sont indépendantes (on
étudiera d'abord [e cas où E = R, en pensant à taire un changement de variables
en coordonnées sphértques. et on en déduira le cas général). Préciser leur loi dans le
cas oit E ~ M.
2. Soient n variables aléatoires réelles indépendantes Xi, X2,...,X„, de loi
gaussienne 'A%(m,(i2), où m e R et a > 0. On définit les variables aléatoires réelles M
et V. et les variables aléatoires X et X' à valeurs dans R" par
HA=rJ^Xj et V=£(X,--M)2,
"7 = 1 > = i
X = (Xi,X2,...,X„) et X' = (Xj - M,X2 -M....,X„ - M) ;
on pose Z =¦ On remarquera que l'on a M = ^(X, e), où e est le vecteur de lln
(M D.
EXEKC1CE 13.9 283
(a) Démontrer que les variables aléatoires M et X' sont indépendantes.
(b) Calculer l'opérateur d'auto-covariance de X'.
(c) Soit H Thyperplan orthogonal à e; démontrer qu'existe une isométrie B
de IR"_1 sur H et une variable aléatoire II à valeurs dans MM_I de loi
./VM„_i (0,o-2lp„_i ) telles que X' = BU P-p.s.
(r/) En déduire que les variables aléatoires M. V et Zsont indépendantes.
(e) Déterminer les lois de M et Av.
solution.
1. Plaçons nous d'abord dans le cas où E = M et soient / et g des fonctions de M
dans lui-même, mesurables positives. On a, par le théorème de transfert.
E[/(imi2M(^)] = / /(IMiMiítíOttV M-^f) <>y ¦
1 Ml * II /J J-R" x\\y\\' (2jt)2 v 2 '
Effectuons le changement de variables en Coordonnées sphériques défini par
)'l =pcosy>\
y2 = psin^i COS^2
y,t~l = pSlILtp] . ¦ Sin (pn-2 COS(p„-i
v„ = psin if\... sin <p„-2 sin^„-i .
ce qui définit un difféomorphisme de K"\({J"=, D, ) sur ]0. + oo[x]0. 7r["-2 x]0, 2x[.
où D,- est la droite engendrée par le f-iètne vecteur de la base canonique de JR", Le
jacobien de la transformation étant
n-2
Mp.<pi.<p2 <Pn-i) = P"~' n^iïl^)w~''~l '
7 = 1
le changement de variables et une application du théorème de Fubini conduisent à
l'égalité
E[/X||Y||2)g(-^-)] = 12(*K (13-71)
ou on a pose
h{g) =
I,(/)= f -^pn~lf(p2)exp(~ç)dp.
.qo,+oo[ (2jt)^ V 2 /
n-2
nism^r-'-'g^i
!]ùm"-2x]<h2jr[ ^
(13.72)
et
<&(<pi, if2 vr-i) = tcos^i.sin tp\ co$<p2 sÍn^i...sin</j,¡-2 siny'o-i) ¦
2«4
CHAPI'J'JfC I}. VAH1ABLFS Al ÉA'IOlRbS GAUSSIBN Ml:S
En particulier, on obtient
E[/(||Y||2)] = II(/)t2(1) et e[í(jj^)] = r,(l)l2ÚJ.
et
ElU - IiO.JhU) - 1.
(] résulte alors de (13.71) que l'on a. pour toutes fonctions /' et g mesurables
positives,
e[/(||y|P).<^)]=e[/(|,v[P)]e[ï(^)]. o3.73)
ce qui est nécessaire et suffisant pour assurer 1 indépendance des variables aléatoires
Wet^.
Si maintenant E est un espace euclidien quelconque, soit íc¡)i=i ¿ une base
uïthonorméc de E ; les variables aléatoires réelles Z¿;/ = (Y,, c¡), où / = l,..../;e1
j = 1. 1/, sont indépendantes de loi gaussienne íVr(0. I ), puisque transformées
linéaires de la variable aléatoire gaussienne Y à valeurs dans E" et puisque, pour
deux couples (/'. j) et (k, I) différents, on a cov((Y,. e¡\. (Yk. e¡}) = 0. De plus, on a
|Y||2 = E¿ZÍ.,.
i=lJ=l
Soit Z ta variable aléatoire à valeurs dans E"d définie par
z = (zt.i -Z,^, Zij Z2,,/ Zn>1 'Z-n.d) •
on a alors ||Z||2 = |) Y||2 et, d'après la propriété établie précédemment, les variables
aléatoires ||Z|[2 et ^ sont indépendantes. Il en résulte que les variables aléatoires
|[Yj|2 et |j^i|(I]y=i Z[.yey J2d/ = i Znjej) sont aussi indépendantes; puisque
l'on a
j d d j y
Il j=i II II
les variables aléatoires ||Y||2 et 1^ sont indépendantes.
Si E = IR. la loi de ||Y||2 est la loi du thi-deux à n degrés de liberté (somme de n
variables aléatoires indépendantes, carrés de variables aléatoires de loi gaussienne
rVp:(0, I)). On a montré que, pour toute fonction g mesurable positive. 011 a
E[*(w¡¡u = Il(,),í(í)-
Soit S„ la sphère de IR" de centre 0 et de rayon 1 et soit ¡1 la mesure image
de la mesure 11 (I)[n"= f(SÍT1 V^' J"-'~1 ] d(^ . <p2. ¦ - ¦, Vn~i ) sur ]0, n [rt-2x]0.2n[
par l'application ¡1 peut être appelée probabilité uniforme sur S„ et on a
^["(ffY]f)] := (s„ ^x)dn(x). Ainsi, la loi de est la loi uniforme (au sens
précédent) sur S„.
l-Xr.Kf'ICE 130 2^5
2. Les variables aléatoires X]. X2,... ,X„ étant indépendantes de loi gaussienne
Jvr(/h, a2), la variable aléatoire X est gaussienne de loi (mr, ff2le«)- La
variable aléatoire (M. X'), transformée linéaire de X est alors de loi gaussienne dans
(a) Ainsi, pour que M et X' soient indépendantes, il faut et il suffit que leur
opérateur d'inlercovariance AM x' soit nul. On remarque que X' est centrée,
puisque l'on a
X' = X-Mc et M = ~{X,e) .
si bien que
EX' = EX — E— (X. e) e = me - - {me e) e = 0 .
n n
On a. pour tout u sK",
AMxni = cov(M, (X', u)) = cov(M, (X, u) — M {e, u}),
soit
Am,x'w = cov{~ <x'<'> ¦ (x-u)) ~ (e-u)°M = ^ (Axe,m} - {e,u)a^:
puisque l'on a Ax = a2ijf». il vient
a
et donc aussi
Am.x'« = — (<••«) - — (e.w) = 0:
« /1
ainsi Am x' = 0 et les variables aléatoires M et X' sont indépendantes.
(b) Puisque Ton a X = X' + M e et que M et X' sont indépendarites, on a
Ax = Ax> + A Me ¦
Pour tous u et v de ttî", on a
(AM(,u,r) = cov({Mr,u} . (Me. u)) = {e,it) {e, y} ,
ce qui donne, d'après (13.74),
AK' = <r2(l#» ~ ,
où ce* est rendomorphisme défini par. pour tous u et v de R", {ee*u. v) =
(e. w} {<?. u) (sa représentation matricielle dans la base canonique est le produit
de Kroneekcv de e par lui-même).
286
cHAi'imn 13. varkbi.es aléatoikes gausstennes
(c) On a Ko* Ax' = K e cl. AX' étant auto-adjoint, Im(AX') = (Ker AX') = H;
ainsi X' prend P-p.s. ses valeurs dans H (qui est de dimension n — I). Soit
alors une isomélrie B de IR™-1 sur H; notons /h l'injection canonique de H
dans M". Soit la variable aléatoire U = B*q^X' = (î'hB)* X' à valeurs dans
M""1 ; elle est de loi gaussienne A'r,-i (E((iHB)* X'), (ï'hB)* AX,(/HB)) =
Ajgn-i (0, c2lffih_i ), puisque X' est centrée et que Ton a
B*ï'hAx'ïhB = a2lE«-i .
Enfin, puisque BB* = 1h et que X' prend P-p.s. ses valeurs dans H, on a P-p.s.
X' = BU.
(d) Il résulte de la première question que les variables aléatoires ||U||2 cl sont
indépendantes; les variables aléatoires V = ||X'||2 et Z = le sont donc
aussi. Puisque les variables aléatoires V et Z sont fj(X')-mesurables et que M
et X' sont indépendantes, il en résulte que les variables aléatoires M, V et Z
sont indépendantes.
(e) Puisque
EM = - <EX,e) = — llell2 = m
n n
il résulte de (13.74) que M suit la loi ^-). Par ailleurs, on a
V
U
—— =
—
:
—
a2
0
a
2
P-p.s. ;
ainsi. U/ct suivant la loi ^,¡-1 (0, l^-i ), V/<t2 suit la loi du chi-deux à n — l
degrés de liberté.
Remarque. Les résultats de ce dernier exercice conduisent au test de
Student ; c'est un test paramétrique. On considère une variable aléatoire
réelle X de loi ^R(m,oz) dont on ne connaît pas les paramètres. On veut
tester l'hypothèse que m est inférieur ou égal à une valeur donnée m0 au vu
d'un échantillon (xj ,x2, xn). Soit (X[, X2 . X„) un échantillon
empirique de X, c'est à dire n variables aléatoires indépendantes de même loi que
X. On introduit les variables aléatoires centrées normalisées X; = -l^l
(elles sont donc de loi =/VR(0, 1)) et les moments empiriques associés à cet
échantillon, à savoir
3 =^rÊ(Xy-M.)J.et
/=) /=1
. n , n
J=l ;=1
on a o o
M„-aM„ + m et E2 = o-2(E„) ,
M„ =
¦œkcicf: 13.9
2S7
si bien que, les variables aléatoires Mn et (S„)2 étant indépendantes, comme
on vient de le voir, il en est de même des variables aléatoires M„ et S2 ; de
o o
plus V"M» suit]a loi <^r(0, 1) et (n — 1)(£„)2 suit la loi du chi-deux /2_,.
o
o o f~\A
l.a variable aléatoire T„ — *JnMn/Hn, qui est égale àv/i-1 ¦ " , suit
alors la loi de Strident de paramètre « — 1 (voir l'exercice du chapitre 9 sur
les lois de Student) ; cette loi est tabulée. Remarquons que
Mn-m
t„ = v«—=— -
Le test consiste alors, pour un niveau a donné, à déterminer dans la table la
valeur pour laquelle on a P(T„ $ — 1 — or. Puisque T„ $
si et seulement si M„ € ]—00, + '"], sous l'hypothèse que la vraie
valeur (inconnue) de m soit inférieure ou égale à m0, on a donc M„ €
]—cxj. ^ +mo] avec probabilité supérieure ou égale à 1 —a. Le test de
Student propose d'accepter cette hypothèse, avec probabilité inférieure ou
égale à a de se tromper, si l'échantillon est tel que x~ € ]—00, fB_iiff-^+mo],
j=t /=1
on dit qu'on a déterminé une région de confiance au seuil ou au niveau a.
Chapitre 14
Convergence de mesures et
convergence en loi
Par souci de simplification, nous nous limitons à l'étude de mesures sur
lf/ ; tout ce que nous allons dire est en fait valable lorsque l'espace E est
métrique, localement compact, dénombrable à l'infini ', en particulier si £
est une partie compacte, une partie ouverte, ou une partie fermée de ou
d'un espace vectoriel de dimension finie.
La référence fondamentale sur les questions de convergence de mesures
est le livre de Billingsley [1]. Les notions topologiques nécessaires peuvent
être trouvées, par exemple, dans le livre de J. Dieudonné. Fondements de
l'analyse moderne2.
14.1. Convergence de mesures bornées sur Rd
On note M l'ensemble des mesures (positives) bornées sur TKd muni de
sa tribu borélienne et. pour h > 0, M(b) le sous-ensemble des mesures jx de
niasse inférieure ou égale à b (c'est-à-dire telles que ix(WLd) $ b). Enfin, on
note M1 l'ensemble des probabilités sur Rd.
On introduit les trois espaces vectoriels de fonctions réelles continues
sur M* :
- ~€jc(?-d), espace des fonctions continues à support compact,
- ,tou0K</), espace des fonctions continues tendant vers 0 à l'infini3,
1. On dit qu'un espace localement compact est dénombrable à l'infini s'il existe une suite
o
(K«)rteN de compacts telle que K„ C K«-|-jpour tout 77, et telle que U«eN K« ~~
Les ouverts et les fermés de R1* sont localement compacts dénombrables à l'infini (pour un
ouvert borné de R^. on peut prendre pour K„ l'ensemble des points à dislance supérieure
ou égale à l/n de la frontière de l'ouvert). Si E est compactifié par adjonction d'un point à
l'infini (compactifié d'Alexandrov), cela revient à dire que le point à l'infini possède une base
dénombrable de voisinages.
2. Dieudonné J. (1%5) Fondements de l'analyse moderne. Cahiers Scientifiques, fascicule
XXVIII, Gauthier-Villa rs, Éditeur.
3. Dans un espace localement compact E, on dit qu'une fonction réelle / tend vers 0 à
l'infini si, pour tout s > 0. il existe un compact K tel que supveKc \ f(x)\ ^ s. Si de plus E est
dénombrable il l'infini, il suffit pour cela que la suite (f(x,i))n^j tende vers 0 pour toute suite
(¦*«)«eN tendant vers l'infini (par définition, une suite tend vers l'infini si, pour tout compact
K, elle est située dans Kc à partir d'un certain rang).
289
290
CHAPITRE 14. CONVEKdENCF DE MESURES ET CONVCRC.FNCE f'N 1lII
- L?è(Krf), espace des fonctions continues bornées.
On a les inclusions
Pour la norme, ||/|| — supTtEP,/ |/(.r)|, l'espace ^(E^) est un espace de
Banach. ï^fM'O est un sous-espace fermé de Ç/,(Rd), et "€j((Rd) est dense
dans £0(Rrf). L'espace fn(Ed) est réparable4, mais^R') ne l'est pas.
Définition 14.1. Sur M, on définit respectivement les trois lopologies vague,
faible et étroite comme les topohgies les moins fines* rendant continues les
applications ^ h / f dp de M dans E pour tout f e Ux (j&d) (fesp. pour
tout f e *e0(Wd), resp. pour tout f e ~€b(Ud)).
En particulier, une suite (p„)„^ de mesures bornées converge vers la
mesure p,,
vaguement si lim„ / / dp,n = j f dp pour tout f e ¥x(?d),
faiblement si lim,, /' / d\xn = f f dp, pour tout f e L?0(lRrf ),
étroitement si lim„ f f dp,,, = f f dp, pour tout f e r?/,(R<i).
Remarque. Une base de voisinages de p, pour Tune de ces topologies est
définie par les ensembles de la forme
Ve,/, /„ (fi) = \v e M I suo ijfi^-j -fi dv
oùc > 0 et les f, appartiennent respectivement à c?x(Rd)Xo(?-d)Xb(?d) ¦
Il est clair que la topologie vague est moins fine que la topologie faible,
laquelle est moins fine que la topologie étroite. En particulier, nue suite
qui converge étroitement converge aussi faiblement, une suite qui converge
faiblement converge anssi vaguement.
De plus, la topologie faible sur M(Y) est strictement moins fine que la
topologìe étroiie, comme le montre l'exemple suivant : soit a un vecteur
4. (a) Un espace métrique est separatile s'il possède un so us-ensemble dériombrahtc dei\;,e.
(b) Un sous-ensemble H d'un espace vectoriel noimé est dit total si le sous-espace vectoriel
engendré par T-l (c'est-à-dire l'ensemble des combinaisons linéaires finies d'éléments de H) est
dense dans E.
(c) Un espace vectoriel norme qui possède un sous-cnsemble total H dénomhiable es!
sepaiable (considérer les combinaisons linéaires finies d'éléments de H à coefficients
rationnels).
(d) Il existe dons "Cjçi^) et dans ¥?o(?d) des ensembles lolaux dénonibrables, ce qui
n'est pas le cas pour ¥?/>(K^).
5. (a) Ce sont des topologie* <. initiales -,
(b) Une topologie Ty sur un ensemble X est moins fine qu'une topologie 7~2 sur X si tout
ouvert pour Ti est un ouvert pour 7~2 (elle possède • moins d'ouverts que ti)- Celti revienc
aussi à dire que l'application identique (X, t2) —* (X, T[) est continue.
i I i CONVERt'ifcNCE DP. MESUBfcS BOB M h tS SUk K'
iii>n nul de Rd et fi,, = 5„T ; la suite (p„)nç^ converge faiblement vers
l,i mesure nulle p puisque, pour tout / e ïf^lll?''). on a hm„ j f dp„ =
lnn„ f(nx) — 0 ; toutefois, elle ne converge pas étroitement vers p, puisque
fini,, / I d\in = 1 et que f 1 dp — 0. On vient en même temps de montrer
que M1 n'est pas faiblement l'erme (une limite faible de probabilités n'est
\r,\> nécessairement une probabilité).
Nous allons comparer ces topologies sur Mib) (et en conséquence,
i-niuparer les notions correspondantes de convergence de suites de mesures
di' niasse $ h) et en étudier certaines propriétés.
Proposition 14.2 (Comparaison des topologies). (a) Sur M(b) les topo-
lugies vague et faible coïncident avec la topologie la moins fine rendant
continues les applications ;t k f f dp lorsque f parcourt un ensemble total M
dunsï2x?d)ouï2()?d).
(b) Sur M1 les- trois topologies coïncident.
(c) L'espace M(b) est métrisable et compact pour la topologie faible.
Démonstration. Remarquons d'abord que si les applications p i-> j f dp
sont continues lorsque / parcourt l'ensemble Jf. elles le sont aussi lorsque
/ parcourt l'espace vectoriel M engendré par M.
(a) Soit une fonction f de "6jc?d) ou "Co(M.d) quelconque, et soit s > 0;
il existe une fonction g de 3t telle que ||/ — g\\ ^ Par l'inégalité
triangulaire, on a
11 en résulte que dès que t' G ^s/2,g(p), ott a | / / dp — f f àv\ $ s;
autrement dit, Vs/2,g(p) C Vf-/•(/*.), ce qui démontre que Vsj(p) est un
voisinage de p pour la topologie initiale associée à Jf : puisque de plus,
a priori, celle-ci est moins fine que les topologies vague et faible, ceci
démontre le résultat.
Remarque. On notera que. par exemple, l'ensemble dénombrable M des
fonctions du type xn exp(—x2), neN, est dense dans ^(E). Par ailleurs, le
même résultat pour ta topologie étroite n'a pas d'intérêt : un ensemble M
total dans ¥^(Rd) n'est pas dénombrable et est très « gros ».
(b) Montrons maintenant que les topologies faible et étroite coïncident
sur M1. Pour cela, il suffit de montrer que, si P e .W. un voisinage de P
du type Vt.,/-(P) pour la topologie étroite, où / e if/,(Rû'') et s > 0 sont
fdv\.
soit
fdv £2ft||/-jç|| +
gdv
21)2
(ïi^PITRh 14. CON vf li Cj FN CE DE MESURES PI CONVfcKtjFNC'E t.N (,OI
quelconques, en est un voisinage faible. Soient donc f e 'f/?{W,'J) et e > 0
quelconques et soit (hp)p^\ une suite de fonctions de tfofJR'*) positives qui
converge simplement vers I en croissant. Pour tout entier p. f hp e ^oflR^")
et, pour lout Q <= Ml, on a
\lfd?-lf
-jfdO\
(/ ~.fhp)dY
+ | j jhpd\>-j jhpdQ>\ -f | y*(/^, - /)</Q
et donc,
* Il/Il jv^P)dP+\j fhpd?~j fhpdo\ + \\f\\ j{\-hp)dQ.
Puisque P et O sont des probabilités, on a
j(\-hp)dP + f(\-hp)dQ = z(\ ~jhrdp) + jhpdP-jhpdQ,
et, a fortiori,
0 ^ j <[-hp)d? + j (l-hp)dQ = 2(l -j hpdP) + \jhpdP-j hpdQ
Il en résulte que l'on a
\l fdP-J jdQ\
2(\-jhpd?) + \jhpd?-jhpdQ\ +\Jfh!>dP-JfhpdQ
Par convergence monotone décroissante (P est une probabilité), on a
Uni j(i-hp)d? = 0;
on choisit alors p tel que 0 < /(1 - hp)dV < e/(4|j/]j). Pour tout
Q G M1 nVt/l4(1/ii)iA^PinVf/2./fc/î(P).onaalors|//</P-//rfQ| S e,
et donc, Q e M1 n V*./-(P) ; on vient de montrer que M1 H V^u/u).* (P)D
Vf/2(/ftw(P) C Mx nV£i/(P), ce qui démontre, puisque hp et f/^, sont dans
¥?u?rf), que M1 n V(_/(P) est un voisinage de P pour la topologie faible
sur M1. Puisque de plus, a priori, la topologie faible est moins fine que la
topologie étroite, ceci démontre leur égalité sur -M1.
(c) Choisissons une suite (/„)„<=^ d'éléments de "c-jci^'i qui soit dense
dans c^oflK1'). On définit la distance d sur M(b) par
1 I f f
I 'f. I. CONVFRl.'bNCE Oh MESURhS BORNl'.tS SCR il''
Il s'agit bien d'une distance : en effet d(p. v) a loujours une valeur finie,
la symétrie et l'inégalité triangulaire se vérifient immédiatement. De plus, si
d(p.v) — 0. on a,pour toutn. /' /„ dp = f fn dv. et donc aussi, par densité.
f f dp = f f dv pour tout / e l€jç?d)- ce qui démontre que p — v
(cf. chap. 8. corollaire S.5). D'après (a) (prendre pour M l'ensemble total
constitué par les fonctions fn, n e N), la topologie induite par d coïncide
avec la topologie faible.
Pour démontrer que M (h) est faiblement compact, il suffit alors de
démontrer que de toute suite, on peut exiraire une sous-suile convergente. Soit
donc, pour tout p, pp e M{b). On va utiliser le procédé diagonal pour
extraire de la suite (pp)pen une sous-suite convergente. Pour tout /3, la
suite de réels (/ f„ dpp)pen est bornée par h \\fn\\. Ou peut alors extraire
une sous-suite convergente de la suite (f f dpp)p^n ', notons <p\
l'injection croissante de N dans lui-même qui définit la suite cxtraile. Pour
la même raison, on peut exiraire une sous-suite convergente de la suite
( f _ii dp(pi (p))p&-i ; notons ip2 l'injection croissante de N dans lui-même qui
définit la suite extraite; les suites (f f\ d p92(p)) et (.//2 ^M<P2(/>))/>eM
sont alors convergentes. Par récurrence, on construit de même pour tout
entier k la suite(//w (p))pen, sous-suite de (p(ph_l(p))pe'.M felle que 'es suites
(f f, dpm{p))pen pour tout i < k soient convergentes. Alors, pour tout
entier k, la suite (/ fk ìZ/j^^^en est convergente : c'est à partir du rang k
une sous-suite de la suite convergente (/' fk dp9k{p))pm-
Par densité, on a aussi que, pour tout /" e'Co(M'/), la suite (j f dpiPktjC))k£U
est convergente de limite *(/). L'applicalion ^ est alors une forme linéaire
positive sur £je(Rrf) le théorème de Riesz6 (cf. par exemple, Mctivier [18],
p. 87) assure qu'il existe une mesure unique p telle que ^(f) = f j dp
pour tout / e ¥x(Md). Par densité de ^(?'0 dans ï?0(Krf), ou a alors
limi- // dpn(k) — f f dp pour tout / e ìf0(Rd), c'est-à-dire que la
sous-suite (p<f>k-(k))k£k converge faiblement vers p. 11 reste à vérifier que
p e M(b). Soit (hp)pes une suite de fonctions de ^(ffi^) positives qui
converge simplement vers 1 en croissant ; on a, pour tout p,
et donc, par convergence monotone.
6. Théorème de Riesz. Soit $ une forme linéaire positive sur ~6rx )¦ H existe une mesure
unique sur K"', muni de _s;i tribu borélîenne, qui représente c'est-à-dire telle que l'on ait.
pour tout / € r5jc(R^). $(/) — fRd f du : cetie mesure possède tes propriétés suivantes ;
(i) ¡1 est finie sur tout compact (on dit que c'est une mesure de Radon),
(iij pour toul B e <&ig,y, on a
/i(B) = inff/xfO) | O ouvert, ODB}; /i(B) = sup{/A(K) | K compact, K C B| .
244
CHAPITRE 14. CONVI R(iF-.IN< h 1)1 MESURES I I CONVERGENCE |:.N 1,01
lim j hp tlft = p(KJ) i h . ?
Nutation. Ou note traditionnellement p.n => p. le fail que la suite (/x„)nerJ
converge étroitement vers p.
Remarque. En conséquence de la proposition précédente, pour qu'une suite
(aObgn de mesures de Mtb) converge faiblement vers /t, il faut cl il suffit
que la suite (j f dp-„)„er converge vers f f dp pour tout / parcourant
un ensemble total M de Çn(R''), par exemple t,x{^-d) lui-même. De plus,
si les pn et p sont des probabilités, pour que la suite (/<„)„€n converge
étroitement vers p. il faut et il suffit que la suite (j / dp„)„^\ converge
vers f f dp pour tout /' parcourant un ensemble total Jî de '£je (!Rd ).
Proposition 14.3. Soient p„, n e N, et p des mesures de M (h) telles que la
suite (pi„)n€H converge vaguement (ou faiblement) vers p. La suite (pn)n&.\
converge étroitement vers p si et seulement si liai,, pn(Fd) = ^(R'').
Démonstration. La condition est évidemment nécessaire. Pour la condition
suffisante, soient / e f/,(lR'') et e > 0 quelconques. La mesure ¡1 étant de
niasse finie, on peut choisir v e telle
) ei 0 -r j (1 - y>) (///
8
Puisque ./V e f je(lf^), il existe un entier N] tel que. pour tout n 5 N,, on
| y ./V 4u» - y f<p dli ' -< -
2
Par ailleurs, puisque
y (I ~<p)dp„ = ju„(Rd) ~y
il résulte des hypotheses que la suite de terme general / ( 1 —<p) dp,, converge
vers p (Kd) — J ipdp — j (I - tp) dp. II existe done un enlicr N2 tei que, pour
tout n >. N2, on ait
0$ j{\-<p)dpln
411/11 '
Pour tout n ^ N — maxfNi. Ni).on a. par l'inégalité triangulaire,
I j f dp» - J f dp\
:C I [(J~f<p)d
dp,, + \J f<pdpn - jf<p dp + J(fip-J)dp
Ï4-1. CONVT.RGKM'I. Du MLSUIttS BORNÉES sur
on a, a fort fort,
/ dpn - ff dfi
et. par conséquent.
295
J f<p dfi„ -J
- / ff 'iß
(\-<p)dp,
I j f d(in - j f dß <: £,
ce qui démontre que la suite (ßn)nm converge étroitement vers ß. ?
Remarque. Sur l'espace mesurable (M, j3k) la suite des mesures de Dirac
ùt/n converge étroitement vers la mesure de Dirac 80 ; toutefois, on a, pour
tout n G N*. X\/ri(\0\) - Ü et par conséquent, on a lim„ H\/„({0\) 7^ 30({OJ).
Ainsi la convergence étroite d'une suite de mesures (pn)„en vers une
mesure ß n'entraîne pas la convergence, pour tout borélien A, de la suite
</i„(A))„<=h ¦ La proposition 14.5 suivante donne une réponse à ce problème
de convergence.
Définition 14.4. Soit ß une mesure sur IR''. Un borélien A est dit de p-
continuité si //((JA) Ü, où ciA désigne la frontière (ou te bord) de A.
Proposition 14.5 (Critères de convergence étroite). Soient ßn> n e N, et ß
des mesures de M(b). Les assertions suivantes sont équivalentes :
(i) La suite {p„)„£n converge étroitement vers ß.
(ii) Pour tout fermé F, on a
lim sup ßn(F) < ß(F) .
et de plus, on a
lim p„(Ud) = p(Rd).
(u\) Pour tout ouvert O. an a
liminf//n(0) £ (HO) .
et de plus, on a
lim p.„(Rd) - p(Rd).
(iv) Pour tout borélien A de /1-continuité, on a
lim/ifl(A) = p(A).
n
Démonstration. On l'ait la démonstration suivant le schéma suivant :
(i) <^ (ii) (iü) (iv) => (ii)
2yû
CHAPITRE 14. CONVERGENT t Of MESURES ET CONVERGENCE EN ( 01
(i) =^ (ii). On définit pour tout j g M* la fonction <pj G "€b(W) par
1 si h S 0,
M") =
i — ju si 0 < u < — ,
0 si h > — ;
la suite de fonctions (tpj)jeiï* est décroissante et converge simplement vers
l]-oo,o]- Soit un fermé F; on définit alors la fonction // G Uè(E(/) en posant,
pour x G Md, fj(x) — <pj(d(x,¥)). Alors, pour tout x G Erf, lim, \
f)(x) — l]-co,o](^(-ïi F)) = 1f(x) ; les fonctions f) étant bornées par 1 et
la mesure (i étant bornée, on peut appliquer le théorème de convergence
monotone décroissante, ce qui donne limy / /} tî(.i — jx(F). Soit s > 0
quelconque; il existe alors y0 tel que
Puisque, par hypothèse, la suite (fxn)ne^ converge étroitement vers fx, on a
alors ç
lim / fi0 djxn = / fj0 dji ^ ii(F) + e .
Mais puisque, pour tout n G N. on a jin(F) ^ /" /,<, il vient
lim sup /a„(F) ^ lim sup / f,0dfj.„ ^ /x(F) + ç ,
n n J
ce qui, étant donné l'arbitraire de s > 0, démontre que limsup„ /a«(F) ^
/i(F).
(ii) (iii). Si O est un ouvert, jx étant bornée, on passe au
complémentaire : on a, pour tout n,
l-tn(O) = tinW*)-v„(Oc),
et donc, en prenant les limites inférieures et en utilisant l'hypothèse,
liminfjun(0) = lim/a„(Rd) - lim sup u„(Oc) 5 ix(Md) - fx(Oc) = /a(O) .
" « n
(iii) =»> (ii). On raisonne de la même manière en passant au
complémentaire.
(iii) (iv). Soit A un borélien de /^-continuité ; puisque les assertions
(ii) et (iii) sont équivalentes, en utilisant la croissance des mesures et les
o
inclusions A C A C A. on a successivement les inégalités
u(A) < liminf/a„(A) ^ liminf//„(A)
n n
< lim sup /(„ (A) ^ lim sup \xn (A) < \x (A).
14-1 • CONVERGENCE DE MESURES BORNEES SUR E
d
297
Mais, puisque <1A = A \ A et que p('àA) - 0, on a /;(A) — pi A) = //(A),
ce qui démontre que
liininf p„iA) — limsup ji„(A) = //(A).
" n
c'est-à-dire que la suite de terme général p„(A) converge vers p(A).
(ii) (et donc (iìi)) =i- (i). Préalablement, on établit une relation du même
type que celle donnant la moyenne d'une variable aléatoire positive comme
intégrale du complément à 1 de sa fonction de répartition, à savoir : si X est
une variable aléatoire positive, on a
XdV = / P(X > x)dX(x) = / nX^x)dX(x)
11 résulte du théorème de Fnbini que. pour tout / g r^~(R) et tout
p g M(b), on a. en notant A la mesure de Lebesgue sur R,
dX(u)
soit
on a de même
/ p(f ? u)dX(u) = / / l(f(x)^u)du(x)
Ao,li/IH Un"
Vll/H]("H(/(*)>w) àX(u) dp(x),
/ p(fïu)dX(u) = f fdp; (14.1)
J[o.ll/l|] JRd
f p(f >u)dX(u)= f fdfi. (14.2)
-/[0,11/11] JRd
Soit alors / g '(f^(IRd) quelconque. La mesure 1 [o,||y ||] étant bornée, le
lemme de Fatou-Lebesgue donne
limsup / f dp» — limsup / pn(f ? u)dX(u)
n Jh<i n J[0,\\f\[]
^ / \imsuppn(f ^ u)dX(u);
J[Q,\\f\\] n
puisque (f > u) est fermé et qu'on suppose l'assertion (ii) vraie, on obtient
limsup / f dpn -< / p{f ? u)dX(u) = f /dp.
'r<; J[o.\\f\\]
On a de même
liminf / / dpn — limîttf / p„(f > u)dX(u)
Z I \iminfpn(f >ii)dk{ii):
Jlo.Wnn n
CHAPlllíJ 14. CONYERíJENCF DE MFSUKES ET ('ONVËlil.lENCE EN LDI
puisque (f > u) est ouvert et qu'on suppose l'assertion (iii) vraie, on obtient
liminf / fdfi,,^ I n(f >u)dX(u) — j fdfi.
" Ji'' J[o,|| f\\) Jy.d
Au total, on a démontré que lining,/ f d¡in = fRd f dp pour tout / e
ff^fR); par linéarité on a cette relation pour tout / e f¿(R) de signe
quelconque (il suffit d'appliquer le résultat précédent à la fonction positive
11/11-A
(iv) => (ii). Soit F un fermé quelconque. Soit, pour tout s > 0, le fermé
Ff ~ {x e R(í I d(x,F) £ e}. L'application * de [0. IJdans [0,b] définie par
<E(e) = p(Ff.) est croissante et bornée ; elle admet un ensemble I de points
de discontinuité au plus dénombrable. Pour tout s e [0, 1] \ f, Fs étant fermé,
«er-i*
ce qui donne
M9Fe) — ¡t(FP) — lim p(F \_) ;
f. étant point de continuité de <ï>. il vient /¿l3F¿) = 0. Ainsi, 011 peut trouver
une suite (£¿)Ae«* décroissant vers 0 et telle que, pour tout k e N*, on ait
fj.(aFe/_) = 0. Par hypotlièse, on a alors, pour tout k e N*.
limsup¿¿„(F) < limsup/¿n(FfiA) - ]im//„(F8(t) = tt{Fek).
11 n "
Comme F = f\<=N* et Mue 'a su"e ""es ensembles Ft.k est décroissante,
on a líitifc ¡i(FEí ) = /¿(F), ce qui donne
lim sup ¿¿„ (F) ^ /4F).
n
Enfin, Rrf étant un ensemble de /.(-continuité, on a bien !im,¡ pn(W!) —
fi(Rd). a
Remarque. Sur l'espace mesurable (R, <Sp.), on considère, pour tout n e N*,
la mesure /t„ ~ y y^"_, 8j¡n. Cette suite de mesure converge étroitement
vers l[oj] * X. où X est la mesure de Lebesgue sur R. En effet, pour tout
/ e Çfi(R), on a
lim / f dpn = lim - Y" /(^) = / fix) = / /1[0 u dX :
(la somme £%i «/(£) est une SOInme de Riemann associée à /' et à la
subdivision de [0.1] déterminée par les points J/n). Toutefois, puisque pour
tout n on a p.„(QC\\0.\]] = l.ona lim„ /tn(Q(l[0.1]) = 1. tandis que Ton a
l-l-l. (..onvt.RGr.NCr; ht. MESURES BORNÉES sur P.'
l[o, i] ¦ A(Q n [0,1 ]) — 0 ; ce qui n'est pas en contradiction avec la proposition
précédente, puisque Qn[0,l] n'est pas un ensemble de l(0.i] ¦ A-continuité
(on a i)(Qfl[0. 1]) = [0,1]etdoncl[0.i]-A[3(Q n [0. 1])] = 1).
Définition 14.6. Une suite (pn)n€H de mesures de M (h) est tendue si, pour
(out f > 0, il existe un compact K de Rd tel que
supju„(Kf) S e.
Corollaire 147. Si la suite (p„)neN démesures de M(h) converge étroitement
vers p € M(h), elle est tendue.
Démonstration. Soient p > 0 quelconque et une boule ouverte O telle que
/¿(0) =î p(Rd) -f.il. Puisque Iim„ pn(Ud) - p(Rd), il existe un entier Nt
tel que, pour tout n ^ N,, on ait p„(Wd) S fi(Rd) + fi/2. Par ailleurs, il
résulte de la proposition 14.5 que,
lim inf pn(0) Z p(O) £ p(Rd) - ~ ;
il existe donc un entier N2 tel que. pour tout n >. N2, on ait pn(0) 5
p(Ud) - e/2. Posons N = max(N[, N3) ; pour tout n ^ N, on a alors
ptl(Oc) = pn?d) - pn(0) $ [p(Rd) + S
II en résulte que
2J - )+2=£-
sup^fO1) (14.3)
Il reste à choisir un compact K contenant O tel que Ton ait p„(Kù) 5 £
dès que 0 ^ n $ N, ce qui est possible puisque, pour de tels n, en nombre
fini, on a lim,, p»(B/(0. p)c) = 0, où B/(0, p) désigne la boule fermée de
centre 0 et de rayon p ; ainsi, puisque Kc C Oc, il résulte de 14.3 que l'on a
suF„gn m«('kc1 ^ £- d
Le célèbre et important théorème de Paul Lévy donne une caractérisa-
tion de la convergence étroite d'une suite de mesures en termes de
transformées de Fourier.
Théorème 14.8 (Théorème de Lévy). Soit, pour tout n € N. une mesure
p„ € M(b).
(rt) Si la suite (p„)nen converge étroitement vers p, alors la suite pn
des transformées de Fourier de pn converge simplement vers Ji, transformée
de Fourier de p.
(b) Inversement, si la suite (jln)T,^ des transformées de Fourier des p„
converge simplement vers une fonction <p continue en 0, alors il existe une
unique mesure p € M (h) telle que (p == p; de plus, la suite (pn)new converge
étroitement vers p.
CHAPITRE 14. CGNVEltGENCE DE MESUttGS ET CONVERGENCE EN LOI
(c) En fait, dans l'un quelconque de ces cas. la convergence de la suite
(Jtn)n<=n est uniforme sur tout compact.
Démonstration. Observons tout d'abord que si une suite (pn)„m de
mesures bornées sur Rd converge faiblement (resp. étroitement) vers une mesure
/a, on a Um„ f f dfin = f f dp si /' est une fonction continue sur Rd
tendant vers zéro à l'infini (resp. une fonction continue bornée sur Rd ) et à
valeurs complexes : il suffit de remarquer que la convergence a lieu pour dïf
et lm /. Dans cette démonstration, la notation foO^) désignera l'espace
des fonctions continues définies sur Ud et à valeurs complexes.
(a) Pour tout / e ¥d, la fonction expf {¦, t) est continue bornée, et la
suite de terme général p„(t) converge donc vers pit).
(b) Montrons d'abord que la suite (/a„)«eN est faiblement convergente.
Puisque M(h) est métrisable et compact pour la topologie faible, pour qu'il
en soit ainsi, il faut et il suffit que cette suite admette au plus une valeur
d'adhérence faible.
On sait en effet que dans un espace métrique compact toute suite possède
au moins un point adhérent, et qu'une suite qui n'admet qu'un seul point
adhérent converge vers ce point.
Soit donc fi une valeur d'adhérence faible de la suite (pJ„)„e^ et soit
(/a<Hfl))«6N une sous-suite qui converge faiblement vers p (i/r est l'injection
de N dans N qui définit la sous-suite). On va démontrer que py,(n) tend
étroitement vers /( quand n tend vers l'infini, ce qui d'après (a) assurera que
la suite de terme général pffffÙ) converge simplement vers p. Puisque par
hypothèse p^ tend simplement vers <p quand n tend vers l'infini, il en est
de même pour toute sous-suite, et on aura p = <p. L'unicité d'une valeur
d'adhérence faible ¡1 résultera alors de l'injectivité de la transformation de
Fourier et on aura démontré la convergence faible de la suite (/a„)h€N vers
p.
Il nous faut donc montrer que la suite (p^^neN converge étroitement vers
/a, et pour cela ¡1 suffit, puisqu'on a déjà la convergence faible, de montrer
que
lim/a^(M)(Md) = fi(Rd)
n '
(voir prop. 14.3). Mais on sait par hypothèse que
lim/i^fE*) - \imp,„(Ud) ~- lim/£(0) = <p(0).
n'a n
Puisque p(B.d) — p(0), ¡1 nous suffit donc de montrer que p(0) — <p(Q) ;
Pour cela, on observe d'abord que pour £ > 0 on a
hm / p7,{t)dt = I (p(t)dt. (14.4)
" J[0,e]a J[0,e]'1
1.1,1. CONVERGENCE DF. MESURES BORNÉES SUK E'
lin effet, puisque JÂ^Ï tend simplement vers quand n tend vers l'infini et que
les fonctions 'jT„ sont bornées en module par b, cela résulte du théorème de
convergence dominée.
On utilise alors le lemme suivant :
Lemme. Soit s > 0. Il existe une fonction Je e ï?0(Mrf) telle que pour toute
mesure bornée v surRd on ait
f v(t)dt = f fedv. (14.5)
Démonstration du lemme. On a, par le théorème de Fubini.
/ v(t)dt = f f exp(i {x,t))dv(x)
s
or, toujours par le théorème de Fubini. on a
à
exp(/ (xj))dt
dt
dv(x);
f exp(ï (x,t))di - fl f exp(ixitj)di
On obtient donc (14.5) en posant, pour m e M,
( exp(iew) — 1
JtO.e
&\p(iut)dt = < iu
si w D ,
si u = 0.
et, pour x e Ud, ff(x) = J~| ge(Xj). II est clair que 7 fF_ € e0(Krf}.
7 = 1
Suite de la démonstration de (b). Puisque la suite de terme général ji#(n)
converge faiblement vers n et que fe e <C0(lBLd), on a
lim j fealty = f Udiis
d'où, d'après le dernier lemme,
7. La relation (14.5) est un eus particulier de la relation / jidv = / vdji. valable pour
des mesures bornées ¡1, i- quelconques sur W/*. Lorsque jj est une mesure dt densité h par
rappori à la mesure de LebcsgUfc (h e Ll(R(')>, on pose h ~ fi et on Oil que li est la
transformée de Fourier de la fonction h; on a f hdv = j v(f)h(i)dt. On obtient ( 14..S) en
prenant h = 1 çrt ^. h = /1. Le fail que h € "Gq(R(/) est un fait général (lemme de Rienumn-
Lebesgue),
CIlAPITKt 14. < rjNVElîtil'NCF-. Ul". MESURES ET (.'ONVLKC.ENC h IN LOI
lim / lU'{'i>
" J[oM'! J10.1Y'
D'après (14.4) appliqué à la sous-suite (jty,(n))n£N, on a
~ f jî(t)df = X f (p(t)dl.
Grâce à la continuité de /À et de <p, on obtient en prenant la limite pour s
tendani vers zéro des deux membres de l'égalité précédente, fa relation
£(0) = <p{0). (14.6)
On a montré la convergence faible de la suite t/x„)„e*]. Enfin, il résulte de
(14.(1) ei de la convergence simple de la suiie (}i„)nefi vers <p que
lim^(O) - ¡1(0)
ou, autrement dit, que
Ceci achève de momrer la convergence étroite de la suite (/t„)„er vers sa
limite faible fi.
(c) D'après te corollaire 14.7, la suite (/(M)HeM, qui converge éiroite-
meni. est Icndue. Soit s > 0 quelconque; on choisit alors un compact Kt
te] que R
sup//„(Kp ^ - .
On a. pour tout n € N, et tous 1.1' de iîd,
1^(0-/^(^)1 = / [exp(i {x,t)) - expd (x,t'})] dfi„{x)\
=< / |exp(/ {x.î})-txp(i(x.î'\)\ditn(x) + 2 fin(Kce).
soit, par l'inégalité des accroissements finis,
- jTn(t')\ S / I (.v. f - f') I dft„(x) + 2ft„(K';) :
on a donc, pour tous 1, (' de E<;.
h sup ||.v
2£
3
et. pour tous t, (' de ¥d tels que ||r - t'\
sup \jTnU) -JTn(t')
3>b sup
Autrement dit la suite des fonctions /7^ est équi-continue (uniformément en
0- puisqu'elle converge simplement, elle converge uniformément sur tout
compact. ?
14.2. Convergence en loi
Toujours par souci de simplification, nous nous limitons à l'étude de
variables aléatoires à valeurs dans Rd ; tout ce que nous allons dire est eu
fait valable lorsque les variables aléatoires sont à valenrs dans un espace
métrique E localement compact et dénonihrable à l'infini.
Définition 14.9. Soit pour tout n e N une variable aléatoire X„ définie sur
un espace probabilisé (Q„, An, P"), à valeurs dans Rd, et soit X une variable
aléatoire définie sur un espace probabilisé (Q^A.P), à valeurs dans Md.
La suite de variables aléatoires (X,j)„eh converge en loi vers X si la suite
(P'x , )ne?i des lois des X„ converge étroitement vers la loi Px de X.
Z
Notation : X
Remarque. Cette notion de convergence n'est pas relative aux variables
aléatoires en tant qu'applications, mais concerne les lois des variables
aléatoires; clic fournit en particulier une notion d'approximation pour les lois
de variables aléatoires. Il est à remarquer que les variables aléatoires ne sont
pas nécessairement définies sur le même espace probabilisé. En pratique, il
n'y a pas toujours de variable aléatoire limite X naturelle et cela conduit à
une deuxième définition de la convergence en loi d'une suite de variables
aléatoires utilisée couramment et simultanément avec la précédente.
Définition 1410. Soit pour tout n e N une variable aléatoire X„ définie
sur un espace probabilisé (Qn, ,A„, P"), à valeurs dans Rd, et soit p une
probabilité sur Rtl. La suite de variables aléatoires (\n)nen converge en loi
vers p si Ut suite (Pxn)neN des lois des X„, converge étroitement vers la loi p.
Notation : X„ \i.
II faut remarquer que dans ce cas. les objets mathématiques figurant de
chaque côté de la flèche sont de nature différente.
Exemple : on démontrera ultérieurement que si pour tout n e N, Xn est
une variable aléatoire réelle de loi binomiale B(n. -), où A > 0, alors la
suite (Xn)„eN converge en loi vers la loi de Poisson -P(X).
Conceptuellement, il n'y a donc rien de nouveau par rapport a la notion
de convergence étroite d'une suite de probabilités et les critères de
convergence en loi sont ceux de la convergence étroite d'une suite de probabilités.
On donne toutefois une formulation du théorème de Lcvy en termes de
convergence en loi.
304
chapitre 14. convergence de mesures et convergence en l,(j[
Théorème 14.11 (Théorème de Lévy; convergence en loi). Soit pour
tout n e N une variable aléatoire Xw définie sur un espace probabilisé
(Qn, <&„,!*"), à valeurs dans Rd, de fonction caractéristique <pXn.
(a) Si la suite de variables aléatoires (X„)„eN converge en loi vers X, où
X une variable aléatoire définie sur un espace probabilisé (Q, A, P), à valeurs
dans Rd, alors la suite (</?xB)«€N ^es fonctions caractéristiques converge
simplement (et même uniformément sur tout compact de Rd ) vers la fonction
caractéristique ipx de X.
(b) Inversement, si la suite (<px„)neN des fonctions caractéristiques
converge simplement vers une fonction <p continue en 0. alors (p est la
transformée de Fourier d'une probabilité fi sur Rd, et la suite des variables aléatoires
(X„)„eN converge en loi vers \x.
De plus il existe une variable aléatoire (non unique) X définie sur un espace
probabilisé (Q..A.Y), à valeurs dans Rd, telle que la suite de variables
aléatoires (X„)nl5j-; converge en loi vers X.
Démonstration. Ce n'est qu'une reformulation du théorème de Lévy pour
la convergence étroite de mesures bornées, une fois rappelé que <pxn est, par
définition, la transformée de Fourier de la loi de X„. Seul le dernier point de
la réciproque nécessite un éclaircissement : d'après le théorème de Lévy (th.
14.8), la suite (X„)„en converge en loi vers la probabilité // telle que £ = ip
(fj, est bien une probabilité, puisque lim„ ^x„(0) = 1 = <p{fy = T^(0))',
on considère alors l'application identique X de Rd sur lui-même; c'est une
variable aléatoire définie sur l'espace probabilisé (Rd,IBSd,fi) à valeurs
dans M.d de loi fx et telle que la suite de variables aléatoires (X„)„eN
converge en loi vers X. ?
Exemple 14.1. Soit pour tout n e N une variable aléatoire définie sur un
espace probabilisé {Q„, A„. P" ). à valeurs dans Rd. et soit X une variable
aléatoire définie sur un espace probabilisé (Q, A, P). à valeurs dans R(/. On
a l'équivalence :
X„^X <^ Vt&Rd, (XM,r) i (X.r) .
En effet, pour tout t € Rd et tout réel a, on a <pxn(ar) — ^Xntt)(a) et
(p\(at) = <p{xj)ia)- Il suffit alors d'appliquer le théorème 14.11.
Remarque. Avec les mêmes notations qu'au théorème 14.11, il est clair que si
/' est une application continue de Ed dans Rk et si la suite (X„)„er^ converge
en loi vers X, alors la suite (/(X„))„eN converge en loi vers /'(X), puisque,
pour toute fonction g € t?è(Rfc), on a, par le théorème de transfert,
f 8dpf(xHy= f f^Z^l» ^ f gdPx= f fogdl\.
14.::. convfk(;ënce en loi
3»5
La proposition suivante étend la classe de fonctions pour lesquelles on a
cette propriété.
Proposition 14.12. Soit pour tout n e N, une variable aléatoire K„ dèfiniesur
un espace probabilité An. P"), à valeurs dans Rd, et soit X une variable
aléatoire définie sur un espace probabilité (Q, A, P), à valeurs dans Rd. Soit
f une application borélienne de Ud dans Rk telle que f soit Px-p-s. continue.
Si la suite (X„)„€[, converge en loi vers X, alors la suite (f(X„))neN converge
en loi vers f (X).
Démonstration. Soit C e 33Rd tel que P\-(C) = 1 et tel que / soit continue
sur C. Soit un fermé F quelconque de M.k. On a, pour tout /1,
= P"x„ [/"'(F)] « PL [T^HFJ] ,
et donc, d'après la proposition 14.5,
lim^pP}(X;j)(F) s HmsupP^ \TW)] « PxC/^TO) ¦ (14-7)
n n L J
De plus, 011 a les inclusions
r1(T)c7rHF)cC-U/-l(F);
en effet, soit x e /-'(F) quelconque. Si x e Cc on a a fortiori x e
Cc U /~'(F). Si .v e C, puisque .y e /"'(F), il existe une suite U„)„eN
de points de /"'(F) (c'est-à-dire tels que f(xn) e F) qui converge vers x,
point de continuité de / ; on a alors lim„ f(x„) = f(x), et puisque F est
fermé, f(x) e F et on a encore x & C1' U /"'(F). Puisque PX(CC) — 0, il en
résulte que l'on a
Px [T^W)] - Px [/"'(F)] = P/(x,(F).
et, en reportant dans (14.7),
linisupP^F^P/^F).
ce qui démontre que la suite (/(X„))„6W converge en loi vers /(X). ?
Exemple 14.2. Soient, sur l'espace probabilisé (Q. ,A, P), des variables aléa-
x
loires (X„,Y„). u e N, et (X,Y) à valeurs dans R2 telles que (X„, Y„)
(X. Y) ; alors, par exemple, X„ + Y„ X + Y et X„Y„ -> XY. Supposons
pour simplifier, que YM 7^ 0 partout, pour tout n. Si Py({0}) = 0, (c'est-à-
dire P(x,y>(m x {0}) = 0), on peut dire que &l -> |.
On compare, lorsque cela a un sens, la convergence en loi e* la
convergence eu probabilité d'une suite de variables aléatoires.
CHAPITRE 14. CONVERGENCE DE MESUlîli.S ET CONVERGENCE EN loi
Proposition 14.13. 5/ une suite (Xn)„eN de variables aléatoires définies sur
le même espace probabilisé (Q,A,~P) et à valeurs dans Rd converge en
probabilité vers une variable aléatoire X (définie sur (Q. A, P) et à valeurs-
dans Rd) elle converge aussi en loi vers X.
Démonstration. Soit / e c?^(Ed) quelconque. Pour tout s > 0, 011 a, par le
théorème de transfert,
\[ f<t?x„-f fdVx = |E/(X„)-E/(X)|
s e + 2\\f\\ P(|/(X„)-/(X)|>e);
puisque / est continue, la suite (/(X„))„er-i converge en probabilité vers
/'(X) et il en résulte que
O^Iimsupi S fdPXlt- S JdVK\
5 e
ce qui. étant donné l'arbitraire de s, démontre que \im„ f&d f d~Px„ =
Remarque. La réciproque est fausse et, comme le montre le contre-exemple
suivant, elle n'est même pas vraie avec une suite statiomiaire ! On considère
sur l'espace probabilisé (Q. A, P) une variable aléatoire de Bernoulli X de
paramètre 1/2 et on pose, pour tout n e N, X„ = X; trivialement, on a
x
X„ X. La variable aléatoire Y — I - X est encore de loi de Bernoulli
x
de paramètre 1/2, si bien que l'on a aussi X„ Y- Par contre, puisque
|X„-Y| = [2X-1[ = 1 P-p.s., pour tout s e]0,l[,onaP(|XB-Y| > e) = 1
et la suite (X„)„sm ne converge pas en probabilité vers Y.
Toutefois, on a une réciproque partielle :
Proposition 14.14. Si une suite (X„)n€N de variables aléatoires définies sur le
même espace probabilisé (Q. A, P) et à valeurs dans TRd converge en loi vers
une variable aléatoire P-p.s. constante a, elle converge aussi en probabilité
vers a.
Démonstration. Pour tout e > 0, on a SaCdB/(a. t)) = 0. où By(a,e)
est la boule fermée de centre a et de rayon e, si bien que d'après la
proposition 14.5, on a lim„ PXf,(B/(a, s)) — <5a(B/(û, s)) = 1. Il en résulte
quelim„P(|]X„ -a\\ > e) = 0. ?
Le lemme de Scheffé donne une condition suffisante de convergence en
loi dans le cas où les variables aléatoires admettent une densité.
14-t, convergence en lo!
Lemme 14.15 (Lemme de Scheffé). Soit, pour tout n e N, une variable
aléatoire X„ définie sur un espace probabilìsé (Qn, A„,Yn), à valeurs dans
et admettant une densité fx„. Si la suite ( fXn)nen converge Xj-p.p, vers
une fonction f telle que fRd f dXd = 1, alors la suite (X„)„eN converge en
loi vers la loi f ¦ Xd. De plus, on a
= 0.
lim sup |Px„(A)- / j dXc
Démonstration. Pour tout A e B^u. on a
'px„(A) - f f dXd = \[{fxH-f)dkd s f \fxH-f\dXd;
sup
on a donc
Px„(A)- f fdXd $ f \fxn-f\dXd. (14.8)
,'a JiL''
On rappelle l'égalité très utile
\a-b\=a+b-2 min(a, b) (a, Hffi);
si bien que Ton a
f \fxn-f\dXé=i fXndXd+( fdXd-l( min(fx„J-)dXd,
soit, en tenant compte de ce que fx„ et / sont des densités de probabilité.
/ \h„-f\dXd -2-2 S mm(fXn,f)dXd .
Mais, puisque Ton a
V» e N 0 < niinC/x,. /) *s / et lim min(/x„. /) = / Arf-p.p.,
il résulte du théorème de convergence dominée que
\.hn-f\dXd =2-2 lim/" mm(fXlt. f)dkd = 2-2 f fdkd=0,
ce qui, en tenant compte de (14.8). donne le résultat. ?
La proposition suivante donne un critère de convergence en loi ponr nne
suite de variables aléatoires discrètes à valeurs dans TL.
Proposition 14.16. Soient Xn, n eNefX des variables aléatoires définies sur
un espace probabilité (Q, ¿4, P), fi valeurs dans TL. On a l'équivalence
X
V>" e Z LimP(X„ =r) = P(X = r).
308
CHAPITRE 14. CONVERGENCE Db Mi-.SURES ET CON\ h'RGENCE EN LO[
/
Démonstration. Si la suite (X„)weN converge en loi vers X, pour r fixé, on
choisit / e Cx(R) à support dans l'intervalle ]r — 1/2, r + l/2[ telle que
f(r) 7^ 0. Puisque l'on a
f f dPXr, = f{r)?(Xn = r) et ( / dPx = f{r)P(X = r).
j M jr
et que ]im„ / / dpXrl = j f dPx, il vient lim„ P(X„ = r) = P(X - r).
Jr Jr
Inversement, pour tout / e fjcw de support compact K, on a
/rfpx« = £/(r)P(XB=r).
somme ne comportant qu'un nombre fini de termes ; si, pour tout r e Z, on a
]im„ P(X„ — r) = P(X - r), il en résulte que lim„ /R / dp*,, = fR f dp\7
ce qui démontre la convergence étroite de la suite des probabilités Px„ vers
la probabilité Px. ?
Historiquement, la convergence en loi a été définie en termes de
convergence de suites de fonctions de répartition. Mais, comme le montre la
proposition suivante, la définition n'était pas extrêmement simple...
Proposition 14.17 (Convergence en loi et fonctions de répartition). Soif
pour tout n G M une variable aléatoire réelle X„ définie sur un espace
probabilisé (Qn, An, P"), de fonction de répartition FXn et soil X une variable
aléatoire réelle définie sur un espace probabilisé (Q,A,P), de fonction de
répartition Fx. La suite (X„)„eN converge en loi vers X si et seulement si la
suite (Fx„ (.v))„eN converge vers Fx(x) en tout point .v de continuité de Fx.
Démonstration. Supposons que la suite (X„)IJlEn converge en loi vers X.
Soit x un point de continuité de Fx- Puisque 0(]—oo,x]) = {x} et que
Px((x}) — Fx(x) — Fx(x — 0) — 0, la demi-droite ]—00, x] est un ensemble
de Px-contiimité et on a. d'après la proposition 14.?.
limPx„(]-œ,x]) =Px(]-co,x]) = FX(»,
fi
ce qui démontre la condition nécessaire.
Inversement, supposons que la suite (FXf, (x))„eN converge vers Fx(x)
en tout point x de continuité de Fx- Soient / e 't?0(R) et s > 0
quelconques. Puisque l'ensemble des points de discontinuité de Fx est dénom-
brable (peut-être vide), il existe une fonction en escalier du type g =
H/=i a/ljd/.è/], aveca; < bj ^ tf/ + i < bi+l, et où les aj et b,; sont points
de continuité de Fx, telle que ||/ — g|| -< s. On a alors, par hypothèse,
. k k
/ gdPxn = Ea/(Fx>./)-Fx>,)) —* y>/(Fx(6y)-Fx(û/)),
convekgénce: en i.cii 309
on a donc
ce qui, étant donné l'arbitraire de e, montre que lim„ fRf dPXn — jpf dPx-
La suite des probabilités Px„ converge donc étroitement vers Px- ?
Remarque. Comme le montre l'exemple suivant, on ne peut pas s'attendre à
la convergence simple (partout) de la suite des fonctions de répartition Fx„ :
X
si X„ = \/n tit si X = 0, on a X„ —? X, tandis que, pour tout n, FX/, (0) — 0,
et que F\(0j = I. On a par ailleurs un résultat analogue pour des variables
aléatoires à valeurs dans Rd, mais il est peu utilisable.
Exemple 14.3. La réciproque du lemme de Scheffé est fausse. Soit, pour
lout n e n*. une variable aléatoire réelle X„ définie sur l'espace probabilisé
(£2, -a, P), admettant une densité fXil définie pour tout réel x par
fxn(x) = l]o,i](.v)(l - cos(2jrnx)).
La suite (fxn)nen*- ne converge pas a-p.p. (elle diverge en tout point de
]0, 1[, elle converge ailleurs), alors que la suite (X„)„£N* converge en loi
vers la loi Ljo.q ¦ X. En effet, la fonction de répartition de X„ est donnée par
Fx„(*) =
si bien que l'on a
0
x —
1
sm{2jirix)
inn
si x < 0 .
si 0 < x :
si ?" > 1,
lim FXf(x) =
0 si .v < 0,
x si 0 < ?' ^ 1 .
1 Si A" > 1 ,
ce qui, en vertu de la proposition 14.17, démontre la convergence en loi de
la suite (X„)«eH* vers la probabilité l]0il] ¦ Xj, loi uniforme sur ](), 1].
c'est-à-dire lim„ JKgdPxn = J^gdPx- Par l'inégalité triangulaire, on a
If fdT>x„- I fdPx
< I / (f-g)dPx„\ + I / gdPxn ~ IxdPx + I (g-f)dPx\,
ce qui donne
If fdPx„-f fdPx\$2\\f-g\\ + \[ gdPXll- f grfPxl;
>Jp. Jr > ljif. Jr 1
0 $limsup| / / dPXn - I fdPx\ ^2fi,
310
ciiAi'UKi; 14. converging de mesures ftconvek0enci7 en loi
Voici maintenant deux théorèmes de convergence en loi liés à la loi de
Poisson. Pour leur démonstration, on utilise le lemme classique suivant.
Lemme 14.18. Pour tout nombre complexe z et tout // e n*, on a
|exp(z) - (1 + -)"| ^ exp(|z|) - (l + ¿1)" . (14.9)
II en résulte que, pour tout z e C, la suite de terme général (1 4- est
convergente et que ^
lim(l + -)" — exp(z).
Démonstration. La formule du binôme donne, pour tout zeC,
+00 / n / \ i
en tenant compte de l'égalité
^ = -Vno--)
il vient
expw-(1 + ^"- E TT + ETï^-no-m- ("-10>
j=n + l J " j=0 1 " k = 0
Puisque 1 - rKloO ~~ 7i) ^ °' en résulle 4ue
+ 00 , y Il > ,j j-\ ,
|e*p(x)+ * £ IfL + Yjm.-no-^)].
ce qui donne (14.9), en réutilisant (14.10) pour |z|.
Enfin, puisque. m(l 4- - |z] 4 o(l), on a lim„(l 4 ]-f)" — exp(|z|),
ce qui entraîne, d'après (14.9), lim„(l 4- — exp(r). ?
On démontre maintenant le théorème de Poisson (dont on a déjà donné
une démonstration élémentaire dans le premier tome) en utilisant le
théorème de Lévy.
Théorème 14.19 (Théorème de Poisson). Soit, pour tout n e N*, une
variable aléatoire de loi binomiale B(n, pn). On suppose que \imn n pn — A,
où X > 0. Alors la suite (X„)„eH* converge en loi vers la loi de Poisson 1P(X).
1^.2. CONVERrjfcNC fc, FN LOI
iii
Démonstration. Pour tout n e n*. la fonction caractéristique de X„ est
donnée par
W eR ^(0 - [/>„ exp(i7) + 0 - pn)V = [I + Pn(exP(it) - .
Il résulte de (14.9) que, pour tout z e C, on a
|exp(«pnz) - (1 + /7„z)"l $ exp(rtp„|r|) - (1 + /J„|r|)" ;
puisque, par hypothèse,
ln(l =n
on a alors
À|z| 1 '
— +*(-)
n n
—^ A|z|.
n—>-+oo
lini[exp(/i/7„|z|) - (1 + p„I"D"] = 0,
n
et donc
lim(l +pnz)n =expaz).
En prenant z = [exp(//( — 1], il vient
Vf e E limvJxH(M = exp[À(exp(/f) - l)] ,
ce qui. en vertu du théorème de Lévy, démontre le résultat. ?
Ce premier théorème de Poisson se généralise de la manière suivante.
Théorème 14.20 (Théorème des événements rares, théorème de Poissou).
Soit, pour tout n e n", une famille finie {A„j J 1 ^ j ^ Mn) d'événements
indépendants définis sur un espace probabilisé (Q, <A, P). On pose P(A,M) —
pn : et on note
r 'j m„
On suppose que la suite de terme général M„ tend en croissant vers +oo, que
m»
max p„ j —-> 0 et que ) p„ ,¦ —À. (14.11)
J = l
od X > 0. Alors lu suite (S„)„ety* converge en loi vers la loi de Poisson ¦'P(X).
Démonstration. On utilise encore le théorème de Lévy. Par indépendance
des A„,y, I :?/';< M„, on a, pour tout t e K,
j=l j=\
Y\{\ +/7„,;(exp(/0 - 1)] .
j = \
chapitre 14- convergence ?>?; MESURES ?? CONVEUCirNCE en loi
Si Log est la détermination principale du logarithme complexe, il résulte de
la formule de Taylor avec reste intégral que, pour tout z tel que \z\ < 1, on a
f1 1
Log(l + z)=z-z2 / (\-u)-~ -du.
Notons z = exp(z7) - 1 ; puisque max15j^M„ pnj —^ 0* il existe N tel
que, pour tout n > N, on ait max^^M^ |/V/ZI < '/2. Pour tout n ;> N, on
a alors
Mn M" f] 1-m
L„g ,s„ („ = z g „„, - g „», yo •
D'après l'inégalité triangulaire, on a, pour tout n >. N et tout w e [0, 1],
1
2
|1 4-U/7„tyT| > 1- /7BJ-|z| £ ^;
on a donc, pour tout n > N,
Mfi ?1 j _ ? ? n m"
I Pl , / 7?— "—^"1 ^ 2 max /V/ ?] /'«.y ¦
Jo (1 + ? /??*) L^^M" J "-"i J
Il résulte alors des hypothèses que lim„ Log<ps„(0 = ^- : autrement dit,
on a
Vîel limfflS,,(0 = exp[A(exp(/r) - 1)],
n
ce qui, en vertu du théorème de Lévy, démontre le résultat. ?
Remarque. Le théorème 14.20 tire son nom du t'ait qu'il montre qu'un
phénomène aléatoire qui peut se représenter comme une superposition
d'événements rares (c'est-à-dire d'événements de « petite » probabilité,
au sens des conditions (14.11)) et indépendants, suit approximativement
une loi de Poisson. Par ailleurs, ce théorème est une généralisation du
théorème de Poisson 14.19. En effet, supposons (avec les notations du
théorème 14.20) que M„ = n, et que, pour tout n e N*, la famille finie
d'événements indépendants {A,,.,- | 1 ^ j < n} soit telle que P(ABiy) = p„,
indépendamment de j vérifiant 1 ^ j ^ ?, la suite (??)??? vérifiant de
surcroît la condition lim„ n pn = a ( a > 0). La variable aléatoire S,, suit
alors la loi binomiale ¡8(n, pn) et les conditions (14.11) sont bien satisfaites
puisque
n
pn = max pnJ —? 0 et que - np„ —? a .
Les deux théorèmes affirment que la suite (S„)„err* converge en loi vers la
loi de Poisson fP{X).
14-3- THEOREMS LIMITE CENTRAL
14.3. Théorème limite central
Le théorème limite central du calcul des probabilités montre que, sous
des conditions plus ou moins générales, la loi de la somme d'un grand
nombre de variables aléatoires indépendantes est « proche » d'une loi
normale. Il existe de nombreuses versions de ce théorème (en particulier avec
des hypothèses du type Lindeberg^) ; nous n'en donnerons qu'une version
élémentaire. La démonstration moderne de ces différentes versions repose
sur le théorème de Lévy et consiste à faire un développement asymptotique
de la fonction caractéristique de la somme (centrée et réduite) de n variables
aléatoires indépendantes.
Tl résulte de la proposition 12.1.3 du chapitre 12 que, si une variable
aléatoire admet un moment d'ordre 2fc, sa fonction caractéristique admet
un développement limité d'ordre 2k. Le lemme suivant donne (dans le cas
d'un développement limité d'ordre 2) une majoration du « reste » qui peut
parfois être utile.
Lemme 14.21. Si la variable aléatoire réelle X admet un moment d'ordre
deux, sa fonction caractéristique <px admet un développement limité d'ordre
deux en 0 donné par, pour tout réel t,
Démonstration. La formule de Taylor avec reste intégral écrite à l'ordre 2
donne, pour tout réel x,
t¿
^x(;) = 1 + ir EX EX2 + o{t2).
Plus précisément, on a l'inégalité, pour tout réel t,
(14.12)
exp(7x) — I + /x
x
(1 — u) exp(f'ifx) du ,
soit.puisque /0'(1 —u)du — \,
1 + ix
—x-
2
il en résulte que
La même formule de Taylor à l'ordre 3 donne, pour tout réel x.
8. Pour un théorème limite central avec une condition du type IJndebcrg. voir par exemple
Rénvi A. [18]. p. 415.
3'4
chapitre 14. convergence de mesures et convergence en loi
exp(ix) — 1 + ÌX
(1 — w)2cxp(/wx)
du ;
il en résulte que
2
exp(/x)
(1+,'*-t)
<
Au total, on a, pour tout réel x,
exp(/x) — (l + ¿* — — ) ^ minfx2, —— )
La majoration (14.12) en résulte immédiatement. Mais, par convergence
dominée (prendre une suite quelconque qui tend vers 0). on a
Remarque- Si on n'a pas besoin de cette majoration précise du reste, pour
établir le développement limité, il suffit d'appliquer la formule de Taylor-
Young à cpx qui est ici deux fois derivable (cf. prop. 12.13, chapitre 12).
Théorème 14.22 (Théorème limite central). Soit (X.n)nGN*- une suite de
variables aléatoires définies sur le même espace probab'tlisé (Q. A, P) et à
valeurs dans B.d, indépendantes, de même loi et admettant un moment d'ordre
deux 9. La suite de terme général Yn, défini pour tout n e N * par
converge en loi vers la loi gaussienne J*fRli (0, Cx, ), où Cx, est la matrice de
covariance des Xj.
En particulier, si d = 1 et si Z„ = ~a-t où rjX| est Vécart-type des Xt,
la suite des fonctions de répartition Fz„ des Z„ converge simplement vers <3>,
fonction de répartition de la loi ¦/ve(0, 1). donnée, pour tout réel z, par
J-00 V2jt v 2 /
Démonstration. Les variables aléatoires X, étant indépendantes et de
même loi. la l'onction caractéristique de Y„ est donnée par. pour tout t e Rd,
ce qui démontre le résultat.
?
n
n
<PY„(0 = Il nXj-EKf)
9. Cesi à dite Je carré (de norme) integrable.
14.3- tjI boheme limi ie central
315
Le lemme 14.21. appliqué à la variable aléatoire réelle centrée (X[—EX,, t)
donne le développement asymptotique
Le lemme 14.18 assure que la suite de terme général ipy„ (t) converge et que
1
l'm^CO = exp
n
soit, puisque E((X, -EXi,f)2) ={CXlt,t),
lim<pYn(t) = exp
-E({Xl-EXJ,/)2)
Le théorème de Lévy assure alors que : Y,j -> ,A/'Ed (0, CXl )•
Si d — 1, on a, pour tout réel t,
„(0 = <pYn(—) et donc lim^z„(?) = exp
<pz*.
c'est-à-dire que la suite des probabilités Pz„ converge étroitement vers la
loi =Mr(0, 1). ce qui est encore équivalent, puisque O est continue, à la
convergence simple de la suite des fonctions de répartition des Z„ vers la
fonction de répartition O de la loi limite. ?
Remarque. La fonction de répartition de la loi -Jvp;(0,1) est tabulée
Nous rappelons (cf. tome 1. p. 230) trois valeurs d'accroissements de la
fonction O d'usage courant :
0(1.64) - <&(-!,64) = 0.9 0(1,96) -0(-l,96) = 0,95
0(3.09) - $(-3,09) = 0,99.
Une application du théorème limite central est de démontrer le
théorème de Karl Pearson, théorème qui est à la base du test du chi-deux.
Théorème 14.23 (Théorème de Karl Pearson). Soit k G N* fixé. Pour tout
n e N*, on considère une partition (A")^^ de U par.des ensembles A-
mesurables. On suppose que ces partitions sont indépendantes, c'est-à-dire
que les familles, indexées sur n, constituées par les éléments de ces partitions
sont indépendantes. On suppose de plus que,
V./ - 1,2,...,A,
P(A") = Pj ,
10. Une lable de la fonction dfc réparlilion <I> de la loi de Gauss centrée réduite figure, par
exemple, dans Rënyi A. [18], p. 585-586.
316
CHAPITRE 14. CONVT.RGENCIt Dit MKSCiiBS LT CONVERGENCE EN LOI
où pi > 0 et Yl) = ] Pi = !¦ On définit, pour tout j — 1.2, k, les
variables aléatoires réelles
n; = E !a<
/=1
puis la variable aléatoire
* (n; - nVlf ^ - p,):
npj
7=1
Alors, la suite des lois P 2 converge étroitement vers la loi j\ du chi-deux
à k — 1 degrés de liberté ; autrement dit, la suite des variables aléatoires /jr n
converge en loi vers la loi du chi-deux à k — 1 degrés de liberté.
Démonstration. Pour tout n e N*. on définit les variables aléatoires X" et
N", à valeurs dans TRA, par
X" =
et
./=]
On rappelle que la loi de N" est la loi imiltinomiale M(n; />,. p2,.... et
que les variables aléatoires X" sont de même loi. de moyenne et matrice de
covariancc C\« données par
EX" =
,Pk)
et
(C \ -S PiO-Pi)
si I = J
si / ^ ./
ce qui peut s'écrire, si on note p le vecteur de composantes p;, j —
l.2,...,jfc,
EX" = /j et Cx» =
0 "¦.
vo ...
'-. 0
0 PkJ
pp -
Les variables aléatoires X' étant de plus indépendantes, il résulte du
théorème limite central que la suite de terme général Y„, défini pour tout
n e N* par
converge en loi vers la loi gaussienne JJ^d (0. CXl ), ce qui est équivalent, par
le lemme de Lévv. à
14?. i1iéorèmf i im l'i e (ta li; al
317
V/ e Rk ]ìm<pyJi) = exp(-^Cx^'^). (14.13)
Par ailleurs, si on noie M la matrice diagonale définie par
Vy = 1.2 k My,/ = — et M,,y = 0 si / ^ j .
Pi
onii^ — (MY„.Y„) — ||M2Y„ ||2. Puisque, pour loui ! e R*, on a
(f> 1 (/) = tpVli {Mh), il résuile de (14.13) que
m 2 YH
vier "."•'mÌv/'^'m- 2 )'
cl donc, encore par le théorème de Lévv, que la suite de terme général
Y„ converge en loi vers la loi gaussienne NK<i (O.MzCx, M ¿1. Mais on a
M2CX,M^ = [M_1 - />,;*] M ^ = 1 - (M^/i)(m3 p)*
et
M2 p
autrement dit, M2 p est un vecteur unitaire ; si on choisit une transformation
orthogonale O telle que 0(M2 p) = £<,, on a alors
o[m^,m1]o- = i-»„)(«,)• = (° J.,).
si bien que, toujours par le théorème de Lévy, la suite de terme général
OMzYfl converge en loi vers la loi gaussienne (0, OMH-x, M^O) =
JVK,/ (0.1 — (<?[)(<?])*). Puisque O est orthogonale, on a j\ n — ||OM? Y„]|2 ;
il en résulte que. si U est une variable aléatoire de loi (0,1 — U'\ )(<?i )*), la
suite des lois des xl „ converge étroitement vers la loi de ||U||2, c'est-à-dire
la loi du chi-deux à A' - l degrés de liberté. ?
Remarque. Soit q = (q{,..., q^)* un vecteur de distinct de p. Ou note
la loi forte des grands nombres assure que. pour tout j = 1,2 k, on a
1
lim -N'! = pi P-p.s.
n n J
Puisque q ^ p. il en résulte que la suite de terme général
3i8
CHAPITRE 14. CONVERGENCE PE MESURES ET CONVERGENCE EN LOI
converge P-p.s. vers un nombre a > 0; la suite de terme général K%n
converge alors P-p.s. vers -foc avec h.
Exemple 14.4. Soil (X„)ne^* une suite de variables aléatoires à valeurs dans
Wf, indépendantes, de même loi p. Soit (Dj)i^i^k une partition de Rd par
des boréliens telle que piUj ) — pj > 0, pour tout j — 1.2 k. Pour
chaque n. les A'J — X~'(D;), / — 1,2 /c, forment une partition de
Q. et ces partitions sont indépendantes. De plus, on a, pour tout n e N*,
P(A") = l-iCDj) — Pj-On définit, pour tout j — 1, 2,... ,k, les variables
aléatoires réelles „
/=1
puis les variables aléatoires
A, - n £ et s n Z ¦
./-i Pj j=i
Alors, la suite des lois Pvz converge étroitement vers la loi y? . du clii-
deux à k — ] degrés de liberlé, tandis que. pour tout vecteur q p, la suite
de terme général KJcn converge vers -foc P-p.s.
Cet exemple est à la base du test du chi-deux dont on donne maintenant
la problématique ; suit un exemple de mise en pratique.
Le problème. Suite à la modélisation probabiliste d'un phénomène
aléatoire, on s'intéresse à une variable aléatoire X à valeurs dans Fi*7, censée
représenter une « grandeur vectorielle » liée à ce phénomène. La loi p,
de X est inconnue de l'expérimentateur: toutefois, celui-ci, à l'issue de
calculs et raisonnements, est conduit à formuler des hypothèses sur cette
loi. 11 s'agit de « tester » l'hypothèse H que X est de loi p au vu d'un
« échantillon » de taille n, xn = (xuX2, ¦ ¦ -, x„), obtenu en observant n
réalisations « indépendantes » de ce phénomène. Cet échantillon est censé
être la réalisation de n variables aléatoires X,. X2...., X„, indépendantes
de même loi11 que X.
On garde les notations de l'exemple 14.4, les D, sont appelés classes.
Pour tout vecteur^ de R*7", on définit fj{Xn) = ^ S'=i 1d7- (-*/). fréquence
du nombre de points X\ situés dans D;. L'effectif observé de points xj situés
dans Dj pour l'échantillon est alors (x) — nfj{Xn), l'effectif Ihéoriqne
dans D,, sous l'hypothèse H, est npr La « distance dn chi-denx » entre ces
effectifs observés et théoriques est
1J. On rappelle que — (X1. X2 Xn) est appelé « êehanlilton empirique » de taille
/1 de la variable aléatoire X.
14-3- THÉORÈME LIMITE cfnïkj.l
7=1
npj
= n) -—=— —
qui est donc une réalisation de la variable aléatoire xl „¦ Pour tout réel c>0,
on considère l'ensemble R" = {x„ — (xi.xj x„) | A(xn) > c}, appelé
zone de rejet de l'hypothèse H. On a, en regard de l'exemple précédent,
P(XeR^) = P(A(Xfl)>c) —
et ceci indépendamment de la loi p. de X. Cela conduit à adopter la règle dn
test du chi-deux suivante : accepter l'hypothèse H si AÇy^) < c, la rejeter
sinon. Le risque d'erreur est la probabilité de rejeter H alors que H est vraie ;
il vaut, lorsque n est grand, xl—\(\c- +Cl°[) (en pratique, on considère que
l'approximation est bonne dès que npj ïs 5, pour tout j = 1, k). Pour
un risque d'erreur a donné (en général 0,1 ou 0.05 ou 0,01). on détermine
dans la table du chi-deux le réel ca tel que l'on ait xl~.[(\ca. +°°[) — «, et
on accepte ou rejette l'hypothèse H au vu de .v„ selon que A(.y*) ^ ca ou
non.
Exemple. On lance un dé n fois; on oblieni iij fois le chiffre y, pour
j — 1,2 6. On se demande si ce dé est équilibré au vu des deux
échantillons suivants :
n - 60 /7,-11 n2 = S n> = 12 h4 = 9 ns =8 h6 = 12
n = (¡00 n ! - i 10 m = 80 ti3 ~ 120 )U - 90 ns = 80 n6 = [20
Au lancer de dé est associé une variable aléatoire X de loi p portée par
l'ensemble {1.2, 6). Les classes sont les singletons {j}. j = 1.2 6
et on a k = 6. L'hypothèse H est que la loi p, est uniforme. On choisit
a — 0.05, de sorte que la table donne ca = 11,1, c'est-à-dire que l'on a
11.1, +oo[) — 0,05. On calcule alors A (An) pour ces deux échantillons :
- pour n = 60,
(11 - 10)2 +(8- If))2 + (12-10)' +
(9-10)2 + (8-10)2 + (ll-10)2
A(*„) = ~
60
6 l.
soit
A(je„) — 1.8 <; 11,1 , ce qui conduit à accepter H au vu de x^.
_ pour n = 600,
= m;
(110 - 100)2 + (80 - 100)2 + (120 - 100)2 +
[ {90 - 100)2 + (80- 100)2 + (110- 100)2
1-<>
CHAPIIKE 14. CONViRt.i NCt Dr. MESURES El f.ON VfJtCfc NCE EN LOI
soit
A(xj,) = 18 .> 11,1 , ce qui conduit à rejeter H au vu de .y6o0.
14.4. Estimation
On présente succinctement le problème de l'estimation de la loi d'une
variable aléatoire et on donne une méthode de construction d'estimateur
connu sous le nom d'estimateur du maximum de vraisemblance. Sous des
hypothèses de régulante de la densité, on montre que cet estimateur a
des propriétés asymptoliques intéressantes. Pour une étude détaillée de
la théorie de l'estimation, on pourra par exemple consulter les livres de
Fourgeaud et Fuchs [11) ou de Dacunha-Castelle et Duflo [8].
Le problème d'estimation paramétrique. Suite à la modélisation proba-
biliste d'un phénomène aléatoire, on s'intéresse à une variable aléatoire X à
valeurs dans R, censée représenter une « grandeur réelle » liée à ce
phénomène. La loi i_l de X est ineonnne de l'expérimentateur ; toutefois, celui-ci,
à l'issue de calculs et raisonnements, est conduit à supposer que cette loi
appartient à une famille de lois dépendant d'un paramètre 0 e (-). ouvert de
Rn. II s'agit d'estimer la « vraie » valeur 0i} du paramètre au vu d'un
échantillon de taille n, = { v,. t2. x„ ), obtenu cri observant n réalisations
indépendantes Lie ce phénomène. Cet échantillon est censé être la
réalisation de n variables aléatoires Xi, X2,.... X„, indépendantes de même loi
que X.
Modélisation statistique du problème. On considère une structure
statistique, c'esf-à-dire une famille d'espaces probabilisés [(Q., A, Pc)]^ee> ou ^
est un ouvert de E'\ sur lesquels on définit la variable aléatoire réelle X et
un échantillon de taille inlinie, c'est-à-dire une suite t.X„)„<= ^ de variables
aléatoires Pq-indépendantes de même loi po que X (mesure image de Pq
par X), pour tout 0 e M. On suppose que l'application 0 h» P(, est injee-
tive. Soit g une application de (-) dans un ouvert <?)' de Rk avec k ^ p;
un estimateur de g(6) au vu d'un échantillon de taille n, sera une variable
aléatoire (appelée « statistique >• par les statisticiens) T„ = <p„(Xji), où <p„
est une fonction mesurable de M" dans <r)'_ Cet estimateur est dit sans biais
si E[j(T„) = g(ti). où Ee désigne rintégration par rapport à la probahilité
P$. Si l'échantillon est infini, la suite T — (T„)„ew* est appelée estimateur
de g(t)) ; il sera intéressant s'il est consistant (en probabilité, resj>. presque
sûrement), c'est-à-dire si la suite (T„)nG^* converge en Pg-probabilité, resp.
Prp.s.
La méthode du maximum de vraisemblance permet souvent de trouver
de tels estimateurs- Elle n'a qu'un fondement empirique issu de l'expérience
144- INTIMATION
121
suivante : on tire au hasard une boute dans une des deux urnes Ui et U2, sans
savoir dans laquelle (mais tout en sachant la composition de ces urnes) ; Uj
contient une boule rouge et 9 noires, U2 contient 9 boules rouges et une
noire. Si le tirage donne une boule rouge, on est tenté de dire que Ton a tiré
dans U2 qui donne la plus grande probabilité de tirage d'une boule rouge.
Dans la suite, on fait l'hypothèse qu'existe une mesure a-finie ¡i sur IP.
(souvent la mesure de Lebesgue) telle que, pour tout 9 € 0, la loi \lq de X
soit de densité la fonction /(¦ .9) par rapport à /.t. La variable aléatoire
X_„ admet alors pour densité (par rapport à la mesure ¿t®") la fonction
L„, appelée fonction de vraisemblance (relative à l'échantillon de taille n)
définie par, pour tout Xj, g R",
1^,(^.9)= f[/(*/¦
Un estimateur T„ de 9 est appelé estimateur du maximum de vraisemblance
de $ s'il s'écrit sous la forme tp„(X„), où 1p„ est une fonction mesurable
satisfaisant à la condition :
Vi_„ €1R" UAxn.vAXn)) =supL„U,,.r)). (14.14)
— — — Oçc-J '
Si de plus f(x. • ) est différenliable, í¡-„(xn) est solulion de l'équation de
vraisemblance :
Vx,, g R" ^Ufe.iU^.)) =0. (14.15)
11 faut noter qu'alors $J„(.\«) n'est a priori qu'un point slationnaire ; il faudra
aller voir plus avant pour s'assurer de l'existence de maximum.
Dans le cas où f(x,9) => 0 pour tout (x,0), l'équation (14.14) est
équivalente à l'équation, plus maniable, obtenue en prenant les logarithmes
ctç„ est solution de l'équation :
g R" ln L„ (xh ¦ <pn (xn)) ~ sup ln L„ (x,,, 9).
— — —
Si de plus /(.t. ¦) est différentiable, ^«(x^) est solution de l'équation de
log-vraisemblanre .
Vx^ € R" ^ InL,,^.^^)) - 0 .
De tels estimateurs, quand ils existent ne sont en général pas uniques;
ils sont souvent consistants et jouissent de propriétés de normalité asympto-
tique. Le problème d'existence est un problème de maximum ; les conditions
CHAP11KC 14- < ONVi£iì<;r.N<;t r>t MESURES Éi (.ONVfckgem1e F.N LUI
d'existence sont souvent de type différentiabilîté, mais ce n'est pas toujours
le cas. Voici un exemple de chaque cas présenté avec les notations ci-dessus :
Cas gaussien. 0 = lx et pour tout 9 = (m, a2), /1^ — ->Vs(m, a2).
On a, pour tout Xjt e R",
n n
et donc „
j = i
/=1
Les solutions de l'équation de maximum de vraisemblance sont à chercher
parmi les points stationna ires, c'est-à-dire les solutions des équations de log-
vraisembîance
~lnL„(x„, (m, a2)) =0 et — lnL„(x„, (m. a2)) - 0,
am = à a 2 —
soit ici
m
1 " — 1 "
ht - - J^-v, et a2 = - - m„
n £—' n
Il reste à vérifier que ce point stationnaire correspond à un maximum. On
pourrait étudier les dérivées secondes, mais ici, on le voit directement par le
calcul suivant :
In Ln , a2)) - ln L„ {x^Am. u2))
ï kl-o-<l)'
2a2
car on a, pour tout y > 0, (x — 1) > m a. Ainsi, il existe un unique
estimateur du maximum de vraisemblance (M„. E„), où M„ = 1 51/=1 A>
et E„ = ^ ~ Mn)' sont les moyenne et variance empirique de
l'échantillon.
Remarque. On a E#[£„j — ^^r^2; on dit que £„ est un estimateur biaisé
de a2.
Cas uuifornie. 0 — E + et pour tout 9 > 0, /¿0 est loi uniforme
*U([0, B\) sur l'intervalle [0, 0]. On a, pour tout x„ e
14-4- r-SHMATlON
323
1 n
0>
La fonction L„ (xn, ¦ ) n'est pas différentiable ; toutefois Lw (x„. • ) sera
maximum pour 0 le plus petit possible, c'est-à-dire en tyn(xn) — maX]<;/ç„(Xj).
Dans ce cas, il existe un unique estimateur du maximum de vraisemblance
de fc),T„ = maxi^j^HfX/).
En fait, les propriétés asymptotiques sont des propriétés des solutions
de l'équation de vraisemblance (qui donnent des points stationnants) et
non des propriétés des solutions donnant les maximum de L„(x«, •)¦ À titre
d'exemple, le théorème suivant établit, sous des hypothèses très fortes, un
résultat de normalité asymptotique dans le cas où le paramètre est réel (ce
théorème se généralise au cas d'un paramètre multidimensionnel).
Théorème 14.24. Soit Oq g 0 la vraie valeur du paramètre. On suppose que
f (x, 9) > 0 pour tout (x, 8) G M x 0, où 0 est un ouvert de R, que, pour
tout réel x, fix. ¦) est deux fois continûment derivable et que la fonction
^2 ln f(x, ' ) est continue en B uniformément en x. On suppose de plus qu'il
existe une fonction g p-intégruble telle que Von ait la majoration
V(xi)Glx0 9^/(x'tì) ^S(x), (14.16)
et une fonction h telle que la fonction x h(x)f(.\. 6q) soit ji-intégrable et
telle que Von ait la majoration
V(x,0) G E x 0 |^ln/(jc,f?) ^ h(x). (14.17)
Soit U6o) = - fR(j&lnf(x,OQ))f{x,0o)tliHx) (\(6Q) est appelée quantité
d'information de FislierJ. OnaO ^ 1((90) < +00. On suppose que I(f90) > 0.
Soit une suite ((Pn)„e^* de solution de l'équation de vraisemblance (14.15)
et soit T„ — q}n(Xn). Si cette suite d'estimateurs (T„)„eN* converge P^-p.s.
vers 9o, alors la suite de terme général Yn — yfn l(Bu)(Tn — BQ) converge en
loi vers la loi gaussienne ^(0,1).
Démonstration. Soit tp la fonction définie par, pour tout (x.(9), <p(x,8) =
^ ln /(x, 0) et Uo la variable aléatoire = <p(X. 0). La condition (14.17)
implique que
Ir
f {x, So) di¿{x) < +co (14.18)
(on dit que le modèle est régulier en 60). Le théorème de transfert et (14.18)
assurent alors que U^0 est de carré P0ti-integrable et que E^U^) = 0. En
CHM'llRE 14. CONVTRCENCE Ot MESURES b.1 CONV FRGE-NCE E!S LOI
effet, on a
/(.v.f?o)^(x);
r i)
et, puisque
32
#02
/f*,0) f{x,9)
il vient, en tenant compte des conditions ( 14.16) et (14.17),
(U^)2dV0i)
-2 In /( v.0o)
f(x,e0)dn(.x) + t ~/(xle0)(!}i(x) < +00.
(14.19)
11 en résulte que /a |U^(t| f/Po0 < -f-oo et, par le théorème de transfert, que
f \U$0\dPêl) = f\~\nf{x,9Q) f(x,dQ)dti(x) < +00.
De plus, on a
Jn f{x,90) JlR i>0
Soit K un voisinage compact de 90 contenu dans O; le théorème des
accroissements finis et la condition (14.16) assurent que l'on a, pour tout
0 € K.
1 ri i i ri 1
où c > 0 est une constante qui dépend de K, On peut donc appliquer le
théorème de dérivation d'une intégrale dépendant d'un paramètre, ce qui
donne r 3 /*
L^f Jk
soit, puisque, pour tout (9, on a J.& f(x,Q) dj.i{x) = 1, E^fU^,,) —0.
De même, on a, d'après la condition (14.16),
Ï4-4- rS'UMXllON 325
Il en résulte, en reportant dans (14.19), que
Eft,(t4) = - jf ^~ In /(x, f?„) /(x, 9o) dfi(x) = l(9o),
ce qui montre en particulier que 0 ^ < +oc.
Soit, pour tout n g M*, une solution Ç>„(x„)de l'équation de log-
vraisemblance „
^lnL„(^,f?) = £>(x;,f?)=0.
/=1
La formule de Taylor à Tordre 1 avec reste intégral appliquée en y>n(Xn)
implique que
" ç 1 n y
¡ = 1 - J° L - - J
ce qui donne l'égalité
soit encore.
I " Z*1 1 " (3
— ^(Xy.0oJ=[V^(Oo-TB)]/ -X!^[X^T'« +ï(^-TB)]rfï.
v"i/=l -><> "/ = 1^
(14.20)
Les variables aléatoires ^(X;-,(9o) sont indépendantes de même loi (sous
Pj9n) que Uy„ (elles admettent donc un moment d'ordre deux) : le théorème
de la l'imite central montre alors que
1 " x
-= Y<p(X;,0<t) - ,VR<0,I(6>n)). (14.21)
Il reste à étudier la suite de terme général
f1 1 " 9
/ -JZ^plX^Tn+tiOo-Tn^di .
JO 11 y = ,
D'après la condition (14.17), les variables aléatoires j^<P(Xj ,9q)
admettent une moyenne sous P#0 égale à ~((f?0) : de plus, elles sont indépendantes.
Il résulte de la loi forte des grands nombres que
1 " 9
lim - y —tpiXj^o) = -IWo) P^-p-s.. (14.22)
ClIAPIIKt 14. CONVCKt.r.Nrh UF MFSCRLS f.I CONVt KtiCNŒ 1-N LOI
Soit alors
./=1
démontrons qne Py0-p.s.. pour tout t e [0, i], lim„ A„(/) = 0 (attention à
l'ordre dans lequel les assertions ont été énoncées).
Soit s > 0 quelconque. I,a fonction 0 \-> ^<p(x.O) étant continue,
uniformément en x. il existe un intervalle V centré en f>o et contenu dans
0 tel que, dès que 0 G V on ait,
sup ^^(.v.r?) - —<p(x,G0)
5 h.
(14.23)
Par hypothèse, il existe N e A tel que P^()(N) — 0 et tel que. pour tout
(o fi N. on ait lim„ Tn{io) — 0Q ; soit un tel co et soit K{a>) tel que l'on ait.
pour tout n > K(a>). T„(w) e V. On a alors, si 0 < / < l,
\An{t)(a>)\
/ =1
36)
1 I (I 3
/=K1 ii> J -f-1
soit, en tenant compte de (14.23).
km
\A„{t){w)\ i - Yg(Xj(a>)) + e.
11 en résulte que lim sup„ \A„(i)(o>)\ ^ s. ce qui, étant donné l'arbitraire de
e, démontre que. pour tout / e [0, 1], lim„ A„(r)(<o) — 0. Puisque l'on a
\A„(!)(a>)\ <,2g(x),
il résulte du théorème de convergence dominée que la suite de terme
général
B d
—cp [Xj(o>).TR(co) +t(9n-Tn(a>))] - — tp(X,(o>)Jo)
converge vers 0; puisque ceci est vrai pour tout (o fi N, il résulte alors de
(14.22) que
f ' 1 " B 1 " 9
H\E.KCICT. ¡4-1
327
Puisque l{00) ^ 0, on a aussi
./=3
et la convergence a lieu aussi en loi. L'égalité (14.20) et la convergence en
loi démontrée en (14.22) impliquent alors, par le lemmc de Slutsky (voir
exercice 8), que
V^lW(T„ - 0O) Í -Mt(0t I) . ?
Exercices
exercice 14.1. convergence étroite d'nne suite de probabilités portées par z. Soit,
pour tout n £ K, une probabilité /(„ sur l'espace mesurable (1k. 'B^,): portée par z.
c'est-à-dire de la forme /¿„ = YLr&z ar$r, ou pour tous r <¿ Z.a" í 0. Démontrer
que la suite Qln)nen converge étroitement vers une probabilité ¡a si et seulement
si, pour tout r e z, la suite (íi")„e^ converge vers un réel ar s 0 et si on a
¿Zre'i a>- = 1 ct lL — X^€Z ar$r (il esl portée par z).
Solution. Si la suite l/.ïrt)«eiJ converge étroitement vers une probabilité ¡1, on ;i, pour
tous les intervalles ouverts ]/¦ — où r e z,
0 í ii(]r - l,r[) 5 lirnirif^Or - l,r[) ;
puisque, pour Huit n e N, on a /<„ (]r - 1, r[) — 0, il en résulte que /i(]r - I, r[) = 0.
La probabilité ¡i est donc portée par une partie de 7- et est de la forme ¡l —
Y,r&. u*-&r, où ar 5 0. Pour toute fonction /' <= ü^fE) à support dans l'intervalle
]/¦ - 1/2. r + 1 /2[ telle que /(>-) y¿ 0, on a alors
f(r)u({r)j.
Puisque lim„ /P / d(in = jVtk f dji. il vient tim„ a" = /i(W) 2= U. Enfin, /a éuml par
hypothèse une probabilité, on a
Inversement, supposons que, pour tout r c z, la suite {a"r )„eN converge vers un
réel a,- ^ 0 et que Ton ait = 1 et /j. = Zlrez ar&r- Pour tout / e '^(E)
de support compact K. on a
f I dun = Y fin a? et /" fdii=Y f{r)ar.
les sommes ne comportant qu'un nombre fini de termes; il en résulte que
lini„ fR f dfi„ — fB f clji. ce qui démontre la convergence vague, ct donc étroite
île la suite des probabilités fi„ vers la probabilité ¡1.
328
CHAPITRE 14. CONVENIENCE DE MtSCRES El CONVERGENCE FN LOI
Exercice 14,2. Approximation binomiale de la loi hypergéométrique. Soit, pour
j e N* fixé, \JJ = uj 1+) un ensemble fini partitionné en deux sous ensembles
non vides Uj' et U^ ; on note \\Jj | = rJ et \\)\ j = rj (et donc | = rJ - rj > t ).
Soit un entier n tel que \ ^ n < r-1'. On extrait « au hasard », c'est-à-dire de
manière uniforme, n éléments de UJ' ; déterminer, pour tout k tel que 0 i k ^ n. la
probabilité d'obtenir exactement k éléments de U"f (et donc n — k éléments de U2 ).
On suppose de plus que les deux suites d'entiers (''j)yeN* et (ry)yÊN* sont
A
croissantes et tendent vers l'infini avec y de telle sorte que —> p, où p e]0. l[.
1 ./-»¦+00
Soit un couple d'entiers tels que 0 $ k $ n ; démontrer qu'il existe un entier /0 tel
que, pour tout y S yo- on ait n ^< rJ — rj et n ^ rj ; si y ? /0, on pose
V k /
Déniontrer que l'on ¡1 la convergence suivante ;
.1 ln\ „k/t __in-k
Interpréter ce résultat en termes de convergence étroite d'une suite de probabilités
(on utilisera l'exercice précédent).
Solution. Une réalisation est une partie de \JJ' à n éléments ; on choisit pour
ensemble des réalisations l'ensemble QJ = {A. e fP(^JJ) \ \A\ = ti\, L'événement
étudié est la partie de QJ :
Ak = JA e QJ I |Anu{| = A-}
Sur l'espace probabilisable {QJ .Aj)oùAJ =P(&'), on met la probabilité uniforme
P-7 (c'est la traduction de l'usage courant de l'expression « au hasard »). On cherche
en fait la probabilité P-'fAfc). L'ensemble At est vide si et seulemeut si rj < k S »
ou si 0 5 A' < n — (r ' - rj\. Sinon, c'est-à-dire si
max(0.tt - [r1 —rj)) ^ k =Ç tnin(n,rj),
on a : |A*| = (£)( n-k^ '¦> 011 a ^e P*us ' ~ Cn )' ^ en r^sulte *îue ''on a alors
(r')C'-rh
Les événements A*, 0 ^ A: ^ n forment une partition de QJ ; la mesure
k-'> k=m-dx{0,n-(rJ-r))) \n)
exercice 14-3 329
est donc une probabilité, appelée loi hypergégmétrique.
Soit e > 0 tel que f. < mm(p, 1 — p). Il existe j\ tel que. pour tout j ^ jlf on
A
ait p — e ^ yj ^ p + ?. ce qui implique rJ (1 — p — e) ^ f/-rj ^ r; (1 — p 4- e) ;
puisque les suites (rj),-e^* et (rj)j^* tendent vers l'infini avec j, il existe donc j0
tel que, pour tout j ;> j0, on ait n ^ rJ — r j et n $ . Pour un tel j. on a alors
/i> = £>j'(Aa)4 = Y,**-"<rhrJ)Sk (14-24)
et, après simplification des coefficients binomiaux,
Ok-1 yl t (n-k)~l „. „1 _ j
m.. ) n (^V)-
2=0 j /=0 '
soit
fe-i -4 . (n-k)-i 1 —4 r
(\ fe-] _^ (n-k)-l 1 £ -
:) n(^) n (-^y
I /=0 1 r ¡ = 0 1 t
rj r->
En vertu des hypothèses faites, cela démontre la convergence
P*J,(r,!,r/) — , />*<!- "^~*
L'égalité (14.24) et l'exercice précédent montrent alors la convergence étroite de la
suite des probabilités pJ vers la loi biiiomiale B(n. p) = 2~lk=ù (a) />k(l_p)n~k &k-
Exercice 14.3. Lois géométriques et exponentielles. Soit X une variable aléatoire
réelle positive; pour tout a > 0, ou définit les variables aléatoires V„ = et
X. =¦[?]¦
1. Si X est de loi exponentielle exp(A), où A > 0, déterminer la loi de Va.
2. Si, pour tout a > 0, la loi de \a est la loi géométrique sur M de paramètre
1 - exp(-Aa). calculer la fonction de répartition de Xa. Étudier la convergence
étroite quand a tend vers 0 de la famille des lois des X^.
Solution.
1. La variable aléatoire Va est à valeurs dans N. Si X est de loi exponentielle expfA),
on a. pour tout n e M,
/¦(« + ])«
P(Va = n) = P(«a <: X < (n + l)a) = / A exp(-Ax) dx ,
J na
soit
P(VB = n) = exp(-Anal [l - exp(-Aa)] .
c'est-à-dire que la loi deV„ est la loi géométrique surN de paramètre 1 — expf—Xa).
CHAPITRE 14. CONVERGENCE of MESURES El CONVERGENCE EN LOI
2. Inversement, si, pour tout a > 0, la loi de Vu est la loi géométrique sur N de
paramètre 1 - exp(—Xa), étant à valeurs dans ûN, on a, pour tout 11 e N,
P(Xa = na) = P(Va =n) = exp(-Àna) [1 - exp(-Àa)] .
Pour tout réel x >- 0, on a alors
P(Xa > a) = E cxp(-Xna) [I-exp(-Àa)] ;
ii;»o>;r
si on pose
no{x) = inf(n 6 N I na > x) = j^-j + 1.
on a
+00
P(Xa > .v) = [1 -exp(-Àa)] E exp(-Arta),
soit
P(Xa > x) = exp(~A«o(.ï)a) - exp(-Àii) exp^-Xa j^-j)-
Autrement dit, puisque de plus, pour tout x < 0, on a P(X« > x) — 1, la fonction de
repartition Fxa de Xa est donnée par
0 si x < 0,
1 — exp(-Àa) exp( —Xa [-]) six >-().
^ rxn
Eu remarquant que, pour lout reel x S 0, on a a* — a < a - í¡ a', il vient que
La J
lima^n «[f ] = a ; on a donc
0 si a < 0,
1 - exp(-A.v) si a ^ 0,
ce qui démontre que la famille des lois des variables aléatoires X„ tend étroitement
vers la loi exponentielle exp(À) qnand a tend vers Û (on dit encore que la famille des
variables aléatoires Xu converge en loi vers la loi exp(À) quand a tend vers Û).
Exercice 14.4. Convergence étroite de snite de probabilités ganssiennes sur ?..
Sur l'espace mesurable (1R,Sr) on considère la suite des mesures gaussiennes
fiH = fn ¦ A, n e N, où X est la mesure de Lebesgue et /„ est la densilê définie
par. pour tout réel a.
fi, 1 ( (x -m»)2\
/" (-x = 7== exP T~2 '
uin étant un réel quelconque et o~„ un réel strictement positif.
1. Si les suites (m„)„en et (on)n&§ sont convergentes respectivement vers m et
a. étudier la convergence étroite de la suite (/i„)«eK directement à partir de la
définition de cette notion de convergence. Que dit de plus le Iemme de Scheffé dans
le cas où a > 0?
lim Fx[((a) -
a—'Q
exercice I4.4
33 1
2. Si la suite (/»„)„e^ est bornée et si la suite (an)n€N i^nd vers +oc avec n, étudier
les convergences faible et étroite de la suite (}in)n&n.
Solution. Pour tout / e ^è(M). on a
exp( ^-y-
/ /rf/t* = / fix) ]-j= cxp(-iX m''] ) dx .
soit, par le changement de variables v =
f f àjin = f f(yrTn+m„)-^=exp(-^-)dy. (14.25)
1. Si les suites (»i„)„çn ci (an)„eK sont convergentes / étant continue, on a
lim f(yaa +¦ m„) = f(ya + m),
puisque de plus, on a, pour tout n,
\f(yn„ 4- m„)| 11/11
OC '
fonction iutégrable par rapport à la probabilité gaussienne -A'm(0,1), il résulte du
théorème de convergence dominée que l'on a
lim / fdfin=f f(yo +m)—Lexp(-Mdy. (14.26)
" Jp. " Jv V2jt V 2 /
Si > 0, on peut faire le changement de variables défini pur x = yn + m. ce qui
donne
lim / fd,in = f /(x)-Lexp(-^^-)dx,
" Jr Jr sJItï v 2<j 2 '
et ainsi on a établi la convergence étroite de la suite (/<„)neN vers 'a probabilité
gaussienne jVR{i»,tr2).
Puisqu'ici on a. pour tout réel x, lim,, /„U) = —j= expf-^f^-), le lemnie de
Scheffé s'applique et donne une convergence uniforme en les boréliens, à savoir que
la suite de terme général
i f l / (x-m„)2\ f l / (x-m)2\ A
:zÀ -m exp(—dx~L^ M—
converge vers D.
Si ct — 0, puisque ./R^== exP^_V) dy = 1, la relation (14.26 ) donne
/ dSm .
lim / / dfin = /(m) - /
" Jr Jr
Ainsi on a établi la convergence étroite de la snite (/i«)ner-i vers la mesure de Dirac
eu m.
332
CHAPITRE 14. CONVEX GEN Cf. Di' MESURES ET CONVERGENCE 1-N LOI
2. Pour loul J e tVlR), la relation (14.25) est en particulier vraie; si la suite
(™«)neN est bornée et si la suite (o„)«en tend vers +00 avec n, pour tout y ^ 0, on
a lim„ Iyan +mn \ = 0, et doue lim„ f{yan +mn) = 0. Le théorème de convergence
dominée conduit à limn f{i f d\in = 0. Autrement dit, la suite (iin)n<=yi converge
faiblement vers la mesure nulle 0. Il n'y a bien sûr pas convergence étroite puisque
lim„ u.a(&) = 1 ct0(M) = 0.
Remarqua. Sous ces dernières hypothèses, pour tout J e ^/,(K), on a, après le
changement de variables défini par y = x — mn.
/ fdun = f
Jr Jr
f(y + mn)
on a de plus
lim f(y + m„)
esp
exp
y
2a2
= 0.
Cela donne un exemple où le théorème de convergence dominée ne s'applique pas.
Exercice 14.5. Variables aléatoires gaussiennes et convergence en loi. (On pent
utiliser les résultats de l'exercice précédent). Soit {X,j:Z„.h G N} une famille de
variables aléatoires réelles gaussiennes définies sur l'espace probabilisé (fi.,A,P),
indépendantes. On suppose que les Z„ sont de même loi JVj^O. a2) où a > 0. Soit
un réel p non nul; pour tout n e N*, on définit la variable aléatoire
Démontrer que X„ admet un moment d'ordre deux et calculer ses moyenne et
variance. Étudier la convergence en loi de la suite (X„)„en •
Solution. La variable aléatoire X0 admet un moment d'ordre deux ; supposons qu'il
en soil de môme pour X„. Puisque ïn+\ est gaussienne, elle admet un moment
d'ordre deux et donc aussi X„-|_j. Par linéarité, on a, pour tout n e N*. EX„ =
pEX„_[, et donc
EX„ = p" EXn .
La variable aléatoire X„_i est fonction linéaire de (X0î Zlf..., Z„_,) ; puisque les
variables aléatoires Xo, Zj,..., Z„ sont indépendantes, les variables aléatoires X.n-\
et Z„ le sont aussi. Il en résulte que l'on a, pour tout 11 e N*.
.2 .
A*
un calcul simple conduit à
X(i
1+
I-P3
si \p\ï\.
Si |pj = ] .
Les variables aléatoires Xo, Zl(..., Z„ sont indépendantes et gaussiennes: [a
variable aléatoire vectorielle (Xo, Z, , Z„) est alors gaussienne. La variable
aléatoire réelle Xrt, fonction linéaire de (X0, Z, , Z„) est alors gaussienne. Pour
étudier la convergence en loi de la suite (X„)„eN- on applique les résultats de l'exercice
précédent :
nXF.KClCE I4.6
333
si |p| < 1, on a l|m„ EX„ = 0 et lim„ aZ = -^-j ; la suite (X„)„eh converge
en loi vers la loi <Mr(0, ;
• si \p\ 5; I, on a limw = +00;
- si EXo = 0 ou si \p\ = I, la suite (EX„)„,=>| est bornée et, d'après l'exercice
précédent, la suite (X„)ft£N ne converge pas en loi.
- si EX0 0, et \p\ ~> 1, on a lim„ |EXM| = +cc ; ce cas n'a pas été étudié dans
l'exercice précédent. Posons mn = EX„ et a» = <rxu ; Pou'' taut / e r3o(M) on a
fdPx„ =
m -
tt On
exp
/ (x-m„)2\
\ lai )
dx
soit, par le changement de variables défini par y = x J"" .
/ / rfpx„ = /" /Off» + mn) —j= exp(-~)dy .
De plus, dans ce cas, on a
(14.27)
yo„ + m„ = p'
\-p2 p2n{\-p2)
EXo
Il en résulte que lim„ f(yan + mn) = 0 pour A-presque tout y et le théorème
de convergence dominée conduit à liflv/^ / dPXn = 0- Autrement dit, la suite
(Px„)«eN converge faiblement vers la mesure nulle 0. Il n'y a bien sûr pas
convergence étroite.
Remanpie. En résumé, la suite (Xn)n<zy converge en loi si et seulement si | p\ < 1. 11
faut noter que l'on aurait pu traiter cet exercice à l'aide du théorème de Lévy.
Exercice 14.6. Convergence en loi. Sur l'espace probabilisé (Q, A. P), on considère,
pour tout» e N*,des variables aléatoires X„ et Y„. On suppose que les X„, n e N*,
sont de même loigaussienne -A'p.fO, 1 ) et que la loi de Y„ est PY„ = (1 — ^)&\ + ^Sq.
Étudier la convergence en loi de la suite (X„ Yrt .
Solution. La suite (YM)„eK* converge en loi vers 1 et on a lim„ P(Y„ = 0) = 0. Pour
tout / 6 tb (R), on a pour tout n e N *,
/ f(Xn)dP = j fd^(O^).
et donc
I / /(X„Y„)dP- f /^%(0.1)| = I / f(XttY„)dP-f f(X„)dp\.
lJn J'r 1 'Ja JQ. 1
En tenant compte de ce que les ensembles (Y„ = 1) et (Y„ = 0) forment une
partition de fi, à un ensemble de probabilité nulle près, et que, sur l'ensemble
(Y„ = I ). on a X„ = X„ Y„. il vient
|/ /(XnY„)dP- / fdJfR(0.\)\
- 1/ /fX„Y„)rfP- / /(X„Y„)<iP- / f(Xn)dp\.
334
chapitre 14. convergence de mesures et convergence en loi
ce qui donne encore
1/ f(XnYn)dF-ffdJfR(Q,l)\ = \[ f{XnYn)dY-! f(Xn)dA
1 /ï2 jr 11 j(y„ =0) jçyn =0) I
Il en résulte que
1/ f(XnYn)dV- / fdJfc(0J)\$2 H/lloo P(Y„ =0),
ce qui démontre que
lim / f(XnYn)dV= / /^(0,1),
et donc que la suite (X„Y„)„€]^ converge en loi vers la loi =Mr(0, 1).
Exercice 14.7. Convergence en loi d'une suite de variables aléatoires à valeurs dans
M2 et de la suite de ses marginales. Soient, sur le même espace probabilisé (£2, A. P),
deux suites (X«)„e^ et (Y„)„epj de variables aléatoires réelles qui convergent en loi
respectivement vers les variables aléatoires indépendantes X et Y.
1. Si, pour tout n G N, Xn et Y„ sont indépendantes, démontrer que la suite des
variables aléatoires (Xn, Yw), n e N, converge en loi vers (X. Y). En conclure en
particulier que la suite des variables aléatoires Xn + Y„, n e N, converge en loi vers
X +Y.
2. On étudie un contre-exemple, dans le cas où on supprime l'hypothèse « pour tout
n e N,X« etY„ sont indépendantes». Soient X et Y deux variables aléatoires réelles
indépendantes de môme loi de Bernoulli (¿¡0 + §i)/2. On pose, pour tout n e N*,
X„ = X + - et Y„ = (1 -X) --.
n n
Étudier la convergence en loi des trois suites (X„)„ei^*, (YK)rteN* et (X„ +
Y«)„eN*- En conclure que la suite des variables aléatoires (Xn, Y„), n e N*, ne
converge pas en loi vers (X, Y).
Solution.
1. Puisque pour tout n e N les variables aléatoires X« et Y„ sont indépendantes, la
fonction caractéristique <P(x„,yn) ^e 0^- ^") est donnée par. pour tout (m. v) € K2,
<P(Xfi,Yn)(u>v) = <f%i (w) <PYn 0) ¦
Les deux suites (X„)„eN el (Y«)neN convergeant en loi respectivement vers les
variables aléatoires X et Y, le théorème de Lévy assure que
lim^x„(u) =<px(u) et lim^fu) = 9y(v),
ce qui implique que
EXERCICE 14.8
335
les variables aléatoires X et Y étant indépendantes, on a encore
Kni^(x,,,y„)(",u) = (pçx,Y)(u,v).
La partie réciproque (b) du théorème de Lévy (th. 14.11) montre aiors que la suite
des variables aléatoires (X„, Y„), n e N , converge en loi vers (X, Y). La variable
aléatoire X„ + Y« étant une fonction continue de (Xn.Yn), la suite des variables
aléatoires X„ + Y„. n e N, converge alors en loi vers X + Y.
2. Les suites (X„)k£n* et (YK)neN* convergent P-p.s., et donc en loi,
respectivement vers X et l - X. Puisque les variables aléatoires X, l - X et Y ont même loi
on a
X„ -> X et Y„ Y .
Par contre, on a, pour tout n e N*, X„ + Y„ = 1 ; ii en résulte que la suite des
variables aléatoires XK + Yn, n e N , converge en loi vers 5j alors que, les variables
aléatoires X et Y étant indépendantes, on a
Px+y = -(80+&2) + Ui ;
4 2
la suite des variables aléatoires X„ + Y„, n e N, ne converge pas en loi vers X + Y.
A fortiori, la suite des variables aléatoires (X„. Y„), « e N, ne converge pas en loi
vers (X, Y).
Le lemme de Slutsky donne une hypothèse alternative à l'indépendance
pour assurer la propriété de convergence en loi étudiée à la première
question de l'exercice précédent.
Exercice 14.8. Lemme de Slutsky. Soient, sur le même espace probabilisé (£2, ¿4, P),
deux suites (XB)BeN et (Y„)„<=N de variables aléatoires réelles qui convergent en
loi respectivement vers une variable aléatoire X et une constante vrj. Démontrer
que ia suite des variables aléatoires (X„, Y„), n e N, converge en loi vers (X, yo)
(on admettra que l'ensemble M = {(x,y) 1-» f(x)g(y) \ f. g € ÌSo(K)} est total
dans ïVj(K2) ou, alternativement, on utilisera le théorème de Lévy). En conclure
en particulier que la suite des variables aléatoires X„ + Yn, n e N, converge en loi
vers X + y0.
Démontrer que si la suite (Xn)neH converge en loi vers une variable aléatoire
X et si la suite (X„ - Yn)n^N converge en probabilité vers 0, alors la suite (Y„)w€n
converge en loi vers X.
Solution. Soient / et g appartenant à ~€o(M) quelconques. La suite (Y„)„eN
convergeant en loi vers une constante >o, converge en probabilité vers yo ; la fonction g
étant continue, la suite (g(Yn))nen converge alors en probabilité vers g(yo)- Soit
s > 0 quelconque ; on a alors
limP(|g(Y„)-g(y0)\ >s) = 0. (14.28)
Par le théorème de transfert, on a
33«
CHAPITRE 14. CONVEKOFNCE DE MESURES ET CO MA' E [tfi E N C E EN LOI
1/ f(x)g{yWtxnYn)(x,y)- f f(x)g(y)dpx®8yi)(x.r)\
1Jr2 J\$2 1
= 1/ f(Xn)g{Yn)dP- f f(X)g(y0)dp\.
'7n Jq '
Il résulte alors de l'inégalité triangulaire que
1/ J(x)g(y)dPlx„Yt,)ix,y)-l f(.x)giy)dPx®&V0(x.v)\
'Jr2 je- 1
5 1/ f(Xn)g(Yn)dP-f f(Xn)g{y0)dP\
'Jq Jq '
+ I / f(X„)g{y0)dP- f f<X)g(yo)dp\,
'Jq Jq '
et donc que
1/ f(.x)g(y)dP[XnYn)(x,y)~ f A*)g(y)d?x®$yo(x.y)\
lJu2 Jr- 1
S 11/11«, / \gCtn)-g(yo)\dP +\g(yo)\\[ fiX„)-f(X)dp\,
Jn J 'Jq '
soit, après avoir partitionné dans la première intégrale par l'ensemble Qg(Y„) —
.^(yo)! > s) et son complémentaire,
1/„ f(x)g(y)dP(x„\np.y)- [ f(x)g(y)dPx<S>Hy{i(x,y)\
^ l|/||oo[e + / k(Y«)-^0'o)|rfpl+||g||oo|/ /(X„)-/(X)dP|
S \\/\\oo[b + 2\\g\\coP(\g^n)-g(y0)\>s)] + \\g\\co\ f fdPxn-f fdPxl
'Jr Jr '
Il résulte de la convergence en loi vers X de la suite (X„)ne^, puis de la relation
(14.28). que l'on a
limsup! / j(x)g(y)dP(xnYn)(x-y)- f(xiMv)dPx<8 8yQ[.\, y)\ï ||/'||^e:
le membre de droite de cette inégalité étant positif, l'arbitraire de e assure alors que
lim f f(x)g(y)dp(XHYn)(x,y)= [ .f(x)g(y)dPx®8yti{x.y);
" 7i2 J92
l'ensemble Jf étant total dans r3o(Kz). cela démontre que la suite des variables
aléatoires (X„,Y„), // 6 H, converge en loi vers (X,>'o). La somme étant une
application continue, il en résulte que la suite des variables aléatoires X„ + Yn,
n € f'J, converge en loi vers X -1- y0-
Remarque. On peut faire une démonstration en presque tout point analogue en
utilisant ]e théorème de Lévy (ce n'est pas surprenant : dans les denv points de
vue est présent le même argument de densité, celui-ci étant un ingrédient de la
démo astrati on du théorème de Lévy). En voici une présentation.
exercice 14.8
337
La suite (Y„)„£n convergeant en loi vers une constante yo, converge en
probabilité vers vo; la fonction y i-v exp(n;y) étant continue, la suite (exp(n?Yw))„epj
converge alors en probabilité vers exp(i'uyo). Soit s > 0 quelconque; on a alors
lim P(| cxp(ivYfl) - exp(i'uy0)| > fi) = 0 . (14.29)
n
Soient <P(x„,y„) la fonction caractéristique de (X„, Y„) et P\- ¿5 8yo la transformée
de Fourier de la probabilité Px ® 8yiv II résulte alors de l'inégalité triangulaire que
|?>(x((.y„)(",y)-Px®^ot»-';>l
^ / exp(/wXw) exp(n;Y„)dP- / exp(/uX„) exp(/vyo) d~P\
Uq Jq '
-I- / exp(/uX„) exp(/i;v(i) dP — / exp(JwX) sxp{ivyo) dPÌ,
K!q Jq !
et donc que
|?,Yn>(»,«)-Px®Ww.i')|
^ / I exp(/uY„) - exp(n;vo)| rfP + / exp(tuX„) - exp(i'wX) dP\
JQ \Jsî 1
soit, après avoir partitionné par l'ensemble (| exp(i'i;Yn) — exp(/uyo)|>e) et son
complémentaire dans la première intégrale,
< + / \cxp(ivYn)-exp(ivy0)\dP + \<pxn(u)-<px(u)\
< e + 2P(|exp(/i7YB) -exp(i'uyo)l > e) + |^x„(») -<ox(w)l •
Il résulte de la convergence en loi vers X de la suite (X„)„€^, traduite à l'aide du
théorème de Lévy, puis de la relation (1 4.29) que Ton a
0 «s limsup|^x«.vfl)f". w) - px ® &yt)(u. n\ - Ê-
n
ce qui, étant donné l'arbitraire de s montre que
lim^(x„,¥„)(»•") = Px® Syo(m-v):
la partie réciproque du théorème de Lévy démontre alors que la suite des variables
aléatoires (X„. Y„),« e N, converge en loi vers (X, y0).
Si la suite (Xn)«eK converge en loi vers une variable aléatoire X et si la suite
(X„ - Yw)„eK converge en probabilité vers 0, la suite (X„ - Y„)„eh converge en
loi vers 0 ; donc, par le lemme de Slutsky précédemment démontré, on a (X,,, Y„ —
X„) -* (X.0). Il en résulte que, puisque Y„ = (Y„ - X„) + X„, la suite (Y„)„€r-[
converge en loi vers X.
CHAPHHb 14. CONVr.K(ir.NC[i l>H MI'SURIiS UT CONVriRGENCE EN LOI
Exercice 14.9. Développement décimal, convergence en loi et théorème de Lévy.
Soit une suite (X„)„<=>j de variables aléatoires réelles définies sur le même espace
probabilisé (C2.,j4,P), indépendantes, de même loi uniforme sur l'ensemble des
entiers {(). ¡,2 L)}. On définit, pour tout n e N. la variable aléatoire Y„ =
2^/=o y^7- Démontrer que la suite (Y„)„£n converge P-p.s. vers une variable
aléatoire Y dont on déterminera la loi.
Solution. On a P-p.s., pour lout n <= N. 0
10"
~rr, rc qu' montre que la
série de terme général j^- est P-p.s. convergente, c'est-à-dire que la snitc (Y„)„,=n
converge P-p.s. vers une variable aléatoire Y; il y a donc aussi convergence en
probabilité et donc aussi en loi. Le théorème de Lévy va permettre d'identifier la
loi de Y. Les variables aléatoires X» étant indépendantes et de môme loi, donc de
même fonction caractéristique, la fonction caractéristique de Y„ est donnée en tout
réel t par
" t n I
?y„(o - n ^/(-^7) = n ^0(75-
./=0 ./=()
La fonction caractéristique de X,) est donnée en tout réel t par
9 ( ' ' ~exP('l0î)
<PXo(0 = T7. exp(0'0 = \ 10 1- exp(/0
./=0 1
si exp(?'0 ^ 1 ,
sinon.
Si exp(/f) 7^ i, c'est-à-dire si t fi 2jrZ, on a, pour tout j e N, exp(/ -^y) ^ 1 (car
s'il existe j e N tel que exp(/ ^4^) = I, on a aussi exp(//) — ]), si bien que l'on a.
en simplifiant.
Dans ce cas. on a
10"-
— exp ;
io'-'/ _
- exp(/10/)
il / t \
=0 l-exp(iw)
10"-
i--p(fT^)
- expO'lOï)
10"+ l
On a donc, pour tout réel t ^ 2jrZ.
cxp(j lOr) - 1
10" +'^10r'Oj
lim^Yf,(0 =
10(7
= ti([0.l0]")(0-
(14.30)
où K([0. 10)) est la transformée de Fourier de la loi uniforme sur l'intervalle [0, 10].
Puisque la suite (Yj,)f,en converge en loi vers Y, il résulte du théorème de Levy
que la suite ((£%,)«<= n converge simplement vers la fonction caractéristique <p\
de Y. La relation (¡4.30) implique alors que l'on a, pour tout réel / ^ 2nZ,
<py(t) = il([0. 10]) (t) ; les fonctions <py et Û([Q. |0]) étant continues sont alors
EXERCICE 14. in
339
égales, ce qui. en vertu de l'iiijectivtté de la transformée de Ruiner, prouve que la loi
de Y est la loi uniforme sur l'intervalle [0, 10].
Exercice 14.10. Convergence en loi et fonctions de répartition. Soit une suite
(X„)„€^* de variables aléatoires réelles définies sur le même espace probabilisé
(£2, A,~P). indépendantes, de même loi, de fonction de répartition F. On définit, pour
tout 11 e H*, les variables aléatoires I„ et M„ par
I„ = min X, et M„ — max X, .
1. Étudier la convergence en loi des suites 0«)„e^j* et (M„)„E>.-* ¦
2. On suppose que les X„.« e N*, sont de même loi exponentielle cxpfÂ) où A > 0.
On pose, pour tout n e N*. Z„ = ; étudier la convergence en loi de la suite
Solution. Les variables aléatoires 1„ et M„ élanl définies par des opérations relatives
à la structure d'ordre, il est judicieux ici d'employer le critère de convergence en loi
en termes de fonctions de répartition.
I. Pour tout réel a, on a. en tenant compte de l'indépendance des variables
aléatoires X„,
P(I„ > a) = p[ P| (X,- > a)] = Y\ p? > x) ;
lesX„ ayant même fonction de répartition F. la fonction de répartition de I„ est alors
donnée par. pour tout réel a.
V\„{x) = 1 -(1-F(a))".
Il en résulte que
j 0 s,F(a) =0,
l.rnFI/)(.cj = j j Sl0<F(;e)s|_
-Si xi = inf(x I F(a) > 0) > -co, on a alors
J »
J I Si a > a
t r- , i 0 sìa
a;
ce qui démontre que : I„
-Si xì — inf(a I F (a) > 0) = -co, on a alors, pour tout réel v. )im„ Fj„ (a) = 1 ; la
fonction limite n'est pas une fonction de répartition : il n'y a pas convergence en loi
de la suite (ï„j„et<*-
De même, pour tout réel a, on a. en tenant compte de l'indépendance des variables
aléatoires X„,
p(m„ s a) = p[ n (X< -X)] = Il P(X' *x) :
34n
CHAPITRE 14. CONVEl«.r,Ntb [.ir, MESI 'RES ET <.0N\ER("-EISCE EN [.01
les X„ ayant même fonction de répartition F. la fonction de répartition de M„ est
alors donnée par
Fm/7(a) = [F(a)]" .
fl en résulte que
,. c , , I 0 si F(.tJ < 1 ,
-sîaj = inf(x I F(x) = 1) < +00, on a alors
IìmFM„(x) = j
0 si x xs ,
1 si x > xs ,
M„ -> a,. .
ce qui démontre que :
-Si .v.t — inf(x | F(.v) = I ) = +oo; on a alors, pour tout réei a. lira,, Fm„ (a ) = 0 : la
fonction limite n'est pas une fonction de répartition ; il n'y a pas convergence en loi
de la suile (M„)„elv + .
- On a dans ce cas. pour tout réel a,
F(X)
0 si a ^ 0 .
[ - exp(-Ax) si a > 0,
m bien que [a fonction de répartition de Z„ est donnée par. pour tout x > 0.
Fzj;(a) = FM/i(Aln»J =
0 si x < 0,
[1 - exp(-Avlnn)]" sìa > 0.
Si x > 0. on alors
lnFZil(.v) = ii In
Il en résulte que
limbi Fz„(a)
0 si Aï > 1 ,
—co si b < Ax < 1 ;
puisque de plus, pour tout x < 0, on a [im„ Fz„ (x) = 0, il vient
lini Fz„ (a) =
ce qui, en remarquant que i = EXlt démontre que :
ZM —- EX! .
Exercice 14.11. Inégalité intégrale pour la partie réelle d'une fonction
caractéristique; convergence en loi d'une série de variables aléatoires indépendantes
(théorème de Lévy). Toutes les variables aléatoires sont définies sur le même espace
probabilité (fi, A P).
t'\t Ki'K'L 14 11
34'
Soit X une variable aléatoire réelle de fonction caractéristique <p\. Soit g la
fonction réelle définie sur 1R par
!sin .v
1 si x ^ 0 ,
0 si v = 0 .
I. Vérifier que g £ ϰ/,(IR). est positive, et que g(x) = 0 si et seulement si x = 0.
Soit <)' > 0 quelconque ; démontrer l'égalité :
[\l-"ïï<PxU))dt = f g(8X)dP.
2. Pour tout e > 0. on note If = infixi>e g(x) > 0. Démontrer que l'on a
P(|X| > e) i ~ [ (I - SH<pxV))dt = -1-
h<> Jo 2IE
/ (l -<p\(t))dt
J-5
(14.31)
(14.32)
Soit une suile (Xw)„eh* de variables aléatoires réelles. On note S„ = Y^j^x^-i-
3. Dèmonirer que la suite (X„)„e^+ converge en loi vers 0 (et donc en probabilité
vers 0) si et seulement si il existe S > 0 tel que la suite (^>x„ (0)«eN* converge vers
I pour tout t G hO].
4. On suppose les variables aléatoires X„, /; e N*, indépendantes. Démontrer que
la suite (Sn)n€h* converge en loi si et seulement si elle converge en probabilité
(théorème de Lévy).
Solution.
1. La continuité en 0 résulte de ce que lim^^o = I : g est de plus continue en
tout airtre point, paire et positive (car | sin.v| ç |.v|). De plus limj^ + oc <>(x) = I, ce
qui montre g e c/,(R). Enfin, pour tout x "> 0, on a
Jo
(1 — sin u) du > 0 ,
ce (.gui démonire que gix ) — 0 si et seulement si x = 0. On a
1 rs l fs
- (1 --Mip\(i))di = - d-Ecosi/Xjjû'/:
0 ,'0 & Jo
puisque 0^1— cos</X), on peut appliquer le tliéorème de Fubini. ce qui donne :
1 f (\-"M(px(t))dt = \ f f (]-caa(t\))dt
à Jo J Jn Jo
dp.
Il en résulte que
j (i~*WxU))dt = j
f (I -cos(fX)) dt
Jo
sinò'X'
dP
1 -
ce qui démonire ( 14.il ), puisque g(0) = 0.
SX
dP ,
342
chapitre [4. convergence de mesures et convergence en loi
2. Puisque ipx(-t) = <px{t). il vient, après le changement de variable défini par
~t = w,
(l~*pK(t))dt = J (1 -<px(-u))du = J^{l-<px(u))du,
ce qui implique que
/ (\ -<px[t))dt = 2 f*(\ -$<px(t))dt ;
on obtient ainsi l'égalité dans la relation (14.32). Il résulte de (14.31 ), de la positivité
de g et de la définition de le que l'on a
|/(1 ~.^xU)\dt = f g[5X)d-p
f g(*X)
J(\X\>i)
Z I g(8XidV
(|x|>«)
£ IBP(|X| > fi),
ce qui achève de démontrer ( 14.32).
3. Si la suite (Xn)K£N+ converge en loi vers 0, le théorème de Lévy assure la
convergence simple de la suite (<px/((0)/ieN* vers et donc a fortiori sur tout intervalle
[—5,5]. Inversement, supposons qu'il existe 8 > 0 tel que la suite (<px„(0)«en*
converge vers 1 pour tout t e [S.S]. Il résulte de (14.32) que, pour tout e > 0
et pour tout n <£ W*. on a
2\eo J~8
Puisque lim„ |1 - <px„(.!)\ = 0 sur [-8.8] et que |1 - ^x,,^")! ^ 2, il résulte du
théorème de convergence dominée que
limP<|X„| > e) = 0.
ce qui démontre que la suite (Xb)„ei-j* converge en probabilité, et donc en loi, vers 0.
4. Supposons que la suite (S„)/,erijt converge en loi. Soit 8 > 0 quelconque fixé et
soient des entiers m et n quelconques tels que m < «il résulte de (14,32) que, pour
tout e > 0, on a
P(|S„ -S,„[ > e) S ¿/^11 -<?s„-Sw(0l^. (14.33)
Les variables aléatoires Sm et S„ — Sm sont indépendantes, ce qui donne, pour tout
réel t, l'égalité (en termes de fonctions caractéristiques)
fps„{t) = <PSM{t)<ps„-sm(n ¦
exercice 14.1 2
343
et donc l'égalité
<Ps„(t)-<f>sm(t) = ysm(t) [1 -?„-s„(0] ¦
Puisque la suite (S„)„eN* converge en loi, il résulte du théorème de Lévy que la
suite 0ps„)ii€N* converge simplement vers une fonction <p qui vaut I en 0 et que la
convergence est uniforme sur [— S, S]. Il existe donc N tel que l'on ait W%H (t)\ ^ 1 /2
dès que m 3= N. Si on a 11 > m 5 N, on a alors
?„(*)-<Ps„,(t)\ = \fsm(0\ H -?«-sm(0l 3= \\\ ~<Ps„-sm(0\>
ce qui. en reportant dans (14.33), donne la majoration
p(is„ - s,„| >£)^^-sf_s \vs„0) - ps„(0I <i! -
Puisque lim„,m \<ps„(0 - <psM(0\ = 0 et que \ipsn(0 -?«(01 ^ 2, il résulte d'une
double application du théorème de convergence dominée que
liinP(|S„-Sm| >s) = 0.
c'est-à-dire que la suite (S„)„eH* est de Cauchy pour la convergence en probabilité.
Ainsi, la suite (S„)„em* converge en probabilité. La convergence en probabilité
impliquant la convergence en loi, la réciproque est vraie.
Remarque. En conséquence de l'inégalité d'Ottaviani, on a démontré eu exercice au
chapitre 10 (ex. 10, chap. 10) l'autre partie de ce théorème de Lévy, à savoir que, pour
une série de variables aléatoires indépendantes, les convergences en probabilité et
P-p.s. sont équivalentes.
Exercice 14.12. Variables aléatoires gaussiennes, lois conditionnelles, fonctions
caractéristiques et convergence en loi.
Notation. Lin vecteur 0t 1,-1:2 xn) de R" est noté Xn- Soit (X«)«eN* une suite
de variables aléatoires réelles définies sur le même espace probabilisé (fi, A, P). On
suppose que X] est de loi gaussienne <A%(0. 1) et que, pour tout n > 1, une loi
conditionnelle Px^+~ deX,,+] sachant X« est, pour tout xn e M", la loi gaussienne
Nvl(X», 1).
1. Quelle est la loi de (X[.Xi)? Trouver, à un facteur multiplicatif près, une
combinaison Linéaire de Xi et Xi qui soit indépendante de Xi.
2. Soit !Bn 'a tribu engendrée par X«. Calculer les espérances conditionnelles
E,s"X„-t.] et E^X2^. En déduire les moyenne et variance de Xn. Montrer que
la suite (X«)K€^* ne converge pas dans L2.
3. Justifier l'existence d'une densité fxn pour la variable aléatoire X,, et la calculer
(on traitera d'abord le cas n — 3). Quelle est la fonction caractéristique de X„ ?
344
chapitre 14. CONVERGENCE UH MESURES ET CONVERGENCE en LOI
4. Soit j < k. Quelle est la loi de la variable aléatoire (Xy.X*)? Quel est le
coefficient de corrélation de X/ et X& ? Étudier la convergence en loi de la suite
de variables aléatoires (X,, ^)fc€N* ; que peut-on dire de la loi limite ?
5. Soit, pour tout // € N*. la variable aléatoire Z„ = —^= = l X,. Étudier la
convergence en loi de la suite variables aléatoires (Z„)rtefJ* ¦
Solution.
1. Puisque Xj admet une densité, et du fait de l'existence d'une densité
conditionnelle de X^ sachant X,, la variable aléatoire (X1.X2) admet une densité ./ixl.x2)
donnée par. pour tout (.ïi,x2) e M2,
<2n
exp 1 _
(X2-X\Y\ 1
<2n
exp
„2.
(ri)-
ce qui montre que (Xj,X2) est gaussienne de densité donnée par, pour tout
(Xi,X2) e M2,
/(x,.x,)(-v|.^2) = ^exp[-|(^ + (x2 -xo2) .
La variable aléatoire (Y. Z) = {¿1X1 + bXi. Xi) est gaussienne comme transformée
linéaire de la variable aléatoire gaussienne (X[, X2). Donc, pour que Y et Z soient
indépendantes, il faut et il suffit que cnv(Y, Z) = 0. on encore, puisque Z est centrée,
que E(YZ) = 0. On a
E(YZ) = «EX2 + bE(XlX2) = a + b f
Je.
x\m\\ J' /x, (xi)dxj .
où est la moyenne conditionnelle de X2 sachant Xi, soit
E(YZ) = a + b E(X2) =a + b:
ainsi Y et Z sont indépendantes si et seulement si a + b =0.
2. Un représentant (ou version) de l'espérance conditionnelle E^X,,^ s'obtient
x;( —Xn
en composant la moyenne conditionnelle m
Xn + l
avec X„, ce qui donne
Xn -t. 1 — Xn.
On dit alors que la suite (X„)„<=h est une martingale 12 relativement à la suite
croissante (pour l'inclusion) de sous-tribus (S„)„e^. appelée elle-même filtration,
De même, par le théorème de transfert conditionnel, on a
E*"(XJ+1) =
7 x„=-
12. La théorie des m;irlingales est étudiée au chapitre 15.
EXERCICE I4.I2
345
Il en résulte que l'on a
E(X„ + i) - E [e^X^i] = E(X„),
et donc que
De même. 011 a
E(X„) = E(X1)=0.
e(x;j = e[es»(x;4.i)] = i + e(x;).
et, puisque E(X2j = 1,
ml) = n.
La suite (X„)„ej.|* n'est pas bornée dans L2 et ne converge donc pas dans L2.
3. Le même raisonnement qu'à la première question montre que la variable
aléatoire (X|, X2,Xj) admet une densité /(x1,x2,x3) donnée par, pour tout {x\.xi, xi)
e M3,
ce qui montre que (x1.x2.x3) est gaussienne de densité donnée par. pour tout
(x^xz.xi) e E3.
/(X,,X2,X;,)Ol.-*2.-V3) —
exp
--(x2 + (x2-xi)2 4- (xi-xz)2)
On remarque que
xf + (x2-x,)z + (x3 -x2f = [Ax3.x3
/2 -1 0\ /1 1 1\
A = I — 1 2 — 1 ; un calcul simple donne A 1 = I 1 2 2 .
V 0 -1 1 / \i 2 3)
Le même raisonne ment montre alors que la variable aléatoire X„ admet une densité
/x„ donnée par. pour tout x^ e Rn,
X ,¦ =je ,
ce qui montre que X„ est gaussienne de densité donnée par. pour tout Xn ç IF?",
,/x„(-v„) =
(2tt)^
exp
- - (*i + (*2 - *i)2 + ¦ ¦ ¦ + (-*„ - >2>
CHAPITRE 14- CONVERGENCE pH MHSCKES K| CONVERGENCE EN LOI
On remarque que
X2 + [X2 ~X\)2 + ••• + (x„ -A'„_|)- = {A.„Xa,Xn} ,
où
( 2
~i
0
0 \
-1
2
-1
0
0
-1
2
-1 0
0
0
0
-1 2
-1
V 0
0 -1
1 /
l'inversion de An (par exemple, par résolution du système linéaire associé) donne
a:1 =
(\ 1 1
1 2 2
1 2 3
1 2 3
M 2 3
1
2
n — 1 n — 1
n - I /1 y
On a vu à la question précédente que la variable aléatoire gaussieune X„ est centrée ;
sa fonction caractéristique est alors donnée par, pour tout tn el",
<PX„(/„) = exp
— 2 '
(14.34)
4. Soit / < k. La variable aléatoire (Xy,Xfc). marginale de X«, est encore gaus-
sicnne centrée et sa matrice de covariance vaut
C(xhxk) - \J. 3
j k-
Le coefficient de corrélation ax x* de Xy et X^ est alors
cov(X;.Xa) _ j
La fonction caractéristique de (Xy, X&) est donnée, pour tout (u,v) e M2, par
nx/,xk)(M.v) = exp
soit
¥)fX/,Xjt)Cw.ï') = exp --(ju +2juv+kv2)
cxerc1cr 14.12
347
Il en resulte que
ce qui implique que
lim«¡£> \k (u. i-i = exp
k <x/>7*>
il résulte du théorème de Lévy que
— -(ju1 + 2-^-=uv + V2)
4(./V-M>2)
La loi limite est la loi produit J^u(OJ) ® -A/r(0. 1); on dit, qu'à j fixé, les variables
aléatoires X; et ^ sont asymptotiqncment indépendantes.
5. Soit 1„ le vecteur de M" dont toutes les composantes valent 1. On a alors
Z„ = (X„, 1„}, si bien que la fonction caractéristique de Z„ est donnée par,
pour tout réel î.
Il résulte de (14.34) que l'on a
<pz» (!) = exp
= exp
2h*
"2nMA" k'h
où on note S„ la somme des termes de A"1. Pour calculer celte somme, on peut
sommer parallèlement à la première diagonale, ce qui donne
S„ = (1+2+ ¦¦¦ + «)
+ 2 [(1 + 2 + ¦ ¦ ¦ + (n - 1)) + (1 + 2 + ¦ ¦ ¦ + (n - 2)) + ¦ ¦ ¦ + I] ,
soit
_ n(n + 1)
sn - 2 +¿
(ji - \)n (n-2)(n - 1)
^ + --
+ ¦¦¦ + 1
n-i\ /3
2 '+- +
Or. d'après les relations du triangle de Pascal, on a
n + 1
3
n\ ln-l\ 3t
2l + \ 2 +-+ 2 +\3
ce qui implique que
S„ =
11 {11 + l)(2/i + 1)
34«
c11ap1tre 14. CONVERGENCE DE MHKURKS l'T CONVERGENCE EN LOI
et donc que
Vzn(.0 = exp
t2 {11 + \){2n + \)~
Il en résulte que
ce qui, en vertu du théorème de Lévy (th. 14.11), montre que
Chapitre 15
Processus et martingales discrets
On introduit d'abord, sur des exemples, quelques notions relatives aux
processus. On s'attache ensuite à l'étude des martingales bornées dans L2,
et en particulier aux résultats de eonvergence presque sûre.
15.1. Quelques exemples de processus
Mouvement d'une particule dans un fluide. Notons (X,.Vr) le couple
position-vitesse à l'instant / d'une particule dans un fluide; cette particule
est soumise à de nombreuses collisions avec d'autres particules, si bien
que la meilleure façon de modéliser le phénomène consiste à considérer
ce couple (X(, V,) comme une variable aléatoire. La famille {(X,, Vf)}i€M-i-
est un processus stochastique à temps continu; on suppose bien entendu
que toutes ces variables aléatoires sont définies sur un même espace pro-
babilisé (Q, A, P). Du point de vue probabiliste, comme d'ailleurs du point
de vue de l'étude physique du phénomène, on s'intéresse à certaines
grandeurs. Les grandeurs observables, ou mesurables, à l'instant / sont celles
qui ne dépendent que de l'histoire passée du processus jusqu'à l'instant t -
autrement dit celles qui sont « fonctions » des valeurs de Xs et V.,. pour s ^ t.
Un théorème classique de théorie de la mesure affirme qu'une variable
aléatoire Y est " fonction -> d'une variable aléatoire X, c'csl-à-dire s'écrit
Y — /(X), où / est une fonction mesurable si et seulement si Y est
mesurable par rapport à la tribu er(X) engendrée par X. La généralisation de ce
résultat à une famille non dénombrable de variables aléatoires (ici XS,VS,
s Í 0 n'est pas sans poser quelques problèmes (d'ailleurs, qu'est-ce qu'une
fonction mesurable de tous les Xs, V.(, pour 5 ^ t ?), mais il est raisonnable
de considérer que les grandeurs observables à l'instant t sont mesurables par
rapport à la tribu A, = cr(fXif. VlS) \ s ^ f). En eu sens, on dit que l'histoire
du processus à l'instant / est résumée par la tribu A,.
Notons f(x, v) la valeur d'une grandeur liée à cette particule fournie
par un appareil de mesure lorsque la particule a pour position-vitesse le
couple (x,v). Si un observateur fait des mesures en une suiLe croissante
d'instants r,, t-2,tn,.... ce qui est connu de l'observateur est le processus
d'observation {f(Xtll, Vttt )),ieN*, processus discret dont l'histoire à l'instanL
/„ est résumée par la tribu i8„ — a(f(Xh, V,; ) | i ^ n). On peut
349
35<j
chap1ike Ifi. l'ROCESSUS ET MARTINGALES DISCRETS
envisager l'étude de ce dernier processus avec son histoire propre, c'est-
à-dire la filtrat ion ($n)nei']s, ou une histoire plus riche, par exemple celle
du processus position-vitesse lui-même, à savoir la filtration (A„)»ëM* :ties
situations intermédiaires sont aussi envisageables.
Marches aléatoires dans Kn. Soit X ~ (X„)rteij une suite de variables
aléatoires, à valeurs dans M", indépendantes, et telle que les variables aléatoires
X„, n € N*, soient de même loi. On note, pour tout n e N, S„ — £"=0 X7- ;
la famille de variables aléatoires S = (Sn)„ÇH e^t 11,1 processus discrei
appelée marche aléatoire sur W, issue du point (éventuellement aléatoire) Xo-
Processus de renouvellement. Une marche aléatoire à valeurs dans K, où les
X„ sont ? 0 (on conserve les notations ci-dessus) est appelée processus de
renouvellement. Voici l'exemple qui est à l'origine de ce nom.
Imaginons une machine qui marche en continu et dont une pièce peut
devenir défaillante ; lorsque c'est le cas, on la remplace instantanément par
une pièce identique. La variable aléatoire X„ rnodélise le temps de vie de
la /Même pièce et. si on pose S0 = 0. S„ = est la date de
renouvellement de cette pièce.
Un autre exemple classique de processus de renouvellement est celui
d'une file d'attente de clients, Sn représentant la date d'arrivée au guichet
du fl-ième client.
Processus de saut. Dans la situation décrite ci-dessus d'un processus de
renouvellement S = (S„)„£n, on peut considérer pour t >- 0 doniié le
nombre Nr d'indices n tels que $„ < t (c'est un nombre qui dépend du
hasard, autrement dit une variable aléatoire). Dans les exemples considérés,
il s'agit du nombre de remplacements de pièces avant l'instant t ou du
nombre de clients arrivés entre 0 et t. La famille (Nï)feM+ est un processus
à temps continu dont les réalisations w m- Nf(to) sont des fonctions
croissantes à valeurs dans N. On parle à ce propos de processus de saut.
Dans le cas particulier où les variables aléatoires X„, n e N*, sont de même
loi exponentielle, le processus (Nr)(eR+ est un processus de Poisson (cf.
ex. 11.3). Autre exemple : le nombre N, d'impulsions enregistrées par un
compteur Geiger pendant un intervalle de temps [0. t}.
L'indice n'a pas toujours une interprétation temporelle. Pour étudier la
répartition des molécules d'un gaz par unité de volume à un instant donné,
on partitionne l'espace en cubes numérotés. On considère alors le processus
discret (X„)„€^*. où X„ est la variable aléatoire donnant le nombre de
rnolécules situées dans le n-ième cube.
Il n'est d'ailleurs pas nécessaire de discrétiser l'espace, et on peut définir
la notion de processus indexé par K? : dans l'exemple des molécules d'un
l_=|.2. PROCESSUS ET MARTINGALES : DTEINITIONS
351
gaz, cela revient à considérer pour chaque borélien A. de M3 la variable
aléatoire XA donnant le nombre de molécules de gaz situées dans A.
15.2. Processus et martingales : définitions
Par souci de simplification, on n'envisagera que des processus à valeurs
dans R ou R, les définitions suivantes se généralisant facilement à des
processus à valeurs dans M".
Définition 15.1. Un processus indexé par l'ensemble d'indices partiellement
ordonné 1 est la donnée d'une famille (X;)/ei de variables aléatoires définies
sur le même espace probabilisé {SI, A, P). On parle de processus discret si
l'ensemble d'indices I est de plus dénombrable infini (I sera en général égal
à N, M* ou fi). Une famille M>/)/ei de. sous-tribus de A, croissante pour
l'inclusion, est appelée filtration. L'objet (Q,A,P, (AW) es( a^ors appelé
base de processus. Si X — (X¡)¿ei est un processus discret, sa filtration
naturelle est la famille de sous tribus A¡, i el, où A¡ est hi tribu a (Xj \j $
/). Le processus discret X — (X¿),-€¡ esf adapté (sous-entendu, relativement à
la filtration (Ai)jei) si, pour tout i e I, X,- est Aj-mesurable.
Exemple 15.1. Pour une marche aléatoire S — (S„)„€n*, il est facile de voir
que sa filtration naturelle est la même que la filtration naturelle du processus
X = (X„)„€n* qui permet de la définir.
Une classe importante de processus est celle des martingales discrètes à
valeurs réelles. L'étude de la convergence presque sûre de suites de variables
aléatoires est souvent facilitée par l'introduction de martingales associées,
pour lesquelles on dispose de bons théorèmes de convergence.
Définition 15.2. Soit (£2, A. P, (Ai)i€i) une base de processus, où I est
dénombrable et partiellement ordonné. Soit X — (X(),€[ un processus adapté
tel que, pour lout i e I, X, soit P-intégral?le (resp. positive). Le processus X
est une sous-martingale integrable (resp. sous-martingale positive) si, pour
tout i et j tels que i ^ j, on a
EA'Xj £ X¡ ,
une snrmartmgale integrable (resp. surmartingale positive) si, pour tout i et
j tels que i ^ j, on a
EAiX; $ X/ .
Le processus X est une martingale integrable s'il est à la fois une sous- et
snrmartingale integrable, ce qui est équivalent à dire que, pour tout i et j tels
que i =S j, on a
E^'X, - Xi .
;,5? CHAPIIKE [> PROCESSUS ET MWtllKGALbS ClISCKElS
S est une martingale si p =
Remarque.
1. Pour que le processus X soit une sous-martingale il faut et il suffit que
le processus —X soit une surmartingale.
5/1 — N oi/N* on parle de sous-martingale, sur martingale ou martingale
discrète; si T — N et si A^ — \J„eN A„, tribu engendrée par la réunion
des tribus A„, n e N. on parle de mari in gale (discrète) fermée. Avec la
même définition de Aoo, une martingale discrète integrable X -- (X„)„eN est
fermable s'il existe une variable aléatoire Xx, Aoo-mesurable, telle que l'on
ait, pour tout n € M, X„ — E^" Xoo ; le processus X — (Xn)rtepr esc alors une
martingale fermée.
Une martingale discrète Integrable X = (X„)„epj est dite bornée dans Ll
¦"suPneN El^«l <
Une martingale discrète X — (X„)„eN est dite de carré integrable ou dans
L2 (resp. bornée dans Lr) si, pourtoutn e N,Xn est de carré integrable (resp.
«sup„eN EX2 < +00).
Remarque. Une sous-martingale (resp. siirmartíngale) croît (resp. décroît)
en espérance conditionnelle; une martingale est constante en espérance
conditionnelle.
Voici des exemples simples de tels processus.
Exemple 15.2. 1. Un processus de renouvellement est une sous-martingale
par rapport à sa filtration naturelle.
2. Considérons la marche aléatoire dans Z définie, avec les notations ci-
dessus, par S0 = a et S„ — £"=1 Xj.n e N*, où les X„. n e N*, forment
une suite de variables aléatoires indépendantes de même loi />r>j +( 1 — p)8-i
(avec 0 < p < 1). Cette marche peut modéliser par exemple la fortune d'un
joueur qui joue à pile on face et qui, à chaque jet, gagne ou perd une unité
respectivement avec probabilité p et 1 — p. Si (¿4>„),'e^ est la filtration du
processus S. on remarque que. si « e N*, A„ — a(X¿ \ 1 5; j $ n). On a
alors
E-SS,1 + 1) = S„ +EA»(Xn + l);
puisque les X„ sont indépendantes, on a
E'A"(X„+1) = E(X„+1) = p-(l-p)=2p-l.
Tl en résulte que
S est une sous-martingale si p > ± ,
S est une surmartingale si p < \ .
15-2. PROCESSUS ["'I MAIIUNi.;j.LES : DÉFINITIONS
353
2. Si X el Y sont des sous-martingales, pour tout réels positifs a et b, le
processus aX + bY = (aX¡ + bY¡)iej est encore une sous-martingale.
3. Si X et Y sont des sous-martingales. le processus X vY = (X,- vY,-)iej
est une sous-martingale ; de même, si X et Y sont des sunn art ingales, le
processus X a Y = (X, a Y¡),-€i) est une surmartingale1. La première
assertion résulte de ce que, si / $ j. on a E"*'" (X, v Y;) £ E^'Xy ^ X¡
etEA'(X, vY/) > E'A'"Y/ =s Y¡, la seconde, de ce que E^ f Xj aY;)$
E^'X; í X, etE^''(Xj a Y/) < EAiY¡ < Y¿.
4. Si X est une sous-martingale (resp. une surmartingale) integrable et
si i < j, on a EXy S= EX, (resp. EXj $ EX,-) ; en particulier, si X est une
martingale integrable on a EX y = EX,-.
5. Pour que le processus X soit une sous-martingale (resp. surmartingale
ou martingale) discrète il faut et il suffit que l'on ait, pour taut n e N,
E-*«X„+, ^X^fresp.E^X^, < X„ ouE'A"Xn+1 = XB).
6. Soit X = (X„)„6K une martingale dans L2 ; le processus X2 —
(X2)„eN est une sous-martingale et, en conséquence, la suite (EX2)„SJ(i est
croissante. En effet, puisque X„ est A„-mesurable, on a, pour tout «,
E-*"(Xl( + 1-XJÍ)2=E-i«Xj + l +E-*«X; -2XBE-*«XB + ,=E'*''X;+1 -E^'X2,
ce qui démontre que EA"X^| > E'A"X2. En intégrant, il en résulte que
EX2+1 5 EX2.
Dam la suite, sauf mention du contraire, les processus introduits sont
définis sur la même base de processus (Q, A, P, (-Aniñen)- Lorsqu'il n'y aura
pas d'ambiguïté, on supprimera l'adjectif « discret ».
Exemple 15.3. Soit fXM),rerJ une suite de variables aléatoires integrables
définies sur l'espace probabilisé (Q.^.P); notons, pour lout n € N. 3n
la tribu a(X,- | i $ n) et Y„ les variables aléatoires définies par Yo = 0
et Y„ — £"=1(X¡- — Es,'-'Xí) si íi ^ 1. Le processus (Y„)„eJ!j est une
martingale sur la base de processus (Q, A, P, (3$n)nen) ; on dit aussi que
(Y„)„ei.j est une martingale relativement à la filtration (áín)neN, ou plus
brièvement, quand il n'y a pas d'ambiguïté,une martingale.
Un cas particulier important est celui où les variables aléatoires X„ sont
indépendantes et, dans ce cas, on a Y„ 5Z" = l(X, — EX,) si h 5 L
Exemple 15.4. Soit U une variable aléatoire integrable et soit (Ai)neN une
filtration sur l'espace probabilisé (£2, A,P) ; soit X» = E'A"U. Le processus
(X„)neN est une martingale bornée dans LL.
1. Rappel de notations : pour tous réels a et b, a V b — max(a. b) et a A b = min(u, b), ce
qui se lit respectivement « a sup b •< et <• a i ni b ».
CHAl'llKT 15. PKOCfcSÏ>l. S (¦ T MAKHNOAI CS EMSCKbIS
Exemple 15.5. Soient X — (X;);ei une sous-martingale positive et / une
fonction de E+ dans lui-même, convexe croissante et telle que /(X;) soit
intégrable pour tout / ; il résulte de l'inégalité de Jensen que le processus
/(X) — (/(X,-)),ei est une sous-martingale positive : en particulier il en est
ainsi pour les processus X^ — (Xf avec p 1 etX4" = (X+),€i.
Exemple 15.6. Soit X = (X;),-er une martingale; le processus (|X,-|),-el est
une sous-martingale puisque, si i ^y,ona|X,-| = (E^'X/I :< FA" jXy-1. Plus
généralement, si / est une fonction convexe continue telle que f(X/) soit
intégrable pour tout /, il résulte de l'inégalité de Jensen que le processus
/(X) = (/(Xi))/ei est une sous-martingale. En particulier, si X est une
martingale L2, le processus X2 — (X2)iEi est une sous-martingale.
15.3. Temps d'arrêt
La notion de temps introduite pour la modélisation d'un processus
aléatoire est en fait relative à l'horloge de l'observateur et le phénomène
aléatoire étudié n'a aucune raison a priori d'évoluer simplement suivant
cette horloge. On est alors amené à introduire des temps aléatoires, appelés
temps d'arrêt, qui tiennent lieu d'horloge interne du processus.
Soit une base de processus (Q.A.P, (<A,J«€n)- On note Aqq = \JneNAn.
Définition 15.3. Une application T de Q dans N est un temps d'arrêt si, pour
tout n € N, on a (T — n) € -A,,.
Remarque. Si («An)ft(=n est la filtration naturelle d'un processus X — (X„)„ên
à valeurs dans un espace mesurable (E. S), une application T de Q dans
N est un temps d'arrêt si, pour tout n t N, il existe tine application
mesurable /„ de (EB + 1, g®fw + l>) à valeurs 0 ou 1 telle que l'on ait 1(T=„, -
./ii(Xo,Xl X„).
Si T est un temps d'arrêt, on a (T = +00) € A^ ; en effet, (T < +00) =
U„eN (T — 71 ) et> Pour tOLlt 11 £ N, on a (T — n) e A^, puisque An C Aqo-
Exemple 15.7. Toute application constante T de Q dans N est un temps
d'arrêt.
Exemple 15.8. Le temps d'entrée Ta d'un processus adapté X dans un
borélien A est un temps d'arrêt. Il est défini par
Ta — inf(« € N I X„ € A). avec la convention inf & — +00.
En effet, il résulte de l'adaptation de X et de la croissance de la suite des
sous-tribus de la filtration que l'on a (TA = 0) = (X0 € A) € An et, pour
toutn € N*.
15-3 lemps iv^kcêt
_155
rir-l
(TA=n)= f)(Xk£A) f](Xn € A) € A„ .
Lk=Q
Exemple 15.9. Le temps de dernier passage ta d'un proeessus adapté X
dans un borélien A n'est pas un temps d'arrêt. Il est délini par
ta — sup(/ï e H* I X„ e A), avec la convention sup 0—0.
En effet, on a (iA — 0) = f]lllz- . (X„ fi A) 6 AM, mais, en général,
(iA = 0) £ -Ao, et de plus on a, pour tout n elf,
Notation. On note T (resp. T&) l'ensemble des temps d'arrêt (resp. temps
d'arrêt bornés), relativement à la fil t ration (^^em ¦
Définition 15.4. Soit T un temps d'arrêt; la famille d'événements A-\ définie
par
AT = SA € Aao | Vrt e H A n (T = «) € A„ \
est taie tribu; elle est appelée tribu des événements antérieurs à T,
Remarque. Test .yt,t-mesurable.
Lemnie 15.5. (a) Soient T un temps d'arrêt et A t A^ ; A e A-\ si et
seulement si7 pour tout n e N, A n (T < n) e A„.
(/?) Une application T de Q, dans M est un temps d'arrêt si et seulement,
pour tout n e N, (T ^ n) e An.
(c) St"l\, T2, ... . sont des temps d'arrêt, il en est de même des
applications inf i s;* T, sup,^-^^ Tf. En particulier, si T est un temps d'arrêt, pour
tout entier /c, T a k est un temps d'arrêt borné.
Démonstration. (a) Supposons que T soit un temps d'arrêt et soit A e
At : on a, si k ^ «, A n (T — k) e Ai,- c A„ et donc
Inversement supposons que, pour tout n € N, A n (T ^ n) e A„ : on a, si
«^l,An(T^fi-l)e An-\ C A„ et, par conséquent,
A P (T — n) = [A n (T <: n\] \[Afl(T^«-|)]e A„ ;
de plus A n (T = 0) = A n (T $ 0) £ A0.
2. Celle caractérisât ion justifie le nom de tribu des événements antérieurs à T.
(rA - «) = (X„ 6 A) f] (Xi fi A) fiAn.
CHAPITRE 15. PROCESSUS ET M A 1(1 INCALES DISCRETS
(b) Cela résulte de la propriété précédente, en remarquant que T est un
temps d'arrêt si et seulement si Q e
Arie) Les T, sont des temps d'arrêt; d'après la caractérisation des temps
d'arrêt précédemment démontrée, on a, pour tout n e N, (infi^^t T,- ^
") = UisïifcCT, 5 «) e An et (sup,^^T( <; n) ¦= Oi^A-tX - n) 6 A„
ce qui démontre le résultat en vertu de cette même caractérisation. ?
Le lemme suivant caractérise les fonctions Ax-mesurables et donne
l'expression de l'espérance conditionnelle d'une variable aléatoire par rapport
à la tribu Aj.
Convention. Une application X définie sur une partie Q' de Q sera dite
A-mesurable si elle est mesurable relativement à l'espace trace (Q\ Q' n A).
Lemme 15.6. (a) Soient T un temps d'arrêt et X une application de Q
dans K, A oc-mesurable. L'application X est Aj-mesurable si et seulement si,
pour tout n e N, sa restriction Xrr=«) à l'ensemble (T = n) est A„-mesurable.
(/?) Soit X une variable aléatoire numérique définie sur ( Q, <A.P), positive
ou integrable. On a, pour tout « e N.
autrement dit,
EMX = EA"iX sur(J = n]
Démonstration. (a) Supposons que X — ly. où B e A^ ; pour tout n e
N, sa restriction X,t=„) à l'ensemble (T — /1) est lDna=«)- L'équivalence
annoncée résulte alors de la définition de la tribu Aj ; elle est encore alors
valable, par linéarité, lorsque X est étagée, puis lorsque X est positive (X
est alors limite simple d'une suite croissante de fonctions étagées). Le cas
général s'obtient alors en décomposant X en parties positive et négative.
(b) Soit X une variable aléatoire numérique positive et soit, pour tout
n € N, Y„ un représentant de E^X; Y„ est An-mesurable et positive.
La variable aléatoire positive Y = UnefT 1(t=h)Y„ est alors, d'après la
propriété précédente. =>4>r-mesurable. De plus, puisque X est positive, on a,
pour tout A e Aj,
f X dP=Y) i XdP,
JA n€fîian(t=«)
soit, puisque A n (T = ni appartient à An, et que les intégrandes sont
positives,
/ XdP=J2f E-*"XdP= f y]l(T=„,Y„ rfp= / Yd¥.
15-3- TEMPS D'ARRÊT
357
ce qui démontre le résultai lorsque X est positive. Le cas où X est de signe
quelconque et integrable se démontre alors en décomposant X en parties
positive et négative. ?
On obtient alors immédiatement le corollaire suivant :
Corollaire 15.7. Soient X un processus adapté et T un temps d'arrêt.
L'application Xx définie sur l'ensemble (T < +oo) par Xt = X„ sur (T — n), pour
tout n € N, est Aï-mesurable.
De même, si (Xn)nS^ est un processus adapté et T un temps d'arrêt
l'application Xj- définie par Xj = XH sur (T — n), pour tout n € N, est
Aj- mesurable.
Proposition 15.8. Soient S et T des temps d'arrêt.
(a) Les événements (S < T), (S = T) et (S í T) appartiennent à A$ et à
At-
(b) Si B € A^ alors B D (S -< T) € AT.
(e) En conséquence, si les temps d'arrêt S et T sont tels que S ^ T, on a
A$ c Aj. Il en résulte que les familles de sous-tribus (AT)Tej-h et {Ar)Tej-
sont des filtrations.
Démonstration. (a) On a, pour tout n € N,
(S < T) n (S = n) = (n < T) n (S = n) € An ,
puisque (n < T) = (T $ n)r et que S et T sont des temps d'arrêt. 11 en
résulte que (S < T) appartient à As. Par ailleurs, on a, pour tout n € N*,
(S ^ T) H (T — n) — (S < // - 1) n (T = n) € An ,
puisque (S < n — 1) e An-i C Afl et que S el T sont des temps d'arrêt;
enfin, on a
(S < T) n (T = 0) = 0 € A0 .
Il en résulte que (S < T) appartient à Aj. Ainsi {S < T) € A$ n A-r.
On a, pour tout n € N,
(S = T) n (S = n) - (S = n) n (T = n) € An ,
ce qui démontre que (S = T)e<A<ï ; on obtient de même que (S — T)€Aj.
Tenant compte de ces résultats, il vient
(S $ T) - (S < T) Ü (S - T) € As n -AT -
(M Si B € As. pour tout n e N, on a B n (S Í //) € An et donc
[B H (S $ T)] n (T = «) = [B n (S $ n)] n (T = n) € An ,
ce qui démontre que B D (S $ T) e Ay.
«8
CHAPITRE 1> PROCESSUS ET MARTINGALES DISCRETS
(c) Si les temps d'arrêt S et T sont tels que S ^ T, on a (S =5 T) — £2, et
l'assertion précédente assure que As C Ai. ?
Remarque. Si B G ¿4,$. on a aussi B n (S = T) e «AT et B n (S < T) e Ai
car. d'après la proposition précédente, on a
B n (S = T) = [B H (S £ T)] O (S = T) e AT,
et
B H (S < T) = [B H (S .< T)] n (S < T) e Ar -
15.4. Premier théorème d'arrêt
On démontre un théorème de caractérisation des martingales en termes
de temps d'aiTét bornés ; on en déduit le premier théorème d'arrêt de Doob,
d'utilisation fréquente.
Théorème 15.9. Soit X — (X„)„eK un processus adapté. Il y a équivalence
entre les propriétés suivantes :
(i) X est une martingale integrable,
(ii) pour tout T a Tb, XT e Ll(U,AT.P) et E\'T - EX0,
(iii) le processus (Xt^eT), est une martingale par rapport à la filtration
{ArheT^
Démonstration, (i) (ii). Supposons que X est une martingale integrable.
Si T £ % est borné par k, on a
k
Xt ~~ 2Zl(t=/)Xy ,
./=o
si bien que Xx <e L1 (Çl, Ar,P). Soit A <e Ar ; on a
A-
A=|J[An (T = _/}];
et donc k
S XvdP=J2J XjdP.
Puisque X est une martingale et que, pour tout j e N. A D (T = j) e A¡,
il vient alors
f xTdP = T f xk dp= f xkdp-
J A j=0^an(t=/l .'A
15-4- l'HEMIER ]'[-]COKRM[i D'AHIiÊT
Xj étant A\-mesurable, on a démontré que Xy = E'-VrX^. En prenant les
espérances et en tenant compte de ce que X est une martingale, il vient ;
EXT = EX* = EX0 .
(ii) =>. (iii). Supposons la propriété (ii) vérifiée. Soient S et T deux temps
d'arrêt bornés par k tels que S $ T 5 k ; on a alors As c Ay c A^. Soit
A € A$. Inapplication R définie par R = S 1.*, + k lAi est évidemment
bornée par k et est un temps d'arrêt. En effet, on a
Î(S = n) n A € A„ si « < k ,
[(S ~A)nA]UAc sin = k ,
0 si n > k ;
or, si n = i, puisque (S = AlflA e 4 et que As c Ak, on a (R = n) g .Afc,
si bien qu'en définitive on a, pour tout n € n, (R = n) g An.
Appliquant l'hypothèse aux temps d'arrêt bornés R et k, il vient EXr =
EX0 = EXjt, ce qui donne l'égalité
E(lAXs + 1vXO = EX*,
soit encore.
E(1AX,) =E(1AXA-1;
X$ étant <As-'mesurable, il en résulte que X$ — E"4sX£. On a évidemment
de même X-r = E'4tXa-. Puisque l'on a -As c ,At. on a alors la succession
d'égalités
E^X-r - E'As [eAtxJ = EAsXk - Xs ,
ce qui démontre que la propriété (iii) est vérifiée.
(iii) => (i). fl suffit de prendre des temps d'arrêt constants. ?
Corollaire 15.10. Soit X — (X„)„en une martingale; pour tout temps
d'arrêt T, le processus X1 = (XT/.„)„,en est une martingale. Elle est appelée
martingale arrêtée au temps T.
Démonstration. Pour tout temps d'arrêt borné S, on a Xj = Xjas et, T a S
étant un temps d'arrêt borné, il résulte du théorème 15.9 appliqué à la
martingale X que l'on a
E(X|) - E(XTAS) - EX„ = E(Xj).
ce qui implique, toujours d'après ce théorème et du fait de l'arbitraire de S.
que XT est une martingale. ?
Une exploitation de l'implication (i) => (iii) du théorème 15.9 donne
alors le premier théorème d'arrêt de Doob.
CHAPITRE i^. PROCESSUS ET' MARTIMCAI.ES DISCRETS
Théorème 15.11 (Premier Ihéorèine d'arrêt de Doob). Soit X — (Xn)„ef
une martingale; pour tous temps d'arrêt bornés S et T tels que S ^ T, on a
15.5. Lemme maximal et martingales dans L2
Il s'agit de démontrer un théorème de convergence presque sûre pour
les martingales bornées dans L2. Auparavant, on donne le lemme maximal,
on inégalité maximale de Doob, pour les sous-martingales. C'est en fait une
généralisation de l'inégalité de Kolmogorov pour les sommes de variables
aléatoires indépendantes.
Lemme 15.12 (Lemme maximal ou inégalité maximale de Doob). (a) Soit
X une sous-martingale positive ou integrable. Pour tout entier N et tout s > 0,
on a l'inégalité
P( sup X„ > e) S ~{ f XN dp), (15.1)
0í«s£N ; B\J\ sup X„>e) )
et a fortiori
P( sup X„ > f) ^ -E|Xk1. (15.2)
Pour tout s > 0, on a alors l'inégalité
1
f «eh'
P(supX„ >e) < IsupE|X„|. (15,3)
v .iei,j / F »cr
(b) En particulier, si X est une martingale integrable bornée dans L1
(c'est-à-dire telle que supnet: E|X„| < +oo)t la variable aléatoire X* —
sup,¡e:.r |X„| est finie P-p.s.
Démonstration, (a) 11 s'agit de majorer la probabilité de l'ensemble E —
(sup0íwíN Xn > s) ; s'il est vide, l'inégalité est triviale et on se place dans
le cas où il ne l'est pas. Faisons apparaître l'indice k pour lequel X* dépasse
pour la première t'ois le seuil s ; on introduit pour cela les ensembles
k-)
Eu = (X0 > s) et, si 1 < Je < N, E* = (X* > e) n [f](Xi < s)] .
¡ =o
Ces ensembles forment une partition de E ; par conséquent on a
[ xN ¿P = Y" / XN dP.
f 5-5- 1-tMME MAXIMAL ET MARTINGALAS UANS l2
Puisque, pour tout k, on a Ek e et que X est une sous-martingale, il en
résulte que
r N r
X^dP^Y / XkdP;
Jt. r~; Je*
par définition de E*-, on a alors
r N
/ XNrfP?eJ]P(Efc) = 5p(E))
ce qui démontre l'inégalité (15.1); l'inégalité (15.2) en résulte
immédiatement.
Enfin, pour tout £ > 0, la suite d'ensembles (sLipOÍ)!íN X„ > s) étant
croissante en N et de réunion (sup,(£r] X„ > s). on a
pfsup X„ > s) — limPf sup X„ > e\ $ - supE|X„|.
(b) Le processus )X) étant alors une sous-martingale, il résulte de
l'inégalité (15.3) que l'on a. pour tout À" e N*,
P(sup |X„ I > k) 5 ~ sup E|X(J I.
«eF-' k iren
ce qui. en passant à la limite en k, donne
p(sup|X„| = +oo) = limp(sup|X„| > k) = 0. ?
On obtient alors en corollaire l'inégalité de Doob pour les martingales
bornées dans L2.
Théorème 15.13 (Inégalité de Doob). Soit X une martingale bornée dans
L2. La variable aléatoire X* — supneM est dans L2 et on a l'inégalité de
Doob
||X*||L2 ^2sup||X„||L, . (15.4)
h
Démonstration. Soit M„ — sup0<fc:Sn |X¿|; il résulte de l'inégalité M„ ^
y^i=0|Xt| que M„ e L2. Le processus |X| étant une sous-martingale
positive et integrable, il résulte du lemme maximal que, pour tout a > 0,
on a
û E[l(m,;>a)J $ E [|X„| 1<m„ -d)J ¦
En intégrant par rapport à la mesure de Lebesgue X sur M+, on obtient
l'inégalité
( aE[\(Mn>lù] dX(a) S f E[\Xn\iiM,l>a)] dX(a),
Jr+ J&+
CIIAPUKb l'y PROCESSUS ICI'MARTINGALES DISCRETS
soil, par application du théorème de Fubini et intégration,
E / adX{a)= ^EM2 ^E[[X„|Ivl„] .
J[o,M„ [ 2
L'inégalité de Schwarz appliquée au second membre donne
jEMj < [EX;]* [EM^]' ,
ce qui implique l'inégalité
et a fortiori l'inégalité
[EM2]- *=2sup[|X„||l2 .
La suite (M„)„^w convergeant en croissant vers X*, un passage à la limite et
la propriété de Beppo Levi donnent l'inégalité (15.4). ?
Remarque. Sous les hypothèses du théorème 15.13, on a donc en fait la
double inégalité
sup||X„||l2 < ||X*||l2 ^ 2sup||X„||l2 ¦
«EN »eN
En corollaire, on obtient un théorème de convergence pour les
martingales bornées dans L2.
Théorème 15.14 (Théorème de convergence L2). Soil X une martingale
bornée dans L2. La suite (X/()ft£N converge P-ps. et dans L2 vers une variable
aléatoire X^. On a, pour tout n e N, X„ = E^'X^.
De plus, si la filtration est complète, au sens où la tribu Ao contient
tousles ensembles A-négligeables, X^ est A ^-mesurable et la martingale X est
fermable.
Démonstration. On démontre d'abord la convergence P-p.s. ; on note
classiquement {X —l'ensemble des co pour lesquels la suite (X„(<y))rt€^
converge dans M. 11 résulte du critère de Cauchy que l'on a
l=fl U fl i|X„-X,„|^£},
1.EQ+ NeN* m,'iSN
|C= U n U ÎIX,-Xm|>,};
(¦-«=£¦+ Ne:^* m,«?N
et donc
{X-
I5Ö- LEMME MAXIMAL ET MARTINI"; ALES DANS I.2
or, pour n e N*, on a
M{|x„ — xm| > f,\C j sup |xm -x„| > eic{sup|xw -xn| > M,
la dernière inclusion étant obtenue en prenant la contraposée de la suite
d'implications
sup |Xf, -X>
«sn
vm.rt Z n |xm-xn| í i et |x„-xn| ^ ^
=>vm,/î^n |xw-xr,| ^ — *r e => sup |xm-x„|^fc'.
par l'inégalité de markov, on a
/ e\ 9
p(sup|x„-xn|> sup|x„-xn|
l'inégalité de doob appliquée à la martingale (X„ — Xn)„~-n ou, ce qui est
équivalent, à la martingale |y„)„e^ définie par y„ — 0 si 0 c n S. n — i et
y„ — X„ — Xn si n > n, conduit alors à l'inégalité
/ s \ 36 -,
p(sup|X„ -XN| > -) 5 - supHX^-XnII^ - (15-5)
mais, puisque x est une martingale dans l-\ on a
HX.-XnH^ = e[x„-xn]2 =exj + exj-2e[xbxn]
= ex2, + ex2n -2e [Xn(e^X„)] = ex2 - ex2 ;
ainsi, la suite (ex2)ner est croissante ei donc convergente, puisque X est
une martingale bornée dans l2 ; on a donc
sup ||X„ - xN||i> = sup ex- - ex2 = limex2 - ex2 .
p(sup!x„ - xn| > M < - flimex;, -EXi, :
en reportant dans l'inégalité (15.5), il vient
36
|x„-xn]>-)s
la suite des ensembles (supw?n |X„ - Xn [ > étant décroissante en N, il
en résulte que
36
l$up|x„ -xn > -) í —
NEN*
Il 111
n
lim EX; - EX^
L n
= 0.
ce qui implique que
= 0.
3^4
CHAPITRE 15. PROCESSUS ET MARTINGALES DISCRETS
Autrement dit la suite (X„)„eN converge P-p.s. vers une variable aléatoire
Par le lemme de Fatou, on a alors
/ X2^ d? ^ lim inf EX2 <: sup EX2 < +cc ,
ce qui montre que g L2.
Puisque E[X„ - Xm]2 = EX2 - EX2m et que la suite (EX2)„eN est
convergente, la suite (Xn)n&i est de Cauchy dans L2 ; il en résulte qu'elle
converge dans L2 vers X^. Puisque pour tous m et n tels que m >¦ n on a
X„ — E"4"X,„. par continuité de l'espérance conditionnelle pour la norme
L2 on a a a
Xn - limEA"Xm - EAnXc
En particulier, si la filtration est complète, X^ est A^o-mesurable et la
martingale X est fermable. ?
Donnons deux exemples de martingale L2, l'une bornée dans L2. l'autre
non bornée dans L2.
Exemple 15.10. Soit une suite (a„)„ef( de nombres réels. Considérons le
processus S — (S„)„<=n défini par, pour tout h g N,
S„ = ^<*/X; .
/=0
où les X„, n g N, forment une suite de variables aléatoires indépetulantes,
de même loi + Pour n g n, on note An = o{X, | 0 ^ j ^ n).
Le processus S = (S,,),,^ est une martingale pour la filtration (An)ne^. En
effet, on a , .
EA"(S„+I) = SW +an+lEA"{Xn+l),
et, puisque les X„ sont indépendantes et centrées, on a
EA"(X„+1)-E(X„+l)-0.
Il en résulte que
EA"(S,!+1) = S„.
Bien sûr, Sn est dans L2, et on a, puisque les X„ sont indépendantes, centrées,
de variance 1,
n
.2
/=0
Si on suppose que Xìj^oa/ < +°°, 'a martingale S est bornée dans L2
et converge donc P-p.s. et dans L2.
15-6. DÉCOMPOSITION de DOOB
Si on choisit tous les an égaux à I, la martingale S est clans L- mais n'est
pas bornée dans L2. Démontrons que P-p.s., la suite (S„)„€P; ne converge
pas. Il suflìl pour cela de démonlrer que
P( lim sup —— +00 ) — 1.
n Jn
(15.6)
Pour tout c > 0, on a, en conséquence du lemme de Fatou pour les
ensembles.
lim sup P
et donc, a forliori,
lim sup P
" s„
5= P
> ('
Jn
limsupf —% > c\
> C
$ P( Ihn sup —^ c ) .
Mais, d'après le Ihéorème limite central, on sait que
limP
S,
> c
f+0° 1 ( x\
Ainsi, on a, pour tout c > 0,
P[ lim sup—^ ^ c ) > 0,
V „ Jn >
et donc, par la loi du tout ou rien de Kulmogorov,
S„
y(lim sup —~ ^ c) — 1 ,
puisque l'événement (limsupn S„/ Jn > c) est asymptotique. L'égalité
('15.6) en résulte immédiatement en écrivant, par exemple, que
(Umsup-^L = +00^ = I I Aimsup-^L >. p) ¦
ce qui achève la démonstration.
15.6. Décomposition de Doob
À un processus X = (X„)„eK on associe le processus des accroissements
AX = (AX„)„eN défini par
AXfl = X0 et, pour tout n e N*, AX„ = X„ - X„_[ .
On a alors, pour tout « g N, X„ — Y^j=o ^^J-
chapitre 15. processus et martingales discrets
Définition 15.15. (a) Un processus X = (X„),iGN est prévisible si X0 est
AQ-mesurable et si, pour toutn e N*, X„ est A„-i-mesurable,
(b) Un processus A = (A„)„ef.: est croissant prévisible s'il est prévisible,
si Ao = 0 et s'il vérifie, pour tout n g N *,
0 ^ A„ ^ A„ + ( < +00 J>-p.s,
On note alors Aqo h limite dans R+ de la suite (An)„^,
Théorème 15.16 (Décomposition de Doob). Soit X une sous-martingale
integrable.
(a) Il existe une martingale integrable M et un processus croissant
prévisible A uniques tels que X = M + A.
(b) On a l'équivalence ;
supEX+ < +00 supE|M„| < +00 et Aqc e X1 .
Démonstration. (a) Existence. On définit M et A par les processus de
leurs accroissements en posant
Mo = Xo et, pour toutn g N*, AM„ = Xw -E^-iX* .
A0 = 0 et, pour tout « g N*, AA„ = E^'-'X* -X^ ,
On a E^"-! ÀM„ — 0 et M est bien une martingale integrable; de plus,
X étant une sous-martingale, on a AA„ >. 0. Enfin, par construction, on a
X = M + A.
Unicité. Soit une deuxième décomposition X = M' + A', où M' est une
martingale integrable et A' un processus croissant prévisible. On a alors
AA^ = AXW - AM; ,
si bien que, M' étant une martingale et A' un processus croissant prévisible,
on a .
AA; = E^-'fAXJ = AA„ .
Il en résulte que A — A' et donc aussi M = M',
(b) Supposons que sup„eN E|M„| < +00 et A^ G X1.Ona
X+ = (M„ + AK)+ î= M+ + A„ ,
et donc
sup EXJ ^ supEM+ + EAoo < +00.
Inversement, supposons que supngrq EX~ < +00 ; on a M„ Í X„ et donc
M+ $ X+. Il en résulte que sup„eN EM+ < +00.
Alors, puisque An — Xw — M„ ^ X+ — M„ et que EM„ — EM0, on a
EAM € sup EX+ - EMo ;
n€N
[5-6. DÉCOMPOSITION DE DOOB
A étant croissant positif, le lemme de Beppo Levi assure que
EAco sup EX+ — EMo < +00 .
Il reste à remarquer que si M est une martingale integrable, on a
l'équivalence
supEM„ < +00 *^=> supE|M„j < +00.
En effet, l'implication de droite à gauche résulte de l'inégalité ^ |M„ j ;.
l'implication inverse résulte de ce que l'on a |M„| = 2M^ — M„ et donc,
puisque M est une martingale, E|M„ j = 2EM+ — EM0. ?
Définition 15.17. Soit X une martingale de L2. Le processus croissant
prévisible de la décomposition de Doob de la sous-martingale integrable X2 est
appelé processus croissant prévisible de la martingale X et noté (X). C'est
l'unique processus croissant prévisible tel que X2 — (X) soit une martingale.
Remarque. Une martingale X de L2 est bornée dans L2 si et seulement si
(X)^ est integrable et on a sup„eN EX^ - EX2 + E (X)TO.
On donne une loi forte des grands nombres pour une martingale de L2.
Théorème 15.18 (Loi forte des grands nombres). Soit X une martingale de
L2. Sur l'ensemble {(X)^ — +00}, la suite de terme général (X)„ est non
nulle à partir d'un certain rang (aléatoire) et la suite de terme général
converge P-p.s. vers 0.
Démonstration. Sur l'ensemble {(X)^ = +00}, la suite de terme général
(X)n tend vers +00 en croissant ; elle est donc non nulle à partir d'un certain
rang.
Le processus Y défini par le processus de ses accroissements
AXn
Y0 - X0 et, pour tout n € n*, AY„ = ——
1 + (X)„
est une martingale bornée dans L2. C'est une martingale, puisque (X)„ étant
¿4jh-i-mesurable, on a, pour tout n g n*,
E"4»-! (AY„) = 1 E"4»"1 (AX,) = 0 ;
1 + (A)„
elle est dans L2 puisque (AY„)2 ^ (AX„)2. De plus, pour tout k € n*, on a
E(Y* — Y*-i)2 = EY2. — EY^_j, ce qui implique que
EY2=EY2 + E[¿(AY,)2];
k=i
368 chapitre [j. processus et martingales discrets
or on a. puisque ^ t^x)^)2 es* ^fr-1 -mesurable,
soit, par définition puis croissance du processus (X),
Il en résulte que
'+00 J
(a! < +00 ,
et donc que sup„eN EY2. < +00. D'après le théorème 15.14, la suite de
terme général YM converge P-p.s. et dans L2. Il résulte alors du lemme de
Kronecker que, sur l'ensemble {(X)^ = +00}, la suite de terme général
i+('x)n Œfc=i AX*) converge vers 0, ce qui donne le résultat. ?
Remarque. Ce dernier théorème est bien une généralisation des théorèmes
de loi forte des grands nombres (dans le contexte L2) pour les variables
aléatoires indépendantes. On peut d'ailleurs les redémontrer à l'aide du
théorème 15.18. Faisons-le dans un contexte simple.
Supposons donnée, par exemple, des variables aléatoires X„, n g n,
qui forment une suite de variables aléatoires indépendantes, de même loi,
centrées, et admettant un moment d'ordre 2. Considérons le processus S —
(Srt)„eN défini par
Pour n g n, on note An = o"(Xy | 0 ^ j $ n). Comme on l'a déjà vu, le
processus S = (SB)„eN est une martingale pour la filtration (A„)ne-^ ; elle
est dans L2. Calculons son processus croissant prévisible (S). On rappelle
que
EA' [s;+1-Sj] = E-*« [(AS„+1)2] ,
et, puisque les X„ sont indépendantes, de même loi,
EA« [(AS„+I)2] EA"{X2n+] ) = E{Xl+i) = a2 ,
où a2 désigne la variance commune des X„. Il en résulte que
<S}„ - no2
IS-7- convergence de martin gales integrables
On a alors, par le théorème de loi forte des martingales,
15.7. Convergence de martingales integrables
Définition 15.19. À un processus X = (X„)„en on associe son processus
de variation quadratique [X] = ([X],,),,^ défini par, pour tour n g M,
[X]„ — y_^'=(,(AX/)2. On note [X]r» la limite dans R+ de la suite croissante
([X])n€n-
Remarque. Soit x — (xM)„e^ une suite de réels. Avec les notations ci-dessus,
la condition J2^=o \^xj\ < +°° assure la convergence de la suite x. Par
contre, comme le montre l'exemple suivant, la suite x peut être divergente
alors que sa variation quadratique est finie ; tel est le cas de la suite définie
par ses accroissements : Ax<> = 0 et, pour tout n g N*, Axn — l/n.
Par ailleurs, la suite x peut être convergente alors que sa variation
quadratique est infinie ; tel est le cas de la suite définie par ses accroissements :
A.ï0 — 0 et, pour tout n g n*, Ax„ — (— \)Hf Jli, la convergence de la
suite x résultant du critère de Leibniz des séries alternées. Le lemrne
suivant montre que cette situation ne peut pas se produire pour des martingales
bornées dans L1.
Le ni me 15.20. Si X est une martingale bornée dans L1, on a
[X]oc < +00 P-p.S.
Démonstration. (a) Pour tout n g n*, on a
n
? =xî + £(X7 + x^_l-2x.X;_1)
= ¿Xj + "¿XÍ -2¿X,_,(X, -X,_,)-2¿XÍ_,,
j=<> j=(i y = i j = l
ce qui s'écrit n
[X]B=x;-2¿X;_,AX,-.
./=i
Il en résulte que, pour tout n > 2. on a
n
[X]H-i +Xj_, =2X»Xn-l -2j]xy_1AXJ-;
370
CHAPITRE [5. PROCESSUS ri M AR [ [NGALES DlSCRE [S
on vérifie que cette égalité est encore vraie pour n — 1, si bien que l'on a
l'inégalité, pour tout n g n*,
n
[XL_, $2XnXn-l -2 £Xy_,AXy; (15.7)
y = l
(b) Soit à > 0 et soit Tj, le temps d'arrêt défini par Ta — inf(n g H |
|X„| > à), ou on pose inf 0 — +00. Pour tout entier k > 2, on définit le
temps d'arrêt borné St — Ta a k.
Notons ||X||i — sup„eM E|X„|. On a l'inégalité
E[l(s^1)[X]s,_1]^2A 11X11, . (15.8)
En effet, sur l'ensemble (S¿- ^ 1),
s* k
J>^AXy = ^X^lo-^AX, : (15.9)
7 = 1 j=\
remarquons que, si j g n*, on a (7 ^ T;) - (TA í j - IVe g A^i
et (Si ^ l)1' = (T¿ = 0) g A0, si bien que la variable aléatoire
lfS^srijXy-!^/^) est ^/-i-mesurable; de plus, par définition de Ta, on
a |Xy_| |1(;ítaj ^ A. s* bien que, AX,- étant integrable, il en est de même de
la variable aléatoire 1(sA^i) ]Cy=i ^-j-i^u^Tx)AX,-. En intégrant les deux
membres de (15.9) sur (S¿ >- I), il vient alors, puisque X est une martingale,
sk k
E[Wi) £Xy_, AX,] = ^Eflis^.iXy-at/CToE'*'-1 AX;] = °-
y" = i ./ = 1
(15.10)
Toujours par définition de Tj,, et donc de S*, on a
lçv,->i}|Xs*XsA-i| =S Ifs*:*!) A|XsJ; (15.11)
mais, S¿ étant borné, le premier théorème d'arrêt de Doob montre que XSit
est integrable et que l'on a Xsk = EAs* (X¿) d'où il résulte que
E|XsJ iE|Xft| < 11X11, . (15.12)
Il résulte alors de (15.11) que
E[l<sASi)|XSAXst-l|]=SA||X||1; (15.13)
Enfin, de (15.7) il résulte que
r S* t
Iîs^oMs,-, «l(S^.)[2|XSfrXSjt_,|-2X;X/_IAXyJ; (15.14)
en intégrant les deux membres de cette inégalité, on obtient alors de suite
l'inégalité annoncée (15.8), en utilisant les relations (15.10) et (15.13).
15-7- CONVERGENCE DH MARTINGALES INTEGRABLES
371
(c) La suite de terme général S¿ convergeant en croissant vers T¿, la
suite de terme général l<s/r^ 1 ) [^]sft — 1 converge en croissant vers
l(TA5i)[X]xA-i, puisque [X]„ est somme de carrés. Un passage à la limite
dans (15.8) et la propriété de Beppo Levi donnent donc
E[laA5slJ[X]TA-,]i2A IIXH, . (15.15)
(d) Remarquant que (Ta < +00) c (X* > X), le lemme maximal
donne, pour tous a > 0 et À > 0, les inégalités
P[([X]oo >«2)n (Ta < +00)] Í P(Ta <+oû) Z^y1- (15-16)
Puisque, de plus, on a
PldXUïa') n (TA= + ce)] $P[(l(Tisn[X]T;-i^) n (TA= + oc)],
et donc
P [([XIoo £ oc2) n (Ta - +00)] Í P(lcrA3tj)[X]TA-i > oc2), (15.17)
il résulte de l'inégalité de Markov et de (15.15) que
P[([XU>a2)n (Ta = +00)] < ^ IIXH, ; (15.18)
prenant X = a dans cette dernière inégalité, et additionnant membre à
membre les inégalités (15.16) et (15.18), il vient
PilXU^a2) S 1 ||X||, ;
l'arbitraire de a démontre alors que PÎ^X]^ — +00) — 0, ce qui est le
résultat annoncé. ?
Le théorème suivant, relatif à la convergence de martingales et démontré
pour la première fois par D.L. Burkholder, est alors une conséquence
du théorème de convergence pour les martingales bornées dans L2, de
ce dernier lemme sur la variation quadratique, et du lemme maximal; sa
démonstration suit un article de Louis H.Y. Chen paru dans les Proceedings
oftheAMStn 1981.
Notation. Si X — (X„)„epj est un processus, on note X* — supneN |X„ |.
Théorème 15.21. Soient M et N deux martingales sur la même base de
processus. On suppose que M est bornée dans L1. Si les processus de variation
quadratique deMet'N sont tels que [N] < [M], la suite (N„)„eN converge P-
ps.
En particulier, toute martingale bornée dans L1 converge P-p.s.
372 CHAPITRE 'S. PROCESSUS ET MARTINGALES DISCRblS
Démonstration. On note ||M||, — sup„eM E|M„|.
• Soit A > 0 et soit TA le temps d'arrêt défini par
TA = inf(« € N | |M„| > A ou [M]„ > A2),
où on pose inf 0 — +cc. On va démontrer rinégalitc relative au processus
des accroissements de la martingale arrêtée NTa
E[(ANTa)*] ^2A + [|M||j < +00. (15.19)
On a, pour tout n e N,
(AN^[NT^^
et donc
|ANj*| ^l(TA>«)|Vf + l(T^»)[MlrA< AVrA>») + 1crA«»)MrA i 05.20)
or, par définition de TAl on a, sur (Ta < +c?o),
M?, =[M'.A-i + (AMTa)^ S A + |AMTJ ¦
ce qui, en reportant dans (15.20), implique l'inégalité
| ANj* | < A + | AMTj 11(T, 5„) . (15.21)
Il en résulte que
(ANT*)* « A + | AMT, I 1(ta<+oo) . (15.22)
De plus, par l'inégalité triangulaire, on a, sur (Ta < +00),
|AMTJ £ |MTi-tl + |MTA| ^ A + |MTJ ;
il en résulte que
(AN1-1 )* ¦< 2A + |MT, | lrrA<+oc>, (15.23)
soit, en intégrant
E[(ANT*J*] <2A + E[|MtJ10a<+«,)] ¦ (15.24)
11 reste à majorer le membre de droite : or. puisque Ton a
liml(T. <+oo)|MTia«| Vii<+oo)|MTÀ|.
il résulte du lemme de Falou et de l'inégalité (15.24) que l'on a
E[(AN'!'A)*]$2A +liminfE[l(Xl<+0o1|mtaa»|]^2A 4- sup E|MTaA„| ;
mais, Ta a n étant un temps d'arrêt borné, le premier théorème d'arrêt de
Doob montre que Ton a M.rXAn — E^1'^" (M„), d'où il résulte que
E|Mt^a«|<E|M„| *||M||, ,
15-7- CONVERGENCE DE MARTINGALES INTEGRABLES
373
ce qui achève de démontrer l'inégalité (15.19).
• Soit le processus U = 1 + [NTj ] : on introduit le processus Y1*, somme
normalisée par U du processus des accroissements de NTa défini par ses
accroissements en tout n e N :
.vi anIa
AY„ — —— .
On a, pour tout hèN',
(ANJa)2 _ AU„ ^ fv" dx
et donc
<
rj" dx
(an;a)2 ru" dx r+™(U
ce qui implique l'inégalité
"^(an;a)
T }7
>t=l /1=1
£e[<AY;)*]=e[£
< ! . (15.25)
• On va démontrer que la suite (Y^)„e>] converge P-p.s. ; pour cela, on
introduit la martingale Z dans L2 définie par ses accroissements
AZo = 0 et, si 77 e H*. AZ„ - AY^ - E*"-' AY^ .
C'est une martingale bornée dans L2. En effet, suivant un calcul classique
sur la covariance conditionnelle, on a, pour tout « 5 1,
E[(AZJ2] -E[(AY^)2]-2E[AY/-;(E-A"-|AYi)] + e[(E*"-' AYj)2]
- E[(AYj)2] - E[(EA"-' AY^)2] s E[(AY^)2] ;
mais, Z étant une martingale dans L2. on a (calcul déjà fait)
E[z;]-E[z;_l]=E[tAZ,I)2] ,
si bien que
E [Z*] = E + Ê E [( AZ,f] < E [ZI] +J2E [(AYff] :
./ = 1 7 = 1
il résulte alors de l'inégalité (15.25) que
supE[z;]=«E[z5] + l.
La suite (Z„)„e^ converge donc P-p.s..
374
chapitre 15. processus et martingales discrets
Nous allons démontrer que la série de terme général E,A"-i AY¿ est P-
p.s. absolument convergente. Remarquons que, \Jn-\ étant >A„^1 -mesurable
et NTa étant une martingale, on a
:Ai-i
On peut donc écrire que
^|EA"-' a y*
1-«=1
= E
^|ea"-'ayJ-e^^(^-)
= gE[[E.-.(AN?(^±))|j
ce qui, en remarquant que jyy^ — rj^- est positif, donne la majoration
,-+00
vcj,j-l u„
et encore
1- + OO
E £|E*-'AY;
-n=l
mais on a, pour « > 1,
S E
115.26)
/=]
1 1
$ 1,
ce qui implique, puisque U„ est positif, que ^^^(fj^y — rj^) ^ 1- Les
inégalités (15.26) et (15.19) donnent alors
r+oû
^E"*"-'AYA| < E[(ANTa)*] < +00,
<-„ = ]
et il en résulte que la série de terme général E^"^1 AY^ est P-p,s.
absolument convergente. Ainsi, puisque pour tout n € N*, on a
Yj-Yj+Z,+ ¿E^-'AY
et que la suite (Z,,)neN converge donc P-p.s.,la suite (Y^)we^convergeP-p.s..
• Définissons le processus Y, en tout 11 e N, par
" .AN;
15.7- CONVERGENCE DE MARTINGALES INTEGRABLES
375
pour tout À > 0, il coïncide sur (TA — +oo) avec le processus Y, ce qui
montre que la suite (Y„)„eM converge P-p.s. sur Uaég+ (^a — + °°)- Mais
U <T¿ = +0°) = U n ?$X)]
A6Q+ A€Q +
= ([M]^< + oo)n(M*<+oo);
la martingale M étant bornée dans U. le lemme sur la variation quadratique
et lemme maximal assurent alors que
P[ (J (TA - +oo)] - 1 ;
AeQ+
ainsi, la suite (Y„)„6n converge P-p,s.. Enfin, puisque on a l'inclusion des
ensembles ([M]^ < +oo) c ([N]^ < +oo), la suite (Un)„eN converge
P-p.s. vers une limite finie; un résultat simple d'analyse montre alors que
la suite (J2"=0 AN/)„eN converge P-p.s., c'est-à-dire que la suite (N„)„eN
converge P-p.s., ce qui achève la démonstration. ?
Corollaire 15.22. Soient X une martingale bornée dans V et T un temps
d'arrêt; la martingale arrêtée XT converge P-p.s.
Démonstration. Il suffit de montrer que la martingale X[ est bornée dans
L1 ; or il résulte du premier théorème d'arrêt que l'on a, pour tout n e N,
XTArt — E,Ata"X„, ce qui permet d'écrire la suite d'inégalités
E|XJ| = E|XTA;î| - E|E^a»x„| Í E[E^-|X„|]
= E|X„| ^ supE|X„| < +0o,
d'où il résulte que supneN E|XT| < +oo. ?
Remarque. Le contre-exemple suivant montre qu'une martingale bornée
dans L1 peut ne pas converger dans L1. Soit une suite (X„)„€N de variables
aléatoires indépendantes de même loi (<50 + o2)/2; on définit, pour tout
n e N, Y„ - n"=oX; Êt At = o-(Xy I 0 í j $ n). On
a EA"Yn+] — YnE,AflXn + ], soit par indépendance de X„+i et <An,
EA"Yll + i ~ Y„EX„+i = Y„ ; ainsi le processus Y est une martingale;
elle est bornée dans L1, puisque, par indépendance, on a. pour tout n e N,
E|YMI = n"=oElXJ'l = 1-La suite (Yn)nen converge donc P-p.s. vers une
variable aléatoire Y^ ; en remarquant que Y„ ne prend P-p.s. que les valeurs
0 et 2"+1 et que P(Y„ - 2n+>) - 2"("+1), on voit que la suite (Yn)nen
converge en probabilité vers 0 et donc que Y^ = 0 ; ainsi, la convergence
ne peut avoir lieu dans L1, puisque EY„ = 1. Il est d'ailleurs facile de voir
directement que cette suite n'est pas équi-intégrable. La convergence L1
d'une martingale integrable est caractérisée par la proposition suivante :
376
chapitre is.. PROCESSUS et martingales DISCRETS
Proposition 15.23. Soit X = (X„)„€t^ une martingale integrable. La suite
(X„),ier.[ est équi-intégrable si et seulement si la martingale est fermable. Dans
ce cas, la suite (Xn)„eN converge P-p.s. et dans L' vers une variable aléatoire
X^ A^-mesurable.
Démonstration. La suite est équi-intégrable, elle est en particulier bornée
clans L1 et la martingale X est convergente P-p.s. et donc aussi dans L1, par
équi-intégrabilité. Si on pose Xoo — limsup„X„, Xqo est Axrmesurable
comme limite de la suite adaptée (X„)n^ et. puisque, si n ^ p, on a
X„ = E^'Xp, par convergence L1 on a aussi X„ = E^'X^.
Inversement, soit Xqo -Acc-mesurable telle que l'on ait, pour tout neN,
X„ — E^Xoo; l'équi-intégrabilité de la suite (X„)weN résulte du lemme
général suivant. D
Lemme 15.24. Soient X e L1 (Q, A, P) et une famille (A¡)l&\ de sous-tribus
de A. Notons X¡ — E"4' X; la famille (X¡)¿ej est équi-intégrable.
Démonstration. Soit a > 0 quelconque; puisque |X,| $ E^'lXj et que
(|X,-1 > a) € A,, on a, pour tout i e I,
1 C ... ._ 1
et
P(|X,-| > a) ^ - J \X¡\ dP<^J |X| dP.
sup f [XíMP^sup f |X|dP. (15.27)
iel J(\Xi\>a) /el J(|x,|>u)
Donc, pour tout 7¡ > 0. il existe A(rf) > 0 tel que sup¡€, P(JX,1 > a) ^ n dès
que a ;> A(n). Mais, pour tout e > 0,il existe n(£) > 0 tel que Jx\X\dP^e
dès que P(A) $ nif.). Il résulte alors de (15.27) que, si a >. A(n(e)), on a
suP/ei /(ix, |>û> |X; 1 dP ^ £,-, ce qui est le résultat annoncé. ?
15.8. Deuxième théorème d'arrêt
On démontre un théorème de caractérisation des martingales fermées en
termes de temps d'arrêt quelconques et on en déduit le deuxième théorème
d'arrêt de Doob.
Théorème 15.25. On suppose que A&? — Vner- f^>«- X" = 'Xn)„e^ /¡/7
processus adapté. Il y a équivalence entre les propriétés suivantes :
(i) X est une martingale fermée,
(ii) pour tout T e T, XT e L1 (Q, Aj.P) et EXT = EX0 ,
(iii) le processus (Xj)je-j- est une martingale par rapport à la filtration
{Aj)jçT.
DEUXIÈME THÉORÈME û'aRBÊT
377
Démonstration, (i) (ii). Supposons que X est une martingale fermée.
Pour tout temps d"arrêt T borne par un entier k, le premier théorème d'arrêt
montre que XT = E^'X^; mais X étant fermée, on a Xk = E^'X^;
puisque At c A^. il en résulte que
EMXr
Le lemme 15.24 montre alors que la famille de variables aléatoires
{XT|Ter,}
est équi-intégrable ; de plus, on a EXT = EX0 poiir tout T e %. Soit
maintenant un temps d'arrêt T quelconque ; la famille de variables aléatoires
fXTA« |« e N} est alors équi-mtégrable, la martingale arrêtée X1 converge
P-p.s. et on a EXt/a„ — EXo pour tout n e N. Mais on a T — limw T a n,
si bien que, sur (T < +oo), on a lim„ Xta« — XT ; de plus, sur (T = +oo),
on a XTA„ — X„ : puisque, d'après la proposition 15.23. on a lim„ X„ = X^
P-p.s., on a alors, P-p.s. sur (T — +oc), lim„ XxA„ = Xoo. En définitive, on a
lim„ XjA„ = Xqo P-p.s, et. par équi-intégrabilité, lim„ EXTAn = EX^. Il en
résulte que EXx — EX0 .
(ii) (iii). Soit S e T. On démontre d'abord que Xs = E"*s [Xqo] . Soit
A e As. L'application R définie par R = S1A + (+oo) lAr est un temps
d'arrêt. En effet, on a, pour tout « e N,
(R = h) - (S = «) fl A € A„ .
Appliquant l'hypothèse aux temps d'arrêt R et + oc, il vient EXr — EXqq ,
ce qui donne l'égalité
E(1A Xs + lv XM) EX^ ,
soit encore,
E(1a Xs) = E(1a Xoo);
X$ étant As-mesurable, il en résulte que Xs — E'^Xqo. Maintenant, si S et
T sont deux temps d'arrêt tels que S ^ T, on a de même XT = E^'X^ et,
puisque A$ c Aj, on a la succession d'égalités
EAsXv - E
£Arx
- E^X™ = X
s.
ce qui démontre que la propriété (iii) est vérifiée.
(iii) => (i). 11 suffit de prendre des temps d'arrêt constants,
éventuellement égaux à +oo. ?
Une exploitation de l'implication (i) =^ (iii) du théorème 15.25 donne
alors le deuxième théorème d'arrêt de Doob.
378
CHAPITRE 15. PROCESSUS ET MARTINGALES DISCRETS
Théorème 15.26 (Denxième théorème d'arrêt de Doob). Soit X — (Xn)neH
une martingale fermée ; pour tous temps d'arrêt S et T tels que S ~i T, on a
E^SXT = Xs.
15.9. Convergence de sous- et surmartingales
On déduit les théorèmes de convergence des sous- et surmartingales
du théorème de convergence des martingales bornées dans L1 et de la
décomposition de Doob des sous-martingales.
Théorème 15.27. Soit X — (X„)„gN une sous-martingale telle que
supEX* < +00
alors la suite (X„)„e^ converge P-p.s.
Démonstration. D'après le théorème 15.16 et l'hypothèse, X admet la
décomposition de Doob X — M + A, où M est une martingale bornée dans
L1, donc convergente P-p.s., et A un processus croissant prévisible tel que
Aqo e X1, donc fini P-p.s. ; la suite (A„)„eN et donc aussi la suite (X„)„£n
converge alors P-p.s. ?
Remarque. Soit X = (X„)„eN une sous-martingale de décomposition de
Doob X — M + A. La suite (X„)„eN converge dans L1 si et seulement si
la suite (M„)„eN est équi-intégrable et si Aco g X1. En effet, si la suite
(X„)„eN converge dans L1 vers Xco, on a
EAco = ]im„ / EA„ = Hm„ [EX„ - EM„]
= Hm„ [EX„ - EM0] - EXco - EXo < +00 ,
ce qui montre que AM g X1. La suite (A„)„eN convergeant en croissant
vers Aco, converge alors aussi dans L1 ; la convergence de la suite (M„)„eN
dans L1 en résulte et cette suite est donc équi-intégrable.
Inversement, si la martingale M est équi-intégrable et si Aco g X1, alors
les suites (M„)„e^ et (A„)„eK convergent dans L1 respectivement vers Mco
et Aco ; la suite (X„)„eN converge alors dans L1 vers Mco + Aco-
Corollaire 15.28. SoitX = (X„) n une surmartingale positive ; alors la suite
(Xn)neN converge P-p.s. vers une variable aléatoire Xco à valeurs dans E et
on a, pour tout n g N, Xn > EtA"XCo-
Démonstration. S'il existe c > 0 tel que l'on ait, pour tout «éN,0$X„$
c, alors —X est une sous-martingale intégrable telle que supweN E(-X„)+ <
+00 ; d'après le théorème précédent, la suite (X„)„eN converge P-p.s. vers
EXERCICE 15.I
379
une variable aléatoire X^. Sous cette hypothèse supplémentaire, cette suite
est équi-intégrable et, puisque, si p > «, on a X„ > E^Xp, un passage à la
limite clans L1 en p montre que X„ ^ EtA"X0û.
Cas général : pour tout q e Q+, le processus Xa^ (X„ a q)neN,
minimum de deux surmartingales, est une surmartingale; de plus, elle est
positive et bornée par q ; d'après ce que Ton vient de voir, la suite (X„ a
.y)„eN converge donc P-p.s. ; par un raisonnement classique, on a donc aussi
que, P-p.s., pour tout q e Q+, la suite (X„ A q)n^n converge. Il résulte alors
du lemme déterministe 15.29 ci-dessous que P-p.s., la suite (X„)„eN converge
dans M . Enfin, puisque, si p > «, on a X„ > E^X^, le lemme de Fatou
conditionnel montre que Xn > E^'X^. ?
Lemme 15.29. Soit (x^nen une suite de réels positifs telle que, pour tout
q e Q+, la suite (x„ a q)nen converge, alors la suite (xn)nen converge dans
R+.
Démonstration. Si suprteN xn < +00, il suffit de prendre q > sup„€K xn
pour obtenir que, pour tout n, xn a q = xn ; par conséquent, par hypothèse,
la suite (xrt)rteN converge dans M+.
Si sup„eN xn — +00, pour tout q e Q+, notons lq la limite de la suite
(xn A q)„en ; on a 0 $ lq ^ q et, pour tout £ > 0, il existe N(e, q) tel que l'on
ait lq — s <, xn a q $ lq + s dès que n >. N(e, q). Soil B > 0 quelconque et
prenons s = B/4; choisissons q > B.
Si on avait lq ^ B — e, on aurait, pour tout n 5 N(B/4, q), xn a q $ B
et donc xn $ B; il en résulterait que supneN xn < +00, et il y aurait
contradiction. Ainsi, ona/, > B — e; alors, dès que n >. N(B/4,t/), on
3iXn ^ xn a q ^ lq — e > B — 2e — B/2. Étant donné l'arbitraire de B, on a
lim„ xn — +00.
Dans tous les cas, la suite (x„)„eN converge dans K . ?
Exercice 15.1. Tribu des événements antérieurs à un temps d'arrêt. Soit (<An)„eN
une filtration sur l'espace probabilisé (£2, A, P) et Aqq = vnen An, tribu engendrée
par la réunion des tribus An,n e N. Soient S et T deux temps d'arrêt. Démontrer
que, pour tout Y eL^fl.A, P), on a
Solution, Soit, pour tout n e N, Xn = E^Y; le processus (Xn)„e^ est une
martingale équi-intégrable, donc convergente P-p.s. et dans L1 ; si on pose Xoo =
Exercices
CHAPII'Rh 15. PROCF.SSTJ1. ET MARI IN0ALE5 DISCRETS
Iimsupn Xft,ûna Y = X-o P-p.s. et le processus (Xn)nçy-i est une martingale fermée.
Le deuxième théorème d'arrêt montre alors que X:y = EAtY et, pour tout 11 € N.
XBr = XTa„ =Ea^»Xt,
oîj X1 désigne la martingale X arrêtée en T. Soit 11 fixé et évaluons E"4,1Vv" Xt ; pour
tout j 6 N, on a, sur (T = /),
E^.v'XT = E^-XT = ! E'^Xt Si^<0-
| E'A" XT si / 5 n :
mais, si y < n, puisque (T = y) e Aj. que Aj c An et que Xy est ,Ay-mesurabte,
donc ^«-mesurable, on a
l(T=y)E'A'XT = E-a'[l(T=J-)XT]=1(T=/)X/=E'a''[l(T=,(XT]=lft=;»E-A"XT.
Il en résulte que, pour tout y e H, on a dans tous les cas, sur (T = / ), E'*1""-" Xt =
EAnXt- O" a donc, pour tout h e N.
X„r = XTA« =e^«XT. (15.281
Puisque Xt = E^y, XT est intégrable et la martingale arrêtée XT est t'ermable.
Appliquons lui le deuxième théorème d'arrêt avec le temps d'arrêt S ; il vient alors
d'après (15.28)
Xj = XtaS = EAsXT = EtAs ]hA] y] .
cl en particulier X-[ ft.s = E^s ^E^yJ. Eu échangeant les tôles de S et T, on a aussi
XtaS = E^Je^y], ce qui implique l'égalité EAs [e^'y] = E^Je^y].
Enfin, toujours par le deuxième théorème d'arrêt appliqué avec le temps d'arrêt
S a T et la martingale fermée (X„)n6^. on a XtaS = E^?'ty. ce qui démontre la
dernière égalité.
Exercice 15.2. Problème de la ruine du joueur. Un joueur joue à pile ou l'ace avec
une pièce non nécessairement équilibrée ; ott note p la probabilité d'obtenir pile lors
d'un jet. Il reçoit un euro de la banque s'il obtient pile et en donne un à la banque s'il
obtient face. Sa fortune initiale est de a e N* euros et celle de la banque de b e N *
euros. Le joueur joue jusqu'à sa ruine on celle de la banque. On modélise ce jeu de
la manière suivante : (yw)„6n* est une suite de variables aléatoires définies sur un
espace probabilisé (fi. A.P), indépendantes de même loi p&i + . où q = 1 - p.
On note S„ la fnrtune du joueur après n parties, pour un jeu qui ne s'arrêterait pas ;
on pose
n
S0 = a et S„ = a + X^ Y/ .
./ = 1
En posant Yo = <7. les filtrations naturelles (An)n^s <Jes processus y et S sont les
mêmes. On note T le temps d'arrêt du jeu. c'est-à-dire
T = inf(/i e N* | S„ = Oou a + b).
exerc1cf 15.2
On se pose les trois questions : quelle est la probabilité P(T < +00) que le jeu
s'arrête, quelle est la probabilité p = P(St =a + b) que le joueur gagne, quel est le
temps moyen ET d'arrêt du jeu.
1. Déterminer la nature du processus S = (S^eN suivant les valeurs de p.
2. Étude du cas p ^ q ; on supposera que p > q. Écrire la décomposition de Doob
de la sous-martingale S et préciser son processus croissant prévisible A. En déduire
que ET < +00; préciser alors la valeur de PfT < -foc) et donner une expression de
ET en fonction de p. On définit, pour s > 0, le processus U par, pour tout n e N,
U„ — s^". Déterminer s pour que U soit une martingale non constante; vérifier
qu'alors la martingale arrêtée UT coilverge P-p.s. et dans L1 vers Ut- En déduire les
valeurs de p puis ET.
3. Etude du cas p = ^. Vérifier que S est une martingale de carré integrable et
déterminer son processus croissant prévisible B. En déduire que ET < +00 ; préciser
alors la valeur de P(T < +00), Vérifier que la martingale arrêtée S1 converge P-p.s.,
dans L' et L3 vers S-¡. En déduire les valeurs de ESt, p et ET.
Solution.
1. On a, si n g N*, E14"»-' AS„ = E^"" —1 Y„ ; les variables aléatoires Y„ étant
indépendantes, il vient
E*"-'AS„ =EY„ = p-?.
ce qui donne la classification suivante pour le processus S :
{sous-martingale si p > q .
martingale si p = q = |,
surmartingale si p < q .
2. Cas p > q. La sous-martingalc S admet la décomposition de Doob S — M + A
où le processus croissant prévisible A est défini par Ao = 0 et AA„ — B^"~] AS„.
ce qui donne
Ao = 0 et. si n í l, An - n(p - q).
Le premier théorème d'arrêt appliqué à la martingale M = (S„ - n(p - q))n<e¥\ et
au temps d'arrêt borné Ta« donne alors
a = ES0 = E [STA„ - T A n (p - q)] .
d'où
(p-</)E[rAn|=ESta„ (15.29)
mais, puisque par définition de T, pour tout «eN,Ü$ Sta,i í ü + /», on a
0í(p-?)E[ta«]$í>.
Par la propriété de Beppo Levi, on a ET = lim / E[Ta «]. Il en résulte alors que
T est integrable et en particulier que P(T < +00) = I. La suite (S^n^eN converge
382 chapitre 15. processus et makungales discrets
soit
On a sp + \q = 1 si et seulement si s2p — s -\- q =0, équation dont une racine
évidente est 1 (puisque p + g = 1) et l'autre est a/p. Ainsi pour s = g/p, U est
une martingale non constante. Par définition de T et puisque q/p < 1, on a, pour
tout n e H, 0 ^ Uta« Í 1 : la martingale arrêtée Ur est donc équi-integrable et
converge P-p.s. et dans L1 vers Ut-
Par définition de T, Ut prend P-p.s. les valeurs 1 on (; sa moyenne vaut donc
EUT = P(ST = 0) + (^)"+i>(ST = a + b).
soit
EUT= l-p+(£)0+V (15.32)
Par ailleurs, d'après le premier théorème d'arrêt, ou a. pour tout /1 € N.
EUta* = EU0 = {^T ¦
ce qui dorme, par convergence dominée,
EUT = IíuiEUtah =(-)":
n p
en reportant dans les égalités (15.32) puis (15.31 ), il vient
alors P-p.s. vers St; cn passant à la limite dans (15.29), on obtient par convergence
dominée
(p - q)E [Tj = EST ~ a . (15.30)
Puisque, par définition de T, on a
EST = {a + b) P(ST =ti + b),
il vient
EJ=(a + h)p~a
p-q
Soit s > 0; puisque 5s"-1 est =4>/i_i-mesurable et indépendante de .sY", on a, pour
toutn e N*.
EXERCICE 15.2
3. Cas p = q = 1/2. Le processus S est alors une martingale dans L2 (puisque les
Y„ sont bornées). Son processus croissant prévisible B est défini par B0 = 0 et ses
accroissements donnés, si n >. 1, par AB„ = E1^"-1 (AS„)2, soit, par indépendance
de Án-\zX Y2,
AB„ = E^"-1 Y2 = EY2 = 1 .
On a donc
B0 = 0 et, si n > 1, B„ = n ;
Le premier théorème d'arrêt appliqué à la martingale (S2 —n)„sK et au temps d'arrêt
borné T A n donne alors, puisque Sq = a,
ES2-E[S2A„-TAn]=«2; (15.33)
puisque STAn í (a -f b)2, on alors
ESTAn = E [T A n] Í (a + b)2 - a2,
ce qui, par la propriété de Beppo Levi, donne
ET = lim E [T A n] í (a + b)2 - a2 .
n
11 en résulte que T est integrable et en particulier que P(T < +00) — 1. La
suite (STAn)i¡eN converge alors P-p.s. vers StS puisque l'on a, pour tout n e N*,
0 í Sta« ^ a + ft, le théorème de convergence dominée montre qu'il y a aussi
convergence L1 et L2 vers St. Le premier théorème d'arrêt appliqué à la martingale
S et au temps d'arrêt borné T A n donne alors
EStaiî = ESo = a,
et donc, par convergence L1,
ESt = a ;
Puisque, par définition de T,
ESt = (a+b) P(ST = a + b) = p(a + b),
on a
a
P=aT~b-
La relation (] 533) donne l'égalité, pour tout n e N*,
E[TAfl] = E[S2AK]-fl2, (15.34)
et, puisque la suite (Stam)h6n converge vers St dans L2, un passage à la limite dans
(15.34) donne
E [T] = E [ST] - a2 .
Puisque, par définition de T, on a
ES2 = (a 4- b)2 P(ST = a + b) = p(a + b)2 = a (a + b),
on obtient finalement
ET = ab.
384
CHAPITRE 15. PROCESSUS ET M AU l INCALES DISCRETS
Exercice 15.3. Jeu de pile ou face avec deux pièces non équilibrées et stratégie
d'apprentissage. Un joueur dispose de deux pièces A et B ; la probabilité, inconnue
du joueur, d'obtenir pile ]ors d'un jet avec la pièce A (rcsp. B) est pA (resp. /)B). Le
joueur gagne une unité à chaque fois qu'il obtient pile. À l'issue de chaque tirage,
il choisit la pièce avec laquelle il va faire le tirage suivant en tenant compte des
résultats des tirages antérieurs. La stratégie du joueur est de cerner la pièce qui a le
plus grand p pour pouvoir « maximiser >> son gain. On modélise ce jeu de manière
précise comme suit.
On se donne une famille {(X^)„eK , (X^)„epj} de variables aléatoires définies
sur un espace probabilisé (£2,¿VP), indépendantes. Pour tout /; e H, X^ (resp.
X^) suit la loi de Bernoulli de paramètre pA (resp. pB). On note A„ la tribu
<?(Xf ,X^ ¡ 0 -< Í n) et U = (U„)„eN un processus adapté à la filtration
(^«)w€N à valeurs dans l'ensemble {A, B}. On considère le processus (X,j)
ueN des
résultats à chaque tirage ; il vérifie, pour tout «ên,
Xn + i = l(u„=a)x« + i + l(Vn=K)Xn + \ = Xn+i ¦
On pose
G0 = 0 et, siij^l, G„ = J]X/.
j=i
1. Calculer l'espérance conditionnelle E^X^+i.
2. On définit le processus M par M0 = 0 et. si n e H*. M„ = Y!] = \ (x/ _ PV>~] )•
Vérifier que c'est une martingale de carré integrable et calculer son processus
croissant prévisible. En déduire la convergence P-p.s. cers 0 de la suite de terme
général %l - ¿ E;=i PL
3. PourJt ¡A. B|, on définit les processus NJ, MJ et ~p par
n n
n;=£ï(u,=J), Mj0=0, et M5n =X;[1(uy_,-i,x,-=i)-l(iv_1^i)PJ],
_/=o ./=1
et, si n e N*,
~, 1 U 0
Pn = —i— 2^ l(u/=J,x/+i=i) avec la convention - = 0.
./=0 '
Démontrer que MJ est line martingale de carré integrable et calculer son processus
croissant prévisible (MJ). Eu déduire que, sur l'ensemble {N* —> +00), la suite de
terme général "pi converge P-p.s. vers ps.
4. Soit une suite strictement croissante d'entiers positifs {v„)„eN telle que ^ —-
+00. Le joueur adopte le processus de choix U = (U„),¡e^ comme suit :
si ni {vj I ; e N) Urt = A 1+ B 1^ ^ .
et U,2„ = A. UV2n+l =B;
EXERCICE 15.3
3*5
autrement dit, il choisit la pièce qui est apparue le plus fréquemment lorsque n n'est
pas dans le support de la suite v, et choisit alternativement les pièces A et B le long
de la suite v. Pour ce choix, on a, pour J € jA,B}, +00. On suppose par
exemple que pA > ;ju (ce qui. rappelons le, est inconnu du joueur).
n1
Etudier, pour J e {A, B}, la convergence P-p.s. des suites de terme général
Étudier alors, pour ce choix, la convergence P-p.s. de la suite de tenue général (-^L.
Solution.
1. Le processus U étant adapté, on a
E'*"XB + t = l(l,„=A)E^XA+l + llU)l=B)E*«X?+l .
soit, par indépendance des x})+1, pour J e {A. B}, et de An,
EA"Xn+l = l(uM=A)EXnA+l + l<u„=b)EXj+l = l(Vll=M PA + liu„=b)pb -
soit encore ______________
2. Il en résulte que
E**"-' (AM„1 = E^"-f [x„ - /7U"-'J = u,
c'est-à-dire que M est une martingale, de carré intéçrable. puisque on a 0 i X„ < 1
et 0 s; pv"-\ ^ 1. Son processus croissant prévisible (M) est défini par (M)0 = () et
ses accroissements sont donnés, si n 3= ], par
A{M)„ =E^->(X„-/;U«-')2
= l(u„_, =A» E'4"-1 (X,t - PAf + lfu„_, =b) E^-i (XB - p*)2
soit, puisque U„-i est An-i-mesurable et que An-] et X^ sont indépendantes,
A {M}„ - l(u„_,-A) E(X„A - pA)2 + I(Dn_i =bi E(X« - PB)2
= 1(11«-! =a) pAi\-PA) + lfu^, =b) PB(1 - PB) ¦
ce qui donne
n
/=1
Soit
m = mm(/>A(l -/>A), pB(1 - pB)) et s = max(pA(1 -/>A), pB(l-pB)):
on a alors, pour tout neM*,
0 ^ /1 m i (M)„ £ns.
CMAPURn, [J. PROCESSUS Ef MAKUMiMES DISCRETS
si bien que la suite de terme général (M)n tend vers +00. 1] résulte alors de la loi
forte des grands nombres pour les martingales L2 que
M„ P-p.s.
o.
et donc aussi, par l'encadrement ci-dessus,
M„ P-p.s.
n
ce qui démontre que
0,
On 1
E
P-p.s.
0.
(15.35)
3. Soit J fixé. Le processus U étant adapté, on a
[am^Vi^^E^-' ['u;,=1) V].
soit, par indépendance
E*"-' [amj] = la,,,,, =,,E [liXin = lt - P}] = 0 ;
le processus M1 est donc une martingale, visiblement de carré intcgrable. Son
processus croissant prévisible (MJ) est défini par (M')0 = 0 et ses accroissements
sont donnés, si n 5 I, par
a(mj)h =e^--(am1)2 = [l(u(,_l=j)lV1I=,)-/'J)2] •
soit, puisque Un-t est ¿4«_i-mesurable et que <An-i et sont indépendantes,
A (M)„ = 1(U;;_|=J)e[(1(Xi=1) - p'f] tr l(U,(_I=J)/(l - pJ),
ce qui donne, pour tout n e N*.
<M)„ = Nj_, pJ(ï -/.')
11 résulte alors de la loi forte des grands nombres pour les martingales \} que, sur
l'ensemble {N^
co L on a
K t'-ivs.
Ni *"
0;
mais oit a pjt = —y2—I- pJ. ce qui démontre que
sur l'ensemble —^ +00}, p„ —> ;>J .
EXERCICE 154
387
4. Pour ce choix, on ;i. pour J e {A, B}. N;1, —» +00- Supposons par cxcinple que
pA > pH. Soit tu le] que ]a suite de terme général pxn(a>) converge vers p* pour
J = A et B. II existe un enlîer N(w) tel que pA{io) & Pn(0J) dès que n ^ N(w) : on a
donc lim„ i E"=o 1 Tt,(tlJ1 = 1. De plus, par définition du processus de clioix
t/7 ; Pj >
U. on a, pour n > N((u).
j=N(û>)+i y j ;=i
mais puisque v„/n —* +00, il existe un entier N' tel que vn > n dès que n ? N' et
on a donc
n
L" = 1<"2> ^card{y | v2J S N'} ,
/=1
ce qui implique que L„/« —* 0- Il en résulte que NA(o))/n — t. Par un raisoime-
nient identique, on obtiendrait que N^(ai)/n -» 0. On a ainsi démontré que
(15.36)
Puisque Ton a
il résulte de (15.35) et de (15.36) que
On P-p.8.
—> /'
n
Exercice 15.4. Jeu de pile ou face avec gain dépendant de deux jets consécutifs.
Soit (Y„)„eN* line suite de variables aléatoires définies sur un espace probabïlisé
(Q, <A, P), indépendantes de même loi p6v + qS-i, où q = I - p. On note S„ la
fortune d'un joueur après n parties de pile ou face ; on suppose que la règle de gain
est telle que
n
S0=a et S„ = a + Yj-iYj -
/=1
Les processus considérés seront tous relatifs à la filtration naturelle (A,)nt=N du
processus Y.
1. Calculer la probabilité P(S„ > S,,-] ) et vérifier qu'elle est strictement supérieure
à \ si p 7e q-
2. Calculer, pour « ç N*, l'espérance conditionnelle E'"*"-' S„-Quelle est la nature
du processus S lorsque p = ^ 7
Étudier la convergence de la suite de terme général ES„.
388
CHAPITRE [5. PROCESSUS ET MAUÏlNGALËS DISCRETS
3. Soit s > 0 quelconque. Calculer, pour n e N*, l'espérance conditionnelle
eAi-i (.ss"). On pose m = 5 -I- j ; démontrer que le processus (pr)rt£N est une
surmartingale positive. Étudier les convergences P-p.s. et L1 de la suite ¦
4. Démontrer que S s'écrit de manière unique comme somme d'une martingale de
carré integrable W et d'un processus integrable prévisible T tel que To = 0. Calculer
le processus croissant prévisible (W) de la martingale W. Étudier la convergence
P-p.s. de la suite (^f")neN* et en déduire, dans le cas où p ^ q, celle de la suite
Solution.
1. Puisque (Sn > SK_i) = (Yn_iYn = I ) et que les Yn prennent P-p.s. les valeurs
± I, on a
P(Srt > S„_,) = P[(Y„_! = 1) h (Y„ = 1)] + P[(Y„_, = -1) h (Y„ = -1)],
soit, par indépendance de Yíj_i etYn,
P(SB >Sn_i) = p2+q2.
Tenant compte de l'égalité p + q = 1, on a
p2 + g2 = 2p2 - 2p + 1 = h(p) ;
on a alors h'{p) = 2(2p — ]) et h"(p) = 4, d'où il résulte que h admet un minimum
en I/2 et que h(\¡2) = |/2, ce qui démontre que, si p ^ q, P(S„ > S„-!) > I /2.
2. Pour n e N*, on a S„ = Sn-i + Yn^lYn ; les variables aléatoires S„-i et Y„-i
étant A1-1 -mesurables, on a
Les tribus An_i et G~(Yn) étant indépendantes, on a E^"-1 Yn = EY„, si bien que
(15.37)
EA«-'SB=Sn-i+Gp-$)Y„_,.
En particulier, si p = q, S est une martingale.
Il résulte de (15.37) que
E(ASB) - E JE-*»-1 AS„] = (p~ q)EYn-i =(p- q)2 .
Il en résulte que
E(S„) = a + n(p - q)2 .
Ainsi, si p ,¿ q, on a lim„ E(S„) |-oo. La suite est stationnaire si p — q.
3. Pourn e N*,onaiS" =5S„_| sY"-iYi ;]a variable aléatoire s5"-1 étant fA„_1-
mesurable, on a
E'A/î-i^Sfi = 5s'i-i e^"-1 [¦vYf'_lY'!]
exercice I5.4
389
Mais, pour tout (>o, vi, }'n~i) e l-l. 1}", on a les relations sur les moyennes
conditionnelles
m(Y0.Y|....,Yn_])=(v„^1,...,>„_i) Y,; J
= m(Y0,Yi,...-Y„_1)=O,ii-vi....,y«_i)^.>'^-iY«)
ce qui donne, par indépendance de (Y0, Y], Y„_2) et Y„-],
m(YL),Yi,..-,Y„_l)=(>'(),3'i,....vn_1)^Y„_iY„j _ £^v»i-lYn-) _ pSyn-\ _|_ g^-y-s-l ¦
la tribu An-{ étant engendrée par (Y0, Y(,..., Y„-t), on a alors E**»-1 [sY/!-1Yn]
= ps^"-1 +qs~^"-1 et donc
Il en résulte que l'on a
EA,-,,S„ =5s„_, [i(Yb_1 = 1)(^+ ^V,.,,^ + qs)] ,
et donc
BAn-lsSn ^ S$n-Us + ]_\
v s
soit, en posant w = .y + 1 /.v et en divisant les membres extrêmes par w",
autrement dit, le processus (ss"/«")«<= n est une surmartingale positive. Ainsi, on
sait déjà qu'elle converge P-p.s. En fait, on va voir que cette suite est bornée. En
effet, pour tout n e N*, on a P-p.s. a-n^Sn^a+n
- si 0 < x < 1 ou a alors 0 ? ss" $ sû~" et donc
r" 5"
0 $ — ^ -—— Ç sc
M" (us)"
puisque us — 1 + s2 > 1 ;
- si s >. 1 on a de même 0 ^ ss" $ sa+n et donc
0 ^
puisque ^ = 1 4- \ > 1 ;
sa(-f $sa,
u
Au total, on voit que, pour tout jt > 0, lim ^ = 0 ; de plus, on a, pour tout s > 0, et
tout « e N*,
0 s :— ^ iû,
u"
ce qui implique que la suite est équi-intégrable et qu'elle converge donc aussi vers 0
dans L1.
390
CHAWCHF 15. PROCESSUS ti M AHÍ INCALES DISCRETS
4. Soit W le processus défini par W0 = So = a et ses accroissements donnés, si
n ~>- I, par
AWn = as,, -E^»-'tAS„) = Y„_iY„ - (p-q)Yn-, .
soit encore
w0 =a aw„ = Y„-, [Y„ -(/>-$)] :
par construction, W est une martingale : elle est dans L2, puisque les A\Vn sont P-p.s.
bornées. Soit t le processus défini par T0 = 0 et ses accroissements donnés, si n 3= 1,
par
at„ = EA»-' (AS„) = (p - <?)Y„_, ;
on a bien s = w + t et t est un processus integrable prévisible. Si s = w' + T1
est une autre décomposition du même type, on a, pour tout n e fi. A(W — W')« =
a(t' - t)„. En prenant l'espérance conditionnelle des deux membres et en tenant
compte des propriétés de ces processus, il vient
0 = e1*"-' [a(w - w")„] = a(t - t)„ .
ce qui démontre que t = t', puis que w = w'. h y a donc unicité d'une telle
décomposition.
Le processus croissant prévisible de W, (W), est déterminé par ses accroissements;
puisque Y2_5 — 1 P-p.s., ils sont donnés, pour tout // e N, par
A(W}„ =e^-|(aw„)2 =ea»-' [Yn~(p-q)]z .
soit, par indépendance de A,,-i et a<Y~„),
a(w)fl = EÍY„ -(p-q)]1 -aYjj = EY2 - ÇEY„)2 = l-{p-q)2 = 4pq .
Il en résulte que
(W)n =4pî«.
La loi forte des grands nombres pour les martingales dans L2 assure alors que
(W)„
0. Par ailleurs, on a
s„ w t„ \v„ 1 A
— = e — = + (p-ii)- > Yj-j ;
n n n n n L—'
7 = 1
la loi forte des grands nombres pour les suites de variables aléatoires indépendantes,
de carré jnlégrable, et de même loi. donne
1
P—p.s.
EY0.
./ = 1
Puisque EY() = p — q, il vient
{p-q)2.
Si p ^ q, cette limite est strictement positive et il en résulte que la suite de terme
général S,! tend vers +00 P-p.s.
EXERC1CF i5.5
391
Exercice 15.5. Un modèle de portefeuille d'actions. Le processus S = (Sff)„eh
d'évolution temporelle d'une action boursière peut être modélisé par la donnée d'un
espace probabilisé (£2. A. PJ sur lequel la suite de variables aléatoires (S„J„£h est
définie par
So = so > 0 et, si n g N*, S„ = (1 + ji)S„-i + aSn-l £« ¦
où (sn J„eK* est un processus de bruit, c'est-à-dire ici une suite de variables aléatoires
indépendantes de même loi (é'j + 5_i)/2, et où les paramètres réels ¡1 et o (appelés
respectivement taux d'actualisation et coefficient de volatilité) satisfont à l'inégalité
\a\ < 1 -J- ¿1. On note A le réel A = [(1 4- fJ-)2 - rr2]^. On note (<A„)«eN la filtration
naturelle du processus S.
1. Soit / la fonction réelle définie suri2 par f(x, y) = (l + fi)x+oxy. Démontrer
qu'elle vérifie les inégalités, pour tout x eR +, f(x, 1) S 0 et f(x, — l J > 0.
2. Calculer, pour tout n e N*, E^"-' (AS/,). En déduire la nature du processus S,
suivant les valeurs des paramètres ¡1 et a. Dans le cas où ¡i < 0, démontrer que la
suite de terme général Sn converge P-p.s. vers une limite que l'on déterminera.
3. Vérifier que S„ est de carré integrable et calculer ES2.
4. On définit le processus Z par, pour tout n 6 M. Z„ = lnS„. Démontrer que Z
est, suivant les valeurs de A, une martingale, une sous ou sur martingale.
Écrire Z„ sous forme d'une somme de variables aléatoires indépendantes et en
déduire, suivant les valeurs de A, la convergence P-p.s. (dans M) de la suite (Z„)„e^
vers une limite à préciser. Comment se traduisent ces résultats pour la suite
(Sn)nS^ ?
5. Dans le cas particulier où \a | < A= et (1 + ti)2 + o2 < 1. les résultats précédents
prouvent que —S est une sous-martingale (le vérifier). Ecrire alors sa décomposition
de Doob —S = M 4- A. où M est une martingale integrable et A un processus
croissant prévisible nul en 0.
Vérifier que M est une martingale dans L2 et calculer son processus croissant
prévisible (M). En déduire la convergence P-p.s. de la série de terme général S2.
6. On définit le processus W par. pour tout n e N, W„ = lo(fs-)- Démontrer que
W est une martingale dans L2 et calculer son processus croissant prévisible (W) en
fonction de 5 = -[ln( I + a+I,)][M ' + : vt^r'uer <lue ce nombre est strictement
positif
En déduire la convergence P-p.s. de la suite {^")nsN^ vers une limite à préciser.
7. On définit le processus R par, pour tout n € N,R„ = X~"^ S^"^. Démontrer
que la suite des lois Pr„ converge étroitement vers une loi à densité par rapport à la
mesure de Lebesgue : déterminer celte loi.
Solution.
1. On a
j\x. 1) = (1 4- /< +o)x et /(.v. -1) = (I + ¡1 - a)x\
392
chapitre 15. processus et martingales discrets
les inégalités
-a ^ \a\ < 1 + fi et a ^ |<j| < 1 + ¡1
montrent alors que, pour tout .v e R+, f(x. ]) ^ 0 et f(x, -1) 3= 0. 11 en résulte
que S est un processus à valeurs P-p.s. dans R + .
2. On a. pour tout n € N*, ASn = Sw-i(/i + aen) ; Sn-i étant &n-\_-mesurable et
les tribus A>„-\ et a(en) étant indépendantes, on a
E-A"-' (AS„) = S„_, E-*"-1 [fi + as„] = Sn-i E [/r + cfsn] ,
soit
E^-i(ASrt) =nS„-l.
(15.38)
Puisque S„_ ] > 0 P-p.s., il en résulte que
S est une sous-martingale si ¡1 > 0,
S est une martingale si ¡1 = 0,
S est une surmartingale si \x < 0.
Dans le cas où ¡1 < 0, S est une surmartingale positive ; la suite de terme général S„
converge donc P-p.s. dans R +. Par ailleurs, d'après 15.38, on a
ES„ = (1 + ¡1) ES„-i = (1 +
Puisque dans ce cas on a 0 < 1 + jx < 1, on a lim„ ES„ = 0 et les S„ étant positives,
la suite de terme général S„ converge dans L1 ; on a donc aussi convergence P-
p. s. vers 0.
3. Les variables aléatoires S„_] et s„ étant indépendantes, on a
2 .
ES^ = ES;L_iE(i +fi +osn)z ;
mais on a
E(l + 11 + ae„)2 = - [(1 + ¡1 + g)2 + (1 + ¡1 - g)2] - (1 + fi)2 + a*
Il en résulte que l'on a, pour tout n e N*,
ES2- =s\ [(1 +W2 + a2]" .
(15.39)
4. On a InSo = lni'o et, pour tout n e N*,
Z„ = Z„_i + ln[l + /i+(j£„]:
par indépendance des tribus An-i et er(£„), on a
E*»-i(AZ„) =Eln[l + +0-%] = ^ (ln[l +fi + cr] + ln[l +/i-ff]] ,
soit
E*«-'(AZn)--ln[(l+/*)2-o-2],
EXERCICE I5.5
393
c'est-à-dire
EA"-i(AZ„) = lnA.
(15.40)
Ainsi, suivant que A est strictement supérieur, égal, ou strictement inférieur à 1, Z
est une sous-martingale, une martingale, ou une surmartingale.
On a, pour tout n <= N*.
z„ = z0 + 111 [l +11 + nf:A;
(15-41)
/ = 1
les variables aléatoires In [1 + ¿< +¦ a sn] étant indépendantes, de même loi et
integrables, il résulte de la loi forte des grands nombres que
- ¿ ln [l + 11 + a £j] eIn [1 +(i+(j£i] ,
7 P-P-s-
ce qui démontre que —In A . On a donc
5. Puisque l'on a |ct| < 1 +¦ a, on peut réaliser l'inégalité (1 +¦ ¡i)2 + a2 < 1 dès que
|er| < l/\/2; dans ce cas, on doit avoir ¡1 < 0 et —S est alors une sous-martingale
integrable. Soit —S = M + A sa décomposition de Doob, où M est une martingale
integrable et A un processus croissant prévisible nul en 0. D'après (15.38), on a
A A. = EA"~' |A(-S)„] = -/iS«_, ,
ce qui donne
n-i
A0
= 0 et, si n e H*.
Mo
= s0 et, si n G N*,
M„ = -S„ + aJ2^j ¦
Il en résulte que M est une martingale dans L2 dont le processus croissant prévisible
(M) est donné par ses accroissements
A{M)„= E*rf-i(AM„)2 =E^"-i [AS„ 4- AAn]2
394
CHAPITRE 15. PROCESSUS ET MARTINGALES DISCRETS
Il en résulte que
{M)0 = 0 et,siH€H*, {M)„ = o-2 ]T S2 .
./=0
On a alors
E<M)„ =o2]T ES2,
J=0
et d'après (15.39).
E{M)n =a%
2„2 1 -[(l+M)2 +0-2]"
puisque, par hypothèse, on a (1 + /i)2 + o2 < 1, la suite de terme général E (M)„
est alorsconvergente.ee qui implique queY^j^ES2 = E^j^S2.] <+00. lien
résulte que la série de terme général S~ converge P-p.s.
6. On a les égalités AW„ = ln^y^^-] = AZn - lnA. Il résulte alors de (15.40)
que, E"*"-] (AW„) = 0, c'est-à-dire que W est une martingale: elle est dans L2
puisque les variables aléatoires Z„ le sont. Son processus croissant prévisible (W)
est alors donné par ses accroissements définis, compte tenu de l'indépendance des
tribus An-} et <7(ê„). par
A{W)„ = E^"-i(AW„)2 = E^"-
n(—x—) ~ \ X )
soit
AÍW)„=-
_ 1
— ï
/ 1 + fi + cr 1 +n-<ry
1 +¡1 + 0 1 -O
X
In
A
puisque Ton a
A
A
A'
il en résulte que A (W)„ = S (ce qui prouve que & > 0) et donc que. pour tout n e M,
<W)„ - n8.
La loi forte des grands nombres pour les martingales dans L2 assure alors que
(w)„
0, soit encore
ce qui implique que
lnS„ - n ln A P-p.s.
1 P-o.f,.
0,
EXERCICE 15.5
395
7. PnisquelnR„ = 4=Z„ — *fn ln A, on a, d"après (15.41),
lnR„ = -j=\z0 4- +/i +a£/]-lnA)l .
Par ailleurs, les variables aléatoires ln[l + p + 0 sj] sont indépendantes de même loi
et admettent un moment d'ordre deux ; elles ont pour moyenne
EIn [1 + fi + n f„J = ^ fln(l + il + a) + ln(l + /i - a)] = In A ,
et pour moment d'ordre deux
E[ln(l +u. + o-e„)]2 = i[(ln(l +/i + ff))2 + 0n(1 4-M-a))2] :
elles ont donc pour variance
°lll+fl+aen) = \ [(Kl +M-ha))2 4- (ln(l a))2]
1 ,
- - flnfl 4- y +0) 4- ln(l 4-/i - a}]2 .
soit
Tln<l+Ji4-0 £
al , = i[(ln(l +fi +0))2 4- (ln(l + /i-ff)):
- 21n(] + + a) ln(l 4- /j. - cr)j ,
ou encore
2 1 r. , 1 +¦ p +a,V- 2
%(.4^£„) = 4hTT^)J = p .
Il résulte alors du théorème limite central que
1 r " 1 £
-y^[^04l +/i + ™y]-lnA)J - JVR(0,1).
et donc que la suite des lois P]nr„ converge étroitement vers la loi ~Vk(0, p2). Il en
résulte que, pour tout / e ^(R), on a
lim/ j\Rn)d'P=[ /[exp(lnR„)]^P= / f[expx]~^=exp(-~)dx,
" JR Jr Jr |p|V27T v 2p^/
puisque / oexp e ^(K). En faisant le changement de variables de R sur R+* défini
par >' = exp.v, on obtient
lim f /<R„, dJ>= f /[>)—== - exp(-^£) dy .
" Jr Jw+* \o\J2x y V 2p2 /
t+*' |p|V2^v
La suite des lois Pr„ converge donc étroilement vers la probabilité de densité par
rapport à la mesure de Lebesgue l'application v m» 1^+* (v) ^ '¡7 exp(—) ;
c'est la loi Log-normale de paramètres 0 et p2 = | Jjri^y^^-.
Chapitre 16
Chaînes de Markov
Les chaînes de Markov constituent une classe importante de processus
stochastiques à temps discret; elles permettent de modéliser des
phénomènes aléatoires temporels dont l'évolution probabiliste ù tout instant ne
dépend que de l'état du système ù cet instant et non de toute son évolution
antérieure ; antrement dit, elles modélisent des phénomènes sans mémoire.
On se limite à l'étnde des chaînes de Markov à espace d'état dénombrable.
16.1. Introduction
Dans le tome 1 (section 4.3), nous avons déjà montré comment on
pouvait traduire qu'un phénomène évolutif, fini en temps et en espace,
était markovien, c'est-à-dire sans mémoire, autre que la mémoire présente.
L'objet de cette introduction est d'illustrer cette formalisation élémentaire
par l'étude d'un modèle historique, et de mettre ensuite en évidence les
difficultés d'axiomatisation mathématique qu'elle présente, afin de conduire
de manière naturelle à la définition des chaînes de Markov homogènes
donnée en 16.12.
Commençons par présenter le modèle de diffusion de gaz connu sous le
nom de modèle de BeruoulH-Laplace.
Exemple 16.1. (Modèle de diffusion de gaz de BemonlH-Laplace.) Deux
urnes numérotées 1 et 2 contiennent chacune m boules ; parmi ces 2m
boules, r (1 $ r ^ m) sont rouges et 2m—r sont blanches. L'échelle de temps
est choisie discrète, et après réindexation, on la confond avec N. A chaque
instant, on tire au hasard et indépendamment, une boule dans chaque urne,
et on remet chacune de ces deux boules dans l'urne d'où elle n'a pas été
tirée.
On choisit de représenter l'état dn système à l'instant n, n > 1, par le
nombre X„ de boules rouges présentes dans l'urne 1 après le n -ième tirage et
la remise des boules tirées dans les urnes ; l'état initial est noté X0. L'espace
d'états possibles est l'intervalle d'entiers E — [0, l,...,r].
On peut s'imaginer l'état Xn comme un point aléatoire se déplaçant sur
E, ce point ne pouvant, en une étape, que rester en place ou se déplacer
vers un de ses voisins les plus proches. Il est d'usage de visualiser ceci par un
graphe du type :
397
CHAHIKF. Ifi. ( "HAÎNCS DE MAKKOV
Q Q_ Q _ O O O
o ..^ ¦ ¦ • ososoeo • • ¦ • 33
11 est intuitivement clair que le processus (XM)M(EN* est markovien, c'est-à-
dire vérifie pour tout n >. 0, et tout (n + 2j-uple d'états .Vo- Xj xn+i,
P(X„+l-xn + , | \q-x0 X„-.t„) - P(Xn+l—xn + ï | X„-x„), (16.1)
ces probabilités conditionnelles étant définies an sens élémentaire (les
probabilités des événements de conditionnement étant intuitivement non
nulles). L'évolution du processus iX„)n^* est alors précisée par la
détermination de ces probabilités conditionnelles, dites probabilités de transition. Si
X„ vaut i, avant le n + 1-ièmc tirage, l'urne 1 contient i boules rouges, m — i
blanches et l'urne 2 contient r — t boules rouges et m - (r — i) blanches.
Pour j — 1.2, notons R"+1 et B" + 1. le fait que la couleur de la boule tirée
au n + 1-ième tirage est respectivement rouge ou blanche. L'indépendance
et l'uniformité des tirages permet de dresser les tableaux ci-dessous :
- Si 1 < i C r - 1,
configura lion s
passage d'un étai
probabilité du
du // + 1-ième tirage
à un autre
passage
RÏ + IR^ + 1
/ i
/ r — i
ni m
R"+1B^+1
i -> i - 1
i m - (r — i)
m m
B'! + lR'l + i
i - i + l
m — i r - i
m m
m - i m - (r - i)
m m
= o,
configurations
passage d'un état
probabilité du
du n + l-ième tirage
à un autre
passage
0 l
r
-
m
m - r
m
configurations
passage d'un état
probabilité du
du n 4- l-ièmc tirage
à un autre
passage
r?+1b;,+1
r -> r - I
r
1 -
m
b';+ib^+1
m - r
r r
m
I6.I. INTRODUCTION
399
On s'aperçoit que, dans ces trois cas, les probabilités de passage d'un état
à un autre s'écrivent en une formule unique. Les probabilités
conditionnelles cherchées, dites probabilités de transition, sont alors données, pour
tout i tel que 0 < i ^ r, par
i r — i m — i m — (r — i)
P(X„+i=; | X„=i) =- +
P(xfl+I=i - i | x„=o =
P(XB+I=/ + 1 I X„=/) =
mm m. m
i m — (r — ï)
m m
m — i r — i
m m
Il est d'usage de considérer globalement ces probabilités de transition à
l'aide d'une matrice M, dite matrice de transition, de terme général
My =P(Xft+1 =j\Xn = i).
Nous verrons à la proposition 16.14 que la donnée de cette matrice et
de la loi de la variable initiale X0 déterminent entièrement la loi de toute
variable aléatoire (X0,X! X„), et détermine donc le comportement
probabiliste du processus X. En particulier, il sera possible, après avoir
développé la théorie des chaînes de Markov, de décrire rapidement le
comportement asymptotique qualitatif de ce processus, et de déterminer
les limites des probabilités d'être dans un étal quelconque lorsque le temps
croît vers l'infini, problème résolu historiquement par Bernoulli et Laplace.
Citons au passage deux autres modèles célèbres, l'un d'échange de
chaleur entre deux corps isolés, connu sous le nom de modèle dEhrenfest,
et l'autre, celui de Polya, de propagation de maladies contagieuses. Ces
phénomènes physiques sont encore représentés par des modèles de tirages
de boules dans des urnes. Ils sont abondamment décrits dans le livre de
Feller, tome I, et repris dans de nombreux livres plus récents. Ces modèles
serviront d'exemples d'illustration des notions et résultats introduits tout au
long de ce chapitre.
Exemple 16.2. (Modèle fie diffusion de chaleur entre deux corps isolés
de Ehrenfest1.) Deux récipients, nommés 1 et 2, contiennem au total m
particules qui peuvent diffuser d'un récipient à l'autre. On se représente le
phénomène de diffusion de ces particules comme, à chaque unité de temps,
le choix au hasard d'une particule dans un récipient et le transfert de la
particule choisie dans l'autre récipient. Répétant de la même manière ces
choix et transferts, on s'intéresse à la distribution des particules dans chaque
urne après n étapes.
1. Ehrenfest P. und T. Über zwei bekannte Einwände gegen das Roll/manfjsclic
H-Theorcm. Pliyiicalische Zeitschrift, vol. S (1907), pp. 311-314.
400
CHAPITRE if). CHAÎNES DE MARKOV
La modélisation sous forme de tirages de boules dans une urne est
alors la suivante. On identifie les particules du premier récipient à des
boules rouges, et celles du deuxième à des boules blanches (elles sont
respectivement, à l'instant initial, au nombre de r et m — r). À chaque tirage,
la boule tirée est remplacée par une boule de la couleur opposée. L'échelle
de temps est choisie discrète, et après réindexation, on la confond avec n.
L'état à l'instant n est le nombre de boules rouges contenues dans l'urne.
Exemple 16.3. (Modèle de diffusion de maladies contagieuses de Polya.)
11 s'agit d'un modèle de propagation de maladies contagieuses, qui traduit
l'augmentation, ou la diminution, de probabilité de contagion d'un individu
à chaque apparition, ou disparition, d'un nouveau cas de maladie parmi une
population.
La modélisation sous forme de tirages de boules dans une urne est
alors la suivante. On identifie les individus sains de la population à des
boules rouges, et les individus malades à des boules blanches (elles sont
respectivement, à l'instant initial, au nombre de r et b). Après chaque tirage
au hasard, la boule tirée est remise dans l'urne avec c boules de la couleur
de la boule tirée. L'état à l'instant n est la proportion Y„ de boules blanches
contenues dans l'urne après le n-ième tirage et après avoir rajouté les c
boules.
Si on laisse évoluer indéfiniment ce processus, l'ensemble E des états
possibles n'est pas fini, mais est infini dénombrable et, a priori, contenu
dans l'ensemble des nombres rationnels de l'intervalle [0,1]. Il devient déjà
plus difficile de dire, de manière élémentaire, si le processus (Y„)„eN* est
markovien ou non, par des formules du type (16.1). En effet, le choix d'un
modèle passe d'abord par le choix de l'ensemble E des étals possibles ; ceci
fait, avant l'étude du modèle, on ne sait pas dire si, pour tout (n + 1)-
uple d'états v0, ji,yn, la probabilité P(Y0 — y0, ...,Y„ = yn) de
l'événement de conditionnement est nulle ou non ; ceci pose un problème de
définition de la probabilité conditionnelle au sens élémentaire, et donc aussi,
de pertinence d'une définition de la propriété de Markov par les relations
du type (16.1). Pour traduire la propriété de Markov, c'est-à-dire que le
processus est sans mémoire, autre que la mémoire présente, nous seront
conduits à prendre une définition plus adaptée mathématiquement; au
sens de cette définition, le processus de Pôlya (Y«)neN* sera effectivement
markovien, ce qui n'est pas tout à fait intuitif.
Un autre exemple, cas particulier des marches aléatoires (nous les
rencontrerons ci-dessous), met encore en évidence ce même problème de
définition. La propriété de Markov est toutefois, dans ce cas, intuitivement
évidente, si l'idée qu'on en a est de dire que l'évolution probabiliste du
processus après chaque instant nne dépend que de l'état du processus à cet instant.
INDÉPENDANCE CONDITIONNELLE
401
Il montre aussi l'importance de la loi initiale dans la modélisation.
Exemple 16.4. Soit (X„),iet-i une suite de variables aléatoires définies sur un
espace probabilisé (Q, <A,P), à valeurs dans Z et indépendantes. On suppose
que, pour tout n e N*, les variables aléatoires X„ ont même loi p5^2 + ^^2>
avec p + q — 1 et p, q > 0, On note
If n
SB = J>; et Y„ = £X5.
/=0 j=Ù
si bien que S„ + ! = S„ + Xn + ! et Y„ +1 = Y„ + +, .On peut penser à S„
comme à la position d'une particule qui saute, à chaque unité de temps, d'un
entier à un autre ; le processus (S„)„€^ est une marche aléatoire.
Si X0 — 0, S„ est à valeurs dans 2Z, et un calcul de convolution facile
assure que tous les entiers pairs compris entre —2n et 2n, et eux seuls, vont
être visités par S„ avec une probabilité non nulle. Par contre, si Xo est de
loi iSo + t>i)/2, S„ est à valeurs dans Z ; certaines trajectoires du processus
(S«)nef-; seront contenues dans 2Z, d'autres dans 2Z + 1 et, en tout état
de cause, pour tout (n + l)-uple x0, Xi, xn. d'éléments consécutifs de
l'ensemble d'états possibles Z, la probabilité P(Xq — x0,...,X„ = x„) de
l'événement de conditionnement dans la relation du type (16.1) sera nulle,
ce qui rend encore caduque, dans ce cas, la définition de la propriété de
Markov par de telles relations.
Enfin, l'évolution probabiliste du processus (Y„)ne^ en tout instant n
ne dépend encore que de l'état de ce processus à cet instant; en ce sens, le
processus (Y„)nex a la propriété de Markov. On peut remarquer, de plus,
que ]'« histoire » probabiliste au temps n peut être envisagée de manière
plus ou moins exhaustive, suivant que l'on a accès aux valeurs des Xy, ou
seulement à celle des Xy, 0 ^ j ^ n ; mais de toute façon, cette histoire
au temps n n'influe sur la probabilité que Y„ + ] prenne une valeur donnée,
qu'à travers la connaissance de Y„. C'est pour tenir compte de ce genre
de situation que nous définirons les chaînes de Markov relativement à des
filtrations.
Ceci étant, nous allons définir la propriété de Markov à l'aide de la
notion d'indépendance conditionnelle de tribus, notion utile dans d'autres
contextes, et étudiée dans la section suivante.
16.2. Indépendance conditionnelle
Notations. Dans ce chapitre, on notera EX='(Y) l'application moyenne
conditionnelle de la variable aléatoire Y condilionnellement à la variable
402
CHAPITRE l6. CHAÎNES DE MARKOV
aléatoire X. On ne la confondra pas2 avec l'espérance conditionnelle de Y
par rapport à la tribu o(X) engendrée par X, notée Eff(Xi(Y) ou E(Y | X),
suivant le contexte, et qui, elle, est une classe de variables aléatoires (suivant
l'usage, on note de la même façon un représentant et sa classe).
Commençons par un exemple qui fera bien comprendre la notion
d'indépendance conditionnelle, notion que nous allons définir et étudier dans sa
généralité sitôt après.
Soient X, Y, Z trois variables aléatoires réelles définies sur un espace
probabiHsé (£2, A, P), indépendantes. Posons
TJ = X + Y et V = XZ.
Soient / et g des fonctions boréliennes bornées quelconques. Puisque les
variables aléatoires X et (Y, Z) sont indépendantes, il résulte du théorème
de transfert conditionnel (ch. Il, th. 11.9) que la moyenne conditionnelle
de f(U)g(V) conditionne] le ment à la variable aléatoire X. vérifie, pour Px-
presque tout x,
Ex=x [/(U)g(V)] = Ex=* [f(x + Y)g(xZ)] = E [/(x + Y)g(xZ)] ,
soit, en tenant compte de l'indépendance des variables aléatoires Y et Z,
EX=* [f(U)g(Vj\ = E[/(x + Y)]E[g(xZ)] .
Il en résulte en particulier, en prenant successivement pour / et g la
fonction constante égale à I, que
EX=Ï [/(U)] = E [f(x + Y)] et Ex=* [g(V)] = E [g(xZ)] .
Ainsi, on a, pour Px-presque tout x,
[/(U)g(V)] - Ex=* [/(U)] Ex=* [gfV)J7
On en déduit l'égalité des espérances conditionnelles
~Ën0° [/(U)g(V)] E"(X< [/(U)] Eg<x> [g(V)]7
Ces deux dernières relations traduisent, de manière équivalente,
l'indépendance conditionnelle des variables aléatoires U et V par rapport à la variable
aléatoire X, ou l'indépendance des tribus engendrées par les variables
aléatoires U et V, conditionnellement à la tribu o(X) engendrée par la variable
aléatoire X.
Nous donnons à présent la définition générale d'indépendance
conditionnelle de tribus, notion utilisée de manière essentielle par la suite pour
définir la propriété de Markov. Nous en étudions ensuite quelques
propriétés.
2. La relation entre ces deux nouons est clablic au lemme lt,3t du chapitre 11.
ïb.2. INDÉPENDANCE CONDITIONNELLE
403
Les tribus considérées sont des sous-tribus définies sur le même espace
probabilisé (Q. -A,P).
Définition 16.1. Soient trois tribus A¡, i — 1.2.3. Les tribus A\ et A^ sont
conditionnellernent indépendantes par rappon à A2 si, pour i — 1.3« pour
toute variable aléatoire réelle Y, A¡-mesurable bornée (ce que l'on notera
Y,- & bAj), on a
E'A2(Y1Y3) = ElA2(Yl)E^(Y3). (16.2)
En particulier, si A2 est la tribu cr(X) engendrée par une variable
aléatoire X, on dit simplement que les tribus A\ et A? sont condiiionnellement
indépendantes par rapport à X. La relation (16.2) s'écrit alors
E(YiY3 I X) - E^-fY, I X)E*Wy3 | X). (16.3)
Remarque. L'indépendance conditionnelle des tribus A: et ^3 par rapporta
A2 n'implique pas leur indépendance. Mais si A2 est la tribu triviale {Q. 0|,
l'indépendance conditionnelle des tribus Ai et A3 par rapport à A2 est alors
équivalente à leur indépendance.
On note PS(A) la probabilité conditionnelle de A sachant la tribu Ü
définie par E's(1a)- Si A2 est la tribu o(X) engendrée par une variable
aléatoire X, on la note P(B | X).
Lemme 16.2. Les tribus Ai et A3 sont condiiionnellement indépendantes par
rapport à A2 si et seulement si pour tous événements A^ & A] et A3 € Ai;
on a . a a
PA2(A, n A3) = P-A2(A,)Pa2(a3)- (16.4)
En particulier, si Â2 est la tribu a(X) engendrée par une variable aléatoire X,
les tribus A1 et <a3 sont condiiionnellement indépendantes par rapport à X si
et seulement si pour tous événements Ai & Ai ci A3 & A3, on a
P(A, H A3 ! X) - P(A, I X) P(A3 i X) . (16.5)
Démonstration. La condition nécessaire est triviale. Inversement, de (16.4),
on déduit que (16.2) est vraie pour toutes les variables aléatoires Y, A¡-
mesurables étagées, / — 1.3; on passe au cas général par les procédés usuels
d'intégration. ?
Si le lemme précédent est anecdotique, le théorème suivant est par
contre fondamental pour l'étude que nous ferons des chaînes de Markov.
Théorème 16.3. On note Ax2 (ou encore A] v A2) la tribu engendrée par -A,
et A2. Les tribus A, et A3 sont eonditionnellement indépendante': pur rapport
à A2 si et seulement si pour tout Y3 G £'(Q. A3,P), ona
EA[2(Y3) - E'AHY3). (16.6)
4<ì4
CH-U'IIRT l6. CHAÎVES UE MAKKOV
= e[lAlla2y3] ^e^e^aAtY.,)] ,
Remarque. En fait, par des arguments habituels d'intégration, pour qu'il y
ait indépendance conditionnelle, il faut et il suffit que (16.6) soit vraie pour
tout Yi e hA3,
Démonstration. Condition nécessaire. On utilise le principe de
prolongement par mesurabilité. On vérifie facilement que la famille d'événements
S = ^AeAn\{ J Yyd¥=J e*2('Y3)rfP VY? e , A3.P)J
est un A-système. On va démontrer qu'il contient le 7r-système C qui
engendre A\2 défini par
f — {A, flA2É <A|2 i Ai G tA] et A2 & A2\ ;
cela démontrera que S contient <Al2 et donc que (16.6) est vraie pour tout
Y3 & Soient donc A, e <A| et A2 & Az quelconques; on a,en
utilisant la mesurabilité des variables aléatoires concernées successivement
par rapport aux tribus Al2 puis .A2.
e[iaiia2e-*'Hy3)"
soit, d'après (16.2),
e[iAi1a2Ea>2(Y3)] ^E^E^CIa.îE^^)' ,
ou encore, puisque Ia^E^ (Y3) est <A2-mesurable,
E |^1ai 1a2E<3*i2(Yi)J = EflA.lA^MYa)' .
La condition nécessaire est établie.
Condition suffisante. Soit, pour i — 1.3, Y/ & b A, quelconques ; tenant
compte de l'inclusion de tribus A2 C <Ai2, puis de la (A^-mesurabilité de
Yi. on a
Eri4,2(y,y3) - E"4,2 [e-*i1(Y1Y3) = E^2 [^Y1E'A|2(Y3)j :
d'après l'hypothèse (16.6), on a alors
E^(YlY3) - E"4,2 [y,E'42(Y3)],
et par conséquent.
EiA2(y1y3) = Eri4,2(y1)Ela2(y3). ?
En utilisant encore le théorème de prolongement par mesurabilité, on
peut résoudre l'exercice suivant :
r6-3- CHAÎNES 15b MARKOV : PROPRIRTKS GÉNÉRALES
405
Exercice. Soient quatre tribus Ai,i — 1,2,3 et B3. On suppose que
A3 — <S3 v A>2-Les tribus Ai et A3 sont conditionnellcment indépendantes
par rapport à A2 si et seulement si les tribus Ai et iSj sont.
16.3. Chaînes de Markov : propriétés générales
Dans ce chapitre, E est un ensemble dénombrante (fini ou infini) muni
de la tribu de ses parties 8 ; sauf mention du contraire, les processus sont
définis sur l'espace probabilisé (Q, A. P)_
16.3.1. Propriété de Markov; matrices de transition
Définition 16.4. Soil X — (X„)„eN m'processus à valeurs dans (E, 8) 3. Pour
rout n & N, la tribu S7^ — a(X, | j > 11) est appelée tribu du futur large
du processus X après le temps n et 3?* — crfXy | j > ft) est appelée tribu du
futur strict du processus X après le temps n. La tribu $*„ — <x(X„) est la tribu
du présent du processus à l'instant n.
Le processus X est une chaîne de Markov relativement (ou par rapport) éi
la filtration (A„)neN s'il satisfait aux deux conditions :
(i) X — (X„)„ew est adapted la filtration {A„)„eK :
(ii) X a la propriété de Markov, à savoir que, pour tout n € N, la tribu
du passé An et la tribu 5^ du futur large à l'instant n sont conditionnellcment
indépendantes par rapport à la tribu — a (X„) du présent à l'instant n.
On dit aussi, dans ce cas, que X est une chaîne de Markov stir la base de
processus (Q, A,(An)ften, P)-
Remarque. Si X est une chaîne de Markov par rapport à la filtration
M»«)«eN, il en est encore une par rapport à sa filtration naturelle (<S«)„e^.
Dans le cas où la filtration de référence est la filtration naturelle, on parle
brièvement de chaîne de Markov.
D'après l'exercice précédent, dans la définition d'une chaîne de Markov,
on peut remplacer la tribu du futur large par celle du futur stricte.
Exemple 16.5. Soit X — (X„)„e-N une suite de variables aléatoires
indépendantes à valeurs dans Z, Soit pour lout n e N, S„ = XTy=o - 'es filiations
naturelles des processus X et S — (S„)„eN sont les mêmes et S est une chaîne
de Markov, appelée marche aléatoire sur X.
On donne maintenant une caractérisation des chaînes de Markov.
Théorème 16.5. Soit X — (X„)„e^ un processus à valeurs dans E adapté à
la filtration ( An)n&4 ¦ Les propriétés suivantes sont équivalentes :
3. D<ms ce contexte, on dira, de façon abrégée, à valeurs dans E,
CHAPITRE [6. CHAÎNES DE MAKKOV
(i) Le processus X est une chaîne de Markov par rapport à la filtrution
(ii) Pour tout n & N et tout Y e /'f„', on a
E^CY) = E^(Y). (16.7)
(iii) Pour tout n <e M et toute f & bS (fonction bornée sur E), on a
E"A" lf(X„+l)} = E;P" [/(XB+1)]. (16.8)
(fv) Pour tous n et m tels que n ^ m, et pour tout f <e bS, on a
E-A"\f(Xltl)\ = E!p"[f(Xm)\. (16.9)
En particulier, le processus X est une chaîne de Markov par rapport à sa
Hltralion naturelle (3in)n<=N si et seulement si pour tout n & M, pour toute
suite croissante finie d'entiers telle que n, ^ «2 ^ ••¦ $ «i $ n e/ toute
fonction bornée f sur E, on a
e<r(xtll,....xnk) [/(X„)] = Eff(X"A) [/(X„)]. (16.10)
Démonstration. L'équivalence de (i) et (ii) résuite du théorème 16.3. Les
implications (iv) =$> (iii), (ii) (iii) et (ii) (iv) sont triviales.
Reste à démontrer l'implication (iii) => (ii) : supposons donc que (iii) soif,
vraie. D'après la remarque précédente, il suffit de démontrer que l'égalité
(16.7) est vraie pour tout Y <e h'J7^, Pour n quelconque fixé, soit
M = JY & bf* | EA" (Y) - Ep" (Y) | ,
Lensemble M. est un espace vectoriel contenant les constantes et stable
par limite monotone bornée. D'après le théorème de prolongement par
mesurabilité, il suffit alors de démontrer que M contient les indicatrices des
éléments du n -système f engendrant la tribu F* défini par
jt
ï' = {flX-|J.(E1-j|*eN*. E,Égj.
¿=1
Soit donc Y = v-i ,. Si k — 1, le résultat est trivial, Siipposons
i l/ = i
donc k >. 2. On utilise un procédé classique d'étude des chaînes de Markov,
à savoir celui de remonter le temps. On a, puisque A>„ C et que
FI*=i !e/ ° est <AB+t-L-raesurable,
¡'=1 /=i
et donc, d'après l'hypothèse (iii),
¡fi-3. ( HAÎNtS DE MARKOV : PROPRIÉTÉS CENTRALES
407
A- — I
;'=1
or E'!P"+;í-, (1e* 0 X„+(t) étant <!P„+(t-] -mesurable bornée, il exisle une
fonction réelle (trivialement mesurable) sur E telle que
E*W*->(1Ea oX„+i) - g,(X„+¿_i),
si bien que l'on a l'égalité
k-2
E^1(Y) E*"[(f[lEi oX^^^ÍX.+í-OIe^, oX„+¿-,)].
í = i
En conditionnant successivement par rapport aux tribus A>n+k-2. >4>h+i
et en appliquant l'hypothèse (16.8), puis, en arguant des mêmes arguments
de mesurabilité, on obtient, pur induction, l'existence de fonctions réelles
g\ s giy ¦ • - - gk-i bornées sur E telles que l'on ait
EA,(Y) = E"4"1
(f[ ^ ¦>Xb+i)e^+t^[gl(XB+M)l^1 oX,+t.j
i =1
= E<A"[(n 1e( °X„+,)^(X„+,_2)
= e^ [^_,(x„+1)] ;
ainsi E^'^Y) est 5"„-mesurable, et puisque C -A,,, il en résulte que
e*"(Y) = E^(Y).
En particulier, si le processus X est une chaîne de Markov par rapport à
sa filtration naturelle (J8„)„er., pour tout « éN, toute suite croissante finie
d'entiers telle que n, ^ n2 ^ ¦ ¦ ¦ ^ fl* ^ n et toute fonction bornée / sur
E. on no(X,u) C a(X„, X„A) C £„A. et donc
ce qui démontre l'égalité (16.10). Inversement, si cette dernière propriété
est satisfaite, en prenant la suite des entiers consécutifs jusqu'à n, on obtient
que l'égalité (16.8) est satisfaite et donc que Xest une chaîne de Markov. ?
Voici une situation fréquente dans les applications (elle peut bien sûr se
généraliser dans différentes directions).
408
CHAPITRE l6. CHAÎNES DE MARKOV
Exemple 16.6. Soient un ensemble dénombrable E, muni de la tribu de
ses parties, et une application mesurable g de E x R dans E. On considère
une famille de variables aléatoires définies sur un même espace probabilisé
(£2)(A.P) et indépendantes; l'une de ces variables aléatoires, X0, est à
valeurs dans E, les autres forment une suite de variables aléatoires réelles
(U„)„eN* de même loi ¡x. En particulier, si ¡1 est la loi uniforme sur
l'intervalle [0, 1], les U„ peuvent modéliser les tirages de nombres aléatoires
faits à l'aide d'un générateur de nombres aléatoires lors d'une simulation.
On construit la suite (Xn)„£N en posant
Kt+i = g(X„, U„+I).
Le processus X = (X„)„€N est dit auto-régressif. (On voit bien l'apport du
hasard à chaque étape.)
Notons A0 la tribu a(X0) et, sin í 1, A„ la tribu a(X0, Uj U„),
tribu qui résume naturellement l'information sur le passé jusqu'au temps n.
Le processus X est une chaîne de Markov (homogène4) relativement à la
filtration (íAB)„eN- En effet, par une récurrence facile, on voit que X„ est
An -mesurable ; autrement dit, X est adapté à cette filtration. De plus, pour
tout / e 6E, on a
E-*" [/(XB+1)] - E^« [/(>(XB,UB+1))] ¦
Puisque U„+1 et An sont indépendantes, il résulte de la proposition 11.22
du chapitre 11 que
EA» [/(XB+1)] = ?(X„) P-p.s., (16.11)
ou la fonction / est définie, pour tout x e E, par
?(x)=E[/(x,UB+1)] = [ f(x,u)d/x(u). (16.12)
Jr
L'égalité (16.11) implique l'égalité (16.8), à savoir
E"*" [/(XB+1)]=EJ>'«[/(XB+i)],
ce qui démontre que X est une chaîne de Markov par rapport à la filtration
(Ai)neN, et donc aussi une chaîne de Markov par rapport à sa filtration
naturelle.
Remarque. Puisque E est dénombrable, l'égalité (16.10) est équivalente à
l'égalité, pour P(XiI],...^(-presque tous (x„,,. ..,x„k) e Efc et tout x„ e E,
des probabilités conditionnelles
p(x"i=JC»i--x''*=*''*)(Xi, =x„) = P<x«a=^->(X„ = x«). (16.13)
4, La definition d'une chaîne de Markov homogène est donnée ci-après.
l6-3- CHAÎNES DE MARKOV : PROPRIÉTÉS GÉNÉRALES
Ainsi, X est une chaîne de Markov (relativement à sa filtration naturelle)
si et seulement si, pour tous n, k g N et pour toute suite croissante finie
d'entiers telle que n\ ^ n2 5= • ¦ ¦ ^ nk s= n, l'égalité (16.13) est satisfaite
pour P(x„],.,.,x„fc)-presque tous (xB] xn/c) g Efe et tout xn g E.
Pour des entiers n et m tels que n ^ m et en tous points x, y de l'espace
d'étals E où cela a un sens, la probabilité conditionnelle MniJI(x,y) =
p^«=-ï>(Xm — y) est la probabilité de transition de l'état x à l'instant n à
l'état y à l'instant m ; on a alors Y,y€E P(x"=ï)(Xffl — y) — 1. Pour faciliter
le traitement des chaînes de Markov, on est alors amené naturellement aux
définitions suivantes :
Définition 16.6. Une famille A de réels positifs ou nuls, bi-indexée sur E est
une matrice de transition5 (ou matrice stochastique) si, pour tout x e E,
Notation. On note bh l'ensemble des fonctions bornées sur E. Si A est une
matrice bi-indexée sur E à termes positifs, A(x, ¦ ) engendre une mesure ¡ix
sur E ; si / est positive ou ¡ix-integrable, on note classiquement A(x, /) ou
A/(x) son intégrale par rapport à ¡ix ; autrement dit
Si de plus A est telle que les mesures jix sont toutes de masse inférieure
ou égale à 1 et si / est bornée, la fonction A( ¦, /) l'est aussi. Ce point
de vue fonctionnel se généralise à un espace d'états quelconque. Toutefois
ici, E étant dénombrable, il sera souvent utile pour les calculs explicites
(tout particulièrement quand E est fini), d'avoir un point de vue vectoriel :
on identifiera la fonction / au « vecteur colonne » f(y)yGE, le « vecteur
colonne » A( ¦, /') étant alors le vecteur de composantes A(x. /) données
par l'égalité (16.14); ainsi, moyennant ces identifications, on a l'égalité
vectorielle A( ¦, /) = A/'.
Définition 16.7. Une chaîne de Markov X adaptée à la filtration (A„)n(=ri
admet une famille de matrices de transition (M,,^,)^^^ si, pour tous n et m
tels que n < m, Mn,m est une matrice de transition et si, pour toute fonction f
sur E positive ou bornée, on a P-p.s.
Remarque. Pour Px„ -presque tous x e E et tous y g E, on a alors l'égalité
^eEA(x^) - 1.
(16.14)
E " [f(XHl)\ = MB,M(X„,/).
(16.15)
M„,w(x,^) = P<x"=j0(Xm = y),
,5. Si E est fini, il s'agit d'une matrice carrée classique, et si E est infini, il s'agit d'une matrice
généralisée,
CHAPITRE lö. CHAÎNES DE MARKOV
et, si 0 ^ ni ^ n2 $ •• ^ nk —n ^ m, pour P(x,(,...,x„, ,...,x„k ) -presque tous
(xo;xrt],.. -, xn) € Ek'+t et tout xn+i é E, on a
p(xo^o-XHl=x„|,...,xn=^)(Xn+| =Xn + ]) =p(x«=^)(XB + l = *B+l)
= M„iM_(_i(xn,x„_|_i).
En effet, puisque (j(Xn) c n(X0,Xni, X„) c rAn,ona,en prenant pour
/ la fonction l{yj,
pff(Xo,X«, X„)(X«=y) = Ea(Xo.Xn, X,J r^
- Mn>„,(X„,^) ;
il en résulte que
P^fX» = 3;) = E°r(X") [E^^-ix,ï)[l(.xw-r)]] ^ H,,*(X„ v).
Remarque. Une matrice de transition A sur E est telle que, pour tout
x e E, l'application A(x, ¦ ) est un germe de probabilité sur l'ensemble
dênombrable E ; en identifiant ce germe et la probabilité engendrée, A peut
être vue comme une probabilité (ou noyau) de transition sur E. version
régulière de la loi conditionnelle de Xm sachant (X0, X„,,..., X„). C'est ce
point de vue qui permet de traiter les chaînes de Markov à espace d'état
général.
Proposition 16.8 (Egalité de Chapman-Kolmogorov). Soit X une chaîne de
Markov adaptée à la filtration {An)n^m, de famille de matrices de transition
(M.n,m)n%m < pour tous instants n, r, m tels que n < r < m, on a la relation de
Chapman-KolmogoroY.
pour tout y G E V\njn(Xn,y) =- ^M„.r(X„,r)Mrtm(z,r),
ce qui s'écrit sous forme matricielle
M„,m(Xfl, ¦) M„,,.M,,„,(XW, -) - (16-16)
Démonstration. Le système des événements (Xr = z). z e E. est un
système complet de constituants; en prenant pour / la fonction 1{V) dans
l'égalité (16.15). on a alors
Mn.m(XH.y) = E*« [l(x,„=„] = E-*''[£l(Xr=?)l(x,„=,,
= £E-i* [ltx,=«)l«xw=,)]
soit, puisque (Xr = z) e A,-.
l6-3- CHAÎNES Dt MARKOV : PROPRIÉTÉS fJËNÉRALr.S
41!
= [l(xr=2)Mr,m(Xr,v)]
zêe
z£e
= 5^[E't"l,xr=z)Mrim(r.v)]
¦€E
= £[Mn,r(X„,z)Mr,m(z.v)] - ?
zeE
Remarque, Si X est simplement une chaîne de Markov relativement à sa
filtration naturelle, on peut donner la démonstration heuristique 6 suivante de
l'égalité de Chapman-Kolmogorov ; on a. d'après la formule des probabilités
totales, et d'après la propriété de Markov,
P(Xm = v | X„ = x) = £ p(^m = Jl X, = z)P(X, = z | X„ = x) .
zeE
Un système physique dont l'état dépend du temps est conservatif si,
pour tous /, sa loi de passage d'un état x à l'instant ,s à l'état y à l'instant
s + / est indépendante de s. Si le système est modélisé par une chaîne de
Markov, cette notion va se traduire par une homogénéité dans le temps des
lois conditionnelles, et donc de la famille des matrices de transition. Ainsi,
une chaîne de Markov X de famille de matrices de transition (M„,w)„<:„, est
(tempore lie ment) homogène s'il existe une suite de matrices de transition
(M(„))„eN indexées sur E telle que l'on ait. pour tous entiers n et m,
Mnn+m — M(,„). Il résulte alors de (16.16) que pour tous entiers n et m,
M„,„+W1(X„, •) = M^(X„. ¦); en particulier, la matrice M(d est notée M et
appelée matrice de transition de la chaîne de Markov homogène. On a alors
E-*" [f(Xri+m)\ = M"\XflJ),
où Mm est la m-ième puissance de la matrice M. En particulier, pour Pxq-
presque tous x e E et tout y e E, on a alors l'égalité
Mix, y) = P(X«=JC>(Xj = v).
et pour Px„ -presque tous x e E et tout y e E, on a l'égalité
M(x,y) = P<x"=*>(X„+1^y).
On est ainsi conduit à la définition suivante :
fi. Au sens où on fait abstraction d&s problèmes de division par 0.
412
CHAPITRE 16. CHAÎNES DE MARKOV
Définition 16.9. Une chaîne de Markov X (relativement à la filtration
(A„)„ey), à valeurs dans E, est homogène de matrice de transition M si.
pour fous entiers n et m tels que 0 ^ n < m. on a
EA" [/(X,,,)] - Nr-"(X„. /) . ((6.17)
La proposition suivante permet de démontrer qu'un processus est une
chaîne de Markov homogène de matrice de transition M.
Proposition 16.10. Le processus X, adapté à la filtration (An)„<=k, est une
chaîne de Markov homogène de matrice de transition M si et seulement si
pour tous entiers n € N, on a
E^" [/(XB+I)] = M(XB./).
(16.18)
Démonstration. La condition nécessaire est triviale. Inversement,
supposons que la relation (16.18) soit vraie pour tout entier n e N. Soient n et
m tels que 0 < n < m ; on a
E*" [/(Xm)] - E'A« [E*™-i/(XM)]
= EA» [M(Xm_!,/)]
= E^" [E^-2M(Xm_,,/)]
= E*« [M(Xm_2,M(-,/))]
= E-*« [M2(Xm_2,/)] .
Une récurrence facile donne alors la relation (16.17). ?
Ainsi, le processus auto-régressif introduit à l'exemple 16.6 est une
chaîne de Markov homogène de matrice de transition M déterminée, pour
toute fonction bornée /. par
M(*,/) = /(.Y)= f f(x,U)dp(u).
Jk
Voici un exemple de chaîne de Markov homogène relativement à une
filtration qui n'est pas sa filtration naturelle.
Exemple 16.7. (Marche aléatoire conditionnelle.) On considère une famille
de variables aléatoires réelles définies sur un même espace probabilisé
{Q. A. P) et indépendantes ; l'une de ces variables aléatoires, ©, est à valeurs
dans l'intervalle [0, 1] et de loi /j, les autres forment une suite de variables
aléatoires réelles (U„)„e!< de loi uniforme sur l'intervalle [0, 1], modélisant
les tirages de nombres aléatoires faits à l'aide d'un générateur de nombres
aléatoires. On construit la suite (X„)„eH en posant
X„ = 1
(Uf(-<e) — 1(u„>0),
I&-3- CHAÎNES DE MARKOV : PROPRIÉTÉS GÉNÉRALES
413
autrement dit. conditionnellement à la valeur 9 de 0 préalablement tirée,
la variable aléatoire X„ suit la loi 8&v + (1 — 9)8-]. On définit, pour tout
n e H, les variables aléatoires
n
S„ = £x, et YÄ=(e.S„),
J=o
et on note -A„ = ct(B.U0,Uj , U„) la tribu engendrée par 0, U0,
Ui, U„ (A„ est la tribu qui résume naturellement l'information sur le
passé jusqu'au temps n). Pour rester dans le cadre des chaînes à espace
dénombrable, on suppose que la loi fi est à support dans une partie dénom-
brable E de [0,1]. Pour une valeur 9 donnée, la suite (S„)„eN se comporte
comme une marche aléatoire sur Z, et cette valeur de 9 doit rester
continuellement en mémoire pour pouvoir poursuivie la marche. Ainsi, le processus
(S„)„eiJ a une histoire qui dépend constamment de l'instant initial;
toutefois, nous allons montrer que le processus Y — (Y„)„eN est une chaîne de
Markov homogène à valeurs dans Ex?, adaptée à la filtration (<A«)rt<=N-
Pour cela, on calcule, pour toute fonction bornée / sur E x Z,
E** [/(Y„+l)] E'*" [/(0,S„ +X„+i)l .
Définissons la fonction h sur [0, l]2 par
h(ß,u) = - 1(k>0) -
On a, pour P(0(uo.u[,...,u„)-presque tout (9. u0, ui,..., u„),
£ct(ö,Uo.i'i u^)=(o,h0,«[,»-,««) [y(Y„+1)]
n
soil, par indépendance des variables aléatoires 0, Uo, Ut U„,
n
7=0
Puisque U„+i est de loi uniforme sur [0. 1]. on a
£fj(fi>.U(>1U[....,Un)=l(.).«o."i ¦¦¦¦,«") [ f(Y„_|_|)]
n n
= ej (9,J2h(ß>uj) + ]) +11 -0) f(0> "/)-') ¦
/=0 /'=0
On a donc, P-p.s.,
n n
E-HAYn + i)]=Ö/(0.^(0,U;)+l) + (-l-0)/(0-E/K0^U/)-l).
414
CHAPITRE l6. CHAÎNES DE MARKOV
soit
E*''[/(YB+1)j = 0/(0,S„ + 1) + (1 - 0) /(0,SB - 1) P-p.s.
En définissant la matrice de transition M sur E x Z par
s), f) = e f{9, s + \) + (\-9) f(9, s-l),
on a alors ,
E [f(Yn+1)\ = M(Y„./) P-p.s.,
ce qui démontre que le processus Y est une chaîne de Markov homogène de
matrice de transition M relativement à la filtration (<An)neN-
Par contre, voici un exemple de chaîne de Markov non homogène.
Exemple 16.8. Reprenons l'exemple 16.3 de modèle de diffusion de
maladies contagieuses de Pôlya sous sa forme de tirages de boules dans une urne
et montrons que le processus des proportions Yn de boules blanches
contenues dans l'urne après le n-ième tirage et après avoir rajouté les c boules est
une chaîne de Markov non homogène et aussi une martingale.
On considère une suite (Xrt)„eN* de variables aléatoires définies sur
un espace probabilisé (£2,-A,P), à valeurs 0 ou 1 (X„ prend la valeur 0
ou 1 suivant que la n-ième boule tirée est rouge ou blanche). On note
kn — b + r + ne ; le nombre B„ et la proportion Yw de boules blanches
situées dans l'urne après le n-ième tirage sont respectivement
" g
Bn =b+c £x, et Y» = -^.
./ = i Kn
On a .
P(X, = 1)= r— et P(X, =0) =
b +r b + r
De plus, les tirages étant tous uniformes, on a. pour tout n £ 2, et pour tout
(x, xn) e {0,1}",
PtX]'""x")=(xi--'JC")(X„+1 = 1) =
K
(16.19)
P<x» x„)=(,1,...,,„)(X/(+i = 0) = r_+c(n-Trj=1x,)
kfj
Le processus Y = (Y„)„e^* est à valeurs dans
e= u jf'^^M
partie infinie dénombrable de l'intervalle [0,1]. Notons d'abord que les
tribus <A„ — u(Xj \ 1 ^ j $ /?) et a(Y, | 1 $ j $ n) coïncident. En
I0.3- CHAÎNES DE MARKOV : PROPRIÉTÉS GÉNÉRALES
415
effet, il est facile de voir que l'application F„ de M" dans lui-même définie
par
F« Ui *n) = (yi Vn) où yi = — —¦-—— , 1 ^ / ^ n ,
*/
est une bijection et que (Y,,..., Y„) = F„(Xi,... ,X„).
11 résulte alors de (16.19) que
p(Y,,... Y„)=,yi y„l(Xn + i==1) = p(X1,...,X„)=F-1,y1,...,yw)(Xfi + ] =1) = Vn f
(16.20)
ce qui donne
P<7lYl"-Y",(Xn+i - 1) = Y, et P"(Y' Y"\Xn+l =0)= 1 -Y„.
(16.21)
Un calcul simple montre que
fc„+] = fc„ + c et Y„+i - . (16.22)
Ainsi, pour toute fonction / € bE, on a
[/(Y„+1)l - /(^1±£)Y„ +/(|^)(1 - Y.).
ce qui donne, en tenant compte de (16.20) :
t,(knYn +c\Y | j-tknY«
cn+i ' ^ ^» + 1
En posant, pour tout y € E et toute / e bE,
; )y + f(ï—
on a montré que, pour tout n € N *,
E"4" lf(Yn+l)] = M«(Y„,f) - (16.23)
La matrice M„ est bien une matrice de transition sur E puisque
z£E ?£E V V ^eE V^^M /
Le processus Y est une chaîne de Markov non homogène de famille de
matrices de transition (M„)„eN*- C'est de plus une martingale. En effet, en
prenant pour /, dans l'égalité (16,23). l'application identique sur E (qui est
bornée), on a
E*»(Yn+t) =k^p^Yll + ^(1 - Y,) = Ynk-f^ = Y„ -
CHAPITRE if). CHAÎMF-.S DP MARKOV
Il résulte alors de cette propriété de martingale que
E(YH+1) = EY, =E
' 6 + cXi
h + r + c
1
h + r + c
V h + r i
soit
E(Y„+1) -
La variable aléatoire X„+] ne prend que les valeurs 0 ou 1 ; sa loi est
donc déterminée par sa moyenne, que l'on calcule en utilisant les relations
(16.21). On a
P(X„+l = 1) = E(XW+1) = E[Pa(Y'''"'(X^, 1)] - E(Y„),
et donc
P(X„ + 1 = ]) =
On vient de montrer que la loi de X„, pour n £ |, est indépendante de n et
de c, ce qui n'est, a priori, ni évident, ni intuitif.
La martingale Y = (Y„)„€n* est bornée; elle converge donc P-p.s. et
dans tout hp vers une variable aléatoire Y^. La loi de Y^ est la loi bêta
de première espèce sur [0.1]. Une démonstration de ce fait est
proposée en exercice en fin de chapitre (ex. 12).
Remarque. Étant donnée une chaîne de Markov homogène de matrice de
transition M, pour tous n € fi. pour Px„-presque tout x € E et tout y € E,
on a l'égalité
M(x,y) = P<x"=*>(XH + ] = v).
On peut alors reformuler la proposition 16.8 pour les chaînes de Markov
homogènes.
Proposition 16.11 (Egalité de Chapman-Kolmogorov). SoitX une chaîne de
Markov homogène de matrice de transition M ; pour tous instants n.r.n + m
tels que 0 $ n < r < n + m, on a la relation de Chapman-Kolmogorov ;
pour tout y ç E MMi(X„. y) - '^Mr~n(Xntz)Mn+m~r(z,y),
ce qui s'écrit sous forme matricielle
M'"(X„, •} - Mr-"M"+'H~r(X„, •) ;
en particulier, on a, pour P(Xu xnypresque tous (xq, a*„.) et tout y € E,
p(Xo=xo....x„^)(x^+m y) = ?{X»=*)(Xfl+m = y) = Mm(x,y) . (16.24)
lt\ï- CHAÎNFS DE MARKOV : PROPRIÉTÉS GÉNÉRAL PS
AH
Proposition 16.12. Un processus X à valeurs dans E est une chaîne de
Markov (relativement à sa filtration naturelle) homogène de matrice de
transition M si et seulement si, pour V^x0,....x„)-pfesque tous (x0,..., xn~ltx)
ei pour tout y e E, on a
p(Xo=*o,-,\. = o(Xii+m _ y) ._ ?tx»=*\Xn+m =y)= Mm(x,y) . (16.25)
Démonstration. 11 est clair que la condition est nécessaire. Pour la
réciproque, on a, si 0 í n < m,
E(X"=^ [f(Xm)] = E<x«=*« x" = *> [/(Xm)]
- [P(Xo=-ï(lX"=x)(Xm = y) /0')] - Mm-»{x. f),
et, puisque
E£" [/(Xm)] =E?l=--"x" = "M/(Xffl)] o(X0,...,XB),
E^[f(Xllt)}^Mm-"(XnJ),
ce qui démontre que X est une chaîne de Markov homogène de matrice de
transition M, ?
Remarque. Si X est une chaîne de Markov homogène de matrice de
transition M et si / est une fonction positive ou bornée telle que M(-, / ) = /
{une telle fonction est dite harmonique), autrement dit si, sous forme
vectorielle, / est vecteur propre à droite de M associé à la valeur propre 1,
E*" [/(XB+1)] - M(XB, /) = ./XX.),
et le processus (f(X„))ne]-¡ est une martingale.
16.3.2. Propriété de Markov simple ; lois fini-dimensiomiellés
On généralise maintenant la formule (16.17) au cas d'une fonctionnelle
quelconque du futur7 d'une chaîne de Markov homogène après l'instant
n ; la propriété ainsi mise en évidence est appelée propriété de Markov
simple (ou faible); elle traduit l'homogénéité temporelle de la chaîne X
et dit qu'à tout instant «, l'espérance conditionnelle d'une fonctionnelle du
futur de la chaîne à partir de cet instant est la valeur moyenne de cette même
fonctionnelle évaluée sur toute la vie (à partir de l'instant 0) d'une chaîne de
même matrice de transition qtie X, mais qui. à l'instant 0. vaudrait X„. Pour
7. On entend pac là, une variable aléatoire mesurable par rapport à la tribu du futur large
après ]'instant n ; elle s'écrit sous la forme f(Xn, Xn+1,. - -), où / est une fonction mesurable
définie sur E1^ . Le premier temps de passage du processus X en un point après le temps n en
est un exemple.
4i8
CHAPITRE l6. CHAÎNES DE MARKOV
bien formuler cette propriété, on introduit les opérateurs de translation ôn,
n € N. de l'espace EN des suites à valeurs dans E dans lui-même, définis
par, pour tout v 6 EN,
la suite 6„(y) est la suite y à laquelle on a enlevé les termes y<>,..., j>„-i-
Une fonctionnelle dn futur dune chaîne de Markov X après l'instant n
s'écrit alors /(0„(X)), où / est une fonction définie sur EN.
Proposition 16.13 (Propriété de Markov simple). Soit X une chaîne de
Markov homogène de matrice de transition M; pour tout instant n et toute
fonction f sur EN, &®N -mesurable positive ou bornée, on a
EA»[f{9n{X))]=g(Xn). (16.26)
où g est une fonction mesurable sur E définie, pour tout x tel que P(Xo =
x) > 0. par
*(.v) = Ex=*[/(X)î ;
elle satisfait en particulier l'égalité
S(Xo) - E*> [/(X)]. (16.27)
Démonstration. On donne deux démonstrations de cette propriété. La
première n'est qu'heuristique, puisqu'elle fait abstraction des difficultés
apportées par les événements de probabilité nulle ; le temps y est utilisé dans son
sens naturel. La deuxième est rigoureuse mais plus formelle ; le temps y est
utilisé dans le sens rétrograde.
• Démonstration heuristique : par un argument de prolongement par
mesurabilité (utiliser le théorème 8.6, chap. 8), il suffit de démontrer (16.26)
pour une fonctionnelle / du type y i-> /¿(yo, ¦ ¦ ¦, yù, où k e N et fk est
une fonction sur Efc+1. Pour une telle fonctionnelle /, l'égalité (16.7) du
théorème 16.5 permet d'écrire que
E*" [/(0H(X))î - E^« [/(0fl(X))] = E^" [fk(Xn,..., X„-k)3 : (16.28)
mais, pour Pxn-presque lotit x G E, on a
E<X"=^[A(X„,... ,XB+t)] - E fk{x,yu.--.yk)
(y,,...,yft)eE*
xp(X„=,)(Xn ^x<X„ + l = yi,...,Xn+k yk).
D'après la formule des probabilités conditionnelles en cascade et la
propriété de Markov, on a, pour tout n € N,
P<X«=a-)(Xb = x,X„+1 = yt,.... Xa+k = yk)
- P{X"=*HXn + l = yilP^'^+'^'ÍX,,^ = x ¦¦¦
... x p(Xw =xt...,x„+k^=yA-i)(XM+* = yk)
= P<X"=*>(X„ + 1 - y,)P(x"+1=«)(X„+2 - y2) x -..
¦¦•x P<x»+*-l=«-i>(Xb+a - yk).
16.3. CHAÎNES DE MAKKOV : PROPRIÉTÉS GÉNÉRALES
et donc
^^(X^x^V,^,,...^^^)- M(.Y,yL)M(>'[, y2)
11 en résulte que. pour tout «ëN,
E<x„=*) [fk{Xn,... ,XK+t)] yu---.yk)
(j,l.-,.Vfc)€EA
x M(x, yi ?(y 1, y2)... M(yk-i. yk);
définissant la fonction g sur E par
g(x) = h (*. yi,---> va-) M(x, >-,)M(.v,-r-').M(>-t_,, jfc),
on a en particulier, pour « = 0,
?(Y) = E(X„=r> [/i(Xo Xk)] = E(Xo-*) [/(X)] ;
de plus, il résulte de (16.28) que
EA" tf(0„{X))]=g(X«),
ce qui démontre le résultat.
• Démonstration rigoureuse : par un argument de prolongement par
mesurabilïté, il suffit de démontrer (16.26) pour une fonctionnelle / du type
y h> Il/=o//Ov)' ûu k e N et où les /, sont des fonctions sur E. Le
conditionnement par rapport à la tribu A„+k-i, l'adaptation du processus
X et l'utilisation de l'égalité (16.17) permettent d'écrire
r- t
E*»[f($n(X))]=E*'
L/=o
r*-l
et donc
EA" [/(MX))] - EA« f] fj(Xn+J-)M(Xn+k„ufk)
Le conditionnement par rapport à la tribu A>n+k-2 et les mêmes arguments
permettent ensuite d'écrire
E*»[f(6n(X))\ = EA»\
rk-2
n//(X-.+y)M(XH+*_2,/k-,M(-,/ti)
420
CHAPITRE 16. CHAINES DE MARKOV
Mais, pour tout x € E, on a
- M^jf.-O/ufe-,)!^ M(yk-uyk)fk(yk)j
on a alors
r-k-2
x £ MpW-2, >-fc-i)M(>fc_], yk)fk-\ Ofr-i) fk(yk)
Une itération facile de ce procédé conduit à l'égalité
E*" [/<A(X))] - M(Xfl.yi)M(yi,y2)
(^i.-,J-A)eE*
... *M(yk-u yk)f(Xn. yu yk).
Définissant la fonction g sur E par
on a alors .
E [f(On(X))] = g{Xn) ;
de plus, ce calcul montre clairement que l'on a
g(Xq) - EA« [/CX)j ,
ce qui achève de démontrer le résultat. ?
Les lois fini-dimension n elles (c'est-à-dire les lois de tout vecteur de
composantes les états de la chaîne en un nombre fini d'instants) conditionnelles
à l'état initial X0 d'une chaîne de Markov homogène de matrice de
transition M sont entièrement déterminées par la matrice M.
Proposition 16.14. Soit X une chaîne de Markov homogène de matrice de
transition M,- pour tout x € E tel que P(Xo = x) > 0, on note Px la
probabilité conditionnelle p(x"=JE\ Pour toute suite strictement croissante
d'instants Si,S2, et tout x tel que P(Xo — .v) > 0, on a, pour tout
(¦Vl.A'2, .,.,Xk)€ Ek,
16.J. CHAÎNES DE MARKOV I PROPRIÉTÉS GÉNÉRALES
421
P,(X„ = xltXS2=x2....,XSk = Xk) = M»0\Xi)MJ»-"<x,.*a)
(16.30)
// en résulte que
P(X„ = Xl,XS2 = .v2... - ,X,A - xk) = P(X« = *) M"
M52"*' (.ï! , .r2)... M** (Jct-i, **) •
(16.31)
Démonstration. Comme pour la proposition 16.13, nous donnons deux
démonstrations.
• Démonstration henristiqne : d'après la formule des probabilités
conditionnelles en cascade et la propriété de Markov, on a, pour tout n € N,
P,(Xsl=x1( X,2=*2,.. ,,XSk=xk)= PXÇX^ =Xl)P^i =xl)(Xs2=x2)
...x P,Xii =JC1 x«*-i =x*-i>(X3k=xk)
= P,(Xi|=^1)P^i=*iHXia=x2)
ce qui démontre l'égalité ( 16.30), d'après l'égalité de Chapman-Kolmogorov.
Il suffit alors d'appliquer la formule des probabilités totales pour obtenir
l'égalité (16.31).
• Démonstration rigoureuse : le conditionnement par rapport à la tribu
' l'adaptation du processus X et l'utilisation de l'égalité (16.17)
permettent d'écrire
P.v(X„ =xuXS2 = x2,....XH
= EA- [lcx,,^.^ =x2 K^k_i=xk-t)Ex l(\,k =*A.»]
- E* [l(Xj| =,1,xi-^.v2,...,x.ï,_,=,>-l)M^-^-i(XJ,_|,^)]
par itération, on a alors
P.t(Xs1 -- xuXS2 = x2 XSk ~ xk)
= E,[lfX,1=„.x,::=v. x^^*.,)^-^.^. xN)M^-Vt-i.^)
= E^E^^oJM^X.v,, x2) . .M**-^*-X**-2. x^)Ms^-Kxk-uXk)
= EJMJ>(X0,JtJM^'fr,.x2> . .Mj*-'^-2^h)M™(^-i,^),
ce qui démontre l'égalité (16.30); l'égalité (16.31) s'en déduit
immédiatement. ?
412
CHAPHRF IIS. CHAÎNES DE MARKOV
On a une caraclérisation des chaînes de Markov homogènes
relativement à la filtration naturelle.
Proposition 16.15. Un processus X — (X„)«eN défini sur l'espace probabilisé
(Q,, A,P) est une chaîne de Markov homogène de loi initiale ¡1 (c'est-à-dire
telle que, pour tout x, P(Xo = x) = p(x)) et de matrice de transition M si et
seulement si on a, pour tous k e M* et tous xo, Xi...., xk SE,
P(X0=x0. Xj^Xj ,Xk=xk)={i(x)M(x0. x, )M(xu x2)... M(xk-i, xk).
(16.32)
Démonstration. La condition nécessaire est une adaptation simple de la
démonstration de la proposition 16.14.
Inversement, supposons que (16.32) soit vraie et soit / e bE
quelconque. On a, pour tous Xq, x2...., xk € E,
J OUi=x,hXi=xu.-.,Xk=xk)f(Xk + i)dP
= X f(xk+l)P(XQ -- Xq.Xx = x, Xk + i = xk+i)
- M(*)M(x0,x])M(x],.v2)...M(xfc_i,.YO f(x*+i)M(Xk,Xk+i)
= p(x)M(x0, x^Mfx,. .*,)... M(xk-i,xk)M(xk, f )
I M(Xk,f)dP.
J(Xf)=XQ,X\=xt X/, =xk)
ce qui démontre, avec les notations antérieures, que
E^ /(XJt+1) = M(Xft./),
et donc que X est une chaîne de Markov homogène de matrice de transition
M ; il est évident qu'elle est de loi initiale p.. ?
Remarque. En utilisant le théorème de prolongement de Carathéodory,
on démontre que, étant donné une probabilité fi sur E et une matrice
stochastique M indexée sur E x E, il existe une unique probabilité PM sur
l'espace probabilisable (EN,£®n) telle que le processus X — (X„)„eN
des coordonnées soit une chaîne de Markov homogène de loi initiale \i et
vérifiant, pour tous k e N* et pour tous .v(). Xj,. > >, xk, l'égalité (16.32),
Cette chaîne est appelée chaîne de Markov homogène canonique de loi
initiale p et de matrice de transition M. Ce résultat est un cas particulier
du théorème de Ionescu-Tulcea.
16.3.3. Loi initiale; propriété de Markov forte
Dorénavant, on ne s'intéresse plus qu'aux chaînes de Markov
homogènes. Elles possèdent la propriété de Markov forte, c'est-à-dire l'analogue
| (M- CHAÎNES DE mahküv : PROPRIÉTÉS GÉNÉRALES
423
de la propriété de Markov simple (ou faible) dans laquelle les temps fixes
sont remplacés par des temps d'arrêt. C'est à l'aide de cette propriété
fondamentale que nous démontrerons les principales propriétés des chaînes de
Markov. Pour bien la formuler, il est utile de savoir faire partir une chaîne de
Markov homogène selon une loi initiale donnée, ce qui justifie la définition
suivante :
Définition 16.16. Un processus X à valeurs dans E est. dit chaîne de Markov
homogène sur la base de processus (Q, A.(An)ne:-\, P) de loi initiale v et de
matrice de transition M si
(a) Pxo = v.
(b) X est une chaîne de Markov homogène de matrice de transition M sur
la base de processus (Q, ^,(<Art)rteN. P).
Remarque. Avec les notations précédentes, si, pour .v e E, X est une chaîne
de Markov homogène sur la base de processus (Q, «A.IAîWm, P) de loi
initiale Sx (on a donc P(Xo = x) — 1) et de matrice de transition M, alors
P* =P.
La proposition suivante montre que, si on sait faire partir une chaîne
de n'importe quel point x, on sait la faire partir avec une loi initiale v
quelconque.
Proposition 16.17. Supposons que, pour tout x e S C E, X soit une chaîne
de Markov homogène sur la base de processus (Q. A,(An),içm,Px) de loi
initiale Sx et de matrice de transition M. Soit v une. probabilité sur E telle que
v(S) — 1. La fonction d'ensembles P„ définie sur A par, pour tout A e A,
P,(A) = £>(x)P,(A)
.V€s
est une probabilité sur (fi. A) et X est une chaîne de Markov homogène sur
la base de processus {Q.,A,(An)n^,'PK.) de loi initiale v et de matrice de
transition M.
Démonstration, Bien sûr, Pv(0) — 0 ; de plus. Pv. est a-additive : si (A„)„eN
est une suite d'événements disjoints, on a, les P* étant des probabilités,
^(yAH)-E,!w[E^(A«) •
et, puisque les termes sont positifs,
Pu(|+) A„) = £[£>i,v>P((A„)] = £P„(A„),
héN n = r; jres «en
424
CHAP11KF. l6. CHAÎNES ÜB MARKOV
De plus, par les procédés usuels d'intégration, il est facile de montrer que,
pour toute variable aléatoire positive ou bornée Y, on a
E,(Y) = 5^v(jc)E.v(Y),
où E„(resp. E*) désigne l'espérance par rapport à Pv (resp. P*).
Soient alors des entiers m,n tels que n < m et / e bE; pour tout
A e A» on a
E„[1A /(X,„)] - y(x>E*I1a /(x«)J = H v(x>E* [1a Eí" /(X™)] -
et donc, par application de l'égalité (16.17) aux P^-chaînes de Markov
homogènes,
E„ [1a /(X.)] =J2 v <*) E* [!a Mm"" (X„, /)! = E„ [1A M"~b (X„, /)] ;
*€S
Mm_"(XH, /) étant A„ -mesurable, il en résulte que
E^"\f(Xm)] = Wim-n(Xn,f), (16.33)
ce qui démontre que X est une chaîne de Markov homogène sur la base
de processus (£2, =A,(^„)„éN. P,,). De plus, pour tout B € S, on a, par
hypothèse,
P,(X0 e B) = £\(jc) P,(Xo € B)=5Zu(x)5^(B) = v(SnB) = v(B),
ce qui démontre que X est de loi initiale v pour P„. ?
Pour compléter cette proposition, on montre comment, disposant d'une
chaîne de Markov homogène sur la base de processus (Q, A,('Â>n)neN, P).
on peut faire partir cette chaîne de PX()-presque tout point de E.
Proposition 16.18. Soit X tine chaîne de Markov homogène de matrice de
transition M sur la base de processus (Q, -A,(Aî)«eN, P)- Pour tout x € E
tel que P(X0 = x) > 0. on définit la probabilité Px — P( • | X0 — x).
Alors, X est une chaîne de Markov homogène sur la base de processus
(fi, eA,(A,)«eN> P*) de loi initiale 8X et de matrice de transition M.
Démonstration. On a bien, par définition,
P,(Xo = *)=P(Xci=x'(X0 = *)= 1
et donc Xu(Px) = 8X. Par ailleurs, pour toute variable aléatoire positive ou
bornée Y, on a ^
E'(Y) = p(x^)E(l«-'Y)-
j6-3- chaînes de markov : propriétés générales
425
Soient alors des entiers m,n tels que n < m et / e bE; pour tout A € An
on a, puisque (X0 — x) H A <e A„,
ce qui demontre que X est une chaine de Markov homogene sur la base de
Remarque. Les deux dernières propositions permettent donc, partant d'une
chaîne de Markov homogène X de matrice de transition M sur la base de
processus (Î2,eA,(Aî)„eNîP) de construire, pour toute probabilité v sur E
de même support que PXo, une probabilité P„ sur (fi, A) telle que X soit une
chaîne de Markov homogène sur la base de processus (fi, =A,(=A^)^eN, Pv)
de loi initiale v et de matrice de transition M.
Avec les notations précédentes, on peut reformuler ainsi la propriété de
Markov simple énoncée à la proposition 16.13 :
Proposition 16.19 (Propriété de Markov simple). Soit X un processus qui,
pour tout x e E, est une chaîne de Markov homogène sur la base de processus
(fi, A,(A„)„eïh,Px) de loi initiale Sx et de matrice de transition M. Pour tout
fonction f sur EN, &®N -mesurable positive ou bornée, on a
Remarque. 11 faut bien comprendre que EXra [/(X)] désigne la valeur en X„
de l'apphcation x \-> e*[/(x)].
Proposition 16.20 (Propriété de Markov forte). Soit X un processus qui,
pour tout x € E, est une chaîne de Markov homogène sur la base de processus
(fi, =A,(=A«)í¡eN1í,x) àe loi initiale Sx et de matrice de transition M. Alors X a
la propriété de Markov forte, c'est-à-dire que, pour tout fonction f sur EN,
Ê®N-mesurable positive ou bornée, pour tout temps d'arrêt T et tout x e E,
on a
Mm n(Xn, f) étant An-mesurable, il en résulte que
EÍ» [/(x„)]=m™-"(xb,/),
processus (Î2,d4>,(Ai)fi€N,P;e)-
?
ï/(0B(X))] = e*, [/(X)].
(16.34)
eî* [i(T<+oo) m
(X))] = lfr<+oo)ExT [/(X)] .
(16.35)
426 chapitre l6. chaines de markov
neiv
Corollaire 16.21. Avw tes mêmes hypothèses qu'à la proposition 16.20, soit
T un temps d'arrêt fini; on définit le processus Y et la filtration (i8„)„Gr.j par
Yn = XT+„ et 3Hn = AT+n, si n e N. i^our rowï x € E, Je processus Y est
m«<? chaîne de Markov homogène de matrice de transition M sur la base de
processus (Q, A.(Bfl ),(Gn , P.( ).
Démonstration. Pour tous /' e £E et tous entiers m et n tels que m < n,
Ef" [/(YB)] - E^+» [/([^r+m(X)]n_n()] .
soit, d'après la propriété de Markov forte,
Ef" Ï/(YB)1 = EXT+fn [/(XB-M)] ,
et donc, d'après (16.17),
Ef"' [/(Y,,)] = M"-m(Xn.+Mt f) = M"-m(Ym.f),
ce qui démontre le résultat. ?
16.4. Visites à un état fixe
Dans cette section, on se donne un processus X qui, pour tout „v e E. est
une chaîne de Markov homogène sur la base de processus (Q ,A,ÇA^„^s, Px)
de loi initiale Sx et de matrice de transition M. On étudie les temps d'entrée
Démonstration. Pour tout « e N, on a
1er-) EfT [Woo) /(*r(X))] = I(t^, E^" [1(T<+0Û) /(tfr(X))] .
et donc, puisque (T = n) & An,
l(T=rt) E* r [1(T<+^, /(ftr(X))] - E?» [l(r=w> 1(t<+^» /(é«t(X))] -
Il en résulte que
lrr^E, [l(T<+oo)y(er(X))J-j 0 si„=+oc.
Ainsi, d'après la propriété de Markov simple, on a, si n e N,
1er-«, E*' [1^+^, /(tfr(X))] = 1(T=W) E?» [f(On(X))]
= Ex„ [/(X)]
= l(r=B)ExT[/(X)] .
On a alors, puisque le terme correspondant à n = +00 est nul :
/(0r<X))] - ^ l(t=H)EXl[/(X)] - lrT<+oo)ExJ/(X)]. ?
lfj-4- VISITES À UN ÉTAT FIXE
des trajectoires de X dans une partie B et plus spécialement, lorsque B est
un singleton, les temps de passage en des points de E, Cette étude conduira
à une classification des points de E suivant le comportement qu'a la chaîne
vis à vis d'eux.
Notations. Si B est une partie de E, on note, avec la convention inf 0 = +00,
Tb — inf(« € N* | X„ e B) et NB = ]T lcx,eB) ;
ce sont respectivement le premier temps d'entrée dans B après l'instant I et
le temps passé dans B par la chaîne durant toute la vie de ce processus ; en
particulier, si B — {y}, où y. e E. ces quantités sont notées simplement Tj,
et Ny. On définit de manière analogue des fonctionnelles tq, hb> et ny sur
EN par, pour tout m e EN.
rB(w) - int'(/! e N* ] u„ e B) et nB(w) = ]P l(Wy-eB) :
on note Ty — T{y) et ny — n^j. Le lemme suivant sera d'application
constante par la suite et permettra de se mettre en situation d'appliquer
la propriété de Markov forte.
Lemme 16.22. Avec les notations précédentes, on a Tb = tb(X) et, pour tout
p € N*,
sur (Tb > p) TB = p + rB [Mx)] ;
en particulier
sur(Ty > p) Ty = p + zy[$p{X)]
On en déduit que, pour tout temps d'arrêt T, on a
sur (Tg > T) H (T < +oo) TB = T + rB [9T{X)\
en particulier
sur (Tv > T) H (T < +oo) Tv — T + Ty [Or(X)]
(16.36)
(16.37)
(16.38)
(16.39)
Démonstration. Il suffit de constater que. sur (Tb > p).
rB[^(X)] - inf(« e N* | X,f?eB)
= inf(n ^ p+l\ XneB)-p = TB-p.
Pour obtenir (16.38), il suffit alors d'appliquer (16.36) sur les ensembles
(T= />)nnv > p),peN*. ?
Notations. On définit de même par récurrence la suite des temps d'entrée
dans B par
Tb - 0, TB = TB, T^1 - inf(« > TPB | X„ e B) ;
428
CHAR11RE lft. CHAÎNES DE MARKOV
en particulier, si B = {y}, ces temps sont notés simplement Tpy (T£ est la
date du /j-ième passage en i1). On démontre alors de même la relation
sur (TB < +co)
en particulier,
1 R - 1 r + ïb
-*<X)] ;
sur(T?<+oo) T*+I = T* + r,
otp (X)
(16.40)
(16.41)
16.4.1. Étude de la suite des temps de passage en nn point
Proposition 16.23. Avec les notations précédentes, pour tout p g IH*.
Tg est un temps d'arrêt, Pour tout x.y g E, la suite (Tp.)p^ est une
chaîne de Markov homogène ci valeurs dans N* sur la base de processus
(Q.A,(ATp)peN*,Px).
SiPyÇTy < +oo) = l (c'est-à-dire si la cliaîne partant de y retourne en
y en un temps fini Py-p.s.), on a, pour tout p g N*, PV(T£ < + co) = 1, et
par conséquent aussi P\. (Ny — +oc) — 1 ; de plus, la suite (Y!'+1 — Ty)Pe
des intervalles de temps entre deux passages en y est une suite de variables
aléatoires (définies et finies Py-p.s.) Py -indépendantes, de même loi (sous Pv )
que celle de Ty.
Démonstration. • On sait déjà que Tg est un temps d'arrêt; si p > 2, X
étant adapté, on a, pour tout n e N*,
n
ce qui démontre que est un temps d'arrêt.
• Pour toute fonction bornée / sur N* et tout x de E, on a, d'après
l'égalité (1638),
(16.42)
+ E.T- [V^+C0) /(+oo)]
soit, puisque <T£ — + co) g Atp et que (T£ = i) g Ai,
^lm+X)]=J2 \tç.^[m + *y ?(X)])] + l(^=+ooî/(+oo).
Par application de la propriété de Markov simple (la propriété de Markov
forte ne s'applique pas ici), on a
l6-4 VISITE? À UN ETAT mt
E, Tv [/(TJ+1)] = V^.E*; [fd + ^(X))] + /(+00) -
Puisque Xy(X) — TJ. et que, par définition de Tpy, sur (T^ — /) on a
X, — XT/> = y, il vient
E/? [/(T^1)] - £ V^oE, [/(/ +Ti)] + 1(T,=+oû)/(+oo).
Définissant la probabilité de transition N sur N* par
N(,/)=l £[/(«+T-,] .weN-,
1 J ' \ /(+OO) SI I = +00,
on a alors
E*1* [/<T'+,ï] = £ lrrS=0NO\ /) + l(T? = +oo)N(+oo, /) .
soit encore
E^T" [/(TJ+I)] = N(T*./):
(16.44)
ceci démontre que le processus (T^)^eN est une chaîne de Markov
homogène à valeurs dans N* de matrice de transition N donnée, pour /, / G M*,
par (prendre / = 1{ })
[ ?V{T\. = j-i) si/, y e PTety-i 5 1,
0 si y $ i
?y{Ty = -foc) si / e N* et j = +00.
1 Slî — j — +0C .
Prenant / — ln* dans l'égalité (16.43), il vient
N(/,1:H =
Py(Vy < +OO) Si 1 G
0
si 1 = +00 .
ce qui conduit, en reportant dans (16.44). à l'égalité
Vrf+'<+«>>
Il en résulte, en prenant la E^-moyenne de chacun des membres de l'égalité
précédente, que
P,(TW < +00} = P,(T£ < +oc)Py(T' < +00).
'y
43«
CHAPITRE l6. CHAÎNES DE MARKOV
et qu'en particulier.
P,(TJ+1 < +°°) = ?y(Ty < +oo)-Py(Tl < +00).
Si P,(Tj, < +oo) = 1, on a donc pour tout p s W, PV(T£ < +00) = 1 ;
de plus, puisque la suite d'événements (Tp < -foo) est décroissante et que
P^(Ny = +00) - limp Py(T£ < -fco) - 1 .
Enfin: pour toute partie D de N*, sous cette hypothèse, on a, d'après
l'égalité (16.41),
EVT'' [1d(TJ+1 -Tp] = E^ [ipP^W, [«r?(X)])] .
soit, d'après la propriété de Markov forte,
E^[lD(TJ+1-TJi] =1(T?
y<+oo) E.\tp
[1d(t,(X))J
- I^^^E^IdCT],)] ,
et donc
[1D (Tp+i - TJ)] = Py [Tj. e D] .
Il en résulte tout d'abord que les tribus Atp et cr(T£+l — Tp,) sont Yy-
indépendantes : puisque ceci est vrai pour tout p, on en déduit facilement
la T'y-indépendance des variables aléatoires T£+l — Tp. De plus, en prenant
la E^-moyenne de chacun des membres de l'égalité précédente, on a
Py [(Tp+1 - Tp € D] = P„ [Tj, € D] ,
ce qui, vu l'arbitraire de D montre que Tp+l — Tp et Tj, ont même loi sous
16.4.2. Lois du nombre de visites d'un point et dn premier temps de
passage en ce point
Comme nous allons le voir, nombre de visites d'un point y et premier
temps de passage en ce point sont intimement liés.
Proposition 16.24. La loi du nombre Nv de passages en y pendant toute la
vie du processus est donnée (avec la convention d'écriture 0° = \), pat
• si X 7e y,
Yx(Ny = m) = P,(Tj, < +oo)P,(T| - +00) [P.V(TJ, < +00)]
si m e N*, et
P,(N, =0) = P,(TJ =+00) ;
m-l
l6-4- VISITES À UN ÉTAT FIXE
431
• Aï X = y,
Py(NJJ=m)= Pj>(Ty = +00) [P,,(TJ, < +oo)]m_1 «meN*.
Autrement dit, si 0 < Py(Tly < +00) < 1, la loi de Ny sous Py est la loi
géométrique sur N* de paramètre Py(Tj, — +oû).
Démonstration. L'événement (Nr — m) = ŒZ/£n l(x,-=y) — m) est
l'ensemble des trajectoires qui passent exactement m fois par y à partir du
temps 0 ; or, pour tout m e N*, on a
(52 1(X;=;> - m) =(T;,<+co) n (T$< + oo)rV-.
yeH*
• •• n (i7< + 00) n (t™+1-t™= + 00),
ce qui, en vertu de l'égalité (16.41), s'écrit
( Y, 1(*j=y) = m) = (T;< + oc) n {T2y< + oo)n
• • • fl (T? < + oc) fl (r, \eJy, (X)] = + 00) ;
En intégrant par rapport à P* et en remarquant que
(Tj < +00) fi (T2y < +oû) n ¦ • ¦ fl (T;" < +00) e Arn.
on obtient, par conditionnement par rapport à la tribu Atm,
p*(£ V^>) ='») =K>
jeN*
* (Ty <+00) n (Ty <+ooï n- ntT%' <+ooï
X Ex y (l(T^< + OÛÏ1lrr[É'Tm(XÏ] = + Oûï)
or, par application de la propriété de Markov forte (calcul déjà rencontré),
on a
E* * (lfT«<+0o) 1(rv[ftl5,P0]=+oûï) = V?<+~> EXtî, (l(tv(XÏ=+oo))
= l(i^<+aû)P>-(T} = +oo),
ce qui, en portant dans l'égalité précédente, donne
En tenant compte de l'égalité
1(T{1<+oû)n(T^<+ooïn...n(T^<+oûï
xP,(T} = +00).
(16.45)
43- CHAPURE ]6. l'MAÎNHS nE MAKKOV
(T7"1 < +co) n (T™ < +00) = (TJ < + cc) n (T™ -T7-1 < + co)
- (T';-' < +ccj n (ry tijy-i (X) < +00),
on obtient, par le même procédé de conditionnement par rapport à la tribu
AT,n-[. puis application de la propriété de Markov forte.
E.
1(T|<+oo)n(t2<+co)n-.,n(ï';'<+oo)]
= Ex-+co)n(n'-- + oc)n„.no',""'fa * (l<jrlV.' .,(.\)]<+ooj)
V.k+oo)nap-f'»)n...n(T?'-|<+oo)] ^'Oj <
ce qui, en reportant dans l'égalité (16.45), donne
J,"( l(X'=^ = = E-'ï[^,r|.--+oojntTj.-+oo)n-rnP,"-|^ + oo)]
x pv(t;, < +oo)p>.(t;. = +co).
Par itération rétrograde et par le même procédé, on obtient alors l'égalité
PA-( l(x; = vl=m) = Pï(t;< + <X))P3.(T; = + 00) [Pv(T;< + oo)]™"1 .
( 16.46)
- Si x ^ _y et m € N"*, on a
p,(N, - m) P,(J2^^y) = m) = = '»)•
et ("égalité (16.46) donne le résultat annoncé.
- Si x 7^ y et ni = 0. on il
P.(Ny = 0) = Pc(T;. - + 00),
- Enfin, si x = y, on a Pv(Ny = 0) = 0 et. si m e M*,
et l'égalité (16.46) donne encore le résultat annoncé. ?
On étudie maintenant le temps T[,.
Notations. Pour k e n* cl tous x, y e E, on note
F*(.v. v) - P,(T'. = k) et V{x,y) PX(T\. < +co).
= E,
il).4. visitas \ "N nxr.
Proposition 16.25. La suite des matrices Fk est solution du système itératif
suivant : pour tous x, y e E,
( PiU, y) = M(x, y).
En conséquence, la matrice F e.vi solution de l'équation matricielle déterminée
par : pour tous x, y e E,
F(.v. v) =M(jc,y) + M(jc,z)F(r.v). (16.48)
zf_h.\;vî
Démonstration. • Ou a Fi(.v. v) = P*(X[ = j) — M(v. v).
• Si A: > 2. sur (Tj, > 1), on a Tj, = 1 + ty [^(X)] et donc, par
conditionnement par rapport à la tribu Ai et application de la propriété
de Markov simple (après avoir noté que Xi est A¡ -mesurable)
= E,
l(Xi^)EXi (l(l+*y(X)=k))] -
soit encore
FttA-,>')=El[i(Xl^.)px.1(T; = k - d]= p*(x,=z)P_-(T;.=fc-i).
-eE\{.rî
ce qui démontre (16.47).
• On a
F(x.y) P,.(T;. < +00) = P*<T], =A) pk(x.y) .
ken* keN*
et donc, d'après (16.47),
F(.v.v) = MU,v) + ^[ J2 M{XiZ)*k-t{z,y)].
ce qui démontre (16.48), après permutation des sommes (à termes positifs).
?
On reformule les résultats obtenus à la proposition 16.24 à l'aide de la
matrice F et en donne, sans démonstration, des conséquences immédiates :
Proposition 16.26. Avec lex notations ei-dessus, on a
(a) si x 7^ v.
p ,m 1 _ i 1 -F^-r> sifn =
+34
CHAPITRE î6. CHAÎNES de MARKOV
(b) si x = y, (avec la convention d'écriture 0° — l),
Pv(Nj. m) = [\ - f(y. y)] [f(y. y)]'""1 5/ m g N'
(r) On a l'alternative suivante
P.v(N, < +00) =
1 f(y, y) < 1,
0 si F(y,y) - l.
- Si f(y, y) = l. on a Py(Nv = +00) = i et donc YLy{Ny) = +00,
- 5/ 0 < f(y, y) < l, la loi de Nj, Pv ta /0/ géométrique sur N* de
paramètre l — f(y, y),
- â7 f(y. y) = 0, o/i a Yy-p.s. nr = l.
£/7 particulier, le nombre moyen Ej,(Nv) de passages en y par la chaîne
partant de y à l'instant 0 est
1
E,(Ny) =
si¥(y,y) <
1 -f(y,y)
+00 si f(y,y) = 1 .
Définition 16.27. La matrice R (à termes dans N) définie, pour tous x. y g E,
par R(.v. y) = E, (Nv), nombre moyen de passages en y par la chaîne partant
de x à l'instant 0. est appelée matrice potentiel de la chaîne.
De la proposition 16.26, on déduit le corollaire :
Corollaire 16.28. Avec les conventions £ = +00 etO ¦ 00 = 0, on a
1
R(x,y) i l-f(y.y) W * y'
I f(x.y)R(y, y) 5/ x ^ y .
(16.49)
Remarque. En pratique, il est en général plus facile de calculer d'abord R
(on en verra une méthode de calcul ultérieurement) et d'en déduire f. La
proposition suivante montre que R est solution d'une équation matricielle ;
ceci permet, en particulier dans le cas où E est fini, de calculer R, aptes avoir
identifié ses éléments infinis.
Proposition 16.29. La matrice potentiel R vérifie l'égalité
au sens où, pour tous x, y e E, on a l'égalité, dans E , R(a.v) =
YLn^o M"(x- >' * -' d*-1 PUts> R est s°lution de l'équation matricielle
R(I-M) = (1 — M)R - I,
(16.50)
[6.5. Cl ASSIFICATION DES ÉTATS
435
où I est la matrice identité y) = I si x = y, 0 sinon).
En particulier, si E est fini et si Rn'a que des termes finis, I — M admet un
inverse et R = (1 - M)-1.
Démonstration. Par convergence monotone, on a
+00 +00
R(x,y) - X>*(l(xn=,)) = £M«(x,y);
il en résulte que
RM = MR = Y M" = R - 1>
!i = i
ce qui donne l'égalité (16.50). ?
16.5. Classification des états
Dans cette section, on se donne un processus X qui. pour tout x e E, est
une chaîne de Markov homogène sur la base de processus (fi ,A. (An)nem, P^)
de loi initiale Sx et de matrice de transition M. On classe les points de E
suivant leur fréquentation par les trajectoires de X.
16.5.1. Communication;périodicité
Définition 16.30. Si B est une partie de E, on dit que le point x g E conduit
à B si PA(TB < +oo) > 0. On note cette relation x B; en particulier, si
B = {y}, où y € E, on dit que x conduit à y et on note cette relation x —> y.
Proposition 16.31. La relation de conduction x —> y est transitive. De plus,
x conduit à y si et seulement si il existe n e N* tel que Mn(x, y) > 0.
Démonstration. • Supposons que x -> y et y z. L'ensemble des
trajectoires passant en z après être passées par y est contenu dans celui des
trajectoires passant en z, ce qui donne l'inclusion des événements
(Ty < +co) n (rz |>[V(X) < +oo]) C (Tz < +oo) ;
ainsi, on a
P, [(T, < +oo) n (Tz [6-iJX)] < +oo)] < ?XÇTZ < +co).
Conditionnement par rapport à A|v et propriété de Markov forte (calcul
maintenant classique) conduisent à la suite d'égalités
436 CHAPITRE IÓ. CHAÎNES DE MAHMIV
résume le fait que x conduit à lui-même, x conduit à y, y communique avec
z, z conduit à t et t conduit à lui-même. Les classes de communication sont
\x\, {y,z} et {t}. Sur ce graphe, on peut aussi mentionner les probabilités
de passage d'un point x à un point y du temps 0 au temps 1, autrement dit
les probabilités M(x, y), mais cela a moins d'intérêt.
PX[(T, < +oo)n(rr[drv(X)] < +00)]
= E.,|e* f> (1(T|.^ + oû)Vt-[P1>.(Xj]<+ix)))]
= Ex [l(Tv<+oo)ExTv.
= P.,(TV < +00) Py(T2 < +où) .
ce qui démontre que
0 < PX(T^ < +oo) Py(Tz < +co) < PJT; < +00),
el donc que .y z.
• Si x —> y ; puisque (Ty < +00) = (X„ — y), on a
/1er.'"
0 < PX(T, < +cû) <: £ P.V(X„ = y) = X NT(x, r),
«eN* «eiv*
ce qui démontre qu'il existe n e N* tel que M"(x, y) > 0.
Inversement, soit un tel n ; on a
0 < Mn[x, y) = P,(X„ = y) < P,(Ty < +oo),
et donc x conduit à y. ?
On déduit de cette relation transitive, une relation d'équivalence en la
symétrisant :
Définition 16.32. On dit que x communique avec y si x conduit à y et y
conduit à x ou si x et y coïncident; on note cette relation x <—> y.
La relation de communication est une relation d'équivalence et ses classes
d'équivalence sont appelées classes de communication ou classes
irréductibles ,' en particulier, s'il n 'existe qu 'une classe de communication (c'est-à-dire
si tous les points communiquent), on dit que la chaîne est irrédnctible.
Il est habituel d'associer à une chaîne de Markov de matrice de transition
M un graphe dont les sommets sont les points de e, ces sommets étant reliés,
s'ils communiquent, par des flèches indiquant le sens de communication ; par
exemple, ce graphe
|(VS- Cl.ASSiri('A]lDN |DLS ÉTAIS
¦137
Lxemple 16.9. 1. Si E = {1, 2, 3,4. 5} et si M est la matrice
/2 , „ .. A
4
0
0
-^00
Le graphe associé est
ou, si on veut
visualiser les
états,
1
2
3
4
5
1
(**
3
0
0
0\
1
3
2
0
0
0
4
4
3
0
0
0
1
0
1
2
4
0
0
0
—
3
5
1°
0
0
1
il y a donc exactement deux classes de communication Ej — {1,2} et
E2 — {3, 4. 5} ; ici apparaissent deux chaînes de Markov homogènes sous-
jacentes à valeurs respectivement dans Ej et E? de matrices de transition les
sous-matrices de M, Mj et m2, données par
et
2. Si E = {1,2, 3, 4Ï et si M est la matrice
ou, si on veut
visualiser les
états,
0
1
3
2
3
0
0
\
2
1
4
3
4
6
0
11
1
2
0
0
/
0
1
-(
i
0
1
\
0
1
0/
l
2
3
4
1
/0
0
]
3
2 \
3
2
0
0
1
2
1
2
3
l
4
3
4
0
0
4
[
\2
j.
0
0/
Le graphe associé est
On voit que tous les étais communiquent ; la chaîne est irréductible.
Cependant apparaissent deux sous-classes Ci = {1, 2} et C2 = {3, 4} telles que si
Kn e C0 alors X„+l € C| et si X„ e Ci alors X„+| € Q, ; ce sont ce qu'on
appelle des classes cycliqnes. Ovi est ainsi naturellement amené à définir la
notion de période d'un point.
438
CHAPITRE l6. CHAÎNES DE MARKOV
Définition 16.33. Soit x € E ; le plus grand entier d tel que l'on ait l'inclusion
{«£N'| m"(ï,.ï) > 0} c d H*
est appelé période de x et noté d(x) ; c'est le pgcd de l'ensemble
\n € N* | M"(x.x) > 0}; si cet ensemble est vide, on pose d{x) = 0. 5/
d(x) = 1, on dit que x est apériodique.
Proposition 16,34 (et définition), Soit C une classe de communication. Tous
les éléments de C ont même période, notée d(C). et appelée période de la
classe C. Si d(C) — 1, on dit que la classe est apériodiqne. Une chaîne de
Markov homogène irréductible et dont un point est apériodique est alors dite
apériodique.
Démonstration. Soient x,y e C. Puisque x et y communiquent, il existe k
et l g N* tels que Mk(x, y) > 0 et M'(y,x) > 0: il en résulte que
Mk+i(x,x) Z Mk(x,y)M!(y,x) > 0.
et donc que, d'une part, d(x) ^ I, et d'autre part que k +1 =0 (mod d(x)).
Remarquons que pour, tout n non multiple de d(x), il en est de même pour
n + k + / et qu'ainsi M't+k+l(x.x) = 0; on en déduit que
0 = Un+k+f(x,x) 5 M*(.v.y)M"(y,y)M/(y,.v-) £ 0.
et donc que M" (y, y) = 0, Par contraposition, on vient de montrer que
si M" (y,y) > 0. alors n est multiple de d(x). Il en résulte en particulier
que, puisque M''(v,(>\y) > 0. d{y) est multiple de d(x), et donc que
d(y) ? d(x). Par symétrie, on a aussi d(x) ^ d(y). ce qui démontre l'égalité
d(x) = d(y). D
Soit C une classe de communication de période d > 1 et soit xo £ C.
Tout point x € C communique avec xQ ; soit t e N' le plus petit entier tel
que Mk(x, xQ) > 0. On a, pour tout n e N*,
M"+*(a-o,.Yd> ? M"teo,.i)Mfr(*,.x-0),
ce qui montre que, pour tout n g N* tel que M"(x0.x) > 0, on a
M"+fe(xo, A'o) > 0, et donc, puisque xo est de période d, que n -h k = 0
(mod d). Ainsi, il existe un unique entier j e {0, 1,.... d — 1} (j est le
reste de la division euclidienne de —k par d) tel que l'on ait l'implication
M"(x0, x) > 0 => n=j (mod d) .
On définit alors les classes cycliques C/, j = 0,1 .... d — 1, de C de la
manière suivante :
C, — {y g C l M"(x0>y) > 0 n = y (mod d))
j6.5- classification des états
439
autrement dit y € C, si et seulement si
{n € N* | M"(x0,y) > os C j +dN* .
Les Cj, j: = 0,1,..., d — 1, forment une partition de C. De plus, si x € Cy
et si y est tel que M(x, _y) > 0, alors _y G CJ+l (moci d). En effet, soit n tel que
MK(x0. x) > 0; il est alors congru à j modulo d et on a donc n + 1 = j' + 1
(mod d) et, d'après ce qui précède, )' e C/+i.
Pour tout n G N*, Xj+nd £ Cy PAy-p.5. et la sous-chaîne (Xj+nd)neN*.
partant de x0 e C„ à l'instant 0, est une chaîne de Markov homogène à
valeurs dans Cy, de matrice de transition (Md(x, y))Xtyl=c., irréductible et
apériodique.
Pour illustrer ces premières notions, on reprend le modèle de diffusion
d'Ehrenfest.
Exemple 16.10. (Modèle de diffusion de chaleur de Ehrenfest; suite.) On
considère le modèle de Ehrenfest, décrit sous sa forme de tirages de boules
dans une urne (voir l'exemple 16.2, dont on reprend les notations); on
note Xn le nombre de boules rouges contenues dans l'urne à l'instant n.
Puisque les tirages successifs sont uniformes, le processus X = (XH)„eN
est une chaîne de Markov homogène à valeurs dans l'intervalle d'entiers
[0, 1 ,m], de matrice de transition M donnée par
k k
- si t ^ k ^ m - I. M(k,k + 1) = I , M0t.fr - 1) = —, et
m m
M(k,l) = 0si/^A-loufc+l,
- et (conditions frontières)
M(0,1) = 1, M(m,m - 1) = 1. (16.51)
Autrement dit, la matrice de transition M est donnée par, pour tout
k € [0. 1 m],
M{k,k + 1) = pk , M(k,k- 1) = qk .
où ,
k k
Pk = 1 , qk = — ¦
m m
Il est clair que tous les points de E communiquent ; la chaîne est donc
irréductible. De plus, 0 est apériodique : il en est donc de même de tous
les points de E. Ainsi, la chaîne de Ehrenfest est irréductible apériodique.
Remarque. Ce modèle est un cas particulier des processus de naissance et
de mort (voir ch. 16. exercice 4) ; ici les barrières 0 et m sont réfléchissantes,
c'est-à-dire vérifient les conditions (16.51).
440
CHAPITRE IÓ. CHAÎNES DE MARKOV
16.5.2. Récurrence
Définition 16.35. Un point x est
- récurrent s/ Px (TJ. < +oo) = 1,
- récurrent nul s'il est récurrent et si EX(TX) = +oo,
- récurrent positif s'il est récurrent et si E.V(T].) <+oo,
- transitoire s'il n 'est pas récurrent, autrement dit si
p*(ti < +oo) < 1.
Remarque. L'état x est récurrent nul si la chaîne, partant de x, retourne
presque sûrement en x en un temps fini, mais « lentement ». Nous verrons
ultérieurement la raison de cette terminologie en étudiant le problème de
l'existence d'une probabilité invariante (cf. théorème 16.54).
Le lemme suivant est préliminaire au théorème de classification des
états.
Lemme 16.36. Pour tout x g E, on a
(a) pourtantp g N*, T>x(Tx < + oo) = [PX(VX < +oq)]p;
(b) L'ensemble Rx des trajectoires qui passent une infinité de fois en x,
défini par
Rx — lim sup(X„ = x) — (Nx — 4-oo),
n
est égal à (T£ < +oo) et vérifie
pen'
T>X(RX) = lim \ [P,(TÌ < +oo)]' :
(c) Le potentiel R(x, x), c'est-à-dire le nombre moyen de passages en x
lorsque la chaîne part de x à l'instant 0, est donné par
+OC
R(*.*> = £[P.v(Tj<+oc)f.
Démonstration. (a) C'est un corollaire de la proposition 16.23 ; nous en
donnons toutefois une démonstration directe. Puisque
(T£+1 < +oo) c (T£ < +oo).
la relation (16.41) permet d'écrire (en conditionnant par rapport à Atp. et
en appliquant la propriété de Markov forte) la suite d'égalités :
PA.(TfH <+oo) = Ex r? (l,
- Ex ^l(Tç<+0û)Ext^(l(r](x1<+co))
ai < +OQ) vi [0Tp (X)]--+ao)
1 A
l6-5- CLASSIFICATION DES ÉTATS
441
soit, puisque r'(X) — T* et que Xtp = x,
px(tp+l < - PX(T* < +oo)P.(T; < +00),
ce qui donne le résultat par itération.
(b) Par définition de rx et des temps de passage en x, on a l'égalité
rx = npeN*(T£ < +°°); il suffit a'ors de remarquer que la suite des
ensembles (T£ < -f 00) est décroissante pour obtenir le résultat.
(c) Par définition, on a
On note — 0. La suite des temps tp est strictement croissante ; de plus,
pour tout p. on a p ^ TÇ, ce qui implique que liinpT^ — -foc. On peut
donc partitionner N à l'aide des intervalles aléatoires [T£,T£+l[, p € N, et
écrire 1-
en remarquant que l'intervalle [T£, T£+1 [ est vide dès que T£ = +00, que,
par définition des temps T£, on a l(x„=^> = 0 pour tout n e]tp,tp+l{, et
que l(x p=x) = lsur(T£ < +c*o), on obtient
R(x, x) = £ E* [lfr£<+00)] = E P*<T' < +œ>
p&m perì
= E [V'Oi < +«»]' • d
Théorème 16.37 (Classification des états). On a Valternative
1. x est récurrent : dans ce cas, px(rx) — 1 et R(x,.\) — +CC/
2. x est transitoire, dans ce cas, px(rx) = 0 et R(x. x) < +00.
De plus, si x est récurrent et si x conduit à y alors y conduit à x. y est
récurrent et Py < +00) — 1.
Démonstration. L'alternative résulte immédiatement du lemme 16.36.
Démontrons la dernière assertion. Supposons que x soit récurrent et que x
conduise à y. Dire que la chaîne passe par y après être passée par x puis ne
repasse plus par x implique qu'elle ne passe qu'un nombre fini de fois par
x ; on a donc l'inclusion des ensembles
ai < +oo> n (Tj[0Ti<x)i < +00) n <r;(x>T, (X)j(X)] = +<*) c ri
(16.52)
CHAPITRE l6. CHAÎNES Ot MARKOV
Les deux derniers ensembles du premier membre font intervenir des
fonctionnelles du futur du processus après le temps Tx. Ainsi, en conditionnant
par rapport à -ATi_, en appliquant la propriété de Markov forte et en tenant
compte de ce que XT^ — x, on a :
P,[(Ti < +00)0(^^1 (X)] < +00) O (zî[04ldA(X)](X)] = +00)]
= EA[l(Ti(<+O0)E.ï(l(T^<.+0O)l(ii|^(X)]=+co)M
— px(TJ. < +00) EA-[l(Ti<+0O)l(ri_[É, (X)]=+0O)]-
En conditionnant maintenant par rapport à <ATi , en appliquant la propriété
de Markov forte et en tenant compte de ce que XTi = y, on a alors
P_v[(T; < +00) n (rly[0TUX)] < +00) n (^Ki^^fX)] = +00)]
= P.v(T; < +OC)Ex [l(T|,<+0o)E>'(1(rilX^ + oo))]
= Px(Tlx < +co)P,(T1) < +oo)Py(Tix - +00).
Il résulte alors de l'inclusion (16.52) que :
PX(TXX < +00) PX(T\ < +oo)P,(T[ = +00) $ Px(rcx). (16.53)
Le point x étant récurrent, on a, comme on vient de le voir, P^(R^) = 0.
De plus, puisque x conduit à y, on a P*(T', < +00) > 0. Il résulte alors
de (16.53) que Py{Tlx — +00) = 0, ou encore que Pr(Ti < +°c) — 1 ; en
particulier y conduit à x.
Enfin, y est récurrent ; en effet, puisque x et y communiquent, il existe i
et _/' € N* tels que M'(.v, y) > OetM;'(y, x) > 0. De plus, pour tout» € N*,
on l\
Mfl+' + /(y,y) £ M;(y,x)M"(x,x)M'(x.y).
et, x étant récurrent, on a aussi R(x,x) = ^2nen Mn(x,x) = 4-00. Il en
résulte que Y^n^i M"+f+;(y, y) = +00, et doncque R(y.y) = +00, ce qui
démontre que y est récurrent. ?
16.5.3. Comportement asymptotique et classification
La loi de X„ est donnée par P*(X,( = y) = M'l(x.y); il est souvent
impossible de la calculer effectivement, dès que la matrice M est trop
grande ou pas assez creuse. Il est donc important d'obtenir des résultats
asymptotiques.
Proposition 16.38. Si y est transitoire, on a, pour tout x € E, R(x. y) < +00
et lira» M"(x,y) = 0.
l6.5- CLASSIFICATION DES ÉlATS
443
Démonstration. On rappelle que (corollaire 16.28)
r 1
K(A,v)= 1 F(v.v)
[ F(x,y)R(y,y) six ^ y.
Le point >¦ étant transitoire, on a R(y, y) < +oo, et donc aussi R(x, y) <
4-oc. Puisque R(x, y) = 2]^=^M"(x,y), le terme général de cette série
convergente tend vers zéro. ?
Pour démontrer la proposition suivante, on s'appuie sur un lemme
d'analyse que nous donnons ci-dessous, sans démonstration. Il faut savoir
que ce n'est pas un résultat immédiat ; on peut en trouver une démonstration
dans le livre de W. Feller (An introduction to probability theory and its
applications, vol. 1, 1964, John Wiley and Sons Publishers, section XIII. 10
p. 306).
Lemme 16.39. So//(_/})/eN* une suite de réels positifs telle que' J]yeN* j) =
1 et pgcdjy j fj > 0} — 1. Soit (Mn)nei-! une suite de réels vérifiant
n
Wo = 1 . pour tout n € N*. U„ = '^jT^fj un-j ¦
l = \
La suite {un)„e» est convergente et
limw„ —
Proposition 16.40. Si y est récurrent apériodique, pour tout x € E, la suite
de terme général M"(x. y) est convergente et
lim M'l(x, y) = F{x-yì , (16.54)
E.v(T_i) ^ }
avec la convention ^ — 0.
Démonstration. Puisque (X„ — y) C (Tj, ^ «), on a
n
M"(x,y) = E,- [l(x„=.v)1(T^»j] = ]CE* [iw^y^a^j)]
j=\
ce qui donne, par application de la propriété de Markov forte (après
fi
conditionnement par rapport à A >' ),
444
CHAPITRE l6. CHAÎNES DE MARKOV
M"(.v.y) = ëe,.[l(Ti=y)e^ltX<f_>=y,]
j=i J
H
= EE-[1.Ti^)]Ey[l(xw_,-J-,])
c'est-à-dire
M"(.v, y) = ^F;-(x,y)M''--/'(y,y).
(16.55)
Supposons d'abord que x — y. On applique le lemme 16.39 avec
/} ~ ~F;(y> y) et un = M"(y, y). La relation (16.55) s'écrit alors, pour tout
n e N*, u„ = // Mais, si d = pgcd{_/ | _/} > 0}. on montre,
par récurrence à partir de cette dernière relation, que {n | itn > 0) C dN* ;
puisque y est apériodique, on a d = 1. Par ailleurs, y étant récurrent, on a
Yljtm*- F;0'. >') = Py(Tj, <+oo> = 1. Tenant compte des égalités
4-oo
F(y.y) - 1 et J^j fj = P,(Tj, - j) = Ey(Tly),
le lemme 16.39 établit l'égalité (16.54).
Si x / y, l'égalité (16.55) peut s'écrire
M"(*, v) - £[lo-^M"-''(y,y)] F^y). (16.56)
y = i
Interprétons cette somme comme l'intégrale de l'application
j»lUSn)Mn-S(y.y)
par rapport à la mesure X!y^a F/f-*- y)$j de masse finie égale à
^F,(.v,y) = PA(T; < +oo) £ 1 ;
;=i
remarquant que, pour tout n € N*, on a 0 ^ la-cn)Mn~J (y, y) =< 1, le
théorème de convergence dominée assure la convergence de la suite de
terme général M"(x,y) et démontre, compte tenu de la première partie,
que
timlvf (x.y) = £[lim i0SnJM*-'(y. y)] F,(x,y)
F(x,y>
= E
/=1 l
Fy(*,.v) =
E,(T»)
?
l6.g. CLASSIFICATION DCS ÉTATS
445
La proposition suivante donne le comportement asymptotiqne de la
chaîne relativement à une classe récnrrente périodiqne.
Proposition 16.41. Soit y un état récurrent périodique de période d > 1.
(a) Si x communique avec y et si x € Cy et y € Cr+a, où Cj, j —
0,1,..., d — 1, sont les classes cycliques de C, la suite de terme général
Mw<*+a (x, y) est convergente et
l\mMnd+a(x,y) =
By(Vy)
(b) Si x est quelconque, on a, pour tout a — 0,1,..., d — 1,
(16.57)
limM^+^y) =
-4-00 -, d
L; = 1 J
(16.58)
Démonstration. (a) Si a = 0, y est récurrent apériodique pour la chaîne
de Markov homogène (K„d)nen de matrice de transition Md ; on a alors,
d'après la proposition 16-40,
\imMnd(x,y) =
1
Ey(SJ) '
où Sj. = infOi € N* | Xnd - y). Puisque ?y(Sy = k) = Py(T\, = kd), on a
Ey(Sj,) = ±Ey(Ty), ce qui démontre (16.57) dans ce cas.
Supposons alors le résultat vrai jusqu'à l'ordre a < d — 1 et démontrons le
à l'ordre a + 1. On a
M
-l(xty) = ^M(x,2)M"(/+,3(z,y);
l'hypothèse de récurrence et le théorème de convergence dominée donnent
\imMnd+a+\x,y) =
M(x,z)
E,(TJ.)
E,(TJ)
zeE L
(h) D'après l'égalité (16.55), on a
nd 4-o
Mnd+"(x.y) = rAx-y?d+a-J(y,y).
/=1
Le point y ayant pour période d, M"'1*"-' (y, y) — 0.sauf si (ï-j edZ;
on a donc
CHAPITRE [6. CHAINES DE MARKOV
n
MBrf+B(.v./> - ^FH+,(^ï)MM|i(.vj)
¿=0
+00
= Y [l(k^)M(n-k^(y, y)] Fka+e(x. v).
A-=0
Puisque
+ 00 +ae
YFkd+a(X,y) = £P,(T; = fcd ^P,(Tj, < +oo) ^ 1,
k=Q k=0
on obtiem (16.58). par application de (16.57) et du théorème de convergence
dominée. ?
On déduit de cette proposition deux corollaires qui permettent de
trouver la nature des classes de communication.
Corollaire 16.42. Tous les états d'une classe de communication C sont
de même nature, à savoir, transitoires, récurrents positifs, récurrents nuls,
apériodiques ou de même période. La nature de la classe C est alors, par
définition, celle de l'un quelconque de ses points.
Démonstration. Soient x. y € C;
- Puisque x conduit à y, si y est transitoire, x l'est aussi (sinon, d'après
le théorème 16.37. y serait récurrent).
- Si y est récurrent apériodique, il en est de même de x, puisque x et
y communiquent (cf le théorème 16.37 et la proposition 16.34). De
plus, si y est récurrent nul, il résulte des propositions 16.40 et 16.41
que lim„ M" (y, y) = 0. Puisque x et y communiquent, il existe k et
/ € N* tels que M*(.v, y) > 0 et M'(y, .v) > 0 ; comme on a, pour tout
n € N*.
M"+*+/(y.y) £ M'(j\:v)Mw(x,x)M*(;c.y),
il vient lim„ M"(.v,,v) — 0, ce qui, toujours d'après la proposition
16.40, démontre que x est récurrent nul.
- Si y est récurrent apériodique positif, il en est de même de x, sinon,
d'après l'assertion précédente, y serait récurrent apériodique nul.
- Le reste de l'énoncé est la proposition 16,34. ?
Définition 16.43. Une classe de communication C est fermée (ou absorbante)
si, pour tout x e C, P^fTo < +00) — 0. (Arrivant dans une telle classe, on
ne la quitte plus.) En particulier, si la classe fermée C est réduite à un point, on
dit que ce point est absorbant. (Arrivant en un tel point, on ne le quitte plus.)
16.5. CLASStHCAMON DES ÉTATS
447
Corollaire 16.44. Soit C une classe de communication fermée. Si C est de
cardinal fini, elle ne contient ni état transitoire, ni état récurrent nul.
En particulier, une chaîne de Markov homogène irréductible et finie ne
contient que des points récurrents positifs.
Démonstration. Si les états de C étaient soit transitoires, soit récurrents nuls,
il résulterait des propositions 16.40 et 16.41, quitte à prendre une sous-suite,
que lim„ M"(x, y) = 0 pour tous x, y e C ; puisque C est fini, on aurait
lim Vm"(.v.}') - 0.
vec
Il y aurait contradiction avec le fait que C est fermée, puisque l'on aurait,
pour tout n e N*,
0=P,(TV< + co)=P,( U (X^C))^PX(X^C)-1 y).
fceN* yec
et, en passant à la limite. 0^1. ?
Définition 16.45. Un état x est inessentiel s 'il existe m € N * et y ^ x tels que
Mm(a'. y) > 0 et, pour tout n > m et tout 2 € E, M"(:. a) = 0. Autrement dit,
un état inessentiel est un état qu 'avec une probabilité positive la chaîne quitte
après un nombre fini (non aléatoire) d'étapes sans jamais y revenir.
Par exemple, pour la chaîne de Markov homogène X, à valeurs dans
E = {1, 2, 3,4}, et de matrice de transition M
M -
1
2
3
4
1
/0
1
0
1
o\
1
2
0
0
2
ô
1
ï
3
0
2
0
2
4
1°
0
1
0/
le graphe associé est
448
CHAPITKF. [6. CHAÎNES DF MARKOV
et on voit que 1 est un état inessentiel. Les autres états communiquent
tous; la chaîne restreinte à l'espace d'états {2,3,4} est alors irréductible,
récurrente positive de période 2.
Proposition 16.46. Un état incssenûef est nansitohe.
Démonstration. Soit x un état inessentiel ; soient m € N* et y ^ x tels que
M'"(x. y) > 0 et, pour tout n > m et tout z € E, M"(r, x) — 0. On a alors,
pour tout n > m,
MH+m{x,x) = ^Mm(x.z)M"(z,x) =0.
z€E
Il en résulte que R(.t. x) < +oc, et donc que x est transitoire- ?
En résumé, pour étudier le comportement d'une chaîne de Markov
homogène, on cherche les états inesseiuiels (ils sont alors transitoires), puis
les classes de communication des états essentiels (ceux qui ne sont pas
inessentiels). On cherche ensuite à préciser la nature de chaque classe à
l'aide des caractérisations étudiées précédemment.
L'exemple suivant met en évidence un des nombreux liens entre
martingales et chaînes de Markov.
Exemple 16.11. (Chaîne de Markov et martingale ; un exemple de modèle
génétique.) Soit X = (X„)new une chaîne de Markov homogène à valeurs
dans l'ensemble des entiers E — {0,1 , N}, de matrice de transition M. Si
le processus X est aussi une martingale par rapport à sa filtration naturelle
(«A«)«eN. pour toute probabilité P^ qui fait partir la chaîne de x à l'instant 0,
les points frontière 0 et N sont absorbants. De plus, si on définit les premiers
temps de visite en x par
ix = inf(n e N* | X„ = x) avec inf 0 — +oc ,
on a, pour tout x € E,
I Y I
(16.59)
s x
P*(ïN < r0) = —
En effet, pour tout x e E et tout / e &E, on a
E?" Ï/(X(I+1)1 = M(XB.^) - £/<y)M(XN.y):
en particulier, en prenant pour / l'application identique sur E (elle est
bornée), on obtient
E?°(X,) = $> M(X„.>').
vêF.
l6-5- classification des fiais
449
Puisque X est une martingale, en prenant la moyenne des deux membres de
l'inégalité précédente par rapport à PA, on a alors
E,(Xo) = E.V(X() X>E,[M(Xn,y)] = ^yM(x.y). (16.60)
yeE yeE
En prenant x — 0 dans (16.60), on a
N
0 = Eo(Xo) = >' M<°" -v) = £ y M(0' -v> '
ce qui démontre, puisque tous les termes sont positifs ou nuls, que M(0, y) —
0 pour tout y = I, N, et donc que M(0.0) — 1, c'est-à-dire que le point
0 est absorbant.
De même, en prenant x — N dans (16.60), on a
N-l
N - EN(X0) = X^M(N'^ = £j'M(N.y) + NM(N,N);
>-eE v=i
puisque tous les termes sont positifs ou nuls et que =o M(N, y) — 1 - on
a M(N. y) - 0 pour tout y — 0 ,N - 1, et donc M(N, N) = 1. Ainsi, le
point N est absorbant.
Puisque E est borné, la martingale X est équi-intégrable ; le deuxième
théorème d'arrêt appliqué au temps d'arrêt t0 a rN assure donc que
EA-(X0) — Ex(Xu|AcN)-
En particulier, on a
x = Et(Xo) - Ex [l(IN<I„, ¦ N + -0] -NP,(tn < t0).
ce qui démontre (16.59).
Application à un modèle génétique 8.
On considère une population qui se reproduit en gardant la même taille N. Un
indivjdn d'une génération possède deux alleles9 de type G ou g, si bien qu'à une
génération donnée, le nombre d'altèles est de 2N. On suppose que tes mariages
dans une génération donnée sont indépendants et uniformes parmi les individus
de ta population (en anglais, random mating), si bien que, si X« est le nombre
d'allèlesde type G existant parmi la population de la ra-ième génération, le processus
X = (X,j)„eiï est une chaîne de Markov homogène de matrice de transition M
engendrant les probabilités (on identifie le germe et ta probabilité)
Nf(7, . ) =
JB(2N, si l < i s 2N - 1 ,
V 2N'
Su si / — 0 ,
iï]si si / = N.
tf. Problème ifrudié par R. A. FisheT el S. Wrii>l]| ei formulé en termes de chaîne de Markov
pai G. Malécoi (C.R.A.S. 1944, pp. 379-381).
9. Pour quelques explications d'ordre génctÎL|iic. voir l'exomple 16.13 ci-après.
450
CHAPITRE l6. CHAINTS DL MARKOV
Ainsi, on a
En appelant E = {0,1,..., 2N} l'ensemble d'états, cela démontre queE^,x"?(X„-|-i)
= Xn pour tout x e E. Avec les notations ci-dessus, puisque X est une chaîne de
Markov et que E est fini, on a alors, pour tout \ e E,
E?" [XJ1 + I] = X„.
Il en résulte que les points 0 et 2N sont absorbants ; autrement dit, à long terme, il
ne restera plus que des allèles d'un seul type.
<2N> '
0
n
si 1 $ / $ 2N - 1 ,
si / = 0,
si i = n .
16.5.4. Critère analytique de récurrence
On donne d'abord un moyen de calcul de la probabilité que la chaîne
reste toujours dans une partie A de E. Pour cela, on note Q la restriction
de M à A, c'est-à-dire la matrice indexée sur A x A définie par, pour tous
x. y e A, Q(a . y) = MU, y). On a. pour tout n 2 2,
Qn(x,y) = Y Y, E 0{x.xl}Q(xi,x2)...Qixn_l,y)
a | sa X2&A x„~i€A
Pv(Xi e A Xn-j e A,X„ = y).
si bien que
P.,(X, e A..,., X„_j e A. X„ e A) = ^Q"(x,w = 0"U,A).
On note, si x e A.
/»(*)= p,
f)(Xy e A)
>-j=i
= Ton(x,y):
i—i
y e a
la suite de terme général f„(x) est alors décroissante et converge vers
/U-) = P«[a-eN-(X/ e A)].
Proposition 16.47. La fonction f définie sur A est solution maximale du
système
h = Qh 0 < h s£ l, (16.6L)
où, comme, précédemment10, on note h(x) — YlyeA G(x* v)^(>'V
f — 0, so/r supA.eA /(x) = 1.
II.», Pour J'inierprétaiion vectorielle des Jonctions voir in notation suivani la définition 16.6.
En particulier, on emploiera ici la notation Q /. bien adaptée au calcul vectoriel en place de
Q(-.f).
16.5. CLASSIFICATION DES ÉTAI'S
451
Démonstration. Puisque, pour tout .v € A, on a, par associativité et commu-
tativité des sommes (les termes étant positifs)
f»+i(x) = £[£Ql^)Q"(z,.v)] = ^Q(.v.r)[^Q"(z,>0"
yeA zeA z€A y€A
= QÂ(x).
on a fn+\ — Qfn. H en résulte que, par application du théorème de
convergence dominée, on a / = Qf ; de plus, on a bien sûr 0 ^ f =S 1.
Ainsi, / est solution du système (16.61); montrons qu'elle est maximale.
Soit h une autre solution du système. En notant 1 la fonction constante, on
a alors, pour tout n € N*,
h = Q?h^Qn\ = /„,
ce qui implique, par passage à la limite, h ^ /.
Enfin, si / est non nulle, notons c — supx€A fix). Par le même calcul,
on a, pour tout n g N*,
/ = QB / s QV =c/„,
et donc, par passage à la limite. / $ c f, ce qui implique que c ^ 1 ; puisque
de plus c :< 1 (car on a 0 ^ / ^ 1 ), on a c — 1. ?
Corollaire 16.48. Soit X une chaîne de Markov homogène irréductible de
matrice de transition M; soit Xo un point quelconque de E et Q la matrice
restriction de M à E \ {x0}. Pour que X soit récurrente il faut et il suffit que le
système
h = Qh O^h^l. (16.62)
ait pour unique solution h = 0.
Démonstration. Supposons que 0 soit Tunique solution du système (16.62).
La chaîne étant irréductible, tous les états sont de même nature. De plus,
en notant A — E \ {xQ}, il existe y e A tel que xo conduise à y. D'après
la proposition 16.47, la fonction f, définie relativement à cette partie A, est
solution maximale du système (16.62). ce qui implique, par hypothèse, que
Pj,[f~)/€N.(X/ € A)] = 0, soit encore que Pj,(TA() < +00) = 1. Montrons
que cela entraîne que xq est récurrent.
Par la propriété de Markov simple, on a, pour tout x € A et tous
ntp e N*,
n+p
j = p zeA
en passant à la limite en n (le membre de gauche est décroissant en n et le
membre de droite est susceptible d'application du théorème de convergence
452
CHAPITRE l6. CHAÎNKS DE MARKOV
dominée), on a, puisque / = 0,
+ 00
P,[f] (Xy € A)]= £]M*(jc. z)[limQ"(z, A)]= £mp(.y, z)/(z)=Q.
I=P ;fA z€A
Uen résulte que Px(liminfrt(X„ e A)) = 0, et donc que, pour tout x € A.
P,(N,<, = +co) ? Pv(limsup(X„ - x0)) = 1 - (1.6.63)
Mais, dire que la chaîne atteint y en un temps fini et passe en x0 une infinité
de fois est équivalent à dire qu'elle atteint y en un temps fini et passe en xq
une infinité de fois après avoir atteint y une première fois, ce qui s'écrit
(N*0 = +oo) n (Tj, < +oo) - (T; < +co) n {nxo[0Tl(X)] = +oo) :
en conditionnant par rapport à ,AT|. et en appliquant la propriété de Markov
forte, on a alors
PxotfN*,, - +co)n(T;, <+_<»)]
= E
= E
\t\.<+oo)
(X)
,(X)=+oo|)
= +oo)'
et donc
P*„ [(N^ - +co) n (Tj < +oo)] - P,0(T} < +co)PJ,(N,0 - +co).
Puisque, de plus, x0 conduit à y, il résulte de cette dernière égalité et de
(16.63) que
P*o(N*o= + °°) ^ p*o(T'< + oo)P>(N^0= + oo) — Pvo(T;.< + co) > 0.
Mais Vx0 (nto — +oo) ne prend que les valeurs 0 ou 1 ; on a donc Pvo (n^, =
+co) — 1, ce qui démontre que .v0 est récurrent.
Inversement, si x0 est récurrent, pour tout z € A, on a Pz (Tj.o < +oo) =
1 et donc /(z) = Pz(D/€k*(^j 6 a-)' ~ °^ la proposition 16.47 affirmant
que / est solution maximale du système (16.62), / est l'unique solution de
ce système. ?
Remarque. Le corollaire 16.48, d'apparence restrictive, puisqu'énoncé pour
une chaîne irréductible, est en fait d'usage général pour déterminer si une
classe C de communication est récurrente : il suffit d'appliquer ce corollaire
à la chaîne restreinte à la classe C qui, elle, est bien une chaîne irréductible.
Evidemment, tout ceci n'a d'intérêt que si E est infini.
calcul de la matrice potentiel, et de IT' < +00)
-153
16.6. Calcul de la matrice potentiel et de Px (t* < +00)
16.6.1. Calcul de la matrice potentiel
Soient x et y e E.
Si y est récurrent, il résulte de l'égalité (16.49) du corollaire 16.28 que
0 si F(x,y) = 0,
R(x,y) =
I +00 si F(.v,y) > 0.
Si y est transitoire,
- si x est récurrent, x ne conduit pas à y ; par conséquent, ¥(x, y) = 0
et R(.v,y) - 0 ;
- si x est transitoire ; notons D l'ensemble des points transitoires. Q et S,
respectivement, les restrictions à D x D des matrices M et R. Pour résoudre
ce cas, on s'intéresse globalement au calcul de S. Après une éventuelle
réindexation des points de E, en indexant en premier les points récurrents,
la matrice Mala structure de blocs
M =
K 0
L Q) '
K" 0
on a donc .
M" = U Q".
(prendre garde que L„ n'est pas une puissance de L) et, par conséquent,
/+00
«=o
+00
0
+00
\it=0
i=0
Ainsi, on a
En notant I la matrice identité sur D, on a alors
SQ = QS = S-I,
soit
(I-Q)S = S(I-Q) = I;
en particulier, si l'ensemble D des points transitoires est fini, on a
S — (1 — Q)'
454
CHAPITRE [6. CHAÎNES [IE MARKOV
16.6.2. Calcul de ¥(x, y) m Px(j\, < +oo)
Si x et y sont récurrents,
1 s'ils appartiennent à la même classe de communication,
nx-y)= ' 0 S,non.
Si v est récurrent et y est transitoire, f(a-, y) — 0.
Si a' et y sont transitoires, il résulte de l'égalité ( 16.49) du corollaire 16.28
qUe ' R(*.y)
fia. y) =
Si a ^ V .
my. y)
1 — — sinon.
R(y,y)
Si v est transitoire et y est récurrent, la réponse est donnée par les
propositions suivantes.
Proposition 16.49. Soit C une classe de communication récurrente. Pour tout
point x transitoire, on a, pour tout y e Q
F(.v,y) - PxOV < +oo).
Démonstration. On a évidemment, puisque y e C.
pxÇTly < +co) ^P,(TC < +oo).
Inversement.
P*(Tf/ < +00) = E,. [ifT^+oojVc^+oo)] + E.T [ifT^+oojVr^ + t»)] -
et par conséquent, en remarquant que
Çï\. = +co) n (Tc < +oo) c (Tc < +oc) n (xy [fhcOQ] = +oo) ,
en conditionnant par rapport à Atc, et en appliquant la propriété de
Markov forte, on a :
P,(TC < +oo) 5 Ejt [l,T. <+00)] + EA [%( „+ooï EvTcaa, =+OÔ))] ;
puisque C est récurrente et que y e C, on a ExT(_ ( 1(t|,=+oo>) = ^' ce *lu'
donne ainsi l'autre inégalité
P,(TC < +°o) ^ P,.(TJ < +qo) . ?
On note D l'ensemble des points transitoires et (C/)/eJ la famille des
classes de communication récurrentes. On va donner un procédé de calcul
de Px(Tcj < +co), pour tout a e D et tout j € J. Ce calcul est important,
[6.6. CALCUL Db Li, MATRICE HOIËNIïtL El DE P^ (tj, < + CO)
455
puisque, la chaîne partant d'un point x e D est « condamnée « à aller passer
la fin de sa vie dans une unique classe C,.
Pour cela, on définit le processus Y = (Y„)neN (sur les mêmes bases de
processus que X), à valeurs dans11 D U J par
Y„ -
_ | X„ si X„ g D .
i j si X„ c C, . j e J.
Proposition 16,50. Le processus Y est une chaîne de Markov homogène de
matrice de transition M donnée par
M(x,y) = M{x. y) six,y g D,
mu, y") = Y MU.z) = bj(x) six g D. j e J .
M(i". j) - SLj si i, j g J .
M(/..v) = 0 si i g J. x e D.
On utilise les mêmes notations qu'à la section précédente, à savoir Q est la
restriction àD x D de la matrice M et S = 5Zn"^o Q" • ®n définit la matrice B
indexée sur D x J par
V(jc,/) e D x J BU,y) = bi(x);
alors, pour tout U, y) g D x J,
P.v(Tc, < -foc) - (SB)(x,j).
; 16.64)
rappelle, qu'en particulier, si D est fini, S = (I - Q) '.
Démonstration. Si # est l'application de E dans D U J définie par
.y si x g D ,
/ si x e Cy , ./ g J ,
on a Y„— i'fXrt). Pour tome fonction / définie sur D U J et bornée, on a
E?" [/(YB+1)Ï = E?" [/ o giXn+l)} M(X„. / o g) . (16.65)
Puisque
f°g = f lD + XVU)lry.
on a, pour tout x e E, par linéarité de MU, • ).
11. Par abus de notation, on note D U J l'ensemble de tous les éléments de D auquel on
adjoint les éléments de J.
45^
CHAPITRE l6. CHAÎNES DE MARKOV
M(.y, fog)= M(x, / 1D) + /(y)M(.v, lc, )
jej
lDLx)M(x, / Id) + lCj (x) M(jc, f 1D)
+
^/a)id(a)M(x,ic, ) +£iQ(*)[X>o)M(.v,icy )"
en remarquant que. si a e D, M(x, 1c> ) = £j(+) = M(x, j) et que, pour
toutx g E, 1C/ (x) M(x, f Id) - 0, et 1Q (x)M(x, lCj ) - 3ylQ(.v) =
M(z',y')lQ(x),il vient:
M(x,/0£) = lD(x)
M(jc,/1d) +J]/(y)M(.v.y)
£ic,(*) X>(./)M(U)
= lD(x) M(x. /) + 1q (a) M(f, /).
î'Ej
On a alors
M(X„, / o g) = 1D(Y„) M(Y„, /) + 1,.(Y„) M(i, /) = M(Y„, /),
ce qui, en reportant dans l'égalité (16.65), donne
E^" [/(¥„+,)] = M(Y„,/),
et démontre que Y est une chaîne de Markov homogène de matrice de
transition M.
Puisque
Tcj - inf(n s N* | Xn e Cj) = mî(n e N* | Y„ — 7) = T, ,
on a, pour toutx € D,
P*(TC/ < -foc) - P^T, < +00) - P,
'-«EN1
mais, la classe C, étant récurrente, on a, P^-p.s.,
(Yn=j)C{Yn+i -7)
et donc
VATcj < +00) = lim / P*(Y„ 7) - limM^.v, 7).
¡6.J. MESURES INVARIANTES
457
Or, la matrice M ayant la structure de blocs
on a, pour tout n g N*,
Û» = (Qn B"
\0 I
avec
B„ = (I+Q + Q2 + --- + Q")B.
Il en résulte que
lim B„ = (X]Q")B = SB<
«=o
ce qui donne le résultat annoncé. ?
16.7. Mesures invariantes
La notion de mesure invariante pour une chaîne de Markov homogène
de matrice de transition M est essentiellement liée à son comportement
asympto tique.
Par la suite, E étant dénombrable, on identifie une mesure v sur E et son
germe. De plus, tenant compte de la dualité entre fonctions et mesures, et
conservant le point de vue vectoriel précédemment adopté, on identifie la
mesure v au « vecteur ligne » (v(x))x<ee ¦
Définition 16.51. Soit M une matrice de transition sur E. À toute mesure v
sur E, on associe la mesure uM définie par, pour tout y € E,
vM(y) - Y v(x) M(*> ?) ¦ (16-66)
On dit alors que v est une mesure invariante (relativement à la matrice de
transition M) si vM — v, autrement dit, avec les identifications ci-dessus, si
v est vecteur propre à gauche de M associé à la valeur propre 1. Une mesure
invariante qui est une probabilité est dite probabilité invariante.
Soient X une chaîne de Markov homogène de matrice de transition Metv
une mesure invariante (relativement à M) ; v est appelée mesure invariante de
la chaîne.
Remarque. Si v est une mesure invariante, pour tout a ^ 0, il en est de même
de la mesure av. De plus, si Vi et v2 sont des probabilités invariantes, toute
combinaison convexe de Vi et v2 est encore une probabilité invariante ; ainsi,
458
CHAPITRE [6. CHAÎNES de MARKOV
l'existence de deux probabilités invariantes distinctes implique l'existence
d'une infinité de probabilités invariantes.
Proposition 16.52. Soit X une chaîne de Markov homogène de matrice de
transition M admettant une probabilité invariante v. Si X est de loi initiale v,
pour tout n e N*, X„ est de loi v.
Démonstration. Pour tout y e E, on a, en notant E' = {x e E | v(x) ^ 0}),
P(X„ = y)=Y P(X« = *)P(Xo=J°(X„ - y) = x>(X> M"0,;y) ;
or
xeE' ^eE
£ v(x) M"(-*, y) = Y VW[e m(*' 2> m""1(z'
*eE 1-zeE ^
= l[l>(*)M(*,z)
*eE *eE SreE
KlA ^IVllA, Z y jlVl
z€E Lj:eE
soit, puisque y est invariante,
fvT_1(z, y),
e v(x) M"(x,y) = Y v(z) Mn-\z, y) ;
x€E zeE
autrement dit, pour tout n € N*, on a iiM" = uM™-1, et donc vM" = v. Il
en résulte que, pour tout y g E, on a P(X„ = y) = v(y). ?
On étudie le problème d'existence et d'unicité d'une probabilité
invariante, puis son lien avec l'existence d'une probabilité limite. On en déduit
un critère de récurrence positive pour une chaîne de Markov homogène en
terme de probabilité invariante.
Proposition 16.53. Soit M une matrice de transition telle que, pour tous
x, y g E, la suite de terme général M"(x, y) soit convergente et de limite
7t(y) indépendante de x. Alors
(a) la mesure n est invariante et de masse inférieure ou égale à 1, c'est-à-
dire que l'on a
7rm — n et >j 71 (y) ^ 1 >
y CE
(b) soit n = 0 (c'est-à-dire que, pour tout y € E, on a n(y) = 0), soit n
est une probabilité invariante.
(c) Si n = 0, il n 'existe pas de probabilité invariante pour M. Si n est une
probabilité invariante, n est l'unique probabilité invariante pour M.
Démonstration. (a) D'après le lemme de Fatou, on a
Vjt(j) = VlimlVfOï, y) ^ liminfVM" (;e, y) = 1 .
y£E yeE yeE
16-7- MESURES INVARIANTES
459
De plus, pour tout y e E, on a, pour tout x e E, jt(x) — lim„ M"(j, x), et
done
jtM(j) = J] limMw(j,x) M(x,j) ^liminf^]MK(j,x)M(x,j)
xeE
= liming M"+1 (y, y) = 7i(y) .
x€E
Autrement dit, jtM ^ jt. Supposons qu'il n'y ait pas égalité; il existerait
alors y0 tel que 7rM(j0) < x(yo) et °n aurait (puisque jtM $ jr)
Ejr^)>E E^w.j') = !>(*> j>(*,;v)]=][>(*),
jeE yeESreE *€E '-jeE
J xeE
ce qui est absurde. Par conséquent, on a jtM = jt ; ainsi, n est une mesure
invariante de masse inférieure ou égale à 1.
(b) Remarquons que si v est une mesure invariante de masse inférieure
ou égale à 1, on a, pour tout « e N*, vMn = v. Pour tout y e E, on a alors
v (y) = lim vm" (y) = limVv (x)Mn (x,y),
n n '
x€E
soit, par le théorème de convergence dominée et par définition de jt,
v(y) = £>(*) [limm"(xj)] = v(x) [jt(y)] (16.67)
et donc
XSE
V(y) = jt (y)
En particulier, si v = n, on a
jr(y) = jr(y)
ljc€E
(16.68)
ce qui implique le résultat annoncé.
(c) Si jt = 0, il résulte de l'égalité (16.68) que v = 0 et donc que, dans ce
cas, il n'existe pas de probabilité invariante pour M. Toujours d'après cette
même égalité, si v est une probabilité invariante, elle coïncide avec jt. ?
Le théorème suivant permet, dans le cas où E est infini, de savoir si une
classe de communication est récurrente positive et d'évaluer le temps moyen
de retour en un point.
Théorème 16.54 (Critère de récurrence positive). Une chaîne de Markov
homogène de matrice de transition M possède une probabilité invariante
n unique si et seulement si elle a exactement une classe de communication
récurrente positive C. Dans ce cas, on a
CHAPITRE l6. CHAÎNES DE MARKOV
?(?)= j EX(TX) *iX€°- (16.69)
( 0 sinon.
Démonstration. 1. Si X n'admet pas de classe récurrente positive, X n'a que
des états transitoires ou récurrents nuls, et, dans ces deux cas, il résulte
des propositions 16.40, 16.38 et 16.41 que lim„ M"(i, y) — 0, pour tous
x, y € E. La proposition 16.53 montre alors qu'il n'existe pas de probabilité
invariante.
2. Si X admet une seule classe récurrente positive C, deux cas se présentent.
• Si ? est apériodique, alors (proposition 16.40), pour tous x, y e C, on a
limM"(x,y)-—^- = 7T(>')>0,
limite indépendante de a e ? ; la restriction de M à ? x ? étant dans ce cas
une matrice de transition, il résulte de la proposition 16.53 appliquée à cette
matrice que n\c est l'unique probabilité invariante relativement à la matrice
M|CxC. ? en résulte en particulier que la mesure ? est une probabilité sur E,
invariante pour M. En effet.
- pour tout y e C, on a alors, puisque, pour tout x £ ?, ? (x) = 0,
tfOO = "ïc(v) = ^7r|cU)Mjcxc(-*-y)
???
= £]?(?)?(?,y) = £]?(?)?(?,}') = ??(>>) ;
??? ?€?
- pour tout ? ?. ?, remarquant que ? est une classe fermée, on a
M(x, y) = 0 pour tout x e C, et donc
^?(?)?(?,?) - Y ?(?)?(?,?) = 0 = ?(?).
xeE .Tecc
L'existence d'une probabilité invariante pour M est ainsi démontrée.
Démontrons l'unicité. Si v est une probabilité invariante sur E, il résulte
de (16.67) que, pour tout v e C, on a
?{?) = ?(?)^<?) + r(y)>
???
°U r(y) = Y UW [limM^x, j)] ;
???1'
autrement dit, pour tout y e C. on a
v(y) = x(y)v(C) + r{y).
16.7. mesures invariantes
46l
Il en résulte, en sommant sur les y de C, que
v(C) = 7t(C)v{C)+r{C);
puisque 71 est une probabilité sur C, on a alors r(C) — 0, et donc, pour tout
y g C, on a
v(y)=x(y)v(C). (16.70)
Par ailleurs, si y fi C. par hypothèse, y est transitoire ou récurrent nul ; de
toute façon, pour tout x g E, on a lim„ Mn(x,y) = 0, et, d'après (16.67),
Ainsi, v(C) — 1. et il résulte de (16.70) que pour tout y e C, on a
v(y) — 7t(y). La probabilité tt est donc l'unique probabilité invariante.
• Si C est périodique de période d, on note Ck, k = 0, I,... ,d — 1, les
classes cycliques de C, indexées comme à la proposition 16.41. On rappelle
que, pour tous k = 0, 1,d — 1 et tous x, y e Cfc, on a
\ïmUnd(x,y) =
n m(y)
où m(y) = Ey(T],). Démontrons que la mesure n définie par (16.69), soit
encore ^ I
si X g C .
jt(.v) = < m(x)
0
sinon
est une probabilité invariante.
- Si x <e C, on a
Mnd(x,x) = ^MK^1(x,y)M(j,x),
y€C
et, d'après le lemme de Fatou,
d = limMw(x,x) > ^liminfM"d^'(A-.y)M(y,x)
m(x)
<J-ir
= J2 E liminfMw-l(x,y)M(j,x)
lc=0*-yeCk
soit, si x g C¿0, et úk\ = ko — 1 (mod î/) avec 0 ^ k\ ^ d — \,
d
m{y)
d V \immîMnd-l{x,y)M{y,x) = V M(y,x),
¿—' « ¿—' m(v~\
>
m(x)
ce qui donne, puisque, M(y, x) = 0 si y ^ C*,,
¿"1 r-
d
n~dV)
E E
k=i)LyÇC/c
mi y)
M(y,x)
M(y,x);
462
CHAPITRE 16. CHAÎNES DE MARKOV
ainsi, on a l'inégalité
E
M(y,x).
(16.71)
Démontrons, qu'en fait, pour tout x <e C, il y a égalité dans l'inégalité
(16.71). Supposons qu'il n'y ait pas égalité ; il existerait alors x0 tel que
E
m(xo) f£ m(y)
M(y,x0).
et on aurait
E
1
e[e^^^)1=e[^em^.-)
jceC'-jeC
f£m(y)
ce qui est absurde.
Puisque il est à support dans C, on a alors
-i- = V -L- U(y, x) = T n(y) M(y, x) = nU(x) .
m{x) f£m(y) j£
- Si x (É C Pour tout y {É C, on a jr(y) — 0, et, remarquant que C est
une classe fermée, pour tout y <e C, M(y, x) — 0 ; ainsi jt(i;) M(y, x) = 0
pour tout y e E, ce qui conduit à l'égalité
jtM(x) = 7t(x) = 0
et achève de démontrer que 71 est une mesure invariante.
Reste à démontrer que c'est une probabilité ; or, la chaîne restreinte à Ck
de matrice de transition Mj^xCft étant apériodique, le point précédemment
démontré assure que dn\Ck est l'unique probabilité invariante pour cette
chaîne. Il en résulte que 71(C) = 1.
• Démontrons l'unicité. Si y est une probabilité invariante sur E, on a,
pour tout n <e N* et tout x e C,
d-i
v(x) = J2J1 v(y)M"d(y,x) +rn(x),
ou
Si x e Cfc0, on a
l6.7- mesures invariantes 463
" [ 0 sinon,
si bien que, par le théorème de convergence dominée appliqué à chaque
somme sur Ck, on obtient la convergence de la suite de terme général r„(x)
et l'égalité ^
soit
v(a-) - rfjr|c*(>(Jc>v(CAo) + lim^U). (16.72)
En sommant sur les a- de C*,,, on obtient l'égalité
v(Cfe„) = dii\cko(Cko)v(Ck()) + E n'™r«(*);
jcect()
puisque dn\cko(Ck0) — 1, on a ainsi X^ec^ umn '«(-*) ~ 0 et donc, pour
tout x e C*0, Um„ r„(jr) — 0. Il résulte alors de (16.72) que, pour tout k0 tel
que 0 ^ ko ^ d — 1 et tout x e C*,,, on a
v(.v) = dff|CAo(J:)v(Ctn). (16.73)
Par ailleurs, si y ^ C, y n'est pas récurrent positif et, toujours par le même
raisonnement, on a
V(y) = ^v(x) limM"(x,y)] = 0.
ce qui montre que u est portée par C.
Enfin, v étant invariante, si x e Cko, et si ki = k0 — 1 (mod d) avec
0 <; ki ^ — 1, il résulte de (16.73) que l'on a
d-\
v(x) = d7tlCko(x)v(Ck(t)=J2 X>O0MO>,x)= X>O0MO>,*)
k=0yeck yecki
soit, toujours d'après (16.73),
Puisque x e Qt0 et que tï est à support dans C, cela s'écrit encore
v(x) = dv(Ckl)J2^(y)M(y^) = dv{Ckl)jtM(x)
y€C
soit, compte tenu de l'invariance de n,
v(x) — dv(Ck])7i(x).
404
CHAPITRE [6. CHAÎNES DE MARKOV
Il en résulte, en sommant sur les v de CkQ. que
v(C*0) = dv(Cki)7i(CkQ);
puisque d-7t\Ck^ est une probabilité, on a ainsi montré que v(Qt0) = v(Ckt).
pour tout ¿0 tel que 0 ^ k<, ^ d - 1. Il en résulte que v = jt.
3. Si X admet N (N =s 2) classes récurrentes positives C[, C2 CN,
définissons, pour tous réels positifs a} tels que YTj=\ aj = 1> ^a mesure
—7- six e C' y = 1.....N
[ 0 si-VjÉU^iC.
Pour jQ — 1 N quelconque et tout x e CJ0, les classes C1, C2 CN
étant fermées, on a
MM(x) = J>(y)M(y,x) - Y^aj Y ^)M^-r>
E
mO)
M(y,x);
(16.74)
la chaîne restreinte à la classe fermée CJ{' étant, par essence, irréductible,
le résultat démontré au point 2 assure que la mesure définie sur C'° par
l-lj'o(y) — pour roUl J e C/0 est l'unique probabilité invariante de cette
chaîne. Reportant dans (16.74), on en déduit l'égalité
'm(x) '
ce qui démontre que, pour tout x € C70, /^M(x) — /j(y)-
De plus, si v £ Uy=i C, on a M(r.x) - 0 pour tout / = 1 N
et tout y e C7', ce qui implique que /*M(x) — 0; comme on a aussi
n(x) = 0, on a encore /^M(x) = fi(x) et // est une mesure invariante.
C'est en fait une probabilité ; en effet, pj étant pour tout j une probabilité,
°"aE*ec' ¿5 = !'et donc
teC
On vient de démontrer que, dans ce cas, il existe une infinité non dénom-
brable de probabilités invariantes. ?
On reprend le modèle de diffusion d'Ehrenfest el on détermine la
probabilité invariante de la chaîne associée.
l6.7- mesures invariantes
4^5
Exemple 16.12. (Modèle de diffusion de chaleur de Ehrenfest; suite.) On
considère à nouveau le modèle de Ehrenfest, décrit sous sa forme de tirages
de boules dans une urne (voir les exemples 16.2 et 16.10, dont on reprend
les notations). On rappelle que X„ représente le nombre de boules rouges
contenues dans l'urne à l'instant n, et que le processus X = (X„)„€H
est une chaîne de Markov homogène, à valeurs dans l'intervalle d'entiers
E = [0,1 ,/«], dont la matrice de transition M est donnée, pour tout
k e [0.1 m], par
M(k, k + \) = pk, M(k, k-\)~qk,
ou k k
pk — 1 , qk = — ¦
m m
Cette chaîne est irréductible, apériodique, récnrreute positive (ce dernier
point est une conséquence du corollaire 16.44). Il résulte donc du théorème
16.54 que X admet une probabilité invariante nnique. On se propose de la
déterminer.
On cherche d'abord une mesure invariante p ; une telle mesure est
solution du système d'équations
système qui s'écrit, en notant pk pour p(k),
f /x*= Pk-i Pk-i + Pk+i Qk+i si 1 ^ k ^ m - 1 ,
\ ¡¿0 = Mi4i , (16.75)
\ l-tm ~ Pm-\Pm-\ ¦
Puisque pk+i + qk + l - 1. on a alors, si 1 ^ k ^ m - 1,
Pk + l~Pk= Pk + l Pk+l — Pk-l Pk-1 , (16.76)
et donc m_1
£(/¿/+1 - fij) ~ Y2(fij+i pj+i Pj-\),
j=k j=k
ou encore, en faisant des changements d'indices,
m m—2
\lm~ Pk= ~ '
j=k+l j=k-l
soit
Pm - P-k = Pm Pm + Pm-l Pm~\ ~ Mft-l Pk-l ~ ? Pk
(16.77)
466
CHAPITRE l6. CHAÎNES DE MARKOV
Ainsi, puisque
Pk + qt = 1, pm — 0 , et pm-i = —
m
on a
1
l-lm~ — llm-\ = \lkO\k— \lk-\ Pk-1
m
En remarquant que, d'après (16.75),
1
\lm \lm—\ — 0 i
m
on a, dès que 1 ^ k ^ m — 1,
soit, par itération,
Puisque
fik - -^-^/xft-i, (16.78)
Atjt = iio ¦ (16.79)
<?jtqk~\ ¦¦¦qiqi
Pk-lPk-2 ¦¦ ¦ PlP0 _ - • ^
qkVk-i ¦¦¦qzqi k k~~l 21
mm mm
_ m(m-ï).. .{m-k + \) _(m\
= *! >j'
on a , ,
/ 7ïî\
^ = ( k )110 Sl 1 ^ ^ m ~ 1 ' (16.80)
Par ailleurs, d'après (16.75) et (16.80), on a
1 1
\lm = — flm-l = —mim = fi0 ,
m m
soit encore , ,
(m\
Mm ^ \ ¡10-
w
Ainsi, toute mesure invariante \i est déterminée par
(m \
IjLto si 1 <^k <^m. (16.81)
Il existe donc une unique probabilité invariante ¡1 déterminée par les
égalités équivalentes
^+S (*) ^=1 ^ Ë (™)]/to=1 ¦
l6-7- mesures invariantes 467
si 0 ^ k < m ;
autrement dit, la probabilité invariante \i est la loi binomiale S (m, j).
Ainsi, la chaîne d'Ehrenfest est irréductible, récurrente positive
apériodique, et admet, d'après le théorème 16.55 ci-dessous, une probabilité limite
\i qui est la loi binomiale 3 (m, 1 /2). Autrement dit, le régime stationnaire
est comme si on avait autant de boules de chaque couleur, et qu'on les tirait
au hasard.
De plus, d'après le théorème 16.54, le temps moyen de retour en k,
partant de k, est 2m/
On donne maintenant une condition nécessaire et suffisante pour
l'existence d'une probabilité limite, c'est-à-dire d'une probabilité \i qui soit telle
que, pour tous x,y g E, la suite de terme général M"(x, y) soit convergente
de limite p(y), indépendante de x. Pour une telle probabilité p, on a alors,
pour tout y eE,
KmFxiX» = y) = (i(y) ,
et ceci, indépendamment du point de départ x de la chaîne à l'instant initial.
Théorème 16.55. Une chaîne de Markov homogène de matrice de transition
M possède une probabilité limite si et seulement si elle admet une unique
classe récurrente positive apériodique C telle que Y'x(Ty < +oo) — 1, pour
tous x g E et y g C.
Démonstration. S'il existe une probabilité limite p, il résulte de la
proposition 16.53 que c'est l'unique probabilité invariante; le théorème 16.54
assure alors l'existence d'une unique classe récurrente positive C. Elle est
apériodique. Supposons en effet qu'elle soit périodique et notons k —
0, 1,..., d — 1, les classes cycliques de C, indexées comme à la proposition
16.41. Dans ce cas, pour tous x g Co et y g C\, on aurait
limMnd+l(x,y) = —d— > 0 et, pourtoutn g N*, Mnd(x,y) = 0,
« Ey(Ty)
ce qui est en contradiction avec l'existence d'une probabilité limite.
ce qui donne ^
La probabilité invariante ¿1 est donc donnée par
CHAPITRE l6. CHAÎNES DE MARKOV
Enfin, pour tous .v 6 E et y 6 C, on a
Pv(TÎ. < +0O)
ce qui démontre que l'application x h» P*(T], < +00) est constante;
mais, y étant récurrent, on a Py(T|, < +oo) = 1. Tl en résulte que
P,(T^, < +00) — 1. pour tous a- e E et y 6 C.
Inversement, supposons qu'il existe une unique classe récurrente positive
apériodique C telle que Px(Ty < +oo) = 1. pour tous a¦ 6 E et y 6 C. Pour
de tels points, on a alors
limM^x.v) = ^ ) , > 0.
ey(TJ)
Par ailleurs, si x 6 E et y £ C, y est récurrent nul ou transitoire et on
a lim„ M"(x, y) = 0. En définitive, pour tous x,y 6 E, la suite de terme
général M" (a. y) est convergente de limite 7r(y) indépendante de x. Puisque
la mesure 71 ainsi définie est non nulle, il résulte de la proposition 16.53 que
c'est l'unique probabilité invariante. ?
Nous terminons ce paragraphe en faisant l'étude d'un modèle génétique.
Exemple 16.13. (Modèle génétique.) Un caractère héréditaire chez un
individu dépend, en général, de la possession dans son patrimoine génétique
de la présence de gènes de deux types G et g, appelés allèles12, qui
apparaissent par couple GG, gg, Gg et gG, ces deux derniers étant génétiquement
les mêmes; ainsi, pour la mise en évidence du caractère, seuls comptent les
couples non ordonnés GG, gg, Gg, appelés génotypes. Le gène G est souvent
prédominant, et les génotypes Gg et GG donnent le même caractère
héréditaire, appelé phénorype,3. Suivant qu'un individu possède le génotype GG.
gg, ou Gg, il est dit dominant, récessif, ou hybride.
Un individu reçoit indépendamment de chaque parent un gène de
manière aléatoire.
- Si chacun des parents est dominant (respectivement, récessif), il est
lui-même dominant (respectivement, récessif).
- Si l'un des parents est dominant et l'autre récessif, il est lui-même
hybride.
12. Du grec, atlêtôn. qui signifie les uns les autres. Un atlèle. ou allétomorphe, désigne un
caractère héréditaire qui s'oppose à un autre (graines de pois tisses ou ridées) ou le gène
porteur de ce caractère.
13. Phénotype : aspect extérieur de l'être vivant, par opposition au génotype (patrimoine
lieieditairc). Plusieurs génotypes différents peuvent conférer le même aspect à un individu
(mais les différences reparaîtront aux gênera lions suivames).
i6.7- MESUKES INVARIANTES
~ Si l'un des parents est dominant et l'autre hybride, il reçoit le gène G
du parent dominant et reçoit le gène G ou g de l'autre parent avec
la même probabilité; ainsi, il a même probabilité d'être dominant ou
hybride.
De même, si l'un des parents est récessif et l'autre hybride, il a même
probabilité d'être récessif ou hybride.
- Si les deux parents sont hybrides, il a la même probabilité de recevoir
de chaque parent le gène G ou g. Il sera donc dominant avec la
probabilité ^, récessif avec la probabilité \ et hybride avec la probabilité
2
2 ¦
Considérons le processus suivant : un individu de caractère donné se
marie avec un hybride et donne naissance à des enfants. On choisit au hasard
un des enfants et le marie à nouveau avec un hybride, et ainsi de suite.
Désignons par X„ le type génétique du n-ième descendant ainsi observé.
Le processus (X„ )„eN* est une chaîne de Markov de matrice de transition
GG
Mh = Gg
GG
/ 1
2
\_
4
v°
1
2
1
~>
ï
0^
1
4
1
2/
Le graphe associé à cette chaîne de Markov est
La chaîne est irréductible apériodique et récurrente positive. Elle admet
donc une probabilité invariante unique. Calculons la. Déterminons d'abord
les mesures invariantes v = (a,/>.c); v est valeur propre à gauche de M/,
associée à la valeur propre 1 et est donc solution du système
( 1 1 ,
-û + -b —a
2 4
1 1.1
470
rilAPI TRF. [6. CHAÎNES DE MAkKOV
qui a pour solution (a, 2a, a). Les mesures invariantes sont alors données
par (a, 2a, a), avec ¿7^0 quelconque. Il existe donc une seule probabilité
invariante v$ ; elle est déterminée par la condition a + 2a + a = 1, ce qui
donne v0 = \, \).
Si on note E = {GG, gg, Gg] l'espace d'états, il en résulte, puisque la
chaîne est irréductible apériodique, que, pour tout x.y e E,
limMJJfx. v) =
1
e,(t»)
= i>i)(.v) ¦
En particulier, on obtient les temps moyens de retour en un point :
egg<t{3G) = E„<Tiff) = 4 et EG?(T^)=2.
Si, au lieu de marier l'un des enfants choisi au hasard avec un hybride, on
le marie avec un dominant, le processus (X„)„£n* est une chaîne de Markov
de matrice de transition
GG Gg
M - Gg
GG / 1
1
2
V o
gg
o\
0
0/
Le graphe associé à cette chaîne de Markov est
Chaque état forme une classe de communication. L'état gg est inessentiel,
les états gg et Gg sont transitoires et GG est un état absorbant.
16.8. Loi forte des grands nombres
On donne un théorème de loi forte des grands nombres pour une
chaîne de Markov homogène que l'on applique ensuite, dans le cas fini, à
l'estimation de sa matrice de transition.
16.8.1. Théorème de loi forte
Théorème 16.56 (Théorème de Chacon-Orstein). Soit X un processus qui,
pour tout x 6 E, est une chaîne de Markov homogène sur la base de
IÒ.8. I.Ol HORTE DES GRANDS NOMBRES
471
processus (£2, A,(An )„eN- P*) de loi initiale Sx et de matrice, de. transition M.
On suppose que X admet une unique classe récurrente positive C (on rappelle
qu 'il existe alors une unique probabilité invariante it). On suppose de plus 14
qu'existe un y e C tel que, pour tout x e E, PX(T], < +00) = 1.
Soient f et g des fonctions définies sur E, n -integrables ; on suppose que
v^'î ./(X ' )
g ne s'annule pas. Alors, pour tout x e E, la suite de terme général v¿=' g(x'"j
est Px-p.s. convergente et on a
lim
Démonstration. • Pour tout ,\ € E, on a P^(Ry) = 1. En effet, une
modification triviale de la démonstration du lemme 16.36 permet d'établir
que, pour tout p € N*, on a
P,(TJ+1 < +00) = P,(T; < +00) [P,(Tj. < +oo)]fi ;
il résulte alors des hypothèses que
P.V(R„) = lira \ Px(Ty < +00) [P,(T} < +oo)]P = 1 .
• Soit p la mesure sur E définie par, pour tout x e E.
Tl
p(x) = E3
£Atx« =-v>
nombre moyen de passages en x, avant le premier retour en y, par la chaîne
qui part de y à l'instant initial. C'est une mesure invariante. En effet, on a
M(Z,Jt)
= E,
J](5]l(x„=z,Miz,.v)) =E.v EM(X«-V)
soit, en partitionnant,
MM(x)-E,[l(T,=l)M(X,,x)]+E, l(T|a2)( ¿MfX„,x)+M(XT,,x)
t}-i
14. Si E est fini, celle hypothèse est automatiquement satisfaite.
472
CHAPITRE 16. CHAÎNES DE MARKOV
en remarquant que XT| — X0 — y P^-p.s., on a alors
pM(x) = Ey [l(T, =1)M(Xo,v)] + Ey 1(T,Ï2) M(X„,.t)
T,-1
soit encore
fiM(x) = Ev
E mpc,*)
Cette égalité peut s'écrire, par la propriété de Markov,
+ 00 +00
«=0
n=0
soit, puisque (n < Ty) e An,
+ 00
n=0
ï y
= Ey
-n = l
ce qui démontre que ¡1 est une mesure invariante. C'est une mesure bornée,
puisque, E étant dénombrable et y étant récurrent positif on a
_ t!
r 'y
p(E)=J2Ey E1^-) =Ey EfE^-l) =E,[T}]< + oo.
.veE Ln = i
-« = 1 xeE
Il en résulte que —^ est une probabilité invariante ; par unicité de la
probabilité invariante, on a donc
% —
E>- [Tj] '
ce qui donne, dans ce cas, une interprétation intuitive de la probabilité
invariante.
Si / est une fonction positive sur E, on a alors, par un calcul simple,
r \Tly i r1*-1
/ f dli = Ytf{xMx) = Ey E/(x«) =Ey E/<x«»
; (16.82)
si / est de signe quelconque, on en déduit classiquement un critère
d'integrabili té ; les formules (16-82) restant vraies pour les fonctions /x-intégrables.
• Le principe de la démonstration est maintenant de découper les
sommes étudiées selon les différents temps de passage en y, les morceaux
étant indépendants de même loi ; on utilise alors la loi des grands nombres
pour les variables aléatoires indépendantes.
l6,8, loi forte des grands nombres
473
Soient donc / une fonction /x-intégrable et, pour tout p e N, Zp la
variable aléatoire définie par
/(X„) sur(T£<+co)
«=TÍ
0
sur (T£ = +00),
(on rappelle que = 0). Puisque, pour tout x € E et tout p € N*,
on a P.t:(T£ < +oo) = 1, les variables aléatoires Zp sont P*-p.s,-finies,
Démontrons que, pour tout x € E, elles sont Pv-indépendantes et de même
loi15, En effet, soit, pour tout p € N*, un borélien quelconque Ap de R ;
puisque, P.v-p.s., on a
TJ+1 =Ty+zy [f9T?(X,] ,
il résulte de la propriété de Markov forte que
E, iy [1
(ZpeAp)
= Py(Z0 € Ap).
Il en résulte que, pour tout N, on a, par un conditionnement classique,
N ,N-1
E.
¦Ì1
l(Zp€Ap) JE* y [I(ZnGAn)]
rN~l -,
= E,
*-p=l
Py(Z0 e AN).
Une itération rétrograde conduit alors à l'égalité
r N -, N
E,
ce qui prouve que les Zp, /> € N*, ont même loi sous P^ que Z0 sous py et
que les Xp sont Px-indépendantes.
• Montrons que Z, est P^-integrable (il en est alors de même de tous les
Zp). On a
¦2
r M"
Ex(\Zi\) =E,
= E,
T2 —i
«=Tl J
15. En utilisant cette remarque, il est clair que l'on peut déduire un théorème limite centra]
pour les chaînes de Markov homogènes satisfaisant aux hypothèses de ce présent théorème, à
partir d'un théorème limite central pour les suites de variables aléatoires indépendantes.
474
CHAPITRE l6. CHAÎNES DE MARKOV
soit, d'après la propriété de Markov forte,
T J, — 1 T y — 1
EX(|Z,|) = eJex^ I E /(Xrt)| 1 = eJ j J2 /(X„)| 1.
Il en résulte que
Ex(|Z]|)^eJ^ |/(X„)|1 - f\f\dn<+oo.
-n=0 -I J
Un calcul similaire montre alors que Ex(Zi) — f f d\x.
• Il résulte alors de la deuxième loi forte des grands nombres pour les
variables aléatoires indépendantes que
n i t" — ]
- £ z* = - £ /tx*) ^ / / ^ ¦ (16-83)
Soit alors la suite croissante des entiers aléatoires v(n) — YTj = \ 1(Xj=j>),
nombre de passages en y jusqu'à l'instant h. On a, par hypothèse,
P*(limv(n) = +00) = Px(Ry) - 1
et, par définition de v(«),
t;(">^«<t;<w>+1.
Si de plus / est positive, on en déduit les inégalités
Tu(») rrv(n)+1
1 y n 1 y
E /?) £/<**) E /?)
fe=0 ifc=0 , ¿=0
v(n) " V(n)
D'après (16.83), les termes extrêmes convergent P^-p-s. ; il en est de même
du terme médian. Dans ce cas, le théorème en résulte de suite, en se
rappelant que n est proportionnelle à (x. On en déduit le théorème dans le
cas général où / est de signe quelconque, en décomposant / en ses parties
positive et négative. ?
En particulier, on obtient la formulation traditionnelle de l'énoncé de la
loi forte des grands nombres pour les chaînes de Markov homogènes.
l6.8. LOI HOlïl'E DES GRANDS NOMBRES
475
Corollaire 16.57 (Loi forte des grands nombres). Sous íes hypothèses du
théorème de Chacón-Orstein 16.56, on a, pour toute fonction f tc-integrable,
Démonstration, Il suffit d'appliquer le théorème de Chacon-Orstein en
prenant pour g la fonction constante égale à 1. ?
Remarque. Sous les mêmes hypothèses, en prenant pour / l'indicatrice d'un
singleton, on obtient que, pour tous x, y e E,
le quotient ^ 5Zy=i l(Xy=j>) représente le temps moyen passé par une
trajectoire dans l'état y entre les instants 1 et n. Ce résultat donne un procédé
d'estimation de la probabilité invariante.
16.8.2. Estimation de la matrice de transition
On suppose ici que E = {xi,..., xL) est fini et que X est une chaîne de
Markov homogène irréductible de matrice de transition M ; elle est alors
récurrente positive et il existe une unique probabilité invariante n. On
définit, pour i,j e {1,2,...,L} et « e N*, les variables aléatoires et
N"7 par
n-l
n-l
1 = 0
qui représentent respectivement le nombre de visites en Xj et le nombre de
passages de x, en xj jusqu'au temps n. On a
n-l ¦- L
£N?,J-£ Yl1{Xl=Xi)l{Xl + i=xj)
./ = 1 /=oL; = l
n-l
= £l(X/=x/)
/=0
I ~- IN
c'est-à-dire que N? = X!y=i NL- °n note = ~wf~; on étudie, pour
tout x e E, la convergence Px-p.s. de la suite de terme général M"y .
Proposition 16.58. Avec les notations et hypothèses précédentes, pour i, j €
{1, 2,..., L} et pour tout x € E,
Ml^Uix^xj).
CIIAPIIRF. I(\ CHAÎNI-.S DF MAEKOV
Démonstration. D'après la remarque précédente, on a déjà, pour * e
— —> tt{Xj). (16.84)
n
Soit n (Si M la probabilité sur E x E définie, pour toute partie A de E x E
par
(7r®M)(A) = / ^1a(^.j:/)M(.ï..ï/)
*-/ = ]
i- L
dn(x)
jt(x) :
on a, bien sûr.
/
i- L
/TU).
En adaptant la démonstration du théorème 16.57, on démontre que. pour
toute fonction sur E x E (ici fintégrabilité est automatique), on a
n-\
Pv-P.S. /
(16.85)
-y^/CX/.X/^,) —> fdn<S>M.
nU J
En effet, pour y e E quelconque, si on définit
^ ,/"<X„.X„+l) sur(T£ < +oo)
0
sur (T£ - +oo).
par un calcul analogue à celui de la démonstration du théorème 16.57, on a,
pour tout borélien B de 1B,
E^',; [l(z/)eB>] = P>.(Zfl e B):
ceci permet encore de démontrer que les Zp, peN*. ont même loi sous Px
que Z0 sous Py et que les sont -indépendantes.
Reste à calculer EX(Z]). Par une démarche analogue à celle de la
démonstration du théorème 16.57, la propriété de Markov forte permet de
montrer que l'on a
Ex(Zi) = Ev
Y AXB.XB+l)
Remarquant que (n <. T|.) e .A,,, il résulte de la propriété de Markov simple
que l'on a
fixf.lïoïck l6.i
477
¦l-oo -(-90
ce qui s'écrit encore
ou encore
E,(Z,) =E,
E(E f<Xn.x¡)M{*n,Xi))
<- n=0 1 = 1
Les formules (16.82) et l'égalité ¡1 = Ev(T|)jt (cf. théorème 16.57)
permettent alors d'écrire
xeE L/=i
La convergence annoncée en (16.85) s'obtient ensuite comme à la lin de Ui
démonstration du théorème 16.57 et de la remarque qui le suit.
En prenant pour / la l'onction définie par
/U,y) = l;,,|(-v)T{.ïy!(>-),
il vient alors que
Tenant compte de (16.84). la proposition eu résulte.
?
Exercices
Sauf mention contraire, les variables aléatoires introduites sont définies
sur un espace probabilisé (£2, A, P), et les processus sur une base de
processus (Q>A,(A!I)„^,.'P) adéquats.
Exercice 16.1. Gestion de stock. Un vendeur d'appareils photos a remarqué quo Je
nombre A, d'acheteurs d'un appareil d'un certain type, pendant la semaine i, était
indépendant du nombre d'acheteurs de cet appareil durant les semaines précédentes,
et que sa loi était donnée par
PÍA, = 01 = 0.4, p(A, = I) - 0.4. P(A, =2) =0.15.
P(A, - 3) = 0.05, PÍA, > .î) = 0.
Le vendeur bit ses commandes eu fin de st'maint, et n'en fait que s'il n'a plus
d'appareil en stock en fin de semaine; dans ce cas, il décide d'en commander deux
478
CHAPITRE l6. CHAÎNES DE MARKOV
(qu'il reçoit dès le premier jour d'ouverture de îa semaine suivante). On note X/ le
nombre d'appareils en stock à la fin de la semaine t. Démontrer que X = (Xi)f(=N
est une chaîne de Markov homogène (relativement à sa filtration naturelle («A* )îen),
à valeurs dans E = {0. 1,2}, de matrice de transition M donnée par
0 12
0 /0.2 0.4 0.4\
M = 1 0.6 0.4 0
2 \0.2 0.4 0.4/
Solution. Si / est la fonction définie sur E2 par
f(x,y) = l(x^omx>y) x (x - y) + l(X=o)n(2^y) x (2-y),
on a16 Xi + ] = /(X/sA(+i). Ainsi, la variable aléatoire (Xo,X,,..., X() est
fonction (mesurable) de (Aj, A2. -. -, A() ; puisque les variables aléatoires A(,i e
N, sont indépendantes, les variables aléatoires (Xn, X¡,.,., X() et Aj+j le sont donc
aussi. Alors, pour toute fonction g sur E, on a, pour tout (xn, xt,..., xt) e Ei+1,
£(x0,x] ,..„Xt)=(XQ,x\,-,xt) [g(Xt+i)\
= E(Xo,X M=(Wl"-I')[îo/(ïi,Ai+1)]=E[go/(ÎI,A< + 1)] .
En notant, pour tout x e E, M(x.g) = E [g o f(x, A/+j)], on a montré que
EA< \g(Xi + i)] = M(Xl,g),
ce qui prouve que X est une chaîne de Markov homogène de matrice de transition
la matrice M d'entrées données par
M(x,y) = M(x,liy}) = P[/(*,At + 1) = y] .
La loi de At +, conduit alors à la matrice M annoncée. En effet on a successivement
/(0,Aí+]) = (2-Aí+])1(aí+1í2) = 21(A(+]=o) +1(Aî+]=])
ce qui donne
M(0,0) =P(Ar + 1 3=2) =0.15+ 0.05 = 0.2,
M(0, 1) = P(Ai + l = 1) =0.4,
M(0,2) = P(Ai+] =0)=0.4;
/(1, A(+l) — (1 - Aï + ])1(1>aî+i) - !(A(+l=0) .
ce qui donne
M(1,0) = P(A, + i 5= 1) = 0.4 + 0.15 + 0.05 = 0.6,
M(l, 1) = P(AÏ + I = 0) = 0.4,
M(l,2) = P(0) = 0 ;
16, Il s'agit donc d'un processus auto-régressif (cf. l'exemple 16.6),
EXERCICE 16.2
479
/(2, A( + i) = (2- AI + 1)l(2?A, + i) = 21(a(+]=o) + l(A(+| = i) ,
ce qui donne
M(2,0) = P(Ar + i £ 2) = 0.15 + 0.05 = 0.2,
M(2, 1) = P(Ar + 1 = 1) =0.4,
M(2,2) =P(AI + i =0)=0.4.
Exercice 16.2. Fiabilité ; temps de vie. Le temps est compté de manière discrète (par
exemple en secondes) et est donc indexé sur N. Une machine en fonctionnement
permanent possède une pièce critique qui casse facilement. Dès qu'elle est cassée,
elle est remplacée instantanément par une pièce identique. On note X„ le temps
aléatoire s'écoulant entre le temps n et la prochaine panne après n ; la suite de ces
temps vérifie la relation
Y ( X„ - 1 si X„ 2 1,
xn+i-j Zn_{ sïXn = o,
ou Zn est le temps de vie de la pièce changée à l'instant n. On suppose que les
Zn, n e N*, sont des variables aléatoires indépendantes de même loi \i sur N*
engendrée par ]e germe (pk)k€N*- Démontrer que le processus X = (X„)„eN* est
une chaîne de Markov homogène (relativement à sa filtration naturelle («An)neN*)>
à valeurs dans N, de matrice de transition M à déterminer.
Solution. Si / est la fonction définie sur N2 par
f(x, y) = 1(^1) x (x - 1) + l(x = 0) * O - 1) ,
onaXn+, = /(X„, Zn). En particulier, puisque les variables aléatoires Z«, n e
sont indépendantes, les variables aléatoires (Xi,..., X„) et Zn le sont aussi. Alors,
pour toute fonction bornée g sur N, on a, pour tout (xi,...,xn) e N",
E(X1,...,xJ,)=(x1,..^«)[g(x„+1)]
= E^i >~M=i*i ,.-.,*«) [g a f{xn,Zn)] =E[go f(x„, Zn)} .
En notant, pour tout xeN, M(;t, g)=E[g o f(x, Zn)\ = J g o f(x, z) dji(z), on a
montré que R
EA" [g(X„ + l)] = M(X„,g),
ce qui prouve que X est une chaîne de Markov homogène de matrice de transition
M, d'entrées données par
MO*, y) = M(x, lly}) = P [fix, Zn) = y}= ,M.{z | fix, z) = y}) .
On peut d'ailleurs les obtenir ainsi :
- si x e N * et j e N, on a
M(x,v)=P(X„ + 1 = y\Xn=x) ^V(Xn-l=y\Xn=x),
et donc
M(x, y) - P(X„ = y + 1 | X„ = x) = l^^-o ;
48o
CHAPITRE l6. CHAÎNES DE MARKOV
- si x — 0 et y e N. on a
M(0,y) = P(Xfl+l = y | X„ =0) = P(Z« -1 =y |X„ =0),
et donc, puisque Z„ et X„ sont indépendantes,
M(0,y)=P(Z„ =y + ]) = Py+l.
Ainsi, la matrice infinie M a la forme
0
1
2
3
4
0
(Pi
P2
^3
p4
" \
1
1
0
0
0
2
0
1
0
0
3
0
0
1
0
0
4
0
0
0
1
0
Exercice 16.3. Propriétés de Markov simple et forte. Soit X = (X„)«eH un
processus à valeurs dans E ~ {1,2,3} qui, pour tout ; e E, est une chaîne de Markov
homogène sur la base de processus (Q, <A,(<A«)«eN, Pi ), de matrice de transition
/ 1 2\
' 0 - -x
M -
ï î 4
\2 2 °
1. Soil f la fonctionnelle sur EN définie, pour tout x e EN. par
/(x)==1(£5-i)(,>(*v)=i):
autrement dit, f(x) vaut 1 si, parmi les trois composantes de x d'indices 1 à 3, une
et une seule vaut 1 ; f(x) vaut 0 sinon. Calculer E; " [f(8n (X))J pour tout / e E.
2. Soit T = inf(n e N* \X„ = 1), avec inf 0 = +oo. Justifier le fait que, pour tout
i e E, P, (T < +oo) = 1 et calculer l'espérance conditionnelle Ej*1 [/(#r(X))] pour
tout f e E.
Solution.
1. La propriété de Markov simple assure que
E?" [f(dn(X))] = EXfl [f(X)\ .
On calcule donc, pour tout i e E, E;[/(X)]. On a E/[/(X)] = P,- [Ey=i !{])(X;) =
1], et par conséquent,
Ei[f(X)] =P/(Xi = 1,X2 + l.X3 ^ U+P^Xj ^ 1,X2 = 1,X3 ^ 1)
+ p,(x, ^ i,x2 + i,x3 = i) :
EXERCICE
481
P,(Xj = LX2Ï 1,X3^ 1) = Y = i.x2 = /,X3=*)
j,&=2,3
= £ M(/,l)M(l,;)MO'.ifc)
?=2,3
et, puisque £¿=2,3 MCM"> = 1 - MO'. 1).
L;=2,3 *=2.S
p,(x, = 1,X2#],X3?M) = m(u)
£ mo,/)- £ mu.,/)MO-1)
L;=2,3 ,'=2,3
11 2 1
r 11 ^ 11
= m(U)[.-3j-55].
Suit
De même, on a
P/fXï = 1, X2 ^ 1. X3 ^ 1) = -M(i,l).
(16.86)
p,(x, ^ 1,x2 = 1. x3 # 1) = Y p>'(Xi =,/, X2 = 1, x3 =£)
M = 2,3
= M(/,yJM(/, l)M(l.jfe)
;',fc=2,3
£ M(/.y)M(>, 1) £ M0-*>
¦-/=2,3 -'LA =2,3
et, puisque 23* =2,3 &) = I,
PKXt je 1, X2 = 1. x3 ^ 1) = - [M(i.2) +M(i.3J] . (16.87)
Enfin, on a de même
pux, ^i,x2^i,x3= 0 = Y p<(x, x: =/:,x3 = 1)
= £ M(/../>M(y,/:)M(/t.l),
M = 2:3
soit
P/(Xi ^ 1, x2 ^ 1, x3 = I) = M(i',2)
+ M(/.3)
Y M(2.ifc)M(Jt,l)
Lfc=2,3
Y M{5.kM(k, 1)
"-*=2,3
4§2 CHAPITRE l6. CHAINES DE MARKOV
et permet d'assurer que tous les points communiquent ; la chaîne est donc
irréductible finie, donc récurrente positive. En particulier, on a, pour tout i e E,
P,(T < +00) = 1. Il résulte alors de la propriété de Markov forte et de la
question précédente que
E,*T [/(MX))] = EXT [/(X)] = 2- - l-M(XT, 1).
Puisque Xf = 1 et que M(l, 1) = 0, on a
Ef°r [,/wx))] = ^ .
Exercice 16.4. Processus de naissance et de mort discret, marche aléatoire sur N
avec barrières élastiques, problème de Dirichlet. 11 s'agit de modéliser l'évolution de
la taille d'une population (d'individus, de particules physiques ou tout autres choses)
dans laquelle, à chaque instant n, peut apparaître, ou disparaître, un élément, et ceci
avec une probabilité qui dépend de la taille actuelle X„ de la population.
ou encore
P,(X, #1,X2 ^1,X3= O=Mfi.2)[~+^]+MCi,3)[~ + 0x^];
ainsi, on a
P<(Xi £ 1, X2 # 1. X3 = 1) = I[M(/\2) + M((,3)] . (16.88)
4
En rassemblant les égalités (16.86), (16.87) et (16.88), on obtient
Ei [f(X)] = ~MU,l) + ^|M(f,2) + M(f,3)]
= V(/,l)+ -[1-M(ï,ni= ;-Vi,l),
¿4 4 4
el donc
Efn [/(0«(X))l-^-iM(X„,l).
2. Le graphe associé à cette chaîne est
EXF.KCICE 16.4
483
Soit X = (Xn)„gM un processus à valeurs dans N qui, pour tout x e N, est
une chaîne de Markov homogène sur la base de processus (Q, <A,(<An)neN de
matrice de transition M donnée par, pour tout xeN,
M(x. x H- 1) = px M(x. x-l) = a,
M(x,x) =
où
Px, qx, rx e [0,1] et px + qx + rx = 1.
Soient a, b eN tels que 0 ^ a < h. On note Tx le temps d'entrée en x. c'est-à-dire
Tx = mf(n e N* | Xn = x),avecinf0 = +00.
1. Démontrer que pour tout x, on a
P*<Ta<Té) = M(jc,fl)+ E Fz(Va<Tb)M(x,z)
z^a,b
(16.89)
2. On suppose que a = 0 et que o et b sont des barrières, c'est-à-dire que qo = 0
et />£ =0: elles sont réfléchissantes dans la mesure où ra > 0 et > 0 (si, à un
moment donné, tous les éléments de la population ont disparu, on peut remettre un
élément à l'instant suivant, et inversement, si la population atteint la taille b, on peut
retirer un élément à l'instant suivant, mais on ne peut pas en rajouter). On suppose
de plus que px > 0, pour tout x e]0, b[.
On note, pour tout .y e]0,6[, f(x) = Fx(Tq < T/,) (c'est la probabilité que. partant
de la taille x. la population s'éteigne avant d'atteindre la taille b). Démontrer que
/ est solution d'une équation de récurrence du second ordre avec conditions aux
limites (problème de Dirichlet). Calculer explicitement P.*(To < T;,) pour x e ]0,b[
en fonction de la suite de terme général ax donnée par
fl0 = l ax = si.v6]0,&[.
PlP2 ---Px
Solution.
1. On a, si 8 est l'opérateur de translation sur NN,
l(Xi?Éfl,ft) 1(r„^(X))<T/,(9(X)))
en conditionnant par rapport A\. la propriété de Markov simple donne
Px(Ta<Tb) =M(x,û) + E,
= M(x.a) + E,
A1
soit
Px(Ta <T&)=M(x,o)+E,
Y ^Xi^E^llcra^))
4*4
CHAPITRE [6. CHAÎNES DE MARKOV
et donc, en factorisant,
ce qui donne (16.89).
2. La fonction / est alors solution du système
f J\x) = pxf(x + 1) 4- qxf(x - 1) + rxf(x) ù\<x<b,
7(1) = />t/(2) + si+r,/(l)
( /0-1) =?_1/(é-2)+rft_1/(é-l),
ce qui s'écrit, en prolongeant la fonction / par les égalités /(0) = 1 et f(b) = 0
(mais il ne faut pas interpréter de manière probabiliste ce prolongement),
/U + 1) -/C.ï) = — l/(*) -/(.t - 1)] ,
Px
ce qui conduit, par itération, à
/(.v + 1) - f(x) =
On a donc, si 0 x < b.
qxQx-\ ...q]
PxPx-l---Pl
[/(i) - /(0)]
J\x)-f(x + l)=ax [/(0)-/(l)];
en sommant sur x à partir de 0, on identifie /(0) - /(1) :
ax [/(o) - /(i)] = J2 [/(*) - /(* +1)] = /(0) - /(*) = i;
Lx=0 -I x=0
reportant dans (16.90), on a alors
/(x)-/(.v + l) =
(16.90)
Ea?
y = 0
et donc, en sommant encore les accroissements de / (mais, cette fois, à partir de x).
b-i
/(*) = E [/00 - /Cv + O] = ;
E<
J=0
on a ainsi, pour tout x e]0, è[
P^(T0<Ti) =
Eû*
¿-1
Ea?
J=0
EXERCICE l6-5
485
Exercice 16.5. Loi du premier temps de passage en un point. Soient E = {1,2,3}
et X = (X„)„<=m un processus qui, pour tout x e E, est une chaîne de Markov
homogène sur la base de processus (Q, <A,(<A»)«eN ,P^), de matrice de transition M
donnée par
/1
0
0\
1
1
1
\
\
ï
\3
5
15/
1. Déterminer le graphe associé à cette chaîne et spécifier les classes de
communication.
2. On étudie, sous la probabilité Px, la loi du premier temps de passage en 3, soit
T3 = inf(n e m* | X„ = 3), avec inf 0 = +co. Pour cela, on note, pour x e E,
fk(x) = Px(Tj = k) = Ffcfx, 3). Démontrer que la suite (fk)keN* de vecteurs de
r3 est solution de l'équation de récurrence
/* = Q/*-i . (16.91)
où Q est une matrice 3 x 3 à déterminer. Calculer alors fk, pour tout k e N* (on
pourra avantageusement utiliser le théorème de Cayley-Hamilton).
3. Calculer, pour tout x g E, la probabilité PX(T3 == +00).
4. On note, pour tout y e E, Ny = 23/eN hXj =v) le nombre de passages en y.
Déterminer E3(N3) et E2(N3).
Solution.
1. Le graphe associé à cette chaîne est
ce qui met en évidence les deux classes de communication {1} et {2.3}, Le point 1
est récurrent et même absorbant ; la classe {2.3} est transitoire.
2. D'après la proposition 16.25, et plus précisément l'égalité (16.47), on a
F,(x,3) = M(x,3),
' FA(x.3)= Y M(x,z)F*-i(r.3) sikïl.
zeE\{3}
CHAPt'lKE r6. CHAÎNES DE MARKOV
Il en résulte que la suite des vecteurs fk est solution de (16.91), où f\ est la dernière
colonne de M. et Q est la matrice M dont on a annulé la dernière colonne, c'est-à-dire
/1 =
/0\
1
ï
VIS/
et Q =
/1 0 0\
I I 0
V5 5 °/
On a donc /j, = O*-' /ï- Plutôt que de calculer séparément les puissances de Q.
on donne un calcul de s'appuyant sur la méthode de calcul des puissances de Q à
l'aide du théorème de Cayley-Hamilton : Q admettant les valeurs propres simples I,
|, 0, annule son polynôme caractéristique :
QCQ-1KQ- 7) = 0,
6
ou encore, après développement,
Q3-Q2 = -(Q2-Q).
6
h en résulte que, pour tout n S 3, on a
6
et donc, par sommation et application à f\, que
¿(0' - QJ-l)A = i ¿(0''-'-Qj-2)J\ -
y = 3
ou encore
Q7,-Q2/i =-(Q"-7i-Q/.).
On a donc, pour tout n 2= 3,
.Ä + i =i./î.+ (0^/1-^0/1)
11 en résulte que
EXERCICE l6.6
4*7
puisque Ton a
h = Q./i =
/0\
1
H
\5/
et /3 ^ Q /1 = -
/0\
1
= 6Q/1 •
il vient, après simplification, si n S 1,
/0\
1
v 5 y
On remarque, qu'en fait, cette formule est encore valable pour n - 1,2.
3. On a
P*(T3 = +cc) = l - P*(T3 < +00) = 1 - £ P*(T3 = A') = 1 - Y &{x):
Jfcei
ou a donc bien sûr Pt(T3 = +oo) = 1. Par ailleurs, en remarquant que, pour tout
n 6 N*, on a
fn(2) = 1 1
il vient
3 6""1 1
^11 3
P2(T3 = +cc) = 1 - £ ^^T-s:
enfin, puisque, pour tout n >- 2, on a y„ (3) = | ¦ et que /1 f3) = ^ , 011 a
P3(T3 = +cx;) = 1 -
-1 V 1 —
15 + ^ 5 6*-
52
75
4. Le nombre moyen R(x, y) de passages en y par la chaîne qui part de x au temps
0 est donné par les égalités (16.49), ce qui donne ici
E3(N3) =R(3.3) =
1
et
_ 15
1 -P3(T3 < +00) ~~ 52
15
E2(N3) = R(2.3) =F(2,3)R(3,3) =
26
Exercice 16.6. Probabilité invariante, temps moyen de retour en un point. Soient
E = {1.2,3,4f5}etX — (X„)„gN un processus qui, pourtoutx € E, est une chaîne
de Markov homogène sur la base de processus (Q, <A,(<A„)„eN .P*), de matrice de
transition M donnée par
488
CHAPITRE l6. CHAÎNES DE MARKOV
M
1. Déterminer le graphe associé à cette chaîne et spécifier les classes de
communication. Spécifier la période et la nature de ces classes.
2. Justifier, sans calcul, l'existence d'une unique probabilité invariante v. La calculer
et en déduire, pour tout x e {\,2,3},Ex(Tx),oùTx est le premier temps de passage
en x, soit Tx = inf(« e N* | X„ = x), avec inf 0 = +oo.
3. Déterminer la matrice potentiel R.
4. Calculer les probabilités P4(T5 < +oo) et Ps(T5 < +oo).
5. On note, pour tout y e E, N-y = Y^jeN l(Xy=jO Ie nombre de passages en y.
Calculer, pour tout m e N, les probabilités P4.(N5 = m) et PsfNg = m),
6. Démontrer que l'on a, pour tout x, y e E,
EjTJJl(TJ,<+oû)]=M(x,y)+^M(xfz)[Ez(Tyl(T>.<+oû)) + P2(TJ.<+oo)].
(16.92)
En déduire numériquement, pour tout x e E,Ex(Tj.).
Solution.
1. Le graphe associé à cette chaîne est
ce qui met en évidence les deux classes de communication C = {1,2, 3} et D —
{4.5}.
On a M(4, 4) - 0 et M2(4, 4) > M(4, 5)M(5, 4) > 0; une étude facile (récurrence)
montre que l'on a, pour tout n e N*, M2" (4, 4) > 0 et M2""1"'(4, 4) = 0. Il en
résulte que 4 (et donc 5) est de période 2 ; c'est la période de la classe D. La même
étude montre que 2 (et donc 1 et 3) est de période 2 ; c'est la période de la classe C.
Le point 5 conduit à 3, mais 3 ne conduit pas à 5 ; 5 n'est donc pas récurrent, il est
transitoire. Ainsi, la classe D est transitoire. Puisque E est fini et que C est une classe
fermée, elle est récurrente positive.
EXERCICE l6.6
489
2. L'existence d'une unique probabilité invariante v est assurée par l'existence d'une
unique classe récurrent positive. Notant v = (a,b, c,d, e) un vecteur ligne associé à
une mesure invariante sur E, v est solution du système
(a,b,c,d,e)
3 3
0 0
0 0
0 0
0 I •
2
0 0
0 0
= (a,b,c,d,e)
soit
d
b + c + - = a
3
a e
- + _ = c
3 2
6-=d
2
d
2=e
La probabilité invariante est telle que a+b + c + d + e — 1, ce qui donne a = i.
La probabilité invariante v est donc v = (3* 5, g.0,0). On sait que l'on a, pour tout
x G C, v(x) — "(fjj 'ce donne
d =
<? = 0
b =
2a
T
a
c =
—
3
E.lTj)
E2(T2) = 3 E3(T3) = 6.
3. La matrice potentiel R a la structure de bloc
R
C D
C ( + cû 0
D l +co S / '
oùQ = MiDxD et S = YLt™v Q", soit encore S = (I -Q)-'. Ona
Q =
et donc I — Q
ainsi
S =
490
chapitre 16. chaînes de markov
4. On déduit alors des égalités (16.49) que
R(4,5)
et
P4(T5 < +oo) =
P5(T5 < +co) = 1 -
R(5, 5)
1
i 2'
1 1
' 1 •
R(5,5)
5. La loi de N5 sous P4 est alors donnée (cf la proposition 16.26) par
j P4(T5= + oo) sim=0
P4(N5=m)=j p4(T5< + oo)[P5(r5<+oo)r-IP5(Ts=+oo) sim€N*,
soit
P4(N5 = m) =
H-)
8v4^
si m = 0,
si m e N* .
De même, la loi de n5 sous p5 est donnée par, pour tout m € N*,
P5(N5 = m) = [P5(T5 < +co)r~-1 P5(T5 = +00),
soit
3
P5(N5 =«) = -(-)
c'est la loi géométrique %[* (|).
6. On note Ffc(x, y) = Px(Ty = fc). D'après la proposition 16.25, et plus
précisément l'égalité (16.47), on a
F1(x,y) = M(x,y),
Fk(x,y) = ^M(x,z)Fft_i(z,y) si* S 2.
Il en résulte que
Ex[Ty l(Tp<+oo)]= J]] ^Ffc(^.v)
k€N*
+00 p
= M(x,y) + J^fc r^M(x,z)Ffc_1(z,y)
k=2 K^y
[+00
£M(*,z)£(/ + l)F,(z,;y)
/ = 1
= M(x,y)+ £M(*,z) [E^T^ltT^+^ + P.CTy < 4-co)],
z^y
ce qui est l'égalité (16.92) (tous les termes étant positifs, les permutations de sommes
sont toutes licites).
EXERCICE 16.7
491
En particulier, puisque pour tout x € E, P^(Ti < +00) = 1, il en résulte que
Ex |Ti] = M(x, 1) + }^M(x,z)Ez(Ti) + £M(*,z),
soit
Ex |T1] = l + X;M(x,z)E,(Ti).
Ainsi, si on note g le vecteur de composantes g(x) = Ex [Ti], x e E, g est solution
de l'équation
111 — — 11 1 ' ^
1
1
1
+
0
3 3
00000
00000
0000-
0 0 ! ! 0
2 2
ou, ce qui est équivalent, ses composantes sont solutions du système
81
1
g2
g3
, 2 1
1 + ^g2 + ~g3
1
1
£4 = 1 + ~gS
1
g5 =
1 + +
Si =2
g2 = 1
g3 = l
7
£4 = -
g5 =
c'est-à-dire que
E1[T1] = 2 E2[T1] = 1 E3|Ti] = l E4|T1] = - Es^} = - .
Exercice 16.7. Premier temps de passage dans un ensemble et procédé de
fabrication. Soit X = (X„)„6N un processus à valeurs dans E qui, pour tout x e E, est
une chaîne de Markov homogène sur la base de processus (£2, A,(An)ne'N, P*), de
matrice de transition M.
Notations. Pour toute partie C de E, on définit
TC - inf(n e N* I X„ € C),
premier temps de passage dans C; te est défini sur EN par, pour tout u e EN,
jç(u) = inf(n e N* I un G C) ; on pose inf 0 = +00. Pour tous x, y € E, on note
F(x,y) = Px(Ty < +00). On introduit aussi les opérateurs de translation 6p sur
EN, définis, pour tout u e EN et tout n e N, par =
1. On note, pour tout x, y € E,G(x,y) = Bx [Tj>1(Tj,<+oo)]-Démontrer que l'on a
G(x,y) = Px(Ty < +00) + £M(x,z)G(z,y). (16.93)
492
CHAPITRE l6. CHAÎNES DE MAKKOV
2. Soient C et D deux parties disjointes de E ; on note
<h,D(*) = p* [(Te < +00) n (td(6Tc(X)) = +0c)]
la Pj-probabilité de l'ensemble des trajectoires qui atteignent C en un temps fini et
qui ne passent pas dans D après être passées dans C. En utilisant un conditionnement
par rapport à rA,, démontrer que <pc,d est solution du système d'équations
</>c,d(x) = X!m(-v->')p^(Td = +oc) + J2M(x-y?cMy) Vx e E.
(16.94)
Application. Le procédé de fabrication d'une pièce nécessite trois étapes successives,
notées 1, 2, 3. Après l'étape /, la pièce est testée; si elle est bonne (ce qui se
produit avec la probabilité r,), elle franchit l'étape / + 1 ; si elle est irrémédiablement
défectueuse (ce qui se produit avec la probabilité p,-), elle est jetée (c'est l'état 5) ;
si elle est seulement légèrement défectueuse (ce qui se produit avec la probabilité
qi), elle refranchit l'étape i, l'état 4 étant celui d'une bonne pièce ayant franchi les
trois étapes de fabrication avec succès. On suppose que p, + qt + r, =1, pour tout
/ = 1,2,3.
On modélise ce procédé de fabrication par une chaîne de Markov homogène X à
valeurs dans E = {1,2, 3,4,5} (X„ représentant l'état de la pièce à l'étape n) de
matrice de transition M, où
1
2
3
4
5
1
/
îi
ri
0
0
Pi\
2
0
$2
0
P2
3
0
0
93
*"3
P3
4
0
0
0
1
0
5
\
0
0
0
0
' /
On garde les notations introduites aux questions précédentes.
3. Déterminer le graphe associé à cette chaîne et spécifier les classes de
communication. Spécifier la nature de ces classes.
4. Justifier l'égalité F(5,4) = 0. Si K est le vecteur de R3 de composantes F(/, 4),
i = 1,2, 3, démontrer que K est solution d'une équation de la forme K = 6+TK,où
b e R3 et T est une matrice 3 x 3 à préciser. En déduire la valeur de K. Déterminer
la probabilité P| (T4 < +00).
5. Ecrire la matrice potentiel R de X.
6. Soit, pour tout x e E, H(x) = Ex [T41(t4<+oo)]- Démontrer que H(5) = 0;
calculer H(x) pour x = 1.2,3, et interpréter H(l).
7. On pose C = {2} et D = {4}. Calculer, pour tout x G E, </>(x) = 4>c,d(x);
interpréter 0(1).
Solution.
1. Cette question est la même que la sixième de l'exercice 6, à une ligne de calcul
supplémentaire près ; nous y renvoyons donc (les calculs sont valides, que E soit
tX BROCE l6.7
4<-U
fini ou non). L'égalité (16.92) s'écrit, avec les notations de ce présent exercice, et en
regroupant différemment les termes,
G(x,y) =M(.r.y)+ }^M(x,z)Pz(Tj. < +00)+ £M(.t,z)G(z.y);
z±y z=£y
la proposition 16.25, et plus précisément l'égalité (16.48) donne alors l'égalité
(16.93).
2. On a
<Pc,d(x) = Ejc[l(X,eC)l(Trj(0i(X))=+o&)]
+ Ex[1lXi^C)1(rc^|(X))<+^)l(rL)(^(,((9|(x))ÎXt)=+^)] ¦
soit, puisque X| est A\-mesurable,
0c,d(jO = Eje [l(xleC)EÍ1('(ri3(fi(x)) = +oo))]
+ E.v ^(xhéoEÍ1 (liK(fli(X))<+'?o)1(ti)(flTl,(el{x)l(X))=+oo))] ¦
et, par la propriété de Markov simple,
0c,dOO = E* [l(X|eC)Exi (l(T|3=+ool']
+ E-x [l(X^OEXi C(Tc< + cx>)1lrD(^c(X))=-!-oo))] ¦
soit encore
<Pc,o(x) = E M(x, y)?y(TD = +oc)
ver,
+ £ M(.Y,y)Py [(TC < +00) n (TD(^r(:(X)) = +00)] ,
ce qui est l'égalité (16.94).
3. Le graphe associé à cette chaîne est
ce qui montre qu'aucun point ne communique avec aucun autre : ainsi, il y a cinq
classes de communication constituées des singletons Jr}, 1 =s i ^ 5. Les points
1.2.3 sont transitoires, les points 4,5 absorbants (puisque les classes associées sont
fermées).
494
CHAPIIKEi l6. CHAÎNES DK MARKOV
4. Les points 4 et 5 ne conduisent pas l'un à l'autre ; en particulier, on a F(5,4) = 0.
D'après la proposition 16.25, et plus précisément l'égalité (16.48). on a, si 1 ^ / ^ 5.
F((.4) = M(7, 4) + Y M0-./)F(y,4),
//4
soit, puisque F(5, 4) = 0,
3
F{/, 4) = M(/, 4) + Y M('> J)¥0, 4).
j = i
Ainsi, on a
9i
ri
0
0
'/2
'"2
0
0
K = b + TK où h = loi et T
équation équivalente à
-r, 0 \ /0\ f (1-riA2=0
0 \-q2 -r2 K= U ou i (l - q2)k2 - r2ki = 0 ,
V 0 0 l-qj \r3) { (l-<l3)k3-r3 = 0
ce qui donne
_ n _ , _ r2n , _ r\r2r3
3 ~ 1 ~q? 2~ (1 -?2)(l-?3) ' " d-(/i)(l-92)(l -qs)
Il en résulte que
P,(T4 < +oo) =
5. Notant Tr = {1,2,3} l'ensemble ordonné des points transitoires et A = {4,5}
l'ensemble ordonné des points absorbants {donc récurrents positifs, puisque E est
fini), la matrice potentiel R a la structure de blocs
Tr A
Tr AI-T)-1 +oo\
A V 0 +co ) •
où T est la matrice introduite à la question précédente. La matrice I — T étant
triangulaire, s'inverse par exemple en résolvant le système associé, à savoir
(1 -qi)X\ - rui =a
(1 ~q2)x2 - i'iX-x = h
(1 -î/3)-ï3 =<¦
EXERCICE 16.7
495
te qui donne
Xi
1 - (h
1
X2 =
a +
l - <?2 L 1 -13 J
ri , , rxr2
1-4. L l"<72 0 -î2)(l-?3) J
soit, pour l'inverse cherché.
(I-T)-' =
1 -qi (1 -îi)0 -î2) (i -<?[)(! -?2)(i -?3)
1 -<?2
0
0-Î2)(l-?3)
6. Puisque P5(T4 < +oc) = 0. on a H(5) = 0. Par ailleurs, avec les notations du
début, on a H(x) = G(x. 4) ; il résulte alors de (16.93) que l'on a, si 1 ^ x ^ 5.
H(A") =P*(T4 < +<x>) + £M(x,z)H(r),
soit, sous forme vectorielle, puisque H(5) = 0,
H = K + TH ,
où H est est le vecteur de ]R3 de composantes H(i'), î = 1,2,3. On a donc
(I — T)_1H = K; en utilisant les résultats de la question précédente, un calcul
matriciel montre alors que les composantes de H sont données par
ri'"2'"3 rl/-2r3
Hi -
(1 -<7,)2d -<72)(l -q3) (1 -qi)(i -<ï2)2(1 ~q3)
+
H2 =
f2r3
(1 -qi)(l ~qi)(\ -qi)2 '
t'2 ^3
H3 =
(\-1i)20-q3) (l~^)(l--ï3)3 '
''3
(1-43)2 '
Le temps moyen pour fabriquer une bonne pièce est H(l) = Ei [T41<t4<+oc)] et
vaut donc
H(l) =
1
1
1
(1 _qi)(\ - q2)(\ -q3) l\-q, 1 -q2 1 -q3j
7. Si C = {2} et D = {4}, <p{\) est la probabilité qu'une pièce franchisse le deuxième
stade de fabrication et ne soit jamais bonne. Il résulte de (16.94) que
0 = P2(T4 = 4-oc)
AA
0
0
(16.95)
496
CHAPITRE l6. CHAÎNES DE MARKOV
où Q est la matrice M dans laquelle on a annulé la seconde colonne. Puisque
PxÇTi < +co) = 0 si x = 3,4,5, il résulte de la définition de (f> que </>{x) = 0
six = 3,4,5. L'équation (16.95) donne alors
(1 -q04>(l) = r,P2(T4 =+co)
4>(2) = 42P2(T4 = +co);
ainsi, puisqu'il résulte de la question 4 que
P2(T4 = +co) = 1 -K(2) = 1 -
r2r3
(l-?2)(l-?3)'
on a
^(D =
1 -
¿(2) = qi
1 -
r2r3
1 -
(1 -q2){l -q3)j '
0-«2)0-Î3)J
Exercice 16.8. Jeu de pile on face et chaîne de Markov. On effectue une suite de jets
d'une pièce non nécessairement équilibrée, et on s'intéresse aux résultats obtenus
lors de deux jets consécutifs ; en particulier, on étudie la variable aléatoire donnant
le nombre de coups nécessaires pour obtenir pile, par exemple, lors de deux jets
consécutifs.
Soit (X„)„eN un processus de BernoulH, c'est-à-dire une suite de variables
aléatoires définies sur un espace probabilisé (£2, A, P) à valeurs 0 ou 1. indépendantes de
même loi de Bernoulli de paramètre p, telles que P(X„ = 1) = p, P(X„ = 0) = q,
où p + y = 1. Pour tout n € N, on définil la variable aléatoire Y„ = (XWi X„+\) et
la tribu A„ — ff(Xj | 0 ^ / ^ n + l). On note E l'ensemble des quatre points
ttl = (1,0) a2 = (1,1) a3 = (0,0) a4 - (0,1).
1. Calculer, pour toute fonction réelle / sur E et tout n e N, l'espérance
conditionnelle E^" [f(Yn+])] et en déduire que le processus Y = (Yn)neN est une chaîne
de Markov homogène à valeurs dans E de matrice de transition M à déterminer.
Démontrer que l'on a, pour tout n S 2, MM = M2.
2. Déterminer le graphe associé à cette chaîne et spécifier les classes de
communication. Détemviner la nature et la période des points de E.
Pour tout x € E, on note Pv la probabilité = P( ¦ \ Y0 = x).
3. On étudie, sous la probabilité P^, la loi du premier temps de passage T de la
chaîne Y en a2, soit T = inf(n € N* | YM = «2), avec inf 0 = -foo. Pour cela, on
note, pour x = 1, 2, 3, 4, fk(0 = PK/ (T = k) = FJt(a^û;2). Démontrer que la suite
(A)iteN* de vecteurs de M4 est solution d'une équation de récurrence d'ordre un;
en déduire que la suite des probabilités (/fc('))A-eN* est solution de l'équation de
récurrence d'ordre deux
x,t = qxk_x + pqxk^2
(16.96)
pour des conditions initiales à spécifier. Déterminer alors deux solutions
particulières de la forme (\k)kz.2 pour deux valeurs de À, À] et X2. exprimées en fonction
de p et q et en déduire la valeur de la probabilité j)ç(\) en fonction de Àj et À2-
EXERCICE l6.8
497
4. Calculer le temps moyen Ea] (T) (l'exprimer uniquement en fonction de p).
5. Justifier l'existence d'une unique probabilité invariante v et la calculer; en
déduire la valeur du temps moyen Ett2(T) et le comparer à Eœi (T).
Solution.
1. Pour toute fonction / sur E et tout (.v0 *«-h) e JO. I}""1"2, on a
E(X0....rX,i + , )=(*0 xn+i) [ /-(Yn+, )]
= E(X0,...,x,7+1)=(^1...,^4.,)[/(Xw+i5Xw+2)]
= E(Xo-x"+')=(^*»+i> [/(*„+!, Xn+2)] ,
soit, puisque les variables aléatoires (X0,..., Xn+i) et /(*n+i.X„+2,) sont indé-
pendantes,
E(Xpx"+i>=<*o x«+^[f(Y„+1)] = E[f(xn+1,Xn+2)]
= pAXn+i-l) +qf(xn + i,Q).
Il en résulte que
EA" [/CY»+i)]=M(Y„./>,
où, M(-. f) est définie par, pour tout y e E,
M(y, /) = p/02(y), 1) + qf(xi(y),Q),
7i2 désignant la deuxième projection de E = {0,1 }2 sur {0,1} définie par tz2 (yi, y 2)
= y2- Ceci démontre que Y est une chaîne de Markov homogène de matrice de
transition M, d'entrées M{ai, aj) = M(œ,-, 1^. j). On a donc
-I >2 ,3 ,4
,1/0 0 q P
M =
q p 0 0
° 0 q p
\q p 0 0
On a
M2 =
pq
pq
pq
\pq
P2 q2
P2 q2
P2 q2
P2 q2
pq\
pq
pq
pqj
si on suppose que, pour n =: 2, on a M" = M2, on a alors
/ p2q + pq2 p3 + p'q pq2 + tf3
Mn+1 =
p2q + pq\
p2q + pq2
\P2q + pq2
p3 +p2q pq2 + q*
p3, + p2q pq2 +q3
p3 + p2q pq2 +q*
ce qui, en tenant compte de l'égalité p + q = 1, démontre que Mn+l = M2 ; on a
donc bien pour tout «5 2, M" = M2.
49«
CHAPITRE l6. CHAÎNES DE MARKOV
ce qui montre que tous les points communiquent; ainsi, il y a une seule classe de
communication et la chaîne est irréductible, et donc récurrente positive, puisque E
est fini. Par ailleurs, puisque M(cc2-"2) > 0, a2 est apériodique: il en est de même
de la chaîne Y.
3. D'après la proposition 16.25, et plus précisément l'égalité (16.47), on a, pour tout
x e E,
f fi(x) = M(x,a2),
\ A(*)= M(x, 2)7^(2) sikï2.
1 z£E\!a2}
Il eu résulte que la suite des vecteurs fk est solution de l'équation fk = Q/>_i,
k 5 2, où J\ est la deuxième colonne de M, et Q est la matrice M dont on a annulé
la deuxième colonne, c'est-à-dire
fi =
/0\
P
0
w
et Q =
/0
4
0
\4
0
0
Autrement dit, les composantes de la suite (/Jt)ieN* s°nt solutions du système
?(1) =<7/*-i(3) + pA-i(4)
??2) =<//*-!(!)
?(3) =??-.(3) + ??-1(4)
A(4)=<7/*-iO),
système équivalent au système
?(1) = /??) = qfk-iQ) + pfk-i (4)
?(2) = ?(4)=??_1(1)
ce qui implique que, si ? S 3,
fk(\)=qfk-x(\) + pqfk-2(\)*
ainsi la suite des probabilités (./fc(l))jt€N* est solution de l'équation de récurrence
d'ordre deux
Xk = qxk-i + Pqxk-2 k^3, (16.97)
EXERCICE l6.8
499
pour des conditions initiales
*i = 0, x2 = p2 ,
(16-98)
puisque Ton a
x, =/,(l) = M(aI,«2) = 0,
et que, du fait de l'indépendance des variables aléatoires X„, on a
P(Y0 =ai,Y! ^a2,Y2 = a2)
xi = /2(1) = P»! (Yj ^ «2, Y2 = a2) =
P(X0 = l.X, = 0,X2 = 1,X3 = 1)
P(Y0 = «1)
= p'
P(X0 - 1,X, -0)
L'équation caractéristique associée à (16.97) est
X2 — qk — pq = 0 ;
son discriminant est A = q2 + 4pq = q(l + 3p) et elle admet les deux racines
q - y/q(l + 3p) g + ^Jq(\ + 3p)
et a2 —
A, =
La solution générale de (16.97) est donc de la forme .v^- = fi\k\ + fi2k\ et la
suite (A(D)frgN* est la solution de conditions initiales données par (16.98); elle
correspond aux constantes /?j et /?2 qui vérifie
Mi + ? = 0
Pi*î + 02% = P2
A,(A! -A2)
P2
A2(A2 — Ai)
ce qui donne, après avoir remarqué que la formule obtenue est valable pour k =2,
0
si A: = 1
P<n(T = *) = /*(!) =
A2 — A]
[A*"1 - A*"1] siA S 2
Ear, (T) = E *P«i (T — A) = J] A [aJ"1 - A*"1]
4. On a alors
+00 2 +tX)
fcPwl(T-A) = —r
*=2 A2" '-' k = 2
Par un calcul classique de dérivation de séries entières, on a si \x\ < 1,
/t = 2 fe-0 V
(l-*)2 '
500
CHAPITRE 1 6. CHAÎNES DE MARKOV
un calcul facile conduit alors, en tenant compte des valeurs de Ai et A2 (on a bien
|Ai| < 1 et |A2| < l),à
v m_ 2-q _1 + p
Remarque. On donne, à titre indicatif, un tableau de valeurs numériques suivant
certaines valeurs de p :
P
0.1 0.5 0.8 0.9
E«,(T)
110 6 2.81 2.34
5. La chaîne Y étant irréductible et récurrente positive, il existe une unique
probabilité invariante v. Si v est une mesure invariante, on a en particulier vM2 = v, soit,
pour tout y e E,
4
mais, ici, M2(ctj,y) est indépendant de /'. Il en résulte que, pour tout y e E,
M\aJ,y)=^^.
Ainsi, v = (pq, p2,q2, pq) est la probabilité invariante. Il en résulte que
Ett2(T) =
1
1
v(a2) p
2 "
Il est clair que Ea2 (T) < E«, (T).
Remarque. On donne, à titre indicatif, un tableau de valeurs numériques suivant
certaines valeurs de p :
p
0.1 0.5 0.8 0.9
Ea2(T)
100 4 1.56 1.23
Exercice 16.9. Marche aléatoire sur l'intervalle d'entiers {0,1,2,..., N} avec
barrières réfléchissantes; probabilité invariante. Soit X = (X„)„£n un processus à
valeurs dans E = {0, 1,2 , N} qui, pour tout x e E, est une chaîne de Markov
homogène sur la base de processus (Œ, =A,(=An)neN,Px), de matrice de transition M
donnée par,
M(x,x + 1) = p M(x,x- \)=q, si 1 ;£ x $ N - 1 ,
M(0,1) = 1, M(N.N - 1) = 1,
où p, q e]0,1 [ et p + q = 1. Pour tout x e E, on note Tx le temps d'entrée en
x, c'est-à-dire Tx = inf(« e N* | X„ = x), avec inf 0 = +co.
EXERCICE l6-9
501
1. Spécifier la ou les classes de communication.
2. Justifier l'existence d'une unique probabilité invariante v et la calculer en fonction
de p, q, N ; en déduire la valeur du temps moyen Eo(To).
Solution.
1. Le graphe associé à cette chaîne est
Tous les points communiquent ; il n'y a qu'une classe de communication et la chaîne
est irréductible. Puisque E est fini, cette chaîne est donc récurrente positive.
2. Il en résulte qu'existe une unique probabilité invariante v. Ecrivons que c'est une
mesure invariante ; elle vérifie, pour tout x e E,
v(x) = Y, v(z)M(z,x),
z6E
ce qui, compte tenu de la valeur de M, est équivalent au système
v(*) = pv(x- 1) + qv(x + 1) si2^x^N-2,
v(\) = v(0) + qv(2)
• v(0) = qv(\)
v(N) = /?v(N- 1)
v(N-lj1 = pv(N-2) + v(N).
On a alors, si2^y^N — 2,
v(V+l)-v(j) = -[v(y)-v(y-l)];
q
en sommant en y, on a donc, si 2 =5 x ^ N — 2,
X
soit
v(x + 1) = -(- - l)v(0) + - v(x) - 4^(0),
q\q ) q q2
ce qui se simplifie en
v(x + 1) = - v(x) si2^x^N-2. (16.99)
q
De plus, on a
qv{2) = v{\) - v(0) = v(l)-qv(\) = pv{\),
502
CHAPITRE l6. CHAÎNES DE MARKOV
ce qui montre que l'égalité (16.99) est encore vraie pour x = 1. Il résulte alors de
l'égalité (16.99) que l'on a (attention au décalage d'indices), si 2 5 .r =< N — 1,
w=nx-\o).
¦<7
Calculons la masse de cette mesure ; deux cas se présentent :
• si p ^ q, on a
N . N-l
v(0) +
q
(16.100)
£ vW = v(D) + 1,(0) + EM)"1LM + (f )"">)
= 'H0)
1 1 P \<J
q 9 q \-îL ^q
soit encore
2>«-(f)
x=0
Pour obtenir l'unique probabilité invariante, il suffit alors de normaliser cette
mesure ; elle est donc donnée, compte tenu de ce qui précède, par
v(0) =
v(x) =
1-f
¦q i _f£rv?
2i-(DNv'
Le temps moyen de retour à 0. Eo(T0), vaut alors soit
Eo(T0) =
*-(f)H]
1-^
4
EXERCICE tÔ.IO
503
si p = q = \, l'égalité (16.99) étant vraie dès que 1 ;$ x ^ N — 2, on a
v{x) = v(l), si 2 ^ x ^ N - 1.
Puisque de plus on a, dans ce cas,
1
on a en fait
v(0)=-v(\) et u(N) = -v(N-l),
v<0) = ^v(l) et v(N)= Iv(N-l)= ^v(l);
2 1 ' v ' 2
la masse de v est donc v(E) = (N — l)i'(l). Il en résulte que l'unique probabilité
invariante est donnée par
v(x) =
1
N- 1
1
si 2 ^ x ^ N - 1.
si x = 0 ou 2.
Le temps moyen de retour à 0, E0(To), vaut alors ——, soit
v(0)
2(N-1)
E0(T0) = 2(N-1).
Exercice 16.10. Marche aléatoire sur N avec barrière de type quelconque ; mesure et
probabilité invariante, probabilité limite. Soit X = (X„)„eN un processus à valeurs
dans N qui, pour tout x e H, est une chaîne de Markov homogène sur la base de
processus (£2, A(Ai)«eN, P*)- de matrice de transition M donnée par,
( M(x,x + 1) = p M(.v,x-1) =q, sixeN*,
j M(0.0)=a, M(0. 1) = 1 -a,
ou p, q e]0,1[, p + q = 1, et a e [0, 1]. Si a — 0, le point 0 est appelé barrière
réfléchissante, si a €]0, 1 [, le point 0 est appelé barrière élastique, si a = 1, le point
0 est appelé barrière absorbante. Pour tout x g N, on note Tx le temps d'entrée en
x, c'est-à-dire Tx = inf(« s N* | X„ = x), avec inf 0 = +00.
1. Spécifier la ou les classes de communication. Étudier la périodicité des points.
On étudie d'abord le cas où a € [0,1 f.
2. Démontrer, par le calcul, l'existence d'une mesure invariante v. Étudier, suivant
les valeurs respectives de p et q, le problème d'existence et d'unicité d'une
probabilité invariante et la calculer dans le cas d'existence et d'unicité. En déduire, dans le
cas où a e [0,1[ et p < q, la nature des points de N, et donner, pour tout x e N, la
valeur Ex(T.ï) du temps moyen de retour à x.
3. Dans le cas où p >- étudier la nature des points de N et si p > q, calculer, pour
toutx s N*, la probabilité P^To = +00).
4. Dans le cas où p < (/justifier la P^-p.s. convergence de la suite de terme général
- YIj—i exp(-aXy). pour a > 0 quelconque.
On étudie le cas où « = 1.
504
chapitre 16. chaînes de markov
5. Calculer Po(To < +oo) et Eo(To) ; en déduire la nature du point 0.
6. Calculer, pour tout x G N*, la probabilité px(To < +oo). Déterminer la nature
des points de N*.
7. Étudier la convergence de la suite de terme général m" (x, y) (et préciser, s'il y a
lieu, sa limite), lorsque x G N et y G N*, puis lorsque x G N* et y = 0.
Solution.
1. On étudie le graphe associé à cette chaîne.
• Si a G [0,1 [, le graphe associé à cette chaîne est
Tous les points communiquent ; il n'y a qu'une classe de communication et la chaîne
est irréductible. Puisque N est infini, on ne peut a priori pas dire la nature de cette
chaîne ; c'est en particulier l'objet de la suite du problème.
• Si a = 1, le graphe associé à cette chaîne est
Tous les points de N* communiquent, mais 0 et 1 ne communiquent pas. En effet,
m(0,0) = 1 et, si on suppose que m™(0,0) = 1, on a, puisque m(z, 0) = 0 dès que
z ^ 2,
m"+1(o,o) = EMn(°'z)M(z>°)
= m" (0,0)m(0, 0) + m" (0,1)m(1, 0) = 1,
ce qui démontre que m"(0,0) = 1 pour tout « G N*, et donc que 0 ne conduit pas à
1. Il y a, dans ce cas, deux classes de communication, {0} et N*.
Pour ce qui est de la périodicité,
• Si a = 0, on a m(0,0) = 0 et, par une récurrence facile, pour tout n G N*,
m2" (0,0) > 0 et m2"+ ^0,0) = 0 ; 0 est de période 2 et donc aussi tous les points
de N.
• Si 0 < a < 1, on a m(0,0) > 0, ce qui implique que 0 est apériodique ; il en est de
même de tous les points de N.
• Si a = 1, on a m(0,0) > 0, ce qui implique que la classe réduite au point 0 est de
apériodique. Par ailleurs, on a m(l, 1) = 0 et, par une récurrence facile, pour tout
n G N*, m2"(l, 1) > 0etM2"+'(l, 1) = 0; 1 est de période 2 et donc aussi tous les
points de la classe N*.
EXERCICE l6.10
2. Une mesure invariante i> vérifie, pour tout x e N,
ce qui, compte tenu de la valeur de M, est équivalent au système
v(x) = pv{x — 1) + qv(x 4- 1) si 2 ^ x .
v{l) = (\-a)v(0) + qv{2)
v(0) = av(0) + (/v(lJ.
On a alors
et donc
v(l)
1 -a
v(0),
qv{2)
ce qui donne, après simplifications,
v{0) - (1 -a)v(O),
v(2) = (l-a)^v(0).
Il en résulte, en reportant dans le système (16.101) que
qvQ) = (\ -a)pv(0)
J_ _ I
lq2 q\
et donc,
v(3) = (l-a)^3-v(0).
Si on suppose alors que l'on a, pour tout / tel que 1 ^ 1 S
v(i)= (M v(0),
q Kq'
on a, par un calcul identique,
:) v(0)-p (i-) v(0)
qv(j + i) = y(û)-p (Ly
q yq> q yq
(16.101)
(16.102)
1 -« /p\j~2 r 1 1 pj
-) p --1 v(0) = (l-a ^-KO),
et donc,
v(j + 1)
1 - a /pw
q xq
Il en résulte que (16.102) est vraie pour tout j e N*. Il existe donc des mesures
invariantes v ; elles sont toutes proportionnelles et définies à un facteur multiplicatif
près par l'égalité (16.102).
- Si a = 1, la mesure de Dirac est l'unique probabilité invariante.
=,1)6
CHAI'IIRC l6. CHAÎNES DE MARKOV
- Si a t [0, l[, ces mesures invariantes n'ont une masse finie que si p < q. Dans ce
cas. leur masse esl donnée par
y en*
1 — cr 1
/ef
1-4
v(0).
soit
u(N) = S-—-v(0);
q-p
l'unique probabilité invariante v est alors donnée par
q-p
v(j) =
si / = 0,
2q -a J
(16.103)
2# - a q
Ainsi, si a € [0,1[ et si p < q, la chaîne est irréductible, récurrente positive et on
3. Si cr e [0, 1[ et si p S q, il n'existe pas de probabilité invariante, et la chaîne
est irréductible transitoire ou récurrente nulle. Pour décider de la nature de cette
chaîne, on applique le critère analytique de récurrence (corollaire 16.48) : la chaîne
est récurrente si et seulement si le système
h = Qh O^A^I. (16.104)
a pour unique solution h = 0, où Q est la restriction de M à N* x N*. On a
Qh(x) = y Q{x y)h(v) = ! qhiX~ l) + PHX + 0 »]X >\-
' *—< 1 " I ph(2) si x = 1 ;
Le système (16.104) s'écrit donc
f h(\) = ph{l)
l h[X) = qh[x - 1) +¦ pii(.\ 4- I) six?2.
[ 0 h{x) $ 1 ;
la deuxième équation donne, si x > 2,
q[h{x)-h(x - 1)1 = p\h(x 4- I)-A(.t)] ,
soit, par itération rétrograde,
h(x +¦ i) - Wjc) = (^)* 1 [A(2) -/i(i)] = (CJ~Y /¡(1) ;
EXERCICE 16.(0
on remarque que celle égalité est encore vraie pour x — 1. I] en résulte que, pur
sommation, on a. pour tout x e N*,
ou encore
h(x + \)~h{X) = Y{~)J h(\).
j = Q 1
(16.105)
- Si p = q, on a h(x) = xh\i) et la seule solution au système (16.104) est h = 0 ;
dans ce cas, la chaîne est récurrente nulle.
- Si p > <7, on a, pour tout x 5 2,
1
/i(x) = /i(l)-
'-5
= //(i)-
ainsi, si on prend h(\) = = 1 — ^ < 1, la fonction /z définie, pour tout
x e M*, par
est solution non nulle du système (16.104); ainsi, dans ce cas, la chaîne est
transitoire. La probabilité P^(To = +co) = P^f),^*^; e H*)] vaut f(x).
où / est la solution maximale du système (16.104) (cf proposition 16.47); c'est
la fonction h elle-même, puisqu'elle correspond à la plus grande valeur possible
pour h(\) relativement à la contrainte 0 ^ h ^ ] . Ainsi, pour tout x € N*, on a
P.riTo = +oo) = 1 -(-)'' •
4. Si a e [0, 1 [ et si p < q, la chaîne est irréductible, récurrente positive et la loi
forte des grands nombres pour les chaînes de Markov homogènes s'applique à toute
fonction integrable par rapport à la probabilité invariante v, ce qui est le cas ici,
puisque la fonction considérée est bornée. On a, d'après (16.103),
L
exp(-ax) dv(x) =
q-p . q-p [~a /
+
2q — a 2q — a q
q - p
1 -a
exp(-a) Y
1 - or exp(—<i
— exp(—a)
iJ-ii
soit
/
Jïï.
exp(—î7x) dv(x) = P
2q — a
1 + (1 -a)
exp(—à)
q - j>exp(-a)J
¦WS CHAI111 RE [6. CHAÎNES Ûbl MARKOV
La loi forte des grands nombres démontre la P^-p.s. convergence de la suite de terme
général ~ exp(—ûX/) et assure que l'on a
1 \ "\ q
P*-p.s. lim - } exp(-aX.) = —
" n L—' 1.
j = i
5. Si a =' 1, on a vu que la mesure de Dirac est l'unique probabilité invariante ; 0 est
donc récurrent et on a alors Po (To < +co) = 1 ; un argument plus élémentaire est
de dire que l'on a
PofT0 < +c^) ? P0[Xt = 0) = M(Û.O) = 1 .
On a donc T(l = 1 Po-p-s-, et par conséquent Eo(To) = I ; ainsi, le point 0 est
récurrent positif.
6. La probabilité P*(T0 = +oo) = P^H/eN*^/ e N*)] vaut f<x)- ou / est la
solution maximale du système (16,104) (cf proposition 16.47) ; sa solution générale h
est encore de la tonne (16.105) :
- si p $ q, et si h(l) > 0. on a alors limx/?(.v) — 4-co; la seule solution du
système (16.104) est donc la solution nulle, ce qui implique que, pour tout x e N*,
Px(T0 < +co) = 1.
- si p > q, la solution maximale du système (16.104) est la même que dans le cas
a < 1 et on a encore, pour tout v € N*, Px(Tq = +00) = 1 — (-)*, ou encore
P,(T0 < +co) = (^Y .
\p>
On a vu que si a = 1.0 ne conduit pas à 1 ; le point {) étant récurrent, l est transitoire,
puisque, sinon, les points 0 et I communiqueraient. Ainsi, lorsque a = 1, la classe
M* est transitoire.
7. Si a = 1, on a donc, si x G N et y G N*, lim„ M" fx, y) = 0. Par ailleurs, 0 étant
récurrent apériodique, on a si x G N*,
ainsi
lim„M"(;e,0) = <
(?) SI"
>q,
1 Si p
Exercice 16.11. Processus de Gallon-Watson el martingales; évolution de la taille
d'une population. Il s'agit d'étudier l'évolution de la taille des générations
successives d'une population d'individus qui donnent chacun naissance à un nombre
aléatoire de descendants suivant la même loi de probabilité p ; en particulier, il s'agit
d'évaluer la probabilité d'extinction de la population. Le modèle est k suivant.
I +(l -a)
exp(-tï)
q — oexpl — a) \
EXERClCt l6.11
On considère une loi de probabilité p sur N telle que 0 < p({0}) < 1 et le
Nique 0 < m < +00, où m désigne la moyenne de p., définie par p = Yln=*o "M*!"!)-
Enfin, on note g [a fonction génératrice de p définie sur [0, l] par
On considère une famille, indexée sur N xN*, de variables aléatoires YHj!-, définies
sur l'espace probabilisé (Q, ,A, P), à valeurs dans N, indépendantes et de même loi
¿1 (Y„,,' représente le nombre de descendants directs du /-ième individu de la n-
ième génération). On se donne de plus un entier a 5= 1 (nombre d'individus dans
la population initiale). Le processus X, dit processus de branchement (les individus
peuvent être identifiés aux sommets d'un arbre, au sens mathématique, ou aux nœuds
de ramification, au sens arbre généalogique) ou processus de Galton-Watson, est
défini par
avec la convention d'écriture Yfj=i Yn,y = 0 (^« est le nombre d'individus de n-
ième génération).
La filtration naturelle (Ai)«eN du processus X sera la seule filtration considérée
par la suite.
1. Démontrer que X est une chaîne de Markov homogène de matrice de transition
M à déterminer.
2. Démontrer que X est une martingale, une sur ou sous-martingale, suivant les
valeurs de m,
3. On définit, pour tout ri e N. la variable aléatoire Y„ = ^ ; démontrer que Y est
une martingale positive.
4. Si m > 1, on admettra qu'il existe un unique réel je]0,l[ tel que g (s) = s. On
définit, pour tout n e N. la variable aléatoire Z„ — sx" . Démontrer que Z est une
martingale équi-intégrable.
5. Démontrer que la suile (XM)„eN converge P-p.s. vers une variable aléatoire X^o
(étudier séparément les cas 0 < m ^ 1 et m > 1). Identifier la limite X^ dans le cas
oùO < m < 1.
6. Soit j € N* ; calculer, pour tout k > N, la probabilité P^CX=n(X" = J)\ en
fonction de M(y, j) et de P(Xn = /) ; en déduire que P [liminf«(XH = y')] = 0.
7. Démontrer alors que l'on a, pour tout / e N*. P(Xoo = j) = 0, et qu'en
conséquence Xqo € {0, +co| P-p.s. Justifier le fait que tous les points de N* sont
transitoires. Si m > 1, déduire de la quatrième question que l'on a
X0 — a et. pour tout n e N. X„ + i
P(Xoo = 0) = sa et P(Xco = +oo) = 1 - sa .
5io
CHAPITRE l6. CHAÎNES DE MARKOV
8. On note T le temps d'extinction du processus X, c'est-à-dire le temps d'entrée en
0 défini par T = iuf(» € N* \ X„ = 0), avec inf 0 = +co. Vérifier que l'on a P-p.s-
(Xco = +oo) = liminf(X„ # 0) = (T = +co),
n
et en déduire la valeur de la probabilité P(T < +oo) pour les différentes valeurs de
m (le temps d'arrêt T est la date d'extinction de la population).
Solution.
1. Pour toute fonction bornée / sur N, pour tout n € N* et tout (xj,..., xn) e N",
E<X"-X' X*)=(*,*l»•»»*«) [/(XM + 1)]
£(X0.Xi,...,Xí,)=(a,j:l,...,.v„t
/(v^i)EY»,y)
7 = 1
soit, puisque les variables aléatoires (X0 X„) et Y„j5 j e M*, sont
independa nies.
E(Xo.x1....,xn)=(a,,1,...,,rt) [/(Xb+i)] = E y(l(,B>.)ËYB,y)
Les variables aléatoires Yn j,j € N* étant indépendantes de même loi ¡1, on a alors
f(0)
si xn = 0,
p(Xt).X1,...,X„) = (o,-i:i,...^,i) [f/v ~i] _ J /"
L/(x„+,)]-| //d/t«„ siXjiGN*.
Il en résulte que
EA" [/(X„ + l)] = MÍX„,/h (16.106)
où. 80 désignant la mesure de Dirac en 0, M( ¦, /) est définie par, pour tout x e N,
M(x,/) = l{0}(x) j fd5o + lN*(x) j j d¡i*x.
Ceci démontre que X est une chaîne de Markov homogène de matrice de transition
M, d'entrées M(x, y) = M(x, l{y¡), soit
M(x v) = \ ho) (y) six = 0,
2. Le processus X est adapté et positif. Le même calcul de moyenne conditionnelle
pour des variables aléatoires positives (non nécessairement integrables) donne, pour
tout n G N* et tout (X],.. .,x„) e N",
E(X0.X1,...Xi,) = (^,,...,^)(X)i+l) = E(X(,.X, Xn)=(.a>X1 *»)(l(;(n2!1) £ Y„.y)
7 = 1
EXERCICE l6.i [
5"
soit, puisque les variables aléatoires (X0,..., X„) et Y„j, j e N*, sont
indépendantes,
E(X«llX'x")=(,,'JCl-r''>(Xn+i) = l(^3ti)E
Les variables aléatoires Y„(J, y e N*, étant de même loi p, de moyenne m, on a
E(X0,X,,..,X/l)=(a^i,...,x»)(Xfl + l) = l(,n3tl) J]E(Y(liy)
il en résulte que
E'A"(X„+1) =mX„.
(16.107)
Le processus X est une martingale (intégrable, puisqu'alots E(X„+i) = E(Xo) = a)
si m = l, une surmartingale positive si m < 1, une sous-martingale positive si m > 1.
3. Divisant les deux membres de l'égalité (16.107) par + on a
Vm"+1/
ce qui démontre que Y est une martingale positive.
4. Puisque s e]0,1 [. la fonction p : x \-> s* est bornée par 1 sur N ; il en résulte
immédiatement que [a suite des variables aléatoires Z„ est équi-intégrable. De plus
l'égalité (16.106) donne, pour cette fonction,
EA" [.vx"+'] = M(X„,p),
où, pour tout x e N, on a
Mh.p) = li(>i (.t).!'" + lK^X) J s>' <ip*\r).
Mais on a (résultat classique sur la convolution de mesures)
J s? dp*x(y) = j s» dp(y) X = \g(s)]x ;
puisque g(.s) = s, il en résulte que
M(.V. p) = 1;0; (X)S° + l„ + (x)sX = S* ,
et donc que
Ainsi, Z est une martingale équi-intégrable.
5. On distingue les trois cas suivants.
_ cx„
512
CHAPITRE l6. CHAÎNES DE MARKOV
- Si m ^ 1, X est une surmartingale positive; elle converge donc P-p.s. vers une
variable aléatoire X^o telle que. pour tout n € N, 0 ^ E^" (Xoo) Í X„ ; de plus,
X„ est integrable puisque l'on aO í E^fX,,) ^ X0 = a. 11 en résulte que
est integrable et que l'on aOí E(Xoo) Í EX„. Par ailleurs, il résulte de l'égalité
(16.107) que
E(X„+1) = mE(X„)=m"+1a;
si m < 1, on a alors lim„ E(X„) = 0 et donc, par lelemmede Fatou, 0 ^ E(Xoo) í
lim inf„ E(X„ ) = 0 ; puisque X^o est positive, on a X^ ~ 0 P-p.s.
Remarque. Si m = 1, on ne peut rien dire, a priori, par ce dernier argument quant
à la finitude de Xoo-
- Si m = 1, X est une martingale positive telle que E(X„) = a ; autrement dit,
elle est bornée dans L1 et est donc convergente P-p.s. vers une variable aléatoire
positive Xoo P-p.s. finie.
- Si m > 1, Z = sx est une martingale équi-intégrable (donc bornée dans L1 ) ; elle
converge P-p.s. et dans L1 vers une variable aléatoire positive U^o P-p.s. finie. Il
en résulte que la suite (Xn)neN converge P-p.s. vers une variable aléatoire positive
Xoo- Elle vérifie
[lirti5X»]l(3ioo=+oo) =0. (16.108)
6. Soit j e N* ; X étant une chaîne de Markov homogène de matrice de transition
M, on a, pour tout k > N,
p[ft=N(X„ = ./)] = P{Xk = /1 Xft_! = j)
x P(Xjt_i = j I Xk-2 = ;)... P(XN =j),
soit
r k 1
P fi <X« = J) \ = [M(y.y)]*-NP(XN = /).
vi=N J
Mais, puisque /¿({01) > 0, on a //*>({0}) > 0, et donc M(;\ ; ) = fi*J {{j}') < 1 ; il
en résulte que l'on a, pour tout N e N*.
limP
k
l-o=N
= 0,
et, de façon immédiate, que P[liminfn(X„ = j)] = 0.
7. La suite (X„)„e^- étant à valeurs entières et convergeant P-p.s. dans N, on a, pour
tout j e N*,
P-p.s. (Xoo = j) C liminf(X„ = /),
ce qui, d'après la question précédente, démontre que l'on a, pour tout j e N*,
P(Xoo = j) = 0, et donc que Xoo e {0. +00} P-p.s. Si / € N* était récurrent,
on aurait P[limsup„(X„ = j)] = 1, et, la suite (X„)„e^ convergeant vers Xœ sur
limsup„(X„ = _/).on aurait Xoo = / P-p.s., et il y aurait contradiction ; donc tous
les points de N* sont transitoires.
EXERCICE [6-12
5'3
Si m > 1, on a vu que Z est une martingale équi-intégrable et que la suite (Z„)„<=n
converge dans L1 ; on a donc
.v" = E(sxq) = !imE(.ïX") = E(Iim.ïX"):
n n
par conséquent, puisque Xqq e ¡0, +00} P-p.s.. il résulte de l'égalité (16.108) que
sa = E^l^^y,) = P(Xoo = 0) .
On a donc . ,
PIXqq = 0) = sa et PÇXqo - +00) = 1 - sa .
8. Puisque l'on a l'implication
Xn(ù>) = 0 (V/> £ n,Xp(û>) = 0),
on a
liminf(X„ ?é 0) C H (X* £ 1) = (T = +oc),
n 1 1
l'inclusion inverse étant évidente, on a
limmf(X,( ?é 0) = (T = +oo).
Par ailleurs, on a démontré que P-p.s.,
liminffX* ¿0) = (Xoo = +00).
Il en résulte que P(T = +00) = P(Xco = +00), et donc P(T < +00) = P(Xco =
0).
- Si m > 1, on a
P(T < +00) = s" et P(T = -foc) = ] - sa .
- Si m < 1, on a vu que Xco — 0 P-p.s. ; on a donc P(T < +00) = 1.
- Si m = 1, X est une martingale et on a vu que PfXco < +vo) = 1 ; on a donc
P(Xqo = 0) = 1 et. par conséquent, P(T < +00) = 1.
Exercice 16.12. Modèle de diffusion de maladies contagieuses de Pôlya (suite).
Il s'agit, dans cet exercice, de compléter l'étude du modèle de Pôlya (cf. 16.3 et
16.8). décrit sons forme de tirages de boules dans une urne, et plus précisément,
de démontrer que la loi de la variable aléatoire Yco, limite P-p.s. de la suite des
proportions Y„ de boules blanches contenues dans l'urne après le m-ième tirage, et
après avoir rajouté la boule tirée et les c boules de la couleur de la boule tirée17,
est la loi bêta |) de première espèce sur [0,1]. La méthode est de calculer les
moments de tous ordres de Y^,.
On garde toutes les notations de (16.8).
17. On rappelle que le processus Y esi une chaîne de Markov non homogène et une
martingale.
514
CHAPI'IKE l6. CHAÎNES DE MARKOV
1. Soit un entier quelconque / > 1 ; on définit le processus Z ~ (Z„)„eN* par
z"= FI Yn+j
Bn(Bw + c).-.[B„ + (/-ik]
Démontrer que Z est une martingale bornée et que la suite (Z„)„eN* converge P-p.s.
et dans Z1.,
2. En déduire la valeur de E(Y^) ; l'exprimer à l'aide de la fonction T.
3. Si U est une variable aléatoire réelle de loi bêta ft{a,b) de première espèce sur
[0.1], calculer son moment d'ordre /.
4. Démontrer, à l'aide des résultats des questions 2. et 3., que la loi de Yoo est la lui
bêla /J(ç > de première espèce sur [0.1].
Solution.
1. Remarquons que
+ i = B„ + cX„+i.
Cela permet d'expliciter Zn sur chacun des événements (XH+i = 0) et (X„_(-i = 1).
• Sur (XH+i = 01. on a B„_|_i = B„ et donc
B„(B„ +c)...[B„ + (/ - Dr] k„
"+1 k„ +1 k„_|_2 ... kn+g_¡)kn+t kn+i
¦ Sur (X„+! = 1). on a B^-f-! = B„ + c et donc
Z„.
_ (B„ + c)(B„ 4- 2c) ... [B„ + c + (/ - l)c] _ A„ Bw + le
+ 1 — ——r ¦ r ~ ~ ~ " — , Ln —— .
Ainsi, on a, en tenant compte de l'adaptation des processus Z et B,
EA«(Z„ + 1) =E^[l(X/, + 1^Zn + 1] +EA«[l(x„+1=1)Zn + 1]
soit, d'après les égalités (16.21) de l'exemple (16.8) et l'égalité B„ = knY„,
kn+i
Z„
En remarquant que B„ = knYn, et que kn+i = + le, on a
1 ÏC'
et donc
EA"(Zn+1) = Z„,
Ainsi, Z esl une martingale. Puisque [Y„| í 1, pour tout n. on a aussi |Z„[ ^ 1 pour
tout n ; la martingale Z, est donc équi-iulégrable et converge P-p.s. et dans vers
une variable aléatoire integrable Zco.
exercice [<j.I2
5*5
2. Par ailleurs, puisque, pour tout n € N*, on a
J=o
et que la suite (Y„)neN* converge P-p.s. vers Yqo, on a
Zoo = Y^ P-p.s.
La convergence de la martingale 2 ayant lieu aussi dans t), on a alors
E(Zt) =E(ZO0) =E(Y/O0).
(16.109)
Il reste donc à calculer E(Zi). Puisque B, = b + cX\, on a
[b + eXiî P + c(l + X,)] ¦ ¦ ¦ [b + c(l - 1 + X,)]
Zi -
Mais la loi de Xi étant
k\k2 ...ki
i—ôi + i
ft + r ft + r
on a
E[[ft + cXj] [b + c(l + Xi)]... [ft + c(/ - 1 + Xi)]]
ft
ft + r
ft
ft + r
[(ft + c)(b + 2c) ... (ft + /0] + [ft (ft + c) ... (ft + (/ - l)c)]
(ft + r)(ft + 2c) ... (ft + (/ - 1)0 [ft + /f + r] .
De plus
kik2 ...ki = (ft + r +c)(ft 4- r + 2c)... (ft + r + le).
ce qui donne
E(Zi) =
(ft + 0(ft + 2c)... (ft + (/ - 1)0 [ft + /c + r]
ft + r (ft +r +0(ft + + 2c)... (ft + r + (i - l)c)(b + r + lc)'
et après simplifications,
ElY<„) = E(Z,) =
r(/ + ^)r{^)
r(/ + ^)r(^)
3. Si U est une variable aléatoire réelle de loi bêta fi(a.b) de première espèce sur
[0. 1], on a
r(a)T(ft)
et donc
E(\J1)-r(!+a)r(a + b)
V T(l +a +ft)r(a)
rmi'MRL 16. CHAÎNES DE MaRXD\
4. On remarque donc que V^, a mêmes moments qu'une variable aléatoire U de
loi bêla fi{j, ^) de première espèce sur [0. 1]. Puisque ces variables aléatoires sont
bornées, leurs fonctions caractéristiques sont analytiques sur M et coïncident partout
(cf. chapitre 12, prop. 12.16). Le théorème de Lévy assure alors que Y ce suit la loi
bêta r-) de première espèce sur [0. 1].
Remarque. En particulier, si b = r = c. la loi de Yco est la loi uniforme sur [0, ]].
Appendice A
Résumé de théorie de la mesure
On donne les grandes lignes et les énoncés des principaux théorèmes de
théorie de la mesure et de l'intégration, de manière à avoir sous la main
les théorèmes essentiels. Ponr nne étnde approfondie, nons renvoyons anx
livres de théorie de la mesure ou de probabilité comme cenx de Durrett
(dans lequel il existe nn résumé de théorie de la mesure assez détaillé), de
Gramain, Métivîer ou Neven.
A.l. Mesure et probabilité
Définition A.l. Une famille -A de parties d'un ensemble Q. est
- une algèbre (ou un anneau) si elle est stable par union (finie) et
différence.
- une algèbre (ou un annean) unitaire si c'est une algèbre qui contient Q.
(exemple : l'ensemble des unions finies d'intervalles de R).
- une semi-algèbre (ou un semi-annean unitaire) si £2 et 0 e A, si elle est
stable par intersection (finie) et si, pour tout A e A, Ac est union d'un
nombre fini d'éléments de A disjoints deux à deux (exemple : l'ensemble
des pavés de r" de la forme 1 \at ¦ b, ] où —oo ^ at < b, < -f-oo.
- une tribu ou a-algèbre si c'est une algèbre unitaire stable par réunion
dénombrable, c'est-à-dire que pour toute suite (A„)„eK d'éléments de
A, on a LbeN A« e ^-
Remarque. Si A est une tribu, alors Q e A ; de plus, A est stable par
complémentarité, c'est-à-dire que si A e A alors Ac e A, et stable
par intersection dénombrable, c'est-à-dire que pour toute suite (A„)„eN
d'éléments de A, on a Hnen ^» e
Soit {Aj,i € 1} une famille d'anneaux sur Q (resp. de tribus) ; la famille
H/ei A' es^ encore un anneau (resp. une tribu); attention la réunion de
tribus n'est pas une tribu. L'ensemble tP(Q) de toutes les parties de £2
est un anneau et une tribu ; on définit alors l'anneau engendré (resp. la
tribu engendrée) par une famille quelconque 8 de parties de Q comme
l'intersection de tous les anneaux (resp. toutes les tribus) contenant 8. La
tribu engendrée par 8 est souvent notée o(t$) et 8 est appelée système
générateur de la tribu a{8); la tribu engendrée par une partie A de Q
517
APPENDICE. RÉSUMÉ DE THFORlE DE LA MESURE
est la famille {A, A'', Q, 0}. La tribu {£2,0} est appelée tribu triviale. La
tribu borélienne de E", notée £ÏM>(. est la tribu engendrée par la famille
des ouverts de K" ; elle est aussi engendrée, par exemple, par la famille des
pavés de M" de la forme J~["=1 . où — oo $ a¡ < b¡ < +00. La tribu
borélienne de JR est la tribu engendrée par la famille des ouverts de K à
laquelle on adjoint les singletons {-oo} et {+00}; elle est notée ¿B^. Elle
est aussi engendrée, par exemple, par la famille des intervalles de la forme
[a, h\ où —00 ^ a < b < -\-oc. Soit {A¡, i e 1} une famille de tribus sur Q ;
la tribu engendrée par la réunion des A¡, i e I. est notée v,el-A,. Si A est
une tribu, le couple (Q, A) est appelé espace mesurable ou probabilisable.
Définition A.2. Soit f une application de. E dans F, ensembles munis
respectivement des tribus 8 et 3*. On dit que f est mesurable ou est une
variable aléatoire si, pour tout A e 37, l'image inverse /~'(A) e S. On
rappelle que /~'(A) — {x <e E ( f(x) <e A}.
Proposition A.3. (a) La composée de deux applications mesurables est
mesurable.
(h) Soient f une application de E dans F et '£ une famille de parties de
3*'. On a l'égalité des tribus /^(aCG)) — a [f~lÇG)] (pour une famille
quelconque S) départies de Y, f~i(£)) désigne la famille des f~l(A) lorsque
A parcourt £)). En particulier, si 3* est une tribu, la famille f~l{3?) l'est
aussi; elle est appelée tribu engendrée par f.
(c) Soit f line application de E dans F munis respectivement des tribus S
et 3*'. Si 3* est engendrée par une famille G de parties de ', pour que f soit
mesurable il faut et il suffit que f _1 (G) C 8.
Définition A.4. Soit f¡, i e l, une famille ^'applications de E dans F, muni de
la tribu 3*,. La tribu engendrée par la réunion des tribus f~1 (37; ) est appelée
tribu engendrée par les f) et notée o(f¡ ; i e I) ; c'est la plus petite tribu sur
E rendant mesurables toutes les f¡.
Proposition A.5. Soit {f„;n e N} une suite d'applications mesurables de
l'espace mesurable (E, 8) dans K (resp. ¥,) muni de sa tribu borélienne.
Quand elles sont définies1, les applications f \ + f2, /1/2, ft+, f¡~, sup«eN fn,
inf„€N /„, limsupn ./„, liminf,, /„ sont mesurables.
Une application continue de K" dans Rp est borélienne, c'est-à-dire
mesurable par rapport aux tribus boréliennes.
Par la suite, il est sous-entendu que les espaces R, K et E" sont munis de
leur tribu borélienne.
1. Conventions : pour tout a € K, on a +00+a = +00, — 00+a — —oo, -f oo + f+oo) =
+ 00. -00 + (—00) = -oo. 0 x (±oo) = 0 et pour tout a e R*. a x (+00) — sign(ij)oo,
a x ( —oo) — — sign(iï)oo > EnJin, la somme +00 -f (—00) n'est pas définie.
a.[. mesuree'! probabilité
519
Définition A.6. Une fonction f définie sur l'espace mesurable (E. 8) à
valeurs dans K (resp. M.) est étagée si elle est mesurable et ne prend qu'un
nombre fini de valeurs, toutes finies. Elle s'écrit f — Y^"j=i fj^&j ou ^-es ^-J
appartiennent à 8 sont disjoints deux à deux et où f¡ e M..
Lemme A.7. (Fondamental.) Toute fonction mesurable définie sur l'espace
mesurable (E, 8). à valeurs dans E+. est limite simple d'une suite croissante
de fonctions étagées à valeurs dans R+.
Toute fonction mesurable définie sur l'espace mesurable (E, 8) à valeurs-
dans R ou R est limite simple d'une suite de fonctions étagées.
Définition A.8. Soient une famille de parties de Q et p. une application
de dans R+. On dit que p possède la propriété tTadditivité finie (resp.
J'additivité dénombrante; on dit encore dans ce cas que p. est u-additivej
si, pour toute famille finie (resp. dénombrable) A/, i e I, d'éléments de f7
disjoints deux à deux dont la réunion appartient à 3*', on a
Exemple A.l. L'application p définie par p(A) = 0 si |A| < +00 et
p(A) = +00 sinon est additive mais non rj-additive.
La fonction \i définie sur la famille â des intervalles de 1: par p(A) =
longueur (A) est rj-additive.
Définition A.9. Une mesure \i sur l'espace mesurable (Ç2, A) est une
application a-additive de A dans R+ telle que /¿(0) = (f Une mesure p est finie
si elle est à valeurs dans R+. La masse d'une mesure est p(Q). Une mesure p.
est a-finie s'il existe un recouvrement dénombrable de Ç2 par une famille A„,
n € N, d'éléments de A de mesure finie. Une probabilité P sur (Q, A) est une
mesure de masse 1. La mesure de Dirac en co e Q est la mesure définie
par SW(A) ~ 1 si a) e A, &W(A) = 0 sinon. Une mesure est discrète si elle
est de la forme p = 5ZweD cc^S^ où D est une partie dénombrable de Q et
Proposition A.10. Soit p une mesure sur l'espace mesurable (Q, A) non
identique à -f oa On a les propriétés suivantes :
(a) Pour tout A, B e A disjoints, /i(AUB) = p(A) + p(B).
(b) Pour tous A, B € A tels que ACB, on a p(A) < p(B).
(c) Pour tout A, B e A, ¡_i(A U B) $ p(A) + p(B) (sous a-additivité).
(d) Si (A„ )„eN est une suite croissante d'éléments de A, on a
520
APPENDICE. RÉSUMÉ DE THÉORIE DE LA MESURE
(e) Si (A„)„€k est une suite décroissante d'éléments de A telle qu'existe
n0 pour lequel on ait p,(Ano) < +00, on a
p,(f] An) = lim/i(A„).
Génération d'une mesure
Théorème A.ll (Théorème de Carathéodory). Une fonction p,, o~-additive
sur une algèbre unitaire A et vérifiant /¿(0) — 0, se prolonge de manière
unique en une mesure p, sur la tribu engendrée par A.
Théorème A.12. Soit S une semi-algèbre sur Q ; l'algèbre S engendrée par
S est la famille des réunions finies d'éléments disjoints de S.
Soit une fonction p,, additive sur la semi-algèbre S, vérifiant /¿(0) — 0, et
sous o-additive sur S, c'est-à-dire telle pour toute famille dénombrable A,-,
i e I, d'éléments de S disjoints deux à deux dont la réunion appartient à S,
on ait /i(l+JieI A,) $ X^ei /^(A.;). Alors p, se prolonge de manière unique en
une fonction a -additive sur S et, en conséquence, en une mesure unique p
sur la tribu engendrée par S.
Exemple A.2. Soient Sa la semi-algèbre sur R des intervalles de la forme
]a,b] et p, la fonction longueur définie sur âd', P- est o-additive sur âj-
L'unique prolongement de p en une mesure sur la tribu borélienne est la
mesure de Borel2 sur M. Plus généralement, si F est une fonction réelle
définie sur R, croissante et continue à droite, il existe une unique mesure p,
sur (R, J8m) telle que p-Qa, b]) = F(b) — F(a) pour tout a,b ; elle est appelée
mesure de Borel-Stieltjes associée à F et est o-finie. De même, si .9 est la
semi-algèbre sur W des pavés de la forme n^J*2' > ^a fonction volume
p, définie sur P par p([\"=1]aj,bt]) = I~I"=1(£j,- — a,) est a-additive sur .P.
L'unique prolongement de p en une mesure sur la tribu borélienne est la
mesure de Borel sur R".
Définition A.13. Un ensemble A est p -négligeable s'il est contenu dans un
ensemble B € A de mesure nulle. On dit que l'espace mesuré (Q, A,pi) est
complet, ou que la mesure p, est complète, si tout ensemble p,-négligeable
appartient à A.
2. Emile Borel (1871-1956), né à Saint-Affrique, a été professeur à l'École normale
supérieure, puis à la Sorbonne. Ses travaux de recherche portent d'abord sur la théorie de la mesure
(c'est lui qui introduit la notion d'ensemble de mesure nulle), des fonctions de variables réelles
et de sommation de séries. Il se tourne ensuite vers la théorie des probabilités, la théorie des
jeux, et la physique mathématique. On lui doit aussi une approche probabiliste de la théorie
cinétique des gaz.
A.2. INTÉGRALE
521
Proposition A.14. Soit un espace mesuré (Q, A,p) et soit la famille de parties
de Q
A11 = {X I ????2 e A tels que Bi ? X ? B2 et p(B2 -B,) = 0} ;
A11 est une tribu et p se prolonge de manière unique en une mesure p sur A11
et p est complète.
Exemple A.3. La complétée de la mesure de Borel sur E" est la mesure de
Lebesgue sur E".
Définition A.15. Une propriété ¡P dépendant de ?? e Q, est dite vraie p-
presque partout si l'ensemble des ?? où la propriété ¡P(co) est fausse est p-
négligeable. On abrège p-presque partout en p-p.p.
Exemple A.4. Dire qu'une suite de fonctions mesurables (/„)„eN* converge
/x-presque-partout est dire que l'ensemble des ?? où la suite (/„(<«))„ ¡=n* ne
converge pas est de mesure nulle.
A.2. Intégrale
Soient (Q,A) un espace mesurable et M+ l'ensemble des fonctions à
valeurs dans E et ?-mesurables.
Définition A.16. On appelle intégrale sur (Q, A) toute application S de M+
dans E telle que tî(0) = 0 et qui soit ??-additive sur M+, c'est-à-dire telle
quei(J2neN fn) = E„sn £(fn), pour toute suite (fn)n€N d'éléments de M+.
Proposition A.17. Soit S une intégrale sur (Q, A) et soient f, g et f„, n e N,
des éléments de M+. On a, dans E+ :
(a) *{f + g) =*{/) +*(g);
(b) sif^g,alorsi(f)$Hg);
(c) si fn f f alors â(fn) f (propriété de Beppo Levi3) ;
(d) si fn \ f et si il existe n0 tel que â(f„0) < +00, alors ê(fn) \
Hf);
(e) pour tout a e E+, â (af) = a â (f).
Lien entre intégrale et mesure
Théorème A.18. Soit â une intégrale sur (Q, A). L'application A ?> ?(1a)
est une mesure sur (Q, A).
3. Beppo Levi (1875-1961), né a Turin, s'installe en Argentine en 1939. Ses travaux portent
sur la théorie des fonctions integrables et la mécanique quantique.
522
APPENDICE. RÉSUMÉ DE THÉORIE DE LA MESURE
Inversement, soit une mesure p, sur (Çl, A) ; il existe une intégrale unique
sur (Q, A) telle que l'on ait, pour tout As A, J^,(1a) = MA). &e plus>
si f e M+, Suif) est donnée par
xp(f — x) si f estétagée,
sup {$n(g) \ g ^ f, g étagée) dans le cas générai
Notation. J,A.f), élément de R+, est noté indifféremment
j f dp, j f(o))dp{o)) ou f fla))p{dû)),
et appelé intégrale de / par rapport à p.
Lemme A.19 (Lemme d'unicité). Deux intégrales â et J' sur (Q. A) qui sont
telles que J(1a) = S'(^-a) pour tout A g A sont égales.
Intégration de fonctions de signe quelconque
Définition A.20. Soit {Q,A,p) un espace mesuré. Une fonction à valeurs-
dans M est est dite /¿-integrable (resp. /x-semi-intégrablej si elle est A-
mesurable, et si JQ \ f \dp < +00, ou de manière équivalente, fQ f+ dp <
+00 et fQ f" dp < +00 (resp. et si jQ f+ dp < +00 ou ju f~ dp < +00).
Si f est p-semi-integrable (resp. p-intégrable), l'élément de R (resp. R),
faf dp = faf+ dp-fa/' dp, noté indifféremment fQf dp,
Iq dp(a>) ou fQ f ((jû)(x{dio) est appelé intégrale de / par rapport à
p.
Proposition A.21. (a) Si f et g sont semi-intégrables on a
[ / dp$ S g dp.
(b) Si f est mesurable, si g est p-intégrable et si on a \f\ $ g, alors f est
p-intégrable.
(c) Si f est p-intégrable, on a \ j f dp\ $ 1 |/| dp.
(d) L'ensemble X1 (Q, A,p.) des fonctions à valeurs dans R et p-intégra-
bles est un espace vectoriel et l'application f h-* fQf dp est linéaire de
^(fi, Ajx) dansM.
Exemple A.5. • Soit 8^ la mesure de Dirac en <Wq e L'application â de
M+ dans R+, / h-* f(o)a), est une intégrale; puisque, pour tout A g A,
on a ^(ia) = 1a(<«o) — 5^ (A), il résulte du lemme A.19 que l'on a, pour
tout / 6 M + . fa f dSm(J = f((*>o). De plus, si / est A-mesurable de signe
A-3- TKOIS THÉORÈMES DE CONVERGENCE
523
quelconque, pour que / soit /¿-integrable (resp. ¿¿-semi-intégrable) il faut
et il suffit que f+i(olf) < +00 et /~(ct>0) < +00 (resp. / + (<w0) < +00 ou
f~{(Oo) < +00) ; dans ce cas, on a encore fa f d&0)n = f(coo).
• Le même raisonnement montre que si ¡1 est la mesure discrète ¡1 =
Jlt=\a'^<-)n oü <*„ e M+ et û)„ e Q, pour tout / e M+.on a faf dp =
VJ^û1,,/^). Si/est <A-mesurable de signe quelconque, pour que / soit
/¿-integrable il faut et il suffit que an|/(<w„)| < + 00 ; dans ce cas, on a
encore In / dtL = Jlt^UnfM-
• Intégrale de Lebesgue4 d'une fonction Riemann-intégrable sur [a,b].
Si ¡P est une partition finie de [a,b] en intervalles, et si / est une fonction
définie sur [a, b], de signe quelconque et bornée, on note, pour tout
intervalle Peí»,
/p = inf(/U) IjéP) et 7P = sup(/(.ï> |xeP);
si |P| désigne la longueur de P, on définit les sommes de Darboux,
peí* Peí*
Par définition, la fonction / est Riemann-intégrable sur [a. b] si, pour toute
suite (¿P„)»erJ tie subdivisions emboîtées dont le pas tend vers 0, les suites
(s'p„)fl€N et (Sp„)neM sont convergentes et ont même limite, celle-ci étant,
par définition l'intégrale de Riemann f% f(x)dx de / sur [a, b]. Si / est
Riemann-intégrable et positive sur [a, 6], la fonction fl[a,b\ est Lebesgue-
intégrable (c'est-à-dire integrable par rapport à la mesure de Lebesgue X
sur M) et on a fm fl[a¿] dX = f% f(x)dx.
A.3. Trois théorèmes de convergence
Lemme A.22 (Leinme de Fat on). Soient (Q, <A, ¡1) un espace mesuré et f„,
n G N, des éléments de M+. On a l'inégalité dans U+ :
I liminf /„ dp ^ liminf / /„ dp .
Ja n n Ja
Remarque. Ce lemme sert essentiellement à démontrer l'ituégrabilité d'une
fonction qui est limite simple d'une suite de fonctions.
4. Henri Lebesgue (1875-1941), né à Beauvais, a suivi les cours d'Emile Borel. Les travaux
de ce dernier, ainsi que ceux de Jordan et Peano, l'ont conduit à élaborer (1901 et 1902) sa
théorie de l'intégrale, qui généralise celle de Riemann. Il a montré ea 1904 qu'une fonction
bornée est integrable au sens de Riemann si et seulement si l'ensemble de ses points de
discontinuité est de mesure nulle. Il a étudié les fonctions de plusieurs variables, les séries de
fonctions et les séries de Fourier à l'aide de sa théorie de l'intégration.
5-4
APPENDICE. RESUMÍ DE THÉORIE DE LA MESURE
Théorème A.23 (Théorème de convergence monotone). Soit (Q, A, p) un
espace mesuré et soit (fn)neN une suite monotone de fonctions mesurables à
valeurs dans E, de limite f.
Théorème A.24 (Théorème de convergence dominée, première version).
Soient (Q, A, p) un espace mesuré et (fn)neN une suite de fonctions
mesurables à valeurs dans R, convergeant simplement vers f. Si sup \f„ \ est p.-
intégrable, les fonctions f„ et f sont ¡x-intégrables et la suite des intégrales
fn fn dp: est convergente (dans M). De plus, on a
Remarque. L'hypothèse « sup |^| est /x-intégrable » est équivalente à
l'hypothèse souvent formulée, et qui donne son nom au théorème, à savoir : « il
existe une fonction g p. -integrable telle que Ton ait, pour tout n e Net tout
ù)€Q,\fn(ù))\^g(u)) ».
En application, on montre le résultat fondamental : si / est Riemann-
intégrable de signe quelconque sur [a,b] (donc bornée), la fonction / - l.[atb]
est Lebesgue-intégrable et on a fR f ¦ l[a¿] dX = ¡I f (x) dx.
Définition A.25. Une fonction f définie sur un intervalle ouvert ou semi-
ouvert quelconque I = (a,b), où —oo ^ a < b $ +oo, est localement
Riemann-intégrable sur I si elle est Riemann-intégrable sur tout intervalle
fermé borné contenu dans I.
Proposition A.26. Soit f une fonction définie sur un intervalle ouvert ou
semi-ouvert quelconque I = (a.b), où — oo $ a < b ^ +00, localement
Riemann-intégrable sur I. La fonction ly ¦ f est Lebesgue-intégrable si et
seulement si l'intégrale de Riemann généralisée f£ j\x) dx est absolument
convergente et. dans ce cas, on a
et
A.T.. TROIS THÉORÈMES DE CONVERGENCE
Intégrale sur un ensemble ; intégrale d'nne fonction définie /{-presque
partout
Définition A.27. Soient (Q, A, ¡x) un espace mesuré et f une fonction définie
sur Q, à valeurs dans E, ¡i-semi-integrable (resp. p -integrable). Pour tout A €
A, 1a • / est p,-semi-intégrable (resp. p-integrable). L'intégrale 1a-f dp
est notée jA f dp, et appelée intégrale de f sur A.
Proposition A.28. Soient (Q, A, p) un espace mesuré et f e M+. Pour que
fil f dp- — 0, il faut et il suffit que f = 0 p,-p.p.
Proposition A.29. Soient (Q,A,p) un espace mesuré et f et g des fonctions
définies sur Q, à valeurs dans R, A-mesurables et telles que f = g p-p.p.
(a) Si f est positive, g est positive p,-p.p. et on a /fi / dp = fn g dp,.
(b) Si f et g sont de signes quelconques et si f est p,-intégrable, g est
aussi pL-intégrable et on a fn f dp, = /fi g dp.
Définition A.30. Soient (Q, A, p) un espace mesuré et B e A. La famille
de parties BOA constituée des ensembles BHA lorsque A parcourt A est
une tribu appelée tribn trace de A sur B. On définit alors l'espace mesuré
(B, BOA, p,\B), appelé espace mesuré trace sur Bde (Q, A, p,), où p,\^ est la
mesure trace, restriction de p « B n A (elle est encore souvent notée p.).
Soient (Q, A, p) un espace mesuré et / une fonction définie sur Q,fC
Q. Pour toute fonction mesurable g sur (Q. A,p.), on définit un
prolongement fg de / à Q par, pour tout <w € Q,
/.(») = ! f(T\ si<weQ/'
( g\W) sinon.
Si Q f e A, et si / est mesurable relativement à l'espace mesuré trace sur
Q/, fg est mesurable ; on dit que fg est un prolongement mesurable de /.
Si de plus /) = 0, on dit que / est définie /¿-p.p. ; deux prolongements
mesurables de / sont alors égaux /¿-p.p.
D'après la proposition précédente, si / est définie /¿-p.p. et admet un
prolongement mesurable p-integrable, tout autre prolongement mesurable
de / est aussi /¿-integrable et leurs intégrales sont égales, ce qui permet
de définir l'intégrale de f comme intégrale d'un prolongement mesurable
quelconque de /. On dit encore dans ce cas que / est /¿-integrable et on
note f dp son intégrale.
Lemme A.3l. Soient (Q, A, p) un espace mesuré et f une fonction à valeurs
dans E, p-integrable. Alors f est fini pi-pp.
Théorème A.32 (Théorème de convergence dominée, deuxième version).
Soient (Q,, A, /¿) un espace mesuré et (fn)n^N une suite de fonctions
mesurables à valeurs dans E, convergeant vers f p-p.p On suppose qu'il existe
526
APPENDICE. RÉSUMÉ DE THÉORIE DE LA MESURE
une fonction g ¡i-Íntégrable telle que l'on ait, pour tout n G M, \f„\ ^ g p-
p.p.; alors les fonctions fn et f sont p-intégrables et la suite des intégrales
fn dp est convergente (dans M). Déplus, on a
Remarque. L'hypothèse de domination est équivalente à l'hypothèse « il
existe une fonction g /¿-integrable telle que l'on ait //-p.p., pour tout n G N,
\.fn \ Í g »• Cette équivalence vient du fait que, toute réunion dénombrable
d'ensembles de mesure nulle étant de mesure nulle, on peut intervertir les
conditions « /¿-p.p. » et « pour tout n G N ».
Corollaire A.33. Soient (Q, A, ¡i) un espace mesuré et (fn)„eu une suite de
fonctions mesurables â valeurs dans K telle que
Alors la série de fonctions fn est p-p.p. absolument convergente, sa somme
est p-intégrable et on a
Soient deux espaces mesurés Ai, /¿1 ) et (Q2, A2, //2). On note n 1
et n2 les projections canoniques de Q[ x Q2 sur Qt et Q2-
Définition A.34. Sur Q\ x Q2, lu tribu engendrée par la semi-algèbre des
pavés A] x A2, où Ax G Ax et A2 G A2, est appelée tribu produit de. A¡ et A2
et notée A¡ (8> A2. C'est la plus petite tribu rendant mesurables les projections
canoniques.
Le théorème de Carathéodory permet de démontrer l'existence et
l'unicité d'une mesure produit :
Proposition A.35. Si pi et p2 sont u-finies, il existe une mesure unique p sur
/'espace mesurable produit (Q\ x Q2. Aj (8> A2) qui satisfasse la relation
et
AA Mesure produit et théorème de Fubini
VA, e Al VA! G A
p(Al x A2) = pi(Al)p2(A2):
cette mesure est appelée mesure produit et notée /¿1 (g) p2.
a4. MESURE PRODUIT ET THEOREME DE FUBINI
527
Sections d'ensembles. Si A est une partie de £2] x £22, pour tout 002 £ £22,
on délinit la section de A en to2, éventuellement vide,
Al2 - [cûi efi|| (o)v.ùo2) g A}
et, pour touttot g on définit la section de A en 00], éventuellement vide,
A^ = {ùj2 g Q2 | (a>v,co2) g A).
Si /' est une fonction de £2[ x Q2 dans M, pour tout a)2 g £22, on
définit l'application partielle de / en eo2, notée _/"j2, de £2, dans M par
q}\ i-> f(0)1,(1)2) et, pour tout <wi g Q(, on définit l'application partielle
de / en 0)1, notée f^, de £22 dans M par <w2 ^* f(t»i,o)2)-
Lemme A.36. (a) Si A g AL (8) A2, /w/zr foHf <w2 g £22, A^2 g A,, e/
pour tout wt g £2 [, A^( g A2.
(6) 5/ / fi'f »«e fonction dcQi x!22 (/«»5 R. A] (8) A2-mesurable> pour
tout o)2 g £22, l'application partielle fj2 est Ai-mesurable, et, pour tout
cûv g £2 h l'application partielle est A2-mesurable.
Théorème A.37 (Théorème de Fubini5). Soient deux espaces mesurés
(Qi. A\, pi) et 2, A2, p2) tels que p ( et p2 soient u -finies. Soit f une
fonction deQi x £22 dans R, A\ (8) A2-mesurable.
1. Si / est positive,
- l'application 0)1 i-> fS2 f£{ (co2) dp2(o)2) est mesurable de (£2,, A, ) dans
- l'application o)2 h> f^2(o)\) dpiia^) est mesurable de (£22,A2) dans
(R+.^+).
et on a le calcul par intégrales itérées de l'intégrale de f par l'une des formules
suivantes
/ / dp} <g> p2 = / / /^(0)2) dp2(o)2)
OU
dpy(o)v) (Al)
dp2(o)i) (A.2)
/ / dp^® p2 = / / /¿(0)1) ¿/¿1(^1)
JS21 xS22 «^2 L-Z^i
2. Si / est de signe quelconque, et si f est p\ ® p2-intégrable,
- pour pi presque tout o)l g £2i, l'application partielle est p2-intégrable;
5. Guido Fnbini (1879-1943), né à Venise, suit les cours d'Ulisse Dini à Pise, ville où il
devient professeur, avant de le devenir au Politecnico de Turin. Interdit d'enseignement par les
fascistes, il s'exifc à Paris, puis s'îusialle à l'université de Princeton où il termine sa camere. Ses
travaux portent sur l'analyse fonctionnelle, la théorie de l'intégrale de Lebesgue, ki géométrie
différentielle et la géométrie projective ; en particulier, le théorème ci dessus, ramenant le calcul
d'intégrales doubles à celui d'intégrales simples date de 1907.
528
APPENDICE. RÉSUMÉ DE THÉORIE DE LA MESURE
- pour ¡i2 presque tout toz e Q2, l'application partielle f^2esi \i\-intégrable;
- l'application ají f-* f2l(p>2) d ¡12(0)2) est définie ¡ii-p.p.et p ^integrable ;
- l'application C02 h» fa2((»i) d¡it(a)i)est définie ¡i2-p.p-et p2-integrable,
et on a encore le calcul de l'intégrale de f par intégrales itérées selon l'une des
formules (A.l) ou (A.2).
Remarque. On s'assure souvent de la ¡i\ ® /-i2-intégrabilité de /' en calculant
l'intégrale fn ( xfÏ2 | /1 d¡ix ® ¡i2 à l'aide de la première partie du théorème.
Il est facile de définir le produit de n mesures à-finies et de vérifier que
le produit est associatif. Le théorème de Kolmogorov permet de construire
des probabilités sur l'espace produit MN. Ce théorème sert en particulier
à construire un espace probabilisé supportant une famille de variables
aléatoires réelles indépendantes de lois arbitraires données.
Définition A.38. Soit une suite d'espaces mesurables (Q,n, ,An), n e N. On
note Tíj la projection canonique du produit cartésien infini y\neu ^» sur
c'est-à-dire l'application a) a>j où a)j est la j-ième coordonnée de la suite
a). Sur n^eN 0,1 définit la tribu produit des ,A„, tribu engendrée par la
semi-algèbre des cylindres à base finie, c'est-à-dire des produits cartésiens
infinis de la forme yinen ou ^n e ^« eî ou ^» ~ ^n> sauf Pour un
nombre fini d'indices. La tribu produit est notée ®nsn <A„. C'est la plus petite
tribu rendant mesurables toutes les projections canoniques.
On munit MN de la tribu produit des tribus boréliennes, notée
brièvement 3®N.
Théorème A.39 (Théorème de prolongement de Kolmogorov6). Soit une
suite consistante de probabilités, c'est-à-dire une suite (pn)neH t<-'lle que pour
tout n £ N, P„ est une probabilité sur (M", ¿Bri) et telle que, pour tout pavé
n"=ik/.*/L on ait
n n
p-+i (n bA xM)= p«(n K bj]) ¦
./=1 j=i
Il existe une unique probabilité P sur l'espace mesurable (bk, ¿8® N ) telle que
Von ait, pour tout n e N,
n -1 n
j'=i
6. Andreï Kolmogorov (1903-1987), nommé professeur à l'université de Moscou en 1931, y
était nommé, deux ans plus tard, directeur de l'Institut de mathématiques. 11 s"est intéressé à
de nombreux domaines des mathématiques : son apport le plus important a été à Ici théorie des
probabilités. C'est à lui que l'on doit l'axiomatisaiion de la théorie moderne des probabilités à
l'aide delà théorie de la mesure. Dans les aimées 1930. il a travaillé sur les processus de Markov
et les processus statiounaires ; il s'est ensuite intéressé à la théorie de l'information.
a4. MESURE PRODUET ET THÉORÈME DE FUB1N1
529
Corollaire A.40. Soit une suite de probabilités (jj.„)nety* sur (M, <Sr) et soit,
pour tout n e N*, la probabilité produit P„ = <g>J = l pj sur (Rn, 3&»),
unique probabilité telle que l'on ait, pour tout pavé J~]"_t]ay ,bj],
n n
j=i
La suite de probabilités (P„)„ew est consistante et il existe une unique
probabilité P sur l'espace mesurable J8®N) telle que l'on ait, pour tout n e N,
n -1 n
(weRN I (û>i,...,ûO e ]~[]^'^]) = IlMk/'M)-
./ = 1
Certe probabilité est appelée probabilité produit (infini) des probabilités pt
n e N*.
a
absorbant
point, 446, 448, 449, 470, 485,493,494
absorbante
classe de communication, 446
adapté (processus), 351
algèbre. 517
algèbre métrique, 94
apériodique
chaîne. 438
classe. 438
asymptotique
tribu, 48
auto-co variance, 22
auto-régressif (processus), 408.412
B
barrière
absorbante. 503
élastique. 482,503
réfléchissante, 439,483, 500, 503
Beppo Levi, 6, 521
Bernoulli (théorème de), 104
Bernoulli-Laplace
modèle de diffusion, 397
Bernstein (théorème de), 271
bêla (loi), 28. 33, 72,78,172,416, 513. 514
Borei-Cantelli (lemme de)
application. 81
énoncé. 50
et convergence p.s,, 82
C
Caucby (loi de), 13,223
Cauchy (suite de)
en probabilité, 90
Cesàro (lemme de), 102
Chaîne de Markov
définition. 405
homogène, 412
changement (de variables), 8
Chapman-Kolmogorov, 410,411, 416,421
chi-deux
distance du, 318
loi du, 28, 68, 26), 262, 265, 284, 287,
316, 318
test du, 318
Index
classe
cyclique, 438
de communication, 436
fermée, 446
Cochran (théorème de), 281
conditionnelle
densité, 140
espérance (d'une classe de v.a. de L1 ),
154
espérance (d'une classe de v.a. de L2),
151
loi, 140
moyenne, 147
variance, 147
version de l'espérance, 151
confiance
intervalle de, 263,264
niveau de, 263
conjugués (réels), 16
convergence
en loi, 332-334, 338, 340, 343
en loi et fonctions de répartition, 308,
309, 314, 329. 339
en moyenne, 95
en moyenne quadratique, 95
en probabilité, 87,116,122,125
étroite, 327, 330
L^.95
presque sûre, 87.125
convergence de martingale
bornée dans L1 ,373
bornée dans L2 , 362
convergence en loi
vers une probabilité, 303
vers une v.a., 303
convoi ution
d'une fonction et d'une mesure, 193
de fonctions, 62
de mesures, 61
corrélation (coefficient de), 25
covariance
de deux variables aléatoires, 20
matrice de, 22
critère de récurrence, 459
531
532
INDEX
D
dégénérée (variable aléatoire), 225
densité
d'une variable aléatoire, 9
mesure à densité, 7
développement décimal, 338
Dirichlet
loi de, 77^ 169
problème de, 482,483
théorème de, 213
discrète (variable aléatoire), 10
Doob
décomposition de, 366
deuxième théorème d'arrêt, 378
inégalité de, 361
inégalité maximale de, 360
premier théorème d'arrêt, 360
E
écart-type (d'une variable aléatoire), 19
échantillon, 253, 318
effectif
observé, 318
théorique, 318
Ehrenfcst
modèle de diffusion, 399, 439, 465,467
empirique
coefficient de corrélation, 253
échantillon, 111,286,318
fonction de répartition, 111
mesure. 254
moyenne. 101.253
variance, 253
ensemble de ¡1 -continuité, 295
équi-continuité, 94
équi-intégrabilité, 93, 94,118
estimateur
consistant, 320
de variance minimum, 255
du maximum de vraisemblance, 259,
321
linéaire, 255
sans biais, 255, 320
estimation (paramétrique), 320
événements antérieurs (tribu des), 355,
379
exponentielle (loi), 31
caractérisation, 73
maximum, 66
F
fermée
classe de communication, 446
filtration.344,351
naturelle, 351
Fisher (information de), 323
fonction caractéristique
définition, 191
développement limité, 209
fonction cumulative d'une mesure, 198
fonction de répartition, 9
forme quadratique
de v.a. gaussienne, 281
Fubini (théorème de)
généralisé, 138
G
Galton-Watson (processus de), 508, 509
gamma {loi), 11, 28, 62, 72, 174
Gauss-Markov (théorème de), 255
gaussienne
loi, 11,63,65,118, 177
loi de paramètres m et C, 237
loi sur R, 235
loi sur un euclidien, 236
v.a. à valeurs dans un euclidien, 236
v.a. réelle, 236
Glivenko-Cantelli (théorème de), 111
grandes déviations
inégalité de Hoeffding, 127
H
Hôlder (inégalité de). 16, 34
harmonique, 417
Hotelling (loi de), 31
hypergéométrique
approximation de la loi, 328
loi, 329
T
inégalité
d'Ottaviani, 125
de Bienaymé-Tchebilchev, 24
de Doob, 361
de Holder, 16,34
de Hoeffding, 127
de Jensen, 162
de Kolmogorov. 98
de Markov, 23
de Minkowski, 17
de Schwarz, 16
maximale de Doob, 360
index
533
indépendance
asyniptotique, 347
conditionnelle. 402
d'événements. 39
de familles d'événements, 39
de variables aléatoires, 40
[[[essentiel, 447
intercovarianee. 35,245,252
invariante
mesure, 457
probabilité, 457
irréductible
chaîne, 436
classe, 43ti
K
Kolmngorov
inégalité de. 9$
test de Kolmogorov-Smirnov, 114
théorème de prolongement, 47. 528
Kronecker ( lemme de), 102
L
Lévy (théorème de)
pour les suites de mesures, 299
pour les suites de v.a., 304
séj-jes aléatoires, 125
séries aléatoires convergence en loi,
341
A-système, 3
Laplace-Ganss (loi de), 235
lemme
d'unicité, 522
de Borel-Cantelli, 50
de Cesàro, 102
de Fatou. 523
de Fatou conditionnel, 159
de Kronecker, 102
de Schefré, 307
de Slutsky, 327,335
maximal, 360
loi (d'une variable aléatoire), 9
loi faible des grands nombres
ordre deux. 103
ordre nu (Khintchine), 105
loi forte des grands nombres
martingale, 307
ordre deux. 107
ordre un (Khintchine), 109
M
marche aléatoire, 4S2,500, 503
conditionnelle, 412
sur N avec barrières, 482
surR",350
sur Z.405
marginale (d'une variable aléatoire), 13
Markov
chaîne de, 182, 405
inégalité de, 23,363
propriété de, 405, 418.425
martingale, 344
arrêtée, 359
bornée dans Ll. 352
bornée dans L2, 352
dans L2, 352
discrète, 352
fermée. 352
fermable. 352
integrable, 351
àous-martingale, 351
surmartingale, 351
matrice
de transition, 409.412
potentiel, 434
stochastique, 409
mesure
absolument continue, 7
égalité de deux mesures, 5
mesure image, 8
mesures étrangères, 7
Minkowski (inégalité de), Í7
modèle génétique
caractère dominant, 468
martingale, 448
modèle linéaire
d'ordre deux,254
ganssien, 259
moment, 33,217
d'une variable aléatoire réelle, 19
moment centré d'une v.a.r., 19
Monte-Carlo (méthode de), 123
moyenne
d'une variable aléatoire réelle, 18
d'une variable aléatoire vectorielle. 21
empirique, 101, 275, 282,322
niultinomiale
fonction caractéristique, 202
loi, 79,80,164,203.316
534
INDEX
N
normale (loi), 11
noyau
de probabilité, 135
gaussien, 193
O
Ottaviani (inégalité d'), 124
P
période
d'un point, 438
d'une classe, 438
7t-systcme, 3
pile ou face, 380, 384, 387
Poisson
processus de, 166,167,170,172
théorème de, 310
théorème des événements rares, 311
Pólya
modèle de diffusion, 400,414, 513
processus de. 400
potentiel, 440
prédiction, 264
probabilité
de transition, 135
invariante, 487
limite, 467
processus
auto-régressif, 408
croissant prévisible, 366
de renouvellement, 350,352
des accroissements, 365
prévisible, 366
processus auto-régressif, 412
prolongement (par mesurabilité), 6
R
Radon-Nikodym, 7
récurrent, 440
nul, 440
positif, 440,447
régression
droite de régression estimée, 253
droite de régression linéaire, 251
linéaire, 26, 35,149, 250
surface de régression linéaire, 37, 252
rejet (zone de). 262, 319
relation
de communication, 436
de conduction, 435
risque d'erreur, 319
ruine du joueur, 380
S
Scheffé (lemme de), 307
réciproque (contre-exemple), 309
Schwarz (inégalité de), 16
section, 138
semi-algèbre, 517
cr-algèbre, 517
signal (théorie du), 279, 280
simulation, 29,58
de la loi exponentielle, 31
de lois discrètes, 30
de variables gaussiennes, 65, 242
par rejet, 182
Slutsky (lemme de), 327, 335
statistiques d'ordre, 77
Student
loi de, 68, 262,263, 267, 287
test de, 262, 286, 287
symétrisation (d'une v.a.), 84
T
Tchebitchev (inégalité de), 24
temps d'arrêt, 354
temps d'attente, 141
tendue (suite de mesures), 299
test
de Kolmogorov-Smirnov, 114
de Student, 262,286, 287
du chi-deux, 318, 319
théorème
d'arrêt de Doob, 360, 378
d'existence de mesure gaussienne, 239
d'unicité des mesures, 5
de Bernoulli, 104
de Bernstein,27l
de Carathéodory, 520
de Chacon-Orstein, 470
de changement de variables, 8
de classification des états, 441
de Cochran, 281
de convergence dominée, 524, 525
de convergence L2, 362
de convergence monotone, 524
de Fubini, 527
de Fubini généralisé, 138
de Gauss-Markov, 255
de GlivenkoCantelli, 111
de Jirina, 143
JNDKX
535
de Karl Pearsou, 315
de Khi nielline, 105
de Lévy, 299,304
de Poisson, 310, 311
de prolongement de Kolmogorov, 47,
528
de Radon-Nikodym, (S
de Riesz, 293
de transfert, 8
de transfert conditionne], 144
des trois séries, 121
fondamental de la statistique, lll
limite central, 81, 314
topologie
étroite, 290
faible, 290
vague, 290
Tout ou rien (loi du), 49
transfert (théorème de), 8
transfert conditionnel fthéorème de), 144
transformée de Fourier
d'une convolution, 201
d'une fonction, 193
d'une mesure, 191
injectivilé, 193
transitoire, 440
tribu, 517
du futur, 405
du passé, 405
du présent, 405
ençendrée par une application, 40
U
uniforme (loi)
convolution, 213
en dimension d, 124
sur la sphère, 284
sur un intervalle, 28, 29, 54
v
variable aléatoire
classe, 93
définie presque sûrement, 92
variance, 35
d'une variable aléatoire réelle, 19
d'une variable aléatoire vectorielle, 22
empirique, 275, 282,322
variation quadratique. 369
vraisemblance
équation de, 321
équation de log-, 321
fonction de, 259, 321
Achevé d'imprimer sur les presses de l'Imprimerie BARNÉOUD
53%0 BON CHAMP-LÈS-LAVAL
Dépôt légal : novembre 2009 - ? d'imprimeur : 910085
Imprimé en France
Voici un ouvrage important, unique en son
genre en fronçais, qui présente l'ensemble de la
théorie des probabilités telle qu'on l'enseigne au
niveau du master et dans les préparations à
l'agrégation : compléments de théorie de la
mesure ; lois et moments de variables aléatoires ;
indépendance de tribus et de variables
aléatoires ; convergences, lois des grands
nombres ; espérance conditionnelle ;
transformation de Fourier et fonctions caractéristiques ;
variables aléatoires gaussiennes ; convergence de
mesures, convergence en loi ; processus discrets,
martingales ; chaînes de Markov.
La lecture de ce livre ne suppose que des
connaissances élémentaires en probabilités ;
celles-ci sont exposées dans le tome I, où la théorie
de la mesure n'est pas utilisée.
Le travail du lecteur sera facilité par la présence
d'un grand nombre d'exercices, résolus de façon
détaillée. Certains d'entre eux apportent au cours
des compléments substantiels.
Conçu pour les candidats à l'agrégation, ce
manuel sera aussi un instrument utile pour les
étudiants de première année de master, ainsi que
pour les étudiants plus avancés désireux
d'approfondir leurs bases en probabilités.
Collection enseignement des mathématiques
ISBN 978-2-84225-144-4
Graphisme : Mossin