probabilites-cours


probabilites-cours

 

1 Universit´ e Pierre et Marie Curie Licence de Math´ ematiques (3` eme ann´ ee) Ann´ ee 2004/2005 Probabilit´ es Pierre Priouret Mode d?emploi Ce polycopi´ e est destin´ e aux ´ etudiants de la Licence (3` eme ann´ ee) de Math´ ematiques de l?Universit´ e Pierre et Marie Curie. En principe ces ´ etudiants ont d´ eja suivi un cours de th´ eorie de la mesure et d?int´ egration. Nous commen¸ cons par l?´ etude des probabilit´ es sur les ensembles finis (chapitre 1) puis sur les ensembles d´ enombrables (chapitre 2) avant de pr´ esenter (chapitre 3) les r´ esultats d?int´ egration utilis´ es par la suite. Le chapitre 4 introduit les principales notions de probabilit´ es dans leur cadre g´ en´ eral. Le chapitre 5 traite des fonctions caract´ eristiques et des vecteurs gaussiens. Les th´ eor` emes limites sont abord´ es dans les chapitres 6 (avec, en particulier, la loi des grands nombres) et 7 (avec, en particulier, la convergence en loi vers la loi normale). Enfin le chapitre 8 pr´ esente quelques notions de statistique. Les compl´ ements situ´ es ` a la fin de certains chapitres ne sont pas au programme de l?examen. Ce polycopi´ e est divis´ e en chapitres, sections et sous-sections. Ainsi 3.2.4 renvoie au chapitre 3, section 2, sous-section 4 et 5.4 renvoie chapitre 5, section 4. A l?int´ erieur d?une m? eme section, les ´ enonc´ es sont num´ erot´ es en continu. Ainsi ?d?apr` es le th. 5.4.6? renvoie au chapitre 5, section 4, ´ enonc´ e 6. Quant aux ´ egalit´ es, elles sont num´ erot´ ees entre parenth` eses et en continu au sein d?un m? eme chapitre. Ainsi ?vu (3.5)? r´ ef` ere ` a la cinqui` eme ´ egalit´ e num´ erot´ ee du chapitre 3. Le signe indique la fin d?une preuve. Ce polycopi´ e se termine par un index des notations et un index des termes. 2 Table des mati` eres 1 Espace de probabilit´ e fini 5 1.1 Notions fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Echantillon. Sous population . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Probabilit´ e conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 Espace de probabilit´ e discret 13 2.1 Famille sommable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Espace de probabilit´ e discret . . . . . . . . . . . . . . . . . . . . . . . 15 2.3 Fonctions g´ en´ eratrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3 Mesure. Int´ egration 23 3.1 Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3 Int´ egration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.4 Mesures ` a densit´ e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.5 Mesures produits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires 37 4.1 Espace de probabilit´ e . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Variables al´ eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.3 Probabilit´ es sur R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.4 Variables al´ eatoires ind´ ependantes . . . . . . . . . . . . . . . . . . . . 43 4.5 Vecteurs al´ eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.6 Calcul de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.7 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.8 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.9 Compl´ ement: ´ echantillons ordonn´ es. . . . . . . . . . . . . . . . . . . . 58 5 Fonctions caract´ eristiques. Vecteurs gaussiens 61 5.1 Transform´ ee de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.2 Fonctions caract´ eristiques . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.3 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4 TABLE DES MATI` ERES 6 Convergence des suites de variables al´ eatoires 69 6.1 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.2 Loi 0 -1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 6.3 Somme de v.a. ind´ ependantes . . . . . . . . . . . . . . . . . . . . . . . 72 6.4 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.5 Compl´ ement: crit` ere des trois s´ eries. . . . . . . . . . . . . . . . . . . . 79 6.6 Compl´ ement: grandes d´ eviations. . . . . . . . . . . . . . . . . . . . . . 80 7 Convergence en loi 85 7.1 Convergence ´ etroite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 7.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.3 Convergence vers la loi normale . . . . . . . . . . . . . . . . . . . . . . 91 7.4 Compl´ ement : d´ emonstration du th´ eor` eme de Berry-Esseen. . . . . . . 93 7.5 Compl´ ement: comportement asymptotique de la m´ ediane empirique. . 96 8 Notions de statistique 99 8.1 Echantillon. Mod` ele statistique . . . . . . . . . . . . . . . . . . . . . . 99 8.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 8.3 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 8.4 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 A Index des notations 117 B Index des termes 119 Chapitre 1 Espace de probabilit´ e fini Dans ce premier chapitre, on pr´ esente les premi` eres notions de probabilit´ e dans un cadre ´ el´ ementaire. 1.1. Notions fondamentales 1.1.1. Probabilit´ e sur un ensemble fini. Soit E un ensemble fini. Une probabilit´ e sur E est une famille (p(a), a ? E) de r´ eels v´ erifiant 0 ? p(a) ? 1, a?E p(a) = 1. On pose alors, pour A ? E, P(A) = a?A p(a). P est une application de P(E) dans [0, 1] telle que P(?) = 1, P(A ? B) = P(A) + P(B) si A ? B = ?. (1.1) On voit imm´ ediatement, par r´ ecurrence, que, si A1, . . . , Ar sont des sous-ensembles de ? deux ` a deux disjoints, alors P( r i=1 Ai) = r i=1 P(Ai). R´ eciproquement si une fonction d?ensembles A ? P(A), A ? E, v´ erifie (1.1) et si on pose, pour tout a ? E, p(a) = P({a}), on a 0 ? p(a) ? 1 et a?E p(a) = 1 puisque les ensembles {a} sont ´ evidemment deux ` a deux disjoints d?union E. En conclusion, on appellera probabilit´ e sur E aussi bien la famille (p(a), a ? E) que la fonction d?ensembles A ? P(A). 1.1.2. Espace de probabilit´ e fini. Un couple (?, P) o` u ? est un ensemble fini et P une probabilit´ e sur ? s?appelle un espace de probabilit´ e fini. Un sous-ensemble A de ? s?appelle un ´ ev´ enement et P(A) est la probabilit´ e que l?´ ev´ enement A ait lieu. L?´ el´ ement {?} s?appelle alors un ´ ev´ enement ´ el´ ementaire. On note Ac le compl´ ementaire de A, 6 Espace de probabilit´ e fini c?est l?´ ev´ enement ?A n?a pas lieu?. De m? eme A ? B est l?´ ev´ enement ?A ou B a lieu? et A ? B est l?´ ev´ enement ?A et B ont lieu?. Enfin ? est l?´ ev´ enement certain et ? est l?´ ev´ enement impossible. Noter (c?est la moindre des choses) que P(?) = 0 puisque, vu que ? ? ? = ?, 1 = P(?) = P(? ? ?) = P(?) + P(?) = 1 + P(?). Donnons quelques cons´ equences faciles de (1.1). On a A ? Ac = ? et A ? Ac = ? donc 1 = P(?) = P(A) + P(Ac) d?o` u P(Ac ) = 1 ? P(A). (1.2) Si A ? B, on note B \ A = B ? Ac. On a alors B = A ? (B \ A) avec A ? (B \ A) = ? d?o` u si A ? B, P(B \ A) = P(B) ? P(A). (1.3) En particulier, dans ce cas, P(A) ? P(B). Enfin on a A ? B = (A ? B) ? (A \ A ? B) ? (B \ A ? B), ces ensembles ´ etant deux ` a deux disjoints. On a donc P(A?B) = P(A?B)+P(A\A?B)+P(B\A?B) = P(A?B)+P(A)?P(A?B)+P(B)?P(A?B) d?o` u P(A ? B) = P(A) + P(B) ? P(A ? B). (1.4) On note |A| le cardinal de A i.e. le nombre d?´ el´ ements de A. Un cas particulier important d?espace de probabilit´ e fini (?, P) est celui o` u P est la probabilit´ e uniforme sur ? d´ efinie par P({?}) = 1 |?| . On a alors P(A) = |A| |?| . Ce cas est tr` es fr´ equent mais n?est pas le seul ` a envisager (voir l?exemple 4 de 1.1.4). 1.1.3. Variables al´ eatoires. Soit (?, P) un espace de probabilit´ e fini. On appelle vari- able al´ eatoire (en abr´ eg´ e v.a.) ` a valeurs E toute application X de ? dans E. Puisque X(?) est fini, on peut supposer E fini, c?est ce qu?on fera par la suite. Pour a ? E et ? ? E, on pose {X = a} = X?1 (a) = {?, X(?) = a}, {X ? ?} = X?1 (?) = {?, X(?) ? ?}. (1.5) On d´ efinit alors, pour tout a ? E, q(a) = P(X = a). On a 0 ? q(a) ? 1 et, les ensembles {X = a}, a ? E, ´ etant deux ` a deux disjoints d?union ?, a?E q(a) = P(?) = 1. Les (q(a), a ? E) sont donc une probabilit´ e sur E, not´ ee µX , appel´ ee loi de la v.a. X. Alors, pour tout ? ? E, µX (?) = a?? q(a) = ?, X(?)?? p(?) = P(X ? ?). 7 1.1.4. Exemples. 1. On lance une pi` ece trois fois de suite. L?ensemble des issues possibles est ? = {PPP, PPF, PFP, PFF, FPP, FPF, FFP, FFF}. On a |?| = 23 = 8. Les issues ´ etant ´ equiprobables, on munit ? de la proba- bilit´ e P({?}) = 1 8 . Soient A l?´ ev´ enement ?on obtient exactement deux faces? et B l?´ ev´ enement ?on obtient au moins deux faces?. On a A = {PFF, FPF, FFP}, B = {PFF, FPF, FFP, FFF}, |A| = 3, |B| = 4, P(A) = 3 8 , P(B) = 1 2 . 2. On lance deux d´ es, un rouge et un bleu. L?ensemble des issues possibles est ? = {11, 21, 12, . . . , 66} = {i1i2, 1 ? i1, i2 ? 6}. On a |?| = 62 = 36. Les issues ´ etant ´ equiprobables, on munit ? de la proba- bilit´ e P({?}) = 1 36 . Soit A l?´ ev´ enement ?la somme des r´ esultats vaut 5?. On a A = {14, 23, 32, 14} et P(A) = 4 36 = 1 9 . Soient X1 le r´ esultat du d´ e rouge, X2 le r´ esultat du d´ e bleu et S la somme. Ce sont des variables al´ eatoires et on a X1(i1i2) = i1, X2(i1i2) = i2, S(i1i2) = i1 + i2 = X1(i1i2) + X2(i1i2). Il est imm´ ediat que, pour k = 1, . . . , 6, P(X1 = k) = P(X2 = k) = 1 6 . La loi de X1 (et de X2) est donc la loi uniforme sur {1, 2, 3, 4, 5, 6}. Soit (qk, k = 2, 3, . . . , 12) la loi de S. Ci-dessus, on a calcul´ e q5. De la m? eme fa¸ con, on obtient: q2 = q12 = 1 36 , q3 = q11 = 2 36 , q4 = q10 = 3 36 , q5 = q9 = 4 36 , q6 = q8 = 5 36 , q7 = 6 36 . 3. On met au hasard trois boules distinctes a, b, c dans trois urnes. L?ensemble des issues possibles est ? = {(abc| ? |?), (?|abc|?), (?| ? |abc), (ab|c|?), . . . . . .}. On a |?| = 33 = 27 et, les issues ´ etant ´ equiprobables, P({?}) = 1 27 . Soit A l?´ ev´ enement ?la premi` ere urne contient deux boules, la seconde une boule?, ´ ev´ enement qu?on note (2|1|0). On a A = {(ab|c|?), (ac|b|?), (bc|a|?)} d?o` u P(A) = 3 27 = 1 9 . Soit B l?´ ev´ enement ?chaque urne contient une boule?, ´ ev´ enement qu?on note (1|1|1). On a B = {(a|b|c), (b|a|c), (a|c|b), (c|a|b), (b|c|a), (c|b|a)} et P(B) = 6 27 = 2 9 . Par sym´ etrie, on a P((3|0|0)) = P((0|3|0)) = P((0|0|3)) = 1 27 , P((2|1|0)) = P((1|2|0)) = P((2|0|1)) = P((1|0|2)) = P((0|2|1)) = P((0|1|2)) = 1 9 , P((1|1|1)) = 2 9 . 4. On met au hasard trois boules indistinctes dans trois urnes. L?ensemble des issues possibles est ? = {(3|0|0), (0|3|0), (0|0|3), (2|1|0), (1|2|0), (2|0|1), (1|0|2), (0|2|1), (0|1|2), (1|1|1)}. 8 Espace de probabilit´ e fini Mais, vu l?exemple pr´ ec´ edent, ? doit ? etre muni de la probabilit´ e ( 1 27 , 1 27 , 1 27 , 1 9 , 1 9 , 1 9 , 1 9 , 1 9 , 1 9 , 1 27 ) et non de la probabilit´ e uniforme. Bien sur, ? muni de la probabilit´ e uniforme est un espace de probabilit´ e mais il ne rend pas compte de l?exp´ erience al´ eatoire consid´ er´ ee. 1.2. Echantillon. Sous population Soit S = {s1, s2, . . . , sn} une population de taille n. 1.2.1. Echantillon sans r´ ep´ etition. On tire un par un et sans remise r ´ el´ ements de S, r ? n. On obtient ce qu?on appelle un ´ echantillon sans r´ ep´ etition de taille r de la population S. C?est une suite si1 si2 . . . sir d?´ el´ ements de S tous distincts. L?ensemble des issues possibles est donc ? = {si1 si2 . . . sir , sij ? S, sij = sik si j = k }. On a |?| = n(n ? 1) . . . (n ? r + 1) = n! (n ? r)! = Ar n. |?| est le nombre d?applications injectives de {1, 2, . . . , r} dans {1, 2, . . . , n}. Evidem- ment chaque ´ echantillon a la m? eme probabilit´ e et P({?}) = 1 |?| = (n ? r)! n! . Exemple. On suppose S = {1, 2, 3, 4} et r = 2. Alors |?| = 12 et ? = {12, 13, 14, 21, 23, 24, 31, 32, 34, 41, 42, 43}. 1.2.2. Echantillon avec r´ ep´ etitions. On tire un par un et avec remise r ´ el´ ements de S, r quelconque. On obtient ce qu?on appelle un ´ echantillon avec r´ ep´ etition de taille r de la population S. C?est une suite si1 si2 . . . sir d?´ el´ ements de S. L?ensemble des issues possibles est donc ? = {si1 si2 . . . sir , sij ? S}. On a |?| = nr . |?| est le nombre d?applications de {1, 2, . . . , r} dans {1, 2, . . . , n}. Evidemment chaque ´ echantillon a la m? eme probabilit´ e et P({?}) = 1 |?| = 1 nr . 9 Exemple. On suppose S = {1, 2, 3, 4} et r = 2. Alors |?| = 16 et ? = {11, 12, 13, 14, 21, 22, 23, 24, 31, 32, 33, 34, 41, 42, 43, 44}. 1.2.3. Sous population. On tire en une fois r ´ el´ ements de S, r ? n. On obtient ce qu?on appelle une sous population de taille r de S. C?est un sous ensemble {si1 , si2 , . . . , sir } de r ´ el´ ements de S n´ ecessairement distincts (l?ordre n?intervient pas) qu?on ´ ecrira simplement si1 si2 . . . sir . L?ensemble des issues possibles est donc ? = {si1 si2 . . . sir , sij ? S, i1 < i2 < . . . < ir}. On a |?| = Cr n = n! r!(n ? r)! . |?| est le nombre de sous-ensembles ` a r ´ el´ ements d?un ensemble ` a n ´ el´ ements. Ev- idemment chaque sous population a la m? eme probabilit´ e et P({?}) = 1 |?| = r!(n ? r)! n! . Exemple. On suppose S = {1, 2, 3, 4} et r = 2. Alors |?| = 6 et ? = {12, 13, 14, 23, 24, 34}. 1.2.4. Loi hyperg´ eom´ etrique. On suppose que S = S1 ?S2 avec S1 ?S2 = ?, |S1| = n1, |S2| = n2, n = n1 + n2. On appelle ´ el´ ements de type 1 les ´ el´ ements de S1, ´ el´ ements de type 2 ceux de S2. On tire sans remise r ´ el´ ements de S (r ? n). Soit X le nombre d?´ el´ ements de type 1 obtenus. On se place dans le cadre de 1.2.1 et il s?agit de calculer la loi de la v.a. X. On doit calculer |A| o` u A = {X = k}. Evidemment P(A) = 0 si k > n1 ou si r ? k > n2. Sinon on construit un ´ el´ ement de A en se donnant un ´ echantillon sans r´ ep´ etition de taille k de S1 (il y en a Ak n1 ) puis en se donnant un ´ echantillon sans r´ ep´ etition de taille r ? k de S2 (il y en a Ar?k n2 ) et en faisant un ´ echantillon sans r´ ep´ etition de taille r de S i.e en choisissant la place des ´ el´ ements de S1 dans l?´ echantillon total (il y a donc Ck r possibilit´ es). Finalement |A| = Ak n1 Ar?k n2 Ck r et P(A) = |A| |?| = n1! (n1 ? k)! n2! (n2 ? (r ? k))! r! k!(r ? k)! (n ? r)! n! = Ck n1 Cr?k n2 Cr n . En fait il est plus simple de se placer dans le cadre de 1.2.3 et de supposer qu?on tire une sous population de taille r. On a alors A = {X = k} = {sous population de taille k de S1, sous population de taille r ? k de S2} et |A| = Ck n1 Cr?k n2 d?o` u P(X = k) = Ck n1 Cr?k n2 Cr n convenant que Ci j = 0 si i > j. (1.6) 10 Espace de probabilit´ e fini Cette loi s?appelle la loi hyperg´ eom´ etrique. 1.2.5. Loi binomiale. On suppose encore que S = S1 ?S2 avec S1 ?S2 = ?, |S1| = n1, |S2| = n2, n = n1 + n2. On tire avec remise r ´ el´ ements de S, r quelconque, et soit X le nombre d?´ el´ ements de type 1 obtenus. On se place dans le cadre de 1.2.2 et il s?agit de calculer la loi de la v.a. X. On doit calculer |A| o` u A = {X = k}. Evidemment P(A) = 0 si k > r. Sinon on construit un ´ el´ ement de A en se donnant un ´ echantillon avec r´ ep´ etition de taille k de S1 (il y en a nk 1) puis en se donnant un ´ echantillon avec r´ ep´ etition de taille r ? k de S2 (il y en a nr?k 2 ) et en faisant un ´ echantillon avec r´ ep´ etition de taille r de S i.e en choisissant la place des ´ el´ ements de S1 dans l?´ echantillon total (il y a donc Ck r possibilit´ es). Ceci donne |A| = nk 1nr?k 2 Ck r et P(A) = |A| |?| = nk 1nr?k 2 Ck r /nr . Posant p = n1/n, on obtient P(X = k) = Ck r pk (1 ? p)r?k , k = 0, 1, . . . , r, P(X = k) = 0 si k > r. (1.7) Cette loi s?appelle la loi binomiale car 1 = r k=0 P(X = k) n?est rien d?autre que la formule du bin? ome r k=0 Ck r pk(1 ? p)r?k = (p + (1 ? p))r = 1. Evidemment si n1 et n2 sont tr` es grands par rapport ` a r, le fait de tirer sans remise ou avec remise modifie peu le r´ esultat et dans ce cas la loi binomiale est une bonne approximation de la loi hyperg´ eom´ etrique. C?est ce que montre le calcul suivant o` u k, r sont fixes et o` u n1, n2 ? +? avec n1/n ? p. Alors Ck n1 Cr?k n2 Cr n = r! n1(n1 ? 1) . . . (n1 ? k + 1)n2(n2 ? 1) . . . (n2 ? r + k + 1) n(n ? 1) . . . (n ? r + 1) k!(r ? k)! ? Ck r nk 1nr?k 2 nr = Ck r ( n1 n )k (1 ? n1 n )r?k ? Ck r pk (1 ? p)r?k . 1.2.6. G´ en´ eralisation. On suppose maintenant que S = S1 ? S2 ? . . . ? Sm avec les Sj deux ` a deux disjoints, |Sj| = nj, n = n1 + . . . + nm. On appelle ´ el´ ements de type j les ´ el´ ements de Sj, j = 1, . . . , m. On tire sans remise (resp. avec remise) r ´ el´ ements de S (r ? n dans le premier cas) et soit Xj le nombre d?´ el´ ements de type j obtenus. On veut calculer P(X1 = k1, . . . , Xm = km), k1 + . . . + km = r, on a a. Tirage sans remise. P(X1 = k1, . . . , Xm = km) = Ck1 n1 . . . Ckm nm Cr n , ?j, kj ? nj, k1 + . . . km = r ; = 0 sinon. b. Tirage avec remise. On pose pj = nj n . Alors P(X1 = k1, . . . , Xm = km) = r! k1! . . . km! pk1 1 . . . pkm m , k1 + . . . km = r ; = 0 sinon. 11 Si m = 2, il s?agit des formules pr´ ec´ edentes. Dans le cas g´ en´ eral, elles se montrent de la m? eme fa¸ con. Exemple. Le bridge se joue avec un jeu de 52 cartes de 4 couleurs. Il oppose deux camps de chacun deux joueurs. On distribue 13 cartes ` a chaque joueur. On dit qu?une main est 5521 si elle se compose de deux couleurs de 5 cartes, d?une couleur de 2 cartes et d?une couleur de 1 carte. Quelle est la probabilit´ e p qu?une main soit 5521? La probabilit´ e pour qu?une main comprenne 5 piques, 5 c?urs, 2 carreaux, 1 tr´ efle est (loi hyperg´ eom´ etrique g´ en´ eralis´ ee) ? = C5 13C5 13C2 13C1 13 C13 52 = 0, 002645. On obtient la probabilit´ e cherch´ ee en permutant les couleurs. Il y a C2 4 fa¸ cons de choisir les deux couleurs de 5 cartes puis deux fa¸ cons de choisir la couleur de 2 cartes. On a donc p = 2C2 4 ? = 0, 03174. Vous jouez un contrat avec pique comme atout. Vous avez avec votre partenaire (le mort) 9 piques . Quelles sont les probabilit´ es q1, q2, q3 que, chez vos adversaires, les piques soient partag´ es 4 ? 0, 3 ? 1, 2 ? 2? La probabilit´ e qu?un de vos adversaires ait 4 (resp. 3, resp. 2) piques est (loi hyperg´ eom´ etrique) C4 4 C9 22 C13 26 = 0, 0478, resp. C3 4 C10 22 C13 26 = 0, 2486, resp. C2 4 C11 22 C13 26 = 0, 40695. On a donc q1 = 0, 09565, q2 = 0, 4974, q3 = 0, 40695. 1.3. Probabilit´ e conditionnelle On consid` ere un espace de probabilit´ e fini (?, P). On ´ ecrit indiff´ eremment A ? B ou AB. 1.3.1. Probabilit´ e conditionnelle. Soient ? une population, A la sous population des hommes, Ac celle des femmes et B celle des fumeurs. Si on tire au hasard un ´ el´ ement de ?, la probabilit´ e d?obtenir un fumeur est |B| |?| . Si on observe que l?´ el´ ement tir´ e est un homme, la probabilit´ e que ce soit un fumeur est |AB| |A| , c?est ce qu?on appellera la probabilit´ e conditionnelle de B sachant A. Ceci conduit ` a: D´ efinition 1.3.1. Soit A ? ? tel que P(A) > 0. On appelle probabilit´ e conditionnelle de B sachant A et on note P(B|A) la quantit´ e P(AB)/P(A). On a donc P(AB) = P(A)P(B|A). Noter que B ? P(B|A) est une probabilit´ e sur ?. 12 Espace de probabilit´ e fini Proposition 1.3.2. (Formule de Bayes) Soient A, B des ´ ev´ enements tels que P(A) > 0, P(Ac) > 0, P(B) > 0. On a P(A|B) = P(A)P(B|A) P(A)P(B|A) + P(Ac)P(B|Ac) . Preuve: Par d´ efinition P(A|B) = P(AB)/P(B). D?une part P(AB) = P(A)P(B|A). D?autre part P(B) = P(BA) + P(BAc) = P(A)P(B|A) + P(Ac)P(B|Ac). D?o` u le r´ esultat. Proposition 1.3.3. Soient A1, A2, . . . , An des ´ ev´ enements tels que P(A1A2 . . . An) > 0. On a P(A1A2 . . . An) = P(A1)P(A2|A1)P(A3|A1A2) . . . P(An|A1A2 . . . An?1) . Preuve: Par d´ efinition P(A1A2) = P(A1)P(A2|A1). Supposons la formule vraie au rang n. Alors P(A1A2 . . . AnAn+1) = P(A1A2 . . . An)P(An+1|A1A2 . . . An) et il suffit d?appliquer la formule au rang n pour conclure. 1.3.2. Ev´ enements ind´ ependants. Si P(B|A) = P(B) i.e. P(AB) = P(A)P(B), savoir si A a eu lieu ou non ne modifie pas la probabilit´ e de B. Il est alors naturel de dire que les ´ ev´ enements A et B sont ind´ ependants d?o` u D´ efinition 1.3.4. Les ´ ev´ enements A et B sont ind´ ependants si P(AB) = P(A)P(B). Supposons A et B ind´ ependants, on a P(ABc ) = P(A) ? P(AB) = P(A) ? P(A)P(B) = P(A)(1 ? P(B)) = P(A)P(Bc ). Donc A et Bc sont ind´ ependants. On voit facilement qu?il en est de m? eme de Ac et B et de Ac et Bc. Donc posant, pour F ? ?; ?(F) = {?, F, Fc , ?}, (1.8) on a que A et B sont ind´ ependants ssi P(CD) = P(C)P(D) pour tout C ? ?(A) et tout D ? ?(B). Ceci conduit ` a: D´ efinition 1.3.5. Les ´ ev´ enements A1, A2, . . . , An sont ind´ ependants si, pour tout C1 ? ?(A1), tout C2 ? ?(A2),. . ., tout Cn ? ?(An), P(C1C2 . . . Cn) = P(C1)P(C2) . . . P(Cn). On montre alors facilement: Proposition 1.3.6. Les ´ ev´ enements A1, A2, . . . , An sont ind´ ependants ssi, pour tout {i1, . . . , ik} ? {1, . . . , n}, P(Ai1 . . . Aik ) = P(Ai1 ) . . . P(Aik ). Chapitre 2 Espace de probabilit´ e discret Dans ce chapitre, on introduit les espaces de probabilit´ e d´ enombrables. Pour cela, on a besoin de la notion de famille sommable. 2.1. Famille sommable Dans toute cette section, I d´ esigne un ensemble d´ enombrable. 2.1.1. Notations. Soient E un ensemble, An ? E et fn : E ? R. On ´ ecrit An ? A si An ? An+1 et A = ?An, An ? A si An ? An+1 et A = ?An, fn ? f si fn ? fn+1 et f = sup fn (alors f = lim ? fn), fn ? f si fn ? fn+1 et f = inf fn (alors f = lim ? fn). 2.1.2. Enum´ eration. On appelle ´ enum´ eration de I toute bijection ? de N sur I. Soient (ai, i ? I) une famille de nombres r´ eels ou complexes et ? une ´ enum´ eration de I. On pose S? n = a?(0) + a?(1) + . . . + a?(n). (2.1) 2.1.3. Famille sommable positive. On suppose que, pour tout i ? I, ai ? 0. Alors la suite S? n est croissante. Soit S? = lim ? S? n ? R + . Si ? est une autre ´ enum´ eration de I, on a, pour n fix´ e et m assez grand, {a?(0), a?(1), . . . , a?(n)} ? {a?(0), a?(1), . . . , a?(m)} et donc S? n ? S? m ? S? d?o` u S? ? S?. Changeant le r? ole de ? et ?, on a S? ? S? et finalement S? = S?. On peut ´ enoncer: Th´ eor` eme 2.1.1. Soit (ai, i ? I) une famille de nombres positifs. Alors, pour toute ´ enum´ eration ? de I, la suite S? n, d´ efinie par (2.1), converge en croissant vers un nombre S ? R + ind´ ependant de ?. On note S = i?I ai. Si S < +?, la famille est dite sommable. Quelques cons´ equences imm´ ediates: (i) Si In ? I, In fini, i?In ai ? i?I ai. 14 Espace de probabilit´ e discret (ii) Pour tout A < i?I ai, il existe J ? I, J fini, tel que i?J ai > A. (iii) Si 0 ? ai ? bi, i?I ai ? i?I bi. (iv) Pour ? ? 0, ? ? 0, ai ? 0, bi ? 0, on a i?I (?ai + ?bi) = ? i?I ai + ? i?I bi. Remarque. En fait i?I ai est d´ efini pour ai ? R + et vaut +? si ai = +? pour un i au moins. 2.1.4. Passage ` a la limite croissante. Proposition 2.1.2. Soit, pour tout n ? N, (ai(n), i ? I) une famille de r´ eels positifs. On suppose que, pour tout i ? I, ai(n) ? ai lorsque n ? +?. Alors i?I ai(n) ? i?I ai lorsque n ? +?. Preuve: Soient S(n) = i?I ai(n), S? = lim ?n S(n), S = i?I ai. Evidemment S? ? S. Soit A < S. Il existe J fini, J ? I, tel que i?J ai > A. Donc, pour n assez grand, i?J ai(n) > A et S? ? A d?o` u S? ? S et S? = S. 2.1.5. Sommation par paquets. On dit que (Ij, j ? J) est une partition de I si les Ij sont deux ` a deux disjoints et si I = ?j?J Ij. Proposition 2.1.3. Soient (ai, i ? I) une famille de r´ eels positifs et (Ij, j ? J) une partition de I. On a i?I ai = j?J i?Ij ai. Preuve: Soient Kn ? I, Kn fini, et Jn = {j ? J, Kn ? Ij = ?}. Kn et Jn ´ etant finis, i?Kn ai = j?Jn i?Ij?Kn ai = j?J bj(n) o` u bj(n) = 0 si j / ? Jn, bj(n) = i?Ij?Kn ai si j ? Jn. D?une part i?Kn ai ?n i?I ai et d?autre part, pour chaque j, bj(n) ?n i?Ij ai d?o` u (prop. 2.1.2) j?J bj(n) ?n j?J i?Ij ai. 2.1.6. Le cas g´ en´ eral. On consid` ere maintenant une famille (ai, i ? I) de nombres r´ eels ou complexes. D´ efinition 2.1.4. Une famille (ai, i ? I) de nombres r´ eels ou complexes est dite sommable si i?I |ai| < +?. 15 Th´ eor` eme 2.1.5. Soit(ai, i ? I) une famille sommable de nombres complexes. (i) Pour toute ´ enum´ eration ? de I, S? n d´ efinie par (2.1) converge vers S ? C ind´ ependant de ?. On note S = i?I ai. On a | i?I ai| ? i?I |ai|. (ii) Soit (Ij, j ? J) une partition de I, on a i?I ai = j?J i?Ij ai. (iii) Si (bi, i ? I) est une autre famille sommable de nombres complexes et si ?, ? ? C, la famille (?ai + ?bi, i ? I) est sommable et i?I (?ai + ?bi) = ? i?I ai + ? i?I bi. Preuve: On pose, pour a ? R, a+ = max(a, 0), a? = max(?a, 0). On a a = a+ ? a? et |a| = a+ + a?. Pour a ? C, on a a = (a) + i (a). Alors, pour tout i ? I, [ (ai)]+ ? |ai|, [ (ai)]? ? |ai|, [ (ai)]+ ? |ai|, [ (ai)]? ? |ai|. Ecrivant S? n = n k=0 [ (a?(k))]+ ? n k=0 [ (a?(k))]? + i n k=0 [ (a?(k))]+ ? i n k=0 [ (a?(k))]? , on est ramen´ e au cas positif. 2.2. Espace de probabilit´ e discret 2.2.1. Probabilit´ e sur E d´ enombrable. Soit E un ensemble d´ enombrable. Une prob- abilit´ e sur E est une famille (p(a), a ? E) de r´ eels v´ erifiant 0 ? p(a) ? 1, a?E p(a) = 1. On pose alors, pour A ? E, P(A) = a?A p(a). P est une application de P(E) dans [0, 1] v´ erifiant P(E) = 1, P(A ? B) = P(A) + P(B) si A ? B = ? (prop. 2.1.3) et P(An) ? P(A) si An ? A (prop. 2.1.2). Ceci implique que A ? P(A) est ?-additive i.e. que, pour toute famille (An, n ? N) de sous-ensembles de ? deux ` a deux disjoints, on a P(?An) = P(An). En effet: P(?An) = lim ?N P(?N 0 An) = lim ?N N 0 P(An) = P(An). R´ eciproquement si une application de P(E) dans [0, 1], A ? P(A), v´ erifie P(E) = 1 et est ?-additive, on a, posant p(a) = P({a}), 0 ? p(a) ? 1 et a?E p(a) = 1. Ici encore, on appellera probabilit´ e sur E aussi bien la famille (p(a), a ? E) que la fonction d?ensembles A ? P(A). 16 Espace de probabilit´ e discret 2.2.2. Un couple (?, P) o` u ? est un ensemble fini ou d´ enombrable et P une probabilit´ e sur ? s?appelle un espace de probabilit´ e discret. Toute application X de ? dans E s?appelle une variable al´ eatoire ` a valeurs E. On peut supposer E d´ enombrable puisque X(?) est d´ enombrable. Alors, vu la prop. 2.1.3, la famille (q(a), a ? E) o` u q(a) = P(X = a) est une probabilit´ e sur E appel´ ee loi de X. 2.2.3. Esp´ erance. Soient (?, P) un espace de probabilit´ e discret et X une variable al´ eatoire ` a valeurs E discret (i.e. fini ou d´ enombrable). On pose p(?) = P({?}). a. On suppose E ? R+. On pose E(X) = ??? X(?)p(?). E(X), qui est un ´ el´ ement de [0, +?], s?appelle l?esp´ erance de X. b. On suppose E ? R. Alors, si E(|X|) = ? |X(?)|p(?) < +?, on appelle esp´ erance de X la quantit´ e E(X) = ??? X(?)p(?). c. On suppose E quelconque et soit f : E ? R. Si f ? 0 ou si E(|f(X)|) = ??? |f(X(?))|p(?) < +?, on a E(f(X)) = ??? f(X(?))p(?). (2.2) Th´ eor` eme 2.2.1. Soient X une variable al´ eatoire ` a valeurs E discret et f : E ? R. Si f ? 0, on a E(f(X)) = a?E f(a)P(X = a). (2.3) De plus, E(|f(X)|) < +? ssi a |f(a)|P(X = a) < +? et, dans ce cas, on a (2.3). Preuve: Supposons d?abord f ? 0. Alors, vu la prop. 2.1.3, E(f(X)) = ??? f(X(?))p(?) = a?E ? / X(?)=a f(X(?))p(?) = a?E ? / X(?)=a f(a)p(?) = a?E f(a) ? / X(?)=a p(?) = a?E f(a)P(X = a). On a donc, pour f r´ eelle, E(|f(X)|) = a |f(a)|P(X = a) et, si cette quantit´ e est finie, le calcul ci dessus est encore valable (th. 2.1.5). Soient X1, X2 des v.a. ` a valeurs E1 et E2 discrets. Alors (X1, X2) est une v.a. ` a valeurs E1 × E2 et on a, pour toute f : E1 × E2 ? R positive ou telle que E(|f(X1, X2)|) < +?, E(f(X1, X2)) = (a1,a2)?E1×E2 f(a1, a2) P(X1 = a1, X2 = a2). (2.4) Si A ? ?, on appelle fonction indicatrice de A et on note 1A la fonction d´ efinie par 1A(?) = 1 si ? ? A, 1A(?) = 0 si ? / ? A. Alors, notant p(?) = P({?}), E(1A) = ??? 1A(?)p(?) = ??A p(?) = P(A). (2.5) 17 2.2.4. Moments. Dans cette sous section, X d´ esigne une v.a. ` a valeurs E ? R, E discret. Soit p ? N?. Si E(|X|p) < +?, E(|X|p) s?appelle le moment absolu d?ordre p de X et E(Xp) s?appelle le moment d?ordre p de X. D?apr` es le th. 2.2.1, E(|X|p ) = a?E |a|p P(X = a). Noter que, pour 1 ? q ? p, E(|X|p) < +? implique E(|X|q) < +? puisque |X|q ? 1 + |X|p. Supposons E(X2) < +?, alors m = E(X), qu?on appelle aussi moyenne de X, existe et on d´ efinit la variance de X par Var(X) = E[(X ? m)2 ] = E(X2 ) ? m2 . (2.6) La variance donne une id´ ee de l?´ ecart de X par rapport ` a sa moyenne m comme le montre: Proposition 2.2.2. (In´ egalit´ e de Bienaym´ e-Tchebychev) On suppose que E(X2) < +? et soit m = E(X). Alors, pour tout ? > 0, P(|X ? m| ? ?) ? 1 ?2 Var(X). Preuve: On a Var(X) = E[(X ? m)2 ] = ??? (X(?) ? m)2 p(?) ? ??{|X?m|??} (X(?) ? m)2 p(?) ? ?2 ??{|X?m|??} p(?) = ?2 P(|X ? m| ? ?). 2.2.5. Lois usuelles. Loi binomiale. On l?a d´ ej` a rencontr´ e en (1.7). Soit n ? N?. C?est la loi d?une v.a. ` a valeurs {0, 1, . . . , n} telle que P(X = k) = Ck npk (1 ? p)n?k , k = 0, 1, . . . , n ; 0 < p < 1. (2.7) Elle est appel´ ee loi binomiale de param` etre n, p et not´ ee B(n, p). On ´ ecrit X ? B(n, p). En particulier si X ? B(1, p), on dit que X est une v.a. de Bernouilli. Calculons la moyenne et la variance de X ? B(n, p). D?une part E(X) = k?0 k P(X = k) = n k=1 kCk npk (1?p)n?k = np n k=1 (n ? 1)! (k ? 1)!(n ? k)! pk?1 (1?p)n?k = np n?1 i=0 Ci n?1pi (1 ? p)n?1?i = np(p + (1 ? p))n?1 = np. 18 Espace de probabilit´ e discret D?autre part E(X2 ) = k?0 k2 P(X = k) = n k=2 k(k ? 1)Ck npk (1 ? p)n?k + n k=1 k P(X = k) = n(n ? 1)p2 n k=2 (n ? 2)! (k ? 2)!(n ? k)! pk?2 (1 ? p)n?k + pn = n(n ? 1)p2 n?2 i=0 Ci n?2pi (1 ? p)n?2?i + pn = n(n ? 1)p2 + pn. On a alors Var(X) = n(n ? 1)p2 + pn ? (np)2 = np(1 ? p). Supposons que k soit fixe et que n ? +? avec p = p(n) tel que np(n) ? ?. Alors vu que log{(1 ? p(n))n} = n log(1 ? p(n)) ? ?np(n) ? ??, on a P(X = k) = n(n ? 1) . . . (n ? k + 1) k! pk (n)(1 ? p(n))n?k = 1 k! n(n ? 1) . . . (n ? k + 1) nk (np(n))k (1 ? p(n))?k (1 ? p(n))n ? 1 k! ?k e?? . Noter que ( 1 k! ?ke??, k ? N) est une probabilit´ e sur N. Loi de Poisson. C?est la loi d?une v.a. ` a valeurs N telle que P(X = k) = e?? ?k k! , k ? N; ? > 0. (2.8) Cette loi est appel´ ee loi de Poisson de param` etre ? et se note P(?). Calculons sa moyenne et sa variance. D?une part E(X) = k?0 k P(X = k) = ? k=0 ke?? ?k k! = ?e?? ? k=1 ?k?1 (k ? 1)! = ?. D?autre part, comme ci-dessus E(X2 ) = k?0 k2 P(X = k) = k?0 k(k ? 1)e?? ?k k! + k?0 ke?? ?k k! = ?2 e?? ? k=2 ?k?2 (k ? 2)! + ? = ?2 + ?. On a alors Var(X) = ?2 + ? ? ?2 = ?. On a vu qu?on peut approximer la loi B(n, p) par la loi de Poisson P(np) si n est tr` es grand et p tr` es petit. Loi g´ eom´ etrique. C?est la loi d?une v.a. ` a valeurs N telle que P(X = k) = (1 ? a)ak , k ? N; 0 < a < 1. (2.9) 19 Cette loi est appel´ ee loi g´ eom´ etrique sur N de param` etre a et se note G(a). On calculera sa moyenne et sa variance en 2.3. On rencontrera aussi la loi g´ eom´ etrique sur N? de param` etre a, not´ ee G?(a) d´ efinie par P(X = k) = (1 ? a)ak?1 , k ? N? , 0 < a < 1. (2.10) 2.2.6. Variables al´ eatoires ind´ ependantes. Il est naturel de dire que deux v.a. discr` etes X et Y sont ind´ ependantes si, pour tous a ? X(?), b ? Y (?), les ´ ev´ enements {X = a} et {Y = b} sont ind´ ependants (voir 1.3.2) i.e. si pour tous a ? X(?), b ? Y (?), P(X = a, Y = b) = P(X = a)P(Y = b). Plus g´ en´ eralement, D´ efinition 2.2.3. Les v.a. X1, X2, . . . , Xn ` a valeurs E1, E2, . . . , En discrets sont ind´ ependantes si, pour tous a1 ? E1, a2 ? E2, . . . , an ? En, P(X1 = a1, X2 = a2, . . . , Xn = an) = P(X1 = a1) P(X2 = a2) . . . P(Xn = an). Th´ eor` eme 2.2.4. Les v.a. X1, X2, . . . , Xn ` a valeurs E1, E2, . . . , En discrets sont ind´ ependantes ssi, pour tous fi : Ei ? R+, E(f1(X1) . . . fn(Xn)) = E(f1(X1)) . . . E(fn(Xn)) (2.11) Dans ce cas, si fi : Ei ? R v´ erifie E(|fi(Xi)|) < +?, i = 1, 2, . . . , n, on a que E(|f1(X1) . . . fn(Xn)|) < +? et (2.11) est satisfaite. Preuve: On se limite ` a n = 2. Si (2.11) est satisfaite, on a l?ind´ ependance de X1 et X2 en choisissant f1 = 1{a1}, f2 = 1{a2} et en utilisant (2.5). R´ eciproquement, si X1 et X2 sont ind´ ependantes et f1 ? 0, f2 ? 0, vu la prop. 2.1.3 et (2.4), E(f1(X1)f2(X2)) = a1,a2 f1(a1)f2(a2)P(X1 = a1, X2 = a2) = a1,a2 f1(a1)f2(a2)P(X1 = a1)P(X2 = a2) = a1 f1(a1)P(X1 = a1) a2 f2(a2)P(X2 = a2) = E(f1(X1))E(f2(X2)). Dans le cas r´ eel, on a, vu la premi` ere partie, E(|f1(X1)f2(X2)|) = E(|f1(X1)|)E(|f2(X2)|) < +? et la calcul ci-dessus reste valable. Prenant fi = 1?i , on a, utilisant (2.5), que si X1, X2, . . . , Xn sont ind´ ependantes, pour tous ?i ? Ei, P(X1 ? ?1, . . . Xn ? ?n) = P(X1 ? ?1) . . . P(Xn ? ?n) (2.12) Enfin il r´ esulte du th. 2.2.4 que, si X1, X2, . . . , Xn sont ind´ ependantes, (i) il en est de m? eme Y1 = g1(X1), . . . , Yn = gn(Xn) o` u gi : Ei ? Fi. 20 Espace de probabilit´ e discret (ii) il en est de m? eme de Xr(1), . . . , Xr(n) pour toute permutation {r(1), . . . , r(n)} de (1, . . . , n), (iii) il en est de m? eme,pour tous 1 < m1 < . . . < mp = n, de Y1, . . . , Yp o` u Y1 = (X1, . . . , Xm1 ), Y2 = (Xm1+1, . . . , Xm2 ), . . . , Yp = (Xmp?1+1, . . . , Xn). Par exemple, si X1, X2, X3, X4 sont des variables al´ eatoires r´ eelles ind´ ependantes, il en est de m? eme de X1, X3, X2, X4, de Y1 = (X1, X3) et Y2 = (X2, X4) et de U1 = cos(X2 1 + X2 3 ) et U2 = eX2X4 . Exemple. Soient X et Y deux v.a. ind´ ependantes ` a valeurs N, de lois P(?) et P(µ). Cherchons la loi de S = X + Y . On a P(S = k) = P(X + Y = k) = k j=0 P(X = j, Y = k ? j) = k j=0 P(X = j)P(Y = k ? j) = k j=0 e?? ?j j! e?µ µk?j (k ? j)! = e?(?+µ) 1 k! k j=0 Cj k?j µk?j = e?(?+µ) (? + µ)k k! . Donc S ? P(? + µ). 2.3. Fonctions g´ en´ eratrices Dans cette section, on ne consid` ere que des v.a. ` a valeurs N. 2.3.1. D´ efinition. Soit X une telle v.a. Notons d?abord que, vu le th. 2.2.1, on a, pour tout s ? 0, ? n=0 P(X = n)sn = E(sX) avec la convention s0 = 1 si s = 0. D´ efinition 2.3.1. On appelle fonction g´ en´ eratrice de X, la fonction g(s) = gX (s) = ? n=0 P(X = n)sn = E(sX ), 0 ? s ? 1. On pose qn = P(X = n). On a gX (0) = q0, gX (1) = 1 et, vu la prop. 2.1.2, gX (s) ? gX (1) = 1 lorsque s ? 1. Sur [0, 1], la fonction gX (s) est convexe et strictement convexe si q0 + q1 < 1. De plus, la s´ erie enti` ere qnsn a un rayon de convergence R ? 1. Donc gX (s) est ind´ efiniment d´ erivable sur [0, 1[ et gX (s) = n?1 nqnsn?1, gX (s) = n?2 n(n ? 1)qnsn?2,. . .. Enfin n!qn = g(n) X (0) d?o` u: Proposition 2.3.2. La fonction g´ en´ eratrice gX d´ etermine la loi de X. En fait: P(X = n) = 1 n! g(n) X (0). Exemples. 21 a. Loi binomiale B(n, p). On a g(s) = k P(X = k)sk = n k=0 Ck npk sk (1 ? p)n?k = (ps + (1 ? p))n . b. Loi de Poisson P(?). On a g(s) = k P(X = k)sk = e?? k?0 ?ksk k! = e?(s?1) . c. Loi g´ eom´ etrique G(a). On a g(s) = k P(X =)sk = k?0 (1 ? a)ak sk = 1 ? a 1 ? as . 2.3.2. Calcul des moments. Rappelons (2.2.4) que E(Xp) < +? implique E(Xq) < +? pour tout q ? p. Proposition 2.3.3. (i) E(X) < +? ssi gX est d´ erivable ` a gauche en 1 et, dans ce cas, on a E(X) = gX (1). (ii) E(X2) < +? ssi gX est deux fois d´ erivable ` a gauche en 1 et, dans ce cas, on a E(X(X ? 1)) = gX (1). Preuve: (i) On a, utilisant la prop. 2.1.2, lorsque s ? 1, g(s) ? g(1) s ? 1 = n?0 qn sn ? 1 s ? 1 = n?0 qn(1 + . . . + sn?1 ) ? n?0 nqn = E(X) et le r´ esultat cherch´ e. (ii) On remarque d?abord que, si E(X2) < +?, E(X) < +? et g (1) < +?. Alors, lorsque s ? 1, g (s) ? g (1) s ? 1 = n?0 nqn sn?1 ? 1 s ? 1 = n?0 nqn(1+. . .+sn?2 ) ? n?0 n(n?1)qn = E(X(X?1)). On conclut facilement. On peut continuer et, si E(Xp) < +?, p ? N, g(p) X (1) = E(X(X ? 1) . . . (X ? p + 1)). Supposons E(X2) < +?. Alors Var(X) = E(X2 )?[E(X)]2 = E(X(X?1))+E(X)?[E(X)]2 = gX (1)+gX (1)?[gX (1)]2 . Le lecteur est invit´ e ` a calculer l?esp´ erance et la variance des lois binomiale et de Poisson par cette m´ ethode. Consid´ erons la loi g´ eom´ etrique G(a) (2.3.1). On a g(s) = 1 ? a 1 ? as , g (1) = a 1 ? a = E(X), g (1) = 2a2 (1 ? a)2 , Var(X) = a (1 ? a)2 . 2.3.3. Somme de v.a. ind´ ependantes. 22 Espace de probabilit´ e discret Proposition 2.3.4. Soient X et Y deux v.a. ` a valeurs N ind´ ependantes. On a, pour tout s ? [0, 1], gX+Y (s) = gX (s) gY (s). Preuve: On a, utilisant le th. 2.2.4, gX+Y (s) = E(sX+Y ) = E(sX sY ) = E(sX ) E(sY ) = gX (s) gY (s). Exemples. (i) Soient X et Y deux v.a. ind´ ependantes de loi P(?) et P(µ). On a gX+Y (s) = e?(s?1) eµ(s?1) = e(?+µ)(s?1) et donc (prop. 2.3.2) X + Y ? P(? + µ). (ii) Soient A1, . . . , An des ´ ev´ enements ind´ ependants de m? eme probabilit´ e p = P(Ak). Soient Sn = 1A1 +. . .+1An le nombre d?´ ev´ enements r´ ealis´ es, g la fonction g´ en´ eratrice (commune) de 1A1 et gn la fonction g´ en´ eratrice de Sn. On a g(s) = E(s1A1 + 1Ac 1 ) = ps + 1 ? p. Donc gn(s) = [g(s)]n = (ps + 1 ? p)n et (prop. 2.3.2) Sn ? B(n, p). 2.3.4. Crit` ere d?ind´ ependance. Soient X et Y deux v.a. ` a valeurs N. On d´ efinit pour u, v ? [0, 1], g(X,Y ) (u, v) = m,n P(X = m, Y = n)um vn = E(uX vY ). (2.13) (Toujours avec la convention 00 = 1). Alors g(X,Y ) s?appelle la fonction g´ en´ eratrice du couple (X, Y ). Proposition 2.3.5. Les v.a. ` a valeurs N X et Y sont ind´ ependantes ssi, pour tous u, v ? [0, 1], g(X,Y ) (u, v) = gX (u) gY (v). (2.14) Preuve: Si X et Y sont ind´ ependantes, (2.14) r´ esulte du th. 2.2.4. R´ eciproquement (2.14) s?´ ecrit m,n P(X = m, Y = n)um vm = m P(X = m)um n P(Y = n)vn . Appliquant ?m+n ?un?vm (0, 0) aux deux membres, on obtient que, pour tous m, n, P(X = m, Y = n) = P(X = m)P(Y = n) i.e. l?ind´ ependance de X et Y . La prop. 2.3.5 s?´ etend facilement au cas de n v.a. Chapitre 3 Mesure. Int´ egration Dans ce chapitre, on rappelle les r´ esultats de la th´ eorie de la mesure et de l?int´ egration qui seront utilis´ es par la suite. 3.1. Tribus 3.1.1. Soient E un ensemble et B ? P(E). On dit que B est une alg` ebre (resp. une tribu) si E ? B, si B est stable par passage au compl´ ementaire et par r´ eunion et intersection finies (resp. d´ enombrables). Un couple (E, B), B tribu sur E, s?appelle un espace mesurable. S?il est souvent possible de d´ ecrire les ´ el´ ements d?une alg` ebre, il n?en est pas de m? eme pour ceux d?une tribu. On remarque que P(E) est une tribu et que l?intersection d?une famille non vide quelconque de tribus est une tribu. Donc, ´ etant donn´ e C ? P(E), on peut consid´ erer la plus petite tribu contenant C, c?est l?intersection de toutes les tribus contenant C. Cette tribu se note ?(C) et s?appelle la tribu engendr´ ee par C. Le r´ esultat suivant, appel´ e th´ eor` eme de classe monotone, sera tr` es utile par la suite. Proposition 3.1.1. Soient C ? M ? P(E). On suppose que C est stable par inter- section finie, que E ? M, que A, B ? M et A ? B impliquent B \ A ? M et que M est stable par limite croissante. Alors ?(C) ? M. 3.1.2. Supposons E = Rd et soit O la classe des ouverts de E. La tribu ?(O) s?appelle la tribu bor´ elienne de Rd et se note B(Rd). Il est facile de voir qu?elle est aussi en- gendr´ ee par les ferm´ es, par les boules, par les pav´ es et m? eme par les pav´ es ` a co- ordonn´ ees rationnelles (cette derni` ere famille ayant l?avantage d?? etre d´ enombrable). Si d = 1, on consid´ erera, outre B(R), B(R+) = {A ? B(R), A ? R+}, B(R) = ?(B(R), {+?}, {??}) et B(R+) = ?(B(R+), {+?}). On ´ etend les op´ erations usuelles ` a R+ en posant (+?) × 0 = 0 × (+?) = 0. 3.1.3. Soient (E1, B1) et (E2, B2) deux espaces mesurables. Une application de E1 dans E2 est dite mesurable si, pour tout A ? B2, f?1(A) ? B1. Il est facile de voir que, pour cela, il suffit que f?1(A) ? B1 pour tout A ? C avec ?(C) = B2. Ceci 24 Mesure. Int´ egration implique que, si f est continue de Rd dans Rm, f est bor´ elienne i.e. mesurable pour les tribus bor´ eliennes. De plus, cette notion est transitive i.e. la compos´ ee de deux applications mesurables est mesurable. Quand l?espace d?arriv´ ee est R, R, R+, Rd, C, il est toujours suppos´ e muni de sa tribu bor´ elienne. 3.1.4. Soit (E, B) un espace mesurable. Pour qu?une application num´ erique soit mesurable, il suffit que, pour tout a ? R, {f > a} := {x, f(x) > a} ? B. On peut aussi consid´ erer {f < a}, {f ? a}, {f ? a}. Ceci implique que, si f, g, fn sont des fonctions num´ eriques mesurables, il en est de m? eme de ?f, sup(f, g), inf(f, g), f+ = sup(f, 0), f? = sup(?f, 0), sup fn, inf fn, lim sup fn, lim inf fn, lim fn si elle existe. Rappelons que, notant fn ? f (resp.fn ? f) si, pour tout x ? E, fn(x) cro? ?t (resp. d´ ecro? ?t) vers f(x), lim sup fn(x) = lim n ? sup k?n fk(x), lim inf fn(x) = lim n ? inf k?n fk(x), (3.1) ces quantit´ es ´ etant ` a valeurs R et que f = lim fn ssi lim sup fn = lim inf fn = f. Soient f, g des fonctions num´ eriques mesurables. Alors ? : x ? (f(x), g(x)) est mesurable de (E, B) dans R2 puisque ??1(A × B) = f?1(A) ? g?1(B). Ceci implique que, si H est une application bor´ elienne de R2 dans R, H(f, g) est mesurable. On en d´ eduit que f + g, fg, f g , si elle existe, sont mesurables. 3.1.5. Pour A ? B, on appelle fonction indicatrice de A et on note 1A la fonction valant 1 sur A et 0 sur Ac (on note Ac le compl´ ementaire de A). On a 1Ac = 1 ? 1A, 1?An = n 1An = inf 1An , 1?An = sup 1An . Une application f de E muni de la tribu B dans R est dite ´ etag´ ee si elle s?´ ecrit f = n k=1 ak1Ak , Ak ? B. On notera [B] l?ensemble des fonctions r´ eelles B-mesurables, bB l?ensemble des fonctions r´ eelles B-mesurables born´ ees, B+ l?ensemble des fonctions B-mesurables ` a valeurs R+, eB+ l?ensemble des fonctions ´ etag´ ees positives. Le r´ esultat suivant est ` a la base de la construction de l?int´ egrale Proposition 3.1.2. Toute f ? B+ est limite d?une suite croissante de fonctions de eB+. Preuve: Il suffit de consid´ erer fn(x) = n2n?1 k=0 k 2n 1{ k 2n ?f(x)< k+1 2n } + n1{f(x)?n}. (3.2) 3.1.6. Soit f une application de E dans un espace mesurable (A, A). On note ?(f) et on appelle tribu engendr´ ee par f la plus petite tribu sur E rendant f mesurable. On a donc ?(f) = {f?1(A), A ? A}. 25 Proposition 3.1.3. Soient f : E ? (A, A) et h : E ? R (resp. E ? R+). Alors h est ?(f)-mesurable ssi il existe g ? [A] (resp. g ? A+) telle que h = g ? f. Preuve: Evidemment si h = g?f, h est ?(f)-mesurable (transitivit´ e). R´ eciproquement supposons d?abord h ? e[?(f)]+, on a h = n k=1 ak1Bk avec Bk ? ?(f) et donc Bk = f?1(Ak), Ak ? A. Vu que 1Bk = 1Ak ? f, on a h = g ? f avec g = n k=1 ak1Ak . Si h ? [?(f)]+, on a h = lim ? hn avec hn ? e [?(f)]+ et donc hn = gn ? f, gn ? A+. On en d´ eduit h = g ? f avec g = lim sup gn ? A+. Si h ? [?(f)], on a h = h+ ? h? et h+ = g1 ? f, h? = g2 ? f avec gi ? A+. On a alors h = g ? f avec g = g11{g1<+?} ? g21{g2<+?} ? [A]. Plus g´ en´ eralement si (fi, i ? I) est une famille d?applications de E dans des espaces mesurables (Fi, Fi), on note ?(fi, i ? I) et on appelle tribu engendr´ ee par les fi la plus petite tribu sur E rendant toutes les fi mesurables. On a donc ?(fi, i ? I) = ?(f?1 i (Ai), Ai ? Fi, i ? I). 3.2. Mesures 3.2.1. Soit (E, B) un espace mesurable. D´ efinition 3.2.1. On appelle mesure sur (E, B) toute application µ de B dans R+ telle que (i) µ(?) = 0, (ii) pour tous An ? B deux ` a deux disjoints, µ(?nAn) = n µ(An). Le triplet (E, B, µ) s?appelle un espace mesur´ e. Propri´ et´ es: (i) si A, B ? B et A ? B, µ(A) ? µ(B), (ii) si An ? B, µ(?nAn) ? n µ(An), (iii) si An ? B et si An ? A (i.e. 1An ? 1A), µ(An) ? µ(A), (iv) si An ? B, si An ? A (i.e. 1An ? 1A) et si, pour un n0, µ(An0 ) < +?, µ(An) ? µ(A). Si E = ?nEn avec En ? B et µ(En) < +?, la mesure µ est dite ?-finie. Si µ(E) < +?, la mesure µ est dite born´ ee. Si µ(E) = 1, la mesure µ est appel´ ee une probabilit´ e. Exemple. Soit a ? E. alors ?a(A) = 1A(a) d´ efinit une mesure sur (E, B) appel´ ee mesure de Dirac de a. Plus g´ eralement, ´ etant donn´ es an ? E et ?n ? 0, µ = n ?n?an est une mesure sur (E, B) (prop. 2.1.2). Remarque. La propri´ et´ e (ii) de la def. 3.2.1 s?appelle ?-additivit´ e. Si dans la def. 3.2.1, on suppose que B est seulement une alg` ebre, la d´ efinition a encore un sens en rajoutant dans (ii) la condition ?nAn ? B. On a ainsi la notion de mesure sur une alg` ebre. 26 Mesure. Int´ egration Proposition 3.2.2. Soient µ et ? deux mesures sur (E, B) et C ? B une classe d?ensembles stable par intersection finie. On suppose que, pour tout A ? C, µ(A) = ?(A) < +? et que E = lim ? En avec En ? C. Alors µ(A) = ?(A) pour tout A ? ?(C). Preuve: Supposons d?abord µ(E) = ?(E) < +?. Soit M = {A ? B, µ(A) = ?(A)}. On v´ erifie imm´ ediatement que les hypoth` eses de la prop. 3.1.2 sont v´ erifi´ ees. On a donc ?(C) ? M. Le cas g´ en´ eral se traite en appliquant ce r´ esultat aux mesures µn(A) = µ(A ? En) et ?n(A) = ?(A ? En). Corollaire 3.2.3. Soient µ et ? deux probabilit´ es sur (E, B) et C ? B une classe d?ensembles stable par intersection finie telle que ?(C) = B. Si µ(A) = ?(A) pour tout A ? C, alors µ = ?. 3.2.2. Soit (E, B, µ) un espace mesur´ e. Un sous-ensemble A de E est dit n´ egligeable (ou µ-n´ egligeable s?il y a ambigu¨ ?t´ e) si A ? B avec B ? B et µ(B) = 0. Une propri´ et´ e est vraie presque partout (en abr´ eg´ e p.p. ou, plus pr´ esisemment, µ p.p.) si elle est vraie en dehors d?un ensemble n´ egligeable. Par exemple f = g p.p. signifie que {x ? E, f(x) = g(x)} est n´ egligeable. Si µ est une probabilit´ e, on dit presque s? urement (en abr´ eg´ e p.s.) pour presque partout. On note N la classe des ensembles n´ egligeables. Il faut noter que si An ? N, on a ?nAn ? N. Si N ? B, l?espace mesur´ e (E, B, µ) est dit complet. Si ce n?est pas le cas, on peut le ?compl´ eter? de la fa¸ con suivante. On d´ efinit B = ?(B, N). Alors A ? B ssi A = B ? N avec B ? B et N ? N. On peut prolonger µ ` a B en posant µ(A) = µ(B) (il est facile de voir que ceci ne d´ epend pas de l?´ ecriture de A). L?espace (E, B, µ) est alors complet et s?appelle le compl´ et´ e de (E, B, µ). Enfin on v´ erifie ais´ ement que f : E ? R est B?mesurable ssi il existe g, h : E ? R B?mesurables telles que g ? f ? h et g = h µ p.p. 3.2.3. Construction. Dans la suite, la plupart du temps, on partira d?un espace mesurable ou d?un espace de probabilit´ e sans se soucier de sa construction. Il est n´ eanmoins indispensable de s?assurer de l?existence de tels objets. On va s?int´ eresser aux mesures sur B(R) finies sur les intervalles born´ es. Observons d?abord que C = { ]a, b], ?? < a < b < +?} est une classe stable par intersection finie et que ?(C) = B(R). Il r´ esulte alors de la prop. 3.2.2 qu?une mesure µ sur B(R) finie sur les intervalles born´ es est d´ etermin´ ee par les valeurs µ(]a, b]). Ensuite, ´ etant donn´ ee une telle mesure, si on pose F(0) = 0; F(x) = µ(]0, x]), x > 0; F(x) = ?µ(]x, 0]), x < 0, F(x) est une fonction continue ` a droite et croissante et l?on a µ(]a, b]) = F(b)?F(a). On est donc ramen´ e au probl` eme suivant. Soit F une application de R dans R continue ` a droite et croissante, existe-t-il une mesure µ sur B(R) telle que µ(]a, b]) = F(b) ? F(a)? Il est facile de d´ ecrire l?alg` ebre A engendr´ ee par C, on a A = { A = ?n k=1]ak, bk], ?? ? a1 < b1 < a2 < . . . < bn?1 < an < bn ? +?} 27 en convenant que, si bn = +?, ]an, bn] =]an, +?[. On d´ efinit µ sur A par µ(A) = n k=1 F(bk) ? F(ak) o` u F(+?) = limx?+? F(x), F(??) = limx??? F(x). Il est facile de montrer que µ est additive sur A, un peu plus d´ elicat de montrer que µ est ?-additive sur A mais cela se fait. On a donc construit une mesure µ sur A telle que µ(]a, b]) = F(b) ? F(a). Pour passer ` a B(R), on utilise le th´ eor` eme de Carath´ eodory: Th´ eor` eme 3.2.4. Soit µ une mesure sur une alg` ebre A, alors µ se prolonge en une mesure sur ?(A). De plus, si µ est ?-finie, ce prolongement est unique. Tout ceci donne, puisque dans notre cas ?(A) = B(R), Th´ eor` eme 3.2.5. Soit F une application de R dans R continue ` a droite et croissante. Il existe une et une seule mesure µ sur B(R) telle que, pour tous a < b, µ(]a, b]) = F(b) ? F(a). Si on choisit F(x) = x, on obtient l?existence et l?unicit´ e d?une mesure ? sur B(R) v´ erifiant, pour tout intervalle I, ?(I) = |I|. C?est la mesure de Lebesgue sur R. Si N est la classe des ensembles ?-n´ egligeables, B(R) = ?(B, N) s?appelle la tribu des ensembles Lebesgue-mesurables (elle est beaucoup plus ?grosse? que B(R)) et ? se prolonge sans peine ` a B(R) comme en 3.2.2. 3.3. Int´ egration Soit (E, B, µ) un espace mesur´ e. 3.3.1. Int´ egration des fonctions positives. On va construire l?int´ egrale de f par rap- port ` a µ. Si f ? eB+, c?est tr` es facile, f s?´ ecrit f = n k=1 ak1Ak , Ak ? B et l?on pose f dµ := n k=1 akµ(Ak). Des consid´ erations ´ el´ ementaires montrent que ceci ne d´ epend pas de l?´ ecriture de f et que, pour f, g ? eB+ et a, b ? R+, (af + bg) dµ = a f dµ + b g dµ et que, si f ? g, f dµ ? g dµ. On a aussi le r´ esultat plus technique suivant qui est la cl´ e de la construction. Lemme 3.3.1. Si fn, gn ? eB+ sont croissantes et si lim ? fn = lim ? gn, on a lim ? fn dµ = lim ? gn dµ. Soit f ? B+. Il existe (prop. 3.1.2) une suite fn ? eB+ telle que fn ? f, on a alors fn dµ ? et on pose f dµ = lim ? fn dµ. Le point important est que, d?apr` es le lem. 3.3.1, cette limite ne d´ epend pas de la suite fn choisie. On a en particulier, vu (3.2), pour f ? B+, f dµ = lim ? n2n?1 k=0 k 2n µ({x, k 2n ? f(x) < k + 1 2n }) + nµ({x, f(x) ? n}). (3.3) 28 Mesure. Int´ egration Par passage ` a la limite, on obtient imm´ ediatement que, pour f, g ? B+ et a, b ? R+, (af + bg) dµ = a f dµ + b g dµ et que, si f ? g, f dµ ? g dµ. Enfin on dira que f ? B+ est int´ egrable si f dµ < +?. 3.3.2. Int´ egration des fonctions r´ eelles ou complexes. On pose L1 = L1 (E, B, µ) = {f ? [B], |f| dµ < +?}. (3.4) Si f ? L1, f+ et f? sont int´ egrables et on pose f dµ = f+ dµ ? f? dµ. Il est facile de voir (vu que |f + g| ? |f| + |g|) que L1 est un espace vectoriel et que f ? f dµ est une forme lin´ eaire positive sur L1. De plus, pour f ? L1, | f dµ| ? |f| dµ. Si f est B-mesurable ` a valeurs C, on pose (|f| d´ esignant le module), L1 C = L1 C(E, B, µ) = {f B-mesurable complexe, |f| dµ < +?}. (3.5) On d´ efinit alors, pour f ? L1 C, f dµ = (f) dµ + i (f) dµ. L1 C est un espace vectoriel sur C et f ? f dµ une forme lin´ eaire sur L1 C. On a aussi, pour f ? L1 C, | f dµ| ? |f| dµ. 3.3.3. Propri´ et´ es. (i) Si f ? B+ et si f dµ < +?, f < +? p.p. (ii) Si f ? B+ et si f dµ = 0, f = 0 p.p. (iii) Si f, g ? L1 et si f ? g p.p., f dµ ? g dµ. (iv) Si f ? L1 C et si A ? B, f1A ? L1 C. On pose alors A f dµ := f1A dµ, A ? B, f ? L1 C ? B+ . (v) Si f ? L1 et si, pour tout A ? B, A f dµ ? 0 alors f ? 0 p.p. (vi) Si f, g ? L1 et si, pour tout A ? B, A f dµ ? A g dµ, alors f ? g p.p. Il nous reste ` a ´ enoncer les r´ esultats concernant les passages ` a la limite. Le premier d?o` u d´ ecoulent facilement les autres s?appelle th´ eor` eme de convergence monotone ou th´ eor` eme de Beppo-Levi. Th´ eor` eme 3.3.2. Soit fn ? B+ une suite croissante, alors lim ? fn dµ = lim ? fn dµ. 29 Corollaire 3.3.3. Soit gn ? B+, alors n gn dµ = n gn dµ. Proposition 3.3.4. (Lemme de Fatou) (i) Soit fn ? B+, alors lim inf fn dµ ? lim inf fn dµ. (ii) Soit fn ? [B] avec |fn| ? g ? L1, alors lim inf fn dµ ? lim inf fn dµ ? lim sup fn dµ ? lim sup fn dµ. (ii) implique le c´ el` ebre th´ eor` eme de Lebesgue, Th´ eor` eme 3.3.5. Soit fn ? L1 C telles que fn ? f p.p. avec |fn| ? g ? L1, alors lim fn dµ = f dµ. Ce th´ eor` eme a une version ?continue? tr` es utile. Corollaire 3.3.6. Soit (ft, t ? U) une famille d?´ el´ ements de L1 C, U ouvert de Rd. On suppose que limt?t0 ft = f p.p. et que, pour tout t ? U, |ft| ? g ? L1, alors limt?t0 ft dµ = f dµ. Preuve: Il suffit de remarquer que limt?t0 ft dµ = f dµ ssi, pour toute suite tn tendant vers t0, limtn?t0 ftn dµ = f dµ et d?appliquer le th. 3.3.5. Donnons un exemple d?utilisation de ce corollaire. Proposition 3.3.7. Soient (E, B, µ) un espace mesur´ e, I un intervalle ouvert et (f(t, x), t ? I) une famille d?´ el´ ements de L1 C(µ). On pose, pour tout t ? I, ?(t) = f(t, x) dµ(x). On suppose que, pour tout x ? A, t ? f(t, x) est d´ erivable sur I, que, pour tous x ? A et t ? I, |?f ?t (t, x)| ? g(x), que g ? L1(µ) et que µ(Ac) = 0. Alors ? est d´ erivable sur I et ? (t) = ?f ?t (t, x) dµ(x). Preuve: On a 1 h (?(t + h) ? ?(t)) = A 1 h (f(t + h, x) ? f(t, x)) dµ(x). D?apr` es la formule des accroissements finis, on a, pour x ? A, | 1 h (f(t + h, x) ? f(t, x))| = | ?f ?t (?, x)| ? g(x) si h est assez petit et 1 h (f(t + h, x) ? f(t, x)) ?h?0 ?f ?t (t, x). 30 Mesure. Int´ egration On peut appliquer le cor. 3.3.6 et A 1 h (f(t + h, x) ? f(t, x)) dµ(x) ?h?0 A ?f ?t (t, x) dµ(x) = ?f ?t (t, x) dµ(x). 3.3.4. Lien avec l?int´ egrale usuelle. Soit f une fonction r´ eelle continue sur [a, b] et posons, pour a ? x ? b, F(x) = x a f(t) dt (int´ egrale au sens usuelle) et G(x) = 1[a,a+x[f d?, ? mesure de Lebesgue sur R. On sait que F(a) = 0, F est continue sur [a, b] et que, sur ]a, b[, F est d´ erivable avec F = f. Il est facile de v´ erifier que G a les m? emes propri´ et´ es. Ceci implique que F = G sur [a, b] et, en particulier, que b a f(t) dt = 1[a,b[f d?. Par additivit´ e, cette formule est encore vraie si f est continue par morceaux sur [a, b]. Consid´ erons maintenant une application f de R dans R continue par morceaux telle que +? ?? f(t) dt soit absolument convergente. Lorsque a ? ?? et b ? +?, d?une part, par d´ efinition, b a |f(t)| dt ? +? ?? |f(t)| dt < +? et b a f(t) dt ? +? ?? f(t) dt; d?autre part, 1[a,b[|f| d? ? |f| d? (convergence monotone) ce qui implique que f ? L1(?) puis 1[a,b[f d? ? f d? (th´ eor` eme de Lebesgue puisque |1[a,b[f| ? |f| ? L1(?)). Donc +? ?? f(t) dt = f d?. Par contre, si +? ?? f(t) dt est convergente mais pas absolument convergente (par exemple f(x) = sin x x ), f / ? L1(?). 3.3.5. Espaces Lp. Soit (E, B, µ) un espace mesur´ e. On note L0 l?ensemble des appli- cations B-mesurables de E dans R finies p.p. On dit que f ? g si f = g p.p. Alors ? est une relation d?´ equivalence sur L0. On note L0 = L0/ ?. En fait L0 est l?espace des classes de fonctions B-mesurables d´ efinies ` a un p.p. pr` es. Puisque f = g p.p. implique |f| dµ = |g| dµ et f dµ = g dµ si f et g sont dans L1, on peut d´ efinir sans ambigu¨ ?t´ e, pour f ? L0, |f| dµ puis, si |f| dµ < +?, f dµ. Par abus de langage, dans toute la suite nous noterons de la m? eme fa¸ con une fonction et sa classe d?´ equivalence. On pose alors, pour 1 ? p < +? et f ? L0, ||f||p = [ |f|p dµ] 1 p et, pour p = +?, ||f||? = inf(M, µ(|f| > M) = 0). On a deux in´ egalit´ es fondamentales. Pour f, g ? L0 +, ||f + g||p ? ||f||p + ||g||p, 1 ? p ? +? (3.6) qui s?appelle l?in´ egalit´ e de Minkowski et ||fg||1 ? ||f||p ||g||q, 1 ? p ? +?, 1 p + 1 q = 1 (3.7) 31 qui s?appelle l?in´ egalit´ e de H¨ older. Notons que pour p = q = 2, (3.7) implique l?in´ egalit´ e de Schwarz [ |fg| dµ]2 ? ( f2 dµ)( g2 dµ). On note Lp = {f ? L0 , |f|p dµ < +?}, Lp = {f ? L0 , |f|p dµ < +?}. Alors Lp muni de la norme ||.||p est un espace de Banach et L2 est un espace de Hilbert pour le produit scalaire < f, g >= fg dµ. On peut aussi consid´ erer le cas des fonctions ` a valeurs complexes. On d´ efinit de la m? eme fa¸ con Lp C = Lp C(E, B, µ). Il faut noter que L2 C est associ´ e au produit scalaire < f, g >= fŻ g dµ. Proposition 3.3.8. Pour 1 ? p < +?, E0 = {f, f = n k=1 ak1Ak , Ak ? B, µ(Ak) < +?} est dense dans Lp(E, B, µ). Preuve: Il suffit de consid´ erer f ? 0. Alors il existe (prop. 3.1.2) une suite fn ? eB+ telle que fn ? f. Vu que fp n ? fp ? L1, fn ? E0. On a, puisque f < +? p.p., |f ?fn|p ? 0 p.p. et |f ?fn|p ? fp ? L1 donc (th. de Lebesgue) |f ?fn|p dµ ? 0. 3.4. Mesures ` a densit´ e 3.4.1. Soit µ une mesure sur (E, B). On peut lui associer une application I de B+ dans R+ en posant I(f) = f dµ, f ? B+. L?application I a les propri´ et´ es suivantes: I(f + g) = I(f) + I(g), I(af) = aI(f), a ? R+ et I(fn) ? I(f) si fn ? f. R´ eciproquement on a, Proposition 3.4.1. Soient (E, B) un espace mesurable et I une application de B+ dans R+ telle que (i) si f, g ? B+, I(f + g) = I(f) + I(g); si f ? B+ et a ? R+, I(af) = aI(f), (ii) si fn ? B+ et si fn ? f, I(fn) ? I(f). Alors µ(A) = I(1A), A ? B, d´ efinit une mesure sur B et on a, pour toute f ? B+, I(f) = f dµ. Preuve: Soient An ? B des ensembles deux ` a deux disjoints d?union A, on a 1A = n 1An = lim ? n k=1 1Ak et µ(A) = I(1A) = I(lim ? n k=1 1Ak ) = lim ? I( n k=1 1Ak ) = lim ? n k=1 I(1Ak ) = n µ(An). 32 Mesure. Int´ egration Ce qui montre que µ est une mesure. On a alors, pour toute f ? eB+, I(f) = f dµ. On conclut facilement en utilisant la prop. 3.1.2. 3.4.2. Mesures ` a densit´ e. Proposition 3.4.2. Soient (E, B, µ) un espace mesur´ e et h ? B+. La formule ?(A) = A h dµ, A ? B d´ efinit une mesure sur B appel´ ee mesure de densit´ e h par rapport ` a µ et not´ ee h.µ. On a, pour toute f ? B+, f d? = fh dµ. (3.8) De plus f ? [B] est ?-int´ egrable ssi fh est µ-int´ egrable et l?on a dans ce cas (3.8). Preuve: On consid` ere la fonctionnelle I(f) = fh dµ, f ? B+ et on applique la prop. 3.4.1. La derni` ere assertion est pure routine en ´ ecrivant f = f+ ? f?. Supposons que ? = h1.µ = h2.µ et que ? soit born´ ee, alors h1, h2 ? L1(µ) et on a (3.3.3 (vi)) h1 = h2 µ p.p. On voit facilement que ceci est encore vrai si ? est ?-finie. 3.4.3. Th´ eor` eme de Radon-Nikodym. Soient µ, ? deux mesures sur (E, B). On cherche ` a savoir si ? a une densit´ e par rapport ` a µ. Si ? = h.µ, on a ´ evidemment, pour A ? B, µ(A) = 0 implique ?(A) = 0. Il est remarquable que cette propri´ et´ e suffise ` a caract´ eriser les mesures ayant une densit´ e par rapport ` a µ. D´ efinition 3.4.3. On dit que ? est absolument continue par rapport ` a µ si A ? B et µ(A) = 0 impliquent ?(A) = 0. On note alors ? µ. On a (th´ eor` eme de Radon-Nikodym): Th´ eor` eme 3.4.4. Soient µ, ? deux mesures ?-finies sur (E, B) telles que ? µ. Alors il existe h ? B+, unique ` a un µ p.p. pr` es, telle que ? = h.µ. 3.5. Mesures produits 3.5.1. Soient (E1, B1) (E2, B2) deux espaces mesurables. On d´ efinit une tribu sur E1 × E2, appel´ ee tribu produit de B1 et B2 et not´ ee B1 ? B2, par B1 ? B2 = ?(A1 × A2, A1 ? B1, A2 ? B2). Alors si f : E1 × E2 ? R+ est une fonction B1 ? B2-mesurable, on a que pour tout x1 ? E1, x2 ? f(x1, x2) est B2-mesurable et que, pour tout x2 ? E2, x1 ? f(x1, x2) est B1-mesurable. En particulier si A ? B1 ? B2, Ax2 = {x1, (x1, x2) ? A} ? B1 et Ax1 = {x2, (x1, x2) ? A} ? B2. On en d´ eduit facilement que, si f ? (B1 ? B2)+ et si µi est une mesure sur (Ei, Bi), x1 ? f(x1, x2) dµ2(x2) est B1-mesurable et x2 ? f(x1, x2) dµ1(x1) est B2-mesurable. 33 Th´ eor` eme 3.5.1. Soient (E1, B1, µ1) et (E2, B2, µ2) deux espaces mesur´ es avec µ1 et µ2 ?-finies. Il existe une unique mesure sur B1 ? B2, not´ ee µ1 ? µ2 et appel´ ee mesure produit de µ1 et µ2, telle que, pour tous A1 ? B1, A2 ? B2, µ1 ? µ2(A1 × A2) = µ1(A1) µ(A2). De plus, pour toute f ? (B1 ? B2)+, f dµ1 ? µ2 = [ f(x1, x2) dµ1(x1)] dµ2(x2) = [ f(x1, x2) dµ2(x2)] dµ1(x1). Preuve: (i) Unicit´ e. On applique la prop. 3.2.2 ` a C = {A, A = A1 × A2, A1 ? B1, A2 ? B2, µ(A1) < +?, µ(A2) < +?}. (ii) Existence. On applique la prop. 3.4.1 ` a I1(f) = [ f(x1, x2) dµ1(x1)] dµ2(x2) ce qui donne l?existence. Mais on peut aussi appliquer la prop. 3.4.1 ` a I2(f) = [ f(x1, x2) dµ2(x2)] dµ1(x1) et, vu l?unicit´ e, on a I1(f) = I2(f). Si f ? L1 C(µ1 ? µ2), on peut appliquer le th´ eor` eme pr´ ec´ edent ` a [ (f)]+, [ (f)]?, [ (f)]+ et [ (f)]? et l?on obtient le th´ eor` eme de Fubini: Th´ eor` eme 3.5.2. Soit f ? L1 C(µ1 ? µ2). Alors, |f(x1, x2)| dµ2(x2) < +? µ1 p.p., |f(x1, x2)| dµ1(x1) < +? µ2 p.p. et, posant ?1(x1) = f(x1, x2) dµ2(x2), ?2(x2) = f(x1, x2) dµ1(x1), ?1 ? L1(µ1), ?2 ? L1(µ2) et f dµ1 ? µ2 = ?2(x2) dµ2(x2) = ?1(x1) dµ1(x1). 3.5.2. Tout ceci s?´ etend sans (trop de) peine au cas de n espaces mesurables. Il y a quelques v´ erifications fastidieuses ` a faire du type µ1 ? (µ2 ? µ3) = (µ1 ? µ2) ? µ3. De plus dans la formule d?int´ egrations successives, les variables peuvent ? etre int´ egr´ ees dans tous les ordres possibles. A ce sujet, le grand principe est: soit f mesurable, si f est positive, tout est permis, si f est de signe quelconque ou complexe, on consid` ere d?abord |f| et on commence par montrer que |f| est int´ egrable. 3.5.3. Mesures de Lebesgue sur Rd. Lemme 3.5.3. B(R) ? B(R) ? . . . ? B(R) = B(Rd) Preuve: Soit B?d = B(R) ? B(R) ? . . . ? B(R). (i) Si est U un ouvert de Rd, U = ?nPn, Pn pav´ e ouvert (i.e. Pn = d k=1]ak, bk[). Donc U ? B?d et B(Rd) ? B?d. (ii) Soient X1, X2, . . . , Xd les projections canoniques de Rd sur R. Les Xk sont con- tinues donc mesurable de (Rd, B(Rd)) dans (R, B(R)) d?o` u B?d = ?(X1, . . . , Xd) ? B(Rd). Soit ? la mesure de Lebesgue sur (R, B(R)). On d´ efinit alors, sur (Rd, B(Rd)), ?d = ? ? ? ? . . . ? ?. On peut appliquer la prop. 3.2.2 ` a C = {A, A = d i=1 ]ai, bi[, ?? < ai < bi < +?}. 34 Mesure. Int´ egration On obtient que ?d est l?unique mesure sur B(Rd) telle que, pour tous ?? < ai < bi < +?, ?d( d i=1 ]ai, bi[) = d i=1 (bi ? ai). On appelle ?d la mesure de Lebesgue sur Rd. 3.5.4. Produit de convolution. Soient µ, ? deux mesures born´ ees sur Rd. On pose, pour f ? B+(Rd), I(f) = f(x + y) dµ ? ?(x, y). On v´ erifie facilement que f ? I(f) satisfait les hypoth` eses de la prop. 3.4.1. Il existe donc une unique mesure sur B(Rd), not´ ee µ ? ? et appel´ ee produit de convolution de µ et ?, telle que f(x) d(µ ? ?)(x) = f(x + y) dµ(x)d?(y), f ? B+ (Rd ). (3.9) Propri´ et´ es. (i) (µ ? ?)(Rd) = µ(Rd)?(Rd), (ii) µ ? ? = ? ? µ, (µ ? ?) ? ? = µ ? (? ? ?), (iii) Si µ = ?.?, ? = ?.? (? mesure de Lebesgue sur Rd), on a µ ? ? = (? ? ?).? avec ? ? ?(x) = ?(x ? y)?(y) dy. (3.10) 3.5.5. On termine ce chapitre par un r´ esultat tr` es utile. On note Ck l?espace des applications continues ` a support compact de Rd dans R et C0 l?espace des applications continues de Rd dans R tendant vers 0 ` a l?infini. On munit C0 de la norme de la convergence uniforme ||f|| = supx |f(x)|. Rappelons qu?une partie H de C0 est totale dans C0 si l?espace vectoriel engendr´ e par H est dense dans (C0, || ||). Proposition 3.5.4. Soient µ, ? deux mesures born´ ees sur B(Rd). On a µ = ? d` es que l?une des conditions suivantes est satisfaite: (i) ? ai, bi ? R, ai < bi, µ(]a1, b1[× . . . ×]ad, bd[) = ?(]a1, b1[× . . . ×]ad, bd[), (ii) ? fi ? C+ k , f1(x1) . . . fd(xd) dµ(x1, . . . , xd) = f1(x1) . . . fd(xd) d?(x1, . . . , xd). (iii) il existe un ensemble H total dans C0 tel que,? f ? H, f dµ = f d?. Preuve: Supposons (i) et soit C = {A ? B(Rd), A =]a1, b1[× . . . ×]ad, bd[}. C est stable par intersection finie et ?(C) = B(Rd). Donc (cor. 3.2.3) µ = ?. Supposons (ii). Puisque, pour tous a < b, 1]a,b[ = lim ? fn avec fn ? C+ k , (ii) implique (i) (convergence monotone) et le r´ esultat cherch´ e. Supposons (iii) et soit V = e.v.[H]. On a, pour toute f ? V , f dµ = f d?. Soient f ? C0 et fn ? V tendant vers f dans (C0, || ||). Vu que | fn dµ ? f dµ| ? ||fn ?f|| µ(Rd), fn dµ ?n f dµ. De m? eme gn d? ?n g d? d?o` u f dµ = f d? pour toute f ? C0. On applique (ii). 35 Pour montrer qu?une partie de C0 est dense, le th´ eor` eme de Stone-Weierstrass est un outil pr´ ecieux. Rappelons qu?une sous-alg` ebre V de C0 est un sous-espace vectoriel tel que f, g ? V implique fg ? V . Alors: Th´ eor` eme 3.5.5. Soit A une sous-alg` ebre de C0 v´ erifiant (i) pour tous x, y ? Rd, x = y, il existe f ? A telle que f(x) = f(y), (ii) pour tout x ? Rd, il existe f ? A telle que f(x) = 0, alors A = C0. Notant C? k l?espace des fonctions ind´ efiniment d´ erivables ` a support compact sur Rd, on a: Corollaire 3.5.6. C? k est dense dans C0. Preuve: Soit, pour t ? R, ?(t) = 1]0,+?[(t) exp(? 1 t2 ). On v´ erifie facilement que ? ? C?(R). On pose, pour ? > 0, a ? Rd et x ? Rd, f?,a(x) = ?(?2 ? |x ? a|2). On a f?,a ? C? k , f?,a(a) > 0, f?,a(x) = 0 si |x ? a| > ?. On peut alors appliquer le th. 3.5.5 36 Mesure. Int´ egration Chapitre 4 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires 4.1. Espace de probabilit´ e 4.1.1. On peut maintenant aborder le cas g´ en´ eral. D´ efinition 4.1.1. On appelle espace de probabilit´ e un triplet (?, A, P) o` u (?, A) est un espace mesurable et P une probabilit´ e sur A. Les ´ el´ ements de A s?appellent des ´ ev´ enements. Pour des ´ ev´ enements A et B, on ´ ecrira indiff´ eremment A ? B ou AB. Premi` eres propri´ et´ es. An, A, B ´ etant des ´ ev´ enements, (i) P(Ac) = 1 ? P(A); si A ? B, P(A) ? P(B), (ii) P(A ? B) = P(A) + P(B) ? P(A ? B), (iii) si An ? A, P(An) ? P(A), (iv) si An ? A, P(An) ? P(A), (v) P(?An) ? P(An). Rappelons qu?un sous-ensemble B de ? est dit n´ egligeable si B ? A ? A tel que P(A) = 0. Une propri´ et´ e d´ ependant de ? est vraie presque s? urement, en abr´ eg´ e p.s., si elle est vraie en dehors d?un ensemble n´ egligeable. Notons qu?un ensemble n´ egligeable n?est pas toujours un ´ ev´ enement sauf si l?espace (?, A, P) est complet. On peut cependant toujours se ramener ` a ce cas. Voir ` a ce sujet 3.2.2. 4.1.2. Probabilit´ e conditionnelle. Toutes les d´ efinitions et r´ esultats de la section 1.3 restent valables en supposant que tous les ensembles consid´ er´ es sont des ´ ev´ enements i.e. sont des ´ el´ ements de A. En particulier la d´ efinition de n ´ ev´ enements ind´ ependants (def. 1.3.5) est inchang´ ee. On dit alors que des ´ ev´ enements (An)n?N sont ind´ ependants si, pour tout r, A1, . . . , Ar sont ind´ ependants. 38 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires 4.1.3. Lemme de Borel-Cantelli. On appelle traditionnellement ainsi le point (i) de la proposition suivante; (ii) s?appelant la r´ eciproque du lemme de Borel-Cantelli. Etant donn´ e une suite (An, n ? N) d?´ ev´ enements, on pose: lim sup An = ?n ?k?n Ak = lim ?n ?k?nAk. On a donc lim sup An = {?, ? ? An pour une infinit´ e de n} = { n 1An = +?} et 1lim sup An = lim sup 1An , ce qui justifie la d´ enomination. Proposition 4.1.2. Soit (An, n ? 0) une suite d?´ ev´ enements. (i) Si n P(An) < +?, P(lim sup An) = 0. (ii) Si les An sont ind´ ependants et si n P(An) = +?, P(lim sup An) = 1. Preuve: (i) On a P(lim sup An) = lim ?n P(?k?nAk) ? lim ?n ? k=n P(Ak) = 0. (ii) Vu l?in´ egalit´ e 1 ? u ? e?u et l?ind´ ependance des Ac n, on a P(?m k=nAc k) = m k=n P(Ac k) = m k=n (1 ? P(Ak)) ? exp(? m k=n P(Ak)) donc P(?? k=nAc k) = lim ?m P(?m k=nAc k) = 0 si P(An) = +?. Passant au compl´ ementaire, on a P(?? k=nAk) = 1 et P(lim sup An) = 1. 4.2. Variables al´ eatoires 4.2.1. Soient (?, A, P) un espace de probabilit´ e et (E, E) un espace mesurable. D´ efinition 4.2.1. On appelle variable al´ eatoire (en abr´ eg´ e v.a.) ` a valeurs (E, E) toute application mesurable de (?, A) dans (E, E). Si E est d´ enombrable et E = P(E), on parle de v.a. discr` ete, si E = R+ et E = B(R+), on parle de v.a. positive, si E = R et E = B(R), on parle de v.a. r´ eelle (v.a.r.), si E = Rd et E = B(Rd), on parle de v.a. vectorielle, si E = C et E = B(C), on parle de v.a. complexe. 4.2.2. Loi d?une v.a.. Soient X une v.a. ` a valeurs (E, E) et ? ? E. Rappelons qu?on note {X ? ?} = {?, X(?) ? ?} = X?1 (?). 39 On pose alors: µX (?) = P(X ? ?), ? ? E. (4.1) Evidemment µX (?) ? 1 et µX (E) = 1. Soient ?n ? E des ensembles deux ` a deux disjoints. Vu que X?1 (?m ? ?n) = X?1 (?m) ? X?1 (?n), X?1 (?n?n) = ?nX?1 (?n), les ensembles X?1(?n) sont deux ` a deux disjoints d?union X?1(?n?n). On a donc µX (?n?n) = P(X?1 (?n?n)) = n P(X?1 (?n)) = n µX (?n). Ceci montre que µX est une probabilit´ e sur (E, E). D´ efinition 4.2.2. Soit X une v.a. ` a valeurs (E, E). La probabilit´ e µX d´ efinie par (4.1) s?appelle la loi de X. 4.2.3. Esp´ erance. D´ efinition 4.2.3. (i) Soit X une v.a. positive. On appelle esp´ erance de X et on note E(X) la quantit´ e X dP. (ii) Soit X une v.a. complexe telle que E(|X|) < +?. On appelle esp´ erance de X et on note E(X) la quantit´ e X dP. Vu (3.3), on a pour toute v.a. positive X, E(X) = lim ? n2n?1 k=0 k 2n P( k 2n ? X < k + 1 2n ) + nP(X ? n). (4.2) Plus g´ en´ eralement, soient X une v.a. ` a valeurs (E, E) et f : E ? R E-mesurable, alors f(X) est une v.a. r´ eelle et on peut consid´ erer E(f(X)) si f ? 0 ou si E(|f(X)|) < +?. Alors, Th´ eor` eme 4.2.4. Soit X une v.a. ` a valeurs (E, E) de loi µX, on a, pour toute f ? E+ ? L1 (E, E, µX ), E(f(X)) = f dµX . (4.3) Preuve: Si f = 1?, c?est la d´ efinition de µX . Donc (4.3) est vraie pour f ´ etag´ ee puis (limite croissante) pour f ? E+. Enfin, pour f ? L1(E, E, µX ), il suffit d?´ ecrire f = f+ ? f?. Exemples. Il y a deux situations fondamentales. (i) X est discr` ete i.e. E est d´ enombrable. La loi µX est alors d´ etermin´ ee par la famille (µX (a), a ? E) o` u µX (a) := µX ({a}) = P(X = a) et l?on a pour toute f ? 0, E(f(X)) = a?E f(a)µX (a). (4.4) 40 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires (ii) X est vectorielle i.e. ` a valeurs Rd et µX = hX .?, ? ´ etant la mesure de Lebesgue sur Rd (3.5.3). On dit alors que X est une v.a. de densit´ e hX . Dans ce cas, on a, pour toute f ? B+ (Rd ), E(f(X)) = fhX d?. (4.5) 4.2.4. Moments. Dans la suite Lp d´ esigne Lp(?, A, P). On ne distinguera pas deux v.a.r. ´ egales p.s. ce qui fait qu?on d´ esigne par X aussi bien la v.a. X que sa classe d?´ equivalence dans L0. En particulier on ´ ecrira indiff´ eremment X ? Lp aussi bien que X ? Lp. Notons que, si 1 ? q ? p, Lp ? Lq puisque |X|q ? 1 + |X|p. En fait, d?apr` es (3.7), on a le r´ esultat plus pr´ ecis: {E(|X|q )}1/q ? {E(|X|p )}1/p , q ? p. D´ efinition 4.2.5. Soit X une v.a.r. Pour p ? [1, +?[, E|X|p s?appelle moment absolu d?ordre p de X; pour p ? N?, si X ? Lp, E(Xp) s?appelle moment d?ordre p de X. Notons que, d?apr` es (4.3), E(|X|p) = |x|p dµX (x), E(Xp) = xp dµX (x). Les deux moments les plus importants sont le moment d?ordre 1 qui n?est rien d?autre que l?esp´ erance de X (on dit aussi la moyenne de X) et le moment d?ordre 2. On pose, pour X ? L2, Var(X) = E[(X ? E(X))2 ] (4.6) qu?on appelle la variance de X. On a Var(X) = E(X2) ? (E(X))2 et: Lemme 4.2.6. Si Y ? L2, E[(Y ? a)2] est minimum pour a = E(Y ) et ce minimum vaut Var(Y ). Preuve: En effet, si m = E(Y ), E[(Y ? a)2] = E[(Y ? m)2] + (m ? a)2. On note aussi ?2 X pour Var(X), la racine carr´ ee positive de Var(X) s?appelle l?´ ecart type et se note ?X . Une v.a. X ? L1 est dite centr´ ee si E(X) = 0. Une v.a. X ? L2 est dite centr´ ee r´ eduite si E(X) = 0 et E(X2) = Var(X) = 1. Noter que, si X ? L2 et ?X > 0, ??1 X (X ? E(X)) est centr´ ee r´ eduite. Proposition 4.2.7. (i) Soit X ? Lp, p ? 1. On a, pour tout ? > 0, P(|X| ? ?) ? 1 ?p E|X|p . (ii) Soit X ? L2. On a, pour tout ? > 0, P(|X ? E(X)| ? ?) ? 1 ?2 Var(X). Preuve: (i) On remarque que ?p1{|X|??} ? |X|p et on prend l?esp´ erance. (ii) On applique (i) ` a |X ? E(X)|. La premi` ere de ces in´ egalit´ es s?appellent l?in´ egalit´ e de Markov, la seconde l?in´ egalit´ e de Bienaym´ e-Tchebichev. Montrons maintenant l?in´ egalit´ e de Jensen. 41 Proposition 4.2.8. Soient X une v.a.r. et f une application convexe de R dans R. On suppose X et f(X) int´ egrables. Alors f(E(X)) ? E(f(X)). Preuve: Soit m = E(X). La fonction f ´ etant convexe, il existe une droite passant par (m, f(m)) et situ´ ee sous le graphe de f i.e. une fonction affine ?(x) = a(x?m)+ f(m) ? f(x) pour tout x ? R. On a donc a(X ? m) + f(m) ? f(X) et, prenant l?esp´ erance, f(m) ? E(f(X)). Corollaire 4.2.9. Soient µ une probabilit´ e sur R, f une application convexe de R dans R et g ? [B(R)]. On suppose g et f ? g µ-int´ egrables. Alors f( g(x) dµ(x)) ? f(g(x)) dµ(x). Preuve: On choisit ? = R, A = B(R), P = µ, X = g et on applique la prop. 4.2.8. 4.3. Probabilit´ es sur R 4.3.1. On a vu en 2.2 des exemples de lois discr` etes sur R. On consid` ere maintenant quelques lois ` a densit´ es. Une application bor´ elienne q de Rd dans R est une densit´ e de probabilit´ e si: q(x) ? 0, Rd q(x) dx = 1. (4.7) On dit alors qu?une v.a. ` a valeurs Rd X a pour densit´ e q(x) si la loi de X est de densit´ e q par rapport ` a la mesure de Lebesgue sur Rd ce qu?on ´ ecrit µX = q.?. Dans cette section, on suppose d = 1. a. Loi uniforme sur [a, b] not´ ee U(a, b), a, b ? R. C?est la loi sur R de densit´ e q(x) = 1 b ? a 1[a,b](x). (4.8) Si X ? U(a, b), E(X) = a+b 2 , Var(X) = (b?a)2 12 . b. Loi de Cauchy de param` etre a > 0. C?est la loi de densit´ e qa(x) = 1 ?(1 + (x ? a)2) . (4.9) Noter que, si X suit une loi de Cauchy, E(|X|) = +?. c. Loi de Laplace. C?est la loi de densit´ e q(x) = 1 2 e?|x| . (4.10) Noter que, si X suit une loi de Laplace, E(X) = 0, E(X2) = 2. 42 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires d. Loi gamma de param` etres a, c, a > 0, c > 0, not´ ee G(a, c). Rappelons que la fonction ?(a) = +? 0 e?x xa?1 dx (4.11) est d´ efinie pour tout a > 0 et que l?on a ?(1) = 1, ?(a + 1) = a?(a) (int´ egrer par parties) d?o` u ?(n) = (n ? 1)!. Donc qa,c(x) = ca ?(a) e?cx xa?1 1R+ (x) (4.12) est une densit´ e de probabilit´ e sur R. La loi de densit´ e qa,c s?appelle la loi G(a, c). On a, si X ? G(a, c), E(X) = a/c, Var(X) = a/c2. En particulier, pour a = 1, on obtient la loi G(1, c) de densit´ e ce?cx qu?on appelle loi exponentielle de param` etre c. e. Loi normale ou de Gauss N1(m, ?2). On appelle loi N1(m, ?2) la loi sur R de densit´ e fm,?2 (x) = 1 ? 2??2 e? (x?m)2 2?2 . (4.13) Si X ? N1(m, ?2), E(X) = m, Var(X) = ?2. Noter que si X ? N1(0, 1), m + ?X ? N1(m, ?2). 4.3.2. Fonction de r´ epartition. On a vu en 3.2.3 que, si µ est une probabilit´ e sur R, la fonction F(t) = µ(] ? ?, t]) est croissante de 0 ` a 1 et continue ` a droite et que, r´ eciproquement, si une fonction F a ces propri´ et´ es, il existe une probabilit´ e µ sur R, unique, telle que F(t) = µ(]??, t]). La fonction F s?appelle la fonction de r´ epartition de µ. D´ efinition 4.3.1. Soit X une v.a. r´ eelle de loi µX . On appelle fonction de r´ epartition de X la fonction FX (t) = P(X ? t) = µX (] ? ?, t]). Il r´ esulte du rappel que FX cro? ?t de 0 ` a 1 et est continue ` a droite. Elle a donc une limite ` a gauche en tout point not´ ee FX (x?). De plus, on a P(a < X ? b) = P(X ? b) ? P(X ? a) = FX (b) ? FX (a). En particulier P(a ? ? < X ? a) = FX (a) ? FX (a ? ?) d?o` u, lorsque ? ? 0, µX ({a}) = P(X = a) = FX (a) ? FX (a?). Etant donn´ ee une fonction de r´ epartition F, on pose, pour u ? [0, 1], F?1 (u) = inf(t, F(t) ? u). (4.14) Proposition 4.3.2. Soit µ une probabilit´ e sur R de fonction de r´ epartition F et U une v.a.r. de loi uniforme sur [0, 1]. Alors F?1(U) est une v.a. de loi µ. 43 Preuve: Consid´ erons, pour u ? [0, 1] fix´ e, I(u) = {t, F(t) ? u). Puisque F est croissante, c?est un intervalle de la forme [F?1(u), +?[ ou ]F?1(u), +?[. Soit tn ? F?1(u). Alors F(tn) ? u et (continuit´ e ` a droite) F(F?1(u)) ? u i.e. F?1(u) ? I(u) = [F?1(u), +?[. On a donc {u ? F(t)} ? {t ? F?1 (u)}. (4.15) Finalement P(F?1 (U) ? t) = P(U ? F(t)) = F(t). En conclusion, X = F?1(U) a pour fonction de r´ epartition F i.e. a pour loi µ. 4.4. Variables al´ eatoires ind´ ependantes 4.4.1. Dans cette sous-section, X1, . . . , Xn d´ esignent des v.a. ` a valeurs (E1, E1), . . . , (En, En). D´ efinition 4.4.1. Les v.a. X1, . . . , Xn sont dites ind´ ependantes si: pour tous ?k ? Ek, P(X1 ? ?1, . . . , Xn ? ?n) = P(X1 ? ?1) . . . P(Xn ? ?n). (4.16) La suite (Xn, n ? N) est dite ind´ ependante si, pour tout n, les v.a. X1, . . . , Xn sont ind´ ependantes. Supposons n = 2. On peut consid´ erer (X1, X2) comme une v.a. ` a valeurs (E1 × E2, E1 ? E2). Sa loi est alors d´ efinie par µ(X1,X2) (?1 × ?2) = P(X1 ? ?1, X2 ? ?2). Il r´ esulte donc du th. 3.5.1 que X1 et X2 sont ind´ ependantes ssi µ(X1,X2) = µX1 ?µX2 . Il en est de m? eme pour n quelconque et on peut ´ enoncer: Proposition 4.4.2. Les v.a. X1, . . . , Xn sont ind´ ependantes ssi µ(X1,...,Xn) = µX1 ? . . . ? µXn . Le r´ esultat suivant, un peu technique, est tr` es utile. Proposition 4.4.3. Soit Ck ? Ek une classe contenant Ek, stable par intersection finie, et telle que ?(Ck) = Ek, k = 1, . . . , n. Si pour tous ?k ? Ck, P(X1 ? ?1, . . . , Xn ? ?n) = P(X1 ? ?1) . . . P(Xn ? ?n), les v.a. X1, . . . , Xn sont ind´ ependantes. Preuve: Soit C = {?, ? = ?1 ×. . .×?n, ?k ? Ck}. Alors C est stable par intersection finie et ?(C) = E1 ? . . . ? En (en effet E1 × . . . × Ek?1 × ?k × Ek+1 × . . . × En ? C si ?k ? Ck et donc E1 × . . . × Ek?1 × ?k × Ek+1 × . . . × En ? ?(C) si ?k ? Ek). Par hypoth` ese, pour tout ? ? C, µ(X1,...,Xn) (?) = µX1 ? . . . ? µXn (?). Donc (prop. 3.2.2) µ(X1,...,Xn) = µX1 ? . . . ? µXN et les v.a.X1, . . . , Xn sont ind´ ependantes. 44 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires Th´ eor` eme 4.4.4. Les v.a. X1, . . . , Xn sont ind´ ependantes ssi, pour toutes fi ? E+ i , E(f1(X1) . . . fn(Xn)) = E(f1(X1)) . . . E(fn(Xn)). (4.17) Dans ce cas, si, pour k = 1, 2, . . . , n, E(|fk(Xk)|) < +?, on a E(|f1(X1) . . . fn(Xn)|) < +? et (4.17) est satisfaite. Preuve: On suppose n = 2. (i) Si on a (4.17), il suffit de choisir f1 = 1?1 , f2 = 1?2 pour avoir l?ind´ ependance de X1 et X2. (ii) Supposons X1 et X2 ind´ ependantes. On a, pour fk ? E+ k , k = 1, 2, E(f1(X1)f2(X2)) = f1(x1)f2(x2) dµ(X1,X2) (x1, x2) = f1(x1)f2(x2) dµX1 (x1)dµX2 (x2) = f1(x1) dµX1 (x1) f2(x2) dµX2 (x2) = E(f1(X1))E(f2(X2)). Enfin si E(|fk(Xk)|) < +?, k = 1, 2, E(|f1(X1)f2(X2)|) = E(|f1(X1)|)E(|f2(X2)|) < +? et le calcul ci-dessus reste valable. On en d´ eduit facilement, comme en 2.2.6, que, si les v.a. X1, X2, . . . , Xn sont ind´ ependantes: a. Pour toute permutation {r1, . . . , rn} de {1, . . . , n}, les v.a. Xr(1), . . . , Xr(n) sont ind´ ependantes. b. Pour toutes gk ? [Ek], les v.a. g1(X1), . . . , gn(Xn) sont ind´ ependantes. c. Posant Y1 = (X1, . . . , Xr1 ), Y2 = (Xr1+1, . . . , Xr2 ), . . . , Yp = (Xrp?1+1, . . . , Xrp ), les v.a. Y1, . . . , Yp sont ind´ ependantes. 4.4.2. On s?int´ eresse plus particuli` erement aux v.a. r´ eelles. Les prop. 4.4.2 et 3.5.4 impliquent imm´ ediatement: Proposition 4.4.5. Soient X1, . . . , Xn des v.a. r´ eelles. Il y a ´ equivalence entre: (i) Les v.a. X1, . . . , Xn sont ind´ ependantes, (ii) ? ai < bi, P(ai < Xi < bi, i = 1, . . . , n) = n i=1 P(ai < Xi < bi), (iii) ? fi ? C+ k , E(f1(X1) . . . fn(Xn)) = E(f1(X1)) . . . E(fn(Xn)). 4.4.3. Covariance. Soient X et Y deux v.a.r. r´ eelles de carr´ e int´ egrable. On appelle covariance de X et Y et on note Cov(X, Y ) la quantit´ e Cov(X, Y ) = E[(X ? E(X))(Y ? E(Y ))] = E(XY ) ? E(X)E(Y ). (4.18) 45 Propri´ et´ es. (i) Cov(X,X)=Var(X). Pour tous a, b ? R, Cov(X + a, Y + b) = Cov(X, Y ). (ii) Si les v.a. X et Y sont ind´ ependantes, Cov(X, Y ) = 0. (iii) (X, Y ) ? Cov(X, Y ) est une forme bilin´ eaire sym´ etrique. En particulier, vu (i), Var( n k=1 Xk) = n k=1 Var(Xk) + 2 1?j<k?n Cov(Xj, Xk). Remarque. Cov(X, Y ) = 0 n?implique pas l?ind´ ependance de X et Y . Par exemple si la loi du couple (X, Y ) est donn´ ee par: P((X, Y ) = (1, 0)) = P((X, Y ) = (?1, 0)) = P((X, Y ) = (0, 1)) = P((X, Y ) = (0, ?1)) = 1 4 , on a E(X) = E(Y ) = E(XY ) = Cov(X, Y ) = 0 et P(X = 1, Y = 0) = 1 4 = P(X = 1)P(Y = 0) = 1 8 . 4.4.4. Coefficient de corr´ elation. Soient X et Y deux v.a. r´ eelles de carr´ e int´ egrable non p.s. constantes (donc Var(X) > 0, Var(Y ) > 0). On appelle coefficient de corr´ elation de X et Y et on note ?(X, Y ) la quantit´ e ?(X, Y ) = Cov(X, Y ) Var(X)Var(Y ) . (4.19) Noter que (in´ egalit´ e de Schwarz) |?(X, Y )| ? 1, que ?(X, Y ) = ?(Y, X) et que ?(X, Y ) = 0 si X et Y sont ind´ ependantes. De plus Proposition 4.4.6. Soit X et Y deux v.a.r. de carr´ e int´ egrable non p.s. constantes. Alors ?(a, b) = E(Y ? aX ? b)2 est minimum pour ? a = Cov(X, Y ) Var(X) , ? b = E(Y ) ? ? a E(X) et ce minimum vaut Var(Y )(1 ? ?2(X, Y )). Preuve: Posant ? X = X ? E(X), ? Y = Y ? E(Y ), ? b = b ? E(Y ) + a E(X), on a ?(a, b) = E[( ? Y ? a ? X ? ? b)2 ] = E( ? Y 2 ) + a2 E( ? X2 ) + ? b2 ? 2a E( ? X ? Y ) = Var(X)(a ? Cov(X, Y ) Var(X) )2 + ? b2 + Var(Y ) ? Cov2 (X, Y ) Var(X) . Donc ?(a, b) est minimum pour a = Cov(X,Y ) Var(X) = ? a et ? b = 0 i.e. b = ? b = E(Y )?? a E(X) et ce minimum vaut Var(Y ) ? Cov2 (X,Y ) Var(X) = Var(Y )(1 ? ?2(X, Y )). Cette proposition implique que |?(X, Y )| = 1 ssi Y = aX + b p.s. 46 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires 4.5. Vecteurs al´ eatoires 4.5.1. Notations. (i) On note, pour x = (x1, . . . , xd) ? Rd, |x| = (x2 1 + . . . + x2 d)1/2. (ii) On note Lp d = {X = (X1, . . . , Xd), Xk v.a. r´ eelles et E|X|p < +?}. (iii) Si X ? L1 d, on note E(X) = (E(X1), . . . , E(Xd)). 4.5.2. On appelle vecteur al´ eatoire toute v.a. ` a valeurs Rd. On remarque d?abord que X = (X1, . . . , Xd) est un vecteur al´ eatoire ssi, pour k = 1, . . . , d, Xk est une v.a.r. Soit X = (X1, . . . , Xd) un vecteur al´ eatoire. Les lois µX1 , . . . , µXd s?appellent les lois marginales de X. Proposition 4.5.1. Soit X un vecteur al´ eatoire de densit´ e q. Alors Xk a pour densit´ e qk(u) = q(x1, . . . , xk?1, u, xk+1, . . . , xd) dx1 . . . dxk?1dxk+1 . . . dxd. Preuve: On suppose d = 2. Alors, pour ? ? B+(R), E(?(X1)) = ?(x1)q(x1, x2) dx1dx2 = ?(x1){ q(x1, x2) dx2}dx1. On sait (th. 4.4.2) que les composantes X1, . . . , Xd sont ind´ ependantes ssi µX = µX1 ? . . . ? µXd . On en d´ eduit imm´ ediatement: Proposition 4.5.2. Soit X = (X1, . . . , Xd) un vecteur al´ eatoire de densit´ e q. Les composantes X1, . . . , Xd sont ind´ ependantes ssi q(x1, . . . , xd) = q1(x1) . . . qd(xd) p.p. o` u qk est la densit´ e de Xk. En fait pour montrer l?ind´ ependance de X1, . . . , Xd, on utilise plut? ot: Corollaire 4.5.3. Soit X = (X1, . . . , Xd) un vecteur al´ eatoire de densit´ e q. Les composantes X1, . . . , Xd sont ind´ ependantes ssi q(x1, . . . , xd) = g1(x1) . . . gd(xd) p.p. et alors Xk a pour densit´ e qk(u) = gk(u)/ R gk(v) dv. Preuve: (d = 2) On suppose que q(x1, x2) = g1(x1)g2(x2). La densit´ e q1 de X1 est donc q1(x1) = g1(x1)g2(x2) dx2 = a1g1(x1), a1 = g2(x2) dx2. De m? eme q2(x2) = a2g2(x2), a2 = g1(x1) dx1. Mais 1 = q(x1, x2) dx1dx2 = g1(x1)g2(x2) dx1dx2 = g1(x1) dx1 g2(x2) dx2 = a1a2. 47 On conclut facilement. 4.5.3. Matrice de covariance (ou de dispersion). On note MT la matrice transpos´ ee de la matrice M. Alors on peut repr´ esenter x ? Rd par un vecteur colonne i.e. une matrice d × 1 et on ´ ecrira indiff´ eremment x = (x1, . . . , xd) ou x = (x1 . . . xd)T. Pour x = (x1 . . . xd)T et y = (y1 . . . yd)T, on a xTy = x1y1 + . . . + xdyd =< x, y > et xyT est la matrice de terme g´ en´ eral xiyj. Pour X ? L2 d, on d´ efinit: K(X) = E[(X ? E(X))(X ? E(X))T ] = E(XXT ) ? E(X)[E(X)]T . (4.20) K(X) s?appelle la matrice de covariance ou la matrice de dispersion de X. On a K(X) = ? ? ? ? ? ? ? ? Var(X1) Cov(X1, X2) . . . . . . . . . Cov(X1, Xd) Cov(X2, X1) Var(X2) . . . . . . . . . Cov(X2, Xd) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cov(Xd, X1) . . . . . . . . . . . . Var(Xd) ? ? ? ? ? ? ? ? . Noter que, si les composantes X1, . . . , Xd sont ind´ ependantes, K(X) est diagonale. Proposition 4.5.4. Soit X ? L2 d. On a (i) K(?X) = ?2K(X), ? ? R; K(X + a) = K(X), a ? Rd; KT(X) = K(X). (ii) Pour tout ? ? Rd, ?TK(X)? ? 0. (iii) Soit M une matrice d´ eterministe r × d, on a K(MX) = MK(X)MT. Preuve: (i) r´ esulte de la d´ efinition (4.20). (ii) Vu (i), on peut supposer E(X) = 0. Alors ?T K(X)? = ?T E(XXT )? = E(?T XXT ?) = E|?T X|2 ? 0. (iii) Vu (i), on peut supposer E(X) = 0. Alors K(MX) = E(MX(MX)T ) = E(MXXT MT ) = ME(XXT )MT = MK(X)MT . Les points (i) et (ii) montrent que K(X) est sym´ etrique semi-d´ efinie positive. Th´ eor` eme 4.5.5. Soient X, Y ? L2 d des vecteurs al´ eatoires ind´ ependants, on a K(X +Y ) = K(X)+K(Y ). En particulier, si d = 1, Var(X +Y ) = Var(X)+Var(Y ) si les v.a.r. X et Y sont ind´ ependantes. Preuve: On peut supposer E(X) = E(Y ) = 0. Alors K(X + Y ) = E((X + Y )(X + Y )T) = E(XXT) + E(Y Y T) puisque, vu l?ind´ ependance, E(XY T) = E(X)E(Y T) = 0 et de m? eme E(Y XT) = 0. 4.5.4. La matrice de dispersion donne des renseignements sur le support de la loi de X. 48 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires Proposition 4.5.6. Soit X ? L2 d. On a P(X ? E(X) ? Im K(X)) = 1. Preuve: Comme toujours on peut supposer E(X) = 0. Soit V = Im K(X). Si dim(V ) = d, il n?y a rien ` a montrer. Supposons dim(V ) = r < d. Il existe a1, . . . , ad?r ? Ker(X) tels que x ? V ssi aT kx = 0, k = 1, . . . , d ? r (pour voir cela il suffit de se placer dans une base o` u K(X) est diagonale). On a alors, vu la prop. 4.5.4, E(aT kX)2 = Var(aT kX) = K(aT kX) = aT kK(X)ak = 0 d?o` u aT kX = 0 p.s. et X ? V p.s. 4.6. Calcul de lois Soit X une v.a. ` a valeurs Rd. Une probabilit´ e µ sur Rd est la loi de X ssi, pour toute f ? B(Rd), E(f(X)) = f dµ, soit encore, compte tenu de la prop. 3.5.4 et du cor. 3.5.6, ssi: pour toute f positive de C? k , E(f(X)) = f dµ. (4.21) 4.6.1. Commen¸ cons par deux exemples ´ el´ ementaires. Exemple 1. Soit X une v.a.r. de densit´ e (loi de Cauchy) q(x) = 1 ?(1+x2) . On pose Y = eX. Quelle est la loi de Y ? Soit f ? C+ k arbitraire, on a, posant y = ex, E(f(Y )) = E(f(eX )) = +? ?? f(ex ) dx ?(1 + x2) = +? 0 f(y) dy ?y(1 + (log y)2) . Donc (4.21) Y a pour densit´ e 1 ?y(1+(log y)2) 1R+ (y). Exemple 2. Soit X une v.a.r. de densit´ e N1(0, 1). On pose Z = X2. Quelle est la loi de Z ? De m? eme, pour f ? C+ k arbitraire, E(f(Z)) = E(f(X2 )) = 1 ? 2? +? ?? f(x2 )e?x2/2 dx. L?application x ? x2 n?´ etant pas une bijection de R sur R+, on ne peut pas poser brutalement z = x2, mais on a E(f(Z)) = E(f(X2 )) = 2 ? 2? +? 0 f(x2 )e?x2/2 dx = 1 ? 2? +? 0 f(z)e?z/2 dz ? z . Donc (4.21) Z a pour densit´ e 1 ? 2? e?z/2z?1/21R+ (z) i.e. Z ? G(1 2 , 1 2 ). 4.6.2. Rappelons la formule de changement de variables dans Rd. Si ? est un diff´ eomorphisme de l?ouvert U sur l?ouvert V , on a, pour toute f ? B+(Rd), V f(v) dv = U f(?(u))|J(?)(u)| du. (4.22) 49 o` u J(?) est le d´ eterminant de la matrice des ??j ?uk . Rappelons ´ egalement que J(?)(u) = {J(??1)(?(u))}?1. Il en r´ esulte: Proposition 4.6.1. Soit X un vecteur al´ eatoire de densit´ e h. On suppose que X ? D p.s., D ouvert de Rd. Soient ? un diff´ eomorphisme de D sur un ouvert ? et Y = ?(X), alors Y a pour densit´ e h(??1 (y))|J(??1 )(y)|1?(y). Preuve: On a, pour toute f ? B+(Rd), E(f(Y )) = E(f(?(X))) = D f(?(x))h(x) dx = ? f(y)h(??1 (y))|J(??1 )(y)| dy. Une premi` ere cons´ equence de (4.22) est la suivante (voir aussi 5.1.1): Proposition 4.6.2. Soient X et Y deux v.a. ` a valeurs Rd, ind´ ependantes, de densit´ e respectives f et g. Alors la v.a. S = X + Y a pour densit´ e h = f ? g d´ efinie par h(u) = f(v)g(u ? v) dv. Preuve: On a, pour toute ? ? C+ k , E(?(S)) = ?(x+y)f(x)g(y) dxdy = ?(u)f(v)g(u?v) dudv = ?(u)h(u) du. Application. Soient X et Y des v.a.r. ind´ ependantes de m? eme loi la loi uniforme sur [0, 1]. Quelle est la loi de S = X + Y ? Soit h la densit´ e de S. On a (attention aux fonctions indicatrices): h(u) = 1[0,1](v)1[0,1](u ? v) dv = 1 0 1[0,1](u ? v) dv = 1 0 1[u?1,u](v) dv. Si 0 ? u ? 1, h(u) = u 0 dv = u, si 1 ? u ? 2, h(u) = 1 u?1 dv = 2 ? u et ´ evidemment h(u) = 0 si u / ? [0, 2]. 4.6.3. Exemple 3. Soient X et Y des v.a.r. ind´ ependantes de lois respectives G(a, c) et G(b, c) (4.12), a, b, c > 0 . On pose S = X + Y , T = X X+Y . On veut calculer la loi du couple (S, T). Vu l?ind´ ependance, le couple (X, Y ) a pour densit´ e hX,Y (x, y) = ca+b ?(a)?(b) e?c(x+y) xa?1 yb?1 1]0,+?[(x)1]0,+?[(y). Soit ? l?application (x, y) ? (s = x + y, t = x x+y ). ? est un diff´ eomorphisme de ]0, +?[×]0, +?[ sur ]0, +?[×]0, 1[. De plus J(??1)(s, t) = ?s. La densit´ e de (S, T) est donc (prop.4.6.1) hS,T (s, t) = ca+b ?(a)?(b) e?cs sa+b?1 ta?1 (1 ? t)b?1 1]0,+?[(s)1]0,1[(t). 50 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires Le cor.4.5.3 montre que S et T sont ind´ ependantes, que S a pour densit´ e hS(s) = ca+b ?(a + b) e?cs sa+b?1 1]0,+?[(s) i.e. S ? G(a + b, c) et que T a pour densit´ e hT (t) = ?(a + b) ?(a)?(b) ta?1 (1 ? t)b?1 1]0,1[(t). Puisque hT est une densit´ e de probabilit´ e, on a montr´ e au passage la formule 1 0 ta?1 (1 ? t)b?1 dt = ?(a)?(b) ?(a + b) . (4.23) 4.6.4. L?exemple suivant sera tr` es utile pour simuler des v.a.r. gaussiennes. Proposition 4.6.3. Soient (X, Y ) un couple de v.a.r. ind´ ependantes de m? eme loi U(0, 1). On pose U = ? ?2 log X. cos(2?Y ), V = ? ?2 log X. sin(2?Y ). Alors les v.a. U et V sont ind´ ependantes de m? eme loi N1(0, 1). Preuve: Soit ? : (x, y) ? (u = ? ?2 log x. cos(2?y), v = ? ?2 log x. sin(2?y). ? est un diff´ eomorphisme de D =]0, 1[×]0, 1[ sur ? = R2 \ (R+ × {0}). On a J(?)(x, y) = ?2? x , et, vu que u2 + v2 = ?2 log x, J(??1)(u, v) = ? 1 2? e?(u2+v2)/2. Le couple (X, Y ) a pour densit´ e 1D(x, y). Donc (prop. 4.6.1) (U, V ) = ?(X, Y ) a pour densit´ e 1 2? e?(u2+v2)/2 1?(u, v) = 1 ? 2? e?u2/2 1 ? 2? e?v2/2 p.p. 4.6.5. Exemple 4. Soit (X, Y ) un couple de v.a.r. ind´ ependantes de m? eme loi N1(0, 1). On pose T = Y X (noter que P(X = 0) = 0). Quelle est la loi de T ? Evidemment on ne peut pas appliquer directement la prop. 4.6.1. On choisit d?abord une v.a. U = f(X, Y ) telle qu?on puisse utiliser la prop. 4.6.1 pour obtenir la densit de (T, U) puis on obtient la loi de T comme marginale. Ici on peut choisir U = X. Soit ? : (x, y) ? (t = y/x, u = x). Alors ? est un diff´ eomorphisme de D = R×R? sur ? = R × R?. On a x = u, y = tu, et J(??1)(u, v) = ?u. Le couple (X, Y ) a pour densit´ e 1 2? e?(x2+y2)/21D(x, y). Alors (prop. 4.6.1) (T, U) = ?(X, Y ) a pour densit´ e 1 2? e?u2(1+t2)/2|u|1?(t, u) = 1 2? e?u2(1+t2)/2|u| p.p. Donc T a pour densit´ e q(t) = +? ?? 1 2? e?u2(1+t2)/2 |u| du = 1 ? +? 0 e?u2(1+t2)/2 u du = 1 ?(1 + t2) . La v.a. T suit donc une loi de Cauchy. En fait, il est souvent plus rapide de calculer directement E(f(T)). Ici, par exem- ple, passant en coordonn´ ees polaires, on a: E(f(T)) = 1 2? f( y x )e? 1 2 (x2+y2) ) dxdy = 1 2? 2? 0 ? 0 f(tan ?)e? ?2 2 ? d?d? 51 = 1 ? ? 2 ? ? 2 f(tan ?) d? = 1 ? +? ?? f(t) 1 1 + t2 dz. 4.6.6. Exemple 5. Soit (X, Y ) un couple de v.a.r. ind´ ependantes de m? eme loi N1(0, 1). On pose U = X, V = X2 + Y 2. Quelle est la loi du couple (U, V ) ? L?application (x, y) ? (x, x2 + y2) n?´ etant pas une bijection, on ne peut utiliser la prop. 4.6.1. Soit f ? C+ k (R2) arbitraire. On a E(f(U, V )) = E(f(X, X2 + Y 2 )) = 1 2? R2 f(x, x2 + y2 )e?(x2+y2)/2 dxdy = 1 2? R×R+ . . . + 1 2? R×R? . . . . Consid´ erons l?application (x, y) ? (u = x, v = x2 +y2). C?est d?une part une bijection de R × R+ sur ? = {(u, v), v ? u2 } et alors x = u, y = ? v ? u2 et d?autre part une bijection de R × R? sur ? et dans ce cas x = u, y = ? ? v ? u2. Dans les deux cas, |J| = 1 2 ? v?u2 . On obtient E(f(U, V )) = 1 2? ? f(u, v) e?v/2 ? v ? u2 dudv. Le couple a donc pour densit´ e e?v/2 2? ? v?u2 1?(u, v). 4.6.7. Exemple 6. On ne rencontre pas toujours des v.a. ayant une densit´ e par rapport ` a la mesure de Lebesgue. Soit X une v.a.r. de densit´ e e?x1R+ (x). On pose U = [X], V = X ? [X] o` u [x] d´ esigne la partie enti` ere de x. Quelle est la loi de (U, V ) ? Quelles sont les lois de U et de V ? Les v.a. U et V sont-elles ind´ ependantes ? Soit f ? C+ k (R2) arbitraire. On a E(f(U, V )) = +? 0 f([x], (x ? [x])e?x dx = ? k=0 k+1 k f(k, x ? k)e?x dx = ? k=0 1 0 f(k, t)e?k e?t dt. Si on note ? la mesure sur N d´ efinie par ?({k}) = 1 et ? la mesure de Lebesgue sur [0, 1], ce calcul implique que la loi de (U, V ) est la probabilit´ e e?ke?t.? ? ?. Prenant f(u, v) = ?(u), on a E(?(U)) = ? k=0 ?(k)e?k (1 ? e?1 ) = ? k=0 ?(k)(e?1 )k (1 ? e?1 ) et U suit une loi g´ eom´ etrique de param` etre e?1. Prenant f(u, v) = ?(u), on a E(?(V )) = 1 0 ? k=0 e?k ?(t)e?t dt = 1 0 (1 ? e?1 )?1 ?(t)e?t dt 52 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires et V a pour densit´ e e e?1 e?t1]0,1[(t). Enfin E(?(U)?(V )) = E(?(U)) E(?(V )) et U et V sont ind´ ependantes (th. 4.4.4). 4.6.8. Loi des min et des max. Soient X1, X2, . . . , Xn des v.a. r´ eelles ind´ ependantes de fonction de r´ epartition F1, F2, . . . , Fn. On pose U = min 1?k?n Xk, V = max 1?k?n Xk. D?une part P(V ? t) = P(X1 ? t, . . . , Xn ? t) = n k=1 P(Xk ? t) = n k=1 Fk(t) et V a pour fonction de r´ epartition FV (t) = n k=1 Fk(t). D?autre part P(U > t) = P(X1 > t, . . . , Xn > t) = n k=1 P(Xk > t) = n k=1 (1 ? Fk(t)) et U a pour fonction de r´ epartition FU (t) = 1 ? n k=1(1 ? Fk(t)). Si les Xk ont m? eme loi, pour tout k, Fk(t) = F(t) et FV (t) = (F(t))n , FU (t) = 1 ? (1 ? F(t))n . Si, de plus, les Xk ont une densit´ e, F est d´ erivable et on obtient les densit´ es de U et V en d´ erivant FU (t) et FV (t). 4.7. Conditionnement 4.7.1. Soient A un ´ ev´ enement tel que P(A) > 0 et Y une v.a ` a valeurs Rd. Posons, pour ? ? B(Rd), µY (?|A) = P(Y ? ?|A) = 1 P(A) P(A ? {Y ? ?}). (4.24) Alors, A ´ etant fix´ e, ? ? µY (?|A) est une probabilit´ e sur Rd qu?on appelle loi condi- tionnelle de Y sachant A. De m? eme, pour ? ? L1(µY ), ?(y) dµY (y|A) = E(?(Y )|A) = 1 P(A) A ?(Y ) dP (4.25) s?appelle l?esp´ erance conditionnelle de ?(Y ) sachant A. 4.7.2. Consid´ erons une v.a. ` a valeurs E fini ou d´ enombrable telle que, pour tout a ? E, P(X = a) > 0 et Y une v.a ` a valeurs Rd. Prenant A = {X = a}, on obtient la loi conditionnelle de Y sachant que X = a d´ efinie par µY (?|X = a) = P(Y ? ?|X = a) = 1 P(X = a) P(X = a, Y ? ?) (4.26) 53 et, pour ? ? L1(µY ), l?esp´ erance conditionnelle de ?(Y ) sachant que X = a d´ efinie par E(?(Y )|X = a) = 1 P(X = a) {X=a} ?(Y ) dP. (4.27) 4.7.3. Consid´ erons maintenant une v.a. X ` a valeurs Rp de densit´ e q(x) et Y une v.a ` a valeurs Rd. Les formules (4.26) et (4.27) n?ont plus de sens puisque, pour tout a, P(X = a) = 0. Supposons que (X, Y ) ait une densit´ e continue h(x, y) et que q(x) = h(x, y) dy > 0. Soient B(a, ?) la boule dans Rp de centre a et de rayon ? et |B(a, ?)| son volume. On a, lorsque ? ? 0, P(Y ? ?|X ? B(a, ?)) = P(X ? B(a, ?), Y ? ?) P(X ? B(a, ?)) = B(a,?)×? h(x, y) dxdy B(a,?) q(x) dx = ? |B(a, ?)|?1 B(a,?) h(x, y) dx |B(a, ?)|?1 B(a,?) q(x) dx dy ? ? h(a, y) q(a) dy. Il est donc naturel d?appeler loi conditionnelle de Y sachant que X = a la loi de densit´ e h(a, y)/q(a). Ceci conduit ` a: D´ efinition 4.7.1. Soient (X, Y ) un couple de v.a. ` a valeurs Rp × Rd de densit´ e h(x, y) et q(x) = h(x, y) dy la densit´ e de X. On appelle densit´ e conditionnelle de Y sachant que X = x la fonction h(y | x) = h(x, y) q(x) si q(x) > 0, = densit´ e arbitraire si q(x) = 0. Remarque 1. Noter que P(X ? {q = 0}) = {q=0} q(x) dx = 0. Remarque 2. On voit donc que h(y | x) est le quotient de la densit´ e de (X, Y ) par la densit´ e de X. C?est tout simplement l?analogue de la formule, pour des v.a. enti` eres, P(Y = n | X = p) = P(X = p, Y = n) / P(X = p). La loi de densit´ e h(y | x) s?appelle la loi conditionnelle de Y sachant que X = x et, pour ? ? L1(µY ), E(?(Y )|X = x) := ?(y)h(y | x) dy s?appelle l?esp´ erance conditionnelle de ?(Y ) sachant que X = x. Si d = 1, on peut choisir ?(y) = y, on obtient l?esp´ erance conditionnelle de Y sachant que X = x. L?´ enonc´ e suivant est ` a comparer au lem. 4.2.6. Proposition 4.7.2. Soit (X, Y ) un couple de v.a. ` a valeurs Rp ×R de densit´ e h(x, y) avec Y ? L2. Alors: inf{ E[(Y ? f(X))2 ], f ? L2 (µX ) } = E[(Y ? ? f(X))2 ] o` u ? f(x) = E(Y |X = x). 54 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires Preuve: Pour toute g ? L2(µX ), on a E((Y ? ? f(X))g(X)) = 0. En effet, sur {q(x) > 0}, ? f(x) = 1 q(x) yh(x, y) dy et, vu la remarque 1, E(Y g(X)) = {q>0} yg(x)h(x, y) dxdy = {q>0} g(x)q(x) 1 q(x) yh(x, y) dy dx = {q>0} g(x) ? f(x)q(x) dx = E(g(X) ? f(X)). On en d´ eduit: E[(Y ? f(X))2 ] = E[(Y ? ? f(X) + ? f(X) ? f(X))2 ] = E[(Y ? ? f(X))2 ] + E[( ? f(X) ? f(X))2 ] + 2E[(Y ? ? f(X))( ? f(X) ? f(X))] = E[(Y ? ? f(X))2 ] + E[( ? f(X) ? f(X))2 ] et le r´ esultat cherch´ e. Exemple. Soient Y, Z des v.a.r. ind´ ependantes de m? eme densit´ e ?e??y1R+ (y). On pose X = Y + Z. On veut calculer la loi conditionnelle de Y sachant que X = x et E(Y |X = x). Pour appliquer la def.4.7.1, il faut calculer la densit´ e du couple (X, Y ). On a E(?(X, Y )) = ?2 ? 0 ? 0 ?(y + z)e??(y+z) dydz = ?2 ? 0 x 0 ?(x, y)e??x dxdy et (X, Y ) a pour densit´ e h(x, y) = ?2e??x1{0?y?x}. La densit´ e de X est alors q(x) = ?2 e??x x 0 dy = ?2 xe?x si x > 0; q(x) = 0 si x ? 0. Finalement, pour x > 0 (noter que P(X ? 0) = 0), h(y | x) = h(x, y) q(x) = 1 x 1[0,x](y). La la loi conditionnelle de Y sachant que X = x est donc la loi uniforme sur [0, x] et E(Y |X = x) = yh(y | x) dy = 1 x x 0 y dy = x 2 qui est ´ evidemment la moyenne de la loi U(0, x). 4.8. Simulation Soit µ une probabilit´ e sur Rd. Simuler la loi µ, c?est construire une suite x1, x2, . . . , xn, . . . de points de Rd cens´ es ? etre le r´ esultat de tirages ind´ ependants de points de Rd selon la loi µ i.e. les valeurs prises par une suite X1, X2, . . . , Xn, . . . de v.a. ind´ ependantes de loi µ. 55 4.8.1. Nombres au hasard. En g´ en´ eral, la fonction ?random? d?un ordinateur fournit une suite de nombres entre 0 et 1 cens´ es ? etre le r´ esultat de tirages ind´ ependants selon la loi uniforme sur [0, 1]. Ces nombres sont obtenus par un algorithme qui fournit des nombres ayant les m? emes propri´ et´ es qu?une suite de tirages ind´ ependants selon U(0, 1). A ce sujet, voir la sous-section 6.4.2. Le probl` eme est donc de construire ` a partir d?une suite U1, U2, . . . , Un, . . . de v.a. ind´ ependantes de loi U(0, 1) une suite X1, X2, . . . , Xn, . . . de v.a. ind´ ependantes de loi µ. 4.8.2. Simulation de v.a. r´ eelles. Soit µ une probabilit´ e sur R de fonction de r´ epartition F. On pose F?1(u) = inf(t, F(t) ? u). On sait (prop. 4.3.2) que, si U ? U(0, 1), F?1(U) a pour loi µ. Donc, si (Un, n ? 1) est une suite de v.a. ind´ ependantes de loi U(0, 1), (F?1(Un), n ? 1) est une suite de v.a. ind´ ependantes de loi µ. Exemple. Soit (pk, k = 0, . . . , n) une probabilit´ e sur {0, 1, . . . , n}. Soit F(t) sa fonction de r´ epartition. On pose a0 = 0, a1 = p0, a2 = p0 + p1, . . . , an = p0 + . . . + pn?1, an+1 = 1. On a F(t) = 0 = a0 si t < 0, F(t) = a1 si 0 ? t < 1, F(t) = a2 si 2 ? t < 3, . . . et F?1 (u) = k si ak ? u < ak+1, k = 0, 1, . . . , n. Si µ = f.?, F(t) = t ?? f(x) dx. Il n?est pas toujours (en fait pas souvent) possible de calculer F et F?1. C?est en particulier le cas pour la loi N1(0, 1). 4.8.3. Simulation de v.a. gaussiennes r´ eelles. Soit (Un, n ? 1) une suite de v.a. ind´ ependantes de loi U(0, 1), on pose, pour n ? 1, X2n?1 = ?2 log U2n?1. cos(2?U2n), X2n = ?2 log U2n?1. sin(2?U2n). Alors d?apr` es la prop. 4.6.3, (Xn, n ? 1) est une suite de v.a. ind´ ependantes de loi N1(0, 1). Pour simuler la loi N1(m, ?2), il suffit de remarquer que, si Y ? N1(0, 1), alors X = m + ?Y ? N1(m, ?2). 4.8.4. La m´ ethode de rejet. Soient (Zn, n ? 1) une suite de v.a. ` a valeurs (E, E) et B ? E. On consid` ere ? = inf(n ? 1, Zn ? B) avec la convention inf ? = +?. Alors ?(?) est la premier n tel que Zn(?) ? B et si, pour tout n, Zn(?) / ? B, ?(?) = +?. ? est donc une v.a. ` a valeurs N. Si P(? < +?) = 1, on peut d´ efinir une v.a. Z? par Z?(?) = Zn(?) sur {?, ?(?) = n}. La m´ ethode de rejet repose sur: Proposition 4.8.1. Soient (Zn, n ? 1) une suite de v.a. ind´ ependantes ` a valeurs (E, E) de m? eme loi µ et B ? E avec µ(B) > 0. On pose ?1 = inf(n ? 1, Zn ? B), . . ., ?r = inf(n > ?r?1, Zn ? B), . . .. Alors, pour tout r ? 1, P(?r < +?) = 1 et (Z?r , r ? 1) est une suite de v.a. ind´ ependantes de loi ? donn´ ee par ?(A) = µ(A ? B) µ(B) = P(Z1 ? A | Z1 ? B) 56 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires i.e. ? est donc la loi conditionnelle de Z1 sachant que Z1 ? B. Preuve: Notons d?abord que P(?1 = k) = P(Z1 / ? B, . . . , Zk?1 / ? B, Zk ? B) = (1 ? µ(B))k?1 µ(B) (4.28) d?o` u P(?1 < +?) = k?1 P(?1 = k) = 1. Supposons que P(?r?1 < +?) = 1, alors P(?r < +?) = k?1 P(?r?1 = k, ?r < +?) = j,k?1 P(?r?1 = k, ?r = k + j) = j,k?1 P(?r?1 = k, Zk+1 / ? B, . . . , Zk+j?1 / ? B, Zk+j ? B) = k?1 P(?r?1 = k) j?1 (1 ? µ(B))k?1 µ(B) = k?1 P(?r?1 = k) = P(?r?1 < +?) = 1. De m? eme P(Z?1 ? A) = k?1 P(?1 = k, Zk ? A ? B) = k?1 P(Z1 / ? B, . . . , Zk?1 / ? B, Zk ? A?B) = k?1 (1?µ(B))k?1 µ(A?B) = µ(A ? B) µ(B) . Supposons que P(Z?1 ? A1, . . . , Z?r?1 ? Ar?1) = µ(A1?B) µ(B) . . . µ(Ar?1?B) µ(B) , alors P(Z?1 ? A1, . . . , Z?r?1 ? Ar?1, Z?r ? Ar) = j,k?1 P(Z?1 ? A1, . . . , Z?r?1 ? Ar?1, ?r?1 = k, Zk+1 / ? B, . . . , Zk+j?1 / ? B, Zk+j ? Ar?B) = k?1 P(Z?1 ? A1, . . . , Z?r?1 ? Ar?1, ?r?1 = k) j?1 (1 ? µ(B))j?1 µ(Ar ? B) = P(Z?1 ? A1, . . . , Z?r?1 ? Ar?1) µ(Ar ? B) µ(B) = r i=1 µ(Ai ? B) µ(B) , ce qui montre que les v.a. (Z?k , k ? 1) sont ind´ ependantes et de m? eme loi. En pratique, soit z1, . . . , zn, . . . une suite de tirages ind´ ependants selon la loi µ. On consid` ere z1. Si z1 ? B, on pose x1 = z1, k1 = 1. Sinon, on consid` ere z2. Si z2 ? B, on pose x1 = z2, k1 = 2. Sinon, on consid` ere z3. Si z3 ? B, on pose x1 = z3, k1 = 3. . . . On construit ainsi x1, k1. On consid` ere alors zk1+1. Si zk1+1 ? B, on pose x2 = zk1+1, k2 = k1 + 1. Sinon, on consid` ere zk1+2. Si zk1+2 ? B, on pose x2 = zk1+2, k2 = k1 + 2. Sinon, on consid` ere zk1+3. Si zk1+3 ? B, on pose x2 = zk1+3, k2 = k1 + 3. . . . On construit ainsi x2, k2. On continue.... et on obtient une suite x1, . . . , xn, . . . de tirages ind´ ependants selon la loi ?(A) = µ(A?B) µ(B) . Remarque 1. Vu (4.28), la v.a. ?1?1 suit une loi g´ eom´ etrique de param` etre 1?µ(B) et on a E(?1) = 1 µ(B) . Il est intuitif (et facile ` a v´ erifier) que les v.a. ?1, ?2??1, . . . , ?r??r?1 57 sont ind´ ependantes et de m? eme loi. On a donc E(?1) = E(?2 ? ?1) = . . . = E(?r ? ?r?1) = 1 µ(B) . Donc, si µ(B) est tr` es petit, cette simulation risque de prendre du temps. 4.8.5. Simulation de la loi uniforme sur un domaine de mesure de Lebesgue finie. Soit D un domaine de Rd tel que ?(D) < +?, ? ´ etant la mesure de Lebesgue sur Rd. On appelle loi uniforme sur D, la probabilit´ e de densit´ e (?(D))?11D. La prop. 4.8.1 donne imm´ ediatement: Corollaire 4.8.2. Soient D ? ? deux domaines de Rd avec ?(?) < +? et (Zn, n ? 1) une suite de v.a. ind´ ependantes de loi la loi uniforme sur ?. On pose ?1 = inf(n ? 1, Zn ? D), . . ., ?r = inf(n > ?r?1, Zn ? D), . . .. Alors, pour tout r ? 1, P(?r < +?) = 1 et (Z?r , r ? 1) est une suite de v.a. ind´ ependantes de loi la loi uniforme sur D. Preuve: Il suffit de remarquer que, si µ est la loi uniforme sur ?, la loi de X?1 est ?(A) = µ(A ? D) µ(D) = ?(A ? D) ?(?) : ?(D) ?(?) = ?(A ? D) ?(D) i.e. la loi uniforme sur D. En pratique, si D est born´ e, on choisit ? = [a1, b1] × . . . × [ad, bd] et il est tr` es facile de simuler la loi uniforme sur ? et donc sur D. 4.8.5. Soit D = {(x, y), 0 ? y < f(x)} ? R2 o` u f est une densit´ e de probabilit´ e sur R. Si (X, Y ) est un couple de v.a. de loi uniforme sur D, alors X est une v.a.r. de densit´ e f. R´ eciproquement, si X est une v.a.r. de densit´ e f et si U est une v.a.r. de loi U(0, 1), ind´ ependante de X, alors (X, Uf(X)) suit la loi uniforme sur D et, plus g´ en´ eralement, (X, aUf(X)) (a > 0) suit la loi uniforme sur ? = {(x, y), 0 ? y < af(x)}. Ceci fournit une m´ ethode, sachant simuler une loi de densit´ e g, pour simuler une loi de densit´ e f si f ? a g (n´ ecessairement a ? 1)). Plus pr´ ecisemment: Proposition 4.8.3. Soient ? une mesure ?-finie sur (F, F) et f, g ? F+ telles que f d? = g d? = 1 et f ? ag ? p.p. Soient (Yn, n ? 1) une suite de v.a. ind´ ependantes ` a valeurs (F, F) de loi g.? et (Un, n ? 1) une suite de v.a.r. ind´ ependantes de loi U(0, 1) et ind´ ependantes de (Yn, n ? 1). On pose ?1 = inf(n ? 1, aUng(Yn) < f(Yn) ), . . . , ?r = inf(n > ?r?1, aUng(Yn) < f(Yn) ), . . . Alors les v.a. (Y?r , r ? 1) sont ind´ ependantes de loi f.?. Preuve: Soient Zn = (Yn, Un) et ? = {(y, u), a.u.g(y) < f(y) }. On a alors ?1 = inf(n ? 1, Zn ? ?),. . .. Lemme 4.8.4. Pour toute ? ? F+, E(?(Y1)1{Z1??}) = E(?(Y1)1{aU1g(Y1)<f(Y1)}) = 1 a ?(y)f(y) d?(y). 58 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires Preuve: Notons que f1{g=0} ? ag1{g=0} = 0 ? p.p. Alors E(?(Y1)1{Z1??}) = 1 0 ?(y)1?(y, u)g(y)1{g>0}(y) d?(y)du = ?(y)g(y)1{g>0}(y) 1 0 1{u< f(y) ag(y) } du d?(y) = ?(y)g(y)1{g>0}(y) f(y) ag(y) d?(y) = 1 a ?(y)f(y) d?(y). Prenant ? = 1 dans le lem. 4.8.4, on obtient P(Z1 ? ?) = 1 a > 0 et on peut appliquer la prop. 4.8.1 . Les v.a. (Z?r , r ? 1) (resp. (Y?r , r ? 1)) sont ind´ ependantes de m? eme loi que Z?1 (resp. Y?1 ). Enfin on a (prop. 4.8.1 et lem. 4.8.4) P(Y?1 ? A) = P(Y1 ? A, Z1 ? ?) P(Z1 ? ?) = A f d? et Y?1 a pour loi f.?. Remarque 2. Vu que P(Z1 ? ?) = 1 a , d?apr` es la remarque 1, E(?1) = E(?r ??r?1) = a. Si a est trop grand, cette m´ ethode est co? uteuse en temps. 4.9. Compl´ ement: ´ echantillons ordonn´ es. Dans cette section, on consid` ere une probabilit´ e µ sur R. On note F sa fonction de r´ epartition (def. 4.3.1). On rappelle que F est continue ssi µ({x}) = 0 pour tout x ? R. 4.9.1. Echantillon ordonn´ e. Soit X1, . . . , Xn n v.a.r. ind´ ependantes de loi µ. On appelle X1, . . . , Xn un ´ echantillon de taille n (ou n-´ echantillon) de la loi µ. Les X1, . . . , Xn rang´ es par ordre croissant, qu?on note X(1), . . . , X(n), s?appelle alors un ´ echantillon ordonn´ e de taille n de la loi µ. En particulier X(1) = min 1?i?n Xi, X(n) = max 1?i?n Xi. Par exemple, si X1(?) = 4, X2(?) = 5, X3(?) = 1, X4(?) = 2, X5(?) = 4, X6(?) = 4, X7(?) = 2, X8(?) = 3, on a X(1)(?) = 1, X(2)(?) = 2, X(3)(?) = 2, X(4)(?) = 3, X(5)(?) = 4, X(6)(?) = 4, X(7)(?) = 4, X(8)(?) = 5. Supposons F continue, on a alors, pour i = j, P(Xi = Xj) = 1{x=y} dµ(x)dµ(y) = ( 1{y}(x) dµ(x)) dµ(y) = 0, et donc P(?i=j{Xi = Xj}) et X(1) < . . . < X(n) p.s. Si on a un un ´ echantillon ordonn´ e de taille 2n + 1 de la loi µ, on pose Mn = X(n+1) (4.29) 59 et Mn s?appelle la m´ ediane de l?´ echantillon ou la m´ ediane empirique. 4.9.2. Loi de X(k). Soit X1, . . . , Xn un ´ echantillon de taille n d!une loi µ. On pose Nt n = n i=1 1]??,t ](Xi). (4.30) Alors Nt n ? B(n, F(t)) et {X(k) ? t} = {Nt n ? k}. On a donc, notant Fk la fonction de r´ epartition de X(k), P(X(k) ? t) = P(Nt n ? k) = n r=k Cr n(F(t))r (1 ? F(t))n?r . Vu que, pour 0 ? ? ? 1, d d? n r=k n! r!(n ? r)! ?r (1 ? ?)n?r = n! (k ? 1)!(n ? k)! ?k?1 (1 ? ?)n?k (quand on d´ erive tous les termes se d´ etruisent deux ` a deux sauf le premier), on obtient finalement: Proposition 4.9.1. Soient X1, . . . , Xn un ´ echantillon de taille n d!une loi µ de fonction de r´ epartition F et X(1), . . . , X(n) l?´ echantillon ordonn´ e associ´ e. Alors la fonction de r´ epartition de X(k) est donn´ ee par: Fk(t) = n! (k ? 1)!(n ? k)! F(t) 0 ?k?1 (1 ? ?)n?k d?. (4.31) En particulier (formule facile ` a obtenir directement) F1(t) = 1 ? (1 ? F(t))n , Fn(t) = (F(t))n . (4.32) Le cas le plus important est celui o` u µ a une densit´ e p et dans ce cas: Corollaire 4.9.2. Soit X1, . . . , Xn un n ´ echantillon d?une loi sur R de densit´ e p(x) et de fonction de r´ epartition F. Alors la densit´ e de X(k) est donn´ ee par: qk(t) = n! (k ? 1)!(n ? k)! (F(t))k?1 (1 ? F(t))n?k p(t). (4.33) 4.9.3. En fait lorsque µ a une densit´ e p, il est facile de calculer la densit´ e de l?´ echantillon ordonn´ e en tant que loi marginale. Th´ eor` eme 4.9.3. Soit X1, . . . , Xn un n ´ echantillon d?une loi sur R de densit´ e p(x). Alors la densit´ e de (X(1), . . . , X(n)) est donn´ ee par: f(x1, . . . , xn) = n! p(x1) . . . p(xn)1x1<...<xn . (4.34) 60 Espace de probabilit´ e g´ en´ eral. Variables al´ eatoires Preuve: Soit Sn l?ensemble des permutations de {1, 2, . . . , n}. On a, pour h ? 0, E(h(X(1), . . . , X(n))) = ??S E(h(X(1), . . . , X(n))1{X?(1)<...<X?(n)}) = ??S {x?(1)<...<x?(n)} h(x?(1), . . . , x?(n))p(x1) . . . p(xn) dx1 . . . dxn = ??S {x1<...<xn} h(x1, . . . , xn)p(x1) . . . p(xn) dx1 . . . dxn = n! {x1<...<xn} h(x1, . . . , xn)p(x1) . . . p(xn) dx1 . . . dxn. A partir de (4.34), il est facile de retrouver (4.33) i.e. la densit´ e qk de X(k) con- sid´ er´ ee comme une marginale de (X(1), . . . , X(n)). On a donc, posant At = {x1 < . . . < xk?1 < t < xk+1 < . . . < xn }, qk(t) = n! At p(x1) . . . p(xk?1)p(t)p(xk+1) . . . p(xn) dx1 . . . dxk?1dxk+1 . . . dxn = n! (n ? k)! {x1<...<xk?1<t } p(x1) . . . p(xk?1) dx1 . . . dxk?1(1 ? F(t))n?k p(t) = n! (k ? 1)!(n ? k)! (F(t))k?1 (1 ? F(t))n?k p(t). Exemple. Soit X1, . . . , Xn un n ´ echantillon de la loi uniforme sur [0, 1]. Alors la loi de (X(1), . . . , X(n)) a pour densit´ e n! 1{x1<...<xn} et celle de X(k), 1 ? k ? n, a pour densit´ e n! (k?1)!(n?k)! tk?1(1 ? t)n?k1]0,1[(t). En particulier (calcul facile en utilisant la formule (4.23)) E(X(k)) = k n+1 . Chapitre 5 Fonctions caract´ eristiques. Vecteurs gaussiens 5.1. Transform´ ee de Fourier 5.1.1. Rappelons que le produit de convolution de deux mesures born´ ees sur Rd a ´ et´ e d´ efini en 3.5.4. Soient X et Y deux v.a. ind´ ependantes ` a valeurs Rd. On pose S = X + Y . Cherchons la loi de S. On a, pour toute f ? B+(Rd), E(f(S)) = E(f(X + Y )) = f(x + y) dµX (x)dµY (y) = f dµX ? µY . On peut ´ enoncer: Proposition 5.1.1. Soient X et Y deux v.a. ind´ ependantes ` a valeurs Rd. On a µX+Y = µX ? µY . On sait que pour calculer des produits de convolution, la transformation de Fourier est un outil indispensable. 5.1.2. Transform´ ee de Fourier. On note Mb l?ensemble des mesures born´ ees sur B(Rd). Pour µ ? Mb, on pose ? µ(t) = ei<t,x> dµ(x), t ? Rd . (5.1) De m? eme, pour h ? L1(Rd, ?), ? mesure de Lebesgue sur Rd, on pose ? h(t) = ei<t,x> h(x) dx, t ? Rd . (5.2) La fonction ? µ (resp ? h) s?appelle la transform´ ee de Fourier de µ (resp. de h). Remar- quer que, si µ = h.?, ? µ = ? h. Alors, 62 Fonctions caract´ eristiques. Vecteurs gaussiens Th´ eor` eme 5.1.2. (i) Soient µ, ? ? Mb. Si ? µ = ? ?, µ = ?. (ii) Soit µ ? Mb telle que ? µ ? L1(?). On a alors µ = h.? avec h(x) = (2?)?d e?i<t,x> ? µ(t) dt. (5.3) Preuve: On pose: g?(x) = (2??2 )?d/2 exp(? |x|2 2?2 ), |x|2 = x2 1 + . . . + x2 d. (5.4) Lemme 5.1.3. La famille (g?(x ? a), ? > 0, a ? Rd) est totale dans C0(Rd). Preuve: Soit V l?espace vectoriel engendr´ e par les fonctions g?(x?a), ? > 0, a ? Rd. Vu que g?(x ? a) g?(x ? b) = C g? (x ? c) avec ?2 = ?2?2 ?2 + ?2 , c = ?2a + ?2b ?2 + ?2 , V est une alg` ebre. On v´ erifie imm´ ediatement (i) et (ii) du th. 3.5.5 d?o` u V = C0. Lemme 5.1.4. On a ? g?(t) = exp(??2 2 |t|2) = (2??2)d/2g?(?2t). Preuve: Soit ?(t) = (2?)?1/2 eitue?u2/2 du, t ? R. Vu que | d dteitu| ? |u| ? L1(e?u2/2.?), on peut appliquer la prop. 3.3.7 et on a ? (t) = i(2?)?1/2 eitu d(?e?u2/2 ) = ?(2?)?1/2 t eitu e?u2/2 du = ?t?(t) d?o` u ?(t) = Ce?t2/2 = e?t2/2 puisque ?(0) = 1. Alors (th. 3.5.2) (2??2 )?d/2 ei<t,x> e?|x|2/2?2 dx = d k=1 (2??2 )?1/2 eitkxk e?x2 k/2?2 dxk = e??2|t|2/2 . Lemme 5.1.5. Soit µ ? Mb. On a g?(x ? a) dµ(x) = (2?)?d/2 g1(?t)e?i<a,t> ? µ(t) dt. (5.5) Si, de plus, ? µ ? L1(?), g?(x ? a) dµ(x) = (2?)?d g?(x ? a) e?i<x,t> ? µ(t) dt dx. (5.6) Preuve: Notons d?abord que, vu le lem. 5.1.4, g?(x) = (2??2 )?d/2 ? g?( x ?2 ) = (2?)?d/2 ?d g?(?2 t)ei<x,t> dt. (5.7) 63 (i) On a, puisque g?(?2t) dtdµ(x) < +?, g?(x ? a) dµ(x) = (2?)?d/2 ?d g?(?2 t)ei<x?a,t> dtdµ(x) = (2?)?d/2 ?d g?(?2 t)e?i<a,t> ei<x,t> dµ(x) dt = (2?)?d/2 ?d g?(?2 t)e?i<a,t> ? µ(t) dt d?o` u (5.5) puisque ?dg?(?2t) = g1(?t). (ii) Si ? µ ? L1(?), g?(?2u)? µ(t) ? L1(???) et on a, vu que g?(?2t) = (2??2)?d/2? g?(t), g?(x ? a) dµ(x) = (2?)?d/2 ?d g?(?2 t)e?i<a,t> ? µ(t) dt = (2?)?d e?i<a,t> ? µ(t) ei<u,t> g?(u) dudt = (2?)?d g?(u) ei<u?a,t> ? µ(t) dtdu = (2?)?d g?(x ? a) e?i<x,t> ? µ(t) dtdx. (On a pos´ e u = a ? x et utilis´ e que g?(?x) = g?(x)). Fin de la preuve. Soit H = {g?(x ? a), ? > 0, a ? Rd}. Si ? µ = ? ?, on a, vu (5.5), pour toute f ? H, f dµ = f d? d?o` u, H ´ etant total, µ = ? (prop. 3.5.4 (iii)). De m? eme, si ? µ ? L1, posant h(x) = (2?)?d e?i<x,t> ? µ(t) dt, on a vu (5.6), pour toute f ? H, f dµ = fh d? d?o` u µ = h.?. 5.2. Fonctions caract´ eristiques 5.2.1. Soit X une v.a. ` a valeurs Rd de loi µX . On a alors, vu le th. 4.2.4, ? µX (t) = ei<t,x> dµX (x) = E(ei<t,X>). Ceci conduit ` a: D´ efinition 5.2.1. Soit X une v.a. ` a valeurs Rd. La fonction ?X (t) = E(ei<t,X> ) = ? µX (t) s?appelle la fonction caract´ eristique de X. Premi` eres propri´ et´ es. (i) ?X est continue. En effet, si tn ? t, ei<tn,X> ? ei<t,X> en ayant un module born´ e par 1. Il suffit d?appliquer le th´ eor` eme de Lebesgue. (ii) Pour ? ? R et b ? Rd, ??X+b (t) = ei<t,X>?X (?t). En effet ??X+b (t) = E(ei<t,?X+b> ) = ei<t,b> E(ei<t,?X> ) = ei<t,b> E(ei<?t,X> ). (iii) ??X (t) = E(e?i<t,X>) = ?X (t). (iv) Si µ?X = µX i.e. si la loi de X est sym´ etrique, ?X est r´ eelle. Ceci r´ esulte de (iii). Le th. 5.1.2 devient: 64 Fonctions caract´ eristiques. Vecteurs gaussiens Th´ eor` eme 5.2.2. Soient X et Y des v.a. ` a valeurs Rd. (i) Si, pour tout t, ?X (t) = ?Y (t), X et Y ont m? eme loi. (ii) Si ?X ? L1, µX = h.? avec h(x) = (2?)?d e?i<t,x> ?X (t) dt. Quant ` a prop. 5.1.1, elle s?´ enonce: Th´ eor` eme 5.2.3. Soient X et Y deux v.a. ind´ ependantes ` a valeurs Rd. On a ?X+Y = ?X ?Y . Preuve: En fait cela se montre imm´ ediatement gr? ace au th. 4.4.4: ?X+Y (t) = E(ei<t,X+Y > ) = E(ei<t,X> ei<t,Y > ) = E(ei<t,X> )E(ei<t,Y > ) = ?X (t)?Y (t). 5.2.2. Crit` ere d?ind´ ependance. Th´ eor` eme 5.2.4. Des v.a. X1,. . . ,Xn ` a valeurs Rd1 , . . . , Rdn sont ind´ ependantes ssi, pour tous t1 ? Rd1 , . . . , tn ? Rdn , ?(X1,...,Xn) (t1, . . . , tn) = ?X1 (t1) . . . ?Xn (tn). Preuve: En effet cette condition signifie que µ(X1,...,Xn) et µX1 ? . . . ? µXn ont m? eme transform´ ee de Fourier i.e. (th. 5.1.2) que µ(X1,...,Xn) = µX1 ?. . .?µXn ce qui ´ equivaut (prop. 4.4.2) ` a l?ind´ ependance de X1, . . . , Xn. 5.2.3. Calcul des moments. Proposition 5.2.5. Soit X une v.a. ` a valeurs Rd. (i) Si X ? L1 d, ?X est d´ erivable et ??X ?tk (t) = E(iXkei<t,X>). En particulier ??X ?tk (0) = iE(Xk). (ii) Si X ? L2 d, ?X est deux fois d´ erivable et ?2?X ?tj?tk (t) = ?E(XjXkei<t,X>). En particulier ?2?X ?tj?tk (0) = ?E(XjXk). Preuve: (i) On remarque que | ? ?tk ei<t,X>| = |Xk| ? L1 et on applique la prop. 3.3.7. (ii) On continue.... Il est facile de voir en appliquant la prop. 3.3.7 que si X ? Lm d , ?X est m fois d´ erivable et qu?on obtient les d´ eriv´ ees successives en d´ erivant sous le signe E. R´ eciproquement on a , Proposition 5.2.6. Soit X une v.a. ` a valeurs Rd. Si ?X est 2m fois d´ erivable en 0, m entier, X ? L2m d . 65 Preuve: On se limite ` a d = 1, m = 1. On pose ? = ?X et µ = µX . On a ??(0) = limh?0 1 h2 (?(h) + ?(?h) ? 2?(0)) et ?(h) + ?(?h) ? 2?(0) = (eihx + e?ihx ? 2) dµ(x) = ?4 sin2 hx 2 dµ(x). Appliquant le lemme de Fatou (prop. 3.3.4), on a ???(0) = lim h 4 sin2 hx 2 h2 dµ(x) ? 4 lim inf h sin2 hx 2 h2x2 x2 dµ(x) = x2 dµ(x). 5.2.4. Fonctions caract´ eristiques usuelles (voir 2.2.5 et 4.3.1 pour les d´ efinitions). a. Loi binomiale B(n, p). Si X ? B(n, p), on a ?X (t) = E(eitX ) = n k=0 Ck n pk (1 ? p)n?k eitk = (peit + 1 ? p)n . Cette formule et le th. 5.2.3 montrent que, si X ? B(n, p) et Y ? B(m, p), X, Y ind´ ependantes, alors X + Y ? B(n + m, p). En particulier si X1, . . . , Xn sont des v.a. ind´ ependantes avec P(Xk = 1) = p, P(Xk = 0) = 1?p, Sn = X1 +. . .+Xn ? B(n, p). b. Loi de Poisson P(?). Si X ? P(?), ?X (t) = E(eitX ) = ? k=0 e?? ?k k! eitk = exp(?(eit ? 1)). Donc si X ? P(?) et Y ? P(µ), X, Y ind´ ependantes, X + Y ? P(? + µ). c. Loi uniforme Si X ? U(a, b), a < b, ?X (t) = 1 b ? a b ?a eitx dx = eitb ? eita it(b ? a) . d. Loi gamma G(a, c). Si X ? G(a, c), on a ?X (t) = ca ?(a) +? 0 eitx e?cx xa?1 dx. Utilisant la prop. 3.3.7 et int´ egrant par partie, on obtient ?X (t) = ica ?(a) +? 0 eitx e?cx xa dx = ?iaca ?(a)(it ? c) +? 0 eitx e?cx xa?1 dx = ia c ? it ?X (t) d?o` u ?X (t) = (1 ? it c )?a puisque ?X (0) = 1. Noter que pour a / ? N, on prend la d´ etermination continue valant 1 en 0. Si X ? G(a, c) et Y ? G(b, c), X, Y ind´ ependantes, alors X +Y ? G(a+b, c). En particulier si X1, . . . , Xn sont des v.a. ind´ ependantes de m? eme densit´ e ?e??x1R+ et donc de loi G(1, ?), Sn = X1+. . .+Xn ? G(n, ?) et a pour densit´ e ?n (n?1)! e??xxn?11R+ . 66 Fonctions caract´ eristiques. Vecteurs gaussiens e. Loi normale N1(m, ?2). Si Y ? N1(0, 1), ?Y (t) = e?t2/2 (lem. 5.1.4). Soit X = m + ?Y , alors X ? N1(m, ?2) et E(eitX) = emtE(et?Y ), d?o` u la formule: ?X (t) = exp(itm ? 1 2 ?2 t2 ), X ? N1(m, ?2 ). (5.8) On en d´ eduit imm´ ediatement Proposition 5.2.7. Si X ? N1(m, ?2) et Y ? N1(l, ?2), X, Y ind´ ependantes, alors X + Y ? N1(m + l, ?2 + ?2). f. Loi de Laplace. C?est la loi d?une v.a. X de densit´ e q(x) = 1 2 e?|x|. On a ?X (t) = 1 2 +? ?? eitx e?|x| dx = 1 2 +? 0 ex(it?1) dx + 1 2 0 ?? ex(it+1) dx = 1 1 + t2 . g. Loi de Cauchy de param` etre 0. C?est la loi d?une v.a. X de densit´ e q(x) = 1 ?(1+x2) . Vu que 1 1+t2 ? L1, on a d?apr` es f. et le th. 5.2.2 (ii), 1 2? +? ?? e?itx 1 1 + t2 dt = 1 2 e?|x| . On en d´ eduit ?X (t) = 1 ? +? ?? eitx 1 1 + x2 dt = e?|t| . 5.3. Vecteurs gaussiens 5.3.1. On dit qu?une probabilit´ e µ sur R est gaussienne si elle a pour densit´ e (4.13) ou si µ = ?m. Il est normal d?adjoindre les mesures de Dirac aux lois gaussiennes car la loi N1(m, ?2) converge en un certain sens vers ?m lorsque ? ? 0. Une v.a. r´ eelle est dite gaussienne si sa loi est gaussienne. D´ efinition 5.3.1. Un vecteur al´ eatoire X = (X1, . . . , Xd) est dit gaussien si, pour tout a ? Rd, aTX = a1X1 + . . . + adXd est une v.a. gaussienne. En particulier chaque composante Xk est une v.a.r. gaussienne mais cela ne suffit pas ` a assurer que le vecteur X est gaussien. On appelle loi gaussienne sur Rd toute loi d?un vecteur gaussien. Exemples. (i) X = 0 ? Rd est un vecteur gaussien. (ii) Soit X = (X1, . . . , Xd) avec X1, . . . , Xd ind´ ependants de m? eme loi N1(0, 1). Alors (prop. 5.2.7) a1X1 + . . . + adXd ? N1(0, a2 1 + . . . + a2 d) et X est un vecteur gaussien. Cette notion est invariante par transformation lin´ eaire, plus pr´ ecis´ ement: Lemme 5.3.2. Soit X un vecteur gaussien ` a valeurs Rd de moyenne m et de matrice de covariance D. Pour tous b ? Rr et M matrice r × d, Y = b + MX est un vecteur gaussien ` a valeurs Rr, de moyenne b + Mm et de matrice de covariance MDMT 67 Preuve: En effet aTY = aTb + (aTM)X est une v.a.r. gaussienne. On a E(Y ) = b + ME(X) = b + Mm et (prop. 4.5.4) K(Y ) = K(MX) = MK(X)MT = MDMT. Th´ eor` eme 5.3.3. Soit X un vecteur al´ eatoire de moyenne m et de matrice de co- variance K. Le vecteur X est gaussien ssi sa fonction caract´ eristique est donn´ ee par ?X (t) = exp(itT m ? 1 2 tT Kt). (5.9) Preuve: (i) Supposons X gaussien. Alors (lem. 5.3.2) tTX ? N1(tTm, tTKt) et ?X(t) = E(eitTX) = ?tTX (1) = exp(itTm ? 1 2 tTKt) d?o` u (5.9). (ii) Supposons (5.9). Alors ?aTX (u) = E(eiuaTX) = exp(iuaTm ? 1 2 u2aTKa) donc aTX est une v.a.r. gaussienne et X un vecteur gaussien. Toute loi gaussienne sur Rd est donc d´ etermin´ ee par sa moyenne m et sa matrice de covariance K. On note Nd(m, K) une telle loi. On a vu (exemple (ii)) que Nd(0, Id) existe mais on n?a pas ´ etabli l?existence dans le cas g´ en´ eral. Pour cela, on utilise: Lemme 5.3.4. Soit K une matrice d × d sym´ etrique semi-d´ efinie positive. Il existe une matrice d × d sym´ etrique semi-d´ efinie positive A telle que K = A2. Preuve: Soient ?1, . . . , ?d les valeurs propres de K (elles sont ? 0). Il existe une matrice orthogonale C (i.e. CTC = I) telle que CTKC = D = diag(?1, . . . , ?d) o` u diag(?1, . . . , ?d) d´ esigne la matrice diagonale ayant ?1, . . . , ?d sur la diagonale. On a alors CDCT = K. Soit ? = diag( ? ?1, . . . , ? ?d). On pose A = C?CT. On a, A2 = C?CT C?CT = C?2 CT = CDCT = K. Appliquant le lem. 5.3.2, on a que, si X ? Nd(0, Id), Y = m + AX ? Nd(m, K). On a montr´ e: Th´ eor` eme 5.3.5. Etant donn´ es m ? Rd et une matrice d × d sym´ etrique semi- d´ efinie positive K, il existe une et une seule loi gaussienne sur Rd de moyenne m et de matrice de covariance K. 5.3.2. Vecteurs gaussiens et ind´ ependance. Th´ eor` eme 5.3.6. Soient X = (X1, . . . , Xd) un vecteur gaussien. (i) Les v.a.r. X1, . . . , Xd sont ind´ ependantes ssi la matrice de covariance K(X) est diagonale. (ii) On pose Y1 = (X1, . . . , Xd1 ), Y2 = (Xd1+1, . . . , Xd2 ), . . . Yr = (Xdr?1+1, . . . , Xd). Les vecteurs (Y1, . . . , Yr) sont ind´ ependants ssi Ki j(X) = Cov(Xi, Xj) = 0 pour tous i, j n?appartenant pas au m? eme intervalle [1, d1], [d1 + 1, d2], . . . , [dr?1 + 1, d]. 68 Fonctions caract´ eristiques. Vecteurs gaussiens Preuve: Seule la suffisance demande une preuve. (i) Supposons K(X) diagonale. On a K(X) = diag(?2 1, . . . , ?2 d) o` u ?2 k = Var(Xk). Alors, notant m = E(X), ?X (t) = exp(i d k=1 mktk ? 1 2 d k=1 ?2 kt2 k) = d k=1 exp(imktk ? 1 2 ?2 kt2 k) = ?X1 (t1) . . . ?Xd (td) et donc (prop. 5.2.4) les Xk sont ind´ ependantes. (ii) Supposons la condition sur les covariances r´ ealis´ ees. Elle implique, pour tous u1 ? Rd1 , u2 ? Rd2?d1 , . . . et p = q, Cov(uT pYp, uT qYq) = 0. Donc, d?apr` es (i), les v.a.r. uT 1Y1, . . . , uT rYr sont ind´ ependantes. On a alors E(ei(uT 1Y1+...+uT rYr) ) = E(eiuT 1Y1 ) . . . E(eiuT rYr ) et (prop. 5.2.4) les v.a. Y1, . . . , Yr sont ind´ ependantes. Remarque. Attention ` a l?utilisation du th. 5.3.6. On peut avoir X et Y v.a.r. gaussiennes, Cov(X, Y ) = 0 sans que les v.a. X et Y soient ind´ ependantes. Par exemple si X ? N1(0, 1), si U est une v.a. ind´ ependante de X telle que P(U = 1) = P(U = ?1) = 1 2 et si Y = UX, on v´ erifie facilement que Y ? N1(0, 1). On a Cov(X, Y ) = E(XY ) = E(UX2) = E(U)E(X2) = 0 et |X| = |Y | donc X et Y ne sont pas ind´ ependantes. En fait le couple (X, Y ) n?est pas gaussien. 5.3.3. Le cas non d´ eg´ en´ er´ e. On dit que la loi Nd(m, K) est non d´ eg´ en´ er´ ee si det(K) = 0. Dans ce cas: Th´ eor` eme 5.3.7. Si X ? Nd(m, K) et si det(K) = 0, X admet la densit´ e hm,K (x) = (2?)? d 2 (det(K))? 1 2 exp(? 1 2 (x ? m)T K?1 (x ? m)). Preuve: Soit A une matrice d×d telle que K = AAT, on a det(A) = (det(K))1/2 et A est inversible. Soit Y ? Nd(0, Id) un vecteur gaussien de densit´ e (2?)?d/2 exp(?|y|2 2 ). On a (lem . 5.3.2) Y = m + AY ? Nd(m, K) et, pour f ? B+(Rd), E(f(X)) = E(f(m + AY )) = (2?)? d 2 f(m + Ay) exp(? |y|2 2 ) dy. On effectue le changement de variable y = A?1(x ? m), on a D(y) D(x) = det(A?1) et E(f(X)) = (2?)? d 2 det(A?1 ) f(x) exp(? 1 2 (x ? m)T (A?1 )T A?1 (x ? m)) dx. Comme K?1 = (AAT)?1 = (A?1)TA?1, on a la formule annonc´ ee. Chapitre 6 Convergence des suites de variables al´ eatoires 6.1. Modes de convergence 6.1.1. Principaux modes de convergence. D´ efinition 6.1.1. Soient Xn et X des v.a. ` a valeurs Rd. (i) On dit que Xn converge en probabilit´ e vers X si, pour tout ? > 0, P(|Xn ? X| > ?) ?n 0. (ii) On dit que Xn converge presque s? urement (en abr´ eg´ e p.s.) vers X si, pour tout ? / ? N, N n´ egligeable, Xn(?) ?n X(?). (iii) On dit que Xn converge vers X dans Lp, 1 ? p < +?, si Xn et X sont dans Lp et si E(|Xn ? X|p) ?n 0. La convergence dans L1 s?appelle aussi la convergence en moyenne, la conver- gence dans L2 s?appelle aussi la convergence en moyenne quadratique. On v´ erifie imm´ ediatement que Xn = (X1 n, . . . , Xd n) converge vers X = (X1 . . . , Xd) en un des sens ci-dessus ssi, pour k = 1, . . . , d, Xk n converge vers Xk dans le m? eme sens. On ne consid´ erera donc plus que des v.a. r´ eelles. Rappelons qu?on note, pour X v.a.r., ||X||p = (E|X|p) 1 p . Vu l?in´ egalit´ e de H¨ older (3.7), on a, pour 1 ? p ? q, ||X||p ? ||X||q et donc la convergence dans Lq implique la convergence dans Lp. En particulier la convergence dans L2 implique la convergence dans L1. Proposition 6.1.2. La convergence dans L1 implique la convergence en probabilit´ e, la convergence p.s. implique la convergence en probabilit´ e. Preuve: (i) D?apr` es l?in´ egalit´ e de Markov (prop. 4.2.7), P(|Xn?X| > ?) ? ??1E(|Xn? X|) ce qui montre le premier point. 70 Convergence des suites de variables al´ eatoires (ii) Supposons que Xn converge p.s. vers X. Alors, pour tout ? > 0, 1{|Xn?X|>?} ?n 0 p.s. et est manifestement born´ e par 1, donc (th. de Lebesgue) P(|Xn ? X| > ?) = E(1{|Xn?X|>?}) ?n 0. Notons que si Xn converge en probabilit´ e vers X et vers Y , on a P(|X ? Y | > ?) ? P(|X ? Xn| > ? 2 ) + P(|Xn ? Y | > ? 2 ) ?n 0 et donc P(|X ? Y | > 0) = 0 et X = Y p.s. Ceci implique, vu la prop. 6.1.2, que les limites de Xn en les diff´ erents sens d´ efinis ci-dessus sont p.s. ´ egales. 6.1.2. Exemples. Soit Xn une suite de v.a.r. ind´ ependantes telles que P(Xn = an) = pn, P(Xn = 0) = 1 ? pn. On suppose 0 < pn < 1, pn ?n 0 et an ? 1. a. On a, pour ? ?]0, 1[, P(|Xn| > ?) = P(Xn > ?) = pn et Xn ?n 0 en probabilit´ e. b. On a P(Xn > 0) = pn donc, si pn < +?, on a (prop. 4.1.2) que {Xn > 0} n?a p.s. lieu que pour un nombre fini de n donc Xn ?n 0 p.s. R´ eciproquement si pn = +?, on a (prop. 4.1.2) que {Xn = an} a p.s. lieu pour une infinit´ e de n donc Xn ne converge pas p.s. vers 0. Donc Xn ?n 0 p.s. ssi pn < +?. c. E|Xn| = E(Xn) = anpn. Donc Xn ?n 0 dans L1 ssi anpn ?n 0. d. E(Xn)2 = a2 npn. Donc Xn ?n 0 dans L2 ssi a2 npn ?n 0. Si on choisit pn = 1 n, an = 1, Xn converge vers 0 dans L1 mais pas p.s. Si on choisit pn = 1 n2 , an = n2, Xn converge vers 0 p.s. mais pas dans L1. Si on choisit pn = 1 n2 , an = n, Xn converge vers 0 dans L1 mais pas dans L2. 6.1.3. Crit` eres de convergence. Proposition 6.1.3. Soit Xn une suite de v.a.r. Si P(|Xn+1 ? Xn| > ?n) < +? pour une suite ?n > 0 v´ erifiant ?n < +?, la suite Xn converge p.s. Preuve: D?apr` es le lemme de Borel-Cantelli (prop. 4.1.2), pour tout ? / ? N, N n´ egligeable, il existe n0(?) tel que, pour tout n ? n0(?), |Xn+1(?) ? Xn(?)| ? ?n. On a donc, pour n > m ? n0(?), |Xn(?) ? Xm(?)| ? n?1 k=m |Xk+1(?) ? Xk(?)| ? n?1 k=m ?k. Vu la convergence de ?n, ceci implique que Xn(?) est une suite de Cauchy et donc Xn(?) converge. Corollaire 6.1.4. De toute suite Xn convergeant en probabilit´ e, on peut extraire une sous-suite Xnk convergeant p.s. Preuve: Vu que, pour tout k, P(|Xn ? X| > 2?(k+1)) ?n 0, on peut construire une suite croissante nk telle que, pour tout n ? nk, P(|Xn ? X| > 2?(k+1)) ? 2?(k+1). On a alors, P(|Xnk+1 ?Xnk | > 2?k ) ? P(|Xnk+1 ?X| > 2?(k+1) )+P(|Xnk ?X| > 2?(k+1) ) ? 2?k . 71 D?o` u (prop. 6.1.3) Xnk converge p.s. Il est tr` es utile d?avoir des crit` eres de type Cauchy. Proposition 6.1.5. Soit Xn une suite de v.a.r. (i) Xn converge en probabilit´ e ssi, pour tout ? > 0, supk P(|Xn+k ? Xn| > ?) ?n 0, (ii) Xn converge dans Lp (1 ? p < +?) ssi supk E(|Xn+k ? Xn|p) ?n 0, (iii) Xn converge p.s. ssi, pour tout ? > 0, P(supk |Xn+k ? Xn| > ?) ?n 0. Preuve: (i) Supposons que, pour tout ? > 0, supk P(|Xn+k ? Xn| > ?) ?n 0. On peut alors construire une suite croissante d?entiers nr telle que P(|Xnr+1 ? Xnr | > 2?r) ? 2?r et donc (prop. 6.1.3) Xn converge p.s. et a fortiori en probabilit´ e vers une v.a. X. Alors, ´ etant donn´ e ? > 0, P(|Xn ? X| > ?) ? P(|Xn ? Xnr | > ?/2) + P(|X ? Xnr | > ?/2) < ? pour tout n ? nr si on choisit r assez grand et Xn ? X en probabilit´ e. Vu que P(|Xn+k ? Xn| > ?) ? P(|Xn+k ? X| > ?/2) + P(|Xn ? X| > ?/2), la r´ eciproque est imm´ ediate. (ii) Ceci n?est rien d?autre que la compl´ etude de Lp (voir 3.3.5). (iii) Supposons que, pour tout ? > 0, P(supk |Xn+k ? Xn| > ?) ?n 0. Soit Vn = supi,j?n |Xi ?Xj|, alors Vn ? V et Xn converge p.s. ssi V = 0 p.s. (crit` ere de Cauchy). Mais P(Vn > ?) ? P(supk?1 |Xn+k ? Xn| > ?/2) ?n 0 ce qui implique que V = 0 p.s. R´ eciproquement si Xn converge p.s., supk |Xn+k ? Xn| ?n 0 p.s. et aussi en probabilit´ e. 6.2. Loi 0 -1 6.2.1. Soit X1, . . . , Xn, . . . une suite de v.a. ` a valeurs Rd. On pose: Fn(X) = ?(X1, . . . , Xn), F?(X) = ?(X1, . . . , Xn, . . .) = ?(?n?1Fn(X)), Fn (X) = ?(Xn, Xn+1, . . . , Xn+k, . . .), F? (X) = ?n?1Fn (X). Evidemment F?(X) ? F?(X). La tribu F?(X) s?appelle la tribu asymptotique ou tribu de queue de la suite Xn. Exemple. Soit X1, . . . , Xn, . . . une suite de v.a. r´ eelles. Les ´ ev´ enements { Xn converge}, { |Xn| < +?}, {lim sup 1 n (X1 + . . . + Xn) < 1} sont dans F?(X). En effet il suffit de v´ erifier que, pour tout p, ils sont dans Fp, ce qui est imm´ ediat. 6.2.2. En fait, si les Xn sont ind´ ependantes, un ´ ev´ enement de F?(X) est de proba- bilit´ e 0 ou 1. C?est la loi 0 -1. 72 Convergence des suites de variables al´ eatoires Proposition 6.2.1. Soit X1, . . . , Xn, . . . une suite de v.a. ind´ ependantes ` a valeurs Rd. Alors, pour tout A ? F?(X), P(A) = 0 ou 1. De plus, si Y est une v.a.r. F?(X)-mesurable, Y = constante p.s. Preuve: Soit A ? F?(X) avec P(A) > 0. On pose Q(B) = P(A ? B) P(A) , B ? F?(X). Q est une probabilit´ e sur F?(X). Si B ? Fn(X), B et A sont ind´ ependants puisque A ? Fn+1(X). On a donc P(B) = Q(B) pour tout B ? C = ?n?1Fn(X). Cette classe ´ etant stable par intersection finie et engendrant F?(X), on a (cor. 3.2.3) P(B) = Q(B) pour tout B ? F?(X) et en particulier pour B = A. Donc P(A) = Q(A) = 1. Soit FY (t) = P(Y ? t). Par hypoth` ese, {Y ? t} ? F?(X) et donc FY (t) = 0 ou 1 ce qui implique qu?il existe a ? R tel que FY (t) = 1[a,+?[(t) et donc Y = a p.s. Corollaire 6.2.2. Soit X1, . . . , Xn, . . . une suite de v.a. r´ eelles ind´ ependantes. Alors, (i) Xn converge p.s. ou diverge p.s., (ii) si bn est une suite de r´ eels tendant vers +?, 1 bn (X1 + . . . + Xn) diverge p.s. ou converge vers une constante p.s. Preuve: On a vu que { Xn converge} ? F?(X) d?o` u (i). De m? eme A = { 1 bn (X1 + . . . + Xn) converge} ? F?(X) donc P(A) = 0 ou 1. Supposons que P(A) = 1. Soit Z = limn 1 bn (X1 + . . . + Xn). Vu que bn ?n +?, on a aussi, pour tout p, Z = limn 1 bn (Xp + . . . + Xn) et donc Z ? [F?(X)] d?o` u Z = constante p.s. 6.3. Somme de v.a. ind´ ependantes Soit X1, . . . , Xn, . . . une suite de v.a. r´ eelles de carr´ e int´ egrable. On pose Sn = X1 + . . . + Xn et Yn = Xn ? E(Xn). On a alors Sn = n k=1 Yk + n k=1 E(Xk) (6.1) et E(Yk) = 0, E(Y 2 k ) = Var(Yk) = Var(Xk). Donc pour ´ etudier la convergence de Sn, il suffit pour l?essentiel de s?int´ eresser au cas centr´ e. 6.3.1. La convergence dans L2 est simple ` a ´ etudier. Proposition 6.3.1. Soit X1, . . . , Xn, . . . une suite de v.a. r´ eelles, ind´ ependantes, de carr´ e int´ egrable et centr´ ees. Alors Sn converge dans L2 ssi la s´ erie E(X2 n) est convergente. Preuve: On a, pour n < m, E[(Sm ? Sn)2 ] = E( m k=n+1 Xk)2 = m k=n+1 E(X2 k). 73 On en d´ eduit que Sn est une suite de Cauchy de L2 et donc converge dans L2 ssi E(X2 n) < +?. 6.3.2. L?outil de base est l?in´ egalit´ e suivante due ` a Kolmogorov. Proposition 6.3.2. Soit X1, . . . , Xn, . . . une suite de v.a. r´ eelles, ind´ ependantes, de carr´ e int´ egrable et centr´ ees. Alors, pour tout ? > 0 et tout n, P( max 1?k?n |Sk| ? ?) ? 1 ?2 n k=1 E(X2 k). Preuve: On pose A = {max1?k?n |Sk| ? ?} et, pour k = 1, . . . , n, Bk = {|S1| < ?, . . . , |Sk?1| < ?, |Sk| ? ?}. Les ensembles Bk sont disjoints d?union A. Noter que, pour k ? n, E(1Bk S2 n) = E(1Bk (Sk + Sn ? Sk)2 ) = E(1Bk S2 k) + E(1Bk (Sn ? Sk)2 ) ? E(1Bk S2 k) puisque, les v.a. 1Bk Sk et Sn ? Sk ´ etant ind´ ependantes, E(1Bk Sk(Sn ? Sk)) = E(1Bk Sk)E(Sn ? Sk) = 0. On a alors, vu que S2 k ? ?2 sur Bk, ?2 P(A) = ?2 n k=1 P(Bk) ? n k=1 E(1Bk S2 k) ? n k=1 E(1Bk S2 n) ? E(S2 n) = n k=1 E(X2 k). 6.3.3. On peut maintenant ´ etablir le r´ esultat principal. Th´ eor` eme 6.3.3. Soit X1, . . . , Xn, . . . une suite de v.a. r´ eelles, ind´ ependantes, de carr´ e int´ egrable. Si les s´ eries E(Xn) et Var(Xn) convergent, Sn converge p.s. et dans L2. Preuve: Supposons d?abord les Xn centr´ ees. Appliquant la prop. 6.3.2 ` a la suite Xm+1, . . . , Xm+k, . . ., on a P( max 1?k?n |Sm+k?Sm| > ?) = P( max 1?k?n | k i=1 Xm+i| > ?) ? 1 ?2 n i=1 E(X2 m+i) = 1 ?2 m+n k=m+1 E(X2 k). On en d´ eduit P(sup k?1 |Sm+k ? Sm| > ?) = lim n?+? P( max 1?k?n |Sm+k ? Sm| > ?) ? 1 ?2 k>m E(X2 k) ?m 0. Donc (prop. 6.1.5) Sn converge p.s. et aussi (prop. 6.3.1) dans L2. Pour le cas g´ en´ eral, il suffit d?utiliser (6.1). Remarque. On peut se demander si le th. 6.3.3 admet une r´ eciproque. Sans hy- poth` ese suppl´ ementaire, il n?en est rien. En effet, soit X1, . . . , Xn, . . . une suite de 74 Convergence des suites de variables al´ eatoires v.a.r. ind´ ependantes telles que P(Xn = an) = pn, P(Xn = ?an) = pn et P(Xn = 0) = 1 ? 2pn avec an > 0, 0 < pn < 1 2 . On a n P(Xn = 0) = 2 n pn. Donc si n pn < +?, d?apr` es Borel-Cantelli, p.s. Xn = 0 ` a partir d?un certain rang et Sn = n k=1 Xk converge p.s. alors qu?on peut avoir E(X2 n) = 2 pna2 n = +? (prendre par exemple pn = n?2 et an = n). Pour plus de pr´ ecisions, voir 6.5. 6.3.4. On s?int´ eresse maintenant ` a la convergence de Sn bn , bn ´ etant une suite tendant vers +?. On se ram` ene au cas pr´ ec´ edent gr? ace au lemme de Kronecker: Lemme 6.3.4. Soient, pour n ? 1, bn, xn ? R, 0 < bn ?n +? et sn = x1 + . . . + xn. Si la s´ erie xn bn converge, sn bn ? 0. Preuve: On pose b0 = 0, vn = bn ? bn?1, z0 = 0, zn = n k=1 xk bk . On a donc bn = n k=1 vk et n k=1 xk = n k=1 bk(zk ? zk?1) = bnzn ? n k=1 vkzk?1 = n k=1 vk(zn ? zk). On en d´ eduit que, pour tout p < n, | 1 bn n k=1 xk| ? 1 bn | p k=1 vk(zn ? zk?1)| + 1 bn ( n k=p+1 vk) max p?k?n |zn ? zk?1|. D?o` u, puisque bn ?n +? et 1 bn ( n k=p+1 vk) ? 1, pour tout p, lim sup n | 1 bn n k=1 xk| ? sup j,k?p |zj ? zk|, quantit´ e arbitrairement petite vu que zn converge. . Proposition 6.3.5. . Soient X1, . . . , Xn, . . . une suite de v.a. r´ eelles ind´ ependantes et de carr´ e int´ egrable et bn ?n +?. On pose Sn = X1 +. . .+Xn. Alors, si n Var(Xk) b2 k < +? et si 1 bn n k=1 E(Xk) ?n m, Sn bn ?n m p.s. et dans L2. Preuve: On peut supposer les Xn centr´ ees et alors m = 0. Vu le th. 6.3.3, n k=1 Xk bk converge p.s. et donc (lem. 6.3.4) Sn bn ?n 0 p.s. Quant ` a la convergence L2, on a E( S2 n b2 n ) = 1 b2 n n k=1 E(X2 k) ?n 0 puisque n 1 b2 k E(X2 k) converge (lem. 6.3.4 pour la suite b2 n). Corollaire 6.3.6. . Soient X1, . . . , Xn, . . . une suite de v.a. r´ eelles ind´ ependantes et de m? eme loi avec E(X2 1 ) < +?. Alors Sn n ?n E(X1) p.s. et dans L2. Preuve: Il suffit de remarquer que n Var(Xn) n2 = Var(X1) n 1 n2 < +? et d?appliquer le th. 6.3.3. Le cor. 6.3.6 ´ etablit la loi des grands nombres lorsque X1 a un moment d?ordre deux fini. 75 6.4. La loi des grands nombres 6.4.1. On d´ emontre la loi des grands nombres dans le cadre g´ en´ eral. Th´ eor` eme 6.4.1. . Soit X1, . . . , Xn, . . . une suite de v.a. r´ eelles ind´ ependantes et de m? eme loi. On pose Sn = X1 + . . . + Xn. (i) Si E(|X1|) < +?, Sn n converge p.s. et dans L1 vers E(X1). (ii) Si Sn n converge p.s., E(|X1|) < +?. D?abord deux lemmes relatifs ` a X v.a. r´ eelle. Lemme 6.4.2. . On a n?1 P(|X| ? n) ? E(|X|) ? 1 + n?1 P(|X| ? n). Preuve: Soit ?(x) = n?1 1{x?n}. On a, pour x ? R+, ?(x) ? x ? 1 + ?(x). D?o` u n?1 P(|X| ? n) = E( n?1 1{|X|?n}) ? E(|X|) ? 1+E( n?1 1{|X|?n}) = 1+ n?1 P(|X| ? n). Lemme 6.4.3. On a n?1 E(X2 n2 1{|X|<n}) ? 2 + E(|X|). Preuve: Vu que k2 ? n=k 1 n2 = 1 + k2 ? n=k+1 1 n2 ? 1 + k2 ? k 1 x2 dx = 1 + k, on a, tout ´ etant positif, ? n=1 E( X2 n2 1{|X|<n}) = ? n=1 E( X2 n2 n k=1 1{k?1?|X|<k}) = ? k=1 E(1{k?1?|X|<k}X2 ? n=k 1 n2 ) ? ? k=1 E(1{k?1?|X|<k}k2 ? n=k 1 n2 ) ? ? k=1 E(1{k?1?|X|<k}(1 + k)) ? ? k=1 E(1{k?1?|X|<k}(2 + |X|)) ? 2 + E(|X|). Revenons ` a la d´ emonstration du th´ eor` eme. (i) On suppose E(|X1|) < +?. Posons ? Xk = Xk1{|Xk|<k}, ? Sn = n k=1 ? Xk. Alors, vu le lem. 6.4.2, k P(Xk = ? Xk) = k P(|Xk| ? k) = k P(|X1| ? k) ? E(|X1|) < +?. Donc (Borel-Cantelli) Xk = ? Xk ` a partir d?un certain rang p.s et Sn n ? ? Sn n ?n 0 p.s. On est donc ramen´ e ` a ´ etudier la limite de ? Sn n . Pour cela, on utilise la prop. 6.3.5. 76 Convergence des suites de variables al´ eatoires D?une part, vu le lem. 6.4.3, n?1 Var( ? Xn) n2 ? n?1 E( ? X2 n) n2 = n?1 E( X2 1 n2 1{|X1|<n}) ? 2 + E(|X1|) < +?. D?autre part, comme E( ? Xk) = E(Xk1{|Xk|<k}) = E(X11{|X1|<k}) ?k E(X1) (Lebesgue), 1 nE( ? Sn) ?n E(X1). Finalement ? Sn n ?n E(X1) p.s. et il en est de m? eme de Sn n . Passons ` a la convergence dans L1. On peut supposer E(X1) = 0. On a, pour tout M > 0, E(| Sn n |) ? E(| 1 n n k=1 Xk1{|Xk|<M}|) + E(| 1 n n k=1 Xk1{|Xk|?M}|). D?une part, vu la premi` ere partie et que 0 = E(X1) = E(X11{|X1|<M})+E(X11{|X1|?M}), | 1 n n k=1 Xk1{|Xk|<M}| ?n |E(X11{|X1|<M})| = |E(X11{|X1|?M})| p.s. en restant born´ e par M et donc aussi dans L1. D?autre part E(| 1 n n k=1 Xk1{|Xk|?M}|) = 1 n E(| n k=1 X11{|X1|?M}|) ? E(|X1|1{|X1|?M}). . D?o` u lim sup n E(| Sn n |) ? |E(X11{|X1|?M})| + E(|X1|1{|X1|?M}) ? 2E(|X1|1{|X1|?M}). Mais cette derni` ere quantit´ e est arbitrairement petite puisque E(|X1|1{|X1|?M}) ? 0 lorsque M ? +? (Lebesgue). (ii) Supposons que Sn n converge p.s. Donc (cor. 6.2.2) Sn n ?n c p.s et Xn n = Sn n ? n?1 n Sn?1 n?1 ? 0 p.s. Ceci implique que P(lim sup{|Xn| ? n}) = 0 et donc (prop. 4.1.2) que n P(|Xn| ? n) < +?. On a alors (lem. 6.4.2) E(|X1|) ? 1 + n P(|X1| ? n) = 1 + n P(|Xn| ? n) < +? . Remarque 1. Tradtionnellement le th. 6.4.1 s?appelle la loi forte des grands nombres. On r´ eserve le nom de loi faible des grands nombres ` a la convergence en probabilit´ e de Sn/n vers E(X1) qui est ´ evidemment une cons´ equence de la loi forte. Remarque 2. Soit µ une probabilit´ e sur un espace mesurable (E, E). Le tirage d?une suite de points de E selon µ peut se repr´ esenter par une suite de v.a. ind´ ependantes 77 de loi µ. Soit A ? E. Les v.a. 1A(X1), 1A(X2), . . . , 1A(Xn), . . . sont ind´ ependantes, de m? eme loi, d?esp´ erance µ(A). On a donc p.s. µ(A) = lim n 1 n n k=1 1A(Xk) = lim n nombre de k ? n tels que Xk ? A n . On retrouve l` a la justification fr´ equentielle de la notion de probabilit´ es. Remarque 2. En raisonnant composante par composante, le th. 6.4.1 se g´ en´ eralise imm´ ediatement aux v.a. ` a valeurs Rd. 6.4.2. Nombres au hasard. On revient sur la question, pos´ ee en 4.8.1, de construire une suite (un, n ? 1) de nombres compris entre 0 et 1 et pouvant ? etre consid´ er´ ee comme le r´ esultat de tirages ind´ ependants selon la loi U(0, 1). Soit (Un, n ? 1) une suite de v.a. ind´ ependantes de loi U(0, 1). On a (loi des grands nombres), pour tous 0 ? a < b ? 1, 1 n n k=1 1[a,b](Uk) ?n b ? a p.s. Mais X1 = (U1, U2), X2 = (U3, U4), . . . , Xn = (U2n?1, U2n), . . . est aussi une suite de v.a. ind´ ependantes ` a valeurs R2 de loi uniforme sur [0, 1] × [0, 1] et l?on a, pour tous 0 ? a1 < b1 ? 1, 0 ? a2 < b2 ? 1, posant D = [a1, b1] × [a2, b2] 1 n n j=0 1D(U2j+1, U2j+2) ?n (b1 ? a1)(b2 ? a2) p.s Plus g´ en´ eralement, pour tout k et tous 0 ? a1 < b1 ? 1, . . . , 0 ? ak < bk ? 1, posant D = k j=1[aj, bj], 1 n n j=0 1D(Ukj+1, . . . , Ukj+k) ?n k j=1 (bj ? aj) p.s Ceci conduit ` a: D´ efinition 6.4.4. Une suite (un, n ? 1) de nombres compris entre 0 et 1 est dite k-uniforme (k ? N?) si, pour tous 0 ? a1 < b1 ? 1, . . . , 0 ? ak < bk ? 1, posant D = k j=1[aj, bj], 1 n n j=0 1D(ukj+1, . . . , ukj+k) ?n k j=1 (bj ? aj). L?id´ eal pour qu?une suite (un, n ? 1) puisse ? etre consid´ er´ ee comme le r´ esultat de tirages ind´ ependants selon la loi uniforme sur [0, 1] serait que cette suite soit k-uniforme pour tout k mais ceci, en pratique, est impossible et on se contente d?approximations. 78 Convergence des suites de variables al´ eatoires On utilise fr´ equemment des algorithmes du type suivant. On choisit M ? N grand (de l?ordre de 108) et une application g de E = {0, 1 . . . , M ? 1} dans lui-m? eme. On se donne v0 ? E et on pose vn+1 = g(vn), un = vn/M. Les diff´ erents choix de v0 engendrent diff´ erentes suites. Une telle suite ´ etant n´ ecessairement p´ eriodique, ceci n?est qu?une approximation. On peut prendre M = 231 et g(x) = 75x modulo M. 6.4.3. M´ ethode de Monte-Carlo. Le principe de la m´ ethode est le suivant. Soient f une densit´ e sur Rd, (Xn, n ? 1) une suite de v.a. ind´ ependantes de densit´ e f et ? ? L1(f.?). Alors, d?apr` es la loi des grands nombres, In = 1 n n k=1 ?(Xk) ?n E(?(X1)) = ?(x)f(x) dx = I p.s. Donc, si on sait simuler des v.a. de densit´ e f, on peut obtenir une valeur approch´ ee de I. Noter que In se met sous forme r´ ecursive: In+1 = In + 1 n + 1 (?(Xn+1) ? In), ce qui rend le calcul agr´ eable. Examinons de plus pr` es deux cas. 1. On veut calculer D h(x) dx, D ´ etant un domaine born´ e de Rd et h1D int´ egrable. Soient ? = d k=1[ak, bk] ? D, V = d k=1(bk ? ak) et (Xn, n ? 1) une une suite de v.a. ind´ ependantes de loi uniforme sur ?. On peut appliquer le r´ esultat pr´ ec´ edent ` a f = 1 V 1?, ? = h1D et on a V n n k=1 h(Xk)1D(Xk) ?n V 1 V h(x)1D(x)1?(x) dx = D h(x) dx p.s. 2. On veut calculer ?(x)f(x) dx (f densit´ e et ? ? L1(f.?)) et on sait simuler des v.a. (Yn, n ? 1) ind´ ependantes de densit´ e g avec f ? a g. Alors on peut utiliser la prop. 4.8.3 pour simuler des v.a. de densit´ e f mais, en fait, on a directement: Proposition 6.4.5. Soient f, g deux densit´ es sur Rd telles que f ? a g, (Yn, n ? 1) et (Un, n ? 1) deux suites de v.a. ind´ ependantes de lois respectives g.? et U(0, 1) et ind´ ependantes entre elles. Alors, pour toute ? ? L1(f.?), a n n k=1 ?(Yk)1{aUkg(Yk)<f(Yk)} ?n Rd ?(x)f(x) dx p.s. Preuve: Les v.a. (?(Yk)1{aUkg(Yk)<f(Yk)}, k ? 1) ´ etant ind´ ependantes, il suffit d?appliquer la loi des grands nombres vu que E(?(Y1)1{aU1g(Y1)<f(Y1)}) = 1 a ?f d? pour ? ? 0 (lem. 4.8.4) puis, par diff´ erence, pour ? ? L1(f.?). Pour ? etre complet, il faudrait consid´ erer les vitesses de convergence. (On dit que an converge vers a ` a la vitesse 1 n? si |a ? an| = O( 1 n? )). Vu le th.7.3.1 qu?on verra au chapitre suivant, cette vitesse est, en g´ en´ eral, de l?ordre de 1 ? n ce qui fait que, pour des petites valeurs de d, cette m´ ethode est peu comp´ etitive par rapport aux m´ ethodes classiques d?analyse num´ erique mais que, pour des valeurs assez grandes de d, elle devient int´ eressante. 79 6.5. Compl´ ement: crit` ere des trois s´ eries. 6.5.1. On examine la r´ eciproque du th. 6.3.3. Proposition 6.5.1. Soit X1, . . . , Xn, . . . une suite de v.a.r. ind´ ependantes. On sup- pose qu?il existe M > 0 tel que, pour tout n, |Xn| ? M p.s. Alors, si Sn = n k=1 Xk converge p.s., les s´ eries E(Xn) et Var(Xn) sont convergentes. Preuve: Elle repose sur le lemme suivant. Lemme 6.5.2. Soit X une v.a.r. centr´ ee v´ erifiant |X| ? M p.s. On pose ?2 = E(X2) et on note ?(t) sa fonction caract´ eristique. alors, si |t| ? M?1, |?(t)| ? exp(? 1 3 ?2 t2 ). Preuve: Puisque E(|X|3) < +?, on a ?(3)(t) = (i)3E[X3eitX] et |?(3)(t)| ? E(|X|3) ? M?2. Vu que ? (0) = 0 et ? (0) = ??2, on a ?(t) = 1 ? ?2 2 t2 + r(t) avec |r(t)| ? |t|3 6 supls|?|t| |?(3)(s)| ? |t|3 6 M?2. Alors, si |t| ? M?1, ?2t2 ? ?2M?2 ? 1 et |?(t)| ? 1 ? ?2 2 t2 + |t|3 6 M?2 ? 1 ? ?2 2 t2 + t2 6 ?2 = 1 ? ?2 3 t2 ? exp(? 1 3 ?2 t2 ). On pose Yk = Xk ? E(Xk) (alors |Yk| ? 2M p.s.), ?2 k = Var(Xk), Sn = X1 + ... + Xn, Sn = Y1 + ... + Yn et on note ?n et ?n les fonctions caract´ eristiques de Sn et Sn. Puisque ?n(t) = exp(itE(Sn))?n(t), on a, d?apr` es le lem. 6.5.2, pour |t| ? (2M)?1, |?n(t)| = |?n(t)| = n k=1 |?Yk (t)| ? exp(? 1 3 t2 n k=1 ?2 k ). Supposons que k ?2 k = +?. Alors, pour tout t tel que |t| ? (2M)?1, |?n(t)| ? 1{0}(t). Mais, par hypoth` ese, Sn converge vers S p. s. et donc (Lebesgue) ?Sn (t) ? ?S (t) d?o` u , pour tout t, |?n(t)| ? |?S (t)| qui est continue. On a donc k ?2 k < +?. Comme ?2 n = Var(Xn) = Var(Yn) et que E(Yn) = 0, k ?2 k < +? implique (th. 6.3.3) que Yn converge p.s. Mais alors Xn et (Xn ? E(Xn)) convergent p.s. donc, par diff´ erence, E(Xn) converge. 6.5.2. Crit` ere des trois s´ eries. Th´ eor` eme 6.5.3. Soient X1, . . . , Xn, . . . une suite de v.a. r´ eelles ind´ ependantes et K > 0. On pose XK n = Xn1{|Xn|?K}. Il y a ´ equivalence entre (i) n k=1 Xk converge p.s. (ii) Les s´ eries P(|Xn| > K), E(XK n ), Var(XK n ) convergent. Preuve: (i) Supposons que n Xn converge p.s. Alors P(|Xn| > K) < +? car, si P(|Xn| > K) = +?, on a p.s. (prop. 4.1.2) |Xn| > K infiniment souvent et Sn diverge p.s. Alors la convergence de P(|Xn| > K) implique ( prop. 4.1.2) que p.s. 80 Convergence des suites de variables al´ eatoires |Xn| > K n?a lieu qu?un nombre fini de fois. Les s´ eries Xn et XK n sont donc p.s. de m? eme nature et XK n converge p.s. Puisque |XK n | ? K, on peut appliquer la prop. 6.5.1 et E(XK n ) et Var(XK n ) convergent. (ii) Supposons que les trois s´ eries convergent. Vu la prop. 6.5.1, XK n converge p.s. et, comme ci-dessus, la convergence de P(|Xn| > K) implique que les s´ eries Xn et XK n sont p.s. de m? eme nature. Donc n Xn converge p.s. 6.6. Compl´ ement: grandes d´ eviations. 6.6.1. Soit X1, . . . , Xn, . . . une suite de v.a.r. ind´ ependantes et de m? eme loi µ avec E|X1| < +?. On pose m = E(X1). Si a > m, il r´ esulte du th. 6.4.1 que, posant Sn = X1 + . . . + Xn, P( Sn n > a) ?n 0. On voudrait pr´ eciser la vitesse de convergence. On sait que plus une v.a.r. poss´ ede de moments finis, plus on peut esp´ erer des estimatuions pr´ ecises. On pose donc: ?(?) = E(e?X1 ) = e?x dµ(x), G(?) = log ?(?), ? = {?, ?(?) < +?} (6.2) et on suppose que 0 est un point int´ erieur de ? . La fonction ?(?) est stricte- ment positive et, vu que ?a < b < c < d, ?n ? 0, ?M ?? ? [b, c], |xn e?x | ? M (eax + edx ), ? est un intervalle, ? est ind´ efiniment d´ erivable sur ? ? et ?(n)(?) = xn e?x dµ(x) d?apr` es la prop. 3.3.7. En particulier ?(0) = 1, ? (0) = x dµ(x) = m. La fonction ? ´ etant strictement positive, G est aussi ind´ efiniment d´ erivable sur ? ? et l?on a, pour ? ? ? ?, G(0) = 0, G (?) = ? (?) ?(?) = y e?y?G(?) dµ(y), G (0) = m. Enfin G est convexe puisque, pour 0 < ? < 1, vu l?in´ egalit´ e de H¨ older: ?(??1 + (1 ? ?)?2) = e??1x e(1??)?2x dµ(x) ? [ e?1x dµ(x)]? [ e?2x dµ(x)]1?? , G(??1 + (1 ? ?)?2) ? ? log ?(?1) + (1 ? ?) log ?(?2x) = ?G(?1) + (1 ? ?)G(?2x). 6.6.2. Majoration. On a alors, pour a > m et tout ? > 0, P( Sn n ? a) = P(e?Sn ? e?na ) ? e??na E(e?Sn ) = e??na [?(?)]n = exp(?n(?a ? G(?))) d?o` u P( Sn n ? a) ? exp(?n sup ?>0 (?a ? G(?))). (6.3) 81 Ceci conduit ` a s?int´ eresser ` a la fonction I(x) = sup ??R (?x ? G(?)), x ? R. (6.4) Cette fonction s?appelle la transform´ ee de Legendre de G. Elle joue un r? ole important en analyse convexe. Indiquons quelques propri´ et´ es. Lemme 6.6.1. La fonction I(x) est positive, convexe, v´ erifie I(m) = 0, est d´ ecroissante sur ] ? ?, m] et croissante sur [m, +?[. Pour x > m, I(x) = sup?>0(?x ? G(?)). Preuve: Vu que, pour ? = 0, ?x ? G(?) = 0, I(x) ? 0. La fonction I ´ etant un sup de fonctions affines, elle est convexe. De plus, d?apr` es l?in´ egalit´ e de Jensen, eG(?) = E(e?X1 ) ? e?E(X1) = e?m , d?o` u, pour tout ?, ?m ? G(?) et donc I(m) ? 0 et I(m) = 0. De plus la fonction I ´ etant positive, convexe et nulle en m, elle croit sur [m, +?[ et d´ ecroit sur ] ? ?, m]. Enfin la fonction h(?) = ?x ? G(?) est concave, d´ erivable au voisinage de 0 et v´ erifie h(0) = 0, h (0) = x ? G (0) = x ? m > 0 et donc sup?>0(?x ? G(?)) = sup??R(?x ? G(?)). On en d´ eduit imm´ ediatement les in´ egalit´ es de Chernov: Proposition 6.6.2. On a: (i) pour tout a ? m, , P(Sn n ? a) ? e?nI(a), (ii) pour tout a ? m, P(Sn n ? a) ? e?nI(a). Preuve: (i) r´ esulte de (6.4) et du lem. 6.6.1 pour a > m et est ´ evident pour a = m puisque I(m) = 0. (ii) s?obtient en appliquant (i) ` a la suite (?Xn). 6.6.3. Minoration. Proposition 6.6.3. On a, pour tous a ? R et ? > 0, lim inf n 1 n log P(| Sn n ? a| < ?) ? ?I(a). Preuve: Si I(a) = +?, il n?y a rien ` a montrer. On suppose donc I(a) < +?. La preuve repose sur l?´ etude de plusieurs cas selon que h(?) = ?a ? G(?) atteint son maximum ou non. (i) On suppose qu?il existe ?0 ? ? ? tel que I(a) = ?0a ? G(?0). La fonction h ´ etant d´ erivable sur ? ?, on a h (?0) = 0 i.e. G (?0) = a. Soient ? la probabilit´ e sur R d´ efinie par: d?(x) = ??1 (?0) e?0x dµ(x) (6.5) et Y1, . . . , Yn, . . . une suite de v.a.r. ind´ ependantes de loi ? d´ efinies sur (? , A , P ). On pose ?n = Y1 + . . . + Yn. On v´ erifie facilement que, notant E (Z) pour Z dP , E (|Y1|) =< +? et que E (Y1) = x d?(x) = ??1 (?0) x e?0x dµ(x) = ? (?0) ?(?0) = G (?0) = a. 82 Convergence des suites de variables al´ eatoires D?autre part, pour toute f ? B+(R), E(f(Sn)) = f(x1, . . . , xn) dµ(x1) . . . dµ(xn) = ?n (?0) f(x1, . . . , xn) e??0(x1+...+xn) d?(x1) . . . d?(xn) = ?n (?0)E (f(?n)e??0?n ). On en d´ eduit que, pour tout ? ?]0, ?], P(| Sn n ? a| < ?) ? P(| Sn n ? a| < ?) = ?n (?0)E (1{| ?n n ?a|<?}e??0?n ) = ?n (?0)e?na?0 E (1{| ?n n ?a|<?}e??0n(?n n ?a)) ) ? ?n (?0)e?na?0 e?n??0 P (| ?n n ? a| < ?). D?o` u 1 n log P(| Sn n ? a| < ?) ? ?a?0 + G(?0) ? ?0? + 1 n log P (| ?n n ? a| < ?) et, puisque ?a?0 + G(?0) = ?I(a) et que P (|?n n ? a| < ?) ?n 1 (loi des grands nombres), lim inf n 1 n log P(| Sn n ? a| < ?) ? ?I(a) ? ?0?. Ce qui ´ etablit la proposition dans ce cas. (ii) On suppose qu?il existe ?k ? ? ?, ?k ? +?, tels que I(a) = limk ?ka ? G(?k). On a alors e?I(a) = lim k eG(?k)??ka = lim k e?k(x?a) dµ(x). Puisque ]??,a[ e?k(x?a) dµ(x) ?k 0, [a,+?[ e?k(x?a) dµ(x) ?k e?I(a) ce qui implique, vu que e?k(x?a) ? +? sur ]a, +?], que µ(]a, +?[) = 0 et donc que e?I(a) = µ({a}). Alors P(| Sn n ? a| < ?) ? P(X1 = . . . = Xn = a) = [µ({a})]n = e?nI(a) et la minoration cherch´ ee. Supposons: pour tout ? ? R, e?x dµ(x) = E(e?X1 ) < +?. (6.6) Alors ? = R, G(?) est partout finie et h(?) = ?a ? G(?) est une fonction concave C? sur R et on est n´ ecessaiement soit dans le cas (i), soit dans le cas (ii), ce qui prouve la proposition sous cette hypoth` ese. Une autre situation int´ eressante est la suivante. Rappelons que le support Sµ de µ est le plus petit ferm´ e F tel que µ(Fc) = 0. On pose ?µ = inf Sµ, ?µ = sup Sµ (les valeurs infinies ne sont pas exclues). Consid´ erons l?hypoth` ese: pour tout a ?]?µ, ?µ[, il existe ? ? ? ? tel que G (?) = a. (6.7) 83 Si a ?]?µ, ?µ[, on est dans la cas (i). Supposons ?µ < +? et a ? ?µ. On a pour tout ? > 0, e?x dµ(x) = ]??,?µ] e?x dµ(x) ? e??µ < +? ce qui implique que R+ ? ?. Mais, sur ? ?, G (?) = ]??,?µ] x e?x dµ(x) / ]??,?µ] e?x dµ(x) ? ?µ ? a. La fonction h(?) = ?a ? G(?) est donc croissante sur ? ? R+ (h est ? 0) et on a I(a) = sup ??? (?a ? G(?)) = lim ??+? (?a ? G(?)). On est dans le cas (ii). (Noter que, si a > ?µ, I(a) = +? puisque µ({a})) = 0). Enfin on a le m? eme r´ esultat pour a ? ?µ en consid´ erant la suite (?Xn), ce qui montre la proposition sous l?hypoth` ese (6.7). Il reste ` a examiner quelques situations sp´ eciales que nous admettons. 6.6.4. Le th´ eor` eme de Cramer. Th´ eor` eme 6.6.4. Soit X1, . . . , Xn, . . . une suite de v.a.r. ind´ ependantes et de m? eme loi µ. On suppose que e?x dµ(x) < +? si |?| ? ?0, ?0 > 0. On pose: Sn = X1 + . . . + Xn, G(?) = log e?x dµ(x), I(x) = sup ??R (?x ? G(?)). Alors on a: pour tout ferm´ e F de R, lim sup n 1 n log P( Sn n ? F) ? ? inf x?F I(x), pour tout ouvert G de R, lim inf n 1 n log P( Sn n ? G) ? ? inf x?G I(x). Preuve: La minoration est une cons´ equence imm´ ediate de la prop. 6.6.3 car, si x ? G, il existe ? > 0 tel que {y, |y ? x| < ?} ? G et P(Sn n ? G) ? P(|Sn n ? x| < ?). Passons ` a la majoration. Supposons que F+ = F ? [m, +?[= ? et F? = F?] ? ?, m] = ?. Soient b+ = inf F ? [m, +?[ et b? = sup F?] ? ?, m]. On a, vu la prop. 6.6.2 et la monotonie de I sur ] ? ?, m] et [m, +?[, P( Sn n ? F+ ) ? P( Sn n ? b+ ) ? exp(?nI(b+ )) ? exp(?n inf x?F I(x)), P( Sn n ? F? ) ? P( Sn n ? b? ) ? exp(?nI(b? )) ? exp(?n inf x?F I(x)), P( Sn n ? F) ? P( Sn n ? F+ ) + P( Sn n ? F? ) ? 2 exp(?n inf x?F I(x)). On conclut facilement puisque 1 n log 2 ?n 0 ! Si F? = ? (resp. F+ = ?), il suffit de consid´ erer la majoration ci-dessus pour F+ (resp. F?). 84 Convergence des suites de variables al´ eatoires Corollaire 6.6.5. Sous les hypoth` eses du th. 6.6.4, si I est continue au point a, si a > m, lim n 1 n log P( Sn n ? a) = ?I(a), si a < m, lim n 1 n log P( Sn n ? a) = ?I(a). Preuve: Supposons a > m. D?une part lim supn 1 n log P(Sn n ? a) ? ?I(a) et d?autre part lim inf n 1 n log P( Sn n ? a) ? lim inf n 1 n log P( Sn n > a) ? ? inf x>a I(x) = ?I(a). 6.6.5. Exemples. a. µ = ?m i.e. P(X1 = m) = 1. On a: ? = R, ?(?) = e?m , G(?) = ?m, I(x) = 0 si x = m, I(x) = +? si x = m. b. µ = p?1 + (1 ? p)?0 (0 < p < 1) i.e. P(X1 = 1) = p, P(X1 = 0) = 1 ? p. On a: ? = R, ?(?) = pe? + 1 ? p, G(?) = log(pe? + 1 ? p), I(x) = x log( x p ) + (1 ? x) log( 1 ? x 1 ? p ) si x ? [0, 1], I(x) = +? si x / ? [0, 1]. c. µ = N1(m, ?2) i.e. dµ(x) = 1 ? ? 2? exp(? 1 2?2 (x ? m)2) dx. On a: ? = R, ?(?) = exp(m? + ?2?2 2 ), G(?) = m? + ?2?2 2 , I(x) = (x ? m)2 2?2 . c. µ = G(1, ?) i.e. dµ(x) = ?e??x1]0,+?[(x) dx. On a: ? =]??, ?[, ?(?) = ? ? ? ? , ? < ?, G(?) = log( ? ? ? ? ), ? < ?, G(x) = +?, ? ? ?, I(x) = ?x ? 1 ? log(?x) si x > 0, I(x) = +? si x ? 0. Noter que µ a pour support [0, +?[ et que, pour tout a > 0, l?´ equation G (?) = a s?´ ecrit 1 ??? = a et a pour solution ? = ? ? 1 a ?] ? ?, ?[. La condition (6.7) est bien v´ erifi´ ee dans ce cas. Chapitre 7 Convergence en loi 7.1. Convergence ´ etroite On note M1 l?ensemble des probabilit´ es sur B(Rd), Cb (resp. C0, resp. Ck) l?ensemble des fonctions continues born´ ees (resp. tendant vers 0 ` a l?infini, resp. ` a support com- pact) sur Rd. Soient µn, µ ? M1. On veut donner un sens ` a ?µn converge vers µ?. Il semble naturel de demander que, pour tout A ? B(Rd), µn(A) ? µ(A) mais ceci est tr` es contraignant. Par exemple, sur R, si µn = ? 1 n et µ = ?0, on a µn(]0, 1]) = 1 et µ(]0, 1]) = 0 et donc, en ce sens, µn ne converge pas vers µ. C?est pourquoi on introduit la notion de convergence ´ etroite. 7.1.1. D´ efinition. D´ efinition 7.1.1. Soient µn, µ ? M1. On dit que µn converge ´ etroitement vers µ si, pour toute f ? Cb, f dµn ?n f dµ. Un crit` ere tr` es utile est le suivant. Rappelons que H ? C0 est total si e.v.[H] est dense dans C0 pour la norme ||f|| = supx |f(x)|. Proposition 7.1.2. Soient µn, µ ? M1. Si, pour toute f ? H, H total dans C0, f dµn ?n f dµ, µn converge ´ etroitement vers µ. Preuve: Montrons d?abord que, pour toute f ? C0, f dµn ?n f dµ. Soit V = e.v.[H]. On a V = C0 et, pour toute g ? V , g dµn ? g dµ. Soient f ? C0 et g ? V , on a | f dµn ? f dµ| ? | f dµn ? g dµn| + | g dµn ? g dµ| + | g dµ ? f dµ| ? 2||f ? g|| + | g dµn ? g dµ|. On a donc lim supn | f dµn ? f dµ| ? 2||f ? g||. Cette derni` ere quantit´ e ´ etant arbitrairement petite, f dµn ? f dµ. 86 Convergence en loi Ceci fait, on a, pour f ? Cb et g ? Ck, 0 ? g ? 1, | f dµn? f dµ| ? | f dµn? fg dµn|+| fg dµn? fg dµ|+| fg dµ? f dµ| ? ||f||(1 ? g dµn) + | fg dµn ? fg dµ| + ||f||(1 ? g dµ). On a donc lim supn | f dµn ? f dµ| ? 2||f||(1? g dµ). Vu qu?il existe gn ? Ck, 0 ? gn ? 1, tels que gn ? 1 et qu?alors gn dµ ? 1 dµ = 1, 1 ? g dµ est arbitrairement petit et f dµn ?n f dµ. Ceci montre que µn converge ´ etroitement vers µ. Il y a deus exemples particuli` erement int´ eressants d?ensemble total dans C0 ` a savoir l?espace C? k (cor. 3.5.6) et la famille (g?(x ? a), ? > 0, a ? Rd) (lem. 5.1.3). 7.1.2. L?exemple introductif montre que µn peut converger ´ etroitement vers µ sans que µn(A) converge vers µ(A). La question est de savoir pour quels ensembles on a cette convergence. On note ?A = A \ ? A la fronti` ere topologique de A i.e. la fermeture moins l?int´ erieur. Proposition 7.1.3. Soient µn, µ ? M1. On suppose que µn converge ´ etroitement vers µ. Alors, pour tout A ? B(Rd) tel que µ(?A) = 0, µn(A) ? µ(A). Preuve: Il existe fp, gp ? C+ b telles que gp ? 1A, fp ? 1? A , alors gp dµ ? µ(A) et fp dµ ? µ( ? A). D?o` u, vu l?hypoth` ese, (gp ? fp) dµ ?p 0. Soit ? > 0. Il existe donc f, g ? Cb telles que f ? 1A ? g et (g ? f) dµ < ?. On a alors f dµn ? g dµ ? µn(A) ? µ(A) ? g dµn ? f dµ d?o` u lim supn |µn(A) ? µ(A)| ? (g ? f) dµ < ?. Ceci montre que µn(A) ? µ(A). 7.1.3. On a enfin le r´ esultat tr` es important suivant: Th´ eor` eme 7.1.4. Soient µn, µ ? M1. La suite µn converge ´ etroitement vers µ ssi, pour tout t ? Rd, ? µn(t) ?n ? µ(t). Preuve: La condition est ´ evidemment n´ ecessaire puisque fx(t) = ei<t,x> ? Cb. R´ eciproquement, d?apr` es (5.5) et le th´ eor` eme de Lebesgue, g?(x ? a) dµn = (2?)?d/2 g1(?t)e?i<a,t> ? µn(t) dt ?n (2?)?d/2 g1(?t)e?i<a,t> ? µ(t) dt = g?(x ? a) dµ. Puisque H = (g?(x ? a), ? > 0, a ? Rd) est totale dans C0, on conclut gr? ace ` a la prop. 7.1.2. 87 7.2. Convergence en loi Dans cette section, Xn, X d´ esignent des v.a. ` a valeurs Rd. Rappelons qu?on note µX la loi de X et ?X sa fonction caract´ eristique. 7.2.1. Convergence en loi des v.a.. D´ efinition 7.2.1. On dit qu?une suite de v.a. Xn converge en loi vers une probabilit´ e µ (resp. une v.a. X) si la suite µXn converge ´ etroitement vers µ (resp. vers µX ). La distinction entre convergence en loi vers µ ou vers X est une simple affaire de langage car en fait c?est la loi de Xn qui converge vers µ et donc vers la loi de X pour toute v.a. X de loi µ. Vu la prop. 7.1.2 et le th. 7.1.4, on a: Proposition 7.2.2. Soient Xn des v.a. ` a valeurs Rd et µ ? M1. Il y a ´ equivalence entre: (i) Xn converge en loi vers µ, (ii) pour toute f ? H, H total dans C0, E(f(Xn)) ?n f dµ, (iii) pour tout t ? Rd, ?Xn (t) ?n ? µ(t). En particulier Xn converge en loi vers X ssi: pour tout t ? Rd , ?Xn (t) = E(ei<t,Xn> ) ?n ?X (t) = E(ei<t,X> ). Proposition 7.2.3. Si Xn converge en loi vers X et si ? : Rd ? Rp est continue, Yn = ?(Xn) converge en loi vers Y = ?(X). Preuve: Soit f ? Cb(Rp), alors f ? ? ? Cb(Rd) et E(f(Yn)) = E(f(?(Xn))) ?n E(f(?(X))) = E(f(Y )). Enfin la prop. 7.1.3 devient: Proposition 7.2.4. Soit Xn une suite de v.a. convergeant en loi vers µ. Pour tout A ? B(Rd) tel que µ(?A) = 0, on a P(Xn ? A) ?n µ(A). 7.2.2. Examinons le lien entre la convergence en loi et les convergences des v.a. ´ etudi´ ees dans la section pr´ ec´ edente. Proposition 7.2.5. Si Xn converge en probabilit´ e vers X, alors Xn converge en loi vers X. Preuve: Il suffit (prop. 7.2.2) de montrer que, pour toute f ? Ck, E(f(Xn)) ?n E(f(X)) = fdµX . Soient donc f ? Ck et ? > 0. Il existe, f ´ etant uniform´ ement continue, ? > 0 tel que |f(x) ? f(y)| ? ? si |x ? y| ? ?. On a alors |E(f(Xn)) ? E(f(X))| ? E(|f(Xn)) ? f(X)|1{|Xn?X|??}) +E(|f(Xn)) ? f(X)|1{|Xn?X|>?}) ? ? + 2||f|| P(|Xn ? X| > ?) 88 Convergence en loi d?o` u lim supn |E(f(Xn)) ? E(f(X))| ? ? et E(f(Xn)) ?n E(f(X)). Exemple. Soir Xn une suite de v.a.r. telle que P(Xn = 1) = pn et P(Xn = 0) = 1?pn avec 0 < pn < 1. Xn ?n 0 en probabilit´ e ssi pn ?n 0, Xn ?n 1 en probabilit´ e ssi pn ?n 0 et sinon ne converge pas en probabilit´ e tandis que, vu que E(f(Xn)) = pnf(1) + (1 ? pn)f(0), Xn converge en loi ssi pn ?n p. Ceci montre qu?en g´ en´ eral la convergence en loi n?implique pas la convergence en probabilit´ e. On a cependant: Proposition 7.2.6. Si Xn converge en loi vers a ? Rd, alors Xn converge en prob- abilit´ e vers a. Preuve: Soit ? > 0. On choisit f ? Cb telle que f(a) = 0 et f(x) = 1 si |x ? a| ? ?. Alors P(|Xn ? a| > ?) = E(1{|Xn?a|>?}) ? E(f(Xn)) ?n f(a) = 0. Le r´ esultat suivant sera utile. Proposition 7.2.7. Soient Xn et Yn des v.a. r´ eelles. On suppose que Xn converge en loi vers X et que Yn converge en loi vers a ? R, alors (Xn, Yn) converge en loi vers (X, a). En particulier Xn + Yn converge en loi vers X + a et XnYn converge en loi vers aX. Preuve: Posons, pour u, v ? R, ?n = E(ei(uXn+vYn))?E(ei(uX+va)). Il suffit (prop.7.2.2) de montrer que ?n ?n 0. On a |?n| ? |E[eiuXn (eivYn ? eiva )] | + |E[eiva (eiuXn ? eiuX )] | ? E(|eivYn ? eiva |) + |E(eiuXn ? eiuX )| = an + bn. D?une part, posant f(y) = |eivy ? eiva)|, f ? Cb et donc an = E(f(Yn)) ?n f(a) = 0; d?autre part, par hypoth` ese, bn ?n 0. La fin de la proposition r´ esulte de la prop.7.2.3. 7.2.3. Le cas des v.a. enti` eres. Proposition 7.2.8. Soit Xn, X des v.a. ` a valeurs N. Alors Xn converge en loi vers X ssi, pour tout k ? N, P(Xn = k) ?n P(X = k). Preuve: (i) Supposons que Xn converge en loi vers X et soit f ? Ck telle que f(k) = 1, f = 0 sur ]k ? 1, k + 1[c. On a P(Xn = k) = E(f(Xn)) ?n E(f(X)) = P(X = k). (ii) Supposons que, pour tout k ? N, P(Xn = k) ?n P(X = k). On a, pour f ? Ck et donc nulle hors de ] ? m, +m[, E(f(Xn)) = m k=?m f(k)P(Xn = k) ?n m k=?m f(k)P(X = k) = E(f(X)) = f dµX . On applique la prop. 7.2.2. 89 7.2.4. Convergence en loi et convergence des esp´ erances. Soit Xn une suite de v.a. r´ eelles int´ egrables convergeant en loi vers X. A-t-on E(Xn) ?n E(X) ? En g´ en´ eral non puisque la fonction f(x) = x est continue mais non born´ ee. Dans le sens positif, on a: Proposition 7.2.9. Soit Xn une suite de v.a. r´ eelles convergeant en loi vers X. On suppose qu?il existe ? > 0 tel que supn E(|Xn|1+?) = M < +?. Alors X ? L1 et E(Xn) ?n E(X). Preuve: Soit a > 0. On pose fa(x) = |x| ? a, ga(x) = ?a ? (x ? a). Noter que fa, ga ? Cb et que |ga(x) ? x| ? |x|1{|x|>a} ? |x|1+? a? . D?une part E(|X|1+? ? a) = E(fa(X)) = lim n E(fa(Xn)) ? E(|Xn|1+? ) ? M d?o` u, pour a ? +?, E(|X|1+?) = lim ?a E(|X|1+? ? a) ? M. D?autre part |E(Xn) ? E(X)| ? E(|Xn ? ga(Xn)|) + |E(ga(Xn)) ? E(ga(X))| + E(|ga(X) ? X|) ? E(|Xn|1+?) a? + |E(ga(Xn)) ? E(ga(X))| + E(|X|1+?) a? d?o` u lim supn |E(Xn) ? E(X)| ? 2M a? et le r´ esultat cherch´ e a ´ etant arbitrairement grand. 7.2.5. Convergence en loi et fonctions de r´ epartition Proposition 7.2.10. Soient Xn une suite de v.a. r´ eelles de fonctions de r´ epartition Fn et µ une probabilit´ e sur R de fonction de r´ epartition F. Alors Xn converge en loi vers µ ssi, pour tout t point de continuit´ e de F, Fn(t) ?n F(t). Preuve: (i) Soit t un point de continuit´ e de F. On a donc µ({t}) = F(t)?F(t?) = 0. Soit A =] ? ?, t], ?A = {t} et µ(?A) = 0 donc (prop. 7.1.3): Fn(t) = µXn (] ? ?, t]) ?n µ(] ? ?, t]) = F(t). (ii) Si Fn(t) ?n F(t) pour tout t point de continuit´ e de F, on a, les points de discontinuit´ e de F ´ etant au plus d´ enombrables puisque F est croissante, Fn ?n F ? p.p. Soient µn la loi de Xn et H = C1 k. H ´ etant total dans C0, pour montrer que Xn converge en loi vers µ, il suffit (prop. 7.1.2) de montrer que f dµn ?n f dµ pour toute f ? H. Si f ? H, f(x) = x ?? f (t) dt et on a (Fubini et Lebesgue): f dµn = +? ?? x ?? f (t) dt dµn(x) = +? ?? f (t) +? t dµn(x) dt = +? ?? f (t)(1 ? Fn(t)) dt ?n +? ?? f (t)(1 ? F(t)) dt = f dµ. On en d´ eduit un cas particulier d?un r´ esultat d? u ` a Skorokhod. 90 Convergence en loi Corollaire 7.2.11. Soit Xn une suite de v.a.r. convergeant en loi vers X?. Il existe des v.a.r. (pas n´ ecessairement d´ efinies sur le m? eme espace de probabilit´ e) Yn, 1 ? n ? +?, telles que, pour 1 ? n ? +?, loi de Yn = loi de Xn et Yn ?n Y? presque s? urement. Preuve: Soient Fn et F les fonctions de r´ epartition de Xn et X? et C(F) l?ensemble des points de continuit´ e de F. On pose F?1(u) = inf(t, F(t) ? u). Soient A = {u ? [0, 1], ?t1 = t2 tels que F(t1) = F(t2) = u} et B = [0, 1] \ A. Noter que A est d´ enombrable. et que, pour tout u ? B, y < F?1(u) ? F(y) < u et y > F?1(u) ? F(y) > u. On en d´ eduit que, pour tout u ? B, F?1 n (u) ?n F?1(u). En effet soient u ? B et y ? C(F) tels que y > F?1(u), on a F(y) > u et aussi (th. 7.2.10), pour n assez grand, Fn(y) > u et y ? F?1 n (u) ce qui implique, C(F) ´ etant dense, lim supn F?1 n (u) ? F?1(u). Consid´ erant y ? C(F) tel que y < F?1(u), on a, par un argument sym´ etrique que lim infn F?1 n (u) ? F?1(u). D?o` u limn F?1 n (u) = F?1(u) si u ? B. On consid` ere alors l?espace de probabilit´ e ([0, 1], B([0, 1]), ? = mesure de Lebesgue) et soit U la v.a. U(u) = u. On pose Yn = F?1 n (U), Y? = F?1(U). D?apr` es la prop. 4.3.2, Yn et Xn ont m? eme loi et, pour tout u ? B, Yn(u) = F?1 n (u) ?n Y?(u) = F?1(u) et, comme ?(B) = 1, Yn ?n Y? p.s. 7.2.6. Th´ eor` eme de Levy. S?il est souvent facile de montrer que ?Xn (t) ?n ?(t), il est plus d´ elicat de montrer que ?(t) est une fonction caract´ eristique. De plus ce n?est pas toujours vrai. Donnons un exemple. Soit Xn une suite de v.a.r. de loi uniforme sur [?n, +n]. On a ?Xn (0) = 1 et, pour t = 0, ?Xn (t) = 1 2n n ?n eitx dx = sin(nt) nt . Donc ?Xn (t) ?n 1{0}(t) qui n?est pas une fonction caract´ eristique puisque pas con- tinue en 0. En fait, pour f ? Ck, il est imm´ ediat que f dµXn ?n 0 et µXn converge en un sens affaiblie vers 0. La r´ eponse ` a ce probl` eme est donn´ ee par le th´ eor` eme de L´ evy. Th´ eor` eme 7.2.12. Soit Xn une suite de v.a. telle que, pour tout t ? Rd, ?Xn (t) ?n ?(t). Si ? est continue en 0, il existe une probabilit´ e µ sur Rd telle que ? µ = ? et Xn converge en loi vers µ. Preuve: On a besoin du r´ esultat d?analyse suivant que nous admettons. On dit qu?une suite µn ? Mb converge faiblement s?il existe µ ? Mb telle que, pour toute f ? C0, f dµn ?n f dµ. Alors Th´ eor` eme 7.2.13. Soient µn ? Mb telles que A = supn µn(Rd) < +?, alors il existe une sous-suite µnk convergeant faiblement. Ceci fait, on note µn la loi de Xn. Puisque µn(Rd) = 1, il existe (th.7.2.13) une sous-suite µnk telle que µnk converge faiblement vers µ ? Mb. On pose µk = µnk . D?apr` es (5.5), on a, pour tout a ? Rd, g?(x ? a) dµk(x) = (2?)?d/2 e?i<a,u> g1(?u)? µk(u) du. 91 Passant ` a la limite en k, on a (justifier), g?(x ? a) dµ(x) = (2?)?d/2 e?i<a,u> g1(?u)?(u) du. On a donc vu (5.5), pour tout a ? Rd, e?i<a,u> g1(?u)? µ(u) du = e?i<a,u> g1(?u)?(u) du. D?o` u (th.5.1.2) ? µ(u)g1(?u) = ?(u)g1(?u) ? p.p. et, g1 ´ etant > 0, ? µ(u) = ?(u) ? p.p. Soit E = {? µ = ?}, on a ?(Ec) = 0. Il existe donc xn ? E tel que xn ? 0. On a, pour tout n, ? µ(xn) = ?(xn) et, les deux fonctions ´ etant continues en 0, µ(Rd) = ? µ(0) = ?(0) = limn ? µn(0) = 1. Donc µ ? M1 et (prop. 7.1.2) µk converge ´ etroitement vers µ. On en d´ eduit que ? = ? µ et que µn converge ´ etroitement vers µ. 7.3. Convergence vers la loi normale 7.3.1. Le th´ eor` eme de la limite centrale. Th´ eor` eme 7.3.1. Soit Xn une suite de v.a. ` a valeurs Rd ind´ ependantes et de m? eme loi. On suppose que E(|X1|2) < +? et on pose m = E(X1), K = K(X1), Sn = X1 + . . . , Xn. Alors 1 ? n (Sn ? nm) converge en loi vers Nd(0, K). Preuve: Il suffit de consid´ erer le cas o` u m = E(X1) = 0. On pose ?(t) = ?X1 (t). Vu la prop. 5.2.5, ? ?tk ?(0) = 0, ?2 ?tjtk ?(0) = ?Kj,k. On a donc ?(t) = 1 ? 1 2 tT Kt + |t|2 ?(t) avec lim t?0 |?(t)| = 0. On en d´ eduit ? 1 ? n Sn (t) = ?Sn ( t ? n ) = (?( t ? n ))n = (1 ? 1 2n tT Kt + |t|2 n ?( t ? n ))n ?n exp(? 1 2 tT Kt). Ceci d?apr` es le lem. 7.3.2 ci-dessous. Donc 1 ? n Sn converge en loi vers Nd(0, K) d?apr` es la prop. 7.2.2. Lemme 7.3.2. Soient zn, z ? C tels que zn ?n z, alors on a (1 + zn n )n ?n ez. Preuve: Pour zn ? R, le r´ esultat est classique. Remarquant que, pour a, b ? C, on a |an ? bn| ? n|a ? b| si |a| ? 1, |b| ? 1, on a | (1 + zn n )n (1 + |zn| n )n ? ez e|z| | = |( 1 + zn n 1 + |zn| n )n ? ( e z n e |z| n )n | ? n | 1 + zn n 1 + |zn| n ? e z n e |z| n | ? n |(1 + zn n ) e |z| n ? (1 + |zn| n ) e z n | (1 + |zn| n ) e |z| n ? |zn + |z| ? |zn| ? z + ?( 1 n)| (1 + |zn| n ) e |z| n ?n 0. 92 Convergence en loi Donc (1+ zn n )n (1+ |zn| n )n ?n ez e|z| et, vu que (1 + |zn| n )n ?n e|z|, (1 + zn n )n ?n ez. 7.3.2. Le cas r´ eel. Corollaire 7.3.3. Soit Xn une suite de v.a.r. ind´ ependantes, de m? eme loi, de carr´ e int´ egrable. On pose Sn = X1 + . . . + Xn, m = E(X1), ?2 = Var(X1) qu?on suppose > 0. Alors, pour ?? ? a < b ? +?, P(a < Sn ? nm ? ? n < b) ?n 1 ? 2? b a e? t2 2 dt. Preuve: Ceci r´ esulte du th. 7.3.1 et de la prop. 7.2.4. Exemple. Soient X1, . . . , Xn, . . . une suite de v.a. r´ eelles ind´ ependantes et de m? eme loi de Poisson P(1) et Sn = X1 + . . . + Xn. On sait (2.3.3) que Sn ? P(n) et (2.2.5) que E(Sn) = n, Var(Sn) = n. Posons Yn = Sn ? n ? n . D?apr` es le th. 7.3.1, Yn converge en loi vers Z ? N1(0, 1). Soit h(x) = (?x) ? 0, h est continue donc (prop.7.2.3) Y ? n = h(Yn) converge en loi vers Z? = h(Z). Vu que E((Y ? n )2) ? E(Y 2 n ) = 1 nVar(Sn) = 1, on a (prop. 7.2.9) E(Y ? n ) ?n E(Z?). Mais E(Y ? n ) = E(h(Yn)) = +? k=0 h( k ? n ? n )P(Sn = k) = n k=0 n ? k ? n e?n nk k! = e?n ? n { n k=0 nk+1 k! ? n k=1 nk (k ? 1)! } = e?n ? n nn+1 n! = e?nnn? n n! et E(Z? ) = 1 ? 2? +? ?? x? e? x2 2 dx = 1 ? 2? +? 0 xe? x2 2 dx = 1 ? 2? +? 0 d(?e? x2 2 ) = 1 ? 2? d?o` u e?nnn? n n! ?n 1 ? 2? i.e. n! ? ? 2?n e?nnn (formule de Stirling). 7.3.3. Vitesse de convergence. Pour d = 1, le th´ eor` eme de la limite centrale nous dit que, pour n assez grand, la loi de Sn?nm ? ? n i.e. de Sn centr´ ee r´ eduite est proche de la loi N1(0, 1). Pour ? etre vraiment utile, un tel r´ esultat doit ? etre accompagn´ e de pr´ ecisions sur la vitesse de convergence. A ce sujet, on a le th´ eor` eme de Berry-Esseen que nous montrerons section 7.4. Th´ eor` eme 7.3.4. Soit Xn une suite de v.a. ind´ ependantes et de m? eme loi avec E(|X1|3) < +?. On pose m = E(X1), ?2 = E(X1 ? m)2, ? = E(|X1 ? m|3). Alors: sup x | P( Sn ? nm ? ? n ? x) ? 1 ? 2? x ?? e? t2 2 dt | ? ? ?3 ? n . 93 Exemple. Soit Zn ? B(n, p). On a Zn = n k=1 Xk avec Xk v.a. ind´ ependantes de loi B(1, p). On a, posant q = 1 ? p, ?2(X1) = pq, ? = pq(p2 + q2) ? pq et finalement | P( Zn ? np ? npq ? x) ? 1 ? 2? x ?? e? t2 2 dt | ? 1 ? pqn . On voit que cette approximation est peu fiable pour p proche de 0 ou 1. 7.4. Compl´ ement : d´ emonstration du th´ eor` eme de Berry- Esseen. Il s?agit de montrer le th. 7.3.4. En fait nous montrons un ´ enonc´ e un peu diff´ erent o` u la conctante C n?est pas pr´ ecis´ ee. Cette valeur de C n?est pas connue, on sait seulement que C ? 0, 8. Th´ eor` eme. Il existe une constante universelle C telle que, pour toute suite Xn de v.a.r. ind´ ependantes et de m? eme loi avec E(|X1|3) < +?, on ait, posant m = E(X1), ?2 = E(X1 ? m)2, ? = E(|X1 ? m|3), sup x | P( Sn ? nm ? ? n ? x) ? 1 ? 2? x ?? e? t2 2 dt | ? C ? ?3 ? n . 7.4.1. Preuve: (D?apr` es Ho et Chen reprenant une m´ ethode de Stein). On fixe n et on pose Yi = Xi?m ? ? n , Un = n 1 Yi µ = loi de Yi. On a E(Yi) = 0, n E(Y 2 i ) = 1, n3/2E(|Yi|3) = ?, ? n E(|Y1| ? || ? nY1||3 ? || ? nY1||3 3 = ? puisque || ? nY1||3 ? || ? nY1||2 = 1. On note ?(x) = 1 ? 2? e? x2 2 , ?(x) = 1 ? 2? x ?? e? t2 2 dt. Il s?agit de montrer que sup x |P(Un ? x) ? ?(x)| ? C ? ? n . (7.1) On consid` ere, pour b ? R, notant N(h) = h(t)?(t) dt, fb(x) = e x2 2 x ?? e? t2 2 (hb(t) ? N(hb)) dt, hb = 1]??,b] . (7.2) La fonction fb est d´ erivable en tout x = b, d?o` u, posant fb(b) = bf(b) + 1 ? N(hb), pour tout x ? R, fb(x) ? xfb(x) = hb(x) ? N(hb). (7.3) On a donc P(Un ? b) ? ?(b) = E(fb(Un) ? Unfb(Un)). (7.4) 94 Convergence en loi 7.4.2. On admet pour l?instant que pour tout x ? R, |fb(x)| ? 1, |fb(x)| ? 1. (7.5) On dira que f ? C si f ? B(R) et, s?il existe f ? B(R) telle que, pour tous x < y, f(y) ? f(x) = y x f (t) dt. Soit f ? C. Vu la sym´ etrie, l?ind´ ependance et Fubini, E(Unf(Un)) = n i=1 E(Yi f( j=i Yj + Yi)) = n E(Ynf( n?1 i=1 Yi + Yn)) = n E(sf(Un?1 + s)) dµ(s)) = n E(s(f(Un?1 + s) ? f(Un?1)) dµ(s) = nE( s?0 s 0 f (Un?1 + t) dt dµ(s) ? nE( s<0 0 s f (Un?1 + t) dt dµ(s). On obtient donc, posant K(t) = n [t,+?[ s dµ(s), t ? 0, K(t) = ?n ]??,t] s dµ(s), t < 0, (7.6) E(Unf(Un)) = E( f (Un?1 + t)K(t) dt), f ? C. (7.7) Vu l?ind´ ependance, (7.4) peut s?´ ecrire: P(Un ? b) ? ?(b) = E( [ fb(Un?1 + s) ? fb(Un?1 + t) ] K(t) dt dµ(s)). (7.8) Donnons quelques propri´ et´ es de K(t). Lemme 7.4.1. K(t) est une densit´ e de probabilit´ e v´ erifiant |t|K(t) dt = ? 2 ? n et {|t|??/ ? n} K(t) dt ? 1/2. Preuve: Evidemment K(t) ? 0. Par Fubini sur R+ et R?, |t|rK(t) dt = n r+1 |s|r+2 dµ(s). D?o` u K(t) dt = nE(Y 2 1 ) = 1 et |t|K(t) dt = n 2 E(|Y1|3) = ? 2 ? n . Enfin {|t|>?/ ? n} K(t) dt ? ? n ? {|t|>?/ ? n} |t|K(t) dt ? ? n ? |t|K(t) dt = 1 2 . La preuve repose sur une in´ egalit´ e de concentration pour Un?1. Lemme 7.4.2. On a, pour tous a < b, P(a < Un?1 < b) ? b ? a + 2?/ ? n. Preuve: On consid` ere la fonction f d´ efinie par f(x) = ?b?a 2 ? ? ? n si x ? a ? ? ? n , f(x) = x ? b+a 2 si a ? ? ? n ? x ? b + ? ? n et f(x) = b?a 2 + ? ? n si x ? b + ? ? n . On a 95 |f(x)| ? b?a 2 + ? ? n et f ? C avec f (x) = 1{a? ? ? n ?x?b+ ? ? n }. On a alors, vu (7.7), le lem. 7.4.1 et que E(|Un|) ? {E(U2 n)}1/2 = 1, P(a < Un?1 < b) ? 2E( {|t|??/ ? n} 1{a<Un?1<b}K(t) dt ) ? 2E( 1{a? ? ? n <Un?1+t<b+ ? ? n }K(t) dt ) = 2E( f (Un?1 + t)K(t) dt) = 2E(Unf(Un)) ? 2||f||? ||Un||1 ? b ? a + 2 ? ? n . On peut maintenant exploiter (7.8). Remarquons d?abord que, vu (7.5), |fb(u + s) ? fb(u + t)| ? |(u + s)fb(u + s) ? (u + t)fb(u + t)| + |hb(u + s) ? hb(u + t)| ? |u| |fb(u + s) ? fb(u + t)| + |sfb(u + s)| + |tfb(u + t)| + |hb(u + s) ? hb(u + t)| ? (|u| + 1)(|t| + |s|) + 1{s?t}1{b?s?u?b?t} + 1{s<t}1{b?t?u?b?s}. Reportant ceci dans (7.8), on obtient, utilisant le lem. 7.4.2, que |t|K(t) dt = ? 2 ? n , que |s| dµ(s) = E(|Y1|) ? ? ? n et que E(|Un?1|) ? {E(U2 n?1)}1/2 ? 1, sup b |P(Un ? b) ? ?(b)| ? (|s| + |t|)(E(|Un?1| + 1)K(t) dµ(s) dt + 1{s?t}P(b?s ? Un?1 ? b?t)dµ(s) dt+ 1{s<t}P(b?t ? Un?1 ? b?s)dµ(s) dt ? 3 (|s| + |t|)K(t) dµ(s) dt + 2? ? n ? 13 2 ? ? n . 7.4.3. Il reste ` a montrer (7.5). On a les in´ egalit´ es classiques suivantes: pour x ? 0, ?(x) ? x(1 ? ?(x)), pour x ? 0, ?(x) ? |x| ?(x). En effet, pour x > 0, on a (d´ eriver) : ?(x) x = 1 ? 2? +? x (1 + 1 t2 )e?t2/2 dt ? 1 ? ?(x). Par sym´ etrie on obtient le cas x < 0. On suppose b ? 0. Le cas b < 0 se traite de fa¸ con analogue mais on voit facilement, rempla¸ cant Un par ?Un, qu?il suffit de montrer (7.1) pour x ? 0. On remarque d?abors que: pour x ? b, fb(x) = ?(b)(1 ? ?(x)) ?(x) ; pour x ? b, fb(x) = ?(x)(1 ? ?(b)) ?(x) . (i) On suppose x > b. Alors fb(x) = ?(b)(x(1??(x)) ?(x) ? 1) d?o` u ?1 ? fb(x) ? 0. 96 Convergence en loi (ii) On suppose 0 ? x < b. Alors fb(x) = 1 ? ?(b) + x?(x) ?(x) (1 ? ?(b)) d?o` u 0 ? fb(x) ? 1 ? ?(b) + x?(x) ?(x) (1 ? ?(x)) ? 1 ? ?(b) + ?(x) ? 1. (iii) On suppose x < 0 ? b. Alors fb(x) = (1 ? ?(b))(1 + x?(x) ?(x) ) d?o` u 0 ? fb(x) ? 1 ? ?(b) ? 1. Le calcul pr´ ecedent montre que fb(x) atteint son maximum en b. On a donc 0 ? fb(x) ? ?(b)(1??(b)) ?(b) ? 1. En effet ?(b)(1??(b)) ?(b) ? ?(b) b ? 1 si b ? b0 avec b0 ? 0, 8 et, pour 0 ? b ? b0, ?(b)(1??(b)) ?(b) ? 1 4?(b) ? 1 4?(b0) ? 1 4?(0,8) ? 1. 7.5. Compl´ ement: comportement asymptotique de la m´ ediane empirique. La lecture de cette section suppose que l?on a lu la section 4.9. Soit µ une probabilit´ e sur R. On note F sa fonction de r´ epartition (def. 4.3.1). On sait que F est continue ssi µ({x}) = 0 pour tout x ? R. 7.5.1. M´ ediane. Tout r´ eel ? tel que µ(] ? ?, ?]) ? 1 2 et µ([?, +?[) ? 1 2 s?appelle la m´ ediane de µ. On a donc, X ´ etant une v.a. de loi µ, P(X ? ?) ? 1 2 et P(X ? ?) ? 1 2 i.e. F(?) ? 1 2 et F(??) ? 1 2 . Il y a donc trois cas possibles. (i) Il existe un unique ? tel que F(?) = 1 2 . Ce nombre ? est alors l?unique m´ ediane. En particulier, c?est le cas si F est continue strictement croissante. (ii) Il existe une infinit´ e de ? tel que F(?) = 1 2 . Tous ces nombres ? sont des m´ edianes et ce sont les seuls. (iii) Il existe ? (´ evidemment unique) tel que F(??) ? 1 2 et F(?) > 1 2 . Ce nombre ? est l?unique m´ ediane. 7.5.2. On consid` ere maintenant une suite X1, . . . , Xn, . . . de v.a.r. ind´ ependantes de m? eme loi µ. On suppose que F fonction de r´ epartition de µ est continue. Soit Mn la m´ ediane empirique de X1, . . . , X2n+1 (voir (4.29)). Proposition 7.5.1. On suppose qu?il existe un unique ? tel que F(?) = 1 2 . Alors Mn ?n ? p.s. Preuve: Soient s < ? < t et Fn(u) = 1 n n i=1 1]??,u ](Xi). Noter que p.s. F2n+1(Mn) = n+1 2n+1 et que (vu l?unicit´ e de ?) F(s) < F(?) < F(t). Vu le th.6.4.1, F2n+1(s) ?n F(s) < 1 2 et F2n+1(t) ?n F(t) > 1 2 p.s. et donc 1]s,t ](Mn) ?n 1 p.s. On en d´ eduit que p.s. lim infn Mn ? ? et lim supn Mn ? ? i.e. Mn ?n ? p.s. 97 Th´ eor` eme 7.5.2. On suppose que µ a une densit´ e p(x), qu?il existe un unique ? tel que F(?) = 1 2 , que p est continue en ? et que p(?) > 0. Alors Zn = ? 2n + 1(Mn ??) converge en loi vers N1(0, 1 4p2(?) ). Preuve: Nous allons montrer que la densit´ e gn(u) de Zn converge vers celle de N1(0, 1 4p2(?) ) uniform´ ement sur tout compact, ce qui montrera le th´ eor` eme vu la prop 7.2.2 en choisissant H = Ck. D?apr` es (4.33), la densit´ e de Mn est: (2n + 1)! (n!)2 (F(t))n (1 ? F(t))n p(t). Un changement de variable montre que celle de Zn est: gn(u) = ?n . {?n(u) }n . p(? + u ? 2n + 1 ) ?n = (2n + 1)! (n!)2 ? 2n + 1 1 4n , ?n(u) = 4F(? + u ? 2n + 1 )(1 ? F(? + u ? 2n + 1 )). Utilisant la formule de Stirling n! ? (n e )n ? 2?n, on voit que ?n ?n 2 ? . Fixons A > 0. L?´ ecriture ?n(u) = o( 1 an ) signifie que an ?n(u) ?n 0 uniform´ ement en |u| ? A. On a alors, puisque F = p et F(?) = 1 2 , 2F(? + u ? 2n + 1 ) = 1 + u ? 2n + 1 p(?) (1 + o(1)) 2(1 ? F(? + u ? 2n + 1 )) = 1 ? u ? 2n + 1 p(?) (1 + o(1)), d?o` u n log ?n(u) = n(? 4u2 2n + 1 p2 (?) + o( 1 n )) = ?2u2 p2 (?) + o(1). Finalement gn(u) ?n 2p(?) ? 2? e?2u2p2(?) uniform´ ement en |u| ? A. Mais cette derni` ere expression est la densit´ e de N1(0, ?2) pour ?2 = 1 4p2(?) . 7.5.3. Dans bien des cas, le th. 7.5.2 peut remplacer avantageusement le th. 7.3.1. Par exemple soit X1, . . . , X2n+1 un 2n + 1 ´ echantillon de la loi de Cauchy de densit´ e p?(x) = 1 ?(1 + (x ? ?)2) . Cette loi n?a pas de moyenne mais a ? pour m´ ediane. De plus p?(?) = 1 ? . Dans ce cas Mn ?n ? p.s. et ? 2n + 1(Mn ? ?) tend en loi vers N1(0, ?2 4 ). Plus g´ en´ eralement soit p(x) une fonction d´ efinie sur R, positive, paire, continue au voisinage de 0 et d?int´ egrale 1. On suppose que a = p(0) > 0 et que x2p(x) dx = ?2 < 98 Convergence en loi +?. On consid` ere un 2n+1 ´ echantillon de la loi de densit´ e p?(x) = p(x??). cette loi a pour moyenne ? et pour m´ ediane ?. Pour estimer ?, on peut utliser aussi bien X2n+1 = 1 2n+1 2n+1 i=1 Xi que Mn. Pour comparer ces estimateurs, on peut observer que, d?apr` es les th. 7.3.1 et 7.5.2, X2n+1 et Mn sont, pour n assez grand, approximativement gaussiens de moyenne ? et de variances ?2 2n+1 et 1 4a2(2n+1) . On peut, suivant les cas, pr´ ef´ erer l?un ou l?autre. Chapitre 8 Notions de statistique 8.1. Echantillon. Mod` ele statistique 8.1.1. R´ epartition empirique. Soit µ une probabilit´ e sur Rd. D´ efinition 8.1.1. On appelle ´ echantillon de taille n (ou n-´ echantillon) de la loi µ une suite X1, . . . , Xn de n v.a. ind´ ependantes et de loi µ. On appelle r´ ealisation du n-´ echantillon le r´ esultat de n tirages ind´ ependants selon la loi µ. C?est une suite x1, . . . , xn de Rd. Par extension, on appelle ´ echantillon de taille infinie de la loi µ une suite de (Xn, n ? 1) de v.a. ind´ ependantes et de loi µ. D´ efinition 8.1.2. Soit X = (X1, . . . , Xn, . . .) un ´ echantillon de taille infinie de la loi µ. La probabilit´ e (al´ eatoire) µX n = 1 n n k=1 ?Xk (8.1) s?appelle la r´ epartition empirique d?ordre n de µ. On a alors: Proposition 8.1.3. Presque s? urement, µX n converge ´ etroitement vers µ. Preuve: D?apr` es la loi des grands nombres, pour toute f ? Cb, f dµX n = 1 n n k=1 f(Xk) ?n E(f(X1)) = f dµ p.s. Soit ? = {?1, . . . , ?p, . . .} un ensemble dense dans C0. On a p.s. ?p dµX n ?n ?p dµ pour tout p et donc (prop. 7.1.2) p.s. µX n converge ´ etroitement vers µ. 100 Notions de statistique 8.1.2. Le cas r´ eel. On suppose d = 1 et on note F la fonction de r´ epartition de µ. La fonction de r´ epartition de µX n s?appelle la fonction de r´ epartition empirique de µ et se note FX n . On a donc FX n (t) = µX n (] ? ?, t ]) = 1 n n k=1 1]??,t ](Xk). (8.2) Il r´ esulte de (8.2) que nFX n (t) ? B(n, F(t)) et que, pour tout t, FX n (t) ?n F(t) p.s. En fait, on a un r´ esultat beaucoup plus fort appel´ e th´ eor` eme de Glivenko-Cantelli: Th´ eor` eme 8.1.4. supt?R |FX n (t) ? F(t)| ?n 0 p.s. Preuve: On pose Fn = FX n . (i) On suppose que µ est la loi uniforme sur [0, 1]. D?apr` es (8.2) et la loi des grands nombres, il existe A ? A avec P(A) = 1 tel que, pour tout ? ? A, tout k ? 0 et tout p > 0, Fn(k p ) ?n F(k p ). On a alors, pour ? ? A, pour k = 1, . . . , p et pour t ? [k?1 p , k p ], Fn( k ? 1 p )? k ? 1 p ? 1 p = Fn( k ? 1 p )? k p ? Fn(t)?t ? Fn( k p )? k ? 1 p = Fn( k p )? k p + 1 p d?o` u sup 0?t?1 |Fn(t) ? t| ? max 1?k?p |Fn( k p ) ? k p | + 1 p et lim supn sup0?t?1 |Fn(t) ? t| ? 1 p. Comme p est arbitraire, ceci implique que sup0?t?1 |Fn(t) ? t| ?n 0. (ii) On suppose qu?il existe des v.a. U1, . . . , Un, . . . ind´ ependantes et de loi U(0, 1) telles que Xn = F?1(Un) o` u F?1(u) = inf(t, F(t) ? u). Rappelons (voir(4.15)) que u ? F(t) ssi F?1(u) ? t. On note G la fonction de r´ epartition de U(0, 1) et on pose Gn = 1 n n k=1 1]??,t ](Uk). Vu que Uk ? F(t) ssi Xk ? t, on a Fn(t)?F(t) = 1 n n k=1 1]??,t ](Xk)?F(t) = 1 n n k=1 1]??,F(t) ](Uk)?F(t) = Gn(F(t))?F(t). On a donc supt?R |Fn(t) ? F(t)| = supt?R |Gn(F(t)) ? F(t)| ? sup0?t?1 |Gn(t) ? t| avec ´ egalit´ e si F est continue car alors F(R) ?]0, 1[. Ceci montre que supt?R |Fn(t) ? F(t)| ?n 0 p.s. et que sa loi est ind´ ependante de F si F est continue. (iii) En fait on ne peut pas toujours ´ ecrire que Xn = F?1(Un) mais il existe un espace de probabilit´ e (? , A , P ) et, sur cet espace, des v.a. U1, . . . , Un, . . . ind´ ependantes et de loi U(0, 1) telles que les v.a. Xn = F?1(Un) soient ind´ ependantes et de m? eme loi que Xn (prop. 4.3.2). On conclut alors gr? ace ` a: Lemme 8.1.5. Soient, pour i = 1, 2, (Xi n, n ? 1) des v.a.r. d´ efinies sur (?i, Ai, Pi) telles que, pour tout n, (X1 1 , . . . , X1 n) et (X2 1 , . . . , X2 n) aient m? eme loi et ?n ? B+(Rn). Alors, si ?n(X1 1 , . . . , X1 n) ?n 0 P1 p.s., ?n(X2 1 , . . . , X2 n) ?n 0 P2 p.s. 101 Preuve: Ceci r´ esulte de ce que Zi n = ?n(Xi 1, . . . , Xi n) ?n 0 Pi p.s ssi, pour tout ? > 0, sup m Pi ( max n?k?n+m |Zi n| > ?) ?n 0. 8.1.3. Moments empiriques. Soit µ une probabilit´ e sur R telle que |x|p dµ < +?, p ? 2. On note m = x dµ(x), ?2 = (x ? m)2 dµ(x). On pose, pour r ? N, r ? p, Mr n = xr dµX n (x) = 1 n n k=1 Xr k. (8.3) Alors Mr n s?appelle le moment empirique d?ordre r. En particulier, on note Xn = M1 n = 1 n n k=1 Xk, (8.4) quantit´ e qui s?appelle la moyenne empirique. On a E(Xn) = m, Var(Xn) = 1 n2 n k=1 Var(Xk) = ?2 n et (loi des grands nombres) Xn ?n m p.s. Lemme 8.1.6. Soient a, x1, . . . , xn ? R et x = 1 n n k=1 xk. Alors n k=1 (xk ? x)2 = n k=1 (xk ? a)2 ? n(x ? a)2 = n k=1 x2 k ? n(x)2 . Preuve: Il suffit de noter que (xk ? x) = 0 et d?´ ecrire xk ? x = xk ? a + a ? x. Soit ? s2 n la variance de la r´ epartition empirique µX n . On a, vu le lem.8.1.6, ? s2 n = 1 n n k=1 X2 k ? (Xn)2 = 1 n n k=1 (Xk ? Xn)2 = 1 n n k=1 (Xk ? m)2 ? (Xn ? m)2 et E(? s2 n) = ?2??2 n = ?2. C?est pourquoi on pr´ ef` ere en g´ en´ eral appel´ e variance empirique la quantit´ e s2 n = 1 n ? 1 n k=1 (Xk ? Xn)2 (8.5) qui v´ erifie E(s2 n) = ?2. Noter (lem. 8.1.6) que s2 n = 1 n ? 1 n k=1 X2 k ? n n ? 1 (Xn)2 ?n E(X2 1 ) ? m2 = ?2 p.s. Si n est fix´ e, on ´ ecrit simplement X et s2 pour Xn et s2 n. 102 Notions de statistique 8.1.4. Mod` ele statistique. Soit X = (X1, . . . , Xn) un n-´ echantillon d?une loi µ sur R. En statistique, la loi µ est totalement ou partiellement inconnue, ce qu?on mod` elise en disant que µ appartient ` a la famille (µ?, ? ? ?). Dans ce polycopi´ e, le plus souvent on aura ? ? Rp. Alors X = (X1, . . . , Xn) est une v.a. de loi µ?n ? . Ceci est un cas particulier de la situation plus g´ en´ erale suivante. D´ efinition 8.1.7. On appelle mod` ele statistique un terme (X, A, (P?)???) o` u (P?)??? est une famille de probabilit´ es sur l?espace mesurable (X, A). L?ensemble ? s?appelle l?espace des param` etres et on note X l?application iden- tique de X dans X. On appellera statistique ` a valeurs (E, E) toute application mesurable de (X, A) dans (E, E). Evidemment, pour chaque ? ? ?, (X, A, P?) est un espace de probabilit´ e. On note alors E? l?esp´ erance pour P?. Tr` es grossi` erement le probl` eme est le suivant. On tire x ? X selon P?, ? ? ? ´ etant inconnu et, ` a la vue du point x tir´ e, on cherche ` a dire quelque chose sur ?. Exemple. Soit X1, . . . , Xn) un n-´ echantillon de la loi N1(m, ?2), m et ?2 ´ etant incon- nus. D´ ecrivons le mod` ele statistique correspondant. On a X = Rn , A = B(Rn ), ? = (m, ?2 ), ? = R×]0, ?[, P? = q?.? avec q?(x1, . . . , xn) = (2??2 )?n/2 exp(? 1 2?2 n k=1 (xk ? m)2 ). Plus g´ en´ eralement: D´ efinition 8.1.8. Soit (µ?, ? ? ?) une famille de probabilit´ es sur Rd. On ap- pelle mod` ele statistique associ´ e ` a un ´ echantillon de taille infinie de µ? le mod` ele (X, A, (P?)???) o` u X = (Rd )N , x = (x1, . . . , xn, . . .), Xn(x) = xn, A = ?(Xn, n ? 1) et o` u, pour chaque ? ? ?, P? est une probabilit´ e sur (X, A) telle que les v.a. X1, . . . , Xn, . . . soient ind´ ependantes et de loi µ?. On admet l?existence d?une telle probabilit´ e P? qui est unique vu le cor. 3.2.3 appliqu´ e ` a C = ?n?(X1, . . . , Xn). 8.2. Estimation Soient (X, A, (P?)???) un mod` ele statistique et f une application mesurable de ? dans R. On veut estimer f(?) ` a la vue de x ? X r´ esultat d?un tirage selon P?, ? inconnu. Un estimateur de f(?) est donc une application mesurable T de X dans R. Si on a tir´ e x, on estime f(?) par T(x). Il reste ` a pr´ eciser ce qu?est un ?bon? estimateur. 8.2.1. Risque quadratique. 103 D´ efinition 8.2.1. Soit T un estimateur de f(?). On appelle risque quadratique de T la fonction RT (?) = E?[(T ? f(?))2 ]. (8.6) Soient S et T deux estimateurs de f(?). On dit que T est au moins aussi bon que S si, pour tout ? ? ?, RT (?) ? RS(?). On dit T est meilleur que S s?il est au moins aussi bon et si, pour un ? ? ?, RT (?) < RS(?). Enfin on dit que T est admissible s?il n?existe pas un meilleur estimateur. Il faut noter que comparer des estimateurs, c?est comparer des fonctions de ? et, qu?en g´ en´ eral, il n?y a aucune raison pour que l?un soit meilleur que l?autre. Par exemple, soit a ? ? et T = f(a). Alors RT (a) = 0 et, en a, cet estimateur aura un risque plus faible que tous les autres alors que, pour d?autres valeurs de ?, son risque sera ´ elev´ e. Pour avoir un estimateur optimal, on est donc amen´ e ` a restreindre la classe des estimateurs consid´ er´ es. C?est pourquoi on introduit: D´ efinition 8.2.2. On dit que T est un estimateur sans biais de f(?) (en abr´ eg´ e e.s.b.) si, pour tout ? ? ?, E?(T) = f(?). C?est une qualit´ e qu?il est naturel d?imposer ` a un estimateur. Cependant cette condition est assez contraignante ce qui est un avantage (on aura assez facilement des estimateurs sans biais optimaux parmi les e.s.b.) et un inconv´ enient (on laisse ´ echapper de tr` es bons estimateurs). Si T est un e.s.b. de f(?), alors RT (?) = E?[(T ? f(?))2 ] = E?[(T ? E?(T))2 ] = Var?(T), ce qui conduit ` a la d´ efinition suivante. D´ efinition 8.2.3. Soit T un estimateur de f(?). On dit que T est un estimateur sans biais de variance minimum de f(?) (en abr´ eg´ e e.s.b.v.m.) si T est un e.s.b. de f(?) et si, pour tout S e.s.b. de f(?), on a, pour tout ? ? ?, Var?(T) ? Var?(S). 8.2.2. Exemple. Soit X un 1-´ echantillon de B(n, ?), 0 < ? < 1 inconnu. On veut estimer f1(?) = ?, f2(?) = ?2, f3(?) = ? ? ?2. Notons d?abord que, si ?1 et ?2 sont deux e.s.b. de f(?), on a, posant ? = ?1 ??2, pour tout ?, E?(?(X)) = 0, soit: 0 = n k=0 Ck n?k (1 ? ?)n?k ?(k) = (1 ? ?)n n k=0 Ck n( ? 1 ? ? )k ?(k). Donc, pour tout u ?]0, 1[, n k=0 Ck n?(k)uk = 0 et ? ? 0 i.e. ?1 = ?2. Un e.s.b. est donc unique et c?est un e.s.b.v.m. (i) On sait que E?(X) = n? d?o` u X n est un e.s.b. et donc un e.s.b.v.m. de ?. (ii) On sait que Var?(X) = n?(1??) d?o` u E?(X2) = n2?2 +n?(1??) = n(n?1)?2 +n? et X(X?1) n(n?1 est un e.s.b. et donc un e.s.b.v.m. de ?2. 104 Notions de statistique (iii) Il r´ esulte de (i) et (ii) que E?(X n ? X(X?1) n(n?1 ) = ? ? ?2. Donc X(n?X) n(n?1 est un e.s.b. et aussi un e.s.b.v.m. de ? ? ?2. 8.2.3. Un crit` ere g´ en´ eral. Proposition 8.2.4. Soit T un e.s.b. de f(?). C?est un e.s.b.v.m. ssi, pour toute statistique r´ eelle U telle que, pour tout ? ? ?, E?(U) = 0, on a, pour tout ? ? ?, E?(TU) = 0. Preuve: (i) On suppose que T v´ erifie la condition ci-dessus. Soient S un e.s.b. de f(?) et U = S ? T. On a E?(U) ? 0 et Var?(S) = Var?(T + U) = Var?(T) + Var?(U) + 2Cov?(T, U) ? Var?(T) puisque Cov?(T, U) = E?(TU) ? E?(T)E?(U) ? 0. (ii) On suppose que T est un e.s.b.v.m. de f(?). Soient U telle que E?(U) ? 0 et S = T + ?U. Evidemment S est un e.s.b. de f(?). On a, puisque E?(U) ? 0, Var?(S) = Var?(T + ?U) = Var?(T) + 2?E?(TU) + ?2 Var?(U). Supposons E?(TU) > 0. Choisissant ? < 0 assez pr` es de 0, on a Var?(S) < Var?(T) ce qui contredit T e.s.b.v.m. On fait le m? eme raisonnement si E?(TU) < 0 et finalement on obtient E?(TU) ? 0. 8.2.4. Applications. (i) Soit X1, . . . , Xn un n-´ echantillon de la loi de Poisson P(?), ? > 0 inconnu. On veut estimer ?. La loi de (X1, . . . , Xn) est P?(X1 = x1, . . . , Xn = xn) = e?n? ?x1+...+xn x1! . . . xn! , xk ? N. Puisque E?(X1) = ?, X = 1 n n k=1 Xk est un e.s.b. de ?. Soit U = U(x1, . . . , xn), xk ? N, telle que E?(U) ? 0. On a alors, pour tout ? > 0, x1,...,xn U(x1, . . . , xn) ?x1+...+xn x1! . . . xn! = 0. (8.7) D´ erivant (8.7) en ?, on a, pour tout ?, x1,...,xn U(x1, . . . , xn)(x1 + . . . + xn) ?x1+...+xn x1! . . . xn! = 0, soit encore E?(UX) ? 0. On applique la prop. 8.2.4 et X est un e.s.b.v.m. de ?. (ii) Soit X1, . . . , Xn un n-´ echantillon de la loi normale N1(m, ?2), ? = (m, ?2) inconnu. On veut estimer m et ?2. On sait que la densit´ e de (X1, . . . , Xn) est q?(x1, . . . , xn) = (2??2 )?n/2 exp(? 1 2?2 n k=1 (xk ? m)2 ). 105 Posant ? = 1 2?2 , x = 1 n n k=1 xk, s2 0 = 1 n ? 1 n k=1 (xk ? x)2 , on a, puisque (lem.8.1.6) n k=1(xk ? m)2 = n k=1(xk ? x)2 + n(x ? m)2, q?(x1, . . . , xn) = ( ? ? )n/2 exp(??(n ? 1)s2 0 ? n?(x ? m)2 ). Soit U = U(x1, . . . , xn) telle que E?(U) ? 0. Alors, pour tous m, ?, U(x1, . . . , xn) exp(??(n ? 1)s2 0 ? n?(x ? m)2 ) dx1 . . . dxn = 0. (8.8) D´ erivant (8.8) en m, on a, pour tous tous m, ?, U(x1, . . . , xn)(x ? m) exp(??(n ? 1)s2 0 ? n?(x ? m)2 ) dx1 . . . dxn = 0. (8.9) Soit encore E?(U(X ? m)) ? 0 et, vu que E?(U) ? 0, E?(UX) ? 0. Comme X est un e.s.b. de m, la prop. 8.2.4 implique que c?est un e.s.b.v.m. D´ erivant (8.9) en m, on a, pour tous tous m, ?, U(x1, . . . , xn)(1 + 2n?(x ? m)2 ) exp(??(n ? 1)s2 0 ? n?(x ? m)2 ) dx1 . . . dxn = 0, d?o` u E?((1 + 2n?(X ? m)2)U) ? 0 et E?((X ? m)2U) ? 0. D´ erivant (8.8) en ?, on a, pour tous tous m, ?, U(x1, . . . , xn)((n?1)s2 0 +n(x?m)2 ) exp(??(n?1)s2 0 ?n?(x?m)2 ) dx1 . . . dxn = 0 i.e. E?(U((n ? 1)s2 + n(X ? m)2)) ? 0 o` u s2 = 1 n?1 n k=1(Xk ? X)2. On a vu que E?((X ? m)2U) ? 0, on a donc E?(Us2) ? 0. On sait (8.1.2) que s2 est un e.s.b. de ?2, c?est donc un e.s.b.v.m. (prop.8.2.4). 8.2.5. Consistance. Soit (X, A, (P?)???) un mod` ele statistique. D´ efinition 8.2.5. Une suite Tn d?estimateurs de f(?) est dite consistante si, pour tout ? ? ?, Tn ?n f(?) P? p.s. Il est clair que cette d´ efinition a un sens si f est ` a valeurs Rp et alors Tn est une suite d?applications de X dans Rp. Elle est surtout utile pour un mod` ele statistique associ´ e (voir la def. 8.1.8) ` a un ´ echantillon de taille infinie X1, . . . , Xn, . . . d?une loi µ? et des estimateurs Tn de la forme Tn = ?n(X1, . . . , Xn). Par exemple, si µ est une loi sur R admettant un moment d?ordre 2, Xn et sn sont des estimateurs consistants de la moyenne et la variance de µ. 106 Notions de statistique 8.2.6. M´ ethode des moments. Soient (µ?, ? ? ?) une famille de probabilit´ es sur Rd, (X, A, (P?)???) le mod` ele statistique associ´ e ` a un ´ echantillon de taille infinie de µ? (def. 8.1.8) et f : ? ? Rp. On veut estimer f(?). On consid` ere des fonctions g1, . . . gr de Rd dans R telles que, pour tout ? ? ? et pour i = 1, . . . , r, E?(|gi(X1)|) < +? et on pose mi(?) = E?(gi(X1)). On suppose que f(?) peut s?´ ecrire f(?) = ?(m1(?), . . . , mr(?)) avec ? continue. D?apr` es la loi forte des grands nombres, pour tout ? ? ?, pour i = 1, . . . , r, ? mn i = 1 n n k=1 gi(Xk) ?n mi(?) P? p.s.. Donc, si on pose, Tn = ?( ? mn 1 , . . . , ? mn r ), (8.10) pour tout ? ? ?, Tn ?n f(?), P? p.s. i.e. Tn est une suite consistante d?estimateurs de f(?). Donc, si n est asez grand, on peut utiliser Tn comme estimateur de f(?). Si d = 1, on peut choisir g1(u) = u, g2(u) = u2 . . . , gr(u) = ur et l?on a mi(?) = E?(Xr 1) d?o` u le nom de m´ ethode des moments. Exemple 1. Soit X1, . . . , Xn un n-´ echantillon de la loi sur R+ G(a, c), ? = (a, c) inconnu. On a (voir 4.3.1.d): m1(?) = E?(X1) = a c , m2(?) = E?(X2 1 ), ?2 (?) = Var?(X1) = m2(?)?(m1(?))2 = a c2 . Donc a = (m1(?))2 ?2(?) , c = m1(?) ?2(?) . On a ? m1 = 1 n n k=1 Xk = X, ? m2 = 1 n n k=1 X2 k et, posant ? ?2 = ? m2 ? ( ? m1)2 = 1 n n k=1 X2 k ? (X)2 = 1 n n k=1 (Xk ? X)2 , on obtient comme estimateurs de a et c: ? a = (X)2 ? ?2 , ? c = X ? ?2 . Exemple 2. Soit X1, . . . , Xn un n-´ echantillon de la loi sur R de densit´ e q? donn´ ee par q?(x) = ? q1(x) + (1 ? ?) q2(x), o` u q1 et q2 sont des densit´ es connues et ? ? [0, 1] un param` etre inconnu qu?on veut estimer. Soit (?i, i = 1, . . . , r) une partition de R en intervalles. On pose µi,1 = ?i q1(u) du, µi,2 = ?i q2(u) du 107 et on suppose µi,1 = µi,2 pour tout i. On choisit gi(u) = 1{u??i} et on a mi(?) = P?(X1 ? ?i) = ?µi,1 + (1 ? ?)µi,2. Il y a de multiple fa¸ con d?exprimer ? comme fonction des mi(?) puisque, pour chaque i, ? = mi(?)?µi,2 µi,1?µi,2 . On choisit ? = 1 r r k=1 mi(?) ? µi,2 µi,1 ? µi,2 . On obtient alors comme estimateur de ?: ? ? = 1 r r k=1 ? mi ? µi,2 µi,1 ? µi,2 , ? mi = 1 n n k=1 1{Xk??i}. 8.2.7. M´ ethode du maximum de vraisemblance. Consid´ erons le mod` ele statistique suivant. X = {x1, x2}, ? = {?1, ?2}, P?1 (x1) = 1 100 , P?1 (x2) = 99 100 , P?2 (x1) = 99 100 , P?2 (x2) = 1 100 . On tire un point de X selon P?i , i = 1, 2, inconnu. Supposons qu?on obtienne x1. Il est naturel d?estimer ? par ?2. Qu?a-t-on fait ? On a compar´ e P?1 (x1) = 1 100 et P?2 (x1) = 99 100 et on a choisi la valeur de ? rendant maximum la fonction ? ? P?(x1). C?est le principe de la m´ ethode du maximum de vraisemblance. Soit (X, A, (P?)???) un mod` ele statistique. On suppose qu?il existe une mesure ?-finie µ sur (X, A) telle que, pour tout ?, P? = f?.µ et on pose L(x; ?) = f?(x). (8.11) La fonction ? ? L(x; ?) s?appelle la fonction de vraisemblance associ´ ee ` a x. D´ efinition 8.2.6. Soit T : X ? ?. On dit que T est un estimateur du maximum de vraisemblance de ? (en abr´ eg´ e e.m.v.) si, pour tout x ? X, L(x; T(x)) = sup ??? L(x; ?). (8.12) Pour calculer un e.m.v., on est donc amen´ e ` a chercher, pour tout x ? X, pour quelle(s) valeur(s), ? ? L(x; ?) ou, ce qui revient au m? eme, ? ? log L(x; ?) est maximum. Si ? est un ouvert de Rd, si L(x; ?) ? 0 lorsque ? tend vers le bord de ? et si L est d´ erivable en ?, ces valeurs sont ` a chercher parmi les solutions de ? ??i log L(x; ?) = 0, i = 1, . . . , d. (8.13) 108 Notions de statistique L?´ equation (8.13) s?appelle l?´ equation de vraisemblance. Pour un ´ echantillon de taille finie, il est difficile de justifier cette m´ ethode. Par contre, pour un ´ echantillon de taille infinie X1, . . . , Xn, . . . et sous des hypoth` eses relativement g´ en´ erales, il existe une suite Tn consistante (voir 8.2.5) d?estimateurs de ?, Tn ´ etant un e.m.v. associ´ e au n-´ echantillon (X1, . . . , Xn). 8.2.8. Exemples. (i) Soit X1, . . . , Xn un n-´ echantillon de la loi sur R+ de densit´ e ?e??x, ? > 0 inconnu. Prenant µ = ??n + , ?+ mesure de Lebesgue sur R+, on a L(x; ?) = L(x1, . . . , xn; ?) = ?n e??(x1+...+xn) et, posant x = 1 n(x1 + . . . + xn), log L(x; ?) = n log ? ? ?nx. Alors d d? log L(x; ?) = n ? ? nx = 0 pour ? = ? ? = 1/x. Vu que L(x; ?) ? 0 lorsque ? ? 0 et ? ? +?, cette valeur correspond ` a un maximum est 1/x est l?e.m.v. de ?. (ii) Soit X1, . . . , Xn un n-´ echantillon de N1(m, ?2), ? = (m, ?2) inconnu. On a log L(x; ?) = log L(x1, . . . , xn; ?) = ? n 2 log 2? ? n 2 log ?2 ? 1 2?2 n k=1 (xk ? m)2 . On en d´ eduit (on consid` ere ?2 comme une variable) ? ?m log L(x; ?) = 1 ?2 n k=1 (xk ? m) ? ??2 log L(x; ?) = ? n 2?2 + 1 2?4 n k=1 (xk ? m)2 . Alors ? ?m log L(x; ?) = ? ??2 log L(x; ?) = 0 a pour solution ? m = 1 n n k=1 xk = x, ? ?2 = 1 n n k=1 (xk ? ? m)2 = 1 n n k=1 (xk ? x)2 . On v´ erifie que ces valeurs correspondent bien ` a un maximum. L?e.m.v. de (m, ?2) est donc (X, ? s2) o` u ? s2 = 1 n n k=1(Xk ? X)2. Noter que ? s2 = n?1 n s2 n?est pas sans biais. 8.3. Intervalle de confiance On consid` ere un mod` ele statistique (X, A, (P?)???) et une application mesurable f de ? dans R. Plut? ot que d?estimer f(?) par un nombre T(x) qui est probablement voisin de f(?) mais pratiquement jamais ´ egal ` a f(?), on peut envisager de r´ epondre 109 f(?) ? I(x), I(x) ´ etant un intervalle d´ ependant du point tir´ e x et de pr´ eciser cette r´ eponse en disant que f(?) ? I(x) avec une probabilit´ e au moins ´ egale ` a 0, 9 ou 0, 95 . . . . . .. 8.3.1. Ceci conduit ` a: D´ efinition 8.3.1. On appelle intervalle de confiance de niveau 1 ? ? pour f(?) une famille d?intervalles (I(x), x ? X) telles que, pour tout ? ? ?, P?(f(?) ? I(X)) ? 1 ? ?. Evidemment une deuxi` eme notion intervient pour juger de la qualit´ e d?un inter- valle de confiance, ` a savoir sa longueur et, plus on voudra ? petit, plus l?intervalle sera long. 8.3.2. Fonction pivotale. On pr´ esente un proc´ ed´ e relativement g´ en´ eral pour construire des intervalles de confiance. On appellera fonction pivotale monotone une application mesurable g(x, u) de X × R dans R telle que (i) pour tout ? ? ?, la v.a. g(X, f(?)) suit une loi µ ind´ ependante de ?, (ii) pour tout x ? X, u ? g(x, u) est strictement monotone. On choisit alors a < b tels que µ(]a, b[) = 1 ? ?, on a donc, pour tout ? ? ?, P?(g(X, f(?)) ?]a, b[) = µ(]a, b[) = 1 ? ?. Mais, vu la monotonie, {g(X, f(?)) ? ]a, b[} = {f(?) ?]A(X), B(X)[} et I(x) =]A(x), B(x)[ est un intervalle de confiance de niveau 1 ? ? pour f(?). Exemple. Soit X1, . . . , Xn un n-´ echantillon de N1(?, ?2), ?2 ´ etant connu et ? inconnu. Alors X ? N1(?, ?2 n ) et ? n X ? ? ? ? N1(0, 1). Donc g(x, ?) = ? n x?? ? est une fonction pivotale monotone. Etant donn´ e ?, on choisit c = c(?) dans une table de loi normale telle que 1 ? 2? c ?c e?t2/2 dt = 1 ? ? et on a , pour tout ? ? R, P?( ? n |X ? ?| ? < c) = P?(? ?]X ? c? ? n , X + c? ? n [) = 1 ? ?. Evidemment, dans la plupart des cas, ?2 n?est pas connu. On peut envisager de remplacer ? par son estim´ e s ce qui conduit ` a ´ etudier la distribution de ? n X?? s . 8.3.3. Echantillons gaussiens. D´ efinition 8.3.2. Soit X1, . . . , Xn un n-´ echantillon de N1(0, 1). On appelle loi de chi-carr´ e ` a n degr´ es de libert´ e et on note ?2 n la loi de X2 1 + . . . + X2 n. On sait (4.6.1) que X2 1 ? G(1 2 , 1 2 ) donc (5.2.2.d) X2 1 + . . . + X2 n ? G(n 2 , 1 2 ) et la densit´ e de la loi ?2 n est: ?(x) = 1 2 n 2 ?(n 2 ) e? x 2 x n 2 ?1 1R+ (x). (8.14) 110 Notions de statistique D´ efinition 8.3.3. Soient X et Y deux v.a.r. ind´ ependantes avec X ? N1(0, 1) et Y ? ?2 n. On appelle loi de Student ` a n degr´ es de libert´ e et on note tn la loi de T = X Y/n . Un calcule facile montre que la loi tn a pour densit´ e: h(t) = ?(n+1 2 ) ? n + 1 ?(n 2 ) (1 + t2 n )? n+1 2 (8.15) Th´ eor` eme 8.3.4. Soit X1, . . . , Xn un n-´ echantillon de N1(m, ?2). Alors X et s2 d´ efinis par (8.4) et (8.5) sont ind´ ependants, X ? N1(m, ?2 n ) et (n ? 1) s2 ?2 ? ?2 n?1. En particulier ? n X?m s ? tn?1. Preuve: A. On suppose m = 0 et ?2 = 1. Alors X = (X1, . . . , Xn) ? Nn(0, In). Soient A une matrice orthogonale n × n de la forme A = ? ? ? ? ? ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 ? n 1 ? n . . . 1 ? n ? ? ? ? ? ? et Y = (Y1, . . . , Yn) = AX. On a Y ? Nn(0, In) puisque K(Y ) = A K(X) AT = A AT = In, Yn = 1 ? n (X1 + . . . + Xn) = ? n X et, vu que ||X||2 = ||AX||2 = ||Y ||2, (n ? 1)s2 = n k=1 (Xk ? X)2 = n k=1 X2 k ? n(X)2 = n k=1 Y 2 k ? Y 2 n = n?1 k=1 Y 2 k . Ceci implique que X = 1 ? n Yn ? N1(0, 1 ? n ) et est ind´ ependant de (n?1)s2 = n?1 k=1 Y 2 k qui suit ?2 n?1. B. On revient au cas g´ en´ eral. On pose Zk = ??1(Xk ? m). Alors Z = (Z1, . . . , Zn) un n-´ echantillon de N1(0, 1), X = m + ?Z et (n ? 1)s2 X = n k=1 (Xk ? X)2 = ?2 n k=1 (Zk ? Z)2 = ?2 (n ? 1)s2 Z. D?o` u ? n X?m ? ? N1(0, 1), (n ? 1) s2 ?2 ? ?2 n?1 et sont ind´ ependants. Appliquant la def. 8.3.3, on obtient la derni` ere affirmation. Application. Soit X1, . . . , Xn un n-´ echantillon de N1(m, ?2), ? = (m, ?2) inconnu. On cherche des intervalles de confiance pour m et ?2. 111 (i) On choisit c = c(?) tel que P(|T| < c) = 1 ? ? o` u T ? tn?1. Alors (th.8.3.4), pour tout ? = (m, ?2), P?( ? n | X ? m s | < c) = P?(m ? ] X ? cs ? n , X + cs ? n [) = 1 ? ?. (ii) On choisit a < b tels que P(a < Y < b) = 1 ? ? o` u Y ? ?2 n?1. Alors (th.8.3.4), pour tout ? = (m, ?2), P?(a < (n ? 1) s2 ?2 < b) = P?(?2 ? ] (n ? 1)s2 b , (n ? 1)s2 a [) = 1 ? ?. 8.3.4. Intervalle de confiance asymptotique. Un intervalle de confiance asymptotique de niveau 1 ? ? pour f(?) est une suite de familles d?intervalles (In(x), x ? X) telle que, pour tout ?, P?(f(?) ? In(X) ) ?n 1 ? ?. Pour construire de tels intervalles, on peut utiliser (rappelons que Xn et sn ont ´ et´ e d´ efinis en (8.4) et (8.5)): Proposition 8.3.5. Soit (Xn, n ? 1) une suite de v.a.r. de carr´ e int´ egrable ind´ ependantes et de m? eme loi. On pose m = E(X1), ?2 = Var(X1) qu?on suppose > 0. Alors ? n Xn?m sn 1{sn>0} converge en loi vers N1(0, 1). Preuve: On a ? n Xn ? m sn 1{sn>0} = ? n Xn ? m ? . ? sn 1{sn>0}. D?une part ? n Xn?m ? converge en loi vers N1(0, 1) (th. 7.3.1). D?autre part sn ?n ? p.s. (8.1.3) et donc ? sn 1{sn>0} ?n 1 p.s. On conclut par la prop. 7.2.7. Soit (Xn, n ? 0) un ´ echantillon de taille infinie d?une loi µ sur R de densit´ e q de moyenne m avec x2 dµ(x) < +?. On a alors P(X1 = X2) = 0 et, a fortiori, P(sn > 0) = 1. On choisit c = c(?) tel que (2?)?1/2 c ?c e?t2/2 dt = 1 ? ?. Donc, vu les prop. 8.3.5 et 7.2.4, P( ? n |Xn ? m| sn < c) = P( m ? ]Xn ? csn ? n , Xn + csn ? n [ ) ?n 1 ? ?. On a construit un intervalle de confiance asymptotique de niveau 1 ? ? pour m. 8.4. Tests 8.4.1. G´ en´ eralit´ es. Soit (X, A, (P?)???) un mod` ele statistique. On suppose que ? = H0 ? H1 avec H0 ? H1 = ?. Il s?agit, ` a la vue du point x tir´ e selon P?, ? inconnu, de d´ ecider si ? ? H0 ou non. Cela s?appelle tester l?hypoth` ese H0 contre l?hypoth` ese H1. Un test de H0 contre H1 est donc un sous-ensemble W de X, appel´ e r´ egion critique 112 Notions de statistique ou r´ egion de rejet. Si le point tir´ e x appartient ` a W, on rejette l?hypoth` ese H0, si x / ? W, on l?accepte. Il y a deux types d?erreur. (i) Si ? ? H0, P?(W) repr´ esente la probabilit´ e de rejeter ` a tort H0, c?est l?erreur de premi` ere esp` ece. (ii) Si ? ? H1, P?(Wc) = 1 ? P?(W) repr´ esente la probabilit´ e d?accepter ` a tort H0, c?est l?erreur de deuxi` eme esp` ece. Dans la th´ eorie classique des tests, on fixe un seuil maximum ` a l?erreur de premi` ere esp` ece ` a savoir 0, 1, 0, 05, 0, 01 . . . ce qui conduit ` a la d´ efinition: D´ efinition 8.4.1. Soit W la r´ egion critique d?un test de H0 contre H1. La quantit´ e ? = ?(W) = sup ??H0 P?(W) (8.16) s?appelle le niveau du test. La fonction de H1 dans [0, 1], ? ? P?(W), s?appelle la fonction puissance du test. Le niveau ´ etant fix´ e, il s?agit de trouver des r´ egions W telles que, pour ? ? H1, P?(W) soit le plus grand possible. Comme en estimation, il est quasiment impossible de trouver un test optimal si on ne restreint pas la classe consid´ er´ ee. D´ efinition 8.4.2. Soit W la r´ egion critique d?un test de H0 contre H1. On dit que le test est sans biais au seuil ? s?il est de niveau inf´ erieur ou ´ egal ` a ? et si, pour tout ? ? H1, P?(W) ? ?. D´ efinition 8.4.3. Un test de r´ egion critique W de niveau ? de H0 contre H1 est dit uniform´ ement plus puissant sans biais (en abr´ eg´ e U.P.P.S.B.) s?il est sans biais au seuil ? et si, pour tout test de r´ egion critique W sans biais au seuil ? de H0 contre H1, on a, pour tout ? ? H1, P?(W) ? P?(W ). Terminons ces g´ en´ eralit´ es par un mot de la th´ eorie asymptotique. D´ efinition 8.4.4. Une suite de tests de H0 contre H1 de r´ egion critique Wn est dite consistante de niveau asymptotique ? si, pour tout ? ? H0, P?(Wn) ?n ? et si, pour tout ? ? H1, P?(Wn) ?n 1. 8.4.2. Le lemme de Neyman-Pearson. Dans le cas d?hypoth` eses simples i.e. r´ eduites ` a un point, il est facile d?avoir un test optimal. Lemme 8.4.5. On suppose ? = {?0, ?1} et P?0 = h0.µ, P?1 = h1.µ. Alors W = {x, h1(x) ? ?h0(x)} est, pour tout ? > 0, la r´ egion critique de ? = ?0 contre ? = ?1 le plus puissant ` a son niveau. 113 Preuve: Soit D la r´ egion critique d?un autre test tel que P?0 (D) ? P?0 (W). On remarque que (1W ? 1D)(h1 ? ?h0) ? 0 d?o` u (1W ? 1D)(h1 ? ?h0) dµ ? 0 et P?1 (W)?P?1 (D) = (1W ?1D)h1 dµ ? ? (1W ?1D)h0 dµ = ?(P?0 (W)?P?0 (D)) ? 0. Le test de r´ egion critique W est plus puissant que le test de r´ egion critique D. Pour utiliser le lem.8.4.5, ´ etant donn´ e ?, on d´ etermine ? par la condition P?0 ({h1 ? ?h0}) = {h1??h0} h0 dµ = ?. 8.4.3. Tests sur ´ echantillons gaussiens. 1. Soit X1, . . . , Xn un n-´ echantillon de N1(m, ?2) avec ? = (m, ?2) inconnu. Soit m0 ? R fix´ e. Il s?agit de tester H0 : m = m0 contre H1 : m = m0. On sait (def. 8.3.3) que ? n X?m s ? tn?1. Consid´ erons W = { ? n | X ? m0 s | > c } . Sous H0 i.e. si m = m0, P?(W) = P(|T| > c) o` u T ? tn?1. On d´ etermine c = c(?) comme solution de P(|T| > c) = ? ` a l?aide d?une table de la loi de Student et W est la r´ egion critique d?un test de niveau ? de m = m0 contre m = m0. On peut montrer que ce test est U.P.P.S.B. 2. Soient X1, . . . , Xn un n-´ echantillon de N1(m1, ?2) et Y1, . . . , Yr un r-´ echantillon de N1(m2, ?2). On suppose (Xi, 1 ? i ? n) et (Yj, 1 ? j ? r) ind´ ependants. On a ? = (m1, m2, ?2) inconnu. Il s?agit de tester H0 : m1 = m2 contre H1 : m1 = m2. On pose X = 1 n n i=1 Xi, s2 1 = 1 n ? 1 n i=1 (Xi ? X)2 , Y = 1 r r j=1 Yj, s2 2 = 1 r ? 1 r j=1 (Yj ? Y )2 . Lemme 8.4.6. Sous les hypoth` eses ci-dessus, on a, si m1 = m2, Z = n + r ? 2 1 n + 1 r X ? Y (n ? 1)s2 1 + (r ? 1)s2 2 ? tn+r?2. Preuve: D?une part X ? N1(m1, ?2 n ), Y ? N1(m2, ?2 r ) et, vu l?ind´ ependance (prop. 5.2.7), X ? Y ? N1(m1 ? m2, ?2 n + ?2 r ) et, si m1 = m2, X?Y ? q 1 n + 1 r ? N1(0, 1). D?autre part (n ? 1) s2 1 ?2 ? ?2 n?1, (r ? 1) s2 2 ?2 ? ?2 r?1 et, vu l?ind´ ependance, (n ? 1) s2 1 ?2 + (r ? 1) s2 2 ?2 ? ?2 n+r?2. Puisque (X, Y ) est ind´ ependant de (s2 1, s2 2), on peut appliquer la def. 8.3.3. 114 Notions de statistique Posons W = {|Z| > c} o` u P(|T| > c) = ?, T ? tn+r?2. On a, sous H0 i.e. si m1 = m2, P?(W) = P(|T| > c) = ? et W est la r´ egion critique d?un test de niveau ? de m1 = m2 contre m1 = m2. On peut montrer que ce test est U.P.P.S.B. Remarque. Le lecteur peut noter une grande ressemblance entre la construction de tests et celle d?intervalles de confiance. Cela n?a rien d?´ etonnant. En effet, ´ etant donn´ e un mod` ele stastique (X, A, (P?)???), soit (Wa, a ? R) une famille de sous ensembles de X (avec Wa ? A mais nous n?insistons pas sur ce point). On pose, pour x ? X, S(x) = {a, x / ? Wa}. Evidemment Wa = {x, a / ? S(x)} et, pour tout ? ? ? et tout a ? R, P?(Wa) = P?(x, a / ? S(x)) = 1 ? P?(x, a ? S(x)). (8.17) Soit f : ? ? R. Il r´ esulte de (8.17) que si, pour tout a, Wa est la r´ egion critique d?un test de niveau ? de H0 : f(?) = a contre H1 : f(?) = a, alors S(x) = {a, x / ? Wa} est une r´ egion de confiance de niveau 1 ? ? pour f(?) (c?est la m? eme d´ efinition que celle d?un intervalle de confiance mais a priori S(x) n?est pas un intervalle). De m? eme si (S(x), x ? X) est une r´ egion de confiance de niveau 1 ? ? pour f(?), Wa = {x, a / ? S(x)} est la r´ egion critique d?un test de niveau ? de H0 : f(?) = a contre H1 : f(?) = a. 8.4.4. Test d?ad´ equation. Soient E un ensemble fini qu?on peut supposer ? etre {1, . . . , r} et ? l?ensemble des probabilit´ es sur E. On fixe p ? ? telle que, pour tout j, pj > 0. On consid` ere un ´ echantillon X1, . . . , Xn, . . . d?une loi ? ? ? inconnue et on veut tester H0 : ? = p contre H1 : ? = p. Posant Nj n = n k=1 1{j}(Xk), (8.18) Pearson a propos´ e un test ` a partir des fr´ equences 1 nNj n d?observation des points j, j = 1, . . . , r qui repose sur: Proposition 8.4.7. Soit (Xn, n ? 1) une suite de v.a. ind´ ependantes ` a valeurs E de m? eme loi ?. On pose Tn = 1 n r j=1 (Nj n ? npj)2 pj = r j=1 n pj ( Nj n n ? pj)2 . (8.19) (i) Si ? = p, Tn converge en loi vers ?2 r?1. (ii) Si ? = p, Tn converge p.s. vers +?. Preuve: (i) Supposons ? = p. On a Tn = | 1 ? n n k=1 Uk|2 , Uk = ( 1 ? p1 (1{1}(Xk) ? p1), . . . , 1 ? pr (1{r}(Xk) ? pr) ). 115 Les vecteurs al´ eatoires U1, . . . , Un, . . . sont ind´ ependants de m? eme loi avec E(U1) = 0 et un calcul facile montre que K(U1) = Ir ? aaT , aT = ( ? p1 . . . ? pr). Le th. 7.3.1 implique que 1 ? n n k=1 Uk converge en loi vers Nr(0, Ir ? aaT). Alors (prop. 7.2.3) Tn = | 1 ? n Un|2 converge en loi vers |Y |2 o` u Y ? Nr(0, Ir ? aaT). Vu que |a| = 1, il existe une matrice A orthogonale r × r telle que Aa = (0 . . . 01)T et posons Z = AY . On a K(Z) = AK(Y )AT = Ir ? (Aa)(Aa)T = Ir?1 0 0 0 et |Y |2 = |Z|2 ? ?2 r?1. (ii) Supposons ? = p. D?apr` es la loi des grands nombres, Nj n n ? pj ?n ?j ? pj qui est = 0 pour au moins un j et Tn ?n +? p.s. Consid´ erons maintenant la r´ egion critique Wn = {Tn ? c} o` u c = c(?) est tel que P(X ? c) = ?, X ? ?2 r?1. On a, vu les prop. 8.4.7 et 7.2.4, Pp(Wn) ?n ? et, pour ? = p, P?(Wn) ?n 1. On a construit un test consistant de niveau asymptotique ? (def. 8.4.4) de H0 : ? = p contre H1; ? = p. Ce test est susceptible de nombreuses g´ en´ eralisations pour lesquelles nous ren- voyons aux ouvrages sp´ ecialis´ es. Par exemple, soit X1, . . . , Xn un ´ echantillon d?une loi µ inconnue sur (E, E). On veut tester µ = µ0 contre µ = µ0, µ0 probabilit´ e donn´ ee. On peut partager E en r ensembles disjoints E1, . . . , Er d?union E (on a int´ er? et ` a choisir µ0(Ej) voisin de 1 r ) et tester ` a l?aide du test pr´ ec´ edent H0 : µ(Ej) = µ0(Ej) pour j = 1, . . . , r contre H1 : µ(Ej) = µ0(Ej) pour au moins un j. 116 Notions de statistique Annexe A Index des notations 1.2.3 renvoie chapitre 1, section 2, sous-section 3. AT (A matrice) 4.5.1 . F?(X) 6.2.1 1A 3.1.5 Ac 1.1.2 g?(x) 5.1.2 gX 2.3.1 B(n, p) 2.2.5 G(a, c) 4.3.1 B 3.2.2 G(a) 2.2.5 [B], bB, B+ 3.1.5 B(R) 3.1.2 h.µ 3.4.3 B(R) 3.1.2 B(R+) 3.1.2 J(?) 4.6.2 B1 ? B2 3.5.1 K(X) 4.5.3 C0 3.5.5 Cb 7.1 lim sup An 4.1.3 Ck 3.5.5 lim sup fn 3.1.4 C? k 3.5.5 lim inf fn 3.1.4 Cov(X, Y ) 4.4.3 Lp, Lp C 3.3.5 Lp d 4.5.1 E 4.2.3 L(x; ?) 8.2.7 E? 8.1.4 Lp 3.3.5 e.s.b. 8.2.1 e.s.b.v.m. 8.2.1 Mr n 8.1.3 eB+ 3.1.5 M1 7.1 Mb 5.1.2 FX 4.3.2 118 Index des notations N1(m, ?2) 4.3.1 . ? µ 5.1.2 Nd(m, K) 5.3.1 µX 4.2.2 µ1 ? µ2 3.5.1 p.p. 3.2.2 µ ? ? 3.5.4 p.s. 3.2.2, 4.1.1 P(?) 2.2.5 ?(X, Y ) 4.4.4 s, sn 8.1.3 ?(C) 3.1.1 ?(fi, i ? I) 3.1.5 tn 8.4.3 ?X 5.2.1 U.P.P.S.B. 8.4.1 ?2 n 8.4.3 v.a. 4.2.1 v.a.r. 4.2.1 (?, A, P) 4.1.1 X, Xn 8.1.3 ?A 7.1.2 {X ? ?} 4.2.2 (X, A, (P?)???) 8.1.4 3.4.3 ?(a) 4.3.1 || ||p 6.1.1 ?a 3.2.1 Annexe B Index des termes 1.2.3 renvoie chapitre 1, section 2, sous-section 3. absolument continue (mesure) 3.4.2 convergence en probabilit´ e 6.1.1 ad´ equation (test d?) 8.4.4 convergence ´ etroite 7.1.1 alg` ebre (d?ensembles) 3.1.1 convergence monotone (th´ eor` eme de) 3.3.3 alg` ebre (de fonctions) 3.5.5 convergence presque sure 6.1.1 convolution (produit de) 3.5.4 Bayes (formule de) 1.3.1 corr´ elation (coefficient de) 4.4.4 Beppo-Levi (th´ eor` eme de) 3.3.3 covariance 4.4.3 Bernouilli (v.a. de) 2.2.5 covariance (matrice de) 4.5.3 Bienaim´ e-Tchebychev (in´ egalit´ e de) 4.2.4 crit` ere des trois s´ eries 6.5.2 binomiale (loi) 1.2.5 Borel-Cantelli (lemme de) 4.1.3 densit´ e de probabilit´ e 4.3.1 bor´ elienne (tribu) 3.1.2 d´ erivation sous le signe 3.3.3 Dirac (mesure de) 3.2.1 caract´ eristique (fonction) 5.2.1 Cauchy (loi de) 4.3.1 ´ echantillon avec r´ ep´ etition 1.2.2 centr´ ee (v.a.) 4.2.4 ´ echantillon (d?une loi) 8.1.1 centr´ ee r´ eduite (v.a.) 4.2.4 ´ echantillon sans r´ ep´ etition 1.2.1 chi-carr´ e (loi du) 8.4.3 espace de probabilit´ e 4.1.1 conditionnelle (densit´ e) 4.7.3 espace mesurable 3.1.1 conditionnelle (esp´ erance) 4.7.1, 4.7.3 espace mesur´ e 3.2.1 conditionnelle (loi) 4.7.1, 4.7.3 esp´ erance 2.2.3, 4.2.3 conditionnelle (probabilit´ e) 1.3.1, 4.1.2 estimateur 8.2 consistante (suite d?estimateurs) 8.2.5 ´ etag´ ee (fonction) 3.1.5 convergence dans Lp 6.1.1 ´ ev´ enement 4.1.1 convergence en loi 7.2.1 120 Index des termes famille sommable 2.1 n´ egligeable (ensemble) 3.2.2, 4.1.1 Fatou (lemme de) 3.3.3 Neyman-Pearson (lemme de) 8.4.2 Fubini (th´ eor` eme de) 3.5.1 niveau (d?un intervalle de confiance) 8.3.1 niveau (d?un test) 8.4.1 gamma (fonction) 4.3.1 nombres au hasard 4.8.1, 6.4.2 gamma (loi) 4.3.1 normale (loi) 4.3.1 Gauss (loi de) 4.3.1 g´ eom´ etrique (loi) 2.2.5 pivotale (fonction) 8.3.2 Glivenko-Cantelli (th´ eor` eme de) 8.1.2 Poisson (loi de) 2.2.5 presque partout 3.2.2 H¨ older (in´ egalit´ e de) 3.3.5 presque s? urement 3.2.2, 4.1.1 hyperg´ eom´ etrique (loi) 1.2.4 probabilit´ e 3.2.1 puissance (fonction) 8.4.1 ind´ ependance (´ ev´ enements) 1.3.2, 4.3.2 ind´ ependance (variables al´ eatoires) 4.4.1 Radon-Nikodym (th´ eor` eme de) 3.4.2 indicatrice (fonction) 3.1.5 r´ egion critique 8.4.1 intervalle de confiance 8.3.1 rejet (m´ ethode de) 4.8.4 r´ epartition (fonction de) 4.3.2 Jensen (in´ egalit´ e de) 4.2.4 r´ epartition empirique 8.1.1 r´ epartition empirique (fonction de) 8.1.2 Kolmogorov (in´ egalit´ e de) 6.3.2 risque quadratique 8.2.1 Kronecker (lemme de) 6.3.4 sans biais (estimateur) 8.2.1 Laplace (loi de) 4.3.1 sans biais (test) 8.4.1 Lebesgue (mesure de) 3.2.3, 3.5.3 Schwarz (in´ egalit´ e de) 3.3.5 Lebesgue-mesurable 3.2.3 sommation par paquets 2.1.5 Lebesgue (th´ eor` eme de) 3.3.3, 3.5.3 sous-population 1.2.3 Levy (th´ eor` eme de) 7.2.5 statistique 8.1.4 limite centrale (th´ eor` eme de la) 7.3.1 Stone-Weierstrass (th´ eor` eme de) 3.5.5 loi (d?une variable al´ eatoire) 4.2.2 Student (loi de) 8.4.3 loi des grands nombres 6.4.1 loi 0-1 6.2.2 test 8.4.1 totale (partie) 3.5.5 Markov (in´ egalit´ e de) 4.2.4 transform´ ee de Fourier 5.1.2 maximum de vraisemblance 8.2.7 tribu 3.1.1 mesurable (application) 3.1.2 tribu asymptotique 6.2.1 mesure 3.2.1 tribu engendr´ ee 3.1.1, 3.1.6 mesure born´ ee 3.2.1 mesure de densit´ e h 3.4.2 uniforme (loi) 4.3.1 mesure ?-finie 3.2.1 Minkowski(in´ egalit´ e de) 3.3.5 variable al´ eatoire 4.2.1 mod` ele statistique 8.1.4 variance 2.2.4, 4.2.4 moments 2.2.4, 4.2.4 variance empirique 8.1.3 moments empiriques 8.1.3 vecteur al´ eatoire 4.5.2 moyenne 4.2.4 vecteur gaussien 5.3.1 moyenne empirique 8.1.3 vraisemblance (fonction de) 8.2.7 Monte-Carlo (m´ ethode de) 6.4.3 vraisemblance (´ equation de) 8.2.7

PARTAGER SUR

Envoyer le lien par email
1587
READS
4
DOWN
7
FOLLOW
7
EMBED
DOCUMENT # TAGS
#mathematiques  #probabilites 

licence non indiquée


DOCUMENT # INDEX
Mathematiques, Sciences 
img

PartagĂ© par  gageo

 Suivre

Auteur:Pierre Priouret
Source:Non communiquée