S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC...

17
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 Département TECHNIQUES DE COMMERCIALISATION MATHEMATIQUES Semestre 2 ________ Statistiques à deux variables ________ CORRIGES des TD et exercices Document en ligne : sur http://jff-dut-tc.weebly.com section DUT Maths S2

Transcript of S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC...

Page 1: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________

IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020

Département TECHNIQUES DE COMMERCIALISATION

MATHEMATIQUES

Semestre 2

________ Statistiques à deux variables ________

CORRIGES des TD et exercices

Document en ligne : sur http://jff-dut-tc.weebly.com section DUT Maths S2

Page 2: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 1 sur 16

Exercice 1. (TD cours page 5)

La position d'une personne vis-à-vis du tabac est-elle indépendante de son sexe au seuil de 10 % ? Voici les résultats d'une enquête portant sur 51 hommes et 66 femmes :

S : caractère "sexe" T : caractère "position vis-à-vis du tabac" Sh : hommes Tj : n'ont jamais fumé Sf : femmes Tf : sont fumeurs Ta : ont arrêté

observations :

effectifs théoriques sous

l'hypothèse H0 : Khi-deux partiels et total

Sh Sf Sh Sf Sh Sf

Tj 12 23 35 Tj 15,26 19,74 35 Tj 0,69507 0,53710

Tf 31 26 57 Tf 24,85 32,15 57 Tf 1,52417 1,17777

Ta 8 17 25 Ta 10,90 14,10 25 Ta 0,77038 0,59529

51 66 117 51 66 117 5,300

1) Placer les sous-totaux et le total général du tableau d'observations. 2) Reporter ces valeurs dans le tableau théorique reflétant l'indépendance, puis le compléter par le calcul (6

valeurs th centrales) : l'indépendance se traduit par un tableau de proportion

3) Tableau n°3 : calculer les Khi-deux partiels ainsi que le total général, noté χ²calc. 4) Rédaction du test et de la décision, au seuil de 10 % :

Hypothèse nulle : H0 : Sexe et rapport au tabac sont indépendants

Calcul du χ²

Valeur de la variable aléatoire χ² calculée entre l'échantillon et la théorie : χ²calc = 5,3 Seuil de non-rejet

Seuil de risque : α = 10 % Nombre de ddl : (l-1)(c-1) = (3 – 1)(2 - 1) = 2

Valeur de la variable aléatoire χ² limite avant rejet : χ²lim = 4,61 Comparaison et décision :

Comme χ²calc > χ²lim , on peut rejeter H0 au seuil de 10%. Autrement dit, on peut affirmer avec moins de 10 % de risque de se tromper, que les hommes et les femmes se comportent différemment vis-à-vis du tabac.

Par contre, on n’aurait pas pu rejeter notre hypothèse nulle au seuil de 5 % : χ²lim égal à 5,99 n’ayant pas été atteint, affirmer la dépendance des variables se fait avec plus de 5 % de risque de se tromper.

Exercice 2.

Pour l’élection présidentielle, deux candidats sont en présence, MLP et EM. Dans un village, il y a 500 électeurs, dont 100 sont retraités, 50 sont sans emploi, et 350 sont actifs. Les résultats des élections sont (après décompte manuel) :

candidat MLP EM

blanc / absten. électeurs

Sans emploi 24 16 10

Actifs 122 148 80

Retraités 36 27 37

1) Dire, au seuil de risque de 1%, si dans ce village l’opinion dépend de l’appartenance à un groupe social.

Soit H0 : "La nature du vote est indépendante du statut social" Calculons le Khi2 observé ici :

Page 3: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 2 sur 16

observations tableau théorique Khi-2 partiels 24 16 10 50 18,2 19,1 12,7 50 1,848 0,503 0,574

122 148 80 350 127,4 133,7 88,9 350 0,229 1,529 0,891 36 27 37 100 36,4 38,2 25,4 100 0,004 3,284 5,298

182 191 127 500 182 191 127 500 Khi2 calc = 14,16

Khi2 limite, au seuil de 1 %, avec 4 degrés de liberté : 13,28 Décision : Khi2 calculé > Khi2 limite : on peut rejeter H0, au risque de 1 % de se tromper. L'opinion dépend de l'appartenance à un groupe social.

2) Que peut-on dire si on ne tient pas compte des votes blancs et des abstentions ?

Reprenons l'étude en excluant les bulletins blancs et les abstentions :

observations tableau théorique Khi-2 partiels 24 16 40 19,52 20,48 40 1,03 0,981

122 148 270 131,7 138,3 270 0,72 0,687 36 27 63 30,74 32,26 63 0,9 0,858

182 191 373 182 191 373 Khi2 obs = 5,175

Khi2 limite, avec 2 degrés de liberté : 5,991 au seuil de 5 % et 4,605 au seuil de 10 %. On peut dire que l'opinion dépend du groupe social, au risque de 10 % de se tromper, mais on ne pourrait l'affirmer si l'on ne voulait prendre que 5 % de risque d'erreur.

Exercice 3.

On observe dans le tableau ci-contre la fréquentation de deux magasins A et B. A l'issue d'un sondage, on note le nombre de personnes ayant effectué au moins un achat, par tranches d'âges (10 à 15 ans, etc.).

1) Dire, au seuil de 5%, si le magasin fréquenté est lié à l'âge des consommateurs.

magasins magasins magasins obs A B th A B χ²part A B

10 à 15 46 24 70 10 à 15 36,26 33,74 70 10 à 15 2,6185 2,8135 5,4320

15 à 20 29 35 64 15 à 20 33,15 30,85 64 15 à 20 0,5192 0,5579 1,0771

20 à 40 14 17 31 20 à 40 16,06 14,94 31 20 à 40 0,2634 0,2830 0,5464

40 et plus 12 18 30 40 et plus 15,54 14,46 30 40 et plus 0,8058 0,8658 1,6716

101 94 195 101 94 195 4,2069 4,5202 8,727

Pour une loi du χ² à 3 ddl, au seuil de 5%, la table donne χ² limite = 7,815. On dépasse donc cette valeur limite. Au seuil de 5 %, on peut rejeter l'hypothèse que magasin choisi et tranche d'âge sont indépendants.

2) Quelle tranche d'âge contribue le plus au résultat précédent ? Expliquer.

C'est la tranche d'âge 10 à 15 ans qui contribue le plus au χ² total, et de loin. On conclurait aisément que les tranches de gens au-delà de 15 ans présentent toutes à peu près les mêmes comportements d'achat. La première tranche, par contre, présente des nombres de citations répartis de manière très différente entre le magasin A et le magasin B, par rapport aux autres tranches.

3) Donner la signification de ce "seuil de 5 %" par rapport à votre réponse à la question 1.

On affirme avec un risque de 5 % de se tromper que le magasin choisi dépend de la tranche d'âge.

4) D'après la table, peut-on être plus précis quant au risque pris lors de notre affirmation ?

Il faudrait dépasser 9,837 pour un seuil de 2%, ce qui n'est pas le cas (8,727). Donc on ne peut en dire plus sur le risque pris.

Page 4: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16

Exercice 4.

Dans le cadre d'un sondage, on a interrogé 100 personnes sur leur âge et leur fréquentation des salles de cinéma. On note ici X la variable "âge" et Y la variable "nombre annuel de sorties au cinéma". Le résultat du sondage est le tableau de citations suivant :

Y X [15 ; 25[ [25 ; 50[ 50 et plus

aucune 4 6 13

1 à 11 10 16 15

12 à 23 13 8 4

≥ 24 6 3 2

1) Par un test du Khi-2 d'indépendance, dire au seuil de 2% si, dans la population, il y a un lien ou non entre l'âge d'une personne et le nombre de sorties qu'elle consacre au cinéma.

Y X [15 ; 25[ [25 ; 50[ 50 et plus total

obs th χ² obs th χ² obs th χ² obs th χ²

aucune 4 7,59 1,698 6 7,59 0,333 13 7,82 3,431 23 23 5,462

1 à 11 10 13,53 0,921 16 13,53 0,451 15 13,94 0,081 41 41 1,453

12 à 23 13 8,25 2,735 8 8,25 0,008 4 8,5 2,382 25 25 5,125

≥ 24 6 3,63 1,547 3 3,63 0,109 2 3,74 0,81 11 11 2,466

total 33 33 6,901 33 33 0,901 34 34 6,704 100 100 14,51

Pour une loi du Khi-2 à 6 ddl avec α = 2%, on trouve sur la table Khi-2 limite = 15,03. Notre Khi-2 calculé de 14,51 ne dépasse pas cette limite. Donc au seuil de 2%, on ne peut rejeter l'hypothèse que l'âge et la fréquentation des cinémas ne sont pas liés.

2) Discuter du niveau de confiance que l'on peut accorder à l'affirmation "âge et fréquentation sont dépendants".

Notre Khi-2 calculé de 14,51 se trouve entre les Khi-2 limites des seuils 2% et 5%. Ainsi on peut dire avec plus de 95% de confiance que la fréquentation dépend de l'âge, mais avec moins de 98% de confiance.

3) Repérer les Khi-2 partiels les plus importants et donner la signification de ces fortes valeurs.

Le Khi-2 partiel le plus important est celui des 50 ans et plus qui ne vont pas au cinéma : l'effectif observé est très supérieur à celui attendu en cas d'indépendance. Le Khi-2 partiel des 50 ans et plus allant au cinéma entre 12 et 23 fois est élevé aussi : effectif observé largement inférieur à l'effectif théorique ; celui des 15-25 ans y allant entre 12 et 23 fois est élevé : effectif observé largement supérieur à la théorie.

Exercice 5.

En prenant l’énoncé de l’exercice 11, effectuer un test du Khi-deux pour évaluer la dépendance entre le nombre d’essais et le nombre d’heures passées.

Y [0 ; 15[ [15 ; 25[ [25 ; 40[ total

X obs th χ² obs th χ² obs th χ² obs th χ²

1 23 60,06 22,87 92 84,63 0,642 80 50,31 17,52 195 195 41,03

2 77 59,75 4,979 84 84,2 5E-04 33 50,05 5,809 194 194 10,79

3 42 27,72 7,356 35 39,06 0,422 13 23,22 4,498 90 90 12,28

4 12 6,468 4,731 6 9,114 1,064 3 5,418 1,079 21 21 6,875

total 154 154 39,93 217 217 2,128 129 129 28,91 500 500 70,97

Pour une loi du Khi-2 à 6 ddl avec α = 1%, on trouve sur la table Khi-2 limite = 16,8. Notre Khi-2 calculé de 70,97 est largement supérieur. Donc on peut dire qu’il y a plus de 99% de chances de dépendance entre les deux variables.

Page 5: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 4 sur 16

Exercice 6. (TD cours page 10)

Considérons l'évolution du chiffre d'affaires d'une entreprise.

Année N N+1 N+2 N+3

tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4 tri1 tri2 tri3 tri4

(M€) 28 45 49 36 30 44 48 40 28 46 52 37 31 42 54 39

Outre les variations saisonnières liées à son secteur d'activités, peut-on avoir une vision plus claire de son évolution et voir se dégager une tendance ?

Par exemple : calculons les moyennes mobiles prises chacune sur une période d’un an :

1-5 2-6 3-7 … 12-16

X 3 4 5 6 7 8 9 10 11 12 13 14

Y 39,75 39,875 39,625 40 40,25 40,25 41 41,125 41,125 41 40,75 41,25

calculs : Les valeurs de X (sur le graphique) correspondent à la numérotation des trimestres :

1er trimestre année N → x = 1 ; 2e trimestre année N → x = 2 ; et ainsi de suite. On en déduit que les valeurs de X à inscrire dans le tableau ci-dessus sont 3 ; 4 ; 5 ; etc. 1ère valeur = moyenne de 1/2-2-3-4-5/2 = 3 ; 2e valeur = moyenne de 2/2-3-4-5-6/2 = 4 ; et ainsi de suite jusqu'à la 12e valeur, qui est la moyenne de 12/2-13-14-15-16/2, soit 14. Les valeurs de Y calculées dans le tableau ci-dessus sont les chiffres d'affaires moyens des cinq trimestres considérés. Par exemple : 1ère valeur de Y = moyenne de 28/2-45-49-36-30/2 = 39,75 ; 2e valeur de Y = moyenne de 45/2-49-36-30-44/2 = 39,875 ; et ainsi de suite.

Exercice 7. (TD cours page 11)

Reprenons un des exemples cités page 3 : relation entre quantité d’engrais et production.

quantité d'engrais production recueillie

parcelle n° X (kg.ha-1) Y (q.ha-1)

1 150 46

2 80 37

3 120 46

4 220 51

5 100 43

1) Déterminer les coordonnées des points moyens des deux demi-nuages.

× × × × × × × × × × × ×

Page 6: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 5 sur 16

Les deux demi-nuages doivent être définis : puisqu’il y a 5 mesures, choisissons un découpage en trois points puis deux points (on aurait pu faire le contraire), discriminé par valeurs de X (toujours) : 1er demi-nuage : (80, 37), (100, 43), (120, 46) ; point moyen : G1(100, 42) 2e demi-nuage : (150, 46), (220, 51) ; point moyen : G2(185, 48,5)

2) Trouver par le calcul l'équation de la droite de Mayer.

coefficient directeur : 48,5 42 6,5

0,07647185 100 85

a−= = ≈

y’ = 0,07647 x + b se traduit avec les coordonnées de G1 (par exemple) par : 100 = 0,07647×42 + b, ce qui donne b = 34,35. Equation de la droite de Mayer : y’ = 0,07647 x + 34,35

3) Représenter le nuage de points et la droite de Mayer de la série.

Exercice 8.

Déterminer l’équation de la droite de Mayer dans le cadre de l’exercice 6.

Les 16 valeurs sont partagées en 8 pour 2009 et 2010 et 8 pour 2011 et 2012. ...

...

1

1

G

G

1 2 84,5

8

28 45 4040

8

x

y

+ + += =

+ + += =

...

...

2

2

G

G

9 10 1612,5

8

28 46 3941,125

8

x

y

+ + += =

+ + += =

coef directeur : 1,125

0,1406258

a = =

y’ = 0,140625 x + b se traduit avec les coordonnées de G1 (par exemple) par : 40 = 0,140625×4,5 + b, ce qui donne b = 39,367. Équation de la droite de Mayer : y’ = 0,140625 x + 39,367

Exercice 9. (TD cours page 12)

Calculer ou obtenir directement sur calculatrice : les moyennes, les écarts-types, la covariance. 1) En se basant sur l'exemple de l’exercice 7 (engrais/récolte)

134x = kg.ha-1 et y = 44,6 q.ha-1 ; ( ) 48,826Xσ = kg.ha-1 et ( ) 4,5869Yσ = q.ha-1 (mode Stat).

( ), 1 30900Cov 134 44,6 203,6

5

n

i i

i

x y

X Y x yn

== − = − × =∑

2) En se basant sur l'exemple de l’exercice 4 (âge/fréquentation) - on choisira une moyenne d’âge de 60 ans pour la tranche 50 et plus et une moyenne de 36 séances par an pour la tranche supérieure ou égale à 24.

39,375x = ans et 10,795y = fois ; ( ) 16,422Xσ = ans et ( ) 10,833Yσ = fois (mode Stat).

( ), 1 36890Cov 39,375 10,795 56,15

100

n

i i

i

x y

X Y x yn

== − = − × = −∑

Page 7: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 6 sur 16

Exercice 10. (TD cours page 13)

Soit la série chronologique : évolution annuelle des dépenses publicitaires d’une entreprise.

X : année 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

Y : dépense 41 60 55 66 87 61 90 95 82 120 125 118

On a représenté ci-dessous le nuage de points correspondant :

Déterminer l’équation de la droite de régression de Y en X suivant la méthode des moindres carrés puis tracer cette droite sur ce graphique.

(D) : y’ = 7,0629 x + 37,42

Exercice 11.

500 personnes ayant obtenu leur permis de conduire sont classées dans le tableau ci-dessous. Elles sont réparties en fonction du nombre X de fois qu'elles ont tenté l'épreuve de conduite avant de la réussir et du nombre Y d'heures de conduite passées en présence d'un moniteur (ces 500 personnes n'ont pas bénéficié de la conduite accompagnée) avant la première tentative.

Y [0 ; 15[ [15 ; 25[ [25 ; 40[

X

1 23 92 80

2 77 84 33

3 42 35 13

4 12 6 3

1) Qu'est-ce qu'un effectif marginal ? Donner un exemple à partir de ce tableau.

Un effectif marginal est le nombre total d’individus associé à une valeur d’une des variables. Par exemple, le nombre de personnes qui ont obtenu leur permis au premier essai est 195.

2) Décrire brièvement la marche à suivre pour saisir les données de ce tableau correctement sur calculatrice.

Sur calculatrice, on utilise une liste pour les 12 effectifs et deux autres listes pour les couples (X, Y) correspondants.

3) Calculer la covariance du couple (X, Y) et interpréter la valeur trouvée (on sera concret).

( ),16815

Cov 1,874 19,375 2,679500

X Y = − × = − , négative. Plus le nombre d’heures de conduite augmente,

plus le nombre d’essais nécessaires a tendance à diminuer.

(D)

2006)

Page 8: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 7 sur 16

4) Parmi les personnes qui ont pris entre 15 et 25 h de leçons de conduite, quel est le taux de celles qui ont obtenu leur permis au troisième essai ? 35/217 = 16,13 %

5) Parmi les personnes qui ont obtenu leur permis au troisième essai, quel est le taux de celles qui ont pris entre 15 et 25 h de leçons de conduite ? 35/90 = 38,89 %

Exercice 12.

Un commercial analyse son activité et son efficacité. A chaque visite chez un client potentiel, il a noté le temps (X, en minutes) pendant lequel il a présenté son produit, ainsi que la quantité (Y) vendue. L'intérieur du tableau se compose des nombres de visites correspondant à chaque couple (X, Y).

Y X 0 1 2 3

[0 ; 10[ 3 2 2 0

[10 ; 20[ 0 4 8 7

[20 ; 30[ 1 5 12 3

1) Que signifie l'effectif "8" du tableau ?

Lors de 8 visites chez des clients, le commercial a présenté son produit pendant 10 à 20 minutes et a vendu deux unités (à chacune des huit).

2) Calculer manuellement le temps moyen passé par visite.

Les effectifs marginaux des trois valeurs de X sont 7, 19 et 21. Effectif total : 47. Les modalités correspondantes sont 5, 15 et 25 (en minutes). La durée moyenne est alors (5×7 + 19×15 + 21×25)/47 = 17,98 minutes par visite.

3) Donner la covariance du couple (X, Y).

( ),1595

Cov 17,9787 1,80851 1,42247

= − × ≈X Y

Exercice 13.

Le tableau suivant indique le prix de vente (€) d’une machine et le nombre d’exemplaires vendus sur 4 ans.

rang de l'année 1 2 3 4

prix de vente X 300 210 270 375

nombre de ventes Y 198 240 222 160

1) Représenter le nuage des points Mi de coordonnées (xi, yi) dans le plan muni d’un repère orthogonal. On prendra pour origine du repère le point de coordonnées (210, 160), et les échelles 1 cm pour 15 € sur l’axe des abscisses et 1 cm pour 10 unités sur l’axe des ordonnées.

2) Déterminer les coordonnées du point moyen G du nuage.

G(288,75 ; 205)

Page 9: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 8 sur 16

3) a. Déterminer une équation de la droite D de régression de Y sur X par la méthode des moindres carrés. Les coefficients seront donnés avec une précision de 6 chiffres significatifs.

y’ = -0,498274 x + 348,876

b. Construire cette droite de régression sur le graphique.

4) En quelle année a-t-on eu le chiffre d’affaires le plus élevé ? Quel est ce chiffre d’affaires ?

Le chiffres d’affaires vaut XY. Les quatre CA sont : 59400, 59940, 50400 et 60000. Plus élevé : année 4.

pour aller plus loin :

5) On suppose maintenant que, chaque année, le nombre d’exemplaires vendus y et le prix de vente x suivent la relation : y = – 0,498 x + 349. On note S(x) le chiffre d’affaire réalisé en vendant y machines valant chacune x euros. a. Exprimer S(x) en fonction de x.

S(x) = xy = -0,498 x² + 349 x

b. Étudier les variations de la fonction S définie sur [210 ; 375] par x → S(x).

S’(x) = -0,996 x + 349 > 0 ssi x < 350,4. S est décroissante sur [210 ; 350,4] et croissante sur [350,4 ; 375].

c. En déduire le prix de vente d’une machine l’année de rang 5 si l’on veut que la somme encaissée S(x) soit maximale. Quel sera le nombre d’exemplaires vendus, à une unité près ? Quelle sera alors la somme encaissée ?

Il faut fixer le prix de vente à 350,4 €. Nombre d’exemplaires vendus : y = – 0,498×350,4 + 349 = 174,5. Pour 174 exemplaires, x = 350,4 €/unité et CA = 60969,6 € ; pour 175 exemplaires, x = 350,4 €/unité et CA = 61320 €.

Exercice 14.

Une étude a eu pour but de comparer les habitudes de dépenses des particuliers en équipements high-tech, comparées au revenu de ces personnes. Chaque colonne du tableau T ci-dessous représente, dans une région française donnée, le revenu mensuel moyen des actifs (X) et la dépense mensuelle moyenne (Y) en équipements high-tech.

région A B C D E F

revenu X (€) 1550 1620 1770 1850 1930 2000

dépense Y (€) 57 61 66 73 76 82

1) Calculer la covariance puis le coefficient de corrélation linéaire, pour le couple (X, Y). Interpréter ces deux paramètres.

( ),749720

Cov 1786,66667 69,1666667 1375,555566

X Y = − × ≈ , positive, donc lorsque le revenu

augmente, la dépense a tendance à augmenter.

1375,555560,9901

160,2775 8,66827r ≈ ≈

×, très proche de 1 : la corrélation linéaire entre X et Y est excellente.

2) a. Donner, à l’aide de la calculatrice, l’équation de la droite de régression (moindres carrés) de Y en X.

y’ = 0,05355 x – 26,50

b. Déterminer l’équation de la droite de Mayer relative au tableau T.

Découpons le tableau de l’énoncé en deux groupes : {A, B, C} et {D, E, F} (en effet, les valeurs de X y sont données dans l’ordre croissant). Les coordonnées de leurs points moyens sont : G1(1646,6667 ; 61,333333) et G2(1926,66667 ; 77) La droite de Mayer, (G1G2), a une équation de la forme y’ = ax + b.

( ); :2 1

1 1

2 1

G G

G G M

G G

0,05595 et 30,80 0,05595 30,80y y

a b y a x D y xx x

−′= ≈ = − × ≈ − = −

c. Ces deux droites sont légèrement différentes. Pour quel revenu donnent-elles toutes les deux la même dépense ? Quelle est la particularité de ce point commun, au sein du nuage de points initial ?

Page 10: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 9 sur 16

Faisons comme si nous ne connaissions pas par avance le point commun de ces deux droites. Pour le rechercher, il faut identifier leurs équations : 0,05595 x – 30,80 = 0,05355 x – 26,50. Cela donne : 0,0024 x = 4,3 et donc x = 1791,67. On en déduit y : 69,44. Ces deux droites estiment que pour un revenu moyen de 1791,67 €, la dépense moyenne est 69,44 €. Ce point commun a pour particularité d'être le point moyen du nuage de départ : 1791,67 est la moyenne des six valeurs de X du tableau et 69,44 est la moyenne des six valeurs de Y du tableau (moyennant de légères erreurs commises par les arrondis faits sur les coefficients directeurs). C'est le cas quel que soit le tableau de départ : le cours montre qu'une droite de Mayer, tout comme une droite des moindres carrés, vérifie le critère de Mayer (somme des résidus nulle) qui équivaut lui-même à dire que G se trouve sur cette droite.

Exercice 15. (TD cours page 17)

On recueille quelques informations sur la consommation d’essence d’un deux-roues (Y, en L/100km), en fonction de la vitesse à laquelle il circule (X, en km/h) :

X 10 20 30 40 50 60 70 80 90

Y 15.2 11.6 9.3 7.8 7 6.6 6.9 8 9.6

La représentation graphique de ces données nous montre clairement qu’une régression linéaire serait totalement inadaptée pour décrire la situation. On décidera donc d’un changement de variable.

1) On propose de définir la variable T par : T = (X – 60)². Compléter le tableau suivant :

T 2500 1600 900 400 100 0 100 400 900

Y 15.2 11.6 9.3 7.8 7 6.6 6.9 8 9.6

2) Effectuer une régression linéaire de Y sur T.

Cov(T, Y) = 81280/9 – 766,66667×9,111111 = 2045,926 ; r = 2045,926/780,3133/2,62782 = 0,997759 r est très proche de 1, un ajustement affine entre T et Y est justifié. Droite de régression suivant les moindres carrés : y’ = 0,00336 t + 6,535

3) En déduire alors l’équation de la courbe qui est censée modéliser la forme du nuage de points ci-dessus.

Courbe de régression du couple (X, Y) : y’ = 0,00336 (x – 60)² + 6,535

Exercice 16. ajustement du second degré

Une entreprise a noté son bénéfice réalisé Y en fonction de la quantité produite et vendue X :

X (tonnes) 2 3 5 7 11

Y (k€) 38 55 72 69 24

T -16 -9 -1 -1 -25

1) A l'aide de la calculatrice, donner le coefficient de corrélation linéaire entre X et Y. Interpréter.

Cov(X, Y) = 1348/5 - 5,6×51,6 = -19,36 ; r = -19,36/3,2/18,315 = -0,3303 Ce coefficient est très éloigné de -1, la corrélation linéaire entre X et Y est très mauvaise.

2) On introduit la variable T = -(X - 6)². a. Compléter le tableau. b. Calculer, à l'aide de la calculatrice, Cov(T, Y) puis leur coefficient de corrélation linéaire.

Cov(T, Y) = -1844/5 - (-10,4)×51,6 = 167,84 ; r = 167,84/9,2/18,315 = 0,9961

c. Un ajustement affine de Y sur T est-il justifié ?

r est très proche de 1, un ajustement affine entre T et Y est justifié.

Page 11: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 10 sur 16

d. Donner l'équation de la droite de régression de Y sur T par la méthode des moindres carrés.

y’ = 1,983 t + 72,22

e. En déduire une expression de la régression de Y sur X.

y’ = -1,983(x - 6)² + 72,22

Exercice 17. ajustement du second degré

Une étude de marché a été conduite sur un nouveau type de produit. Le tableau ci-dessous donne, pour plusieurs prix de ventes proposés, le nombre de personnes prêtes à payer ce prix-là.

prix à l'unité (€) X 2 3 4 5 6 7

nombre de citations Y 66 47 34 25 18 14

pu nb X(X-20) nbv X Y T Y ’ CA CA’

2 66 -36 62,97 132 125,9

3 47 -51 48,88 141 146,6

4 34 -64 36,66 136 146,7

5 25 -75 26,33 125 131,7

6 18 -84 17,88 108 107,3

7 14 -91 11,3 98 79,13

1) Calculer la covariance des variables X et Y puis interpréter son signe.

( ),740

Cov 4,5 34 29,676

X Y = − × = − , négative : Y a tendance à diminuer lorsque X augmente.

2) On pose T = X(X - 20) a. Calculer le coefficient de corrélation linéaire entre les variables T et Y.

( ) ( ),11610

Cov 66,8333 34 337,336

T Y−= − − × = .

337,330,992487

18,95096 17,93507r = =

×

b. Interpréter sa valeur.

Ce coefficient (0,992487) est excellent.

c. Donner l'équation de la droite de régression de Y sur T (méthode des moindres carrés).

y’ = 0,9393 t + 96,78

d. En déduire une expression développée de Y en fonction de X.

y’ = 0,9393 (x² - 20x) + 96,78 = 0,9393 x² - 18,79 x + 96,78

3) On examine ici le chiffre d'affaires attendu (prix unitaire de vente × nombre de ventes), si les nombres de citations obtenus lors du sondage sont autant d'unités vendues.

a. Calculer les différents chiffres d'affaires CA issus du tableau de citations.

Voir au-dessus (CA = XY)

b. Calculer, pour les mêmes valeurs de X, les chiffres d'affaires CA' obtenus grâce à la formule obtenue à la question 2)d.

Voir au-dessus (CA’ = XY’)

c. Quel prix unitaire de vente fixeriez-vous, pour obtenir le meilleur chiffre d'affaires possible ?

D’après la modélisation, il semble que CA’ soit maximal lorsque X se trouve entre 3 et 4 €. Précisons :

X 3 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4

CA' 146,6 147,4 148,1 148,5 148,8 148,8 148,7 148,4 148 147,4 146,6

On préconisera un prix de vente d’environ 3,5 € pour un chiffre d’affaires optimisé.

Page 12: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 11 sur 16

Exercice 18. ajustement inverse

Une enseigne de parfumerie, lors de l'analyse de son chiffre d'affaires, met en relation les nombres (Y) de ventes de différentes marques et différents modèles de parfum avec les prix (X) des flacons. Les résultats sont consignés dans le tableau suivant :

X, prix du flacon (€) 15 25 30 40 45 60 75 90

Y, quantité vendue 202 117 107 82 78 60 55 48

Dans les questions commençant par "calculer", on s'aidera des résultats intermédiaires de la calculatrice.

valeurs pré calculées :

1) a. Calculer la covariance des variables X et Y ; interpréter son signe.

( ),28000

Cov 47,5 93,625 947,28

X Y = − × = − , négative. Y diminue globalement lorsque X augmente.

b. Calculer le coefficient de corrélation linéaire de X et Y ; interpréter sa valeur.

947,20,8357

24,109 46,843XY

r−= = −

×, relativement éloigné de 1. La corrélation linéaire entre X et Y n’est pas

excellente (nuage de points assez large ou alors semblant suivre une courbe).

2) Pour une étude plus précise de la relation entre X et Y, on décide d'un changement de variable : 850

TX

=

a. Après avoir calculé les différentes valeurs de T dans une troisième liste de votre calculatrice, justifier que la corrélation linéaire entre T et Y est excellente.

Les valeurs de T ont été inscrites au début du corrigé. Les calculs sur le couple (T, Y) aboutissent à r = 0,9971, extrêmement proche de 1. La corrélation linéaire est ici excellente.

b. Donner l'équation de la droite de régression de Y en T, selon la méthode des moindres carrés.

y’ = 3,215 t + 15,62

c. Rappeler le critère des moindres carrés.

La somme des carrés des résidus doit être minimale (ce qui rend la droite cherchée unique).

d. Déduire de la question 2)b une expression modélisée de Y en fonction de X.

ay at b b

x x′ = + = + = +850 2733

15,62

e. D'après cette modélisation, combien de flacons d'un parfum coûtant 150€ est-on supposé vendre ?

Si x = 150, on estime y à : 2733

15,62 33,84 34150

+ ≈ ≈ : on s’attend à en vendre 34 en moyenne.

Exercice 19. (TD cours page 18)

Calculer les estimations ponctuelles relatives aux questions suivantes. 1) Dans le cadre de l’exercice 10, estimation de la dépense en 2019.

y’ = 7.0629x + 37,42 ; x0 = 14 ; donc y’0 = 136,3 k€

2) Dans le cadre de l’exercice 7, estimation de la quantité d’engrais pour une récolte de 60 q/ha.

y’ = 0,07647x + 34,35 ; y’0 = 60 q/ha ; donc x’0 = 335,4 kg/ha

Page 13: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 12 sur 16

3) Dans le cadre de l’exercice 15, estimation de la consommation pour une vitesse de 100 km/h.

y’ = 0,00336 (x – 60)² + 6,535 ; x0 = 100 ; donc y’0 = 11,91 L/100km

Exercice 20. (TD cours page 18)

Dans le cadre de l’exercice 10, on souhaite une estimation de la dépense publicitaire en 2019 par un intervalle à 95% de confiance.

1) a. Obtenir les valeurs de la variable Y ’, calculables à partir des valeurs de X par l’équation de la droite ;

b. Calculer les valeurs de Z, en divisant celles de Y par celles de Y ’. c. Donner alors la moyenne et l’écart type de Z.

;1,000971 0,125286σ= =Zz

2) Donner l’estimation ponctuelle de la dépense en 2019.

voir exercice 19-1 : y’0 = 136.3 k€

3) Donner le coefficient u correspondant au niveau de confiance 95%.

u = 1,96

4) Donner alors l’intervalle de confiance demandé.

[129,2(1,000971 – 1,96×0,125286) ; 129,2(1,000971 + 1,96 × 0,125286)] = [97,6 ; 161]

Exercice 21. (TD cours page 18)

Dans le cadre de l’exercice 7, on souhaite une estimation de la récolte en utilisant 300 kg/ha d’engrais, par un intervalle à 99% de confiance.

1) a. Obtenir les valeurs de la variable Y ’, calculables à partir des valeurs de X par l’équation de la droite ; b. Calculer les valeurs de Z, en divisant celles de Y par celles de Y ’. c. Donner alors la moyenne et l’écart type de Z.

;0,9991106 0,0472554Zz σ= =

2) Donner l’estimation ponctuelle de la récolte.

y’ = 0.07647x + 34.35 ; x0 = 300 kg/ha ; donc y’0 = 57,29 q/ha

3) Donner le coefficient u correspondant au niveau de confiance 99%.

u = 2,58

4) Donner alors l’intervalle de confiance demandé.

[57,29(0,9991 – 2,58×0,047255) ; 57,29(0,9991 + 2,58×0,047255)] = [50,25 ; 64,22]

Exercice 22. (TD cours page 18)

Sur un échantillon d’êtres humains, on a relevé la tranche d’âge (X) et l’acuité visuelle (Y, un dixième d’acuité étant noté 0,1) :

X

[5 ; 35[ [35 ; 45[ [45 ; 55[ [55 ; 65[

Y

0,3 1 5 10 20

0,6 8 12 25 18

0,9 55 30 14 6

Donner une estimation de l’acuité visuelle d’une personne de 80 ans, par un intervalle de confiance à 99%.

Page 14: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 13 sur 16

Y’ = -0,008430X + 1,0424. Résultats sur Z : ;0,99886 0,29616Zz σ= =

Estimation ponctuelle : y’0 = –0,008422x80 + 1,038 = 0,3680

Coefficient u : u = 2,58

Intervalle de confiance :

[0,3680(0,99886 – 2,58×0,29616) ;

0,3680(0,99886 + 2,58×0,29616)] = [0,0864 ; 0,6488]

Exercice 23.

On a comparé l'indice de pouvoir d'achat des habitants d'un pays au chiffre d'affaires de son industrie automobile :

pouvoir d'achat (indice) X 3,26 3,85 3,44 3,08 3,6

CA automobile (G€) Y 9,3 9,56 9,36 9,24 9,47

1) Donner une équation de la droite de régression de Y en X suivant la méthode de Mayer.

Deux possibilités de découpage (3 points puis 2, ou 2 points puis 3) dans l’ordre croissant de X. cas n°1 : G1(3,26 ; 9,3) et G2(3,725 ; 9,515) y = 0,4624 x + 7,793 cas n°2 : G1(3,17 ; 9,27) et G2(3,63 ; 9,463) y = 0,4283 x + 7,912

2) Par estimation ponctuelle faite sur cette régression, dire quel indice de pouvoir d'achat il faudrait atteindre pour que l'industrie automobile atteigne un CA de 10 G€ (10 milliards d'euros).

Cas n°1 : y = 10 ssi x = 4,733 Cas n°2 : y = 10 ssi x = 4,875

3) Une bonne corrélation linéaire entre deux variables est-elle le signe d'une forte relation de cause à effet de l'une vers l'autre ?

Pas forcément, leur relation, numériquement incontestable, n’est peut-être qu’une coïncidence.

Exercice 24. moindres carrés + intervalle de confiance

Les recettes mensuelles d'un site internet commercial sont listées ci-dessous, de janvier à décembre 2018 :

en k€ : 3 5 4 8 10 9 13 12 17 18 18 21

1) Décrire en quelques mots la méthode des moindres carrés.

La méthode des moindres carrés consiste à déterminer l’équation de la droite qui rend minimale la somme des carrés des résidus (différences d’ordonnées entre points du nuage et droite).

2) En se basant sur la tendance générale de l'évolution de la recette mensuelle, avec la méthode des moindres carrés, donner l'intervalle de confiance à 95% de la recette de décembre 2019. (numéroter les mois à partir de 1 pour janvier 2018)

mois X 1 2 3 4 5 6 7 8 9 10 11 12

recette Y 3 5 4 8 10 9 13 12 17 18 18 21

Y ’ 2,5 4,136 5,573 7,409 9,045 10,68 12,32 13,95 15,59 17,23 18,86 20,5 Z 1,2 1,209 0,693 1,08 1,106 0,843 1,055 0,86 1,09 1,045 0,954 1,024

Équation de la droite de régression de Y sur X : y’ = 1,636 x + 0,8636 Estimation ponctuelle de la recette en décembre 2016 (x = 24) : y’0 = 40,14 k€

Variable Z : z = 1,0132222 et σZ

= 0,14538387

Coefficient u pour une confiance à 95 % : u = 1,96 L’intervalle est [29,23 ; 52,10]

Page 15: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 14 sur 16

3) Quelle est la probabilité qu'en décembre 2019 la recette soit inférieure à 29,23 k€ ?

Il y a 95% de chances d’être dans l’intervalle. De plus la notion d’intervalle de confiance met en jeu une loi mathématique symétrique (la loi normale) ; il y a donc 2,5% de chances d’avoir une valeur inférieure à celles présentes dans l’intervalle et 2,5% de chances d’avoir une valeur supérieure. Réponse : 2,5%.

4) Représenter le nuage de points (échelle 2 cm pour un mois), la droite de régression et enfin l'intervalle de confiance trouvé.

Exercice 25. Mayer + intervalle de confiance

ville X Y Le tableau ci-contre regroupe huit grandes villes d'un pays. La variable X donne, en milliers, le nombre d'habitants de la ville ; la variable Y donne, en milliers, le nombre d'étudiants de cette ville. 1) Représenter le nuage de points de cette série. voir en-dessous 2) Donner les coordonnées de G, point moyen du nuage. G(439,1 ; 26) 3) a. En appliquant la méthode de Mayer, déterminer manuellement l'équation

de la droite de régression du nuage de points.

G1(273,3 ; 13,75) et G2(605 ; 38,25) coef directeur : a = 0,07385 avec G1 : b = y – ax = -6,430 équation de la droite : y = 0,07385 x - 6,43

A 850 58

B 623 37

C 587 38

D 360 20

E 312 16

F 275 15

G 262 12

H 244 12

b. Tracer cette droite. Contient-elle G ? elle contient G c. Donner le "principe de Mayer". la somme des résidus doit être nulle

Page 16: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 15 sur 16

4) On utilisera ici une autre droite de régression, dont l'équation est : y' = 0,07x - 6. a. En s'appuyant sur cette droite, donner l'intervalle de confiance à 95% du nombre d'étudiants inscrits dans

une ville de deux millions d'habitants.

X 850 623 587 360 312 275 262 244 Y 58 37 38 20 16 15 12 12

Y ’ 53,5 37,61 35,09 19,2 15,84 13,25 12,34 11,08 Z 1,084 0,984 1,083 1,042 1,01 1,132 0,972 1,083

Équation de la droite de régression de Y sur X : y’ = 0,07 x – 6 Estimation ponctuelle du nombre d’étudiants d’une ville de 2 millions d’habitants (x = 2000) : y’0 = 134

Variable Z : z = 1,04877 et σZ

= 0,052588

Coefficient u pour une confiance à 95 % : u = 1,96 L’intervalle est [126,7 ; 154,3]

b. Que dire de la probabilité que le nombre d'étudiants de cette ville dépasse 155000 ?

Elle vaut un peu moins de 2,5 %

Exercice 26. ajustement logarithmique + intervalle de confiance

On a étudié la durée de vie d’un certain nombre équipements bureautique identiques. Dans le tableau suivant, ti représente la durée exprimée en milliers d'heures et R(ti) le pourcentage d’équipements encore en service à la date ti. (par exemple, au bout de 1000 heures, il reste 90 % d’équipements en service, et R(ti) = 0,90).

ti 1 2 3 4 5 6 7 8 9

R(ti) 0,9 0,66 0,53 0,4 0,32 0,25 0,19 0,14 0,1

1) On pose yi = ln R(ti) où ln désigne le logarithme népérien. Remplir le tableau suivant puis représenter le nuage de points Mi de coordonnées (ti, yi) dans le plan muni d’un repère orthogonal.

ti 1 2 3 4 5 6 7 8 9

yi –0,105 –0,416 –0,635 –0,916 –1,139 –1,386 –1,661 –1,966 –2,303

2) Peut-on envisager un ajustement affine du nuage précédent ?

Les points sont assez bien alignés, un ajustement affine paraît être une bonne solution.

3) Déterminer par la méthode des moindres carrés une équation de la droite de régression de Y sur T.

En déduire qu’il existe deux nombres positifs k et λ, tels que l'ajustement précédent donne : R(t) = k e- λt.

y’ = –0,26604 t + 0,1605 . y = ln R(t) implique R(t) = ey = e-0,26604 t + 0,1605 = e0,1605 × e-0,26604 t = 1,174 e-0,26604 t .

4) Dans cette question on prend k = 1,174 et λ = 0,266. a. Déterminer le pourcentage d’équipements encore en service au bout de 10000 h de fonctionnement.

Au bout de 10000 heures, t = 10 ; donc R(t) = 1,174 e- 2,66 = 0,08184 = 8,2 % environ.

b. Déterminer la date t0 à laquelle 50 % des équipements sont encore en service.

R(t) = 0,5 implique 1,174 e- 0,266 t = 0,5 soit e- 0,266 t = 0,5/1,174 soit -0,266 t = ln(0,5/1,174) soit t = ln(0,5/1,174) / (-0,266) = 3,209 environ. Réponse : au bout de 3209 heures.

Page 17: S2 - Stat2Var - TDEXcorr - doc - Rev 2020 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 3 sur 16 Exercice

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – TDExCorr – Rev2020 – page 16 sur 16

5) Donner un intervalle de confiance à 99% du pourcentage d’équipements restant en service après 10000 heures de fonctionnement.

T 1 2 3 4 5 6 7 8 9 Y -0,105 -0,416 -0,635 -0,916 -1,139 -1,386 -1,661 -1,966 -2,303

Y ’ -0,106 -0,372 -0,638 -0,904 -1,170 -1,436 -1,702 -1,968 -2,234 Z 0,998 1,118 0,996 1,014 0,974 0,966 0,976 0,999 1,031

Equation de la droite de régression de Y sur X : y’ = –0,26604 t + 0,1605 Estimation ponctuelle du % d’équipements encore en service après 10000 heures (t = 10) : y’0 = -2,5

Variable Z : z = 1,007964 et Z

σ = 0,043476

Coefficient u pour une confiance à 99 % : u = 2,58 L’intervalle sur y est [–2,8003 ; –2,2395] et donc l’intervalle sur R est [0,0608 ; 0,1065].

Exercice 27.

100 enfants ont été classés par âge (X) et par taille (Y) :

Y

[95 ; 105[ [105 ; 125[ [125 ; 135[

X

[3 ; 5[ 15 10 0

[5 ; 7[ 8 32 5

[7 ; 9[ 2 13 15

1) Saisissez ce tableau sur calculatrice. 2) Donner les moyennes et écarts-types de X et de Y, et calculer leur covariance.

( ) ( )239406,1 ans , V 6,1 2,19 , 1,480 an

100x X Xσ = = − = =

;

( ) ( )21315375114,25 cm , V 114,25 100,6875 , 10,03 cm

100y Y Yσ = = − = =

.

( ),70540

Cov 6,1 114,25 8,475100

X Y = − × = .

3) Calculer leur coefficient de corrélation linéaire. Interpréter cette valeur.

8,4750,5709

1,480 10,03r = =

×, corrélation linéaire très faible (la courbe taille/âge ne semble pas droite).

4) Au vu du tableau, voit-on néanmoins se dégager une tendance ?

On voit que, d’une tranche d’âge à une autre, les tailles caractéristiques (correspondant au plus grand nombre d’individus) ne sont pas les mêmes. Mais ces plus grands effectifs ne représentent pas, dans leur colonne, une majorité écrasante, ce qui traduit une forte variabilité des tailles pour des enfants du même âge. Il est donc délicat de vouloir modéliser la croissance d’un enfant par une droite, ou même une courbe bien définie.

5) En considérant que la relation entre âge et taille est linéaire jusqu'à l'âge de 12 ans, donner l'intervalle de confiance à 95% de la taille d'un enfant de 12 ans.

X 4 6 8 4 6 8 4 6 8 Y 100 100 100 115 115 115 130 130 130 n 15 8 2 10 32 13 0 5 15

Y ’ 106,12 113,86 121,6 106,12 113,86 121,6 106,12 113,86 121,6 Z 0,94233 0,87827 0,82237 1,08368 1,01001 0,94572 1,22503 1,14175 1,06908

Équation de la droite de régression de Y sur X : y’ = 3,87 x + 90,64 Estimation ponctuelle de la taille d’un enfant de 12 ans (x = 12) : y’0 = 137,08 cm

Variable Z : z = 1,013138 et Z

σ = 0,121881

Coefficient u pour une confiance à 99 % : u = 1,96 L’intervalle sur y est [106,1 ; 171,6].