S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris –...

16
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 1 sur 16 Département TECHNIQUES DE COMMERCIALISATION MATHEMATIQUES Semestre 1 ____ Statistiques descriptives à une variable ____ COURS Cours en ligne : sur http://jff-dut-tc.weebly.com section DUT Maths S1.

Transcript of S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris –...

Page 1: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 1 sur 16

Département TECHNIQUES DE COMMERCIALISATION

MATHEMATIQUES

Semestre 1

____ Statistiques descriptives à une variable ____

COURS

Cours en ligne : sur http://jff-dut-tc.weebly.com section DUT Maths S1.

Page 2: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 2 sur 16

SOMMAIRE

Introduction et historique 3

1 INTRODUCTION 5

2 ELEMENTS D’UNE SERIE STATISTIQUE 6

3 DIFFERENTS MODES DE REPRESENTATION 7

3.1 LE TABLEAU DE DONNEES 7

3.2 LE DIAGRAMME CIRCULAIRE 7

3.3 VARIABLE DISCRETE OU QUALITATIVE : LE DIAGRAMME EN ETOILE 7

3.4 VARIABLE DISCRETE : LES DIAGRAMMES « TIGES ET FEUILLES » 8

3.5 VARIABLE DISCRETE OU QUALITATIVE : LE DIAGRAMME EN BARRES DES EFFECTIFS 8

3.6 VARIABLE CONTINUE : L'HISTOGRAMME DES EFFECTIFS (OU DES FREQUENCES) 8

3.7 VARIABLE CONTINUE : LE DIAGRAMME DES FCC (OU DES ECC) 9

4 LES PARAMETRES DE POSITION 10

4.1 LE MODE, LA CLASSE MODALE 10

4.2 LA MEDIANE, LA CLASSE MEDIANE 10

4.3 LA MOYENNE (ARITHMETIQUE) 12

5 LES PARAMETRES DE DISPERSION 13

5.1 INTRODUCTION 13

5.2 PARAMETRES BASES SUR LES DECOUPAGES DE LA POPULATION 13

5.3 PARAMETRES BASES SUR LES ECARTS ENTRE VALEURS 15

6 UTILISATION DE LA CALCULATRICE 16

Page 3: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16

INTRODUCTION ET HISTORIQUE

Les objectifs de la statistique

Ses objectifs sont multiples, et les méthodes employées également, si bien qu'on parle volontiers des

statistiques. Il s'agit aussi bien de : * collecter des données à partir d'une population dont on ne peut étudier, en général, qu'un échantillon ; * présenter ces données (tableau, graphique) ; * en déduire des valeurs-clés (moyenne, médiane, quantiles, écart type, covariance, etc.) ; * établir le lien entre ces données (ou entre deux listes de données) et le modéliser (par une formule

mathématique) ; * grâce à la modélisation, faire des prévisions, tester des hypothèses ; * etc.

Quelques exemples venus de l'histoire…

* En 2238 av J.C., l'empereur chinois Yao organise un recensement des populations agricoles. * En 1700 av J.C., chez les égyptiens, l'institution du cadastre et du cens (impôt) est établie. Le pharaon

Amasis (VIe siècle av. JC) édicte même une loi condamnant à mort tous ceux qui se refusent à déclarer leur nom, leur profession et leurs moyens de subsistance.

* Moïse retrace dans son IVème livre le dénombrement des hébreux en état de porter les armes. * L'empereur romain Auguste ordonne trois recensements de la population et de l'empire. C'est au cours

du second que Saint Luc rapporte les circonstances qui entourèrent la naissance du Christ. * Aux XIIIème et XIVème siècles, les commerçants de la république de Venise rassemblent dans leurs

Relazioni de nombreuses données sur le commerce extérieur qui sont utilisées pour guider la politique des régents.

* En 1563, le Concile de Trente rend obligatoire la tenue des registres paroissiaux. Cette mesure s'applique en France en totalité après la Révolution.

* En 1570, le mathématicien italien Geronimo Cardano (Cardan) s'intéresse aux statistiques relatives à la durée de la vie humaine.

* Au début du XVIIème siècle, les frères Elzevir publient aux Pays-Bas une encyclopédie en 60 volumes contenant des informations sur la vie et le commerce des Etats.

* En 1662, John Graunt publie des informations sur les tables de mortalité établies à Londres. Huygens en 1669 et Jan Witt en 1671 mènent des travaux analogues.

* En France, Colbert et Vauban ordonnent diverses enquêtes telles que les mémoires des intendants. * En 1693, Edmond Halley publie les premières tables qui étudient les problèmes des assurances-vie. * En Angleterre, W.Petty réalise des travaux concernant le cadastre et les statistiques commerciales.

Evolution des statistiques

Jusqu'au début du XVIIIème siècle, les statistiques se sont bornées à rester purement descriptives. Parallèlement, on vit apparaître un domaine nouveau : le calcul des probabilités. Initié au XVIIème siècle

par Fermat, Huygens, Jakob (Jacques) Bernoulli et Pascal, continué au XVIIIème siècle par Daniel Bernoulli, Buffon, Condorcet, Nicolas Bernoulli, De Moivre, Bayes, et bien sûr Laplace, Gauss et Poisson jusqu'au début du XIXème siècle, il inspira de nombreux mathématiciens. John Graunt induisit l'idée de l'usage de données statistiques à des fins de prévisions, et au XIXème siècle, Adolphe Quételet induit la formalisation de la conception selon laquelle la statistique peut être fondée sur le calcul des

probabilités. À l'aube du XXème siècle, les statisticiens anglais, comme Pearson, Student (William Sealy Gosset) ou

Fisher commencent à développer une véritable méthodologie statistique, c'est à dire une théorie bien formalisée de l'inférence (tirer des conclusions sur une population à partir d'un échantillon) en créant et étudiant des lois de probabilités de phénomènes : ils imposent, entre 1900 et 1950, une interprétation "objectiviste" ou "fréquenciste" du concept de probabilité.

Page 4: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 4 sur 16

A partir des années 1950, une controverse s'est exprimée sous le nom de courant "néo-Bayésien" pour lequel l'inférence statistique ne saurait s'appuyer sur les seules données recueillies, mais nécessite aussi la prise en compte de la connaissance a priori des modèles probabilistes sous-jacents. Il s'agit là de l'interprétation "subjectiviste".

Des outils toujours plus puissants pour calculer

Avec l'informatique, un nouveau courant a pu prendre son essor : "l'analyse de données

multidimensionnelles". Il consiste à décrire, classer et simplifier des données recueillies en grande masse (par exemple, consulter 3000 individus sur chacun desquels on recueille 80 informations). De là, les résultats observés peuvent suggérer des lois, des modèles ou des explications sans que l'on soit contraint d'utiliser des lois arbitraires établies par avance qui conduiraient à un jugement trop formaté sur les résultats.

Vers une définition actuelle de la statistique…

L'Encyclopedia Universalis nous permet de donner deux sens à ce terme : * Activité qui consiste à réunir des données concernant en particulier la connaissance de la situation des

Etats ou des Sociétés humaines. * Méthodes de traitement et d'interprétation des observations, de passage de celles-ci aux lois des

phénomènes et aux modèles théoriques susceptibles de les représenter. A retenir

Le statisticien est donc influencé dans sa collecte (choix de l’échantillon), par les méthodes de

traitement qu'il projette et par l'utilisation qu'il prévoit des résultats. Il convient, lorsqu’on cite un paramètre (comme la moyenne), de bien en connaître la définition et le

champ qu’il couvre, pour ne pas porter un jugement faussé sur les données. Il convient, lorsqu’on fait une estimation (comme une projection dans l’avenir), de bien en connaître le

cadre et le degré d’incertitude.

Page 5: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 5 sur 16

COURS

1 Introduction

Réaliser une statistique à une variable sur une population de taille N, c'est mettre en relation :

* une variable X (ensemble des valeurs prises par un caractère qualitatif ou quantitatif étudié) * des effectifs (nombres d'individus concernés par chaque valeur)

Exemple de caractère qualitatif : Répartition des français suivant leur groupe sanguin

groupe sanguin O A B AB

taux (population française) 44% 45,3% 7,4% 3,3%

caractère (ce qui a été relevé) : le groupe sanguin

population : population française taille de la population : non donnée

un individu (sur lequel on a relevé le caractère) : une personne française Dans ce chapitre, les TD s'appuieront souvent sur les deux exemples suivants :

1 Classement d'entreprises en fonction de leur nombre d'employés

nombre d'employés dans une entreprise [50 ; 80[ [80 ; 100[ [100 ; 110[ [110 ; 150[

nombre d'entreprises 57 72 63 108

caractère (ce qui a été relevé) : le nombre d’employés

population : un ensemble d’entreprises taille de la population : 300

un individu (sur lequel on a relevé le caractère) : une entreprise

2 Classement de magasins par prix de vente d'un même modèle de téléphone portable

prix d'un téléphone portable 59 65 68 69 75

nombre de magasins 1 6 4 6 3

caractère (ce qui a été relevé) : le prix d’un téléphone portable

population : un ensemble de magasins taille de la population : 20

un individu (sur lequel on a relevé le caractère) : un magasin

Page 6: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 6 sur 16

2 Eléments d’une série statistique

La variable X est une liste finie (c’est-à-dire : pas infinie) de valeurs xi, appelées aussi modalités : X = {x1, x2, x3, … xp}.

Elle désigne l'ensemble des valeurs que peut prendre un caractère étudié sur une population d'individus (liste de groupes sanguins, liste de scores obtenus, liste d’âges, etc.).

déf : On désigne par ni l'effectif (nombre d'individus) associé à la modalité xi.

csq : 1

Np

i

i

n=

=∑

: effectif total, ou taille, de la population

déf : On désigne par fi = N

in la fréquence (taux d'individus) associée à la modalité xi.

csq : 1

N1

N

p

i

i

f=

= =∑

Attention : le terme anglais "frequency" signifie "effectif" !

Sur une calculatrice, il est en général désigné par FREQ ou par F.

Renseigner une calculatrice par des effectifs ou par des fréquences

(ou par n'importe quelle autre liste proportionnelle) ne modifie pas l'étude statistique,

pas plus que cela ne modifiera les résultats affichés (moyenne, écart type, …)

déf : Variable qualitative Les modalités n'expriment pas des quantités, mais des catégories.

déf : Variable quantitative discrète Les modalités sont numériques et ne peuvent prendre que des valeurs isolées, xi.

déf : Variable quantitative continue Les modalités sont des quantités susceptibles de prendre n'importe quelle valeur réelle.

Elles sont alors regroupées en classes (intervalles) dont les amplitudes (largeurs) peuvent être

égales ou différentes.

* L'amplitude de la classe [αi ; βi [ est ai = βi - αi.

* La valeur moyenne de l'intervalle - notée xi - est sa modalité centrale. xi = 2

i iα β+

* La concentration de ni individus dans la classe [αi ; βi [ est ci = i

i

n

a

Page 7: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 7 sur 16

3 Différents modes de représentation

3.1 Le tableau de données Il représente la distribution des effectifs, en fonction des différentes valeurs ou classes du caractère.

3.2 Le diagramme circulaire

Il représente la distribution des effectifs, en fonction des différentes valeurs ou classes du caractère.

Chaque secteur représente une modalité (valeur ou classe) du caractère, avec un angle proportionnel

à l'effectif correspondant.

L'exemple 1 donne : L'exemple 2 donne :

entreprises par nombre d’employés

63 entreprises étudiées ont entre 30% des magasins

100 et 110 employés vendent ce téléphone 69 €

3.3 Variable discrète ou qualitative : le diagramme en étoile On peut aussi représenter les résultats par des segments dont la longueur est proportionnelle à l'effectif :

L'exemple 2 donne :

quatre magasins vendent ce téléphone 68 €

Page 8: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 8 sur 16

3.4 Variable discrète : les diagrammes « tiges et feuilles » Les valeurs sont inscrites une à une selon le schéma de l'exemple suivant : Exemple : on mesure la taille d'un groupe d'individus ; voici les résultats bruts (en cm) : 156 ; 173 ; 164 ; 182 ; 166 ; 164 ; 170 ; 173 ; 158 ; 162 ; 167 ; 172 ; 170 ; 166 ; 175 ; 160 ; 160.

Pour avoir une meilleure lecture des résultats, on décide de classer ces valeurs en :

TIGES : les dizaines FEUILLES : les unités

15 6 8

16 0 0 2 4 4 6 6 7

17 0 0 2 3 3 5

18 2

3.5 Variable discrète ou qualitative : le diagramme en barres des effectifs

Diagramme cartésien muni de deux axes respectant une propre échelle, avec en abscisses les valeurs

du caractère et en ordonnées les effectifs.

Il est formé de traits verticaux : un pour chaque valeur du caractère.

On peut représenter les traits par des barres d'une certaine épaisseur, ne se joignant pas.

Avec l’exemple 2 :

3.6 Variable continue : l'HISTOGRAMME des effectifs (ou des fréquences)

Diagramme cartésien muni de deux axes respectant une propre échelle, avec en abscisses les valeurs

extrêmes des classes du caractère et en ordonnées les concentrations d'effectifs ou de fréquences.

Il est formé de rectangles dont la largeur est l'amplitude de l'intervalle

la hauteur est sa concentration d'effectifs.

Par définition du terme "histogramme" : l'aire de chaque rectangle est égale à l'effectif correspondant.

l'aire totale des rectangles est donc égale à l'effectif total N.

Page 9: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 9 sur 16

Polygone des effectifs :

On dessine une ligne brisée de telle façon que l'aire contenue entre ce polygone et l'axe des abscisses

soit égale à l'aire totale des rectangles de l'histogramme (donc égale à l'effectif total).

Avec l’exemple 1 :

3.7 Variable continue : le DIAGRAMME des FCC (ou des ECC)

Diagramme cartésien muni de deux axes respectant une propre échelle, avec en abscisses les valeurs

extrêmes des classes du caractère et en ordonnées les FCC (ou ECC).

Il est formé de segments dont les extrémités ont pour coordonnées (x ; FCC(x)).

(x représente les valeurs extrêmes des classes)

Avec l’exemple 1 :

Page 10: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 10 sur 16

4 Les paramètres de position également appelés paramètres de tendance centrale : autour de quelle valeur se situent les résultats (X) ?

4.1 Le MODE, la CLASSE MODALE

4.1.1 Caractère discret

déf : Le mode est la modalité du caractère discret ayant le plus grand effectif ;

Rq : Une série statistique peut donc admettre deux ou plusieurs modes. Elle sera donc appelée bimodale,

tri modale, etc.

Dans l’exemple 1, il y a deux modes : 65 € et 68 € (distribution bimodale)

4.1.2 Caractère continu

déf : La classe modale est la classe de plus grande concentration ;

Rq : Une série statistique peut donc admettre deux ou plusieurs classes modales.

Dans l’exemple 2, la classe modale est [100 ; 110[. Remarque : on peut citer un mode, un nombre

d’employés modal entre 100 et 110 (voir utilisation de l’histogramme).

4.2 La MEDIANE, la CLASSE MEDIANE

déf La médiane est la modalité en-dessous de laquelle on trouve la moitié de la population.

4.2.1 Caractère discret

Scinder la population en deux groupes de même taille mérite réflexion : si N est impair, il existe un individu

central, mais si N est pair, quel est l'individu central à considérer ?

N est impair : modifions l'exemple 2

xi 59 65 68 69 75

ni 1 6 4 7 3 N = 21

La population peut être partagée comme suit :

10 magasins 1 magasin central 10 magasins

prix : 59 à 68 € prix : 68 € prix : 69 à 75 €

ECC(M) = 11 (numéro du magasin de prix médian) Prix médian : M = 68 € D'une manière générale, la médiane est la valeur prise par l'individu numéro (N+1)/2.

ECC(M) = +N 1

2

Page 11: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 11 sur 16

N est pair : reprenons un même effectif que dans l'exemple 2

xi 59 65 68 69 75

ni 1 6 3 7 3 N = 20

La population peut être partagée comme suit :

10 magasins 10 magasins

prix : 59 à 68 € prix : 69 à 75 €

Il n'y a pas d'individu central. Faut-il considérer le 10eme ? le 11eme ? Autre chose ? Il existe deux réponses suivant les ouvrages consultés. * On peut faire une moyenne des 10eme et 11eme valeurs qui sont 68 et 69 et donner M = 68,5 € * On peut aussi considérer que l'individu "central" est le 10eme (20/2). La médiane de la série, le prix médian, vaut alors 68 €. D'une manière générale, la médiane est la valeur prise par l'individu numéro N/2.

ECC(M) = N

2

4.2.2 Caractère continu

On simplifiera les questions précédentes en considérant que dans tous les cas :

ECC(M) = N

2 FCC(M) = 50 %

déf : La classe médiane est la classe qui contient la médiane.

Calcul de la médiane par interpolation linéaire

* repérer la classe médiane : dans quelle classe constate-t-on le cumul de la moitié de la population ?

* la médiane se positionne entre les bornes de cette classe, dans les mêmes proportions que les FCC

(ou les ECC) de ces trois valeurs :

Ci-contre, on reprend le segment extrait du diagramme des

FCC qui comprend la médiane (M).

Sue l’axe X, M se situe quelque part dans la classe

d’amplitude A connue, à une distance a inconnue de la

borne inférieure de la classe.

En correspondance sur l’axe FCC, les bornes inférieure et

supérieure de cette classe ont des FCC connues, ainsi que

la médiane dont la FCC vaut exactement 50%. Les

distances b et B sont donc calculables.

Les lignes en pointillés se rencontrant sur un segment de droite (en diagonale), le théorème de

Thalès nous autorise à affirmer l’égalité de certaines proportions, de certains rapports. En

particulier : a/A = b/B. (si, par exemple, b vaut le tiers de B, alors a vaut forcément le tiers de A,

ce qui nous permet d’en déduire la position exacte de M).

Avec l’exemple 1 : a = M-100, A = 110-100 = 10, b = 50-43 = 7, B = 64-43 = 21.

Ainsi, a/A = b/B donne (M-100)/10 = 7/21, soit M-100 = 3,3 et donc M = 103,3.

Page 12: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 12 sur 16

4.3 La MOYENNE (arithmétique)

4.3.1 Calcul de la moyenne

La moyenne arithmétique est la modalité qui correspond à une distribution uniforme sur tous les

individus. En d’autres termes, elle correspond à une mise en commun de l’ensemble des valeurs et à une

redistribution équitable de leur somme.

Elle est par conséquent définie par : ( )

p

i i p

i

i i

i

n x

x X f x=

== = =

∑∑1

1

EN

Exemple (exercice 8) : dans un groupe de 25 étudiants on a relevé :

note en maths 8 11 15 nombre d'étudiants 7 14 4

fréquences 28% 56% 16%

Calcul de la moyenne du groupe avec les effectifs :

( ) 1 7 8 14 11 4 15 270E 10,8

N 7 14 4 25

p

i i

i

n x

x X = × + × + ×= = = = =+ +

Calcul de la moyenne du groupe avec les fréquences :

( ) % % %

1

E 28 8 56 11 16 15 2,24 6,16 2,4 10,8p

i i

i

x X f x=

= = = × + × + × = + + =∑

4.3.2 Propriétés de la moyenne

E(aX) = a.E(X) E(X+a) = E(X) + a E(X+Y) = E(X) + E(Y)

4.3.3 Distribution somme

Lorsque deux groupes représentent deux listes de valeurs xi et yi , on peut vouloir s’intéresser aux

possibilités de la somme des deux variables.

Il faut alors croiser chaque valeur de X avec chaque valeur de Y.

L’effectif à prendre en compte pour chaque croisement est alors le produit des effectifs rencontrés.

Page 13: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 13 sur 16

5 Les paramètres de dispersion

5.1 Introduction Ils répondent à l'interrogation suivante : Les valeurs sont-elles en général assez éloignées ou plutôt proches de leur moyenne ?

dispersion faible

dispersion élevée

Citons l'exemple de deux ouvriers effectuant le même travail. On a compté pendant 5 heures le nombre

de pièces qu'ils ont produites chaque heure :

ouvrier 1 26 29 34 38 42

ouvrier 2 30 33 34 35 37 Leurs cadences moyennes sont égales, ainsi que leurs cadences médianes (vérifiez-le !). On ne peut

distinguer le travail de ces ouvriers à l’aide de ces paramètres de position, qui ne s donc, dans le cas

général, suffisants pour caractériser une distribution statistique.

On peut aussi mesurer la dispersion des observations autour de leur valeur moyenne ou médiane.

5.2 Paramètres basés sur les découpages de la population

5.2.1 L'ETENDUE

déf : On appelle étendue d'une série quantitative, notée e, la différence entre les valeurs maximale et minimale.

L’étendue de l’ouvrier 1 vaut 42 – 26 = 16 pièces (écart entre la cadence la plus forte et la cadence la

plus faible). Celle de l’ouvrier 2 vaut 37 – 30 = 7 pièces. On peut dire que l’ouvrier 2 a une cadence de

travail plus régulière que celle de l’ouvrier 1.

L’exemple 1 montre une étendue de 75 – 59 = 16 € (écart maximal de prix entre deux magasins).

Pour l’exemple 2 : e = 149 – 50 = 99 (écart maximal du nombre d’employés entre deux entreprises).

Remarque : l'étendue ne tient compte que des valeurs extrêmes, qui sont parfois accidentelles.

Il peut être parfois utile, mais parfois dangereux, d'en tenir compte.

x

x

Page 14: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 14 sur 16

5.2.2 Les QUANTILES

déf : Valeurs de X qui divisent la population en sous-populations ordonnées d'effectifs égaux.

Les quartiles

Ce sont les valeurs du caractère qui départagent la population en 4 groupes de même taille.

Il y a donc trois valeurs intermédiaires, trois quartiles, notés Q1, Q2 et Q3.

intervalle interquartile : [Q1 ; Q3], qui contient 50% de la population

écart interquartile : c’est le nombre ei = Q3 – Q1

Caractère discret :

Le premier quartile Q1 est tel que ECC(Q1) = (N+1)/4 arrondi à l'entier

Le troisième quartile Q3 est tel que ECC(Q3) = 3(N+1)/4 arrondi à l'entier

Le second quartile est la médiane : Q2 = M

Caractère continu :

On définira les quartiles par FCC(Q1) = 25 %, FCC(Q3) = 75 % et bien sûr Q2 = M.

les quintiles

Valeurs q1, q2, q3, q4 qui partagent la population en cinq groupes de même taille.

ECC(q1) = N/5 arrondi, ECC(q2) = 2N/5 arrondi, …, ECC(q4) = 4N/5 arrondi

FCC(q1) = 20%, FCC(q2) = 40%, …, ECC(q4) = 80%

écart inter quintile : ei = q4 - q1

les déciles

Valeurs D1, D2, ..., D9 qui partagent la population en dix groupes de même taille.

ECC(D1) = N/10 arrondi, ECC(D2) = 2N/10 arrondi, …, ECC(D9) = 9N/10 arrondi

FCC(D1) = 10%, FCC(D2) = 20%, …, FCC(D9) = 90%

écart inter décile : ei = D9 - D1

les centiles

Valeurs C1, C2, ..., C99 qui partagent la population en cent groupes de même taille.

ECC(C1) = N/100 arrondi, ECC(C2) = 2N/100 arrondi, …, ECC(C99) = 99N/100 arrondi

FCC(C1) = 1%, FCC(C2) = 2%, …, FCC(C99) = 99%

écart inter centile : ei = C99 - C1

Page 15: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 15 sur 16

5.3 Paramètres basés sur les écarts entre valeurs

Les définitions qui suivent s’appuieront sur l’exemple ci-dessous : soit un groupe de 25 étudiants dont on

liste les notes à l’issue d’un contrôle. Seules trois notes différentes ont été obtenues : 8, 11 et 15.

note en maths xi 8 11 15 moy : note moyenne = 10,8

nombre d'étudiants ni 7 14 4

écarts note-moyenne ei -2,8 0,2 4,2 moy : écart moyen = 0

écarts absolus |ei| 2,8 0,2 4,2 moy : écart absolu moyen = 1,568

carrés des écarts ei² 7,84 0,04 17,64 moy : variance = 5,04

Le démarrage consiste à établir une liste d’écarts à la moyenne (ligne 3). Cette dernière valant 10,8, on peut

dire que 7 étudiants ont un écart de -2,8, 14 étudiants ont un écart de +0,2 et 4 étudiants un écart de +4,2.

Quelle est maintenant la moyenne de ces écarts (ce qui nous donnera un paramètre de dispersion, faible,

moyen ou élevé, des valeurs autour de leur moyenne) ? 0 !

5.3.1 L'ECART ABSOLU MOYEN

La troisième ligne du tableau ci-dessus montre que la moyenne des écarts est nulle ! En effet, les écarts positifs compensent exactement les écarts négatifs, dans tous les cas. Parlons en termes de distance : rendons positifs tous les écarts (quatrième ligne) et calculons la moyenne de ces écarts « absolus ». Nous obtenons l’écart absolu moyen, la distance moyenne des valeurs autour de leur moyenne.

déf : On appelle écart absolu moyen le nombre 1

1

N

p

x i i

i

E n x x=

= −∑

5.3.2 La VARIANCE, notée V(X) ou σ²(X) ; l'ECART TYPE σ(X)

La cinquième ligne du tableau ci-dessus propose de rendre les écarts positifs en les mettant au carré. La moyenne des valeurs obtenues est alors appelée variance de la série. déf : La variance de la série est la moyenne des carrés des écarts.

formule de Koenig : ( )2

21VN

p

i i

i

n x

X x== −∑

Propriétés : V(aX) = a².V(X)

V(X+Y) = V(X) + V(Y).

Pour rétablir l'unité de mesure qui avait été faussée par les mises au carré initiales, on s’intéresse à la

racine carrée de cette variance, portant le nom d’écart type et jouant le même rôle que l’écart absolu

moyen défini précédemment.

déf : L'écart type de la série est la moyenne quadratique des écarts : ( ) ( )VX Xσ =

Il a l'avantage d'être exprimé dans la même unité que celle de la variable X.

Page 16: S1 - Stat1var - COURS - Rev 2019 · IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16 INTRODUCTION ET HISTORIQUE

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 16 sur 16

6 Utilisation de la calculatrice

Entrée des données :

Casio

Menu STAT

de préférence, entrer les modalités en List 1

et les effectifs en List 2.

TI

Touche STAT

de préférence, entrer les modalités en L1

et les effectifs en L2.

Visualisation des résultats :

Il faut dire à votre calculatrice quelles sont les listes avec lesquelles elle doit faire ses calculs !

Casio

Option écran CALC puis SET

(vous dites à votre calculatrice où sont vos données)

1 Var XList : List 1

1 Var Freq : List 2

Touche Exit puis option écran 1VAR RESULTATS

TI

Touche STAT

Option écran CALC, item Stat1Var

Ajouter manuellement L1,L2 Doit s’afficher : Stat1Var L1,L2

EXE RESULTATS

(à la suite de « Stat1Var », votre TI attend deux renseignements dans un ordre bien précis : où

est la variable ?, puis où sont les effectifs ?)

Détail des résultats :

Vos calculatrices vous renvoient un certain nombre de résultats. En particulier :

2

X

X

x

x

x

n

S

σ

Σ

Σ

moyenne

somme des effectifs×modalités (intervient dans le calcul de la moyenne, vaut 270 pour le

tableau page 15)

somme des effectifs×modalités² (intervient dans le calcul de la variance – formule de

König - vaut 126 pour le tableau page 15)

effectif total (vaut 25 pour le tableau page 15)

écart type de la série (vaut 2,245 pour le tableau page 15) ; xσn pour certaines Casio

autre écart type, légèrement plus élevé (ne vous concernera qu’au semestre 3) ; xσn-1

pour certaines Casio

Remarque : la médiane et le mode sont donnés de manière juste par la calculatrice, seulement dans le cas d’une variable discrète ! (en variable continue, nous indiquons les centres des classes à la calculatrice, ce qui ne lui permet malheureusement pas de reconstituer ces classes).