Cour Info Stat
-
Upload
sopranolex -
Category
Documents
-
view
218 -
download
0
Transcript of Cour Info Stat
-
8/18/2019 Cour Info Stat
1/66
ANALYSE DE DONNEES
V 4.9
Marc MENOU Mars 2008
-
8/18/2019 Cour Info Stat
2/66
TABLE DES MATIERES
1 INTRODUCTION 3
2 EL É MENTS FONDAMENTAUX 8
21 RAPPELS SUR LA THÉORIE DES ENSEMBLES 8
22 RAPPELS DE GÉOMÉTRIE 8
23 RAPPELS SUR LES MATRICES 9
24 RAPPELS DE STATISTIQUE DESCRIPTIVE 10
26 RAPPELS SUR LA THÉORIE DE L'INFORMATION 11
27 LES TABLEAUX 12
TABLEAUX INDIVIDUS X VARIABLES QUANTITATIVES 12
TABLEAUX LOGIQUES OU BOOLÉENS OU BINAIRES 12
TABLEAUX PRÉSENCE ABSENCE 12
TABLEAUX DE DONNÉES ORDINALES OU DE PRÉFÉRENCES 12
TABLEAUX DES RANGS 13
TABLEAUX HÉTÉROGÈNES OU MIXTES 13
28 LES RELATIONS ENTRE VARIABLES 13
3 M ÉTHODES 13
4 LES ANALYSES FACTORIELLES 15
41 L'ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 15
42 L'ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC) 26
43 L'ANALYSE DES CORRESPONDANCES MULTIPLES ACM 30
44 L’ANALYSE FACTORIELLE DES SIMILARITÉS (OU DE DISSIMILARITÉS) ET DES PRÉFÉRENCES 32
45 L'ANALYSE DISCRIMINANTE (AFD) 36
46 L’ANALYSE DES MESURES CONJOINTES 42
47 L'ANALYSE CANONIQUE 43
5 LES MÉTHODES DE CLASSIFICATION , DE TYPOLOGIE OU DE TAXINOMIE 46
51 L'ANALYSE NON HIÉRARCHIQUE 47
52 L'ANALYSE HIÉRARCHIQUE 54
LOGICIELS 59
BIBLIOGRAPHIE 60
M. MENOU / ANALYSE DE DONNEES
2
-
8/18/2019 Cour Info Stat
3/66
3
-
8/18/2019 Cour Info Stat
4/66
1 Introduction
L'analyse des données est une technique relativement ancienne
1930 (PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant
des développements récents 1960-1970 du fait de l'expansion de
l'informatique.
L'informatique est importante car cette technique nécessite le
brassage de beaucoup de données par beaucoup de calculs pour
en tirer des représentations graphiques. Elle apporte rapidité
et fiabilité.
L'analyse des données est une technique d'analyse statistique
d'ensemble de données. Elle cherche à décrire des tableaux et
à en exhiber des relations pertinentes. Elle se distingue de
l’analyse exploratoire des données.
La statistique est une technique qui permet la compréhension
de la réalité. C’est un moyen d’investigation de la
complexité.
M. MENOU / ANALYSE DE DONNEES
4
STATISTIQUE
REEL COMPLEXEREPRESENTATION
SIMPLIFIEE
-
8/18/2019 Cour Info Stat
5/66
En effet, comme le dit P. VALERY "tout ce qui est simple est
faux, tout ce qui ne l'est pas est inutilisable". Il s'agit en
quelque sorte d'"élaguer" la réalité en ne retenant que ce qui
est primordial. Il faut en particulier réduire les dimensions
de la réalité, c’est-à-dire ne pas considérer certaines
variables tout en cherchant à conserver le maximum de sens.
Cela revient à effectuer une projection.
Ces trois schémas représentent une chaise dessinée dans le
plan. Ils permettent une plus ou moins bonne identification
selon l’axe de projection.
La réalité peut être considérée comme un nuage de points à n
dimensions que notre cerveau a du mal à se représenter.
La statistique est donc une méthode de traitement de
l'information. L'information est ce qui permet d'entreprendre
une action. Mais pour agir, il faut savoir. La connaissance,
5
-
8/18/2019 Cour Info Stat
6/66
en rapport avec les ensembles réels, se rapporte à ce qui pour
une population donnée, distingue ses individus. Tel l'Horace,
qui a cherché à distancer les Curiaces, le pouvoir ne peut
s'exercer efficacement qu'à l'encontre des individus isolés.
Diviser pour mieux régner est aussi une devise bien connue. Il
faut donc chercher la ou les variables qui opposent le plus,
qui séparent le plus, les individus. La variance est donc,
comme caractéristique de dispersion, le critère de choix le
plus désigné des critères de connaissance. L'analyse des
données repose donc essentiellement sur les notions de
variances, de covariance, de distances, de groupe, de lien et
de hiérarchie.
La théorie des ensembles fournit le cadre conceptuel de base
dans lequel il convient de poser la problématique.
L'analyse des données souhaite cependant se démarquer des
techniques statistiques et économétriques classiques.
Elle cherche à regarder les données pour elles-mêmes en
oubliant les théories qui ont permis de les rassembler. Car
l'élaboration d'un modèle et l'observation projettent les
idées déjà contenues dans le cerveau. Il n'est perçu que ce
que l'on désire essentiellement percevoir. Il faut comme l’a
écrit KRISHNAMURTI : « se libérer du connu ». Pour ce faire,
il faut considérer beaucoup de données afin d’éviter
l’arbitraire de leur choix.
Bien entendu, il existe une différence entre les objectifs et
les réalisations car les moyens sont limités.
M. MENOU / ANALYSE DE DONNEES
6
-
8/18/2019 Cour Info Stat
7/66
R. THOM relève que prédire n’est pas expliquer. Si les modèles
statistiques permettent la prévision, il s’agit souvent de
mettre en évidence des liaisons quantitatives observables.
Cela constate simplement, cela n’explique rien.
L'analyse de données entend se démarquer des statistiques
paramétriques. La statistique paramétrique effectue des
mesures quantitatives et utilise le théorème central limite
qui ramène à la loi de LAPLACE-GAUSS. La contestation par
l'approche non paramétrique cherche d'une part, à se
débarrasser de l'obligation de passer par la loi normale et
donc des contraintes sur la taille des échantillons, et
d'autre part, à s'intéresser aux données qualitatives.
L'analyse des données se distingue en rejetant l'aspect
inférentiel et insiste sur l'aspect descriptif d'un ensemble
considéré comme complet.
L'analyse des données est un moyen de lutte contre
l'idéologie. Il n'y a de vérité que statistique, tout le reste
n'est que littérature. La force de toute idéologie est qu'elle
représente la réalité, ce qui la rend crédible. Toute
idéologie véhicule une part de réalité mais, simplifiée par
les à priori déjà acceptés. La réalité complexe est
difficilement intelligible pour l'homme. Elle est de plus
souvent inacceptable comme l'indique l'épisode de la caverne
de PLATON. Elle peut être considérée comme le font les
scientifiques par un nuage de points dans un ensemble de
dimension importante. Les statisticiens par ce qui est appelée
7
-
8/18/2019 Cour Info Stat
8/66
l'analyse de données déterminent, le plus souvent, des plans
de projections de cette réalité en deux dimensions. Ce type
d'instrument porte mal son nom car il s'agit plus de synthèse
que d'analyse, puisqu'il s'agit de projeter des relations. Ils
simplifient la réalité, ils l'élaguent mais en cherchant des
plans qui conservent le maximum d'informations, de variances,
et ce par une méthode relativement rationnelle, relativement
indépendante de l'observateur. L'idéologue effectue le même
travail, mais sans aucun support mathématique, il projette sur
le plan qui correspond à sa finalité. La subjectivité est
importante. Mais, il ne peut être entièrement contré puisque
c'est bien la réalité complexe qu'il projette. Finalement,
cela revient à pondérer à priori chaque observation selon des
objectifs affectifs. Chaque idéologie n'est en fait qu'une
détermination, a priori et subjective, de hiérarchie. La
différence entre les idéologies réside donc dans le choix de
ce qui est essentiel et de ce qui paraît secondaire. Elles
sont donc vraies dans la mesure où elles parlent d'objets
réels, fausses dans la mesure où il ne s'agit que de
hiérarchies finalisées. C'est pour cela qu'elles se
distinguent plus par le non-dit que par le dit. Elles disent
toutes la réalité qu'elles cherchent à décrire, elles taisent
leur pondération. Si les structures réelles sont emboîtées en
niveaux d'organisation croissants, les structures idéologiques
constituées progressivement ne se recouvrent pas complètement.
Les idéologies se complètent parfois et se contrarient
souvent. C'est une marque de leur irréalisme.
M. MENOU / ANALYSE DE DONNEES
8
-
8/18/2019 Cour Info Stat
9/66
L'univers est un ensemble de structures. La connaissance de
l'environnement passe par la description et la compréhension
des causes et conséquences de ces structures. Si les éléments
composant les structures sont visibles, en revanche, les
relations qui lient les éléments ne le sont pas. L'objectif de
la démarche statistique est de faire apparaître ces liaisons.
Les deux types de relations fondamentales sont les relations
d'équivalence et les relations d'ordre. Ainsi, une population
peut-elle être décomposée en classes hiérarchisées.
2 El é ments fondamentaux
21 rappels sur la théorie des ensembles
ensemble
appartenance
sous ensemble
inclusion
réunion
intersection
relation d'équivalence
relation d'ordre
partition
9
-
8/18/2019 Cour Info Stat
10/66
22 rappels de géométrie
produit scalaire
Le produit scalaire de deux vecteurs est le produit de la
longueur de l'un par la projection de l'autre sur lui.
(u.v.Cos(u,v))
Le produit scalaire est commutatif et distributif.
Si les vecteurs sont orthogonaux le produit scalaire est nul.
Si les vecteurs sont colinéaires le produit scalaire est ±(u.v)
Si les vecteurs unitaires sont orthogonaux le produit scalaire
est égal à la somme des produits des composantes
correspondantes.
projection
La projection d'un vecteur sur un axe est obtenue par le
produit scalaire du vecteur par le vecteur unitaire de l'axe.
Cela permet le changement d’axe de coordonnées.
distance
Dans l’espace des variables, un produit scalaire particulier,
et donc une distance, s’impose.
< x , y >=1
n x
i
i=1
n
∑ yi
Ainsi, le coefficient de corrélation correspond au cosinus de
l’angle formé par les deux variables centrées.
Le choix d’une distance est toujours arbitraire dans l’espace
des individus, car il est possible d’associer à chaque
variable un coefficient de pondération.
métrique
M. MENOU / ANALYSE DE DONNEES
10
-
8/18/2019 Cour Info Stat
11/66
23 rappels sur les matrices
trace
La trace d'une matrice est la somme des termes de la diagonale
principale.
valeur propre
λ est valeur propre de A Det(A - λ I) = 0
vecteur propre
V est vecteur propre de f si f(V) = λ V
matrice diagonale
Une matrice diagonale est une matrice dont tous les termes
appartiennent à la diagonale principale.
diagonalisation de matrice
24 rappels de statistique descriptive
population
variable
variable qualitative
variable quantitative
passage du quantitatif au qualitatif
passage du qualitatif au quantitatif
moyenne
variance
La variance est un concept important car il indique si la
variable discrimine (étale) les individus. Une grande variance
donne de l'information sur la population et donc du pouvoir.
11
-
8/18/2019 Cour Info Stat
12/66
25 rappels de m écanique
centre de gravité
Le centre de gravité d'un solide, ou barycentre, correspond à
la notion statistique de moyenne.
inertie
L'inertie d'un solide correspond à la notion de variance.
Un corps a d'autant plus d'inertie qu'il faut d'énergie pour
le mettre en rotation autour d'un axe.
(distance/axe)2 x masse =: (écart/moyenne)2 x fréquence
Ainsi, l'inertie est minimum par rapport au centre de gravité,
comme la variance est minimale par rapport à la moyenne.
théorème de HUYGENS
Inertie d'un corps/O = inertie/G + m x OG2
Variance/x = variance/M + x(x-M)2
Tout corps biscornu se comporte comme un ellipsoïde à 3 axes
de symétrie. Autour du grand axe, l'inertie est minimale,
autour du petit, l'inertie est maximale.
Soit un nuage de n points pesants dans un espace de dimension
3, il correspond à un ellipsoïde d'inertie. Le centre de
gravité sert d'origine des coordonnées x,y,z. Soit X(n,3) la
matrice des coordonnées. V(3,3) = X'X la matrice d'inertie du
nuage. L'inertie totale est égale à l'inertie expliquée par
l'axe et l'inertie autour de l'axe. Les 3 valeurs propres de V
sont les inerties expliquées par les 3 axes du nuage. Leur
somme est égale à la trace de V, soit à l'inertie du nuage.
M. MENOU / ANALYSE DE DONNEES
12
-
8/18/2019 Cour Info Stat
13/66
26 rappels sur la théorie de l'information
27 les tableaux
Les populations comprennent des individus distingués selon un
certain nombre de variables. Ces informations sont rassemblées
dans des tableaux de base croisant individus et variables. Ces
tableaux peuvent s'interpréter de deux façons, un nuage
d'individus dans un ensemble de variables ou un nuage de
variables dans un ensemble d'individus.
Tableaux individus x variables quantitatives
Tableaux logiques ou booléens ou binaires
Tableaux disjonctifs complet : individu x variable
à chaque modalité, placée en colonne, correspond une variable
indicatrice. C’est la juxtaposition de plusieurs tableaux
logiques.
X’X est une matrice diagonale dont les éléments sont les
effectifs de chaque modalité.
Tableaux présence absence
Tableaux de données ordinales ou de préférencesIndividus x objets à classer. Une case correspond à une notevariant de 1 au nombre d’objets à classer
Tableau de distances ou de proximités : individus x individus
Il présente les distances entre les individus. Ces tableaux
sont symétrique autour de la diagonale principale.
Tableaux de contingence : variable x variable
Il croise les modalités de deux variables qualitatives
13
-
8/18/2019 Cour Info Stat
14/66
Tableaux de BURT : il croise les modalités de plus de 2
variables qualitatives. Il est symétrique.
Tableaux des rangs
Tableaux hétérogènes ou mixtesIndividus x variables Les variables sont de différentes
natures
Soit les variables sont déjà des classements, soit pour les
variables quantitatives on remplace les valeurs par leur rang.
28 les relations entre variables
relations entre deux caractères quantitatifs
Covariance
Coefficient de corrélation linéaire de BRAVAIS-PEARSON
relations entre deux caractères qualitatifs
Le khi-deux
relations entre caractères quantitatifs et qualitatifs
Le rapport de corrélation théorique
Le rapport de corrélation empirique
3 mé thodes
Les méthodes d'analyse des données peuvent se classer en deux
grandes catégories : les méthodes factorielles et les méthodes
de classifications.
Ces deux catégories sont plus complémentaires que
concurrentes.
M. MENOU / ANALYSE DE DONNEES
14
-
8/18/2019 Cour Info Stat
15/66
Les méthodes factorielles peuvent avoir deux objectifs :
• Réduire, simplifier, synthétiser, on parle alors de méthodes
descriptives. Toutes les variables sont considérées
ensemble.
Si les variables sont métriques : analyse en composantes
principales.
Si les variables sont nominales : analyse factorielle des
correspondances.
Si les variables sont ordinales : Analyse des similarités.
• Expliquer, identifier, on parle alors de méthodes
explicatives. Les variables se répartissent en variables
endogènes (à expliquer) et variables exogènes
(explicatives).
Si les variables à expliquer sont nominales : analyse
discriminante.
Si les variables à expliquer sont métriques : analyse de
régression multiple, Analyse de la variance.
Si les variables à expliquer sont ordinales : analyse des
mesures conjointes.
15
-
8/18/2019 Cour Info Stat
16/66
4 Les analyses factorielles
41 L'analyse en composantes principales (ACP)
Technique de base de l'analyse factorielle, elle a été créée
par HOTELLING (1933). C'est la méthode utilisée quand on ne
peut se ramener à un tableau de contingence.
411 Caractéristique
L'analyse concerne un tableau individus x variables xij (n
lignes, p colonnes).
Les variables sont quantitatives, continues, corrélées entre
elles deux à deux.
412 Objectif
Réduire les dimensions du tableau en déterminant de nouvelles
variables (les composantes principales), moins nombreuses (en
général deux ou trois), non corrélées, mais comprenant plus
d'informations (variance maximale) chacune que les variables
initiales.
Il s’agit d’exhiber les relations entre individus du fait de
leur proximité, entre variables du fait de leurs corrélations
et entre individus et variables. Cela permet d’identifier des
sous-ensembles d'individus afin de constituer une
classification.
M. MENOU / ANALYSE DE DONNEES
16
-
8/18/2019 Cour Info Stat
17/66
413 Différents types
l'analyse en composantes principales centrées, fondée sur la
matrice des variances-covariances empiriques
l'analyse en composantes principales normées. Cela revient à
centrer et réduire les variables initiales. En d’autres
termes, on utilise une métrique diagonale des inverses des
variances. L’analyse est fondée sur la matrice des
coefficients de corrélation linéaire.
l'analyse factorielle des rangs fondée sur la matrice des
coefficients de corrélation des rangs lorsque l’on fait plus
confiance aux rangs qu’aux valeurs
l’analyse factorielle sur tableau de distance ou de
dissimilarités
414 Principe
On dispose d'un tableau qui représente un nuage de points de n
individus dans un espace (de variables) de dimension p.
On souhaite réduire l'espace des variables à un plan
(dimension 2). Cela consiste à projeter les n individus sur un
plan.
Or, la projection réduit les distances. Ce plan doit donc être
défini de façon telle, que les distances entre points soient
le mieux conservées. On cherche donc à rendre maximum la
moyenne des carrés des distances entre les projections.
17
-
8/18/2019 Cour Info Stat
18/66
415 Méthode
La matrice des données [X] (n,p) est, selon le choix du type
d'analyse, le plus souvent, centrée réduite. En effet, le
centrage et la réduction permettent de gommer les effets
taille et unité des expressions de variables. Les distances
entre des individus caractérisés par des variables d’unités
différentes n’auraient pas de sens. Les longueurs des
variables (leurs normes) alors sont toutes égales à 1.
L’extrémité des vecteurs se trouve sur une sphère. Le cosinus
de l’angle formé par 2 variables est égal au coefficient de
corrélation linéaire entre ces variables.
Cette matrice est ensuite pré-multipliée par sa transposée de
façon à obtenir une matrice [X’X] (p,p) de variance covariance
(également matrice des corrélations si les variables sont
M. MENOU / ANALYSE DE DONNEES
18
-
8/18/2019 Cour Info Stat
19/66
centrées réduites). La somme des éléments de la diagonale
principale (des variances), la trace par définition,
représente l'inertie du nuage de points. Si toutes les
variables sont réduites, leur variance commune est 1 et la
somme des variances est alors p. p représente l’information
totale du nuage.
La matrice est alors diagonalisée. Les lignes et colonnes de
cette matrice correspondent à de nouvelles variables appelées
composantes principales. Du fait de la diagonalisation, la
nouvelle diagonale principale comprend alors les p valeurs
propres λi classées par ordre décroissant. La trace est
conservée par cette transformation, mais les covariances sont
annulées car les composantes principales, concentrent toute
l'information. Les valeurs propres correspondent aux variances
des composantes principales.
Var (Ci) = λi
Ces p composantes principales Ci s’expriment comme combinaison
linéaire des anciennes variables. Elles sont telles que la
somme des carrés de leurs corrélations avec les anciennes
variables soit maximum.
C i = ϖ ι1ξ 1 + ϖ ι2ξ 2 + ... + ϖ ιπ ξ π
où vi est le vecteur propre associé à λi
Des graphes sont alors dessinés croisant les composantes
19
-
8/18/2019 Cour Info Stat
20/66
principales 1 et 2 (voire 1 et 3 et/ou 2 et 3 etc.), tant pour
les variables que pour les individus, séparément car
l’interprétation ne suit pas les mêmes principes. Les graphes
des variables comprend le cercle des corrélations.
Cette transformation revient à déterminer de nouveaux axes
orthogonaux, appelés facteurs (ou composantes), centrés sur le
point moyen. Ils sont engendrés par les vecteurs propres. Le
premier axe est celui qui correspond à la plus grande inertie.
Le second est choisi orthogonalement au premier et qui exprime
la plus grande inertie restante et ainsi de suite.
416 Interprétation
Les composantes principales constituent de nouvelles variables
(correspondant à de nouveaux concepts), qu'il s'agit
d'identifier. Ces variables sont non corrélées entre elles.
Elles s'expriment comme des combinaisons linéaires des
anciennes.
L'interprétation passe par plusieurs étapes :
. La matrice des corrélations des variables initiales permet
de voir si l'analyse peut être globalement possible. En effet,
une des conditions de mise en œuvre est que les variables
initiales soient corrélées, sinon, le nombre de dimensions ne
peut-être réduit. On ne peut résumer que ce qui est
M. MENOU / ANALYSE DE DONNEES
20
-
8/18/2019 Cour Info Stat
21/66
partiellement redondant et lié. Il faut donc qu’un maximum de
valeurs de la matrice des corrélations soient proches de 1 en
valeur absolue. Si toutes les corrélations sont positives
c’est qu’il existe un facteur taille, les individus peuvent
être ordonnés.
. La qualité globale d'explication
Le pourcentage de variance expliquée par les axes factoriels
retenus est obtenu par la somme de leurs valeurs propres
divisée par la trace. Cette valeur mesure la qualité globale
de la représentation.
λ iλi∑ x100
Le nombre d'axes à retenir doit être tel, que ce pourcentage
cumulé soit supérieur ou égal à 75 %. Cette condition très
arbitraire n’a pour objectif que d’attirer l’attention sur la
significativité de l’analyse. En général, 3 axes maximum sont
retenus, car au-delà leur interprétation s'avère délicate.
Pour une ACP centrée réduite, il ne faut retenir que les
valeurs propres supérieures à 1 (critère de KAISER). Ce
critère signifie que comme chaque variable initiale apporte
une information égale à 1 (variance), on ne retient que les
composantes qui apportent au moins autant d’information que
les variables initiales.
Le critère du coude de CATTELL détecte le ralentissement dans
la décroissance des valeurs propres. En abscisse, on place les
21
-
8/18/2019 Cour Info Stat
22/66
numéros de valeur propre et, en ordonnée, le pourcentage
d’inertie expliquée. Quand ce pourcentage devient peu
différent entre les valeurs propres (après le coude) les axes
ne sont plus importants.
On peut aussi décider de ne conserver que les axes qui
restituent une proportion d’inertie supérieure à k (entier
égal à 2 ou 3) fois 100/p, où p représente le nombre de
variable observées. Un axe qui correspond à un faible taux
d’inertie peut cependant être pertinent.
. Les corrélations entre les axes factoriels et les variables
initiales indiquent la qualité de représentation de la
variable sur l'axe. Les coordonnées des variables sont égales
aux corrélations avec les axes. Plus une corrélation entre une
variable et un axe est forte, plus la variable est proche de
l’axe.
Il ne faut interpréter les axes qu'à partir des variables les
mieux représentées, c’est-à-dire celles dont la corrélation
est proche de 1 en valeur absolue. Autrement dit, les
variables bien représentées dans le plan sont proche du cercle
des corrélations. La proximité entre points variables n'est
exploitable que si ces points sont proches de la circonférence
appelée cercle des corrélations (centre O et rayon 1).
La corrélation entre les variables de départ et la r ième
composante est :
vr 1
nC
i
r
( )2
ι=1
ν
∑
M. MENOU / ANALYSE DE DONNEES
22
-
8/18/2019 Cour Info Stat
23/66
où vr est le vecteur propre associé à la r ième composante
• Interprétation des axes factoriels par les points variables.
L'analyse consiste à déterminer la signification des axes
factoriels.
Une ancienne variable a pour coordonnées le coefficient de
corrélation entre cette variable et la composante principale.
Les proximités des variables (bien représentées) avec les
axes, associées aux oppositions entre variables permettent de
trouver la signification des nouvelles variables. Ces
proximités indiquent leurs corrélations.
Ce n’est pas la distance au centre qu’il faut interpréter mais
les angles entre les variables et avec les axes. Des variables
qui forment un angle nul entre elles sont corrélées, celles
qui font un angle droit ne sont pas corrélées, et celles qui
présentent un angle plat sont corrélées négativement. Plus une
variable est corrélée avec un axe plus elle est proche de
celui-ci.
Lorsque les variables anciennes sont corrélées positivement
entre elles, le premier axe définit généralement un facteur
taille. Le deuxième axe différencie alors les individus de
taille semblable, c'est un facteur forme.
. Les corrélations entre les axes factoriels et les individus
suivent les mêmes principes. Une sélection, des individus les
mieux représentés, doit être effectuée, pour contribuer à
l'interprétation des axes. Les individus qui étaient
23
-
8/18/2019 Cour Info Stat
24/66
caractérisés par une valeur pour chaque variable d’origine
prennent maintenant une valeur pour chaque composante
(nouvelle variable). Pour visualiser la dispersion de ces
valeurs (les individus sont différents), on passe de la
dimension p à la dimension 2 (ou 3 à la rigueur). Cela
signifie que l’on effectue une projection. Or toute projection
déforme les distances qui se raccourcissent. Il ne faut
retenir que les distances qui ont été le mieux conservées.
Cette qualité ponctuelle de représentation est fournie, selon
les logiciels par : les contributions absolues, les
contributions relatives des points au facteur (CTR), les
cosinus carrés (pour éviter les signes négatifs) des
projections et la qualité de la représentation (QLTr). Le
cosinus carré est appelé contribution relative du plan à
l’individu. Plus un individu est proche du plan plus l’angle
est faible plus le cosinus carré est proche de 1. Les
contributions absolues expriment l’importance de chaque
individu dans la création des axes par rapport aux autres
individus.
M. MENOU / ANALYSE DE DONNEES
24
α
g
-
8/18/2019 Cour Info Stat
25/66
La proximité sur le graphique peut correspondre à des
individus très différents par rapport aux variables initiales.
On compare donc le carré de la norme ( de la distance à
l’origine des axes) initial à celui après projection.
La qualité de représentation d’un individu i sur l’axe r est
mesurée par :
C ir
( )2
Ξ ιϕ ( )2
ϕ =1
π
∑
où le dénominateur représente le carré de la distance de
l’individu au centre du nuage dans la base des anciennes
variables et le numérateur le carré de la distance de
l’individu i au centre du nuage suivant l’axe r.
L’individu est bien représenté si le numérateur est important
par rapport au dénominateur.
La contribution (dite absolue) de l’individu i à la variancede l’axe est donnée par le rapport :
1
nC i
r ( )
2
1
ν Χ ι
ρ ( )
2
ι=1
ν
∑
où le dénominateur représente la variance expliquée par l’axe
r, et le numérateur la part de cette variance due à l’individu
i.
Si ce rapport est important, cela signifie que l’individu i
joue un rôle important dans la définition de l’axe.
. Interprétation des axes factoriels par les points individus.
25
-
8/18/2019 Cour Info Stat
26/66
Les proximités et les oppositions entre individus, par
l'analyse de leurs points communs, aident aussi à la
compréhension des nouveaux axes. Les individus proches ont des
profils semblables (réponses voisines aux diverses questions).
Une analyse typologique peut préciser ces regroupements. Les
individus placés au centre du graphique doivent être analysés
comme « moyens ».
417 Limites
L’analyse est sensible aux individus très différents. Pour ne
pas trop falsifier l’analyse, il est possible de les
considérer comme des individus supplémentaires.
L’interprétation doit être prudente, car les processus sous-
jacents sont complexes, ce ne sont jamais que des
représentations.
M. MENOU / ANALYSE DE DONNEES
26
-
8/18/2019 Cour Info Stat
27/66
42 L'analyse factorielle des correspondances (AFC)
Travaux de J.-P. BENZECRI (1960).
421 Caractéristique
Cette méthode permet d'étudier la liaison entre les modalités
de deux variables qualitatives (correspondances). Comme toute
variable quantitative peut, par un codage, se ramener à une
variable qualitative, l'AFC permet de mettre en évidence des
liaisons non linéaires entre variables quantitatives non
détectées par le coefficient de corrélation linéaire.
L’objectif poursuivi est le même que pour l’ACP, à savoir,
réduire le nombre de dimensions pour permettre une meilleure
compréhension de phénomènes noyés dans la masse des
informations.
Elle se ramène à une ACP effectuée avec une métrique spéciale,
celle du khi-deux, sur un tableau de contingence (Tableau
variable x variable). C'est une technique d'exploration des
tableaux (ou profils) croisés.
Les représentations graphiques sont relativement faciles à
interpréter.
422 Méthode
Cette méthode généralise le test d’indépendance du khi-deux.
La population est définie par deux variables qualitatives X (l
27
-
8/18/2019 Cour Info Stat
28/66
modalités) et Y (c modalités), ce qui permet d'obtenir deux
représentations, deux nuages. Deux analyses duales
équivalentes sont alors possibles. Soit on s'intéresse aux
profils ligne, ce qui ramène à un tableau individu x variable,
où les individus sont les modalités de la variable X, placée
en lignes et affectés des poids ni./n...
Soit on s'intéresse aux profils colonne, ce qui ramène à un
tableau individu x variable, où les individus sont les
modalités de la variable Y, placée en colonne, affectés des
poids n.j/n... Il s'agit alors d'effectuer deux ACP : une sur
le tableau des profils lignes (l,l) une sur le tableau des
profils colonne (c,c) au lieu de la matrice des corrélations.
Ces deux ACP sont équivalentes.
Les valeurs propres et vecteurs propres résultant des 2 ACP
sont identiques.
I somme des valeurs propres (en nombre : min(l,c)-1) mesure
l’information contenue dans les deux tableaux. Le produit de I
par le nombre d’observations n est égal au khi-deux.
L’information contenue dans un tableau de contingence est donc
d’autant plus grande que les lignes et colonnes sont
dépendantes.
Concrètement le tableau des effectifs nij est transformé en
tableau des fréquences fij.
Ce tableau est alors centré avant de permettre de calculer la
matrice de variance covariance.
Cette matrice est alors diagonalisée.
M. MENOU / ANALYSE DE DONNEES
28
-
8/18/2019 Cour Info Stat
29/66
423 Interprétation
Il s’agit d’analyser case par case les contributions au khi-
deux les plus élevées, puisque ce sont elles qui ont entraîné
le rejet de l’hypothèse d’indépendance.
L'interprétation passe par plusieurs étapes :
. La qualité globale d'explication
Le pourcentage de variance expliquée par les axes factoriels
retenus est obtenu par la somme de leurs valeurs propres
divisée par la trace. Le nombre d'axes à retenir doit être
tel, que ce pourcentage soit supérieur ou égal à 75 % (nombre
arbitraire).
En général, 3 axes maximum sont retenus, car au-delà
l'interprétation s'avère délicate.
Les valeurs propres sont toutes inférieures ou égales à 1,
donc le critère de KAISER utilisé pour l’ACP ne peut être
retenu. Seule la méthode du coude de CATTELL peut être
utilisée.
. Les contributions des points à l'inertie des axes (CTA) et
la contribution des axes à l'inertie d'un point (CTR)
permettent la sélection des éléments explicatifs. Les cosinus
carrés des projections indiquent ensuite la qualité de la
représentation (QLT). Il ne faut interpréter les axes qu'à
partir des modalités les mieux représentées. Les proximités
29
-
8/18/2019 Cour Info Stat
30/66
entre points modalités ne sont exploitables que si ces points
sont proches de la périphérie.
. L'analyse consiste à déterminer la signification des axes
factoriels. Les proximités des modalités des deux nuages,
associées aux oppositions entre modalités, permettent de
trouver la signification des axes. La proximité entre deux
modalités du même nuage signifie un profil similaire. La
proximité entre deux modalités de variables différentes
signifie un même centre de gravité pour les individus
possédant les modalités des variables concernées.
L'interprétation graphique est favorisée par la dualité des
deux analyses qui permet de représenter les deux nuages de
façon superposée.
Parfois la forme des nuages rend plus rapide l'interprétation.
424 Remarque
L'analyse factorielle des correspondances revient à une
analyse canonique appliquée à deux tableaux disjonctifs.
(Chaque modalité de variable qualitative est remplacée par une
variable quantitative prenant les valeurs 0 et 1.)
M. MENOU / ANALYSE DE DONNEES
30
-
8/18/2019 Cour Info Stat
31/66
43 L'analyse des correspondances multiples ACM
431 Caractéristique
GUTTMAN (1941), BURT (1950) Cette analyse constitue une
généralisation de l'A.F.C. Les n individus sont caractérisés
par p variables qualitatives chacune ayant mi modalités. La
méthode est très utile pour dépouiller rapidement un
questionnaire qui comprend notamment des réponses multiples.
Si celui-ci comprend des variables quantitatives, il suffit de
les transformer en variables qualitatives par découpage en
classes.
Il s’agit d’appliquer une AFC à un tableau disjonctif complet.
Chaque individu est représenté par les indicatrices des
modalités des variables. Il faut alors que le nombre
d’individus soit 5 fois plus important que le nombre de
colonnes.
Il est aussi possible de traiter des variables à réponses
multiples.
432 Méthode
Le tableau croisé, dit tableau de BURT, est un tableau dont
chaque bloc constitutif est un tableau de contingence. Il est
traité comme pour une AFC.
On utilise les distances du khi-deux en tenant compte que le
tableau comprend des données binaires.
31
-
8/18/2019 Cour Info Stat
32/66
Les profils lignes sont obtenus en divisant chaque terme d’une
ligne par le nombre de colonnes.
Le carré de la distance entre 2 individus i et j est :
d 2(i, j ) =
Π κ ι − Π κ
ϕ [ ]
κ =1
µ
∑2
Π κ
Les profils colonnes sont obtenus en divisant chaque terme
d’une colonne par la somme des termes de la colonne.
Le carré de la distance entre 2 profils colonnes i et j est :
d 2(i, j) =
Π κ ι
− Π κ ϕ
[ ]κ =1
ν
∑
2
1ν
433 Interprétation
L'interprétation ne diffère pas de celle d'une A.F.C..
M. MENOU / ANALYSE DE DONNEES
32
-
8/18/2019 Cour Info Stat
33/66
44 L’analyse factorielle des similarités (ou de dissimilarités) et des préf érences
Analyse d’un tableau des dissimilarités (ATD) ou Multi
Dimensional Scaling of similarities and preferences (MDS)
441 Caractéristiques :
On considère n objets repérés les uns par rapport aux autres
par un indice (dissimilarités ou distance). On dispose ainsi
d’un tableau carré symétrique de dimension n représentant les
distances entre ces objets. La diagonale principale est donc
occupée par des 0.
Ex : distances entre villes
Les distances peuvent être des mesures objectives ou des
estimations subjectives. Dans ce dernier cas, on préfère
souvent plutôt que des valeurs métriques, des valeurs
ordinales.
Les données représentent des similarités ou des préférences
(rangs).
Les distances sont données par un individu ou par la moyenne
des distances pour un groupe d’individus.
Les objets (unités statistiques ou les variables) sont définis
par un indice de dissimilarités ou de distance. On compare les
objets deux à deux à partir d’une liste de critères.
33
-
8/18/2019 Cour Info Stat
34/66
Un indice de dissimilarité est une fonction mesurant des
différences et vérifiant des propriétés :
• La dissimilarité est d’autant plus grande que les objets
sont différents
• La dissimilarité entre 2 objets i et j est positive ou nulle
• La dissimilarité entre un objet et lui-même est nulle
• La dissimilarité entre les objets i et j est égale à la
dissimilarité entre les objets j et i.
442 Objectif
Représentation, sous forme graphique, d’un ensemble d’objets
en fonction de leurs distances (dimensions cachées). On
cherche une représentation de ces n objets dans un espace de
nombre de dimensions le plus faible possible.
Mais, si pour des villes la carte existe, il n’est pas certain
que pour des objets ce soit le cas. Par ailleurs, il y a des
risques que pour placer tous les objets on soit obligé de
multiplier les dimensions.
En marketing, on se sert de cette méthode pour le
positionnement des produits et la conception de nouveaux
produits.
443 Méthode :
A partir du tableau de distances, on dresse un second tableau,
M. MENOU / ANALYSE DE DONNEES
34
-
8/18/2019 Cour Info Stat
35/66
carré symétrique des produits scalaires de chaque couple de
vecteurs. C’est la matrice de variances/covariances du nuage.
La méthode consiste, alors, à diagonaliser cette matrice dite
de TORGERSON. Les valeurs propres sont ordonnées en ordre
décroissant.
Si tous les points sont dans le plan, toutes les valeurs
propres sont nulles sauf les 2 premières. Il arrive cependant
que certaines valeurs propres soient négatives, dans ce cas,
la représentation est impossible.
La méthode détermine des axes, la carte perceptuelle, situant
les objets les uns par rapport aux autres. Ces axes
correspondent à la dispersion maximale des objets.
444 Interprétation :
L’interprétation se fait grâce au graphique, par les
proximités et les écarts entre objets.
L’évaluation de la qualité de représentation se fait à l’aide
de deux indices : le stress et le R2.
• Le Stress exprime en pourcentage le respect de l’ordre
initial de classement des objets.
Si l’ordre est respecté le stress est nul.
• R2 représente le carré du coefficient de corrélation entre
35
-
8/18/2019 Cour Info Stat
36/66
les distances (ou similarités sous forme de rangs) de départ
et les distances recalculées.
Un R2 proche de 1 indique un bon ajustement.
M. MENOU / ANALYSE DE DONNEES
36
-
8/18/2019 Cour Info Stat
37/66
45 L'analyse discriminante (AFD)
Travaux de FISHER (1936) et MAHALANOBIS (1936).
451 Objectifs
On cherche à décrire et à classer des individus caractérisés
par un grand nombre de variables. Il s’agit de déterminer les
variables qui distinguent le mieux les groupes d’individus.
452 Caractéristique
Il s’agit de mettre en évidence les relations entre une
variable qualitative Y à expliquer et un ensemble important de
variables quantitatives explicatives. On dispose d'un tableau
individus x variables. (n individus, p variables Xi)
Le nombre de variables explicatives doit être très inférieur
au nombre d’individus.
La variable qualitative Y prenant q modalités, elle réalise
une partition de l'ensemble des individus. L’objectif est
d'être capable d’affecter, dans un deuxième temps, dans chaque
classe, de nouveaux individus, grâce à la fonction
discriminante préalablement constituée.
La première étape consiste donc à préciser la fonction
discriminante à partir des observations des variables
quantitatives. De nouvelles variables doivent être
déterminées, de sorte que les q groupes soient séparés le
mieux possible, c’est-à-dire distinguables sans ambiguïté.
37
-
8/18/2019 Cour Info Stat
38/66
Les coefficients de la fonction estimée (dite discriminante),
sur l'ensemble partitionné d'individus, permettent par la
suite de faire des prévisions pour caractériser la modalité de
la variable à expliquer. Le challenge consiste à réduire le
nombre de variables quantitatives à considérer.
Cette méthode est utilisée pour la reconnaissance de formes,
l’appartenance politique, le diagnostic en médecine, etc.
453 Méthode
Il s'agit de déterminer les q combinaisons linéaires, appelées
variables discriminantes, non corrélées entre elles, des
variables quantitatives explicatives qui séparent au mieux les
classes déjà définies. Les valeurs prises par ces nouvelles
variables, pour les individus d’une même classe, doivent être
les plus concentrées possibles et les valeurs prises par ces
mêmes variables, pour des individus de classes différentes,
les plus dispersées possibles.
M. MENOU / ANALYSE DE DONNEES
38
A
A
A
A
A
B
B
B
B
B
B
-
8/18/2019 Cour Info Stat
39/66
Les projections des points sur l’axe ont une abscisse positive
pour le groupe des B et une abscisse négative pour le groupe
des A.
Pour chaque individu i, on calcule une fonction u(i) (nouvelle
variable) combinaison des p variables quantitatives centrées.
La variance de cette variable u (u'Tu) se décompose en
variance intra-classes et variance inter-classes (théorème de
HUYGENS). Il faut chercher u tel, que la variance interne
(u'Du) soit minimale et la variance externe (u'Eu) maximale.
Cela se traduit par rendre maximal le rapport Vext/Vint ou
(Vext/Vtot) ou minimal Vint/Vext ou (Vtot/Vext). En pratique,
on cherche à rendre maximum u'Eu sous la contrainte u'Du = 1.
Les multiplicateurs de LAGRANGE permettent la résolution de
cette méthode d'optimisation. L = u'Eu - λ (u'Du - 1)
L'annulation de la dérivée par rapport à u :
2 (Eu - λ Du) = 0
La résolution de l'équation donne D-1 Eu = λ u
u est donc vecteur propre de D-1E, le vecteur choisi sera
celui correspondant à la plus grande valeur propre.
Cela revient donc à effectuer une ACP sur le nuage des centres
de gravité des classes avec la métrique de MAHALANOBIS.
La distance de MAHALANOBIS entre deux vecteurs est définie
par :
39
-
8/18/2019 Cour Info Stat
40/66
d2 (u,v) = (u-v)’ D-1 (u-v)
où D-1 est la matrice des variances covariances intra-classes.
Pour réduire le coût de l'analyse, il convient de limiter le
nombre de variables explicatives soit par une analyse en
composantes principales préalable, soit par la démarche du pas
à pas.
Le passage par l'analyse en composantes principales consiste
dans la pratique de l'ACP des centres de gravité des classes.
La démarche pas à pas revient à choisir successivement des
variables en prenant celles qui maximisent la trace de D-1 E
ou celles qui maximisent le pourcentage de bien classés.
Il est possible de pratiquer une analyse discriminante sur des
variables qualitatives en transformant les modalités des
variables qualitatives en variables binaires.
454 Interprétation
La valeur des valeurs propres exprime le pouvoir discriminant
des facteurs. Si la valeur propre est égale à 1, la
discrimination est parfaite
On retient un nombre de facteurs tels que la variance
expliquée (somme des valeurs propres retenues sur somme totale
des valeurs propres) soit convenable.
L'interprétation des facteurs peut s'effectuer par l'analyse
des corrélations entre facteurs et variables comme en ACP.
M. MENOU / ANALYSE DE DONNEES
40
-
8/18/2019 Cour Info Stat
41/66
Le graphique des individus sur les axes discriminants permet
de visualiser quel axe discrimine quels groupes.
Le logiciel indique aussi le pourcentage d’individus bien
classés.
Après avoir précisé la fonction discriminante, il est
préférable de l’appliquer à un deuxième ensemble
d’observations pour voir si les affectations aux classes sont
correctes avant de procéder à des prévisions sur de nouveaux
individus dont on ignore l’appartenance aux classes.
Les règles d’affectation sont multiples.
• La règle géométrique consiste à affecter l’individu à la
classe dont la moyenne est la plus proche selon la distance
de MAHALANOBIS. Mais, cette règle conduit à des affectations
erronées si les effectifs des classes sont très différents.
• La règle probabiliste considère que l’on doit affecter un
individu à la classe dont la distribution de probabilité,
supposée normale, de l’appartenance de cet individu est la
plus forte. A priori chaque classe a la même probabilité de
comprendre l’individu. Mais, ces probabilités sont révisées
ensuite en fonction de la taille du groupe.
455 Remarques : comparaisons avec les autres techniques
L'analyse discriminante est une régression sur une variable
qualitative.
L'analyse discriminante n'est pas une méthode de
41
-
8/18/2019 Cour Info Stat
42/66
classification automatique, puisque la partition existe, mais,
de mise en évidence de cette partition.
M. MENOU / ANALYSE DE DONNEES
42
-
8/18/2019 Cour Info Stat
43/66
46 L’analyse des mesures conjointes
461 Objectif
Mesurer l’effet conjoint de plusieurs variables (explicatives)
indépendantes qualitatives xi sur l’ordre des valeurs prises
par une variable (à expliquer) dépendante qualitative y. On
cherche quelles variables conduisent à un classement donné.
462 Caractéristiques
On dispose de plusieurs variables explicatives indépendantes
(éventuellement nominales transformées en binaires) ayant des
valeurs ordonnées.
463 Méthode
Il s’agit de transformer la variable à expliquer en une
fonction monotone (1,2,3,4, …)
On utilise généralement la méthode d’analyse monotone de la
variance.
La variable à expliquer s’exprime en fonction des autres
variables selon un modèle additif.
43
-
8/18/2019 Cour Info Stat
44/66
47 L'analyse canonique
471 Caractéristique
On dispose d'un tableau individus x variables (quantitatives
réparties en deux groupes de dimension p et q). Cette méthode
permet de déterminer si les deux ensembles de variables
mesurent les mêmes propriétés. En d’autres termes, la méthode
mesure la liaison globale entre deux ensembles de variables.
Peu utilisée en soi, cette analyse décrit une démarche
générale qui se retrouve dans d'autres méthodes (AFC,
AFDiscriminante). Si un ensemble ne comprend qu’une variable,
on a affaire à une régression multiple. Si de plus les autres
variables sont catégorisées, c’est une analyse de variance.
472 Méthode
L'on recherche la combinaison linéaire du premier groupe de
variables et la combinaison linéaire du deuxième groupe de
variables qui maximisent le carré de leur corrélation. Cela
revient à trouver deux vecteurs u et v (variables canoniques)
formant un angle minimum.
Les corrélations les plus fortes exhibent les variables qui
contribuent le plus à la liaison des deux groupes. Les couples
à faible corrélation correspondent à des variables spécifiques
à chaque ensemble.
M. MENOU / ANALYSE DE DONNEES
44
-
8/18/2019 Cour Info Stat
45/66
Géométriquement, la méthode consiste à rechercher les lignes
de plus grandes pentes de 2 sous-espaces W1 et W2.
473 Interprétation
Si les 2 ensembles de variables que l’on peut construire par
combinaison linéaire de chaque groupe sont confondus (angle
nul), on peut se contenter d’un seul ensemble de variables. Si
les 2 ensembles sont orthogonaux (angle droit) cela signifie
que les deux ensembles décrivent des phénomènes différents.
Il faut analyser les corrélations entre variables initiales et
variables canoniques.
45
W1
W2
u
v
-
8/18/2019 Cour Info Stat
46/66
474 Extension
Il est possible d’appliquer la méthode à plus de deuxensembles.
Il est également possible de travailler avec des variables
qualitatives. Il suffit de considérer chaque modalité comme
une variable binaire.
M. MENOU / ANALYSE DE DONNEES
46
-
8/18/2019 Cour Info Stat
47/66
5 Les méthodes de classification, de typologie ou de taxinomie
Ces méthodes visent à répartir les individus en classes
(groupes, segments, clusters, types) homogènes.
L’homogénéité est mesurée par la distance euclidienne usuelle.
Ces méthodes se répartissent en deux catégories les non
hiérarchiques et les hiérarchiques.
Les méthodes non hiérarchiques déterminent des partitions.
Les méthodes hiérarchiques déterminent des suites de
partitions emboîtées en classes de plus en plus larges.
Les tableaux utilisés sont :
des tableaux de distances entre individus
des tableaux de dissimilarités entre individus
des tableaux individus x caractères numériques
des tableaux des coordonnées factorielles d'une analyse des
correspondances
47
-
8/18/2019 Cour Info Stat
48/66
51 L'analyse non hiérarchique
511 Objectifs
Ces méthodes cherchent à établir une partition des individus
en classes. Les individus regroupés dans une classe doivent
être les plus semblables possibles entre eux et les classes
les plus séparées possibles afin de pouvoir les identifier.
Bien sûr, le problème ne se pose que lorsque l’on a affaire à
une population caractérisée par plusieurs variables.
Cependant, il y a peu de chances que des classes existent
nettement.
Il est donc difficile de prouver l’existence de classes ou de
montrer l’efficacité d’une méthode de classification en se
basant sur des classes connues.
M. MENOU / ANALYSE DE DONNEES
48
-
8/18/2019 Cour Info Stat
49/66
Un autre problème concerne la détermination du nombre de
classes.
Pour un ensemble donné, le nombre de partitions concevables
étant très important, il faut définir une méthode. Il est en
effet impossible, en pratique, de procéder par simple
sélection, selon un critère, dans l’ensemble de tous les cas
possibles. Concrètement, il est conseillé de faire plusieurs
essais et de choisir celui qui s’interprète le plus
facilement.
Un seuil de regroupement est défini correspondant à la
distance maximum acceptable pour rassembler deux individus.
512 Méthode :
Il existe plusieurs méthodes de partitionnement : les méthodes
basées sur l’inertie, et celles basées sur les relations
d’équivalence.
5121 Les m éthodes basées sur l’inertie
Le nuage de n points de IRp (n individus, p variables)
représentant la population est divisée en plusieurs (k) sous-
nuages (ou classes). La distance considérée entre les
49
-
8/18/2019 Cour Info Stat
50/66
individus est évaluée par une distance euclidienne. Chaque
sous-nuage doit, pour être le plus homogène, avoir le moins
d'inertie intra-classes. L'inertie de chaque classe (ou intra-
classes) est la moyenne des carrés des distances des points au
centre de gravité. La somme des inerties des sous-nuages dite
intra-classe doit être la plus petite possible.
En revanche, il faut que la dispersion des centres de gravité
de chaque sous-nuage par rapport au centre de gravité de
l'ensemble, l'inertie inter-classes, soit la plus grande
possible.
L'inertie totale du nuage est la somme des inerties inter et
intra-classes.
Maximiser l'inertie inter-classes, c'est minimiser l'inertie
intra, puisque leur somme est constante.
Il convient de définir essentiellement un critère global de
proximité.
Méthode des centres mobiles (FORGY)
On définit k centres arbitraires (choisis au hasard), et on
regroupe les individus autour de ces centres selon leur plus
faible distance relative.
M. MENOU / ANALYSE DE DONNEES
50
-
8/18/2019 Cour Info Stat
51/66
Cela revient à effectuer une partition en domaines polyédraux
convexes déterminés par les hyperplans médiateurs des centres.
Le centre de gravité de chaque groupe est alors calculé. On
regroupe les individus autour de ces nouveaux centres selon
leur moindre distance relative. On recommence l'algorithme, en
recalculant de nouveaux centres de gravité et, en reclassant
les individus jusqu'à ce que la qualité du partitionnement ne
s'améliore plus. Cette qualité étant mesurée par l'inertie
intra-classe. L’algorithme converge, selon le théorème de
HUYGENS, après un petit nombre d’itérations, vers l’inertie
intra minimale. Le critère d’arrêt peut être fixé par un
nombre maximal d’itérations ou par un seuil de variations.
La méthode peut être utilisée pour des données qualitatives à
conditions de prendre les coordonnées factorielles.
51
-
8/18/2019 Cour Info Stat
52/66
L'inconvénient de cette méthode est que le résultat est
dépendant de la partition de départ.
Un autre problème peut provenir de classes vides, car cela
réduit le nombre de classes.
Méthode des nuées dynamiques
E. DIDAY généralise la méthode des centres mobiles en
définissant chaque classe par q individus (les plus centraux)
constituant le noyau (au lieu de son seul centre de gravité).
Partant de k noyaux, on répartit les individus autour de ces
noyaux. On recalcule de nouveaux noyaux, plus représentatifs
des classes ainsi formées, jusqu'à ce que la qualité de la
partition ne s'améliore plus.
Comme la partition finale peut dépendre du choix des noyaux de
départ, il est nécessaire de recommencer l’opération avec des
conditions initiales différentes plusieurs fois. Les éléments
regroupés dans plusieurs partitions finales sont appelés
formes fortes.
La méthode des k-means (Mac QUEEN)
Cette méthode procède comme celle des centres mobiles, sauf
que, les centres sont recalculés après l’affectation de chaque
point.
M. MENOU / ANALYSE DE DONNEES
52
-
8/18/2019 Cour Info Stat
53/66
5122 Les mé thodes basées sur les relations d’équivalence
F. MARCOTORCHINO et P. MICHAUD ont élaboré des méthodes
applicables aux variables qualitatives ne nécessitant pas la
détermination du nombre de classes a priori.
Le principe repose sur le fait qu’une partition est une
relation binaire d’équivalence. Toute variable qualitative à m
modalités permet une partition des individus en m classes. Les
individus d’une même classe sont équivalents. Si la relation
d’équivalence ℜ est représentée par un tableau tel que :
cij = 1 si la relation est vérifiée et cij = 0 sinon alors Cii =
1 (réflexivité) Cij = Cji (symétrie) Cij + Cjk - Cik ≤ 1.
La méthode consiste alors à trouver une matrice C qui respecte
les conditions précédentes.
Si on dispose de p variables qui ont respectivement m1,
m2, ..., mp modalités, on dispose de p partitions.
Le problème est donc de trouver un compromis entre ces p
partitions.
513 Interprétation :
Il faut donner un nom aux classes obtenues et pouvoir les
décrire.
53
-
8/18/2019 Cour Info Stat
54/66
On peut identifier plus facilement les groupes les plus
homogènes.
On utilise les variables initiales. On calcule pour chacune le
rapport de la variance inter sur la variance totale et on ne
retient que celles qui ont une valeur proche de 1.
L’interprétation peut être déduite de la position relative des
classes. On compare pour cela les moyennes des variables de
chaque classe en tenant compte de leurs écarts type. Plus
l’écart type est faible plus la comparaison est valable.
On peut représenter graphiquement les individus, différenciés
selon la classe, pour les variables importantes de la
classification prise deux par deux.
514 Limites
Les méthodes décrites n’aboutissent qu’à des optimums locaux
dépendant de la partition initiale.
515 Comparaison avec les autres méthodes :
La classification permet d’effectuer à la suite une AFD. Si
celle-ci est correcte c’est que la typologie est intéressante.
52 L'analyse hiérarchique
M. MENOU / ANALYSE DE DONNEES
54
-
8/18/2019 Cour Info Stat
55/66
L'analyse hiérarchique se partage entre méthodes ascendantes
et descendantes. Les méthodes descendantes sont peu usitées.
Les méthodes d'analyse hiérarchique descendantes partent de la
population globale pour aller vers les individus.
Les méthodes d'analyse hiérarchique ascendante cherchent à
définir des ensembles de partitions, de nombre de classes
décroissant, emboîtées les unes dans les autres. Partant d'une
partition en n classes, d'un élément chacune ( n étant le
nombre d'individus), on cherche à regrouper, à chaque étape,
les deux classes les plus proches, jusqu'au regroupement en
une classe comprenant tous les individus. Il y a donc n-2
partitions à déterminer.
Une classification hiérarchique est représentée par un
dendrogramme, ou arbre de classification, ou arbre
hiérarchique.
55
ab
cd e
P1
P2P3P4P5
-
8/18/2019 Cour Info Stat
56/66
P5 = a/b/c/d/e
P4 = a b/c/d/e
P3 = a b/c/d e
P2 = a b c/d e
P1 = a b c d e
L’indice de partition correspond à un indice d’agrégation.
A partir de l’arbre, les classes sont définies, en coupant
l’arbre à un certain niveau, on examine alors les branches qui
tombent.
Généralement, une échelle sur le côté permet de déterminer
l’éloignement des groupes les uns par rapport aux autres.
C’est une moyenne des distances entre individus de l’un des
groupes et ceux de l’autre.
Les nœuds sont à une hauteur proportionnelle à l’inertie inter
M. MENOU / ANALYSE DE DONNEES
56
-
8/18/2019 Cour Info Stat
57/66
perdue du fait de la fusion.
Les méthodes se distinguent selon le choix du critère de
regroupement de deux classes.
M é thode de WARD
Le critère choisi est celui de l’inertie.
Cette méthode est aussi appelée méthode du moment d’ordre
deux.
Caractéristique
On considère n individus, caractérisés par p variables
quantitatives, dont on évalue la proximité par une distance
euclidienne.
Méthode
Au départ chaque individu forme une classe. L’inertie inter-
classes est alors égale à l’inertie totale. L’inertie totale
est la moyenne des carrés des distances des individus au
centre du nuage. Il s'agit ensuite de diminuer de un le nombre
d'éléments d'une partition jusqu'à l'obtention d'une seule
classe comprenant tous les éléments. L’inertie inter-classes
est alors nulle. Il faut donc réunir les deux classes (les
plus proches) pour lesquelles la perte d'inertie est la plus
57
-
8/18/2019 Cour Info Stat
58/66
faible. On agrége donc les individus qui font le moins varier
l’inertie intra-classes. A chaque étape, on calcule l’indice
du rapport de l’inertie inter-classes à l’inertie totale.
Lorsque l’on regroupe 2 classes, l’inertie inter-classes
diminue.
Cette diminution est mesurée par le critère d’agrégation de
Ward.
Pour le regroupement des classes i et j :
nin j
n(ni + ν ϕ ) δ
2(γ ι,γ ϕ )
n correspond à l’effectif
g au centre de gravité
Le carré de la distance est obtenu en faisant la somme des
rapports, pour chaque variable, du carré de la différence
entre les valeurs des 2 individus et de la variance.
On regroupe donc les deux classes qui minimisent le critère de
Ward.
Interprétation
Le critère de Ward cumulé à partir de la dernière itération
permet de calculer les inerties expliquées par les différentes
partitions successives. En divisant ces totaux par le nombre
de variables, on obtient la part d’inertie expliquée. On
retient une typologie en c classes lorsque la part d’inertie
expliquée augmente peu en ajoutant une classe supplémentaire.
La partition est d’autant meilleure que les groupes sont
M. MENOU / ANALYSE DE DONNEES
58
-
8/18/2019 Cour Info Stat
59/66
homogènes. Cela se traduit par une inertie intra-classes
faible et une inertie inter-classes forte.
L’analyse hiérarchique est souvent associée à une ACP.
L’interprétation est facilitée par le tracé des classes sur le
graphe du plan des composantes principales. Si les individus
sont trop nombreux, pour être tous représentés, ce sont les
centres de gravité des classes qui sont reportés.
Autres M é thodes
Les autres méthodes s’appliquent lorsque les distances ne sont
pas euclidiennes.
Plusieurs distances peuvent être envisagées. Parmi elles :
• Distance du saut minimal (ou de l’inf)
A et B étant deux classes les ei, ej des individus
d(A,B) = inf d(ei,ej) pour ei ∈ A ej ∈ B
• Distance du diamètre (ou du sup)
d(A,B) = sup d(ei,ej)
• Distance moyenne
d(A,B) = 1PAP B j
∑ι
∑ δ(ει,εϕ) PA PB le poids de chaque classe
Ces méthodes donnent des résultats différents
59
-
8/18/2019 Cour Info Stat
60/66
logiciels
ALCESTEADDADANACONDABMDPCHADOC VSCSSDBASE STATSDESTINEOLE 3EXECUSTATEyeLIDFLASH
FUTURMASTERGLADYSITEMLADDADLEASLE SPHINXLIDE +LTSMMODALISAMINITABNCSSPCSMPRECIS
QUADEOLEQUESTQUESTIONRS+SASSIMCA-PSOLOSPADSPSS PCSTATBOXSTATGRAPHICS
STATISTICASTAT ITCFSTATLABSTATVIEWSYNTHESE 2SYSTATUNISTATTRI-DEUXVESTAL
M. MENOU / ANALYSE DE DONNEES
60
-
8/18/2019 Cour Info Stat
61/66
Bibliographie
AAKER D. A., Multivariate analysis in marketing , Wadsworth,1971.
ANTOINE J., Le sondage outil du marketing , Dunod, 1986.
AURAY DURU ZIGHED, Analyse des données multidimensionnelles,tome 1 : les m éthodes descriptives, Editions A. Lacassagne,1991.
AURAY DURU, Analyse des données multidimensionnelles, tome 3 :les m éthodes explicatives, Editions A. Lacassagne, 1991.
AVENEL M. RIFFAULT J.-F., Mathé matiques appliquées à lagestion, Foucher, 2005.
BAIR J., Alg èbre linéaire pour l’économie et les sciencessociales, De Boeck Université, 1984.
BASTIN C. et Alii, Pratique de l’analyse des données, Dunod,1980.
BAVAUD F. CAPEL R. CRETTAZ de ROTEN MULLER J.-P., Guide del’analyse statistique de données avec SPSS 6 , Slatkine, 1996.
BENZECRI J.-P., L'analyse des données, T1 La taxinomie, Dunod,1979.
BENZECRI J.-P., L'analyse des données, T2 L'analyse descorrespondances, Dunod, 1982.
BENZECRI J.-P. BENZECRI F., La Pratique de l'analyse desdonnées, T1 Analyse des correspondances. Exposé élé mentaire,Dunod, 1984.
BENZECRI J.-P. BENZECRI F., La Pratique de l'analyse desdonnées, T 5 Economie, Dunod, 1980.
BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique del'analyse des données, T2 Abr ég é théorique, études de cas de
mod èle, Dunod, 1980.
BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique del'analyse des données, T 3 Linguistique et lexicologie, Dunod,1981.
BENZECRI J.-P., Correspondance Analysis Handbook , MarcelDekker Inc., 1992.
61
-
8/18/2019 Cour Info Stat
62/66
BERTIER P. BOUROCHE J.-M., Analyse des données multidimensionnelles, P.U.F., 1977.
BERTRAND R., Pratique de l’analyse statistique des données,Presses de l’Université de Québec, 1986.
BIALES C., L'analyse statistique des données, Chotard, 1988.
BOUROCHE J.-M. SAPORTA G., L'analyse des données, P.U.F.,1980.
BOUROCHE J.-M., Analyse des données en marketing , Masson,1977.
BRY X., Analyses factorielles simples, Economica, 1995.
CAILLIEZ F. PAGES J.-P., Introduction à l'analyse des données,Smash, 1976.
CASIN P., Analyse des données et des panels de données, DeBoeck Université, 1999.
CEHESSAT R., Exercices commentés de statistique etinformatique appliquée, Dunod, 1981.
CELEUX G. DIDAY E. GOVAERT G. LECHEVALLIER Y. RALAMBONDRAINYH., Classification automatique des données. Environnementstatistique et informatique, Dunod.
Cereq, Bref 84, Fev 1993.
CHANDON J.-L. PINSON S., Analyse typologique, Masson, 1980.
CHANDON J.-L., L'Analyse de données dans les sciences degestion, Encyclopédie du management 2, Vuibert, 1980.
CIARLET P.-G., Introduction à l’analyse num érique matricielleet à l’optimisation, Dunod, 1982.
CIBOIS P., L'analyse factorielle, P.U.F., 1983.
CIBOIS P., L'analyse des données en sociologie, P.U.F., 1984.
CRAUSER J.-P. HARVATOPOULOS Y. SARNIN P., Guide pratiqued'analyse des données, Editions d'Organisation, 1989.
DAGNELIE P., Analyse statistique à plusieurs variables,Presses agronomiques de Grembloux, 1975.
DAGNELIE P., Statistique descriptive et base de l’inf érencestatistique, De Boeck Université, 1998.
DAVIDSON M. L., Multivariate scaling , Wiley and Sons, 1983.
M. MENOU / ANALYSE DE DONNEES
62
-
8/18/2019 Cour Info Stat
63/66
DIDAY E., Optimisation en classification automatique, INRIA,1979
DIDAY E. LEMAIRE J. POUGET J. TESTU F., Elé ments d'analyse dedonnées, Dunod, 1985.
DOISE CLEMENCE, Repr ésentation sociologique et analyse dedonnées, P. U. Grenoble.
ESCOFFIER B. PAGES J., Analyse conjointe de tableaux quantitatifs, Masson, 1988.
ESCOFFIER B. PAGES J., Analyse factorielles simples et multiples. Objectifs, m éthodes et interpr étations, Dunod,1998.
EVRARD Y. LEMAIRE P., Information et d écision en marketing ,Dalloz, 1976.
EVRARD Y. PRAS RAUX, Etudes et recherches en marketing ,Nathan, 19.
FALISSARD B., Comprendre et utiliser les statistiques dans lessciences de la vie, Masson, 1996.
FENELON J.-P., Qu'est-ce que l'analyse des données, Lefonen,1981.
FOUCART T., Analyse factorielle de tableaux multiples, Masson,1984.
FOUCART T., Analyse factorielle. Programmation sur micro-ordinateurs avec nouveaux programmes, Masson, 1985.
FOUCART T., L’analyse des données. Mode d’emploi, PressesUniversitaires de Rennes, 1997.
GENINET B., Mathé matiques et statistiques g énérales appliquéesau marketing , Economica, 1986.
GORDON A.-D., Classification, Chapmann and Hall, 1981.
GRANGE D. LEBART L., Traitements statistiques des enquêtes,
Dunod, 1994.
GUIGOU J.-L., M éthodologies multidimensionnelles : Analyse desdonnées et choix à critères multiples, Dunod, 1977.
HAIR J. F. ANDERSON R.E. TATHAM R.L., Multivariate dataanalysis, Macmillan, 1987.
HAVARTOPOULOS Y. LIVIAN Y.F. SARNIN P., L’art de l’enquête,Editions Eyrolles, 1989.
63
-
8/18/2019 Cour Info Stat
64/66
HERMAN J., Analyse de données qualitatives. T1 Traitementd'enquêtes, échantillon, r é partitions, associations, Masson,1986.
HERMAN J., Analyse de données qualitatives. T2 Traitementd'enquêtes. Mod èles multivariés, Masson, 1990.
IDRISS, Alg èbre linéaire. Probabilité mathé matique. Initiationà l'analyse des données, Ellipses.
JAMBU M., Exploration informatique et statistique des données,Dunod, 1989.
JAMBU M. LEBEAUX M.-O., Classification automatique pour l'analyse des données. T1 M éthodes et algorithmes, Dunod,1979.
JAMBU M. LEBEAUX M.-O., Classification automatique pour
l'analyse des données. T2 Logiciels, Dunod, 1979.
JAMBU M., M éthodes de base de l’analyse des données, Eyrolleset France Télécom-Cnet, 1999.
JARDINE N. SIBSON R., Mathematical Taxonomy , Wiley, 1971.
JULIEN A., Analyse de données multidimensionnelles, Thèse,30/06/72.
KENDALL M.-G. STUART A., The advance Theory of Statistics, T1,Griffin 1977.
KENDALL M.-G. STUART A., The advance Theory of Statistics, T2,Griffin 1973.
KENDALL M.-G. STUART A., The advance Theory of Statistics, T3,Griffin 1976.
LAGARDE J. (de), Initiation à l'analyse de données, Dunod,1983.
LAMBERT D. C., 19 Am ériques latines, Economica, 1984.
LAMBIN J.-J., La recherche marketing. Analyser, mesurer,
Pr évoir , McGraw Hill, 1990.
LAPIN L.L., Statistique de gestion, Les Editionsd’Organisation, 1987.
LAVIT Ch., Analyse conjointe de tableaux quantitatifs, Dunod,1988.
LEBART L. FENELON J.-P., Statistiques et informatiqueappliquées, Dunod, 1971.
M. MENOU / ANALYSE DE DONNEES
64
-
8/18/2019 Cour Info Stat
65/66
LEBART L. MORINEAU A. FENELON J.-P., Traitement des donnéesstatistiques. M éthodes et programmes, Dunod, 1979.
LEBART L. MORINEAU A. PIRON M., Statistique exploratoire multidimensionnelle, Dunod, 1997.
LEBART L. MORINEAU A., SPAD, Systè me portable pour l'analysedes données, CESIA, 1985.
LEBART L. MORINEAU A. TABARD N., Techniques de la descriptionstatistique. M éthodes et logiciels pour l'analyse des grandstableaux , Dunod, 1986.
LEBART L. SALEM A., Analyse statistique des donnéestextuelles, Dunod, 1994.
LEFEBVRE J., Introduction aux analyses statistiques multidimensionnelles, Masson, 1976.
LERMAN I.-C., Classification et analyse ordinale des données,Dunod, 1981.
Les cahiers de l'analyse des données, DUNOD, Depuis 1976.
MAKRIDAKIS S. WINKLER R.L. DESPLAS M., Programmes destatistique interactifs, Les Editions d’organisation, 1988.
MARCOTORCHINO J.F. MICHAUD P., Optimisation en analyseordinale des données, Masson, 1979.
MASSON M., M éthodologies g énérales du traitement statistique
de l'information de masse, Cédic-Nathan, 1980.
Mathématiques en sciences humaines 11ème année, n˚44, 1973, p.5.34.
Mathématiques en sciences humaines 12ème année, n˚45, 1974, p.5.28.
MOORE D. McCABE G.-P., Introduction to the Practice of Statistics, Freeemann, 1993.
MORICE E. CHARTIER F., M éthode statistique, INSEE, 1954.
MORRISON D.F., Multivariate statistical methods, MacGraw-Hill,1990.
MOSCAROLA J., Enquêtes et analyses des données avec le sphinx ,Vuibert, 1995.
NAKACHE J.-P. CHEVALIER A. MORICE V., Exercices commentés de mathé matiques pour l'analyse des données, Dunod, 1981.
PONTIER, Le mod èle euclidien en analyse de données, Ellipses.
65
-
8/18/2019 Cour Info Stat
66/66
PUPION P.-C., Statistiques pour la gestion. Applications avecExcel et SPSS , Dunod, 2004.
ROMEDER J.-M., M éthodes et programmes d'analyse discriminante,Dunod, 1973.
ROUANET H. LE ROUX B., Ananlyse des données multidimensionnelles, Dunod, 1992.
SAPORTA B., Marketing industriel, Eyrolles, 1992.
SAPORTA G., Théorie et m éthode de la statistique, Technip,1978.
SAPORTA G., Probabilités, analyse des données et statistique,Technip, 1990.
SIMON C. BLUME L., Mathé matiques pour
économistes, De BoeckUniversité, 1998.
TENENHAUS M., Statistique. M éthodes pour d écrire, expliquer et pr évoir , Dunod, 2007.
TENENHAUS M., M éthodes statistiques en gestion, Dunod, 1994.(HD 30.25 1025)
VEDRINE J.-P., Le traitement des données en marketing , Leséditions d'organisation, 1991.
VOLLE M., Analyse des données, Economica, 1997.
66