Cour Info Stat

8/18/2019 Cour Info Stat

1/66

ANALYSE DE DONNEES

V 4.9

Marc MENOU Mars 2008


2/66

TABLE DES MATIERES

1 INTRODUCTION 3

2 EL É MENTS FONDAMENTAUX 8

21 RAPPELS SUR LA THÉORIE DES ENSEMBLES 8

22 RAPPELS DE GÉOMÉTRIE 8

23 RAPPELS SUR LES MATRICES 9

24 RAPPELS DE STATISTIQUE DESCRIPTIVE 10

26 RAPPELS SUR LA THÉORIE DE L'INFORMATION 11

27 LES TABLEAUX 12

TABLEAUX INDIVIDUS X VARIABLES QUANTITATIVES 12

TABLEAUX LOGIQUES OU BOOLÉENS OU BINAIRES 12

TABLEAUX PRÉSENCE ABSENCE 12

TABLEAUX DE DONNÉES ORDINALES OU DE PRÉFÉRENCES 12

TABLEAUX DES RANGS 13

TABLEAUX HÉTÉROGÈNES OU MIXTES 13

28 LES RELATIONS ENTRE VARIABLES 13

3 M ÉTHODES 13

4 LES ANALYSES FACTORIELLES 15

41 L'ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 15

42 L'ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC) 26

43 L'ANALYSE DES CORRESPONDANCES MULTIPLES ACM 30

44 L’ANALYSE FACTORIELLE DES SIMILARITÉS (OU DE DISSIMILARITÉS) ET DES PRÉFÉRENCES 32

45 L'ANALYSE DISCRIMINANTE (AFD) 36

46 L’ANALYSE DES MESURES CONJOINTES 42

47 L'ANALYSE CANONIQUE 43

5 LES MÉTHODES DE CLASSIFICATION , DE TYPOLOGIE OU DE TAXINOMIE 46

51 L'ANALYSE NON HIÉRARCHIQUE 47

52 L'ANALYSE HIÉRARCHIQUE 54

LOGICIELS 59

BIBLIOGRAPHIE 60

M. MENOU / ANALYSE DE DONNEES

2


3/66

3


4/66

1 Introduction

L'analyse des données est une technique relativement ancienne

1930 (PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant

des développements récents 1960-1970 du fait de l'expansion de

l'informatique.

L'informatique est importante car cette technique nécessite le

brassage de beaucoup de données par beaucoup de calculs pour

en tirer des représentations graphiques. Elle apporte rapidité

et fiabilité.

L'analyse des données est une technique d'analyse statistique

d'ensemble de données. Elle cherche à décrire des tableaux et

à en exhiber des relations pertinentes. Elle se distingue de

l’analyse exploratoire des données.

La statistique est une technique qui permet la compréhension

de la réalité. C’est un moyen d’investigation de la

complexité.


4

STATISTIQUE

REEL COMPLEXEREPRESENTATION

SIMPLIFIEE


5/66

En effet, comme le dit P. VALERY "tout ce qui est simple est

faux, tout ce qui ne l'est pas est inutilisable". Il s'agit en

quelque sorte d'"élaguer" la réalité en ne retenant que ce qui

est primordial. Il faut en particulier réduire les dimensions

de la réalité, c’est-à-dire ne pas considérer certaines

variables tout en cherchant à conserver le maximum de sens.

Cela revient à effectuer une projection.

Ces trois schémas représentent une chaise dessinée dans le

plan. Ils permettent une plus ou moins bonne identification

selon l’axe de projection.

La réalité peut être considérée comme un nuage de points à n

dimensions que notre cerveau a du mal à se représenter.

La statistique est donc une méthode de traitement de

l'information. L'information est ce qui permet d'entreprendre

une action. Mais pour agir, il faut savoir. La connaissance,

5


6/66

en rapport avec les ensembles réels, se rapporte à ce qui pour

une population donnée, distingue ses individus. Tel l'Horace,

qui a cherché à distancer les Curiaces, le pouvoir ne peut

s'exercer efficacement qu'à l'encontre des individus isolés.

Diviser pour mieux régner est aussi une devise bien connue. Il

faut donc chercher la ou les variables qui opposent le plus,

qui séparent le plus, les individus. La variance est donc,

comme caractéristique de dispersion, le critère de choix le

plus désigné des critères de connaissance. L'analyse des

données repose donc essentiellement sur les notions de

variances, de covariance, de distances, de groupe, de lien et

de hiérarchie.

La théorie des ensembles fournit le cadre conceptuel de base

dans lequel il convient de poser la problématique.

L'analyse des données souhaite cependant se démarquer des

techniques statistiques et économétriques classiques.

Elle cherche à regarder les données pour elles-mêmes en

oubliant les théories qui ont permis de les rassembler. Car

l'élaboration d'un modèle et l'observation projettent les

idées déjà contenues dans le cerveau. Il n'est perçu que ce

que l'on désire essentiellement percevoir. Il faut comme l’a

écrit KRISHNAMURTI : « se libérer du connu ». Pour ce faire,

il faut considérer beaucoup de données afin d’éviter

l’arbitraire de leur choix.

Bien entendu, il existe une différence entre les objectifs et

les réalisations car les moyens sont limités.


6


7/66

R. THOM relève que prédire n’est pas expliquer. Si les modèles

statistiques permettent la prévision, il s’agit souvent de

mettre en évidence des liaisons quantitatives observables.

Cela constate simplement, cela n’explique rien.

L'analyse de données entend se démarquer des statistiques

paramétriques. La statistique paramétrique effectue des

mesures quantitatives et utilise le théorème central limite

qui ramène à la loi de LAPLACE-GAUSS. La contestation par

l'approche non paramétrique cherche d'une part, à se

débarrasser de l'obligation de passer par la loi normale et

donc des contraintes sur la taille des échantillons, et

d'autre part, à s'intéresser aux données qualitatives.

L'analyse des données se distingue en rejetant l'aspect

inférentiel et insiste sur l'aspect descriptif d'un ensemble

considéré comme complet.

L'analyse des données est un moyen de lutte contre

l'idéologie. Il n'y a de vérité que statistique, tout le reste

n'est que littérature. La force de toute idéologie est qu'elle

représente la réalité, ce qui la rend crédible. Toute

idéologie véhicule une part de réalité mais, simplifiée par

les à priori déjà acceptés. La réalité complexe est

difficilement intelligible pour l'homme. Elle est de plus

souvent inacceptable comme l'indique l'épisode de la caverne

de PLATON. Elle peut être considérée comme le font les

scientifiques par un nuage de points dans un ensemble de

dimension importante. Les statisticiens par ce qui est appelée

7


8/66

l'analyse de données déterminent, le plus souvent, des plans

de projections de cette réalité en deux dimensions. Ce type

d'instrument porte mal son nom car il s'agit plus de synthèse

que d'analyse, puisqu'il s'agit de projeter des relations. Ils

simplifient la réalité, ils l'élaguent mais en cherchant des

plans qui conservent le maximum d'informations, de variances,

et ce par une méthode relativement rationnelle, relativement

indépendante de l'observateur. L'idéologue effectue le même

travail, mais sans aucun support mathématique, il projette sur

le plan qui correspond à sa finalité. La subjectivité est

importante. Mais, il ne peut être entièrement contré puisque

c'est bien la réalité complexe qu'il projette. Finalement,

cela revient à pondérer à priori chaque observation selon des

objectifs affectifs. Chaque idéologie n'est en fait qu'une

détermination, a priori et subjective, de hiérarchie. La

différence entre les idéologies réside donc dans le choix de

ce qui est essentiel et de ce qui paraît secondaire. Elles

sont donc vraies dans la mesure où elles parlent d'objets

réels, fausses dans la mesure où il ne s'agit que de

hiérarchies finalisées. C'est pour cela qu'elles se

distinguent plus par le non-dit que par le dit. Elles disent

toutes la réalité qu'elles cherchent à décrire, elles taisent

leur pondération. Si les structures réelles sont emboîtées en

niveaux d'organisation croissants, les structures idéologiques

constituées progressivement ne se recouvrent pas complètement.

Les idéologies se complètent parfois et se contrarient

souvent. C'est une marque de leur irréalisme.


8


9/66

L'univers est un ensemble de structures. La connaissance de

l'environnement passe par la description et la compréhension

des causes et conséquences de ces structures. Si les éléments

composant les structures sont visibles, en revanche, les

relations qui lient les éléments ne le sont pas. L'objectif de

la démarche statistique est de faire apparaître ces liaisons.

Les deux types de relations fondamentales sont les relations

d'équivalence et les relations d'ordre. Ainsi, une population

peut-elle être décomposée en classes hiérarchisées.

2 El é ments fondamentaux

21 rappels sur la théorie des ensembles

ensemble

appartenance

sous ensemble

inclusion

réunion

intersection

relation d'équivalence

relation d'ordre

partition

9


10/66

22 rappels de géométrie

produit scalaire

Le produit scalaire de deux vecteurs est le produit de la

longueur de l'un par la projection de l'autre sur lui.

(u.v.Cos(u,v))

Le produit scalaire est commutatif et distributif.

Si les vecteurs sont orthogonaux le produit scalaire est nul.

Si les vecteurs sont colinéaires le produit scalaire est ±(u.v)

Si les vecteurs unitaires sont orthogonaux le produit scalaire

est égal à la somme des produits des composantes

correspondantes.

projection

La projection d'un vecteur sur un axe est obtenue par le

produit scalaire du vecteur par le vecteur unitaire de l'axe.

Cela permet le changement d’axe de coordonnées.

distance

Dans l’espace des variables, un produit scalaire particulier,

et donc une distance, s’impose.

< x , y >=1

n x

i

i=1

n

∑ yi

Ainsi, le coefficient de corrélation correspond au cosinus de

l’angle formé par les deux variables centrées.

Le choix d’une distance est toujours arbitraire dans l’espace

des individus, car il est possible d’associer à chaque

variable un coefficient de pondération.

métrique


10


11/66

23 rappels sur les matrices

trace

La trace d'une matrice est la somme des termes de la diagonale

principale.

valeur propre

λ est valeur propre de A Det(A - λ I) = 0

vecteur propre

V est vecteur propre de f si f(V) = λ V

matrice diagonale

Une matrice diagonale est une matrice dont tous les termes

appartiennent à la diagonale principale.

diagonalisation de matrice

24 rappels de statistique descriptive

population

variable

variable qualitative

variable quantitative

passage du quantitatif au qualitatif

passage du qualitatif au quantitatif

moyenne

variance

La variance est un concept important car il indique si la

variable discrimine (étale) les individus. Une grande variance

donne de l'information sur la population et donc du pouvoir.

11


12/66

25 rappels de m écanique

centre de gravité

Le centre de gravité d'un solide, ou barycentre, correspond à

la notion statistique de moyenne.

inertie

L'inertie d'un solide correspond à la notion de variance.

Un corps a d'autant plus d'inertie qu'il faut d'énergie pour

le mettre en rotation autour d'un axe.

(distance/axe)2 x masse =: (écart/moyenne)2 x fréquence

Ainsi, l'inertie est minimum par rapport au centre de gravité,

comme la variance est minimale par rapport à la moyenne.

théorème de HUYGENS

Inertie d'un corps/O = inertie/G + m x OG2

Variance/x = variance/M + x(x-M)2

Tout corps biscornu se comporte comme un ellipsoïde à 3 axes

de symétrie. Autour du grand axe, l'inertie est minimale,

autour du petit, l'inertie est maximale.

Soit un nuage de n points pesants dans un espace de dimension

3, il correspond à un ellipsoïde d'inertie. Le centre de

gravité sert d'origine des coordonnées x,y,z. Soit X(n,3) la

matrice des coordonnées. V(3,3) = X'X la matrice d'inertie du

nuage. L'inertie totale est égale à l'inertie expliquée par

l'axe et l'inertie autour de l'axe. Les 3 valeurs propres de V

sont les inerties expliquées par les 3 axes du nuage. Leur

somme est égale à la trace de V, soit à l'inertie du nuage.


12


13/66

26 rappels sur la théorie de l'information

27 les tableaux

Les populations comprennent des individus distingués selon un

certain nombre de variables. Ces informations sont rassemblées

dans des tableaux de base croisant individus et variables. Ces

tableaux peuvent s'interpréter de deux façons, un nuage

d'individus dans un ensemble de variables ou un nuage de

variables dans un ensemble d'individus.

Tableaux individus x variables quantitatives

Tableaux logiques ou booléens ou binaires

Tableaux disjonctifs complet : individu x variable

à chaque modalité, placée en colonne, correspond une variable

indicatrice. C’est la juxtaposition de plusieurs tableaux

logiques.

X’X est une matrice diagonale dont les éléments sont les

effectifs de chaque modalité.

Tableaux présence absence

Tableaux de données ordinales ou de préférencesIndividus x objets à classer. Une case correspond à une notevariant de 1 au nombre d’objets à classer

Tableau de distances ou de proximités : individus x individus

Il présente les distances entre les individus. Ces tableaux

sont symétrique autour de la diagonale principale.

Tableaux de contingence : variable x variable

Il croise les modalités de deux variables qualitatives

13


14/66

Tableaux de BURT : il croise les modalités de plus de 2

variables qualitatives. Il est symétrique.

Tableaux des rangs

Tableaux hétérogènes ou mixtesIndividus x variables Les variables sont de différentes

natures

Soit les variables sont déjà des classements, soit pour les

variables quantitatives on remplace les valeurs par leur rang.

28 les relations entre variables

relations entre deux caractères quantitatifs

Covariance

Coefficient de corrélation linéaire de BRAVAIS-PEARSON

relations entre deux caractères qualitatifs

Le khi-deux

relations entre caractères quantitatifs et qualitatifs

Le rapport de corrélation théorique

Le rapport de corrélation empirique

3 mé thodes

Les méthodes d'analyse des données peuvent se classer en deux

grandes catégories : les méthodes factorielles et les méthodes

de classifications.

Ces deux catégories sont plus complémentaires que

concurrentes.


14


15/66

Les méthodes factorielles peuvent avoir deux objectifs :

• Réduire, simplifier, synthétiser, on parle alors de méthodes

descriptives. Toutes les variables sont considérées

ensemble.

Si les variables sont métriques : analyse en composantes

principales.

Si les variables sont nominales : analyse factorielle des

correspondances.

Si les variables sont ordinales : Analyse des similarités.

• Expliquer, identifier, on parle alors de méthodes

explicatives. Les variables se répartissent en variables

endogènes (à expliquer) et variables exogènes

(explicatives).

Si les variables à expliquer sont nominales : analyse

discriminante.

Si les variables à expliquer sont métriques : analyse de

régression multiple, Analyse de la variance.

Si les variables à expliquer sont ordinales : analyse des

mesures conjointes.

15


16/66

4 Les analyses factorielles

41 L'analyse en composantes principales (ACP)

Technique de base de l'analyse factorielle, elle a été créée

par HOTELLING (1933). C'est la méthode utilisée quand on ne

peut se ramener à un tableau de contingence.

411 Caractéristique

L'analyse concerne un tableau individus x variables xij (n

lignes, p colonnes).

Les variables sont quantitatives, continues, corrélées entre

elles deux à deux.

412 Objectif

Réduire les dimensions du tableau en déterminant de nouvelles

variables (les composantes principales), moins nombreuses (en

général deux ou trois), non corrélées, mais comprenant plus

d'informations (variance maximale) chacune que les variables

initiales.

Il s’agit d’exhiber les relations entre individus du fait de

leur proximité, entre variables du fait de leurs corrélations

et entre individus et variables. Cela permet d’identifier des

sous-ensembles d'individus afin de constituer une

classification.


16


17/66

413 Différents types

l'analyse en composantes principales centrées, fondée sur la

matrice des variances-covariances empiriques

l'analyse en composantes principales normées. Cela revient à

centrer et réduire les variables initiales. En d’autres

termes, on utilise une métrique diagonale des inverses des

variances. L’analyse est fondée sur la matrice des

coefficients de corrélation linéaire.

l'analyse factorielle des rangs fondée sur la matrice des

coefficients de corrélation des rangs lorsque l’on fait plus

confiance aux rangs qu’aux valeurs

l’analyse factorielle sur tableau de distance ou de

dissimilarités

414 Principe

On dispose d'un tableau qui représente un nuage de points de n

individus dans un espace (de variables) de dimension p.

On souhaite réduire l'espace des variables à un plan

(dimension 2). Cela consiste à projeter les n individus sur un

plan.

Or, la projection réduit les distances. Ce plan doit donc être

défini de façon telle, que les distances entre points soient

le mieux conservées. On cherche donc à rendre maximum la

moyenne des carrés des distances entre les projections.

17


18/66

415 Méthode

La matrice des données [X] (n,p) est, selon le choix du type

d'analyse, le plus souvent, centrée réduite. En effet, le

centrage et la réduction permettent de gommer les effets

taille et unité des expressions de variables. Les distances

entre des individus caractérisés par des variables d’unités

différentes n’auraient pas de sens. Les longueurs des

variables (leurs normes) alors sont toutes égales à 1.

L’extrémité des vecteurs se trouve sur une sphère. Le cosinus

de l’angle formé par 2 variables est égal au coefficient de

corrélation linéaire entre ces variables.

Cette matrice est ensuite pré-multipliée par sa transposée de

façon à obtenir une matrice [X’X] (p,p) de variance covariance

(également matrice des corrélations si les variables sont


18


19/66

centrées réduites). La somme des éléments de la diagonale

principale (des variances), la trace par définition,

représente l'inertie du nuage de points. Si toutes les

variables sont réduites, leur variance commune est 1 et la

somme des variances est alors p. p représente l’information

totale du nuage.

La matrice est alors diagonalisée. Les lignes et colonnes de

cette matrice correspondent à de nouvelles variables appelées

composantes principales. Du fait de la diagonalisation, la

nouvelle diagonale principale comprend alors les p valeurs

propres λi classées par ordre décroissant. La trace est

conservée par cette transformation, mais les covariances sont

annulées car les composantes principales, concentrent toute

l'information. Les valeurs propres correspondent aux variances

des composantes principales.

Var (Ci) = λi

Ces p composantes principales Ci s’expriment comme combinaison

linéaire des anciennes variables. Elles sont telles que la

somme des carrés de leurs corrélations avec les anciennes

variables soit maximum.

C i = ϖ ι1ξ 1 + ϖ ι2ξ 2 + ... + ϖ ιπ ξ π

où vi est le vecteur propre associé à λi

Des graphes sont alors dessinés croisant les composantes

19


20/66

principales 1 et 2 (voire 1 et 3 et/ou 2 et 3 etc.), tant pour

les variables que pour les individus, séparément car

l’interprétation ne suit pas les mêmes principes. Les graphes

des variables comprend le cercle des corrélations.

Cette transformation revient à déterminer de nouveaux axes

orthogonaux, appelés facteurs (ou composantes), centrés sur le

point moyen. Ils sont engendrés par les vecteurs propres. Le

premier axe est celui qui correspond à la plus grande inertie.

Le second est choisi orthogonalement au premier et qui exprime

la plus grande inertie restante et ainsi de suite.

416 Interprétation

Les composantes principales constituent de nouvelles variables

(correspondant à de nouveaux concepts), qu'il s'agit

d'identifier. Ces variables sont non corrélées entre elles.

Elles s'expriment comme des combinaisons linéaires des

anciennes.

L'interprétation passe par plusieurs étapes :

. La matrice des corrélations des variables initiales permet

de voir si l'analyse peut être globalement possible. En effet,

une des conditions de mise en œuvre est que les variables

initiales soient corrélées, sinon, le nombre de dimensions ne

peut-être réduit. On ne peut résumer que ce qui est


20


21/66

partiellement redondant et lié. Il faut donc qu’un maximum de

valeurs de la matrice des corrélations soient proches de 1 en

valeur absolue. Si toutes les corrélations sont positives

c’est qu’il existe un facteur taille, les individus peuvent

être ordonnés.

. La qualité globale d'explication

Le pourcentage de variance expliquée par les axes factoriels

retenus est obtenu par la somme de leurs valeurs propres

divisée par la trace. Cette valeur mesure la qualité globale

de la représentation.

λ iλi∑ x100

Le nombre d'axes à retenir doit être tel, que ce pourcentage

cumulé soit supérieur ou égal à 75 %. Cette condition très

arbitraire n’a pour objectif que d’attirer l’attention sur la

significativité de l’analyse. En général, 3 axes maximum sont

retenus, car au-delà leur interprétation s'avère délicate.

Pour une ACP centrée réduite, il ne faut retenir que les

valeurs propres supérieures à 1 (critère de KAISER). Ce

critère signifie que comme chaque variable initiale apporte

une information égale à 1 (variance), on ne retient que les

composantes qui apportent au moins autant d’information que

les variables initiales.

Le critère du coude de CATTELL détecte le ralentissement dans

la décroissance des valeurs propres. En abscisse, on place les

21


22/66

numéros de valeur propre et, en ordonnée, le pourcentage

d’inertie expliquée. Quand ce pourcentage devient peu

différent entre les valeurs propres (après le coude) les axes

ne sont plus importants.

On peut aussi décider de ne conserver que les axes qui

restituent une proportion d’inertie supérieure à k (entier

égal à 2 ou 3) fois 100/p, où p représente le nombre de

variable observées. Un axe qui correspond à un faible taux

d’inertie peut cependant être pertinent.

. Les corrélations entre les axes factoriels et les variables

initiales indiquent la qualité de représentation de la

variable sur l'axe. Les coordonnées des variables sont égales

aux corrélations avec les axes. Plus une corrélation entre une

variable et un axe est forte, plus la variable est proche de

l’axe.

Il ne faut interpréter les axes qu'à partir des variables les

mieux représentées, c’est-à-dire celles dont la corrélation

est proche de 1 en valeur absolue. Autrement dit, les

variables bien représentées dans le plan sont proche du cercle

des corrélations. La proximité entre points variables n'est

exploitable que si ces points sont proches de la circonférence

appelée cercle des corrélations (centre O et rayon 1).

La corrélation entre les variables de départ et la r ième

composante est :

vr 1

nC

i

r

( )2

ι=1

ν

∑


22


23/66

où vr est le vecteur propre associé à la r ième composante

• Interprétation des axes factoriels par les points variables.

L'analyse consiste à déterminer la signification des axes

factoriels.

Une ancienne variable a pour coordonnées le coefficient de

corrélation entre cette variable et la composante principale.

Les proximités des variables (bien représentées) avec les

axes, associées aux oppositions entre variables permettent de

trouver la signification des nouvelles variables. Ces

proximités indiquent leurs corrélations.

Ce n’est pas la distance au centre qu’il faut interpréter mais

les angles entre les variables et avec les axes. Des variables

qui forment un angle nul entre elles sont corrélées, celles

qui font un angle droit ne sont pas corrélées, et celles qui

présentent un angle plat sont corrélées négativement. Plus une

variable est corrélée avec un axe plus elle est proche de

celui-ci.

Lorsque les variables anciennes sont corrélées positivement

entre elles, le premier axe définit généralement un facteur

taille. Le deuxième axe différencie alors les individus de

taille semblable, c'est un facteur forme.

. Les corrélations entre les axes factoriels et les individus

suivent les mêmes principes. Une sélection, des individus les

mieux représentés, doit être effectuée, pour contribuer à

l'interprétation des axes. Les individus qui étaient

23


24/66

caractérisés par une valeur pour chaque variable d’origine

prennent maintenant une valeur pour chaque composante

(nouvelle variable). Pour visualiser la dispersion de ces

valeurs (les individus sont différents), on passe de la

dimension p à la dimension 2 (ou 3 à la rigueur). Cela

signifie que l’on effectue une projection. Or toute projection

déforme les distances qui se raccourcissent. Il ne faut

retenir que les distances qui ont été le mieux conservées.

Cette qualité ponctuelle de représentation est fournie, selon

les logiciels par : les contributions absolues, les

contributions relatives des points au facteur (CTR), les

cosinus carrés (pour éviter les signes négatifs) des

projections et la qualité de la représentation (QLTr). Le

cosinus carré est appelé contribution relative du plan à

l’individu. Plus un individu est proche du plan plus l’angle

est faible plus le cosinus carré est proche de 1. Les

contributions absolues expriment l’importance de chaque

individu dans la création des axes par rapport aux autres

individus.


24

α

g


25/66

La proximité sur le graphique peut correspondre à des

individus très différents par rapport aux variables initiales.

On compare donc le carré de la norme ( de la distance à

l’origine des axes) initial à celui après projection.

La qualité de représentation d’un individu i sur l’axe r est

mesurée par :

C ir

( )2

Ξ ιϕ ( )2

ϕ =1

π

∑

où le dénominateur représente le carré de la distance de

l’individu au centre du nuage dans la base des anciennes

variables et le numérateur le carré de la distance de

l’individu i au centre du nuage suivant l’axe r.

L’individu est bien représenté si le numérateur est important

par rapport au dénominateur.

La contribution (dite absolue) de l’individu i à la variancede l’axe est donnée par le rapport :

1

nC i

r ( )

2

1

ν Χ ι

ρ ( )

2

ι=1

ν

∑

où le dénominateur représente la variance expliquée par l’axe

r, et le numérateur la part de cette variance due à l’individu

i.

Si ce rapport est important, cela signifie que l’individu i

joue un rôle important dans la définition de l’axe.

. Interprétation des axes factoriels par les points individus.

25


26/66

Les proximités et les oppositions entre individus, par

l'analyse de leurs points communs, aident aussi à la

compréhension des nouveaux axes. Les individus proches ont des

profils semblables (réponses voisines aux diverses questions).

Une analyse typologique peut préciser ces regroupements. Les

individus placés au centre du graphique doivent être analysés

comme « moyens ».

417 Limites

L’analyse est sensible aux individus très différents. Pour ne

pas trop falsifier l’analyse, il est possible de les

considérer comme des individus supplémentaires.

L’interprétation doit être prudente, car les processus sous-

jacents sont complexes, ce ne sont jamais que des

représentations.


26


27/66

42 L'analyse factorielle des correspondances (AFC)

Travaux de J.-P. BENZECRI (1960).


Cette méthode permet d'étudier la liaison entre les modalités

de deux variables qualitatives (correspondances). Comme toute

variable quantitative peut, par un codage, se ramener à une

variable qualitative, l'AFC permet de mettre en évidence des

liaisons non linéaires entre variables quantitatives non

détectées par le coefficient de corrélation linéaire.

L’objectif poursuivi est le même que pour l’ACP, à savoir,

réduire le nombre de dimensions pour permettre une meilleure

compréhension de phénomènes noyés dans la masse des

informations.

Elle se ramène à une ACP effectuée avec une métrique spéciale,

celle du khi-deux, sur un tableau de contingence (Tableau

variable x variable). C'est une technique d'exploration des

tableaux (ou profils) croisés.

Les représentations graphiques sont relativement faciles à

interpréter.

422 Méthode

Cette méthode généralise le test d’indépendance du khi-deux.

La population est définie par deux variables qualitatives X (l

27


28/66

modalités) et Y (c modalités), ce qui permet d'obtenir deux

représentations, deux nuages. Deux analyses duales

équivalentes sont alors possibles. Soit on s'intéresse aux

profils ligne, ce qui ramène à un tableau individu x variable,

où les individus sont les modalités de la variable X, placée

en lignes et affectés des poids ni./n...

Soit on s'intéresse aux profils colonne, ce qui ramène à un

tableau individu x variable, où les individus sont les

modalités de la variable Y, placée en colonne, affectés des

poids n.j/n... Il s'agit alors d'effectuer deux ACP : une sur

le tableau des profils lignes (l,l) une sur le tableau des

profils colonne (c,c) au lieu de la matrice des corrélations.

Ces deux ACP sont équivalentes.

Les valeurs propres et vecteurs propres résultant des 2 ACP

sont identiques.

I somme des valeurs propres (en nombre : min(l,c)-1) mesure

l’information contenue dans les deux tableaux. Le produit de I

par le nombre d’observations n est égal au khi-deux.

L’information contenue dans un tableau de contingence est donc

d’autant plus grande que les lignes et colonnes sont

dépendantes.

Concrètement le tableau des effectifs nij est transformé en

tableau des fréquences fij.

Ce tableau est alors centré avant de permettre de calculer la

matrice de variance covariance.

Cette matrice est alors diagonalisée.


28


29/66

423 Interprétation

Il s’agit d’analyser case par case les contributions au khi-

deux les plus élevées, puisque ce sont elles qui ont entraîné

le rejet de l’hypothèse d’indépendance.

L'interprétation passe par plusieurs étapes :

. La qualité globale d'explication

Le pourcentage de variance expliquée par les axes factoriels

retenus est obtenu par la somme de leurs valeurs propres

divisée par la trace. Le nombre d'axes à retenir doit être

tel, que ce pourcentage soit supérieur ou égal à 75 % (nombre

arbitraire).

En général, 3 axes maximum sont retenus, car au-delà

l'interprétation s'avère délicate.

Les valeurs propres sont toutes inférieures ou égales à 1,

donc le critère de KAISER utilisé pour l’ACP ne peut être

retenu. Seule la méthode du coude de CATTELL peut être

utilisée.

. Les contributions des points à l'inertie des axes (CTA) et

la contribution des axes à l'inertie d'un point (CTR)

permettent la sélection des éléments explicatifs. Les cosinus

carrés des projections indiquent ensuite la qualité de la

représentation (QLT). Il ne faut interpréter les axes qu'à

partir des modalités les mieux représentées. Les proximités

29


30/66

entre points modalités ne sont exploitables que si ces points

sont proches de la périphérie.

. L'analyse consiste à déterminer la signification des axes

factoriels. Les proximités des modalités des deux nuages,

associées aux oppositions entre modalités, permettent de

trouver la signification des axes. La proximité entre deux

modalités du même nuage signifie un profil similaire. La

proximité entre deux modalités de variables différentes

signifie un même centre de gravité pour les individus

possédant les modalités des variables concernées.

L'interprétation graphique est favorisée par la dualité des

deux analyses qui permet de représenter les deux nuages de

façon superposée.

Parfois la forme des nuages rend plus rapide l'interprétation.

424 Remarque

L'analyse factorielle des correspondances revient à une

analyse canonique appliquée à deux tableaux disjonctifs.

(Chaque modalité de variable qualitative est remplacée par une

variable quantitative prenant les valeurs 0 et 1.)


30


31/66

43 L'analyse des correspondances multiples ACM


GUTTMAN (1941), BURT (1950) Cette analyse constitue une

généralisation de l'A.F.C. Les n individus sont caractérisés

par p variables qualitatives chacune ayant mi modalités. La

méthode est très utile pour dépouiller rapidement un

questionnaire qui comprend notamment des réponses multiples.

Si celui-ci comprend des variables quantitatives, il suffit de

les transformer en variables qualitatives par découpage en

classes.

Il s’agit d’appliquer une AFC à un tableau disjonctif complet.

Chaque individu est représenté par les indicatrices des

modalités des variables. Il faut alors que le nombre

d’individus soit 5 fois plus important que le nombre de

colonnes.

Il est aussi possible de traiter des variables à réponses

multiples.

432 Méthode

Le tableau croisé, dit tableau de BURT, est un tableau dont

chaque bloc constitutif est un tableau de contingence. Il est

traité comme pour une AFC.

On utilise les distances du khi-deux en tenant compte que le

tableau comprend des données binaires.

31


32/66

Les profils lignes sont obtenus en divisant chaque terme d’une

ligne par le nombre de colonnes.

Le carré de la distance entre 2 individus i et j est :

d 2(i, j ) =

Π κ ι − Π κ

ϕ [ ]

κ =1

µ

∑2

Π κ

Les profils colonnes sont obtenus en divisant chaque terme

d’une colonne par la somme des termes de la colonne.

Le carré de la distance entre 2 profils colonnes i et j est :

d 2(i, j) =

Π κ ι

− Π κ ϕ

[ ]κ =1

ν

∑

2

1ν

433 Interprétation

L'interprétation ne diffère pas de celle d'une A.F.C..


32


33/66

44 L’analyse factorielle des similarités (ou de dissimilarités) et des préf érences

Analyse d’un tableau des dissimilarités (ATD) ou Multi

Dimensional Scaling of similarities and preferences (MDS)

441 Caractéristiques :

On considère n objets repérés les uns par rapport aux autres

par un indice (dissimilarités ou distance). On dispose ainsi

d’un tableau carré symétrique de dimension n représentant les

distances entre ces objets. La diagonale principale est donc

occupée par des 0.

Ex : distances entre villes

Les distances peuvent être des mesures objectives ou des

estimations subjectives. Dans ce dernier cas, on préfère

souvent plutôt que des valeurs métriques, des valeurs

ordinales.

Les données représentent des similarités ou des préférences

(rangs).

Les distances sont données par un individu ou par la moyenne

des distances pour un groupe d’individus.

Les objets (unités statistiques ou les variables) sont définis

par un indice de dissimilarités ou de distance. On compare les

objets deux à deux à partir d’une liste de critères.

33


34/66

Un indice de dissimilarité est une fonction mesurant des

différences et vérifiant des propriétés :

• La dissimilarité est d’autant plus grande que les objets

sont différents

• La dissimilarité entre 2 objets i et j est positive ou nulle

• La dissimilarité entre un objet et lui-même est nulle

• La dissimilarité entre les objets i et j est égale à la

dissimilarité entre les objets j et i.

442 Objectif

Représentation, sous forme graphique, d’un ensemble d’objets

en fonction de leurs distances (dimensions cachées). On

cherche une représentation de ces n objets dans un espace de

nombre de dimensions le plus faible possible.

Mais, si pour des villes la carte existe, il n’est pas certain

que pour des objets ce soit le cas. Par ailleurs, il y a des

risques que pour placer tous les objets on soit obligé de

multiplier les dimensions.

En marketing, on se sert de cette méthode pour le

positionnement des produits et la conception de nouveaux

produits.

443 Méthode :

A partir du tableau de distances, on dresse un second tableau,


34


35/66

carré symétrique des produits scalaires de chaque couple de

vecteurs. C’est la matrice de variances/covariances du nuage.

La méthode consiste, alors, à diagonaliser cette matrice dite

de TORGERSON. Les valeurs propres sont ordonnées en ordre

décroissant.

Si tous les points sont dans le plan, toutes les valeurs

propres sont nulles sauf les 2 premières. Il arrive cependant

que certaines valeurs propres soient négatives, dans ce cas,

la représentation est impossible.

La méthode détermine des axes, la carte perceptuelle, situant

les objets les uns par rapport aux autres. Ces axes

correspondent à la dispersion maximale des objets.

444 Interprétation :

L’interprétation se fait grâce au graphique, par les

proximités et les écarts entre objets.

L’évaluation de la qualité de représentation se fait à l’aide

de deux indices : le stress et le R2.

• Le Stress exprime en pourcentage le respect de l’ordre

initial de classement des objets.

Si l’ordre est respecté le stress est nul.

• R2 représente le carré du coefficient de corrélation entre

35


36/66

les distances (ou similarités sous forme de rangs) de départ

et les distances recalculées.

Un R2 proche de 1 indique un bon ajustement.


36


37/66

45 L'analyse discriminante (AFD)

Travaux de FISHER (1936) et MAHALANOBIS (1936).

451 Objectifs

On cherche à décrire et à classer des individus caractérisés

par un grand nombre de variables. Il s’agit de déterminer les

variables qui distinguent le mieux les groupes d’individus.


Il s’agit de mettre en évidence les relations entre une

variable qualitative Y à expliquer et un ensemble important de

variables quantitatives explicatives. On dispose d'un tableau

individus x variables. (n individus, p variables Xi)

Le nombre de variables explicatives doit être très inférieur

au nombre d’individus.

La variable qualitative Y prenant q modalités, elle réalise

une partition de l'ensemble des individus. L’objectif est

d'être capable d’affecter, dans un deuxième temps, dans chaque

classe, de nouveaux individus, grâce à la fonction

discriminante préalablement constituée.

La première étape consiste donc à préciser la fonction

discriminante à partir des observations des variables

quantitatives. De nouvelles variables doivent être

déterminées, de sorte que les q groupes soient séparés le

mieux possible, c’est-à-dire distinguables sans ambiguïté.

37


38/66

Les coefficients de la fonction estimée (dite discriminante),

sur l'ensemble partitionné d'individus, permettent par la

suite de faire des prévisions pour caractériser la modalité de

la variable à expliquer. Le challenge consiste à réduire le

nombre de variables quantitatives à considérer.

Cette méthode est utilisée pour la reconnaissance de formes,

l’appartenance politique, le diagnostic en médecine, etc.

453 Méthode

Il s'agit de déterminer les q combinaisons linéaires, appelées

variables discriminantes, non corrélées entre elles, des

variables quantitatives explicatives qui séparent au mieux les

classes déjà définies. Les valeurs prises par ces nouvelles

variables, pour les individus d’une même classe, doivent être

les plus concentrées possibles et les valeurs prises par ces

mêmes variables, pour des individus de classes différentes,

les plus dispersées possibles.


38

A

A

A

A

A

B

B

B

B

B

B


39/66

Les projections des points sur l’axe ont une abscisse positive

pour le groupe des B et une abscisse négative pour le groupe

des A.

Pour chaque individu i, on calcule une fonction u(i) (nouvelle

variable) combinaison des p variables quantitatives centrées.

La variance de cette variable u (u'Tu) se décompose en

variance intra-classes et variance inter-classes (théorème de

HUYGENS). Il faut chercher u tel, que la variance interne

(u'Du) soit minimale et la variance externe (u'Eu) maximale.

Cela se traduit par rendre maximal le rapport Vext/Vint ou

(Vext/Vtot) ou minimal Vint/Vext ou (Vtot/Vext). En pratique,

on cherche à rendre maximum u'Eu sous la contrainte u'Du = 1.

Les multiplicateurs de LAGRANGE permettent la résolution de

cette méthode d'optimisation. L = u'Eu - λ (u'Du - 1)

L'annulation de la dérivée par rapport à u :

2 (Eu - λ Du) = 0

La résolution de l'équation donne D-1 Eu = λ u

u est donc vecteur propre de D-1E, le vecteur choisi sera

celui correspondant à la plus grande valeur propre.

Cela revient donc à effectuer une ACP sur le nuage des centres

de gravité des classes avec la métrique de MAHALANOBIS.

La distance de MAHALANOBIS entre deux vecteurs est définie

par :

39


40/66

d2 (u,v) = (u-v)’ D-1 (u-v)

où D-1 est la matrice des variances covariances intra-classes.

Pour réduire le coût de l'analyse, il convient de limiter le

nombre de variables explicatives soit par une analyse en

composantes principales préalable, soit par la démarche du pas

à pas.

Le passage par l'analyse en composantes principales consiste

dans la pratique de l'ACP des centres de gravité des classes.

La démarche pas à pas revient à choisir successivement des

variables en prenant celles qui maximisent la trace de D-1 E

ou celles qui maximisent le pourcentage de bien classés.

Il est possible de pratiquer une analyse discriminante sur des

variables qualitatives en transformant les modalités des

variables qualitatives en variables binaires.

454 Interprétation

La valeur des valeurs propres exprime le pouvoir discriminant

des facteurs. Si la valeur propre est égale à 1, la

discrimination est parfaite

On retient un nombre de facteurs tels que la variance

expliquée (somme des valeurs propres retenues sur somme totale

des valeurs propres) soit convenable.

L'interprétation des facteurs peut s'effectuer par l'analyse

des corrélations entre facteurs et variables comme en ACP.


40


41/66

Le graphique des individus sur les axes discriminants permet

de visualiser quel axe discrimine quels groupes.

Le logiciel indique aussi le pourcentage d’individus bien

classés.

Après avoir précisé la fonction discriminante, il est

préférable de l’appliquer à un deuxième ensemble

d’observations pour voir si les affectations aux classes sont

correctes avant de procéder à des prévisions sur de nouveaux

individus dont on ignore l’appartenance aux classes.

Les règles d’affectation sont multiples.

• La règle géométrique consiste à affecter l’individu à la

classe dont la moyenne est la plus proche selon la distance

de MAHALANOBIS. Mais, cette règle conduit à des affectations

erronées si les effectifs des classes sont très différents.

• La règle probabiliste considère que l’on doit affecter un

individu à la classe dont la distribution de probabilité,

supposée normale, de l’appartenance de cet individu est la

plus forte. A priori chaque classe a la même probabilité de

comprendre l’individu. Mais, ces probabilités sont révisées

ensuite en fonction de la taille du groupe.

455 Remarques : comparaisons avec les autres techniques

L'analyse discriminante est une régression sur une variable

qualitative.

L'analyse discriminante n'est pas une méthode de

41


42/66

classification automatique, puisque la partition existe, mais,

de mise en évidence de cette partition.


42


43/66

46 L’analyse des mesures conjointes

461 Objectif

Mesurer l’effet conjoint de plusieurs variables (explicatives)

indépendantes qualitatives xi sur l’ordre des valeurs prises

par une variable (à expliquer) dépendante qualitative y. On

cherche quelles variables conduisent à un classement donné.

462 Caractéristiques

On dispose de plusieurs variables explicatives indépendantes

(éventuellement nominales transformées en binaires) ayant des

valeurs ordonnées.

463 Méthode

Il s’agit de transformer la variable à expliquer en une

fonction monotone (1,2,3,4, …)

On utilise généralement la méthode d’analyse monotone de la

variance.

La variable à expliquer s’exprime en fonction des autres

variables selon un modèle additif.

43


44/66

47 L'analyse canonique


On dispose d'un tableau individus x variables (quantitatives

réparties en deux groupes de dimension p et q). Cette méthode

permet de déterminer si les deux ensembles de variables

mesurent les mêmes propriétés. En d’autres termes, la méthode

mesure la liaison globale entre deux ensembles de variables.

Peu utilisée en soi, cette analyse décrit une démarche

générale qui se retrouve dans d'autres méthodes (AFC,

AFDiscriminante). Si un ensemble ne comprend qu’une variable,

on a affaire à une régression multiple. Si de plus les autres

variables sont catégorisées, c’est une analyse de variance.

472 Méthode

L'on recherche la combinaison linéaire du premier groupe de

variables et la combinaison linéaire du deuxième groupe de

variables qui maximisent le carré de leur corrélation. Cela

revient à trouver deux vecteurs u et v (variables canoniques)

formant un angle minimum.

Les corrélations les plus fortes exhibent les variables qui

contribuent le plus à la liaison des deux groupes. Les couples

à faible corrélation correspondent à des variables spécifiques

à chaque ensemble.


44


45/66

Géométriquement, la méthode consiste à rechercher les lignes

de plus grandes pentes de 2 sous-espaces W1 et W2.

473 Interprétation

Si les 2 ensembles de variables que l’on peut construire par

combinaison linéaire de chaque groupe sont confondus (angle

nul), on peut se contenter d’un seul ensemble de variables. Si

les 2 ensembles sont orthogonaux (angle droit) cela signifie

que les deux ensembles décrivent des phénomènes différents.

Il faut analyser les corrélations entre variables initiales et

variables canoniques.

45

W1

W2

u

v


46/66

474 Extension

Il est possible d’appliquer la méthode à plus de deuxensembles.

Il est également possible de travailler avec des variables

qualitatives. Il suffit de considérer chaque modalité comme

une variable binaire.


46


47/66

5 Les méthodes de classification, de typologie ou de taxinomie

Ces méthodes visent à répartir les individus en classes

(groupes, segments, clusters, types) homogènes.

L’homogénéité est mesurée par la distance euclidienne usuelle.

Ces méthodes se répartissent en deux catégories les non

hiérarchiques et les hiérarchiques.

Les méthodes non hiérarchiques déterminent des partitions.

Les méthodes hiérarchiques déterminent des suites de

partitions emboîtées en classes de plus en plus larges.

Les tableaux utilisés sont :

des tableaux de distances entre individus

des tableaux de dissimilarités entre individus

des tableaux individus x caractères numériques

des tableaux des coordonnées factorielles d'une analyse des

correspondances

47


48/66

51 L'analyse non hiérarchique

511 Objectifs

Ces méthodes cherchent à établir une partition des individus

en classes. Les individus regroupés dans une classe doivent

être les plus semblables possibles entre eux et les classes

les plus séparées possibles afin de pouvoir les identifier.

Bien sûr, le problème ne se pose que lorsque l’on a affaire à

une population caractérisée par plusieurs variables.

Cependant, il y a peu de chances que des classes existent

nettement.

Il est donc difficile de prouver l’existence de classes ou de

montrer l’efficacité d’une méthode de classification en se

basant sur des classes connues.


48


49/66

Un autre problème concerne la détermination du nombre de

classes.

Pour un ensemble donné, le nombre de partitions concevables

étant très important, il faut définir une méthode. Il est en

effet impossible, en pratique, de procéder par simple

sélection, selon un critère, dans l’ensemble de tous les cas

possibles. Concrètement, il est conseillé de faire plusieurs

essais et de choisir celui qui s’interprète le plus

facilement.

Un seuil de regroupement est défini correspondant à la

distance maximum acceptable pour rassembler deux individus.

512 Méthode :

Il existe plusieurs méthodes de partitionnement : les méthodes

basées sur l’inertie, et celles basées sur les relations

d’équivalence.

5121 Les m éthodes basées sur l’inertie

Le nuage de n points de IRp (n individus, p variables)

représentant la population est divisée en plusieurs (k) sous-

nuages (ou classes). La distance considérée entre les

49


50/66

individus est évaluée par une distance euclidienne. Chaque

sous-nuage doit, pour être le plus homogène, avoir le moins

d'inertie intra-classes. L'inertie de chaque classe (ou intra-

classes) est la moyenne des carrés des distances des points au

centre de gravité. La somme des inerties des sous-nuages dite

intra-classe doit être la plus petite possible.

En revanche, il faut que la dispersion des centres de gravité

de chaque sous-nuage par rapport au centre de gravité de

l'ensemble, l'inertie inter-classes, soit la plus grande

possible.

L'inertie totale du nuage est la somme des inerties inter et

intra-classes.

Maximiser l'inertie inter-classes, c'est minimiser l'inertie

intra, puisque leur somme est constante.

Il convient de définir essentiellement un critère global de

proximité.

Méthode des centres mobiles (FORGY)

On définit k centres arbitraires (choisis au hasard), et on

regroupe les individus autour de ces centres selon leur plus

faible distance relative.


50


51/66

Cela revient à effectuer une partition en domaines polyédraux

convexes déterminés par les hyperplans médiateurs des centres.

Le centre de gravité de chaque groupe est alors calculé. On

regroupe les individus autour de ces nouveaux centres selon

leur moindre distance relative. On recommence l'algorithme, en

recalculant de nouveaux centres de gravité et, en reclassant

les individus jusqu'à ce que la qualité du partitionnement ne

s'améliore plus. Cette qualité étant mesurée par l'inertie

intra-classe. L’algorithme converge, selon le théorème de

HUYGENS, après un petit nombre d’itérations, vers l’inertie

intra minimale. Le critère d’arrêt peut être fixé par un

nombre maximal d’itérations ou par un seuil de variations.

La méthode peut être utilisée pour des données qualitatives à

conditions de prendre les coordonnées factorielles.

51


52/66

L'inconvénient de cette méthode est que le résultat est

dépendant de la partition de départ.

Un autre problème peut provenir de classes vides, car cela

réduit le nombre de classes.

Méthode des nuées dynamiques

E. DIDAY généralise la méthode des centres mobiles en

définissant chaque classe par q individus (les plus centraux)

constituant le noyau (au lieu de son seul centre de gravité).

Partant de k noyaux, on répartit les individus autour de ces

noyaux. On recalcule de nouveaux noyaux, plus représentatifs

des classes ainsi formées, jusqu'à ce que la qualité de la

partition ne s'améliore plus.

Comme la partition finale peut dépendre du choix des noyaux de

départ, il est nécessaire de recommencer l’opération avec des

conditions initiales différentes plusieurs fois. Les éléments

regroupés dans plusieurs partitions finales sont appelés

formes fortes.

La méthode des k-means (Mac QUEEN)

Cette méthode procède comme celle des centres mobiles, sauf

que, les centres sont recalculés après l’affectation de chaque

point.


52


53/66

5122 Les mé thodes basées sur les relations d’équivalence

F. MARCOTORCHINO et P. MICHAUD ont élaboré des méthodes

applicables aux variables qualitatives ne nécessitant pas la

détermination du nombre de classes a priori.

Le principe repose sur le fait qu’une partition est une

relation binaire d’équivalence. Toute variable qualitative à m

modalités permet une partition des individus en m classes. Les

individus d’une même classe sont équivalents. Si la relation

d’équivalence ℜ est représentée par un tableau tel que :

cij = 1 si la relation est vérifiée et cij = 0 sinon alors Cii =

1 (réflexivité) Cij = Cji (symétrie) Cij + Cjk - Cik ≤ 1.

La méthode consiste alors à trouver une matrice C qui respecte

les conditions précédentes.

Si on dispose de p variables qui ont respectivement m1,

m2, ..., mp modalités, on dispose de p partitions.

Le problème est donc de trouver un compromis entre ces p

partitions.

513 Interprétation :

Il faut donner un nom aux classes obtenues et pouvoir les

décrire.

53


54/66

On peut identifier plus facilement les groupes les plus

homogènes.

On utilise les variables initiales. On calcule pour chacune le

rapport de la variance inter sur la variance totale et on ne

retient que celles qui ont une valeur proche de 1.

L’interprétation peut être déduite de la position relative des

classes. On compare pour cela les moyennes des variables de

chaque classe en tenant compte de leurs écarts type. Plus

l’écart type est faible plus la comparaison est valable.

On peut représenter graphiquement les individus, différenciés

selon la classe, pour les variables importantes de la

classification prise deux par deux.

514 Limites

Les méthodes décrites n’aboutissent qu’à des optimums locaux

dépendant de la partition initiale.

515 Comparaison avec les autres méthodes :

La classification permet d’effectuer à la suite une AFD. Si

celle-ci est correcte c’est que la typologie est intéressante.

52 L'analyse hiérarchique


54


55/66

L'analyse hiérarchique se partage entre méthodes ascendantes

et descendantes. Les méthodes descendantes sont peu usitées.

Les méthodes d'analyse hiérarchique descendantes partent de la

population globale pour aller vers les individus.

Les méthodes d'analyse hiérarchique ascendante cherchent à

définir des ensembles de partitions, de nombre de classes

décroissant, emboîtées les unes dans les autres. Partant d'une

partition en n classes, d'un élément chacune ( n étant le

nombre d'individus), on cherche à regrouper, à chaque étape,

les deux classes les plus proches, jusqu'au regroupement en

une classe comprenant tous les individus. Il y a donc n-2

partitions à déterminer.

Une classification hiérarchique est représentée par un

dendrogramme, ou arbre de classification, ou arbre

hiérarchique.

55

ab

cd e

P1

P2P3P4P5


56/66

P5 = a/b/c/d/e

P4 = a b/c/d/e

P3 = a b/c/d e

P2 = a b c/d e

P1 = a b c d e

L’indice de partition correspond à un indice d’agrégation.

A partir de l’arbre, les classes sont définies, en coupant

l’arbre à un certain niveau, on examine alors les branches qui

tombent.

Généralement, une échelle sur le côté permet de déterminer

l’éloignement des groupes les uns par rapport aux autres.

C’est une moyenne des distances entre individus de l’un des

groupes et ceux de l’autre.

Les nœuds sont à une hauteur proportionnelle à l’inertie inter


56


57/66

perdue du fait de la fusion.

Les méthodes se distinguent selon le choix du critère de

regroupement de deux classes.

M é thode de WARD

Le critère choisi est celui de l’inertie.

Cette méthode est aussi appelée méthode du moment d’ordre

deux.

Caractéristique

On considère n individus, caractérisés par p variables

quantitatives, dont on évalue la proximité par une distance

euclidienne.

Méthode

Au départ chaque individu forme une classe. L’inertie inter-

classes est alors égale à l’inertie totale. L’inertie totale

est la moyenne des carrés des distances des individus au

centre du nuage. Il s'agit ensuite de diminuer de un le nombre

d'éléments d'une partition jusqu'à l'obtention d'une seule

classe comprenant tous les éléments. L’inertie inter-classes

est alors nulle. Il faut donc réunir les deux classes (les

plus proches) pour lesquelles la perte d'inertie est la plus

57


58/66

faible. On agrége donc les individus qui font le moins varier

l’inertie intra-classes. A chaque étape, on calcule l’indice

du rapport de l’inertie inter-classes à l’inertie totale.

Lorsque l’on regroupe 2 classes, l’inertie inter-classes

diminue.

Cette diminution est mesurée par le critère d’agrégation de

Ward.

Pour le regroupement des classes i et j :

nin j

n(ni + ν ϕ ) δ

2(γ ι,γ ϕ )

n correspond à l’effectif

g au centre de gravité

Le carré de la distance est obtenu en faisant la somme des

rapports, pour chaque variable, du carré de la différence

entre les valeurs des 2 individus et de la variance.

On regroupe donc les deux classes qui minimisent le critère de

Ward.

Interprétation

Le critère de Ward cumulé à partir de la dernière itération

permet de calculer les inerties expliquées par les différentes

partitions successives. En divisant ces totaux par le nombre

de variables, on obtient la part d’inertie expliquée. On

retient une typologie en c classes lorsque la part d’inertie

expliquée augmente peu en ajoutant une classe supplémentaire.

La partition est d’autant meilleure que les groupes sont


58


59/66

homogènes. Cela se traduit par une inertie intra-classes

faible et une inertie inter-classes forte.

L’analyse hiérarchique est souvent associée à une ACP.

L’interprétation est facilitée par le tracé des classes sur le

graphe du plan des composantes principales. Si les individus

sont trop nombreux, pour être tous représentés, ce sont les

centres de gravité des classes qui sont reportés.

Autres M é thodes

Les autres méthodes s’appliquent lorsque les distances ne sont

pas euclidiennes.

Plusieurs distances peuvent être envisagées. Parmi elles :

• Distance du saut minimal (ou de l’inf)

A et B étant deux classes les ei, ej des individus

d(A,B) = inf d(ei,ej) pour ei ∈ A ej ∈ B

• Distance du diamètre (ou du sup)

d(A,B) = sup d(ei,ej)

• Distance moyenne

d(A,B) = 1PAP B j

∑ι

∑ δ(ει,εϕ) PA PB le poids de chaque classe

Ces méthodes donnent des résultats différents

59


60/66

logiciels

ALCESTEADDADANACONDABMDPCHADOC VSCSSDBASE STATSDESTINEOLE 3EXECUSTATEyeLIDFLASH

FUTURMASTERGLADYSITEMLADDADLEASLE SPHINXLIDE +LTSMMODALISAMINITABNCSSPCSMPRECIS

QUADEOLEQUESTQUESTIONRS+SASSIMCA-PSOLOSPADSPSS PCSTATBOXSTATGRAPHICS

STATISTICASTAT ITCFSTATLABSTATVIEWSYNTHESE 2SYSTATUNISTATTRI-DEUXVESTAL


60


61/66

Bibliographie

AAKER D. A., Multivariate analysis in marketing , Wadsworth,1971.

ANTOINE J., Le sondage outil du marketing , Dunod, 1986.

AURAY DURU ZIGHED, Analyse des données multidimensionnelles,tome 1 : les m éthodes descriptives, Editions A. Lacassagne,1991.

AURAY DURU, Analyse des données multidimensionnelles, tome 3 :les m éthodes explicatives, Editions A. Lacassagne, 1991.

AVENEL M. RIFFAULT J.-F., Mathé matiques appliquées à lagestion, Foucher, 2005.

BAIR J., Alg èbre linéaire pour l’économie et les sciencessociales, De Boeck Université, 1984.

BASTIN C. et Alii, Pratique de l’analyse des données, Dunod,1980.

BAVAUD F. CAPEL R. CRETTAZ de ROTEN MULLER J.-P., Guide del’analyse statistique de données avec SPSS 6 , Slatkine, 1996.

BENZECRI J.-P., L'analyse des données, T1 La taxinomie, Dunod,1979.

BENZECRI J.-P., L'analyse des données, T2 L'analyse descorrespondances, Dunod, 1982.

BENZECRI J.-P. BENZECRI F., La Pratique de l'analyse desdonnées, T1 Analyse des correspondances. Exposé élé mentaire,Dunod, 1984.

BENZECRI J.-P. BENZECRI F., La Pratique de l'analyse desdonnées, T 5 Economie, Dunod, 1980.

BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique del'analyse des données, T2 Abr ég é théorique, études de cas de

mod èle, Dunod, 1980.

BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique del'analyse des données, T 3 Linguistique et lexicologie, Dunod,1981.

BENZECRI J.-P., Correspondance Analysis Handbook , MarcelDekker Inc., 1992.

61


62/66

BERTIER P. BOUROCHE J.-M., Analyse des données multidimensionnelles, P.U.F., 1977.

BERTRAND R., Pratique de l’analyse statistique des données,Presses de l’Université de Québec, 1986.

BIALES C., L'analyse statistique des données, Chotard, 1988.

BOUROCHE J.-M. SAPORTA G., L'analyse des données, P.U.F.,1980.

BOUROCHE J.-M., Analyse des données en marketing , Masson,1977.

BRY X., Analyses factorielles simples, Economica, 1995.

CAILLIEZ F. PAGES J.-P., Introduction à l'analyse des données,Smash, 1976.

CASIN P., Analyse des données et des panels de données, DeBoeck Université, 1999.

CEHESSAT R., Exercices commentés de statistique etinformatique appliquée, Dunod, 1981.

CELEUX G. DIDAY E. GOVAERT G. LECHEVALLIER Y. RALAMBONDRAINYH., Classification automatique des données. Environnementstatistique et informatique, Dunod.

Cereq, Bref 84, Fev 1993.

CHANDON J.-L. PINSON S., Analyse typologique, Masson, 1980.

CHANDON J.-L., L'Analyse de données dans les sciences degestion, Encyclopédie du management 2, Vuibert, 1980.

CIARLET P.-G., Introduction à l’analyse num érique matricielleet à l’optimisation, Dunod, 1982.

CIBOIS P., L'analyse factorielle, P.U.F., 1983.

CIBOIS P., L'analyse des données en sociologie, P.U.F., 1984.

CRAUSER J.-P. HARVATOPOULOS Y. SARNIN P., Guide pratiqued'analyse des données, Editions d'Organisation, 1989.

DAGNELIE P., Analyse statistique à plusieurs variables,Presses agronomiques de Grembloux, 1975.

DAGNELIE P., Statistique descriptive et base de l’inf érencestatistique, De Boeck Université, 1998.

DAVIDSON M. L., Multivariate scaling , Wiley and Sons, 1983.


62


63/66

DIDAY E., Optimisation en classification automatique, INRIA,1979

DIDAY E. LEMAIRE J. POUGET J. TESTU F., Elé ments d'analyse dedonnées, Dunod, 1985.

DOISE CLEMENCE, Repr ésentation sociologique et analyse dedonnées, P. U. Grenoble.

ESCOFFIER B. PAGES J., Analyse conjointe de tableaux quantitatifs, Masson, 1988.

ESCOFFIER B. PAGES J., Analyse factorielles simples et multiples. Objectifs, m éthodes et interpr étations, Dunod,1998.

EVRARD Y. LEMAIRE P., Information et d écision en marketing ,Dalloz, 1976.

EVRARD Y. PRAS RAUX, Etudes et recherches en marketing ,Nathan, 19.

FALISSARD B., Comprendre et utiliser les statistiques dans lessciences de la vie, Masson, 1996.

FENELON J.-P., Qu'est-ce que l'analyse des données, Lefonen,1981.

FOUCART T., Analyse factorielle de tableaux multiples, Masson,1984.

FOUCART T., Analyse factorielle. Programmation sur micro-ordinateurs avec nouveaux programmes, Masson, 1985.

FOUCART T., L’analyse des données. Mode d’emploi, PressesUniversitaires de Rennes, 1997.

GENINET B., Mathé matiques et statistiques g énérales appliquéesau marketing , Economica, 1986.

GORDON A.-D., Classification, Chapmann and Hall, 1981.

GRANGE D. LEBART L., Traitements statistiques des enquêtes,

Dunod, 1994.

GUIGOU J.-L., M éthodologies multidimensionnelles : Analyse desdonnées et choix à critères multiples, Dunod, 1977.

HAIR J. F. ANDERSON R.E. TATHAM R.L., Multivariate dataanalysis, Macmillan, 1987.

HAVARTOPOULOS Y. LIVIAN Y.F. SARNIN P., L’art de l’enquête,Editions Eyrolles, 1989.

63


64/66

HERMAN J., Analyse de données qualitatives. T1 Traitementd'enquêtes, échantillon, r é partitions, associations, Masson,1986.

HERMAN J., Analyse de données qualitatives. T2 Traitementd'enquêtes. Mod èles multivariés, Masson, 1990.

IDRISS, Alg èbre linéaire. Probabilité mathé matique. Initiationà l'analyse des données, Ellipses.

JAMBU M., Exploration informatique et statistique des données,Dunod, 1989.

JAMBU M. LEBEAUX M.-O., Classification automatique pour l'analyse des données. T1 M éthodes et algorithmes, Dunod,1979.

JAMBU M. LEBEAUX M.-O., Classification automatique pour

l'analyse des données. T2 Logiciels, Dunod, 1979.

JAMBU M., M éthodes de base de l’analyse des données, Eyrolleset France Télécom-Cnet, 1999.

JARDINE N. SIBSON R., Mathematical Taxonomy , Wiley, 1971.

JULIEN A., Analyse de données multidimensionnelles, Thèse,30/06/72.

KENDALL M.-G. STUART A., The advance Theory of Statistics, T1,Griffin 1977.



LAGARDE J. (de), Initiation à l'analyse de données, Dunod,1983.

LAMBERT D. C., 19 Am ériques latines, Economica, 1984.

LAMBIN J.-J., La recherche marketing. Analyser, mesurer,

Pr évoir , McGraw Hill, 1990.

LAPIN L.L., Statistique de gestion, Les Editionsd’Organisation, 1987.

LAVIT Ch., Analyse conjointe de tableaux quantitatifs, Dunod,1988.

LEBART L. FENELON J.-P., Statistiques et informatiqueappliquées, Dunod, 1971.


64


65/66

LEBART L. MORINEAU A. FENELON J.-P., Traitement des donnéesstatistiques. M éthodes et programmes, Dunod, 1979.

LEBART L. MORINEAU A. PIRON M., Statistique exploratoire multidimensionnelle, Dunod, 1997.

LEBART L. MORINEAU A., SPAD, Systè me portable pour l'analysedes données, CESIA, 1985.

LEBART L. MORINEAU A. TABARD N., Techniques de la descriptionstatistique. M éthodes et logiciels pour l'analyse des grandstableaux , Dunod, 1986.

LEBART L. SALEM A., Analyse statistique des donnéestextuelles, Dunod, 1994.

LEFEBVRE J., Introduction aux analyses statistiques multidimensionnelles, Masson, 1976.

LERMAN I.-C., Classification et analyse ordinale des données,Dunod, 1981.

Les cahiers de l'analyse des données, DUNOD, Depuis 1976.

MAKRIDAKIS S. WINKLER R.L. DESPLAS M., Programmes destatistique interactifs, Les Editions d’organisation, 1988.

MARCOTORCHINO J.F. MICHAUD P., Optimisation en analyseordinale des données, Masson, 1979.

MASSON M., M éthodologies g énérales du traitement statistique

de l'information de masse, Cédic-Nathan, 1980.

Mathématiques en sciences humaines 11ème année, n˚44, 1973, p.5.34.

Mathématiques en sciences humaines 12ème année, n˚45, 1974, p.5.28.

MOORE D. McCABE G.-P., Introduction to the Practice of Statistics, Freeemann, 1993.

MORICE E. CHARTIER F., M éthode statistique, INSEE, 1954.

MORRISON D.F., Multivariate statistical methods, MacGraw-Hill,1990.

MOSCAROLA J., Enquêtes et analyses des données avec le sphinx ,Vuibert, 1995.

NAKACHE J.-P. CHEVALIER A. MORICE V., Exercices commentés de mathé matiques pour l'analyse des données, Dunod, 1981.

PONTIER, Le mod èle euclidien en analyse de données, Ellipses.

65


66/66

PUPION P.-C., Statistiques pour la gestion. Applications avecExcel et SPSS , Dunod, 2004.

ROMEDER J.-M., M éthodes et programmes d'analyse discriminante,Dunod, 1973.

ROUANET H. LE ROUX B., Ananlyse des données multidimensionnelles, Dunod, 1992.

SAPORTA B., Marketing industriel, Eyrolles, 1992.

SAPORTA G., Théorie et m éthode de la statistique, Technip,1978.

SAPORTA G., Probabilités, analyse des données et statistique,Technip, 1990.

SIMON C. BLUME L., Mathé matiques pour

économistes, De BoeckUniversité, 1998.

TENENHAUS M., Statistique. M éthodes pour d écrire, expliquer et pr évoir , Dunod, 2007.

TENENHAUS M., M éthodes statistiques en gestion, Dunod, 1994.(HD 30.25 1025)

VEDRINE J.-P., Le traitement des données en marketing , Leséditions d'organisation, 1991.

VOLLE M., Analyse des données, Economica, 1997.

66

Cour Info Stat

Documents

Transcript of Cour Info Stat