Cour Info Stat

download Cour Info Stat

of 66

Transcript of Cour Info Stat

  • 8/18/2019 Cour Info Stat

    1/66

    ANALYSE DE DONNEES

    V 4.9

      Marc MENOU  Mars 2008

  • 8/18/2019 Cour Info Stat

    2/66

    TABLE DES MATIERES

    1 INTRODUCTION 3

     2 EL É MENTS FONDAMENTAUX 8

    21 RAPPELS SUR LA THÉORIE DES ENSEMBLES 8

    22 RAPPELS DE GÉOMÉTRIE 8

    23 RAPPELS SUR LES MATRICES 9

    24 RAPPELS DE STATISTIQUE DESCRIPTIVE 10

    26 RAPPELS SUR LA THÉORIE DE L'INFORMATION 11

    27 LES TABLEAUX 12

    TABLEAUX INDIVIDUS X VARIABLES QUANTITATIVES 12

    TABLEAUX LOGIQUES OU BOOLÉENS OU BINAIRES 12

    TABLEAUX PRÉSENCE ABSENCE 12

    TABLEAUX DE DONNÉES ORDINALES OU DE PRÉFÉRENCES 12

    TABLEAUX DES RANGS 13

    TABLEAUX HÉTÉROGÈNES OU MIXTES 13

    28 LES RELATIONS ENTRE VARIABLES 13

     3 M  ÉTHODES 13

    4 LES ANALYSES FACTORIELLES 15

    41 L'ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 15

    42 L'ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC) 26

    43 L'ANALYSE DES CORRESPONDANCES MULTIPLES ACM 30

    44 L’ANALYSE FACTORIELLE DES SIMILARITÉS (OU DE DISSIMILARITÉS) ET DES PRÉFÉRENCES 32

    45 L'ANALYSE DISCRIMINANTE (AFD) 36

    46 L’ANALYSE DES MESURES CONJOINTES 42

    47 L'ANALYSE CANONIQUE 43

    5 LES MÉTHODES DE CLASSIFICATION , DE TYPOLOGIE OU DE TAXINOMIE 46

    51 L'ANALYSE NON HIÉRARCHIQUE 47

    52 L'ANALYSE HIÉRARCHIQUE 54

     LOGICIELS 59

     BIBLIOGRAPHIE 60

    M. MENOU / ANALYSE DE DONNEES

    2

  • 8/18/2019 Cour Info Stat

    3/66

    3

  • 8/18/2019 Cour Info Stat

    4/66

      1 Introduction

    L'analyse des données est une technique relativement ancienne

    1930 (PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant

    des développements récents 1960-1970 du fait de l'expansion de

    l'informatique.

    L'informatique est importante car cette technique nécessite le

    brassage de beaucoup de données par beaucoup de calculs pour

    en tirer des représentations graphiques. Elle apporte rapidité

    et fiabilité.

    L'analyse des données est une technique d'analyse statistique

    d'ensemble de données. Elle cherche à décrire des tableaux et

    à en exhiber des relations pertinentes. Elle se distingue de

    l’analyse exploratoire des données.

    La statistique est une technique qui permet la compréhension

    de la réalité. C’est un moyen d’investigation de la

    complexité.

    M. MENOU / ANALYSE DE DONNEES

    4

    STATISTIQUE

    REEL COMPLEXEREPRESENTATION

    SIMPLIFIEE

  • 8/18/2019 Cour Info Stat

    5/66

    En effet, comme le dit P. VALERY "tout ce qui est simple est

    faux, tout ce qui ne l'est pas est inutilisable". Il s'agit en

    quelque sorte d'"élaguer" la réalité en ne retenant que ce qui

    est primordial. Il faut en particulier réduire les dimensions

    de la réalité, c’est-à-dire ne pas considérer certaines

    variables tout en cherchant à conserver le maximum de sens.

    Cela revient à effectuer une projection.

    Ces trois schémas représentent une chaise dessinée dans le

    plan. Ils permettent une plus ou moins bonne identification

    selon l’axe de projection.

    La réalité peut être considérée comme un nuage de points à n

    dimensions que notre cerveau a du mal à se représenter.

    La statistique est donc une méthode de traitement de

    l'information. L'information est ce qui permet d'entreprendre

    une action. Mais pour agir, il faut savoir. La connaissance,

    5

  • 8/18/2019 Cour Info Stat

    6/66

    en rapport avec les ensembles réels, se rapporte à ce qui pour

    une population donnée, distingue ses individus. Tel l'Horace,

    qui a cherché à distancer les Curiaces, le pouvoir ne peut

    s'exercer efficacement qu'à l'encontre des individus isolés.

    Diviser pour mieux régner est aussi une devise bien connue. Il

    faut donc chercher la ou les variables qui opposent le plus,

    qui séparent le plus, les individus. La variance est donc,

    comme caractéristique de dispersion, le critère de choix le

    plus désigné   des critères de connaissance. L'analyse des

    données repose donc essentiellement sur les notions de

    variances, de covariance, de distances, de groupe, de lien et

    de hiérarchie.

    La théorie des ensembles fournit le cadre conceptuel de base

    dans lequel il convient de poser la problématique.

    L'analyse des données souhaite cependant se démarquer des

    techniques statistiques et économétriques classiques.

    Elle cherche à   regarder les données pour elles-mêmes en

    oubliant les théories qui ont permis de les rassembler. Car

    l'élaboration d'un modèle et l'observation projettent les

    idées déjà contenues dans le cerveau. Il n'est perçu que ce

    que l'on désire essentiellement percevoir. Il faut comme l’a

    écrit KRISHNAMURTI : « se libérer du connu ». Pour ce faire,

    il faut considérer beaucoup de données afin d’éviter

    l’arbitraire de leur choix.

    Bien entendu, il existe une différence entre les objectifs et

    les réalisations car les moyens sont limités.

    M. MENOU / ANALYSE DE DONNEES

    6

  • 8/18/2019 Cour Info Stat

    7/66

    R. THOM relève que prédire n’est pas expliquer. Si les modèles

    statistiques permettent la prévision, il s’agit souvent de

    mettre en évidence des liaisons quantitatives observables.

    Cela constate simplement, cela n’explique rien.

    L'analyse de données entend se démarquer des statistiques

    paramétriques. La statistique paramétrique effectue des

    mesures quantitatives et utilise le théorème central limite

    qui ramène à   la loi de LAPLACE-GAUSS. La contestation par

    l'approche non paramétrique cherche d'une part, à   se

    débarrasser de l'obligation de passer par la loi normale et

    donc des contraintes sur la taille des échantillons, et

    d'autre part, à   s'intéresser aux données qualitatives.

    L'analyse des données se distingue en rejetant l'aspect

    inférentiel et insiste sur l'aspect descriptif d'un ensemble

    considéré comme complet.

    L'analyse des données est un moyen de lutte contre

    l'idéologie. Il n'y a de vérité que statistique, tout le reste

    n'est que littérature. La force de toute idéologie est qu'elle

    représente la réalité, ce qui la rend crédible. Toute

    idéologie véhicule une part de réalité mais, simplifiée par

    les à   priori déjà   acceptés. La réalité   complexe est

    difficilement intelligible pour l'homme. Elle est de plus

    souvent inacceptable comme l'indique l'épisode de la caverne

    de PLATON. Elle peut être considérée comme le font les

    scientifiques par un nuage de points dans un ensemble de

    dimension importante. Les statisticiens par ce qui est appelée

    7

  • 8/18/2019 Cour Info Stat

    8/66

    l'analyse de données déterminent, le plus souvent, des plans

    de projections de cette réalité en deux dimensions. Ce type

    d'instrument porte mal son nom car il s'agit plus de synthèse

    que d'analyse, puisqu'il s'agit de projeter des relations. Ils

    simplifient la réalité, ils l'élaguent mais en cherchant des

    plans qui conservent le maximum d'informations, de variances,

    et ce par une méthode relativement rationnelle, relativement

    indépendante de l'observateur. L'idéologue effectue le même

    travail, mais sans aucun support mathématique, il projette sur

    le plan qui correspond à  sa finalité. La subjectivité   est

    importante. Mais, il ne peut être entièrement contré puisque

    c'est bien la réalité   complexe qu'il projette. Finalement,

    cela revient à pondérer à priori chaque observation selon des

    objectifs affectifs. Chaque idéologie n'est en fait qu'une

    détermination, a priori  et subjective, de hiérarchie. La

    différence entre les idéologies réside donc dans le choix de

    ce qui est essentiel et de ce qui paraît secondaire. Elles

    sont donc vraies dans la mesure où   elles parlent d'objets

    réels, fausses dans la mesure où   il ne s'agit que de

    hiérarchies finalisées. C'est pour cela qu'elles se

    distinguent plus par le non-dit que par le dit. Elles disent

    toutes la réalité qu'elles cherchent à décrire, elles taisent

    leur pondération. Si les structures réelles sont emboîtées en

    niveaux d'organisation croissants, les structures idéologiques

    constituées progressivement ne se recouvrent pas complètement.

    Les idéologies se complètent parfois et se contrarient

    souvent. C'est une marque de leur irréalisme.

    M. MENOU / ANALYSE DE DONNEES

    8

  • 8/18/2019 Cour Info Stat

    9/66

    L'univers est un ensemble de structures. La connaissance de

    l'environnement passe par la description et la compréhension

    des causes et conséquences de ces structures. Si les éléments

    composant les structures sont visibles, en revanche, les

    relations qui lient les éléments ne le sont pas. L'objectif de

    la démarche statistique est de faire apparaître ces liaisons.

    Les deux types de relations fondamentales sont les relations

    d'équivalence et les relations d'ordre. Ainsi, une population

    peut-elle être décomposée en classes hiérarchisées.

      2 El é ments fondamentaux

     21 rappels sur la théorie des ensembles

    ensemble

    appartenance

    sous ensemble

    inclusion

    réunion

    intersection

    relation d'équivalence

    relation d'ordre

    partition

    9

  • 8/18/2019 Cour Info Stat

    10/66

     22 rappels de géométrie

    produit scalaire

    Le produit scalaire de deux vecteurs est le produit de la

    longueur de l'un par la projection de l'autre sur lui.

    (u.v.Cos(u,v))

    Le produit scalaire est commutatif et distributif.

    Si les vecteurs sont orthogonaux le produit scalaire est nul.

    Si les vecteurs sont colinéaires le produit scalaire est ±(u.v)

    Si les vecteurs unitaires sont orthogonaux le produit scalaire

    est égal à   la somme des produits des composantes

    correspondantes.

    projection

    La projection d'un vecteur sur un axe est obtenue par le

    produit scalaire du vecteur par le vecteur unitaire de l'axe.

    Cela permet le changement d’axe de coordonnées.

    distance

    Dans l’espace des variables, un produit scalaire particulier,

    et donc une distance, s’impose.

    <  x , y >=1

    n x

    i

    i=1

    n

    ∑   yi

    Ainsi, le coefficient de corrélation correspond au cosinus de

    l’angle formé par les deux variables centrées.

    Le choix d’une distance est toujours arbitraire dans l’espace

    des individus, car il est possible d’associer à   chaque

    variable un coefficient de pondération.

    métrique

    M. MENOU / ANALYSE DE DONNEES

    10

  • 8/18/2019 Cour Info Stat

    11/66

     23 rappels sur les matrices

    trace

    La trace d'une matrice est la somme des termes de la diagonale

    principale.

    valeur propre

    λ est valeur propre de A Det(A - λ I) = 0

    vecteur propre

    V est vecteur propre de f si f(V) = λ V

    matrice diagonale

    Une matrice diagonale est une matrice dont tous les termes

    appartiennent à la diagonale principale.

    diagonalisation de matrice

     24 rappels de statistique descriptive

    population

    variable

    variable qualitative

    variable quantitative

    passage du quantitatif au qualitatif

    passage du qualitatif au quantitatif

    moyenne

    variance

    La variance est un concept important car il indique si la

    variable discrimine (étale) les individus. Une grande variance

    donne de l'information sur la population et donc du pouvoir.

    11

  • 8/18/2019 Cour Info Stat

    12/66

      25 rappels de m écanique

    centre de gravité

    Le centre de gravité d'un solide, ou barycentre, correspond à

    la notion statistique de moyenne.

    inertie

    L'inertie d'un solide correspond à la notion de variance.

    Un corps a d'autant plus d'inertie qu'il faut d'énergie pour

    le mettre en rotation autour d'un axe.

    (distance/axe)2 x masse =: (écart/moyenne)2 x fréquence

    Ainsi, l'inertie est minimum par rapport au centre de gravité,

    comme la variance est minimale par rapport à la moyenne.

    théorème de HUYGENS

    Inertie d'un corps/O = inertie/G + m x OG2

    Variance/x = variance/M + x(x-M)2

    Tout corps biscornu se comporte comme un ellipsoïde à 3 axes

    de symétrie. Autour du grand axe, l'inertie est minimale,

    autour du petit, l'inertie est maximale.

    Soit un nuage de n points pesants dans un espace de dimension

    3, il correspond à   un ellipsoïde d'inertie. Le centre de

    gravité sert d'origine des coordonnées x,y,z. Soit X(n,3)  la

    matrice des coordonnées. V(3,3) = X'X la matrice d'inertie du

    nuage. L'inertie totale est égale à l'inertie expliquée par

    l'axe et l'inertie autour de l'axe. Les 3 valeurs propres de V

    sont les inerties expliquées par les 3 axes du nuage. Leur

    somme est égale à la trace de V, soit à l'inertie du nuage.

    M. MENOU / ANALYSE DE DONNEES

    12

  • 8/18/2019 Cour Info Stat

    13/66

     26 rappels sur la théorie de l'information

     27 les tableaux

    Les populations comprennent des individus distingués selon un

    certain nombre de variables. Ces informations sont rassemblées

    dans des tableaux de base croisant individus et variables. Ces

    tableaux peuvent s'interpréter de deux façons, un nuage

    d'individus dans un ensemble de variables ou un nuage de

    variables dans un ensemble d'individus.

    Tableaux individus x variables quantitatives

    Tableaux logiques ou booléens ou binaires

    Tableaux disjonctifs complet : individu x variable

    à chaque modalité, placée en colonne, correspond une variable

    indicatrice. C’est la juxtaposition de plusieurs tableaux

    logiques.

    X’X est une matrice diagonale dont les éléments sont les

    effectifs de chaque modalité.

    Tableaux présence absence

    Tableaux de données ordinales ou de préférencesIndividus x objets à classer. Une case correspond à une notevariant de 1 au nombre d’objets à classer

    Tableau de distances ou de proximités : individus x individus

    Il présente les distances entre les individus. Ces tableaux

    sont symétrique autour de la diagonale principale.

    Tableaux de contingence : variable x variable

    Il croise les modalités de deux variables qualitatives

    13

  • 8/18/2019 Cour Info Stat

    14/66

    Tableaux de BURT :  il croise les modalités de plus de 2

    variables qualitatives. Il est symétrique.

    Tableaux des rangs

    Tableaux hétérogènes ou mixtesIndividus x variables Les variables sont de différentes

    natures

    Soit les variables sont déjà des classements, soit pour les

    variables quantitatives on remplace les valeurs par leur rang.

     28 les relations entre variables

    relations entre deux caractères quantitatifs

    Covariance

    Coefficient de corrélation linéaire de BRAVAIS-PEARSON

    relations entre deux caractères qualitatifs

    Le khi-deux

    relations entre caractères quantitatifs et qualitatifs

    Le rapport de corrélation théorique

    Le rapport de corrélation empirique

      3 mé thodes

    Les méthodes d'analyse des données peuvent se classer en deux

    grandes catégories : les méthodes factorielles et les méthodes

    de classifications.

    Ces deux catégories sont plus complémentaires que

    concurrentes.

    M. MENOU / ANALYSE DE DONNEES

    14

  • 8/18/2019 Cour Info Stat

    15/66

    Les méthodes factorielles peuvent avoir deux objectifs :

    • Réduire, simplifier, synthétiser, on parle alors de méthodes

    descriptives. Toutes les variables sont considérées

    ensemble.

    Si les variables sont métriques : analyse en composantes

    principales.

    Si les variables sont nominales : analyse factorielle des

    correspondances.

    Si les variables sont ordinales : Analyse des similarités.

    • Expliquer, identifier, on parle alors de méthodes

    explicatives. Les variables se répartissent en variables

    endogènes (à   expliquer) et variables exogènes

    (explicatives).

    Si les variables à   expliquer sont nominales : analyse

    discriminante.

    Si les variables à   expliquer sont métriques : analyse de

    régression multiple, Analyse de la variance.

    Si les variables à   expliquer sont ordinales : analyse des

    mesures conjointes.

    15

  • 8/18/2019 Cour Info Stat

    16/66

    4 Les analyses factorielles

     41 L'analyse en composantes principales (ACP)

    Technique de base de l'analyse factorielle, elle a été créée

    par HOTELLING (1933). C'est la méthode utilisée quand on ne

    peut se ramener à un tableau de contingence.

    411 Caractéristique

    L'analyse concerne un tableau individus x variables xij  (n

    lignes, p colonnes).

    Les variables sont quantitatives, continues, corrélées entre

    elles deux à deux.

    412 Objectif

    Réduire les dimensions du tableau en déterminant de nouvelles

    variables (les composantes principales), moins nombreuses (en

    général deux ou trois), non corrélées, mais comprenant plus

    d'informations (variance maximale) chacune que les variables

    initiales.

    Il s’agit d’exhiber les relations entre individus du fait de

    leur proximité, entre variables du fait de leurs corrélations

    et entre individus et variables. Cela permet d’identifier des

    sous-ensembles d'individus afin de constituer une

    classification.

    M. MENOU / ANALYSE DE DONNEES

    16

  • 8/18/2019 Cour Info Stat

    17/66

    413 Différents types

    l'analyse en composantes principales centrées, fondée sur la

    matrice des variances-covariances empiriques

    l'analyse en composantes principales normées. Cela revient à

    centrer et réduire les variables initiales. En d’autres

    termes, on utilise une métrique diagonale des inverses des

    variances. L’analyse est fondée sur la matrice des

    coefficients de corrélation linéaire.

    l'analyse factorielle des rangs fondée sur la matrice des

    coefficients de corrélation des rangs lorsque l’on fait plus

    confiance aux rangs qu’aux valeurs

    l’analyse factorielle sur tableau de distance ou de

    dissimilarités

    414 Principe

    On dispose d'un tableau qui représente un nuage de points de n

    individus dans un espace (de variables) de dimension p.

    On souhaite réduire l'espace des variables à   un plan

    (dimension 2). Cela consiste à projeter les n individus sur un

    plan.

    Or, la projection réduit les distances. Ce plan doit donc être

    défini de façon telle, que les distances entre points soient

    le mieux conservées. On cherche donc à   rendre maximum la

    moyenne des carrés des distances entre les projections.

    17

  • 8/18/2019 Cour Info Stat

    18/66

    415 Méthode

    La matrice des données [X] (n,p) est, selon le choix du type

    d'analyse, le plus souvent, centrée réduite. En effet, le

    centrage et la réduction permettent de gommer les effets

    taille et unité des expressions de variables. Les distances

    entre des individus caractérisés par des variables d’unités

    différentes n’auraient pas de sens. Les longueurs des

    variables (leurs normes) alors sont toutes égales à   1.

    L’extrémité des vecteurs se trouve sur une sphère. Le cosinus

    de l’angle formé par 2 variables est égal au coefficient de

    corrélation linéaire entre ces variables.

    Cette matrice est ensuite pré-multipliée par sa transposée de

    façon à obtenir une matrice [X’X] (p,p) de variance covariance

    (également matrice des corrélations si les variables sont

    M. MENOU / ANALYSE DE DONNEES

    18

  • 8/18/2019 Cour Info Stat

    19/66

    centrées réduites). La somme des éléments de la diagonale

    principale (des variances), la trace par définition,

    représente l'inertie du nuage de points. Si toutes les

    variables sont réduites, leur variance commune est 1 et la

    somme des variances est alors p. p représente l’information

    totale du nuage.

    La matrice est alors diagonalisée. Les lignes et colonnes de

    cette matrice correspondent à de nouvelles variables appelées

    composantes principales. Du fait de la diagonalisation, la

    nouvelle diagonale principale comprend alors les p valeurs

    propres λi  classées par ordre décroissant. La trace est

    conservée par cette transformation, mais les covariances sont

    annulées car les composantes principales, concentrent toute

    l'information. Les valeurs propres correspondent aux variances

    des composantes principales.

    Var (Ci) = λi

    Ces p composantes principales Ci s’expriment comme combinaison

    linéaire des anciennes variables. Elles sont telles que la

    somme des carrés de leurs corrélations avec les anciennes

    variables soit maximum.

    C i  = ϖ ι1ξ 1 + ϖ ι2ξ 2 + ... + ϖ ιπ ξ π 

    où vi est le vecteur propre associé à λi

    Des graphes sont alors dessinés croisant les composantes

    19

  • 8/18/2019 Cour Info Stat

    20/66

    principales 1 et 2 (voire 1 et 3 et/ou 2 et 3 etc.), tant pour

    les variables que pour les individus, séparément car

    l’interprétation ne suit pas les mêmes principes. Les graphes

    des variables comprend le cercle des corrélations.

    Cette transformation revient à   déterminer de nouveaux axes

    orthogonaux, appelés facteurs (ou composantes), centrés sur le

    point moyen. Ils sont engendrés par les vecteurs propres. Le

    premier axe est celui qui correspond à la plus grande inertie.

    Le second est choisi orthogonalement au premier et qui exprime

    la plus grande inertie restante et ainsi de suite.

    416 Interprétation

    Les composantes principales constituent de nouvelles variables

    (correspondant à   de nouveaux concepts), qu'il s'agit

    d'identifier. Ces variables sont non corrélées entre elles.

    Elles s'expriment comme des combinaisons linéaires des

    anciennes.

    L'interprétation passe par plusieurs étapes :

    . La matrice des corrélations des variables initiales permet

    de voir si l'analyse peut être globalement possible. En effet,

    une des conditions de mise en œuvre est que les variables

    initiales soient corrélées, sinon, le nombre de dimensions ne

    peut-être réduit. On ne peut résumer que ce qui est

    M. MENOU / ANALYSE DE DONNEES

    20

  • 8/18/2019 Cour Info Stat

    21/66

    partiellement redondant et lié. Il faut donc qu’un maximum de

    valeurs de la matrice des corrélations soient proches de 1 en

    valeur absolue. Si toutes les corrélations sont positives

    c’est qu’il existe un facteur taille, les individus peuvent

    être ordonnés.

    . La qualité globale d'explication

    Le pourcentage de variance expliquée par les axes factoriels

    retenus est obtenu par la somme de leurs valeurs propres

    divisée par la trace. Cette valeur mesure la qualité globale

    de la représentation.

    λ iλi∑  x100

    Le nombre d'axes à retenir doit être tel, que ce pourcentage

    cumulé soit supérieur ou égal à 75 %. Cette condition très

    arbitraire n’a pour objectif que d’attirer l’attention sur la

    significativité de l’analyse. En général, 3 axes maximum sont

    retenus, car au-delà   leur interprétation s'avère délicate.

    Pour une ACP centrée réduite, il ne faut retenir que les

    valeurs propres supérieures à   1 (critère de KAISER). Ce

    critère signifie que comme chaque variable initiale apporte

    une information égale à 1 (variance), on ne retient que les

    composantes qui apportent au moins autant d’information que

    les variables initiales.

    Le critère du coude de CATTELL détecte le ralentissement dans

    la décroissance des valeurs propres. En abscisse, on place les

    21

  • 8/18/2019 Cour Info Stat

    22/66

    numéros de valeur propre et, en ordonnée, le pourcentage

    d’inertie expliquée. Quand ce pourcentage devient peu

    différent entre les valeurs propres (après le coude) les axes

    ne sont plus importants.

    On peut aussi décider de ne conserver que les axes qui

    restituent une proportion d’inertie supérieure à   k (entier

    égal à   2 ou 3) fois 100/p, où   p représente le nombre de

    variable observées. Un axe qui correspond à un faible taux

    d’inertie peut cependant être pertinent.

    . Les corrélations entre les axes factoriels et les variables

    initiales indiquent la qualité   de représentation de la

    variable sur l'axe. Les coordonnées des variables sont égales

    aux corrélations avec les axes. Plus une corrélation entre une

    variable et un axe est forte, plus la variable est proche de

    l’axe.

    Il ne faut interpréter les axes qu'à partir des variables les

    mieux représentées, c’est-à-dire celles dont la corrélation

    est proche de 1 en valeur absolue. Autrement dit, les

    variables bien représentées dans le plan sont proche du cercle

    des corrélations. La proximité entre points variables n'est

    exploitable que si ces points sont proches de la circonférence

    appelée cercle des corrélations (centre O et rayon 1).

    La corrélation entre les variables de départ et la r ième

    composante est :

    vr    1

    nC 

    i

    ( )2

    ι=1

    ν 

    M. MENOU / ANALYSE DE DONNEES

    22

  • 8/18/2019 Cour Info Stat

    23/66

    où vr est le vecteur propre associé à la r ième composante

    • Interprétation des axes factoriels par les points variables.

    L'analyse consiste à   déterminer la signification des axes

    factoriels.

    Une ancienne variable a pour coordonnées le coefficient de

    corrélation entre cette variable et la composante principale.

    Les proximités des variables (bien représentées) avec les

    axes, associées aux oppositions entre variables permettent de

    trouver la signification des nouvelles variables. Ces

    proximités indiquent leurs corrélations.

    Ce n’est pas la distance au centre qu’il faut interpréter mais

    les angles entre les variables et avec les axes. Des variables

    qui forment un angle nul entre elles sont corrélées, celles

    qui font un angle droit ne sont pas corrélées, et celles qui

    présentent un angle plat sont corrélées négativement. Plus une

    variable est corrélée avec un axe plus elle est proche de

    celui-ci.

    Lorsque les variables anciennes sont corrélées positivement

    entre elles, le premier axe définit généralement un facteur

    taille. Le deuxième axe différencie alors les individus de

    taille semblable, c'est un facteur forme.

    . Les corrélations entre les axes factoriels et les individus

    suivent les mêmes principes. Une sélection, des individus les

    mieux représentés, doit être effectuée, pour contribuer à

    l'interprétation des axes. Les individus qui étaient

    23

  • 8/18/2019 Cour Info Stat

    24/66

    caractérisés par une valeur pour chaque variable d’origine

    prennent maintenant une valeur pour chaque composante

    (nouvelle variable). Pour visualiser la dispersion de ces

    valeurs (les individus sont différents), on passe de la

    dimension p à   la dimension 2 (ou 3 à   la rigueur). Cela

    signifie que l’on effectue une projection. Or toute projection

    déforme les distances qui se raccourcissent. Il ne faut

    retenir que les distances qui ont été le mieux conservées.

    Cette qualité ponctuelle de représentation est fournie, selon

    les logiciels par : les contributions absolues, les

    contributions relatives des points au facteur (CTR), les

    cosinus carrés (pour éviter les signes négatifs) des

    projections et la qualité   de la représentation (QLTr). Le

    cosinus carré   est appelé   contribution relative du plan à

    l’individu. Plus un individu est proche du plan plus l’angle

    est faible plus le cosinus carré   est proche de 1. Les

    contributions absolues expriment l’importance de chaque

    individu dans la création des axes par rapport aux autres

    individus.

    M. MENOU / ANALYSE DE DONNEES

    24

    α

    g

  • 8/18/2019 Cour Info Stat

    25/66

    La proximité   sur le graphique peut correspondre à   des

    individus très différents par rapport aux variables initiales.

    On compare donc le carré   de la norme ( de la distance à

    l’origine des axes) initial à celui après projection.

    La qualité de représentation d’un individu i sur l’axe r est

    mesurée par :

    C ir 

    ( )2

    Ξ ιϕ ( )2

    ϕ =1

    π 

    où   le dénominateur représente le carré   de la distance de

    l’individu au centre du nuage dans la base des anciennes

    variables et le numérateur le carré   de la distance de

    l’individu i au centre du nuage suivant l’axe r.

    L’individu est bien représenté si le numérateur est important

    par rapport au dénominateur.

    La contribution (dite absolue) de l’individu i à la variancede l’axe est donnée par le rapport :

    1

    nC i

    r ( )

    2

    1

    ν  Χ ι

     ρ ( )

    2

    ι=1

    ν 

    où le dénominateur représente la variance expliquée par l’axe

    r, et le numérateur la part de cette variance due à l’individu

    i.

    Si ce rapport est important, cela signifie que l’individu i

    joue un rôle important dans la définition de l’axe.

    . Interprétation des axes factoriels par les points individus.

    25

  • 8/18/2019 Cour Info Stat

    26/66

    Les proximités et les oppositions entre individus, par

    l'analyse de leurs points communs, aident aussi à   la

    compréhension des nouveaux axes. Les individus proches ont des

    profils semblables (réponses voisines aux diverses questions).

    Une analyse typologique peut préciser ces regroupements. Les

    individus placés au centre du graphique doivent être analysés

    comme « moyens ».

    417 Limites

    L’analyse est sensible aux individus très différents. Pour ne

    pas trop falsifier l’analyse, il est possible de les

    considérer comme des individus supplémentaires.

    L’interprétation doit être prudente, car les processus sous-

    jacents sont complexes, ce ne sont jamais que des

    représentations.

    M. MENOU / ANALYSE DE DONNEES

    26

  • 8/18/2019 Cour Info Stat

    27/66

    42 L'analyse factorielle des correspondances (AFC)

    Travaux de J.-P. BENZECRI (1960).

    421 Caractéristique

    Cette méthode permet d'étudier la liaison entre les modalités

    de deux variables qualitatives (correspondances). Comme toute

    variable quantitative peut, par un codage, se ramener à une

    variable qualitative, l'AFC permet de mettre en évidence des

    liaisons non linéaires entre variables quantitatives non

    détectées par le coefficient de corrélation linéaire.

    L’objectif poursuivi est le même que pour l’ACP, à savoir,

    réduire le nombre de dimensions pour permettre une meilleure

    compréhension de phénomènes noyés dans la masse des

    informations.

    Elle se ramène à une ACP effectuée avec une métrique spéciale,

    celle du khi-deux, sur un tableau de contingence (Tableau

    variable x variable). C'est une technique d'exploration des

    tableaux (ou profils) croisés.

    Les représentations graphiques sont relativement faciles à

    interpréter.

    422 Méthode

    Cette méthode généralise le test d’indépendance du khi-deux.

    La population est définie par deux variables qualitatives X (l

    27

  • 8/18/2019 Cour Info Stat

    28/66

    modalités) et Y (c modalités), ce qui permet d'obtenir deux

    représentations, deux nuages. Deux analyses duales

    équivalentes sont alors possibles. Soit on s'intéresse aux

    profils ligne, ce qui ramène à un tableau individu x variable,

    où les individus sont les modalités de la variable X, placée

    en lignes et affectés des poids ni./n...

    Soit on s'intéresse aux profils colonne, ce qui ramène à un

    tableau individu x variable, où   les individus sont les

    modalités de la variable Y, placée en colonne, affectés des

    poids n.j/n... Il s'agit alors d'effectuer deux ACP : une sur

    le tableau des profils lignes (l,l) une sur le tableau des

    profils colonne (c,c) au lieu de la matrice des corrélations.

    Ces deux ACP sont équivalentes.

    Les valeurs propres et vecteurs propres résultant des 2 ACP

    sont identiques.

    I somme des valeurs propres (en nombre : min(l,c)-1) mesure

    l’information contenue dans les deux tableaux. Le produit de I

    par le nombre d’observations n est égal au khi-deux.

    L’information contenue dans un tableau de contingence est donc

    d’autant plus grande que les lignes et colonnes sont

    dépendantes.

    Concrètement le tableau des effectifs nij  est transformé en

    tableau des fréquences fij.

    Ce tableau est alors centré avant de permettre de calculer la

    matrice de variance covariance.

    Cette matrice est alors diagonalisée.

    M. MENOU / ANALYSE DE DONNEES

    28

  • 8/18/2019 Cour Info Stat

    29/66

    423 Interprétation

    Il s’agit d’analyser case par case les contributions au khi-

    deux les plus élevées, puisque ce sont elles qui ont entraîné

    le rejet de l’hypothèse d’indépendance.

    L'interprétation passe par plusieurs étapes :

    . La qualité globale d'explication

    Le pourcentage de variance expliquée par les axes factoriels

    retenus est obtenu par la somme de leurs valeurs propres

    divisée par la trace. Le nombre d'axes à retenir doit être

    tel, que ce pourcentage soit supérieur ou égal à 75 % (nombre

    arbitraire).

    En général, 3 axes maximum sont retenus, car au-delà

    l'interprétation s'avère délicate.

    Les valeurs propres sont toutes inférieures ou égales à 1,

    donc le critère de KAISER utilisé pour l’ACP ne peut être

    retenu. Seule la méthode du coude de CATTELL peut être

    utilisée.

    . Les contributions des points à l'inertie des axes (CTA) et

    la contribution des axes à   l'inertie d'un point (CTR)

    permettent la sélection des éléments explicatifs. Les cosinus

    carrés des projections indiquent ensuite la qualité   de la

    représentation (QLT). Il ne faut interpréter les axes qu'à

    partir des modalités les mieux représentées. Les proximités

    29

  • 8/18/2019 Cour Info Stat

    30/66

    entre points modalités ne sont exploitables que si ces points

    sont proches de la périphérie.

    . L'analyse consiste à déterminer la signification des axes

    factoriels. Les proximités des modalités des deux nuages,

    associées aux oppositions entre modalités, permettent de

    trouver la signification des axes. La proximité  entre deux

    modalités du même nuage signifie un profil similaire. La

    proximité   entre deux modalités de variables différentes

    signifie un même centre de gravité   pour les individus

    possédant les modalités des variables concernées.

    L'interprétation graphique est favorisée par la dualité des

    deux analyses qui permet de représenter les deux nuages de

    façon superposée.

    Parfois la forme des nuages rend plus rapide l'interprétation.

    424 Remarque

    L'analyse factorielle des correspondances revient à   une

    analyse canonique appliquée à   deux tableaux disjonctifs.

    (Chaque modalité de variable qualitative est remplacée par une

    variable quantitative prenant les valeurs 0 et 1.)

    M. MENOU / ANALYSE DE DONNEES

    30

  • 8/18/2019 Cour Info Stat

    31/66

    43 L'analyse des correspondances multiples ACM

    431 Caractéristique

    GUTTMAN (1941), BURT (1950) Cette analyse constitue une

    généralisation de l'A.F.C. Les n individus sont caractérisés

    par p variables qualitatives chacune ayant mi  modalités. La

    méthode est très utile pour dépouiller rapidement un

    questionnaire qui comprend notamment des réponses multiples.

    Si celui-ci comprend des variables quantitatives, il suffit de

    les transformer en variables qualitatives par découpage en

    classes.

    Il s’agit d’appliquer une AFC à un tableau disjonctif complet.

    Chaque individu est représenté   par les indicatrices des

    modalités des variables. Il faut alors que le nombre

    d’individus soit 5 fois plus important que le nombre de

    colonnes.

    Il est aussi possible de traiter des variables à   réponses

    multiples.

    432 Méthode

    Le tableau croisé, dit tableau de BURT, est un tableau dont

    chaque bloc constitutif est un tableau de contingence. Il est

    traité comme pour une AFC.

    On utilise les distances du khi-deux en tenant compte que le

    tableau comprend des données binaires.

    31

  • 8/18/2019 Cour Info Stat

    32/66

    Les profils lignes sont obtenus en divisant chaque terme d’une

    ligne par le nombre de colonnes.

    Le carré de la distance entre 2 individus i et j est :

    d 2(i, j ) =

    Π κ ι − Π κ 

    ϕ [ ]

    κ =1

     µ 

    ∑2

    Π κ 

    Les profils colonnes sont obtenus en divisant chaque terme

    d’une colonne par la somme des termes de la colonne.

    Le carré de la distance entre 2 profils colonnes i et j est :

    d 2(i, j) =

    Π κ ι

    − Π κ ϕ 

    [ ]κ =1

    ν 

    2

    1ν 

    433 Interprétation

    L'interprétation ne diffère pas de celle d'une A.F.C..

    M. MENOU / ANALYSE DE DONNEES

    32

  • 8/18/2019 Cour Info Stat

    33/66

    44 L’analyse factorielle des similarités (ou de dissimilarités) et des préf érences

    Analyse d’un tableau des dissimilarités (ATD) ou Multi

    Dimensional Scaling of similarities and preferences (MDS)

    441 Caractéristiques  :

    On considère n objets repérés les uns par rapport aux autres

    par un indice (dissimilarités ou distance). On dispose ainsi

    d’un tableau carré symétrique de dimension n représentant les

    distances entre ces objets. La diagonale principale est donc

    occupée par des 0.

    Ex : distances entre villes

    Les distances peuvent être des mesures objectives ou des

    estimations subjectives. Dans ce dernier cas, on préfère

    souvent plutôt que des valeurs métriques, des valeurs

    ordinales.

    Les données représentent des similarités ou des préférences

    (rangs).

    Les distances sont données par un individu ou par la moyenne

    des distances pour un groupe d’individus.

    Les objets (unités statistiques ou les variables) sont définis

    par un indice de dissimilarités ou de distance. On compare les

    objets deux à deux à partir d’une liste de critères.

    33

  • 8/18/2019 Cour Info Stat

    34/66

    Un indice de dissimilarité   est une fonction mesurant des

    différences et vérifiant des propriétés :

    • La dissimilarité est d’autant plus grande que les objets

    sont différents

    • La dissimilarité entre 2 objets i et j est positive ou nulle

    • La dissimilarité entre un objet et lui-même est nulle

    • La dissimilarité entre les objets i et j est égale à la

    dissimilarité entre les objets j et i.

    442 Objectif

    Représentation, sous forme graphique, d’un ensemble d’objets

    en fonction de leurs distances (dimensions cachées). On

    cherche une représentation de ces n objets dans un espace de

    nombre de dimensions le plus faible possible.

    Mais, si pour des villes la carte existe, il n’est pas certain

    que pour des objets ce soit le cas. Par ailleurs, il y a des

    risques que pour placer tous les objets on soit obligé  de

    multiplier les dimensions.

    En marketing, on se sert de cette méthode pour le

    positionnement des produits et la conception de nouveaux

    produits.

    443 Méthode  :

    A partir du tableau de distances, on dresse un second tableau,

    M. MENOU / ANALYSE DE DONNEES

    34

  • 8/18/2019 Cour Info Stat

    35/66

    carré symétrique des produits scalaires de chaque couple de

    vecteurs. C’est la matrice de variances/covariances du nuage.

    La méthode consiste, alors, à diagonaliser cette matrice dite

    de TORGERSON. Les valeurs propres sont ordonnées en ordre

    décroissant.

    Si tous les points sont dans le plan, toutes les valeurs

    propres sont nulles sauf les 2 premières. Il arrive cependant

    que certaines valeurs propres soient négatives, dans ce cas,

    la représentation est impossible.

    La méthode détermine des axes, la carte perceptuelle, situant

    les objets les uns par rapport aux autres. Ces axes

    correspondent à la dispersion maximale des objets.

    444 Interprétation  :

    L’interprétation se fait grâce au graphique, par les

    proximités et les écarts entre objets.

    L’évaluation de la qualité de représentation se fait à l’aide

    de deux indices : le stress et le R2.

    • Le Stress exprime en pourcentage le respect de l’ordre

    initial de classement des objets.

    Si l’ordre est respecté le stress est nul.

    • R2  représente le carré du coefficient de corrélation entre

    35

  • 8/18/2019 Cour Info Stat

    36/66

    les distances (ou similarités sous forme de rangs) de départ

    et les distances recalculées.

    Un R2 proche de 1 indique un bon ajustement.

    M. MENOU / ANALYSE DE DONNEES

    36

  • 8/18/2019 Cour Info Stat

    37/66

    45 L'analyse discriminante (AFD)

    Travaux de FISHER (1936) et MAHALANOBIS (1936).

    451 Objectifs

    On cherche à décrire et à classer des individus caractérisés

    par un grand nombre de variables. Il s’agit de déterminer les

    variables qui distinguent le mieux les groupes d’individus.

    452 Caractéristique

    Il s’agit de mettre en évidence les relations entre une

    variable qualitative Y à expliquer et un ensemble important de

    variables quantitatives explicatives. On dispose d'un tableau

    individus x variables. (n individus, p variables Xi)

    Le nombre de variables explicatives doit être très inférieur

    au nombre d’individus.

    La variable qualitative Y prenant q modalités, elle réalise

    une partition de l'ensemble des individus. L’objectif est

    d'être capable d’affecter, dans un deuxième temps, dans chaque

    classe, de nouveaux individus, grâce à   la fonction

    discriminante préalablement constituée.

    La première étape consiste donc à   préciser la fonction

    discriminante à   partir des observations des variables

    quantitatives. De nouvelles variables doivent être

    déterminées, de sorte que les q groupes soient séparés le

    mieux possible, c’est-à-dire distinguables sans ambiguïté.

    37

  • 8/18/2019 Cour Info Stat

    38/66

    Les coefficients de la fonction estimée (dite discriminante),

    sur l'ensemble partitionné   d'individus, permettent par la

    suite de faire des prévisions pour caractériser la modalité de

    la variable à expliquer. Le challenge consiste à réduire le

    nombre de variables quantitatives à considérer.

    Cette méthode est utilisée pour la reconnaissance de formes,

    l’appartenance politique, le diagnostic en médecine, etc.

    453 Méthode

    Il s'agit de déterminer les q combinaisons linéaires, appelées

    variables discriminantes, non corrélées entre elles, des

    variables quantitatives explicatives qui séparent au mieux les

    classes déjà définies. Les valeurs prises par ces nouvelles

    variables, pour les individus d’une même classe, doivent être

    les plus concentrées possibles et les valeurs prises par ces

    mêmes variables, pour des individus de classes différentes,

    les plus dispersées possibles.

     

    M. MENOU / ANALYSE DE DONNEES

    38

    A

    A

    A

    A

    A

    B

    B

    B

    B

    B

    B

  • 8/18/2019 Cour Info Stat

    39/66

    Les projections des points sur l’axe ont une abscisse positive

    pour le groupe des B et une abscisse négative pour le groupe

    des A.

    Pour chaque individu i, on calcule une fonction u(i) (nouvelle

    variable) combinaison des p variables quantitatives centrées.

    La variance de cette variable u (u'Tu) se décompose en

    variance intra-classes et variance inter-classes (théorème de

    HUYGENS). Il faut chercher u tel, que la variance interne

    (u'Du) soit minimale et la variance externe (u'Eu) maximale.

    Cela se traduit par rendre maximal le rapport Vext/Vint ou

    (Vext/Vtot) ou minimal Vint/Vext ou (Vtot/Vext). En pratique,

    on cherche à rendre maximum u'Eu sous la contrainte u'Du = 1.

    Les multiplicateurs de LAGRANGE permettent la résolution de

    cette méthode d'optimisation. L = u'Eu - λ (u'Du - 1)

    L'annulation de la dérivée par rapport à u :

    2 (Eu - λ  Du) = 0

    La résolution de l'équation donne D-1 Eu = λ  u

    u est donc vecteur propre de D-1E, le vecteur choisi sera

    celui correspondant à la plus grande valeur propre.

    Cela revient donc à effectuer une ACP sur le nuage des centres

    de gravité des classes avec la métrique de MAHALANOBIS.

    La distance de MAHALANOBIS entre deux vecteurs est définie

    par :

    39

  • 8/18/2019 Cour Info Stat

    40/66

    d2 (u,v) = (u-v)’ D-1 (u-v)

    où D-1 est la matrice des variances covariances intra-classes.

    Pour réduire le coût de l'analyse, il convient de limiter le

    nombre de variables explicatives soit par une analyse en

    composantes principales préalable, soit par la démarche du pas

    à pas.

    Le passage par l'analyse en composantes principales consiste

    dans la pratique de l'ACP des centres de gravité des classes.

    La démarche pas à pas revient à choisir successivement des

    variables en prenant celles qui maximisent la trace de D-1 E

    ou celles qui maximisent le pourcentage de bien classés.

    Il est possible de pratiquer une analyse discriminante sur des

    variables qualitatives en transformant les modalités des

    variables qualitatives en variables binaires.

    454 Interprétation

    La valeur des valeurs propres exprime le pouvoir discriminant

    des facteurs. Si la valeur propre est égale à   1, la

    discrimination est parfaite

    On retient un nombre de facteurs tels que la variance

    expliquée (somme des valeurs propres retenues sur somme totale

    des valeurs propres) soit convenable.

    L'interprétation des facteurs peut s'effectuer par l'analyse

    des corrélations entre facteurs et variables comme en ACP.

    M. MENOU / ANALYSE DE DONNEES

    40

  • 8/18/2019 Cour Info Stat

    41/66

    Le graphique des individus sur les axes discriminants permet

    de visualiser quel axe discrimine quels groupes.

    Le logiciel indique aussi le pourcentage d’individus bien

    classés.

    Après avoir précisé   la fonction discriminante, il est

    préférable de l’appliquer à   un deuxième ensemble

    d’observations pour voir si les affectations aux classes sont

    correctes avant de procéder à des prévisions sur de nouveaux

    individus dont on ignore l’appartenance aux classes.

    Les règles d’affectation sont multiples.

    • La règle géométrique consiste à  affecter l’individu à la

    classe dont la moyenne est la plus proche selon la distance

    de MAHALANOBIS. Mais, cette règle conduit à des affectations

    erronées si les effectifs des classes sont très différents.

    • La règle probabiliste considère que l’on doit affecter un

    individu à la classe dont la distribution de probabilité,

    supposée normale, de l’appartenance de cet individu est la

    plus forte. A priori chaque classe a la même probabilité de

    comprendre l’individu. Mais, ces probabilités sont révisées

    ensuite en fonction de la taille du groupe.

    455 Remarques : comparaisons avec les autres techniques

    L'analyse discriminante est une régression sur une variable

    qualitative.

    L'analyse discriminante n'est pas une méthode de

    41

  • 8/18/2019 Cour Info Stat

    42/66

    classification automatique, puisque la partition existe, mais,

    de mise en évidence de cette partition.

    M. MENOU / ANALYSE DE DONNEES

    42

  • 8/18/2019 Cour Info Stat

    43/66

    46 L’analyse des mesures conjointes

    461 Objectif

    Mesurer l’effet conjoint de plusieurs variables (explicatives)

    indépendantes qualitatives xi sur l’ordre des valeurs prises

    par une variable (à expliquer) dépendante qualitative y. On

    cherche quelles variables conduisent à un classement donné.

    462 Caractéristiques

    On dispose de plusieurs variables explicatives indépendantes

    (éventuellement nominales transformées en binaires) ayant des

    valeurs ordonnées.

    463 Méthode

    Il s’agit de transformer la variable à   expliquer en une

    fonction monotone (1,2,3,4, …)

    On utilise généralement la méthode d’analyse monotone de la

    variance.

    La variable à   expliquer s’exprime en fonction des autres

    variables selon un modèle additif.

    43

  • 8/18/2019 Cour Info Stat

    44/66

    47 L'analyse canonique

    471 Caractéristique

    On dispose d'un tableau individus x variables (quantitatives

    réparties en deux groupes de dimension p et q). Cette méthode

    permet de déterminer si les deux ensembles de variables

    mesurent les mêmes propriétés. En d’autres termes, la méthode

    mesure la liaison globale entre deux ensembles de variables.

    Peu utilisée en soi, cette analyse décrit une démarche

    générale qui se retrouve dans d'autres méthodes (AFC,

    AFDiscriminante). Si un ensemble ne comprend qu’une variable,

    on a affaire à une régression multiple. Si de plus les autres

    variables sont catégorisées, c’est une analyse de variance.

    472 Méthode

    L'on recherche la combinaison linéaire du premier groupe de

    variables et la combinaison linéaire du deuxième groupe de

    variables qui maximisent le carré de leur corrélation. Cela

    revient à trouver deux vecteurs u et v (variables canoniques)

    formant un angle minimum.

    Les corrélations les plus fortes exhibent les variables qui

    contribuent le plus à la liaison des deux groupes. Les couples

    à faible corrélation correspondent à des variables spécifiques

    à chaque ensemble.

    M. MENOU / ANALYSE DE DONNEES

    44

  • 8/18/2019 Cour Info Stat

    45/66

    Géométriquement, la méthode consiste à rechercher les lignes

    de plus grandes pentes de 2 sous-espaces W1 et W2.

    473 Interprétation

    Si les 2 ensembles de variables que l’on peut construire par

    combinaison linéaire de chaque groupe sont confondus (angle

    nul), on peut se contenter d’un seul ensemble de variables. Si

    les 2 ensembles sont orthogonaux (angle droit) cela signifie

    que les deux ensembles décrivent des phénomènes différents.

    Il faut analyser les corrélations entre variables initiales et

    variables canoniques.

    45

    W1

    W2

    u

    v

  • 8/18/2019 Cour Info Stat

    46/66

    474 Extension

    Il est possible d’appliquer la méthode à plus de deuxensembles.

    Il est également possible de travailler avec des variables

    qualitatives. Il suffit de considérer chaque modalité comme

    une variable binaire.

    M. MENOU / ANALYSE DE DONNEES

    46

  • 8/18/2019 Cour Info Stat

    47/66

    5 Les méthodes de classification, de typologie ou de taxinomie

    Ces méthodes visent à   répartir les individus en classes

    (groupes, segments, clusters, types) homogènes.

    L’homogénéité est mesurée par la distance euclidienne usuelle.

    Ces méthodes se répartissent en deux catégories les non

    hiérarchiques et les hiérarchiques.

    Les méthodes non hiérarchiques déterminent des partitions.

    Les méthodes hiérarchiques déterminent des suites de

    partitions emboîtées en classes de plus en plus larges.

    Les tableaux utilisés sont :

    des tableaux de distances entre individus

    des tableaux de dissimilarités entre individus

    des tableaux individus x caractères numériques

    des tableaux des coordonnées factorielles d'une analyse des

    correspondances

    47

  • 8/18/2019 Cour Info Stat

    48/66

    51 L'analyse non hiérarchique

    511 Objectifs

    Ces méthodes cherchent à établir une partition des individus

    en classes. Les individus regroupés dans une classe doivent

    être les plus semblables possibles entre eux et les classes

    les plus séparées possibles afin de pouvoir les identifier.

    Bien sûr, le problème ne se pose que lorsque l’on a affaire à

    une population caractérisée par plusieurs variables.

    Cependant, il y a peu de chances que des classes existent

    nettement.

    Il est donc difficile de prouver l’existence de classes ou de

    montrer l’efficacité   d’une méthode de classification en se

    basant sur des classes connues.

    M. MENOU / ANALYSE DE DONNEES

    48

  • 8/18/2019 Cour Info Stat

    49/66

    Un autre problème concerne la détermination du nombre de

    classes.

    Pour un ensemble donné, le nombre de partitions concevables

    étant très important, il faut définir une méthode. Il est en

    effet impossible, en pratique, de procéder par simple

    sélection, selon un critère, dans l’ensemble de tous les cas

    possibles. Concrètement, il est conseillé de faire plusieurs

    essais et de choisir celui qui s’interprète le plus

    facilement.

    Un seuil de regroupement est défini correspondant à   la

    distance maximum acceptable pour rassembler deux individus.

    512 Méthode  :

    Il existe plusieurs méthodes de partitionnement : les méthodes

    basées sur l’inertie, et celles basées sur les relations

    d’équivalence.

    5121 Les m éthodes basées sur l’inertie

    Le nuage de n points de IRp  (n individus, p variables)

    représentant la population est divisée en plusieurs (k) sous-

    nuages (ou classes). La distance considérée entre les

    49

  • 8/18/2019 Cour Info Stat

    50/66

    individus est évaluée par une distance euclidienne. Chaque

    sous-nuage doit, pour être le plus homogène, avoir le moins

    d'inertie intra-classes. L'inertie de chaque classe (ou intra-

    classes) est la moyenne des carrés des distances des points au

    centre de gravité. La somme des inerties des sous-nuages dite

    intra-classe doit être la plus petite possible.

    En revanche, il faut que la dispersion des centres de gravité

    de chaque sous-nuage par rapport au centre de gravité   de

    l'ensemble, l'inertie inter-classes, soit la plus grande

    possible.

    L'inertie totale du nuage est la somme des inerties inter et

    intra-classes.

    Maximiser l'inertie inter-classes, c'est minimiser l'inertie

    intra, puisque leur somme est constante.

    Il convient de définir essentiellement un critère global de

    proximité.

    Méthode des centres mobiles (FORGY)

    On définit k centres arbitraires (choisis au hasard), et on

    regroupe les individus autour de ces centres selon leur plus

    faible distance relative.

    M. MENOU / ANALYSE DE DONNEES

    50

  • 8/18/2019 Cour Info Stat

    51/66

    Cela revient à effectuer une partition en domaines polyédraux

    convexes déterminés par les hyperplans médiateurs des centres.

    Le centre de gravité de chaque groupe est alors calculé. On

    regroupe les individus autour de ces nouveaux centres selon

    leur moindre distance relative. On recommence l'algorithme, en

    recalculant de nouveaux centres de gravité et, en reclassant

    les individus jusqu'à ce que la qualité du partitionnement ne

    s'améliore plus. Cette qualité   étant mesurée par l'inertie

    intra-classe. L’algorithme converge, selon le théorème de

    HUYGENS, après un petit nombre d’itérations, vers l’inertie

    intra minimale. Le critère d’arrêt peut être fixé   par un

    nombre maximal d’itérations ou par un seuil de variations.

    La méthode peut être utilisée pour des données qualitatives à

    conditions de prendre les coordonnées factorielles.

    51

  • 8/18/2019 Cour Info Stat

    52/66

    L'inconvénient de cette méthode est que le résultat est

    dépendant de la partition de départ.

    Un autre problème peut provenir de classes vides, car cela

    réduit le nombre de classes.

    Méthode des nuées dynamiques

    E. DIDAY généralise la méthode des centres mobiles en

    définissant chaque classe par q individus (les plus centraux)

    constituant le noyau (au lieu de son seul centre de gravité).

    Partant de k noyaux, on répartit les individus autour de ces

    noyaux. On recalcule de nouveaux noyaux, plus représentatifs

    des classes ainsi formées, jusqu'à ce que la qualité de la

    partition ne s'améliore plus.

    Comme la partition finale peut dépendre du choix des noyaux de

    départ, il est nécessaire de recommencer l’opération avec des

    conditions initiales différentes plusieurs fois. Les éléments

    regroupés dans plusieurs partitions finales sont appelés

    formes fortes.

    La méthode des k-means (Mac QUEEN)

    Cette méthode procède comme celle des centres mobiles, sauf

    que, les centres sont recalculés après l’affectation de chaque

    point.

    M. MENOU / ANALYSE DE DONNEES

    52

  • 8/18/2019 Cour Info Stat

    53/66

     5122 Les mé thodes basées sur les relations d’équivalence

    F. MARCOTORCHINO et P. MICHAUD ont élaboré   des méthodes

    applicables aux variables qualitatives ne nécessitant pas la

    détermination du nombre de classes a priori.

    Le principe repose sur le fait qu’une partition est une

    relation binaire d’équivalence. Toute variable qualitative à m

    modalités permet une partition des individus en m classes. Les

    individus d’une même classe sont équivalents. Si la relation

    d’équivalence ℜ est représentée par un tableau tel que :

    cij = 1 si la relation est vérifiée et cij = 0 sinon alors Cii =

    1 (réflexivité) Cij = Cji (symétrie) Cij + Cjk - Cik ≤ 1.

    La méthode consiste alors à trouver une matrice C qui respecte

    les conditions précédentes.

    Si on dispose de p variables qui ont respectivement m1,

    m2, ..., mp modalités, on dispose de p partitions.

    Le problème est donc de trouver un compromis entre ces p

    partitions.

    513 Interprétation  :

    Il faut donner un nom aux classes obtenues et pouvoir les

    décrire.

    53

  • 8/18/2019 Cour Info Stat

    54/66

    On peut identifier plus facilement les groupes les plus

    homogènes.

    On utilise les variables initiales. On calcule pour chacune le

    rapport de la variance inter sur la variance totale et on ne

    retient que celles qui ont une valeur proche de 1.

    L’interprétation peut être déduite de la position relative des

    classes. On compare pour cela les moyennes des variables de

    chaque classe en tenant compte de leurs écarts type. Plus

    l’écart type est faible plus la comparaison est valable.

    On peut représenter graphiquement les individus, différenciés

    selon la classe, pour les variables importantes de la

    classification prise deux par deux.

    514 Limites

    Les méthodes décrites n’aboutissent qu’à des optimums locaux

    dépendant de la partition initiale.

    515 Comparaison avec les autres méthodes  :

    La classification permet d’effectuer à la suite une AFD. Si

    celle-ci est correcte c’est que la typologie est intéressante.

    52 L'analyse hiérarchique

    M. MENOU / ANALYSE DE DONNEES

    54

  • 8/18/2019 Cour Info Stat

    55/66

    L'analyse hiérarchique se partage entre méthodes ascendantes

    et descendantes. Les méthodes descendantes sont peu usitées.

    Les méthodes d'analyse hiérarchique descendantes partent de la

    population globale pour aller vers les individus.

    Les méthodes d'analyse hiérarchique ascendante cherchent à

    définir des ensembles de partitions, de nombre de classes

    décroissant, emboîtées les unes dans les autres. Partant d'une

    partition en n classes, d'un élément chacune ( n étant le

    nombre d'individus), on cherche à regrouper, à chaque étape,

    les deux classes les plus proches, jusqu'au regroupement en

    une classe comprenant tous les individus. Il y a donc n-2

    partitions à déterminer.

    Une classification hiérarchique est représentée par un

    dendrogramme, ou arbre de classification, ou arbre

    hiérarchique.

    55

    ab

    cd e

    P1

    P2P3P4P5

  • 8/18/2019 Cour Info Stat

    56/66

    P5 = a/b/c/d/e

    P4 = a b/c/d/e

    P3 = a b/c/d e

    P2 = a b c/d e

    P1 = a b c d e

    L’indice de partition correspond à un indice d’agrégation.

    A partir de l’arbre, les classes sont définies, en coupant

    l’arbre à un certain niveau, on examine alors les branches qui

    tombent.

    Généralement, une échelle sur le côté  permet de déterminer

    l’éloignement des groupes les uns par rapport aux autres.

    C’est une moyenne des distances entre individus de l’un des

    groupes et ceux de l’autre.

    Les nœuds sont à une hauteur proportionnelle à l’inertie inter

    M. MENOU / ANALYSE DE DONNEES

    56

  • 8/18/2019 Cour Info Stat

    57/66

    perdue du fait de la fusion.

    Les méthodes se distinguent selon le choix du critère de

    regroupement de deux classes.

     M é thode de WARD

    Le critère choisi est celui de l’inertie.

    Cette méthode est aussi appelée méthode du moment d’ordre

    deux.

    Caractéristique

    On considère n individus, caractérisés par p variables

    quantitatives, dont on évalue la proximité par une distance

    euclidienne.

    Méthode

    Au départ chaque individu forme une classe. L’inertie inter-

    classes est alors égale à l’inertie totale. L’inertie totale

    est la moyenne des carrés des distances des individus au

    centre du nuage. Il s'agit ensuite de diminuer de un le nombre

    d'éléments d'une partition jusqu'à   l'obtention d'une seule

    classe comprenant tous les éléments. L’inertie inter-classes

    est alors nulle. Il faut donc réunir les deux classes (les

    plus proches) pour lesquelles la perte d'inertie est la plus

    57

  • 8/18/2019 Cour Info Stat

    58/66

    faible. On agrége donc les individus qui font le moins varier

    l’inertie intra-classes. A chaque étape, on calcule l’indice

    du rapport de l’inertie inter-classes à l’inertie totale.

    Lorsque l’on regroupe 2 classes, l’inertie inter-classes

    diminue.

    Cette diminution est mesurée par le critère d’agrégation de

    Ward.

    Pour le regroupement des classes i et j :

    nin j

    n(ni  + ν ϕ ) δ 

    2(γ  ι,γ  ϕ )

    n correspond à l’effectif

    g au centre de gravité

    Le carré de la distance est obtenu en faisant la somme des

    rapports, pour chaque variable, du carré   de la différence

    entre les valeurs des 2 individus et de la variance.

    On regroupe donc les deux classes qui minimisent le critère de

    Ward.

    Interprétation

    Le critère de Ward cumulé à partir de la dernière itération

    permet de calculer les inerties expliquées par les différentes

    partitions successives. En divisant ces totaux par le nombre

    de variables, on obtient la part d’inertie expliquée. On

    retient une typologie en c classes lorsque la part d’inertie

    expliquée augmente peu en ajoutant une classe supplémentaire.

    La partition est d’autant meilleure que les groupes sont

    M. MENOU / ANALYSE DE DONNEES

    58

  • 8/18/2019 Cour Info Stat

    59/66

    homogènes. Cela se traduit par une inertie intra-classes

    faible et une inertie inter-classes forte.

    L’analyse hiérarchique est souvent associée à   une ACP.

    L’interprétation est facilitée par le tracé des classes sur le

    graphe du plan des composantes principales. Si les individus

    sont trop nombreux, pour être tous représentés, ce sont les

    centres de gravité des classes qui sont reportés.

     Autres M é thodes

    Les autres méthodes s’appliquent lorsque les distances ne sont

    pas euclidiennes.

    Plusieurs distances peuvent être envisagées. Parmi elles :

    • Distance du saut minimal (ou de l’inf)

    A et B étant deux classes les ei, ej des individus

    d(A,B) = inf d(ei,ej) pour ei ∈ A ej  ∈ B

    • Distance du diamètre (ou du sup)

    d(A,B) = sup d(ei,ej)

    • Distance moyenne

    d(A,B) = 1PAP B  j

    ∑ι

    ∑   δ(ει,εϕ) PA PB le poids de chaque classe

    Ces méthodes donnent des résultats différents

    59

  • 8/18/2019 Cour Info Stat

    60/66

      logiciels

    ALCESTEADDADANACONDABMDPCHADOC VSCSSDBASE STATSDESTINEOLE 3EXECUSTATEyeLIDFLASH

    FUTURMASTERGLADYSITEMLADDADLEASLE SPHINXLIDE +LTSMMODALISAMINITABNCSSPCSMPRECIS

    QUADEOLEQUESTQUESTIONRS+SASSIMCA-PSOLOSPADSPSS PCSTATBOXSTATGRAPHICS

    STATISTICASTAT ITCFSTATLABSTATVIEWSYNTHESE 2SYSTATUNISTATTRI-DEUXVESTAL

    M. MENOU / ANALYSE DE DONNEES

    60

  • 8/18/2019 Cour Info Stat

    61/66

      Bibliographie

    AAKER D. A., Multivariate analysis in marketing , Wadsworth,1971.

    ANTOINE J., Le sondage outil du marketing , Dunod, 1986.

    AURAY DURU ZIGHED, Analyse des données multidimensionnelles,tome 1 : les m éthodes descriptives, Editions A. Lacassagne,1991.

    AURAY DURU, Analyse des données multidimensionnelles, tome 3 :les m éthodes explicatives, Editions A. Lacassagne, 1991.

    AVENEL M. RIFFAULT J.-F., Mathé matiques appliquées à   lagestion, Foucher, 2005.

    BAIR J., Alg èbre linéaire pour l’économie et les sciencessociales, De Boeck Université, 1984.

    BASTIN C. et Alii, Pratique de l’analyse des données, Dunod,1980.

    BAVAUD F. CAPEL R. CRETTAZ de ROTEN MULLER J.-P., Guide del’analyse statistique de données avec SPSS 6 , Slatkine, 1996.

    BENZECRI J.-P., L'analyse des données, T1 La taxinomie, Dunod,1979.

    BENZECRI J.-P., L'analyse des données, T2 L'analyse descorrespondances, Dunod, 1982.

    BENZECRI J.-P. BENZECRI F., La Pratique de l'analyse desdonnées, T1 Analyse des correspondances. Exposé élé mentaire,Dunod, 1984.

    BENZECRI J.-P. BENZECRI F., La Pratique de l'analyse desdonnées, T 5 Economie, Dunod, 1980.

    BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique del'analyse des données, T2 Abr ég é théorique, études de cas de

     mod èle, Dunod, 1980.

    BENZECRI J.-P. BASTIN C. BOURGARIT C. CAZES C., La Pratique del'analyse des données, T 3 Linguistique et lexicologie, Dunod,1981.

    BENZECRI J.-P., Correspondance Analysis Handbook , MarcelDekker Inc., 1992.

    61

  • 8/18/2019 Cour Info Stat

    62/66

    BERTIER P. BOUROCHE J.-M., Analyse des données multidimensionnelles, P.U.F., 1977.

    BERTRAND R., Pratique de l’analyse statistique des données,Presses de l’Université de Québec, 1986.

    BIALES C., L'analyse statistique des données, Chotard, 1988.

    BOUROCHE J.-M. SAPORTA G., L'analyse des données, P.U.F.,1980.

    BOUROCHE J.-M., Analyse des données en marketing , Masson,1977.

    BRY X., Analyses factorielles simples, Economica, 1995.

    CAILLIEZ F. PAGES J.-P., Introduction à l'analyse des données,Smash, 1976.

    CASIN P., Analyse des données et des panels de données, DeBoeck Université, 1999.

    CEHESSAT R., Exercices commentés de statistique etinformatique appliquée, Dunod, 1981.

    CELEUX G. DIDAY E. GOVAERT G. LECHEVALLIER Y. RALAMBONDRAINYH., Classification automatique des données. Environnementstatistique et informatique, Dunod.

    Cereq, Bref 84, Fev 1993.

    CHANDON J.-L. PINSON S., Analyse typologique, Masson, 1980.

    CHANDON J.-L., L'Analyse de données dans les sciences degestion, Encyclopédie du management 2, Vuibert, 1980.

    CIARLET P.-G., Introduction à l’analyse num érique matricielleet à l’optimisation, Dunod, 1982.

    CIBOIS P., L'analyse factorielle, P.U.F., 1983.

    CIBOIS P., L'analyse des données en sociologie, P.U.F., 1984.

    CRAUSER J.-P. HARVATOPOULOS Y. SARNIN P., Guide pratiqued'analyse des données, Editions d'Organisation, 1989.

    DAGNELIE P., Analyse statistique à   plusieurs variables,Presses agronomiques de Grembloux, 1975.

    DAGNELIE P., Statistique descriptive et base de l’inf érencestatistique, De Boeck Université, 1998.

    DAVIDSON M. L., Multivariate scaling , Wiley and Sons, 1983.

    M. MENOU / ANALYSE DE DONNEES

    62

  • 8/18/2019 Cour Info Stat

    63/66

    DIDAY E., Optimisation en classification automatique, INRIA,1979

    DIDAY E. LEMAIRE J. POUGET J. TESTU F., Elé ments d'analyse dedonnées, Dunod, 1985.

    DOISE CLEMENCE, Repr ésentation sociologique et analyse dedonnées, P. U. Grenoble.

    ESCOFFIER B. PAGES J., Analyse conjointe de tableaux quantitatifs, Masson, 1988.

    ESCOFFIER B. PAGES J., Analyse factorielles simples et multiples. Objectifs, m éthodes et interpr étations, Dunod,1998.

    EVRARD Y. LEMAIRE P., Information et d écision en marketing ,Dalloz, 1976.

    EVRARD Y. PRAS RAUX, Etudes et recherches en marketing ,Nathan, 19.

    FALISSARD B., Comprendre et utiliser les statistiques dans lessciences de la vie, Masson, 1996.

    FENELON J.-P., Qu'est-ce que l'analyse des données, Lefonen,1981.

    FOUCART T., Analyse factorielle de tableaux multiples, Masson,1984.

    FOUCART T., Analyse factorielle. Programmation sur micro-ordinateurs avec nouveaux programmes, Masson, 1985.

    FOUCART T., L’analyse des données. Mode d’emploi, PressesUniversitaires de Rennes, 1997.

    GENINET B., Mathé matiques et statistiques g énérales appliquéesau marketing , Economica, 1986.

    GORDON A.-D., Classification, Chapmann and Hall, 1981.

    GRANGE D. LEBART L., Traitements statistiques des enquêtes,

    Dunod, 1994.

    GUIGOU J.-L., M éthodologies multidimensionnelles : Analyse desdonnées et choix à critères multiples, Dunod, 1977.

    HAIR J. F. ANDERSON R.E. TATHAM R.L., Multivariate dataanalysis, Macmillan, 1987.

    HAVARTOPOULOS Y. LIVIAN Y.F. SARNIN P., L’art de l’enquête,Editions Eyrolles, 1989.

    63

  • 8/18/2019 Cour Info Stat

    64/66

    HERMAN J., Analyse de données qualitatives. T1 Traitementd'enquêtes, échantillon, r é partitions, associations, Masson,1986.

    HERMAN J., Analyse de données qualitatives. T2 Traitementd'enquêtes. Mod èles multivariés, Masson, 1990.

    IDRISS, Alg èbre linéaire. Probabilité mathé matique. Initiationà l'analyse des données, Ellipses.

    JAMBU M., Exploration informatique et statistique des données,Dunod, 1989.

    JAMBU M. LEBEAUX M.-O., Classification automatique pour l'analyse des données. T1 M éthodes et algorithmes, Dunod,1979.

    JAMBU M. LEBEAUX M.-O., Classification automatique pour 

    l'analyse des données. T2 Logiciels, Dunod, 1979.

    JAMBU M., M éthodes de base de l’analyse des données, Eyrolleset France Télécom-Cnet, 1999.

    JARDINE N. SIBSON R., Mathematical Taxonomy , Wiley, 1971.

    JULIEN A., Analyse de données multidimensionnelles, Thèse,30/06/72.

    KENDALL M.-G. STUART A., The advance Theory of Statistics, T1,Griffin 1977.

    KENDALL M.-G. STUART A., The advance Theory of Statistics, T2,Griffin 1973.

    KENDALL M.-G. STUART A., The advance Theory of Statistics, T3,Griffin 1976.

    LAGARDE J. (de), Initiation à  l'analyse de données, Dunod,1983.

    LAMBERT D. C., 19 Am ériques latines, Economica, 1984.

    LAMBIN J.-J., La recherche marketing. Analyser, mesurer,

    Pr évoir , McGraw Hill, 1990.

    LAPIN L.L., Statistique de gestion, Les Editionsd’Organisation, 1987.

    LAVIT Ch., Analyse conjointe de tableaux quantitatifs, Dunod,1988.

    LEBART L. FENELON J.-P., Statistiques et informatiqueappliquées, Dunod, 1971.

    M. MENOU / ANALYSE DE DONNEES

    64

  • 8/18/2019 Cour Info Stat

    65/66

    LEBART L. MORINEAU A. FENELON J.-P., Traitement des donnéesstatistiques. M éthodes et programmes, Dunod, 1979.

    LEBART L. MORINEAU A. PIRON M., Statistique exploratoire multidimensionnelle, Dunod, 1997.

    LEBART L. MORINEAU A., SPAD, Systè me portable pour l'analysedes données, CESIA, 1985.

    LEBART L. MORINEAU A. TABARD N., Techniques de la descriptionstatistique. M éthodes et logiciels pour l'analyse des grandstableaux , Dunod, 1986.

    LEBART L. SALEM A., Analyse statistique des donnéestextuelles, Dunod, 1994.

    LEFEBVRE J., Introduction aux analyses statistiques multidimensionnelles, Masson, 1976.

    LERMAN I.-C., Classification et analyse ordinale des données,Dunod, 1981.

    Les cahiers de l'analyse des données, DUNOD, Depuis 1976.

    MAKRIDAKIS S. WINKLER R.L. DESPLAS M., Programmes destatistique interactifs, Les Editions d’organisation, 1988.

    MARCOTORCHINO J.F. MICHAUD P., Optimisation en analyseordinale des données, Masson, 1979.

    MASSON M., M éthodologies g énérales du traitement statistique

    de l'information de masse, Cédic-Nathan, 1980.

    Mathématiques en sciences humaines 11ème année, n˚44, 1973, p.5.34.

    Mathématiques en sciences humaines 12ème année, n˚45, 1974, p.5.28.

    MOORE D. McCABE G.-P., Introduction to the Practice of Statistics, Freeemann, 1993.

    MORICE E. CHARTIER F., M éthode statistique, INSEE, 1954.

    MORRISON D.F., Multivariate statistical methods, MacGraw-Hill,1990.

    MOSCAROLA J., Enquêtes et analyses des données avec le sphinx ,Vuibert, 1995.

    NAKACHE J.-P. CHEVALIER A. MORICE V., Exercices commentés de mathé matiques pour l'analyse des données, Dunod, 1981.

    PONTIER, Le mod èle euclidien en analyse de données, Ellipses.

    65

  • 8/18/2019 Cour Info Stat

    66/66

    PUPION P.-C., Statistiques pour la gestion. Applications avecExcel et SPSS , Dunod, 2004.

    ROMEDER J.-M., M éthodes et programmes d'analyse discriminante,Dunod, 1973.

    ROUANET H. LE ROUX B., Ananlyse des données multidimensionnelles, Dunod, 1992.

    SAPORTA B., Marketing industriel, Eyrolles, 1992.

    SAPORTA G., Théorie et m éthode de la statistique, Technip,1978.

    SAPORTA G., Probabilités, analyse des données et statistique,Technip, 1990.

    SIMON C. BLUME L., Mathé matiques pour

    économistes, De BoeckUniversité, 1998.

    TENENHAUS M., Statistique. M éthodes pour d écrire, expliquer et pr évoir , Dunod, 2007.

    TENENHAUS M., M éthodes statistiques en gestion, Dunod, 1994.(HD 30.25 1025)

    VEDRINE J.-P., Le traitement des données en marketing , Leséditions d'organisation, 1991.

    VOLLE M., Analyse des données, Economica, 1997.

    66