DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

135
DEPAR LE D Rapporteur : B. BELDJILAL Président : F. KHELFI Examinatrice H. BELBACHI Examinateur Examinateur Examinateur A. BENYETTO B. ATMANI A. AMINE CONTRIBU À RTEMENT D'INFORMAT THESE Présentée par BARIGOU Fatiha Pour obtenir DIPLOME DE DOCTORAT EN SCIENCE Spécialité Informatique Devant les membres du jury : 2012/2013 LI Professeur à l’Université d’Oran, E Professeur à l’Université d’Oran, E IR Professeur à l’Université Mohamed OU Professeur à l’Université Mohamed Maître de Conférences A à l’Unive Maître de Conférences A à l’Unive UTION À LA CATÉGORISATION À LEXTRACTION DINFORM TIQUE ES Es-sénia Es-sénia d Boudiaf USTO d Boudiaf USTO ersité d’Oran, Es-sénia ersité Dr Taher Moulay Saïda N DE TEXTES ET MATION

Transcript of DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Page 1: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

DEPARTEMENT D'INFORMATIQUE

LE DIPLOME DE DOCTORAT

Rapporteur : B. BELDJILALI

Président : F. KHELFI

Examinatrice H. BELBACHIR

Examinateur

Examinateur

Examinateur

A. BENYETTOU

B. ATMANI

A. AMINE

CONTRIBUTION À LA CAT

À L

DEPARTEMENT D'INFORMATIQUE

THESE

Présentée par

BARIGOU Fat iha

Pour obtenir

LE DIPLOME DE DOCTORAT EN SCIENCES

Spécialité Informatique

Devant les membres du jury :

2012/2013

ELDJILALI Professeur à l’Université d’Oran, Es

Professeur à l’Université d’Oran, Es

H. BELBACHIR Professeur à l’Université Mohamed Boudiaf

A. BENYETTOU Professeur à l’Université Mohamed Boudiaf USTO

Maître de Conférences A à l’Université d’Oran, Es

Maître de Conférences A à l’Université

ONTRIBUTION À LA CATÉGORISATION DE

À L’EXTRACTION D’INFORMATION

DEPARTEMENT D'INFORMATIQUE

EN SCIENCES

Es-sénia

Es-sénia

Mohamed Boudiaf USTO

Mohamed Boudiaf USTO

Université d’Oran, Es-sénia

Université Dr Taher Moulay Saïda

ÉGORISATION DE TEXTES ET

INFORMATION

Page 2: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

i

Résumé

Les travaux de cette thèse s’articulent autour de deux axes : (1) la classification par apprentissage supervisé pour la catégorisation de textes et (2) l’extraction des entités nommées à partir des comptes rendus médicaux.

Dans notre première contribution nous proposons une nouvelle démarche pour la classification de textes avec la méthode des K-plus proches voisins. Notre objectif, dans ce travail, est l’amélioration des performances de cette méthode. Au lieu de faire participer l’ensemble des instances d’apprentissage pour classifier un nouveau document ce qui va augmenter le temps de calcul, l’espace mémoire et le bruit, nous proposons l’utilisation de l’automate cellulaire CASI pour (i) la représentation des données textuelles et (ii) la sélection optimale des instances devant participer dans la classification d’un nouveau document. Cet automate est paramétré par un facteur de sélection qui va permettre, premièrement, d’éliminer toutes les instances pouvant produire du bruit pendant le processus de classification, et deuxièmement, d’assurer la convergence de l’algorithme en un temps de calcul intéressant.

Dans notre deuxième contribution, nous nous intéressons à l’extraction d’information à partir des comptes rendus hospitaliers. Nous proposons l’utilisation de l’automate cellulaire pour extraire le contenu sémantique des comptes rendus médicaux sous forme d’entités nommées. L’automate cellulaire CASI est utilisé dans un premier temps pour (i) représenter les règles d’extraction et dans un deuxième temps pour (ii) localiser et typer (catégoriser) les entités présentes dans le compte rendu hospitalier. Notre motivation à adopter ce principe de la modélisation booléenne pour cette tâche d’extraction est double: d’une part optimiser le stockage et, d’autre part réduire le temps de réponse pour la reconnaissance des entités.

Les performances des deux contributions sont vérifiées à travers des expériences, les résultats obtenus sont encourageants.

Mots clés : fouille de textes, catégorisation de textes, extraction d’information, sélection

des termes, traitement linguistique, représentation vectorielle des données textuelles,

apprentissage automatique, entités nommées, règles d’extraction, automate cellulaire.

Page 3: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

i

Abstract

The thesis is organized around two axes: supervised learning for text categorization and

named entities extraction from medical reports.

The first axis aims to propose a new approach for text classification using K-nearest

neighbours technique; our goal is to improve the performance of that technique. Instead of

involving all training instances to classify a new document which will increase the

computation time, memory space and noise, we propose the use of the cellular automaton

CASI, for (i ) the textual data representation and (ii) the optimal selection of training

instances to be involved in classifying a new document. This automaton is parameterized

by a selection factor that will allow, first, to filter all the instances that can produce noise

during the classification process, and secondly, to ensure the convergence of the algorithm

in an interesting computation time.

The second axis of this thesis is to extract information from clinical reports. We propose

the cellular automaton CASI to extract the semantic content of medical reports in the form

of named entities. The cellular automaton CASI is used initially to (i) represent the named

entities extraction rules and a second time to (ii) categorize entities found in clinical

reports. Our motivation for adopting this principle of Boolean modeling for the extraction

task is twofold: firstly optimize storage and, secondly reduce the response time for the

named entities recognition.

The performance of the two proposed contributions is verified through a set of experiences,

the results are encouraging.

Key words: Text mining, text categorization, information extraction, attributes selection,

vector space model, machine learning, named entities, extraction rules, cellular automaton.

Page 4: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

ii

Remerciements

Je tiens à remercier en tout premier lieu mon directeur de thèse M. Bouziane

Beldjilali qui, depuis ma première année et tout au long de ces quatre années de thèse,

m’a accompagnée, conseillée et surtout, fait confiance.

Un grand merci également à M. Baghdad Atmani pour m’avoir

chaleureusement accueillie dans son équipe et donné l’occasion de réaliser cette thèse. Je

le remercie pour son soutien, sa disponibilité et les nombreuses discussions qui m’ont

permis d’y voir plus clair au sujet de la fouille de données, de l’apprentissage

automatique et, bien sûr, de la machine cellulaire CASI.

Je souhaite remercier M. Fayçal Khelfi pour avoir accepté de faire partie du jury

et de le présider. Je remercie également Mme. Hafida Belbachir, M. Abdelkader

Benyettou et M. Abdelmalek Amine pour m’avoir fait l’honneur d’accepter d’être

examinateurs de ce travail.

Mes remerciements finaux vont à mon mari pour son soutien et sa bonne

humeur, pour son aide, ses conseils et les nombreuses discussions qui m’ont aidé à

surpasser les moments difficiles et continuer jusqu’au bout.

Merci aussi à toi mon enfant pour avoir compris, malgré ton jeune âge, les

impératifs de cette thèse pour moi et pour m’avoir aidée à y arriver.

Enfin, merci à tous ceux qui, de près ou de loin, m’ont encouragé et soutenu tout

au long de ce travail.

.

Page 5: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

iii

Table des matières

Résumé ................................................................................................................................... i Abstract ................................................................................................................................. i Remerciements ..................................................................................................................... ii Table des matières .............................................................................................................. iii Liste des tableaux ................................................................................................................ vi Liste des figures ................................................................................................................. vii Liste des acronymes .......................................................................................................... viii

Introduction Générale Contexte ............................................................................................................................... 1

Contributions ....................................................................................................................... 4

Organisation du manuscrit ................................................................................................... 5 1. Catégorisation de Textes 1.1 Catégorisation de textes : une définition ................................................................ 8

1.2 Applications ........................................................................................................... 9 1.2.1 Indexation des textes en utilisant un vocabulaire contrôlé ................................. 9

1.2.3 Le tri et le filtrage des textes ............................................................................ 10 1.2.3 Catégorisation de pages web ............................................................................ 11

1.3 Architecture d’un système de catégorisation de textes ........................................ 11

1.4 Représentation des textes ..................................................................................... 11 1.4.1 Indexation ......................................................................................................... 12 1.4.2 Réduction de l’espace des termes..................................................................... 16

1.5 Construction du modèle ....................................................................................... 21 1.5.1 Algorithmes probabilistes ................................................................................ 22 1.5.2 Les arbres de décision ...................................................................................... 23 1.5.3 Algorithmes linéaires ....................................................................................... 23 1.5.4 Algorithmes à base d’instances ........................................................................ 24

1.5.5 Les réseaux de neurones ................................................................................... 24 1.5.6 Algorithme de Boosting ................................................................................... 24 1.5.7 Points forts et points faibles ............................................................................. 24

1.6 Évaluation des classifieurs ................................................................................... 26

Page 6: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

1.6.1 Les corpus ........................................................................................................ 26 1.6.2 Les mesures d’évaluation ................................................................................. 27

1.7 Bilan sur la catégorisation de textes ..................................................................... 29 1.8 Conclusion ............................................................................................... ……….31

2. Reconnaissance des entités nommées

2.1. Définition et Objectifs .......................................................................................... 34 2.2. Les conférences MUC .......................................................................................... 35 2.3. Les tâches de l’extraction d’information .............................................................. 36

2.3.1 Reconnaissance des entités nommées .............................................................. 37

2.3.2 Coréférence ...................................................................................................... 37 2.3.3 Attributs ............................................................................................................ 37 2.3.4 Relation ............................................................................................................ 37 2.3.5 Scénario ............................................................................................................ 37

2.4. Reconnaissance des entités nommées : un état des lieux ..................................... 38

2.4.1 Typologie des entités nommées ....................................................................... 38

2.4.2 Applications ..................................................................................................... 40 2.4.3 Approches pour la reconnaissance des EN ...................................................... 41

2.4.4 Mesures d’évaluation ....................................................................................... 43 2.5 Conclusion ............................................................................................................ 43

3. Catégorisation de textes : Automate cellulaire et K-voisins les plus proches

3.1 Algorithme des k plus proches voisins ................................................................. 46

3.1.1 Choix de k ........................................................................................................ 47 3.1.2 Mesure de similarité ......................................................................................... 48 3.1.3 Mise en place de la méthode ............................................................................ 49

3.2 Travaux similaires ................................................................................................ 49 3.2.1 Sélection des instances ..................................................................................... 49 3.2.2 Accélération du temps de recherche des voisins .............................................. 50

3.3 Approche proposée ............................................................................................... 51 3.3.1 Représentation booléenne des instances .......................................................... 53

3.3.2 Sélection des instances ..................................................................................... 56 3.3.3 Classification .................................................................................................... 60

3.4. Études expérimentales et Résultats ..................................................................... 62 3.4.1 Corpus Ling-spam ............................................................................................ 62 3.4.2 Corpus Reuters et 20-NewsGroups .................................................................. 69

3.5. Discussion et Conclusion ..................................................................................... 75

Page 7: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

4. Extraction d’information médicale : CAMNEE

4.1. Travaux similaires ................................................................................................ 77 4.2 Approche cellulaire pour l’extraction des entités nommées ................................ 80

4.2.1 Construction du corpus .................................................................................... 82 4.2.2 Construction des règles .................................................................................... 83 4.2.3 Modélisation booléenne des règles .................................................................. 86

4.2.4 Extraction d’information médicale .................................................................. 89

4.2.5 Anonymisation ................................................................................................. 92 4.2.6 Alimentation de la base de données ................................................................. 93

4.3 Expérimentation et discussion .............................................................................. 94 4.3.1 Corpus: CRH .................................................................................................... 94 4.3.2 Mesures ............................................................................................................ 95 4.3.3 Résultats expérimentaux .................................................................................. 96

4.4 Conclusion ............................................................................................................ 97

Conclusion générale et perspectives 99

Bibliographie 102 Annexes

Annexe A: Machine cellulaire CASI ………………………………………………… …115 Annexe B: Catégories morphosyntaxiques du français .................................................... 120 Annexe C: Quelques diagrammes UML ........................................................................... 121

Page 8: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

vi

Liste des tableaux

Tableau 1.1-Table de contingence pour un terme jt et une classe kc ................................. 18

Tableau 1.2-Algorithmes d'apprentissage supervisé utilisés en CT. .................................... 26

Tableau 1.3-Table de confusion ............................................................................................ 27 Tableau 2.1-Les conférences MUC ...................................................................................... 36 Tableau 3.1-Représentation vectorielle d’un ensemble de six documents ........................... 53

Tableau 3.2-Nouvel encodage des documents d’apprentissage ............................................ 55

Tableau 3.3-Matrices d’entrée et de sortie ............................................................................ 55 Tableau 3.4-Exemple illustratif du processus de sélection des instances ............................. 59

Tableau 3.5-Performance de CA-kNN et kNN avec les meilleures configurations sur LingSpam ...................................................................................................................... 66

Tableau 3.6-Performance de classification de CA-kNN comparé avec SPAMAUT et 3CA-1NB ............................................................................................................................... 68

Tableau 3.7- Comparaison de CA-kNN avec des résultats publiés sur LingSpam. ............. 68

Tableau 3.8-Répartition des catégories dans Reuters 8 ........................................................ 69 Tableau 3.9-Répartition des catégories dans 20NewsGroups .............................................. 70

Tableau 3.10- Résultats de classification de 2191 documents Reuters en fonction du seuil K ...................................................................................................................................... 72

Tableau 3.11- Résultats de classification de 1929 documents de 20NG en fonction du seuil k .................................................................................................................................... 72

Tableau 3.12-Un extrait des résultats de classification pour le corpus Reuters ................... 74

Tableau 4.1-Structure syntaxique des différentes entités présentes dans le CRH ................ 84

Tableau 4.2-Représentation d’un terme ................................................................................ 85 Tableau 4.3-Exemple de quelques entités nommées rencontrées dans le CRH ................... 85

Tableau 4.4-Codage des variables pour la modélisation booléenne des règles .................... 87

Tableau 4.5-Représentation booléenne de (R1, R3) selon le modèle CASI ......................... 89

Tableau 4.6-Résultat de l’analyse morphosyntaxique de «il s’agit de la patiente Aissati Lyla» ............................................................................................................................. 90

Tableau 4.7-Initialisation de CELFACT .............................................................................. 91 Tableau 4.8-Phase de filtrage : Règle R1 est active son ER=1............................................. 92

Tableau 4.9-Exécution des règles actives : exécution de R1 ................................................ 92

Page 9: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

vii

Liste des figures

Figure 1.1-Fonction de Catégorisation de textes .................................................................... 8 Figure 1.2-Les trois paradigmes de la catégorisation de textes .............................................. 9 Figure 1.3-Représentation vectorielle des textes .................................................................. 12 Figure 1.4-Principe de l’extraction des termes ..................................................................... 21 Figure 2.1-Exemples d’entités nommées (MUC-7) .............................................................. 38 Figure 2.2-Typologie des entités nommées .......................................................................... 39 Figure 3.1-Le choix de « k » influence la décision : pour k = 5, la décision est de classer

l’objet «noir» dans la classe « ronds». Pour k = 9, la décision est de le classer en tant que « croix » ................................................................................................................. 48

Figure 3.2-Exemple illustratif pour un problème à deux dimensions. .................................. 51

Figure 3.3-Diagramme de flux du système CA-kNN ........................................................... 52 Figure 3.4-Automate CAIRS pour la représentation et la sélection des instances. .............. 56

Figure 3.5- Réduction des instances d’apprentissage en fonction de la taille du vocabulaire

dans le cas de η=2 ......................................................................................................... 64 Figure 3.6-La mesure F1 en fonction du seuil k et le nombre de termes m ......................... 65

Figure 3.7-L’exactitude en fonction du seuil k et le nombre de termes m ........................... 65

Figure 3.8-La F1-mesure dans le cas de CA-kNN et kNN .................................................. 67

Figure 3.9- L’exactitude dans le cas de CA-kNN et kNN .................................................... 67 Figure 3.10-Le TCR dans le cas de CA-kNN et kNN .......................................................... 67 Figure 3.11-Taux de compression des documents d’apprentissage du corpus Reuters en

fonction de η et du nombre de termes .......................................................................... 74

Figure 3.12-Variation du temps de classification en fonction du seuil K dans le cas du corpus Reuters ............................................................................................................... 74

Figure 3.13-Variation du temps de classification en fonction du seuil k dans le cas du corpus 20NG ................................................................................................................. 74

Figure 4.1- Du texte non structuré vers des informations structurées ................................. 81

Figure 4.2-Architecture du système CAMNEE .................................................................... 82 Figure 4.3-Diagramme de classe UML de la base de données Patients ............................... 94

Figure 4.4-Répartition des différentes entités présentes dans les CRH de test ..................... 95

Figure 4.5-Performance du système CAMNEE ................................................................... 96

Page 10: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

viii

Liste des acronymes 3CA-1NB3 Cellular Automata combined with 1 Naive Bayes classifier BNS Bi-Normal Separation CA-kNN Cellular Automaton Combined with KNN CAIRS Cellular Automaton for Instance Representation and Selection CART Classification And Regression Trees CASI Cellular Automata for System Induction CDFW Class Dependent Feature Weighting CNN Condensed Nearest Neigbour CRH Compte Rendu Hospitalier CT Catégorisation de Textes DF Document Frequency EI Extraction d'Information ENN Edited Nearest Neighbour HMM Hidden Markov Models I2B2 Informatics for Integrating Biology and the Bedside ID3 Iterative Dichotomiser 3 IG Information Gain IR Information retreival kNN k-Nearest Neighbor LLSF Linear Least Squares Fit Mapping LSI Latent Semantic Indexing LVQ Learning Vector Quantization MeSH Medical Subject Headings MI Mutual Information ML Machine Learning MUC Message Understanding Conference QA Question Answering System REN Reconnaissance des Entités Nommées RENN REduced Nearest Neigbour SNN Selective Nearest Neighbour SPAMAUT SPAM detection with cellular AUTomaton SVM Support Vector machine TAL Traitement Automatique du Langage Naturel TF Term Frequency TFIDF Term Frequency Inverse Document Frequency TS Term Strength UMLS Unified medical Language System WKNN Weighted K-Nearest Neighbor algorithm

Page 11: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Introduction GénéraleIntroduction GénéraleIntroduction GénéraleIntroduction Générale

CCCContexte

La surabondance des documents (électroniques, pages web) pose de nouveaux problèmes vis-à-vis de l’utilisateur final (entreprise, organisme, individu, etc.) qui n’est donc plus capable d’analyser ou d’appréhender ces informations dans leur globalité. L’information utile étant enfouie dans le texte, il devient indispensable de proposer de nouveaux systèmes permettant l’analyse, l’organisation et la représentation des différents contenus textuels. La fouille de textes est la solution actuelle au problème de la surcharge informationnelle de type textuel.

Le domaine de la fouille de Textes (Fidelia, 2007) réunit et intègre dans ses applications des méthodes d’extraction d’information, de recherche d’information, de questions-réponses, de résumé automatique, de catégorisation de textes, de classification et de routage de documents textuels ainsi que le recours à des techniques de fouille de données. Dans cette thèse, nous nous intéressons à deux tâches : la catégorisation de textes (CT) et l’extraction d’information (EI).

i. Catégorisation de textes

La Catégorisation de Textes (ou Text Categorization - CT) est une tâche particulière de la fouille de textes (Sebastiani, 2006). Son objectif est d’affecter automatiquement un texte à une catégorie définie au préalable en se basant sur le contenu du texte. C’est une tâche qui remonte au début des années 60 (Manning et al., 2008). En raison de l’augmentation de la disponibilité des documents sous forme numérique et de la nécessité d’y accéder en souplesse, celle-ci a acquis un statut important dans le domaine de la recherche d’information au début des années 90.

La catégorisation de textes est centrale dans de nombreuses applications. Elle intervient dans toutes les applications nécessitant l’organisation de documents ou le

Page 12: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Introduction Générale 2

traitement sélectif comme le filtrage de documents, l’indexation des documents, la réponse à des requêtes sur le Web, etc. (Sebastiani, 2002).

Dans les années 80, l’approche la plus populaire pour la création des classificateurs automatique de documents a consisté à construire manuellement un système expert capable de prendre des décisions de CT (Hayes & Weinstein, 1990). L’inconvénient de cette approche est que les règles doivent être définies manuellement par un ingénieur des connaissances à l’aide d’un expert du domaine. Si l’ensemble des catégories est mis à jour, ces deux professionnels doivent intervenir à nouveau, et si le classificateur est adapté à un tout autre domaine (c’est-à-dire, ensemble de catégories), des experts d’un domaine différent doivent intervenir et le travail doit être repris à partir du début.

Depuis le début des années 90, l’approche apprentissage automatique (ML) pour le besoin de la CT a gagné en popularité et a fini par devenir l’approche dominante. Dans cette approche, un processus inductif (également appelé apprentissage supervisé)

construit automatiquement un classificateur pour une catégorie ic en observant les

caractéristiques d’un ensemble de documents classés manuellement pour ic ou ic 1 par un

expert du domaine. De ces caractéristiques le processus inductif tire les caractéristiques

que doit avoir le nouveau document pour être classé dans la catégorie ic .

La recherche en apprentissage automatique a produit une large gamme d'algorithmes supervisés pour construire des classificateurs. Dans cette thèse nous nous intéressons à l’algorithme des K-plus proches voisins. Ce dernier introduit tout d'abord par Fix et Hodges en 1957 (Fix & Hodges, 1989), est devenu l'un des algorithmes les plus populaires dans la catégorisation de textes. Il est robuste et placé parmi les meilleurs algorithmes. Il a été recommandé auparavant comme une solution très pratique pour la tâche de CT. En 1999, on considérait cet algorithme comme l'une des approches les plus recommandées pour la CT parmi plus de dix approches (Yang, 1999), (Yang & Liu , 1999) et en 2002 Sébastiani le recommandait, puisqu’il est simple et comparable à la meilleure approche SVM (Sebastiani, 2002). En plus de ses bonnes performances, il est très facile à comprendre et à mettre en œuvre.

Toutefois, il présente certaines limites parmi lesquelles nous pouvons citer :

- mémoire immense: il faut stocker l'ensemble complet d’apprentissage;

- coût élevé de calcul: il doit explorer l'ensemble d'apprentissage en entier pour pouvoir classer un nouveau document;

1 Une classe différente de ic

Page 13: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Introduction Générale 3

- et enfin une faible tolérance au bruit, car il considère toutes les instances comme pertinentes même lorsque l'ensemble d'apprentissage est bruité ou non équilibré.

Plusieurs solutions ont été proposées pour remédier à l’un des problèmes su-cités, mais aucune de ces solutions ne permet de résoudre les trois problèmes en même temps.

ii. Extraction d’information

L’extraction d’information est un sujet de recherche important dans le domaine du Traitement Automatique des Langues Naturelles (TAL). Elle connaît ces dernières années un intérêt grandissant car elle répond à un besoin devenu incontournable dans la société de l’information (Nadeau & Sekine, 2007).

L’extraction d’information est le processus qui obtient automatiquement des

informations structurées à partir des documents sous format libre en particulier, l’extraction (ou la reconnaissance) des entités nommées qui à été inventée pour la première fois par la sixième conférence en extraction d’information MUC2-6. Ces informations sont destinées à créer ou alimenter un entrepôt de données. La tâche d’extraction est réalisée grâce au remplissage de formulaires prédéfinis. Ces formulaires sont définis dans le but de représenter la connaissance à rechercher par une structure déterminée à priori. En 1995, la 6ème édition de MUC propose pour la première fois la tâche d'extraction des entités nommées pour l'anglais.

Les entités nommées sont des séquences lexicales qui font référence à une entité

unique et concrète, appartenant à un domaine spécifique (humain, social, politique, économique, géographique,…). Traditionnellement le terme d’entités nommées désigne les noms propres de personnes, d’organisations, de lieux principalement.

Depuis quelques années, la recherche dans ce domaine n’arrête pas d’évoluer et nous avons vu apparaître deux grandes méthodes d’extraction des entités nommées, à savoir la méthode dite à base de règles et la méthode à base d’apprentissage automatique. La majorité des systèmes utilisent la première approche. Elle consiste à définir manuellement des règles linguistiques pour la détection de chaque type d’entités. Ces règles utilisent des marqueurs lexicaux, des dictionnaires de noms propres et des dictionnaires de la langue générale pour repérer et typer les entités nommées (Nadeau & Sekine, 2007). Dans la deuxième approche, les systèmes construisent leurs connaissances automatiquement grâce à un apprentissage sur un corpus d’entrainement.

2 Message Understanding Conference

Page 14: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Introduction Générale 4

Cette approche est particulièrement robuste mais son inconvénient est qu’il faut disposer d’un corpus étiqueté pour entraîner les modèles (Kazama et al. , 2002).

Parmi la variété d’écrits, Nous avons fait le choix d’axer cette étude sur, le domaine médical, en travaillant sur des documents spécifiques, les comptes rendus hospitaliers (CRH).

Notre motivation découle du fait qu’une quantité importante d'information concernant l'histoire médicale des patients se trouve sous forme de comptes rendus médicaux. Nous considérons que ce type texte représente une source de connaissances précieuses qui peut être utilisée dans plusieurs applications comme la recherche d’information, les études épidémiologiques et aussi dans la fouille de données. Mais, le fait que ces comptes rendus se présentent sous forme de textes en langage libre, empêche l'accès direct à ces informations. Ainsi, un système efficace pour extraire des informations sous forme structurées peut enrichir ces applications. En effet, ce travail se base sur l’hypothèse que les CRH rédigés en langue naturelle sont riches d’information et peuvent être exploités par des algorithmes d’analyse de textes. La finalité de ce travail est de mettre en place un outil capable d’extraire toutes les informations sur les patients et les stocker dans une base de données. L’originalité du travail est que cet outil repose sur une nouvelle technique de représentation des connaissances et d’extraction d’information.

CCCContributions

Nos principales contributions s’articulent autour des deux axes suscités: la catégorisation de textes par apprentissage supervisé et l’extraction d’information à partir des comptes rendus hospitaliers.

Dans le premier axe, nous proposons une nouvelle approche de classification de textes (Barigou et al. , 2012d). Nous améliorons les performances de la technique des K-plus proches voisins en introduisant la sélection des instances pertinentes. Au lieu de faire participer l’ensemble des instances d’apprentissage dans la classification d’un nouveau document qui entraînera une augmentation du temps de calcul, de l’espace mémoire et du bruit, nous proposons l’utilisation de l’automate cellulaire CASI (Atmani & Beldjilali, 2007) pour (i) la représentation des données textuelles et (ii) la sélection optimale des instances devant participer dans la classification du nouveau document. Ce filtrage d’instance repose sur le paramétrage de l’automate par un facteur de sélection qui va permettre, premièrement, de filtrer toutes les instances pouvant produire du bruit pendant le processus de classification, et deuxièmement, d’assurer la convergence de l’algorithme en un temps de calcul intéressant.

Page 15: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Introduction Générale 5

Dans le second axe de cette thèse, nous nous intéressons à la reconnaissance des entités nommées dans les comptes rendus hospitaliers. Nous proposons cette fois-ci l’utilisation de l’automate cellulaire CASI pour extraire le contenu sémantique des comptes rendus médicaux sous forme d’un ensemble d’entités nommées (Barigou et al. , 2012e). L’originalité du travail provient du fait que l’automate cellulaire CASI est utilisé dans un premier temps pour (i) représenter les règles d’extraction et dans un deuxième temps pour (ii) localiser et typer (catégoriser) les entités. Notre motivation à adopter ce principe de modélisation booléenne pour cette tâche d’extraction est double : d’une part optimiser le stockage et, d’autre part réduire le temps de réponse pour la recherche de la classe des entités.

OOOOrganisation du manuscrit

Ce manuscrit est composé de quatre chapitres, ordonnés selon notre démarche d'analyse, comme la montre la figure ci-après (Figure 1).

Chapitre 1

Catégorisation de textes (CT)

Applications Définition Architecture Représentation des textes Apprentissage supervisé Evaluation

Chapitre 2 Reconnaissance des entités

nommées (REN)

Définition et objectifs Conférence MUC Tâches de l’EI Reconnaissance des EN Approches Evaluation

Algorithme des K-ppv Travaux similaires Approche proposée Expérimentation Discussion des résultats

Chapitre 3 CA-kNN : Automate cellulaire

et K-plus proches voisins

Chapitre 4 CAMNEE : Extraction

d’information médicale

Travaux similaires Approche proposée Expérimentation Discussion des résultats

Conclusion générale et

perspectives

Annexe A: Automate cellulaire CASI

Annexe B: catégories morphosysntaxiques

Annexe C : Quelques diagrammes UML

Figure 1- Organisation du manuscrit

Page 16: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Introduction Générale 6

Le chapitre 1 s’applique à présenter un « état des lieux » de la tâche de la catégorisation de textes. Nous nous concentrerons sur les techniques de classification de textes et sur l’apprentissage automatique. Une des techniques est utilisée dans le système développé. Nous décrirons aussi la représentation du corpus documentaire et donc le prétraitement, l’indexation et la numérisation du corpus. Nous poursuivons ce chapitre par l’évaluation des systèmes de CT et nous clôturons ce chapitre avec une synthèse sur cette tâche de catégorisation de textes.

Pour poursuivre cet état de l’art, le chapitre 2 traite du problème de l’extraction d’information et plus spécifiquement la reconnaissance des entités nommées. Au cours de ce chapitre, nous examinons les origines, l’évolution de ce concept ainsi que ses objectifs et ses différents besoins.

Le chapitre 3 présente de façon détaillée l’approche proposée pour l’amélioration de l’algorithme des K-plus proches voisins dans le cadre de la catégorisation de textes, et expose la méthodologie ainsi que les différentes expérimentations réalisées pour évaluer cette approche. Nous poursuivons ce chapitre d’une discussion des différents résultats obtenus.

Le chapitre 4 présente notre deuxième contribution dans cette thèse, il expose la méthode proposée pour l’extraction des entités nommées dans les comptes rendus hospitaliers et décrit la contribution de l’automate cellulaire CASI dans la représentation des connaissances et l’extraction des entités. Ce chapitre expose en détail les différentes étapes que nous avons dû accomplir pour mener à bien ce travail, de la constitution de la base des données, son nettoyage, les phases de construction des règles et leur modélisation booléenne et les résultats d’expérimentation.

Enfin, nous conclurons cette thèse par un bilan des résultats obtenus, et par une présentation des perspectives de recherches qu’ouvrent nos travaux.

Une première annexe (A) décrit le principe de fonctionnement de l’automate cellulaire CASI (Atmani & Beldjilali, 2007).

Une deuxième annexe (B) donne la liste des catégories morpho-syntaxiques utilisées par l’outil TreeTagger.

Une troisième annexe (C) présente quelques diagrammes UML relatifs à l’étude présentée dans le chapitre 3.

Page 17: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

1111.... Catégorisation de TextesCatégorisation de TextesCatégorisation de TextesCatégorisation de Textes

La Catégorisation de Textes (ou Text Categorization - CT), consiste à classer de

manière automatisée des documents suivant certains critères (le thème du texte, son style, …). Elle connaît depuis une dizaine d’années un fort regain d’intérêt. Cela est dû essentiellement à la forte croissance des documents numériques disponibles et à la nécessité de les organiser de façon rapide. C’est une discipline assez ancienne, datant des années 60 (Manning et al., 2008) et qui a connu des progrès considérables à partir des années 90 avec l’apparition d’algorithmes d’apprentissage automatique. La catégorisation de textes est appliquée dans toutes les tâches nécessitant l’organisation de documents ou le traitement sélectif comme le filtrage de documents, l’indexation des documents, etc. (Niharika et al., 2012), (Sebastiani, 2002).

P our (Sebastiani, 2002), la recherche en catégorisation de textes a été encouragée

par l'entrée, ces dernières années, de la communauté d'apprentissage automatique dans ce domaine. L’avantage de la CT pour ces méthodes est qu'il existe souvent un corpus d'apprentissage contenant des textes déjà classés. En effet, la CT s'inscrit dans un processus d'automatisation d'une tâche récemment effectuée manuellement. C'est typiquement le cas où un expert a déjà élaboré les catégories, a indexé et classé quelques documents. Le besoin d'automatiser cette tâche vient avec la surabondance des textes entrants. Une deuxième raison qui explique l'entrée de la communauté d'apprentissage automatique est la nécessité de confronter leurs algorithmes à des données du monde réel, ce qui permet, en cas de succès, de proposer des solutions industrielles.

Page 18: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 8

Dans ce chapitre introductif, nous présentons le concept de la catégorisation de

textes, ses applications et rappelons brièvement le processus de CT.

1.1 Catégorisation de textes : une définition Formellement, la tâche de catégorisation de textes peut être définie comme étant

la tâche d'approximer une fonction F : inconnue d'affectation de catégories

: {0,1}F D C× → par le biais d’une fonction : {0,1}M D C× → où 1 2{ , , , }D

D d d d= L

est l'ensemble de tous les documents possibles et 1 2{ , , , }C

C c c c= L est l'ensemble de

catégories prédéfinies. La valeur de ( , )i kF d c vaut 1 si le document id appartient à la

catégorie kc et 0 sinon.

D

d1

d2

d3

.

.

.

C

c1

c2

c3

.

.

.

M

Documents Catégories

Catégorisation

Figure 1.1- Fonction de Catégorisation de textes

La fonction M est appelée un classificateur (ou classifieur), et la tâche de la CT consiste à construire un classificateur qui produit des résultats aussi «proches» que possible que la vraie fonction d'affectation F.

Nous pouvons distinguer trois types de catégorisation de textes (Figure 1.2):

• Catégorisation binaire: ce type de catégorisation correspond au filtrage, elle permet, par exemple, de répondre aux questions suivantes : « le document est pertinent ou non? », « le courriel est un spam ou non »? • Catégorisation multi catégories: c’est le cas le plus général de la catégorisation à n classes. Le système doit affecter 0, 1 ou plusieurs catégories à un même

Page 19: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 9

document. Ce type de catégorisation correspond par exemple au problème d’affectation automatique des codes CIM3 aux comptes rendus médicaux.

• Catégorisation multi catégories disjointes : c’est une catégorisation à n classes mais le document doit être affecté à une et une seule catégorie. On trouve ce type de catégorisation, par exemple, dans le routage de courriels.

Document

Classifieur binaire

Classifieur Multi-catégories

disjointes

Classifieur Multi-catégories

Oui Non C 1 C j C n … … C 1 Cj C n

… …

Document

Classifieur binaire

Classifieur Multi-catégories

disjointes

Classifieur Multi-catégories

Oui Non C 1 C j C n … … C 1 Cj C n

… …

Figure 1.2- Les trois paradigmes de la catégorisation de textes

1.2 Applications L'étude de la catégorisation automatique de textes remonte au début des années 1960.

Son utilisation principale était prévue pour l'indexation de la littérature scientifique par le biais d’un vocabulaire contrôlé (Maron, 1961). Aujourd'hui la CT est appliqué dans une variété de contextes - de l'indexation classique (automatique ou semi-automatique) des textes au filtrage des spam (Wei et al., 2008), la catégorisation des pages Web dans des catalogues hiérarchiques (Johannes et al. , 1998), la détection des genres de textes (Poudat, 2006), (Thompson, 2001), et bien d'autres…

Nous abordons trois applications courantes de la CT : l'indexation de textes, le tri et le filtrage de textes, et la catégorisation de pages Web. Ce ne sont qu'un petit ensemble d'applications possibles, mais ils témoignent de la diversité du domaine et de la variété des tâches de la CT.

1.2.1 Indexation des textes en utilisant un vocabulaire contrôlé Les premières applications de recherches dans le domaine de la CT étaient

l'indexation de textes pour les systèmes de recherche d’information booléens (IR), chaque document dans une grande collection se voit attribuer un ou plusieurs termes clés décrivant 3 Classification Internationale des maladies

Page 20: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 10

son contenu. Ensuite, le système IR est capable de récupérer les documents en fonction des requêtes des utilisateurs, qui sont fondées sur les termes clés. Les mots-clés appartiennent tous à un ensemble fini appelé vocabulaire contrôlé, qui est souvent un thésaurus hiérarchique par exemple le thésaurus de NASA4 pour l'aéronautique ou le thésaurus MESH5 pour la médecine.

La tâche d'assigner des mots-clés à partir d'un vocabulaire contrôlé aux documents est appelé indexation de textes. Si les mots-clés sont considérés comme des catégories donc l'indexation de textes est une instance du problème général de la CT et peut être traitée par les techniques automatiques décrits dans ce chapitre. En règle générale, chaque document doit recevoir au moins un, et pas plus de k, mots-clés. En outre, la tâche peut être résolue soit de manière entièrement automatique ou semi-automatique, dans ce cas, l'utilisateur sélectionne un ensemble de mots clés à partir d'une liste classée fournie par un système de CT.

1.2.2 Le tri et le filtrage des textes Un autre problème commun connexe mais distinct de l'indexation des documents est

le tri de la collection de documents en plusieurs "catégories". Par exemple, les courriers électroniques arrivant dans une organisation, peuvent nécessiter d’être classées dans des catégories telles que « les plaintes », « les offres », « les demandes d'emploi», et d'autres. Le problème de tri des documents a plusieurs caractéristiques qui le distinguent des tâches connexes. La principale différence est que chaque document appartient à exactement une seule catégorie. D’autres caractéristiques typiques peuvent être considérées comme le nombre relativement petit de catégories et la nature "en ligne" de la tâche. Les documents à trier sont généralement présentés au classificateur, un par un et non dans un même lot.

L'activité de filtrage de textes peut être considérée comme le tri de documents avec seulement deux catégories - les documents «pertinents» et «non pertinents». Un cas typique est une situation dans laquelle le producteur est une agence de presse et le consommateur est un journal (Hayes et al., 1990). Dans ce cas, le système de filtrage doit empêcher la livraison de documents qui n’intéressent pas le consommateur. De même, un magazine en ligne spécialisé dans le sport devrait filtrer toutes les histoires non sport qu'il reçoit. Aussi un système de filtrage de courriers électroniques doit détecter tous les spam. Un système personnalisé de gestion d’annonces devrait bloquer les annonces qui sont inintéressantes pour un utilisateur particulier. Le filtrage apparaît donc comme une version plus ciblée de la CT.

4 http://www.sti.nasa.gov/sti-tools/#mai 5 http://mesh.inserm.fr/mesh/

Page 21: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 11

1.2.3 Catégorisation de pages Web Une utilisation courante de la CT est la classification automatique des pages Web

dans le cadre des catalogues hiérarchiques élaborés par des portails Internet populaires tels que Yahoo. Ces catalogues sont très utiles pour la navigation directe et pour limiter la recherche sur des pages appartenant à un sujet particulier.

1.3 Architecture d’un système de catégorisation de textes Comme beaucoup d'autres tâches d’intelligence artificielle, il existe deux approches

principales pour la catégorisation de textes. La première est l'approche d'ingénierie de connaissances dans laquelle la connaissance de l'expert sur les catégories est directement encodée dans le système de façon procédurale ou sous forme déclarative des règles de classification. Le résultat le plus célèbre est celui obtenu avec le projet CONSTRUE, développé par le Carnegie Group, dont les résultats obtenaient environ 90% de précision et de rappel sur le corpus Reuters (Hayes and Weinstein, 1990). Cette méthode posait cependant deux problèmes, le temps de génération des règles et leur incapacité à produire de nouvelles classes.

L'autre méthode est l’approche apprentissage machine (ML) dans laquelle un processus général d'induction construit un classificateur par apprentissage à partir d'un ensemble d'exemples déjà étiquetés. La plupart des travaux récents sur la catégorisation se concentrent sur l'approche ML, qui exige seulement un ensemble d'instances d’entraînement manuellement classifiés et qui sont beaucoup moins coûteux à produire.

Dans cette thèse, nous nous intéressons à la deuxième approche. Nous portons une attention particulière aux algorithmes et aux travaux mettant en œuvre cette approche (Harish et al., 2010). Dans les sections qui vont suivre (1.4, 1.5 et 1.6) nous allons décrire les différentes composantes qui interviennent dans un système de catégorisation de textes à base d’apprentissage supervisé.

Trois grandes briques constituent le processus de CT :

- Représentation numérique des documents.

- Construction du système de classification.

- Évaluation du classifieur élaboré.

1.4 Représentation des textes Les textes en langage naturel ne peuvent pas être directement interprétés par un

classifieur ou par les algorithmes de classification. Ces derniers ne sont pas capables de traiter directement ces textes. Ainsi une étape de représentation numérique est nécessaire.

Page 22: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 12

La représentation mathématique généralement utilisée est l’utilisation d’un espace vectoriel comme espace de représentation cible. La caractéristique principale de cette représentation est que chaque unité linguistique6 (appelée par la suite terme) est associée à une dimension propre au sein de l’espace vectoriel. Deux documents utilisant les mêmes segments textuels seront donc projetés sur des vecteurs identiques. Ce formalisme qui est le plus utilisé pour représenter les textes est le formalisme vectoriel de Salton (Salton, 1971), (Salton et al., 1975).

1t 2t …

jt … T

t

d1 d2 d3 … di …

Dd

DDDD

wij

Poids du terme t j dans le document di

TTTT = {Termes d’index}

Figure 1.3-Représentation vectorielle des textes

On transforme un document id en un vecteur 1 2( , , )di ii i Tw w w=

uur

L où T est un

ensemble de termes sélectionnés pendant l’indexation (§1.4.1). Le poids ijw correspond à

la contribution du terme jt à la sémantique du texte id . Il faut signaler que cette

représentation par vecteur peut entraîner une perte d'information, notamment celle relative à la position des mots dans le document.

La vectorisation d’un ensemble de documents crée une matrice documents×termes (voir Figure 1.3) où chaque cellule représente la fréquence d’apparition d’un terme dans un document textuel. Cette matrice peut être très volumineuse. C’est pourquoi, des mécanismes de réduction (§1.4.2) s’avèrent indispensables afin de réduire la complexité de l’index.

1.4.1 Indexation L’indexation permet d’associer à chaque document textuel un certain nombre de

repères qui permettent ensuite à des outils informatiques de retrouver l’information ainsi indexée. Deux approches différentes sont représentatives des différents courants de l’indexation.

6 Peut être le mot tel qu’il est présent dans le texte, son lemme, sa racine, son concept ou autre.

Page 23: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 13

- L’indexation manuelle par la formalisation ou la discrétisation de l’information, dont la principale caractéristique est de tenter de conceptualiser l’information au moyen d’un processus humain. Elle consiste à demander à un opérateur spécialisé ou non, de représenter un document textuel ou un extrait de texte, dans une forme exploitable informatiquement. Un exemple d’indexation manuelle est proposée dans (Crampes et al., 2000) qui propose de fonder celle-ci sur une ontologie du domaine d’étude ;

- L’indexation automatique, qui est fondée sur les techniques de fouille de textes, dont la principale caractéristique est de tenter d’automatiser le processus d’indexation. Elle a pour but de représenter la connaissance tout en conservant toutes les nuances et toutes les subtilités que peut exprimer le langage naturel sans perte d’information et de connaissance. L’indexation automatique qui doit permettre à l’opérateur de s’affranchir d’une tâche manuelle d’indexation, comporte deux étapes :

- Définir un modèle de représentation de documents. Différents modèles existent. La plupart des modèles qui nous intéressent sont des modèles vectoriels. En général ces modèles sont fondés sur des mots clés ;

- Représentation du document par son modèle.

L’indexation a besoin d’une base de documents textuels. Pour cela, on peut soit utiliser un corpus existant, soit en constituer un ad hoc. Ensuite, Il faut choisir les termes appelés aussi descripteurs en recherche d’information du document. Ces derniers représentent l'information atomique d'un document; comme le souligne (Laporte, 2000) ils sont censés indiquer de quoi parle le document.

1.4.1.1 Choix des termes

Habituellement, les termes retenus pour l’indexation des documents peuvent être :

- Les mots du document : toute chaîne de caractères comprise entre deux séparateurs.

- Les racines des documents. Dans ce cas, on parlera de racinisation. Ce procédé consiste à ne conserver que la racine de chaque mot en retirant les suffixes. Il existe plusieurs algorithmes de désuffixation, les plus célèbres d'entre eux étant (Porter, 1980) et (Lovins, 1968).

- Les lemmes : un processus appelé lemmatisation consiste à retrouver le mot à l'origine de celui qui est cherché. La lemmatisation est donc plus compliquée à mettre en œuvre que la recherche des racines, puisqu'elle nécessite une analyse

Page 24: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 14

grammaticale des textes. Un algorithme efficace, nommé TreeTagger7 (Schmid, 1994) a été développé pour les langues anglaise, française, allemande et italienne. Cet algorithme utilise les arbres de décision pour effectuer l'analyse grammaticale, avec des fichiers de paramètres spécifiques à chaque langue.

- Les concepts: il s'agit d'expressions (pouvant contenir un ou plusieurs mots).

Dans le domaine médical, on peut utiliser les ontologies. Cette liste de concepts sera le plus souvent décrite dans un thésaurus.

- Les N-grammes de caractères : il s’agit d’une chaîne de n caractères

consécutifs. La notion de N-grammes a été introduite pour la première fois en 1948 par (Shannon, 1948) ; il s'intéressait à la prédiction d'apparition de certains caractères en fonction des autres caractères. Depuis cette date, les N-grammes sont utilisés dans plusieurs domaines comme l'identification de la parole, la recherche documentaire, etc. (Jalam & Teytaut, 2001). Dans les recherches récentes, elle est utilisée pour l’acquisition et l’extraction des connaissances dans les corpus. De nombreux travaux (Rahmoun & Elberrichi, 2007) (Fürnkranz, 1998) utilisent les N-grammes de caractères comme méthode de représentation de documents pour la classification.

- Les Groupes de mots : Certains auteurs proposent d'utiliser les groupes de

mots comme unité de représentation (Fuhr et al., 1991), (Tzeras & Hartmann, 1993). Les groupes de mots sont plus informatifs que les mots simples, car ils ont l'avantage de conserver l'information relative à la position du mot dans le groupe de mots (Johannes et al., 1998), (Fernanda et al., 2000). Par exemple «recherche d’information», «world wide web», ont un degré plus petit d'ambiguïté que les mots constitutifs. Normalement, une telle représentation doit décrocher des résultats plus performants que la précédente (sac de mots), mais Lewis a constaté que cette représentation n’a pas pu améliorer son système de catégorisation (Lewis, 1991), (Lewis, 1992). Il signale que beaucoup d'expériences ne sont pas convaincantes car, il explique que, si les qualités sémantiques sont conservées, les qualités statistiques sont largement dégradées et le grand nombre de combinaisons possibles entraîne des fréquences faibles et trop aléatoires. Les auteurs dans (Fernanda et al., 2000) proposent d'utiliser les groupes de mots statistiques8 comme unités de représentation en opposition aux groupes de mots grammaticaux. Les résultats étaient meilleurs.

7 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ 8 Un groupe de mots statistique est un ensemble de mots contigus pas nécessairement ordonnés qui

apparaissent ensemble mais qui ne respectent pas forcement les règles grammaticales.

Page 25: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 15

Il faut noter qu’avant d’effectuer un des prétraitements précédents, il est usuel d’utiliser une "stoplist" pour éliminer tous les mots qui ne participent pas activement au sens du document. Elle contient les pronoms, les articles et les mots trop fréquents pour être discriminants, nous éliminons donc toutes les unités linguistiques non discriminantes.

1.4.1.2 Pondération des descripteurs

Une fois que l'on choisit les termes ou descripteurs du vecteur représentant chaque

document id de D, il faut décider de la façon d'associer un poids à chaque coordonnée de

son vecteur idur

. Plusieurs solutions ont été proposées pour coder les composantes de ces

vecteurs, c’est-à-dire attribuer un poids ijw à chaque descripteur. Ces méthodes sont basées

sur les informations suivantes (Salton & Buckley, 1988):

- Plus le terme jt est fréquent dans un documentid , plus il est en rapport avec le

sujet de ce texte;

- Plus le terme jt est fréquent dans la collection, moins il sera utilisé comme

discriminant entre textes.

Pondération booléenne : C’est la plus simple, le poids ijw vaut 1 si le terme jt

apparaît au moins une fois dans le document id , sinon il vaut 0.

Pondération fréquentielle : Elle prend en compte le nombre d'occurrences d'un terme dans un texte. Cette mesure repose sur l'idée que plus un terme apparaît dans un texte, plus il est important. Une telle présentation est généralement normalisée afin d’éviter de défavoriser les documents les plus longs, contenant ainsi plus de termes. La fréquence du terme jt dans le texte id peut être calculée par la formule suivante:

1,

#( , )( , )

#( , )j i

j ik ik T

t dTF t d

t d=

=∑

(1.1)

#( , )j it d correspond au nombre d'occurrences du terme jt dans id . Et T le nombre de

termes retenu pour la représentation.

Pondération TFIDF : elle a été introduite dans le cadre du modèle vectoriel, elle donne beaucoup d'importance aux mots qui appariassent souvent à l'intérieur du même texte, ce qui correspond bien à l'idée intuitive que ces mots sont plus représentatifs. Mais sa particularité est qu'elle donne également moins de poids aux mots qui appartiennent à plusieurs textes; pour refléter le fait que ces mots ont un faible pouvoir de discrimination entre les classes. Cette pondération issue du domaine

Page 26: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 16

de la recherche d’informations tire son inspiration de la loi de Zipf9 introduisant le fait que les termes les plus informatifs d’un corpus ne sont pas ceux apparaissant le plus dans ce corpus. Ces mots sont la plupart du temps des mots outils. Par ailleurs, les mots les moins fréquents du corpus ne sont également par les plus porteurs d’informations (Sebastiani, 2002), (Béchet, 2009). Le poids d'un terme jt dans un

document id est calculé comme suit :

( , ) ( , ) log( )j i j i

j

NTFIDF t d TF t d

DF t= × (1.2)

( , )TF t dj i correspond à la fréquence du terme t j dans le document id ; N le nombre

total des documents d’apprentissage et ( )DF t j le nombre de documents contenant le

terme t j .

La fonction TFIDF a démontré une bonne efficacité dans des tâches de catégorisation de textes, et, en plus, son calcul est simple (Sebastiani, 2006). Ce codage ne corrige pas la longueur des documents. Pour ce faire, le TFIDF est normalisé. On corrige les longueurs des textes par la normalisation en cosinus, pour ne pas favoriser les documents les plus longs :

2

1

( , )( , )

( ( , ))

j ij i

T

k ik

TFIDF t dTFC t d

TFIDF t d=

=

; (1.3)

Avec T l’ensemble des termes d’index.

1.4.2 Réduction de l’espace des termes La réduction de la dimension se pose comme une étape primordiale dans le processus

de prétraitement des données (filtrage, nettoyage, élimination des points aberrants, etc.). En effet, pour des données appartenant à un espace de grande dimension, certains termes n’apportent aucune information voire expriment du bruit, d’autres sont redondants ou corrélés. Ceci rend les algorithmes de décision complexes, inefficaces, moins généralisables et d’interprétation délicate.

Il est alors nécessaire de procéder à une étape de réduction de la dimension de l’espace des termes d’entrée. Cette réduction de dimension permet de rendre l’ensemble des données textuelles plus représentatif du problème, de réduire l’espace de stockage

9 La loi de Zipf est une observation empirique concernant la fréquence des mots dans un texte. Elle a pris le nom de son

auteur, George Kingsley Zipf (1902-1950)

Page 27: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 17

nécessaire pour ces données, ainsi que le temps d’apprentissage et d’exploitation des algorithmes de décision.

Les méthodes de réduction de la dimension peuvent être divisées en deux grandes catégories : l’extraction d’attributs et la sélection d’attributs.

- La sélection d’attributs (ou filtrage) prend les termes d’origine et conserve seulement ceux jugés utiles à la classification, selon une certaine fonction d’évaluation. Les autres sont rejetés.

- L’extraction d’attributs (ou transformation) à partir des termes de départ, cette méthode crée de nouveaux attributs, en faisant soit des regroupements soit des transformations.

1.4.2.1 Sélection des termes

Quel que soit le modèle d’apprentissage utilisé, la problématique de sélection de termes se pose, car, avec la représentation vectorielle, chacun des mots d’un corpus de documents est un descripteur potentiel. Or pour un corpus de taille raisonnable, ce nombre peut être de plusieurs centaines de milliers. En général, il est admis que les mots les plus fréquents peuvent être supprimés; ils n’apportent pas d’information sur le sens d’un texte puisqu’ils sont présents sur l’ensemble des textes. Les mots très rares, qui n’apparaissent qu’une ou deux fois sur un corpus, sont également supprimés, car il n’est pas possible de construire de statistiques fiables à partir d’une ou deux occurrences. Cependant, même après la suppression de ces deux catégories de mots, le nombre de candidats reste encore très élevé, et il est nécessaire d’utiliser une méthode de sélection pour déterminer les mots utiles pour la discrimination entre documents pertinents et documents non pertinents.

L'intérêt de la sélection de termes est triple. D'une part, elle permet d'écarter les termes non pertinents d'un point de vue statistique. D'autre part, elle permet d'éviter le sur apprentissage (Delany et al., 2005). Enfin, elle permet d'améliorer l'efficacité des algorithmes d'apprentissage ayant des difficultés à gérer un espace de représentation important.

Nous distinguons dans la littérature trois approches de sélection:

- Les approches statistiques - Les approches utilisant des informations morphosyntaxiques

- Les approches utilisant des connaissances externes

Page 28: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 18

A. Approches statistiques

La sélection statistique de termes est le type d’approche le plus répandu. Elle consiste à employer des mesures statistiques afin de donner un score de qualité à un descripteur. Ainsi, seuls les m premiers descripteurs seront conservés afin de décrire le corpus. Parmi les méthodes statistiques les plus souvent utilisées figurent le calcul de l’information mutuelle, le gain informationnel (Lewis, 1992), (Moulinier & Ganascia, 1996) (Dumais et al., 1998), la méthode du chi-2 (Weiner et al., 1995) ou des méthodes plus simples utilisant uniquement les fréquences d’apparition (Yang & Pedersen, 1997).

Afin de définir de telles méthodes, nous procédons sur la base d’une table de

contingence pour chaque couple ( , )j kt c dont un exemple est donné dans le Tableau 1.1.

Dans ce dernier, la valeur A indique le nombre d’assignation du terme jt à la catégorie kc .

Si l’on considère toutes les autres catégories (ensemble désigné par kc ), le terme jt apparaît

C fois. Sur l’ensemble, le terme jt apparaît donc A+C fois. Le nombre B indique le nombre

d’instances de la catégorie kc qui ne possèdent pas le terme jt . La valeur A+B indique le

nombre de documents appartenant à la catégorie kc .

terme jt autres termesjt total

kc A B A+B

kc C D C+D

A+C B+D N

Tableau 1.1 -Table de contingence pour un terme jt et une classe kc

Basé sur le Tableau 1.1, plusieurs mesures peuvent être calculées :

- La fréquence des documents (DF : Document Frequency) : représente le nombre

de documents dans le corpus d’apprentissage dans lesquels un terme jt se

produit. La réduction des termes dans cette approche consiste à éliminer les termes dont la fréquence DF est en dessous d’un certain seuil (ou au dessus). L’idée sous-jacente est que ces mots n’apportent pas d’information utile à la prédiction de la catégorie d’un document ou qu’ils n’influencent pas la performance globale du classifieur.

( )jDF t A C= + (1.4)

- Le gain d'information (IG : Information Gain) : l'objectif principal de cette méthode est de mesurer le pouvoir de discrimination d'un terme. Elle mesure la

Page 29: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 19

quantité d'information obtenue pour la prédiction de la catégorie en sachant la présence ou l'absence d'un terme dans le document. Les termes dont la valeur IG est inférieure à un seuil prédéterminé sont supprimés de l'espace vectoriel. Cette métrique est calculée selon la formule suivante :

{ , ) { , }

( , )( , ) ( , ) log

( ) ( )j kc c c x t tj jk k

P x cIG t c P x c

P x P c∈ ∈=

×∑ (1.5)

( , ) log log log log( )( ) ( )( ) ( )( ) ( )( )

A A C C B B D Dt cj k

N A C A B N A C C D N B D A B N B D C DIG = + + +

+ + + + + + + +

- L'information Mutuelle (MI : Mutual Information) : c'est une méthode basée sur le nombre de fois qu'un terme apparait dans une certaine catégorie, plus la catégorie apparaitra sans le mot, moins son MI sera élevée. Sa faiblesse est qu'elle est très influencée par la fréquence des mots. Elle est mesurée avec la formule suivante :

( , )( , ) log log

( ) ( ) ( )( )j k

j kj k

P t c AMI t c

P t P c A C A B= =

× + + (1.6)

- La méthode statistique (CHI-2 ou2χ ) : elle mesure le degré d'indépendance entre

le terme jt et la catégorie kc . Elle est calculée avec la formule suivante :

2

2 ( )( , )

( )( )( )( )j k

N AD BCt c

A C B D A B C Dχ −=

+ + + + (1.7)

Il existe de nombreuses autres mesures statistiques permettant la sélection de termes comme la force de l’attribut (TS), les mesures d’entropies, etc. décrites par exemple dans (Mitchell, 1997). Notre objectif est de présenter dans cette section des approches issues de différents domaines sans être nécessairement exhaustif.

En appliquant l’une des fonctions décrites ci-dessus, nous obtenons une valeur

d’utilité locale, notée ( , )j kf t c pour chaque terme jt et catégorie kc . En présence d’une

catégorisation binaire cette fonction suffit pour définir une valeur sélective à chaque terme. En règle générale, nous devons faire face à un nombre plus élevé de catégorie (|C|>2). Afin de comparer de manière globale les termes entre eux, nous devons agréger

les valeurs locales sur l’ensemble des C catégories. Pour définir de telle valeur d’utilité

globale d’un terme jt (notée ( )jS t ), on peut calculer le maximum sur toutes les

Page 30: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 20

catégories ou la somme pondérée (en fonction de l’importance de chaque catégorie) comme l’indique les équations 1.8 et 1.9.

( ) ( , )j k j kS t Max f t c= (1.8)

1

( ) ( ) ( , )C

j k j kk

S t P c f t c=

=∑ (1.9)

B. Approches utilisant des informations morphosyntaxiques

D’autres types de méthodes permettent également de sélectionner des descripteurs ; ces dernières utilisent des informations morphosyntaxiques telles que la catégorie morpho-lexicale du terme pour ne garder que ceux susceptibles de décrire un concept donné.

Les auteurs dans (Poudat et al., 2006) se fondent sur l’utilisation de descripteurs morphosyntaxiques comme les substantifs, les abréviations ou encore des acronymes, etc. Leurs expérimentations ont montré la qualité de ces descripteurs. D’autres travaux de la littérature comme ceux de (Kohomban & Lee, 2007) montrent également que les noms sont des descripteurs de qualité. Citons également le travail de (Benamara et al., 2007) qui montre que les adjectifs et parfois les adverbes sont assez adaptés aux données d’opinions.

C. Approches utilisant des connaissances externes

Une dernière méthode de sélection de descripteurs se focalise sur l’utilisation de ressources sémantiques. Elle consiste à ne retenir que certains termes propres à un domaine en utilisant les thésaurus ou les ontologies. Il existe un grand nombre de modèles de connaissances pouvant permettre de sélectionner des termes comme la ressource WordNet10

visant à décrire l’anglais. Citons aussi la ressource terminologique européenne IATE11

également très employée.

1.4.2.2 Extraction des termes

Une autre approche, qui n'est pas incompatible avec la sélection des termes, est la transformation des termes également appelée l'extraction des termes. Comme indiqué dans la Figure 1.4, Ce processus consiste à créer à partir des termes originaux un sous ensemble de termes synthétiques qui maximise l’efficacité de la classification et qui élimine les problèmes liés aux synonymies, homonymies, et polysémie. Pour cela, des techniques de regroupement (ou clustering) comme les méthodes proposées par (McCallum et al., 1998),

10 wordnet.princeton.edu 11 http ://iate.europa.eu

Page 31: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 21

(Dhillon & Modha, 2001) et l'indexation sémantique latente (LSI) sont des solutions dans ce sens.

Figure 1.4-Principe de l’extraction des termes

Le regroupement d’attributs (en anglais, «term clustering »), testé par (Lewis, 1992) et présenté en détail dans (Sebastiani, 2002), permet de regrouper plusieurs termes pour former un nouvel attribut. Chaque attribut est sensé représenter un concept sémantique. Le fait que plusieurs termes puissent activer un même concept permet de gérer la synonymie. La polysémie des mots est également prise en compte en permettant à un terme d’apparaître dans plusieurs groupes.

La méthode LSI originalement proposé par (Deerwester et al., 1990), est considérée comme une technique d’extraction d’attributs. Au départ, elle a été conçue et utilisée dans le domaine de la recherche d’information pour résoudre les problèmes provenant des mots synonymiques, homonymiques, et polysémiques. L’idée générale de cette approche est la

décomposition en valeur singulière de la matrice documents×termes (§1.4). Cette décomposition consiste à changer la représentation par un changement de base. Chaque terme est représenté par une combinaison linéaire d’attributs. Une faiblesse de cette technique est que si jamais un terme est particulièrement discriminant indépendamment des autres, le fait de le remplacer par un autre peut le rendre inefficace.

1.5 Construction du modèle Maintenant que les documents sont représentés dans un format qui peut être très bien

géré par des algorithmes d'apprentissage, les classificateurs peuvent être entraînés. Depuis les années 1990, le problème de la CT est abordé avec l'application d'apprentissage automatique. Dans cette étape, on construit des modèles ou classifieurs qui vont apprendre par eux mêmes à classer des documents.

Ce modèle de classification sera généré automatiquement à partir d'un ensemble d'exemples. Un exemple consiste en la description d'un cas avec la classification correspondante. Par exemple, on dispose d'un ensemble de comptes rendus médicaux avec,

Page 32: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 22

pour chaque compte rendu médical, la description clinique du patient et le diagnostic médical (ex. la maladie). Un système d'apprentissage doit alors, à partir de cet ensemble d'exemples, extraire le modèle de classification qui, au vu de la description clinique d'un nouveau patient, devra décider du diagnostic médical. Il s'agit donc d'induire un classifieur général à partir d'exemples. Le problème est donc un problème inductif, il s'agit d'extraire une règle générale à partir de données observées. Le modèle généré devra classifier correctement les exemples de l'échantillon mais surtout avoir un bon pouvoir prédictif pour classifier correctement de nouvelles descriptions.

La recherche en apprentissage automatique a produit une large gamme d'algorithmes supervisés pour construire des classificateurs (Niharika et al., 2012). Beaucoup de recherches ont été faites dont l’objectif était de comparer différents classifieurs pour la tâche de la CT (voir (Lewis et al., 1996), (Yang & Liu, 1999)).

Nous n’avons pas la prétention dans cette section de passer en revue l’ensemble des techniques de classification mais plutôt de mentionner celles qui sont les plus utilisées en CT. Nous allons commenter brièvement quelques unes et nous donnons dans le tableau 1.2 ci-après les avantages et les inconvénients de chacune d’elles.

Parmi les algorithmes d’apprentissage supervisé existants, on peut faire des regroupements et distinguer de grandes familles : probabilistes, linéaires, neuronales…

1.5.1 Algorithmes probabilistes

L'utilisation des probabilités pour prédire une classe a été l'une des premières tentatives dans la catégorisation de textes. C'est dans cette famille qu'on trouve entre autre l’algorithme Bayésien naïf (NB) (Caruana & Niculescu-Mizil, 2006), (Langley et al., 1992). L’approche probabiliste voit la fonction de classification en terme de probabilité

qu’un document représenté par le vecteur 1 2( , , , )i i i i Td w w w=uur

L de T termes (binaires ou

pondérés) appartient à la catégorie kc et calcule cette probabilité par l’application du

théorème de Bayes, énoncé par :

( ) ( / )( / )

( )k i k

k i

i

P c P d cP c d

P d=

uuruur

uur (1.10)

Il existe plusieurs méthodes pour déterminer( / )ikP c dur

, la méthode la plus simple est

celle utilisée par le classificateur Bayésien naïf, où les termes sont supposés conditionnellement indépendants. Cette hypothèse d’indépendance est exprimée par l’équation :

Page 33: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 23

1

( / ) ( ) ( / )T

NB k i k ij kj

P c d P c P w c=

= ×∏uur

(1.11)

La classification d’un nouveau document id par ce type de classifieur consiste à

calculer la probabilité ( / )k iP c duur

pour 1k C= K où C est l’ensemble des classes, puis

affecter le document à la classe qui génère la probabilité maximale. Ces classifieurs ont montré leur efficacité dans de nombreux travaux de classification de textes en particulier le filtrage de spam (Androutsopoulos et al., 2000),(Graham, 2002).

1.5.2 Les arbres de décision Les arbres de décision (AD) sont des techniques très employées dans les cas où il est

important de trouver des règles afin de définir la classification. Les caractéristiques de la structure des arbres permettent une représentation interprétable des résultats. Un arbre de décision correspond à une structure arborescente formée par des nœuds internes et terminaux reliés par des branches. Pour arriver à chaque nœud terminal, il y a une trajectoire unique qui débute avec le nœud racine. La trajectoire correspond à une règle de décision (de la classe du document) formée par une conjonction (ET) de plusieurs conditions de test. Les algorithmes les plus représentatifs des arbres de décision sont ID3 (Quinlan, 1986), C4 (Quinlan, 1993) et CART.

La simplicité avec laquelle nous pouvons modéliser le problème, sa représentation graphique, sa lisibilité et la rapidité par laquelle nous pouvons catégoriser un document expliquent la popularité actuelle des arbres de décision. Il existe toute une famille de méthodes qui s’appuient sur le même paradigme. Les travaux sur cette méthode ont été popularisés par les graphes d’induction avec la méthode SIPINA (Zighed et al., 1992), (Zighed & Rakotomalala, 2000).

1.5.3 Algorithmes linéaires Ces algorithmes se basent sur un profil (Herbrich, 2001), (Yang & Liu, 1999). Le

profil est un vecteur de termes pondérés construit pour chaque catégorie, dans le but de les représenter d'une façon générale. Ce vecteur est construit à l'aide des documents d’apprentissage, quand un nouveau texte, doit être classé, il est comparé à ce vecteur «type». L'avantage de cette approche est qu'elle produit un classifieur compréhensible par l'humain, dans le sens où le profil de la catégorie peut être interprété facilement. Par contre, l'inconvénient principal de tous les algorithmes linéaires est que l'espace est divisé en seulement deux portions, ce qui peut être restrictif, car tous les problèmes ne sont pas nécessairement linéairement séparables.

Page 34: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 24

Les machines à support vectoriel (SVM) s'apparentent aux classifieurs linéaires, dans le sens où elles tentent de séparer l'espace en deux mais certaines manipulations mathématiques les rendent adaptables à des problèmes non linéaires. L’idée des SVM a été introduite par Vapnik (Vapnik, 1998) pour les machines d’apprentissage (ML). Joachims l’a introduit en CT (Joachims, 1998) puis les a utilisés dans plusieurs travaux.

1.5.4 Algorithmes à base d’instances Cette famille d’algorithmes se base sur l'exemple. Les nouveaux textes à classer sont

comparés directement aux documents d'ensemble d'entraînements. L'algorithme des k-plus proches voisins (kNN) est le plus connu dans cette famille (Mitchell, 1997). La première application de la méthode kNN à la CT a été rapportée par Massand et al. (Massand et al., 1992)

1.5.5 Les réseaux de neurones L'apprentissage neuronal a été utilisé avec efficacité dans les tâches de traitement du

langage naturel. L'algorithme de Kohonen LVQ a été appliqué avec succès dans les tâches de catégorisation de textes (Valdivia et al., 2003). Cet algorithme d'apprentissage neuronal compétitif est encore un autre choix disponible pour la CT. Un réseau de neurones (RN) est un réseau d’unités construit à partir des documents d’apprentissage, où les unités d’entrée représentent les termes, les unités de sortie représentent la (ou les) catégorie(s), et les arcs reliant les unités représentent les relations d’indépendances. Pour classer un nouveau

document id représenté par son vecteur 1 2( , , , )i i i i Td w w w=uur

L , ses attributs 1,ij j Tw = K

sont chargés dans les unités d’entrées. L’activation de ces unités est propagée à travers le réseau et la valeur de l’unité de sortie détermine la classe du document.

1.5.6 Algorithme de Boosting La technique de Boosting correspond à l’idée de construire un ensemble de

classifieurs et de combiner leurs décisions pour effectuer la classification. Les classifieurs sont entrainés par une même méthode d’apprentissage de manière séquentielle, telle que les résultats des classifieurs précédents servent d’exemples pour améliorer la performance des classifieurs suivants. Les algorithmes Boosting comme AdaBoost ont donné des réponses très efficaces pour la tâche de classification de textes (Schapire & Singer, 2000).

1.5.7 Points forts et points faibles Dans le Tableau 1.2, et en s’appuyant sur l’étude présenté dans (Nidhi & Gupta,

2011) nous résumons les avantages et les inconvénients de ces méthodes.

Page 35: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 25

Algorithmes Points forts Points faibles kNN Il est très simple à mettre en œuvre ; il

n'a besoin que de deux paramètres (K et la mesure de similarité). kNN ne fait pas d'apprentissage, il stocke tout simplement tous les exemples d'apprentissage. Il est également bien adapté à la catégorisation multi-classes puisque sa décision de classification est basée sur un voisinage de documents similaires.

Le temps nécessaire pour calculer la similarité est énorme. En pratique, il est impossible de mettre en œuvre l'algorithme pour des dimensions élevées et des corpus d'exemples énormes. En conséquence, le coût de classification devient très élevé pour le plus proche voisin. En outre, le stockage mémoire augmente avec le nombre de documents d'entraînement.

NB

Le classificateur Bayésien naïf est une méthode d'apprentissage populaire pour la classification de textes car il est rapide et facile à mettre en œuvre et donne de bons résultats. Il est caractérisé par sa robustesse vis-à-vis des données manquantes, sa vitesse de classification et d’apprentissage

Une fois que l’espace d’apprentissage devient considérablement large, il est impossible d’interpréter le modèle construit. Son hypothèse naïve affecte la qualité des résultats, si les mots sont liés entre eux.

AD Les arbres de décision sont simples à comprendre et à interpréter. Ils ont besoin de peu de données et sont capables de gérer à la fois des données numériques et catégorielles. Cet algorithme, évolue bien, même lorsqu'il ya un nombre variable d'exemples d'apprentissage.

Les arbres de décision sont basés sur des algorithmes heuristiques tels que l'algorithme glouton, où les décisions sont prises à chaque nœud au niveau local. Ces algorithmes ne peuvent pas garantir de retourner un arbre de décision globalement optimal. Un arbre complet peut être sujet au sur apprentissage, comme certaines branches peuvent être trop spécifiques aux données d'apprentissage. La plupart des méthodes d'arbre de décision comprennent donc un procédé de construction de l'arbre et un autre pour l'élagage, pour enlever les branches trop spécifiques.

SVM Les SVM sont moins sensibles au sur- apprentissage que d'autres méthodes puisque la complexité du modèle est indépendante de la dimension de l'espace des attributs. Les approches basées sur les SVM peuvent gérer, un espace d'attributs de grande dimension, avec une précision excellente de classification. Le SVM produit de meilleurs résultats à la fois aux niveaux test et apprentissage, il est robuste par rapport au nombre d'attributs et il très rapide pendant la classification.

L’efficacité dépend du choix de la fonction noyau : Puisqu’il n’y a pas une fonction noyau supérieure aux autres et le temps requis pour l’apprentissage est relativement long parce qu’on est obligé d’expérimenter avec quelques fonctions noyaux candidates pour en trouver la meilleure qui nous convient le plus. L’algorithme ne résiste pas aux valeurs manquantes puisqu’il a besoin de toutes ces dernières pour faire son calcul.

Page 36: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 26

RN Les réseaux de neurones sont des modèles non linéaires, ce qui les rend souples dans la modélisation des relations complexes du monde réel. Les réseaux de neurones sont en mesure d'estimer les probabilités à posteriori, qui fournissent la base pour établir la règle de classification et de l'analyse statistique.

Avec l’augmentation du nombre d'entrée et les nœuds cachés, les paramètres nécessaires pour le réseau neuronal augmentent également, ceci provoque le sur-apprentissage.

Boosting

Il permet une amélioration de la qualité du classifieur boosté. On peut obtenir de très bons classifieurs en assemblant plusieurs classifieurs faibles. Il peut être adapté aux problèmes multi-classes.

Le choix du meilleur classifieur de base n’est pas évident et sa performance est affectée par la performance du classifieur boosté.

Tableau 1.2-Algorithmes d'apprentissage supervisé utilisés en CT.

1.6 Évaluation des classifieurs L’évaluation est une phase indispensable à tout processus d’apprentissage. Elle

consiste à vérifier que le modèle construit sur la base d’apprentissage est un classifieur performant. Dans ce cas, performant, signifie qu’il permet de classer tout individu avec le minimum d’erreurs possible. Cela suppose l’existence d’un corpus étiqueté pour pouvoir comparer les résultats obtenus par le système avec celles de l’expert.

1.6.1 Les corpus Le corpus d’apprentissage (en anglais, « dataset ») est un élément essentiel à la

construction d’un système de classification automatique. Plusieurs sites web proposent gratuitement des corpus d’apprentissage et de test bien structurés pour réaliser des travaux portant sur la classification automatique des documents écrits en caractères latins. Nous citons, entre autres, le corpus d’apprentissage Reuters 22173, la collection des documents médicale de MEDLINE, etc.

- Le corpus Reuters : l’agence Reuters a proposé en 1987 un corpus de dépêches en langue anglaise, disponible gratuitement sur le Web; ce corpus initial, nommé Reuters-22173 a été étudié notamment par (Lewis, 1991), (Moulinier, 1997). Depuis, plusieurs versions ont été diffusées. Ces versions se différencient entre elles par le nombre de textes des ensembles d’apprentissage et de test, ainsi que par le nombre des catégories à apprendre.

- Le corpus 20 -Newsgroups : ce corpus est constitué de messages échangés dans 20 forums de discussion.

Page 37: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 27

- Le corpus Ohsumed. il présente des caractéristiques différentes des corpus précédents. il est constitué d’environ 300 000 entrées d’une banque de données médicales, contenant chacune un titre et un résumé d’article. En fait, ce sont des références concernant la littérature médicale gérée par la «National Library of Medicine». Les étiquettes de catégories correspondent à des termes MeSH.

1.6.2 Les mesures d’évaluation Afin de valider correctement la procédure de classification, nous utilisons des

mesures de performances sur les résultats de la classification. L’efficacité peut se définir selon plusieurs critères. Toutes les mesures usuelles se basent sur la table de confusion dont un exemple est donné dans le Tableau 1.13.

Classe kc Expert

Système

Positif

Négatif

Positif kVP kFP

Négatif kFN kVN

Tableau 1.3- Table de confusion

Les deux critères généralement utilisés pour évaluer un processus de catégorisation sont : la précision et le rappel.

Nous allons donner une définition formelle de ces mesures. Mais tout d’abord

nous définissons les quatre notions suivantes pour une classe kc :

- ( )kVP c est l’ensemble des textes de la classe kc bien classés ;

- ( )kFP c est l’ensemble des textes assignés par erreur à la classe kc ;

- ( )kFN c est l’ensemble des textes de la classe kc non classés kc par le

classifieur ;

- ( )kVN c est l’ensemble des textes n’appartenant pas à la classe kc et

identifiés comme tels.

Précision (notée ( )kP c ): c’est une mesure qui indique la capacité du classifieur à classer

correctement les documents. Formellement la précision s’exprime de la façon suivante:

( )( )

( ) ( )k

kk k

VP cP c

VP c FP c=

+ (1.12)

Page 38: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 28

Ce ratio permet de savoir en particulier si le classifieur, quand il classifie des documents, n’affecte pas trop de documents à une classe par erreur.

Rappel (noté ( )kR c ) : c’est une mesure qui indique la capacité du classifieur à classer

correctement l'intégralité des documents. Formellement, elle s’exprime de la façon suivante :

( )( )

( ) ( )k

kk k

VP cR c

VP c FN c=

+ (1.13)

Le rappel permet de savoir si le classifieur est performant dans sa capacité à extraire de l’ensemble des documents ceux qui sont attribués à la classe en cours d’analyse tout en ayant peu d’oublis.

Exactitude (notée ( )kE c ) : est la capacité du classifieur à bien classer les éléments qui

lui sont soumis. C’est la somme du nombre de documents attribués à chaque classe par le système sur le nombre de documents que l’expert a attribué à chaque classe. Elle s’exprime de la façon suivante :

( ) ( )( )

( ) ( ) ( ) ( )k k

kk k k k

VP c VN cE c

VP c FP c VN c FN c

+=

+ + + (1.14)

F-mesure : Une fois définie les deux notions de rappel et de précision, plusieurs indicateurs de synthèse ont été imaginés. Le plus couramment employé est la F-Mesure ou F-beta de (Rijsbergen, 1979) :

2

2

( 1) ( ) ( )( )

( ) ( )k k

k

k k

P c R cF c

P c R cβββ

+=

+ (1.15)

Cette mesure fusionne précision et rappel et donne une évaluation de synthèse de la classification. Le coefficient β indique le poids que l’on souhaite donner à la précision par rapport au rappel. Si 1β = , nous obtenons le F-score ou F1-mesure qui est égal à :

2 ( ) ( )1( )

( ) ( )k k

kk k

P c R cF c

P c R c=

+ (1.16)

Cette mesure est fréquemment utilisée quand il est important d’avoir un équilibre entre précision et rappel.

Micro-moyenne, macro-moyenne

Page 39: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 29

L'évaluation des algorithmes se faisant sur plusieurs catégories, il est nécessaire de résumer les mesures faites sur chaque catégorie en une seule valeur moyenne. Il y a deux façons de moyenner les valeurs de la précision, du rappel et de la F-mesure : la macro et la micro-moyenne.

La macro-moyenne est donnée par la moyenne arithmétique des mesures par catégorie. Chaque catégorie a la même influence sur la moyenne. La macro-moyenne de la précision et du rappel est définie ci-dessous :

1( )

C

kM kP c

PC

== ∑ (1.17) 1( )

C

kM kR c

RC

== ∑ (1.18)

La micro-moyenne de la précision et du rappel est calculée à partir de la somme des

effectifs des différents ensembles. Dans la micro-moyenne chaque document a la même

influence sur la moyenne.

1

1

( )

( ( ) ( ))

C

kk

C

k kk

VP cP

VP c FP c

µ =

=

=+

∑∑

(1.19) 1

1

( )

( ( ) ( ))

C

kk

C

k kk

VP cR

VP c FN c

µ =

=

=+

∑∑

(1.20)

1.7 Bilan sur la catégorisation de textes À la lumière de ce qui a été introduit dans ce chapitre, nous nous rendons compte

que plusieurs éléments sont impliqués dans le processus de CT, que ce soit le mode de représentation des textes, la méthode de sélection des termes ou l’algorithme d’apprentissage mis en place.

Nous avons vu que l’intérêt des différentes approches de réduction de dimensionnalité est d’avoir un ensemble de termes plus réduit mais informatif. Il reste ensuite à fixer le nombre de termes à garder dans cet ensemble. La méthode de classification va être forcément, très décisive dans le seuil à fixer pour le nombre de termes à conserver. Par exemple, dans un réseau de neurones, réduire la dimension de l’espace des termes est très recommandé alors que la méthode SVM est capable de traiter un ensemble de termes plus long. Nous devons savoir que la suppression de termes peut entraîner une perte d'information; et donc il faut trouver le bon compromis entre, d'une part, la nécessité de réduire l'espace des termes avec moins de redondances possibles et, d'autre part, la nécessité de garder suffisamment d’informations. Par exemple, (Dumais et al., 1998) construisent leur modèle à base des SVM en prenant en considération seulement les 300 meilleurs termes sélectionnés par la méthode MI sur le corpus Reuters,

Page 40: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 30

par contre (Joachims, 1998) considère que tous les termes (qui sont au nombre de 9962) du corpus, fournis après élimination des mots vides et racinisation sont informatifs, sauf que les résultats fournis sont moins bons que pour (Dumais et al., 1998), ce qui nous amène à dire que tous les termes gardés par Joachims n’étaient pas tous utiles.

Nous constatons dans la littérature plusieurs travaux qui se sont intéressés à l’étude et à la comparaison de l’impact des méthodes de sélection sur la performance du système de CT. Une comparaison du gain informationnel avec quatre autres méthodes (MI, CHI-2, DF et TS) est effectuée dans (Yang & Pedersen, 1997). Ils ont étudié l’effet de la réduction des termes sur la performance de deux classifieurs kNN et LLSF. Les expériences indiquent que la méthode IG est la meilleure, elle permet d’éliminer jusqu’à 90% des termes sans dégrader la précision de la catégorisation.

D’autre part, d’autres études ont permis de conclure que les performances de certaines méthodes de sélection diffèrent selon l’algorithme de classification utilisé. Les résultats de (Brank & Grobelnik, 2002) indiquent qu’une bonne méthode de réduction est celle qui donne un bon résultat de classification et non pas seulement celle qui donne un bon pourcentage de réduction des termes.

Les travaux de (Pereira et al., 1993) ont montré que le regroupement des termes qui se base sur la distribution des catégories associé aux mots est plus efficace que les méthodes de sélection statistique. Par contre, les travaux de (Baker & McCallum, 1998) indiquent une perte de 2% dans la précision du système de classification en utilisant l’approche de regroupement de termes.

Une étude récente et approfondie de la sélection des termes est effectuée dans (Forman, 2003). L'auteur compare une liste de 11 méthodes de sélection d’attributs. L'évaluation des performances est effectuée sur 19 collections de test de taille et de difficulté différente. L'auteur utilise une classification de type un-contre-tous12 et calcule la moyenne de tous les résultats de plus de 229 problèmes de classification binaire. Son étude montre que la méthode de sélection d’attribut BNS est très intéressante; elle permet d’améliorer la performance de classification avec SVM (à l'exception de la précision où l'utilisation de tous les attributs peut donner de meilleurs résultats) d’une part, et d’autre part, peut concurrencer la méthode IG qui est souvent utilisée par des algorithmes d'arbres de décision, ex. C4.5. Son résultat soulève la possibilité que la méthode BNS peut être utile pour améliorer la construction des arbres de décision.

12 Le un-contre-tous a été la première réponse proposée pour faire face aux problèmes multi-classes.

Chaque classe est opposée à toutes les autres. Il faut donc poser C problèmes binaires, ensuite fusionner les résultats

Page 41: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 31

Une partie de la littérature récente montre que les travaux progressent pour une sélection d'attributs efficace. Une nouvelle méthode de sélection est présentée dans (Ogura et al., 2009). Dans cette méthode les degrés de déviation par rapport à la distribution de poisson sont utilisés pour sélectionner les termes informatifs. Basé sur l'optimisation de colonie de fourmis, un nouvel algorithme de sélection est présenté dans (Aghdam et al., 2009) pour améliorer la tâche de catégorisation de textes. Également dans (Sccuy & Mineanu, 2005) les auteurs ont introduit une méthode de pondération basée sur l'estimation statistique de l'importance de catégorisation du mot. Les auteurs dans (Youn & Jeong, 2009) ont proposé une nouvelle méthode de mise à l'échelle des attributs, appelée pondération CDFW.

Nous devons citer aussi le travail de (Neumayer et al., 2011). Les chercheurs ont expérimenté la combinaison de plusieurs méthodes de sélection sur 18 différents problèmes multi-classes de catégorisation de textes. Ils ont testé une variété de méthodes de fusion pour combiner les différentes méthodes de sélection. Toutefois, aucune combinaison ne s’est montrée supérieure à la meilleure méthode individuelle.

Pour la construction des modèles de CT, de nombreuses méthodes d’apprentissage supervisé ont été appliquées. Cependant, le choix de la meilleure technique dépend de la tâche en cours. D’après (Salzberg, 1997) il est très difficile d’affirmer la supériorité d’un algorithme sur un autre car les résultats sont très dépendants des corpus utilisés, de la tâche à évaluer, des mesures et des implémentations.

Nous devons souligner que la plupart des systèmes de CT proposés ont été expérimentés sur les différentes versions du corpus Reuters. (Schapire et al., 1998) l’utilisent pour comparer l’algorithme AdaBoost avec la formule de Rocchio (Rocchio, 1971) tandis que (Joachims, 1998) et (Dumais et al., 1998) l’utilisent pour évaluer les performances des machines à vecteurs de supports (SVM). (Yang & Liu, 1999) ont également utilisé ce corpus pour comparer différents algorithmes (machines à vecteurs supports, réseaux de neurones, arbres de décision, réseaux bayésiens).

1.8 Conclusion La CT joue un rôle très important dans la recherche d’information et la fouille de

textes. Cette tâche a été couronnée de succès en faisant face à une grande variété d’applications. Ce succès est dû principalement à la participation croissante de la communauté d’apprentissage machine. Plusieurs méthodes d’apprentissage ont été explicitées dans ce chapitre.

Les méthodes de sélection que nous avons abordées sont en mesure de réduire avec succès le problème de dimensionnalité dans les applications de CT.

Page 42: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de Textes 32

Le processus de CT est bien étudié dans la littérature mais pour optimiser encore les performances de classification pour une application spécifique, nous pensons que de nombreuses améliorations peuvent être réalisées soit au niveau préparation des données d’apprentissage soit au niveau construction du classifieur lui-même.

Jusqu’à présent, les différentes recherches réalisées ont permis de proposer les ajustements qu’il faut faire pour une situation donnée ; un cadre plus générique nous manque encore ce qui nous pousse à dire que la CT est plus un art qu’une science exacte.

Page 43: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

2222.... Reconnaissance des entités Reconnaissance des entités Reconnaissance des entités Reconnaissance des entités nomméesnomméesnomméesnommées

Depuis les débuts du Traitement Automatique du Langage (TAL) dans les années 60,

la compréhension automatique de textes est l'objet de nombreuses recherches et vise à saisir le sens global d'un document. Les échecs récurrents des systèmes alors développés mettent rapidement en cause une vision trop générique de la compréhension automatique. En effet, de tels outils s'avèrent inutilisables dans un contexte opérationnel en raison du coût élevé des adaptations nécessaires (bases de connaissances et ressources lexicales spécifiques). Conscients d'être trop ambitieux au regard des possibilités technologiques, les chercheurs s'orientent alors vers des techniques plus réalistes d'extraction d'information. S'il n'est pas directement possible de comprendre automatiquement un texte, le repérage et l'extraction des principaux éléments de sens apparaissent comme un objectif plus raisonnable. Cette réorientation théorique est reprise de façon détaillée par (Poibeau, 2003).

L'extraction d'information (EI) est donc une discipline assez récente qui consiste en

une analyse partielle d'un texte afin d'en extraire des informations spécifiques. Celles-ci permettent de construire une représentation structurée (bases de données, fiches, tableaux) d'un document à l'origine non structuré.

Page 44: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 34

Cette technologie hérite des travaux en structuration puis en compréhension de textes. Elle a acquis sa maturité lors des années 1990 au cours desquelles ont émergé les premiers véritables systèmes d’extraction d’information. Des systèmes plus efficaces ont ensuite été développés en se fondant principalement sur des méthodes d’analyse linguistique et/ou d’apprentissage utilisant des outils et des techniques issues des recherches en TAL.

L’extraction d’information peut s’effectuer sur tous les domaines. En effet, nous pouvons essayer d’extraire de l’information à partir d’articles de journaux, de courriels, de textes financiers, d’annonces classées, etc. Cependant, lorsqu’un extracteur est construit, de manière manuelle ou automatique, il est souvent lié au domaine mais surtout à la catégorie de textes. Il s'agit donc d'une tâche plus limitée où l'on détermine à l'avance le type d'entité à extraire automatiquement. Cela en fait une approche guidée par le but de l'application dans laquelle elle s'intègre. Cette dépendance reste, à l'heure actuelle, une limite majeure des systèmes d'extraction.

L’extraction de l’information passe par plusieurs traitements allant de la segmentation des données à la compréhension et à la reconnaissance de thèmes. Dans cette chaîne de traitements on trouve la tâche d’extraction d’indices porteurs de sens, appelée tâche de reconnaissance d’entités nommées. La reconnaissance d’entités nommées est le processus qui permet d’identifier dans un document des catégories de syntagmes tels que les noms de personnes, d’organisations et d’indices temporels.

Cette tâche a été initialement lancée pour le traitement de textes journalistiques et économiques (Grishman & Sundheim, 1996), elle a été étendue par la suite à d’autres domaines comme la biologie ou la médecine (Settles, 2004), (Rossler, 2004). L’analyse en entités nommées dans ces domaines est devenue indispensable vu l’importante quantité d’information produite par ces communautés. En médecine, il s’agit d’identifier dans les rapports médicaux des termes comme des noms de médicaments ou encore des noms de maladies comme diabète.

2.1. Définition et Objectifs L’extraction d’information est une technologie récente mais qui cherche à répondre à

un besoin très ancien : acquérir de la connaissance à partir de textes. Cette nécessité s’est accrue ces vingt dernières années avec l’essor considérable de la masse de documents disponibles au format électronique (Internet, courrier et documentation électroniques) qu’il faut gérer afin d’extraire ou de filtrer les informations utiles et pertinentes parmi toutes celles contenues dans ces documents. Comme la recherche d’information, le résumé automatique ou les systèmes de questions-réponses (QA), l’extraction d’information a l’ambition de répondre à ce défi, d’où le développement de nombreuses applications destinées à des institutions, au monde des affaires et/ou de l’industrie.

Page 45: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 35

Pour (Poibeau, 2003), l’EI est considérée comme la forme simplifiée de la compréhension des textes dans laquelle l’utilisateur connaît d’avance le type d’information qui l’intéresse. Elle a pour objectif de produire une représentation structurée à partir des textes, en cherchant des motifs dans ces textes et qui intéressent une application donnée. Les informations extraites sont remplies automatiquement dans un formulaire.

L’EI s'oppose classiquement à la recherche d’information qui vise à retrouver dans une base de documents un ensemble de documents pertinents au regard d'une question. L'extraction met en œuvre une analyse du texte pour interpréter et construire une représentation formelle qui permettra d'apporter automatiquement des réponses précises à l'utilisateur. Il ne s'agit donc pas simplement de sélectionner un fragment brut du texte, mais de mettre des éléments en relation pour restituer une information complète et structurée. Mais, il ne faut pas considérer un système d’EI comme un système de compréhension globale, l’EI délimite à l’avance le focus sémantique de l’information à extraire au contraire des systèmes de compréhension qui sont génériques et qui doivent considérer chaque élément dans le texte comme pertinent.

2.2. Les conférences MUC Les recherches actuelles en EI ont été influencées par les conférences MUC (Grishman

& Sundheim, 1996). Ces conférences qui se sont déroulées entre 1987 et 1998, faisaient partie du programme TIPSTER13 financé par DARPA14. Ce programme comportait trois tâches: la détection des documents, l'extraction d'information, et le résumé de textes.

Les campagnes d’évaluation MUC ont été organisées afin de confronter les systèmes d’extraction d’information réalisés par différentes équipes en comparant leurs performances avec des mesures précises et objectives. Ces mesures, inspirées de celles définies pour le domaine de la recherche d’information, sont devenues un standard pour toute évaluation des résultats de l’EI. Ainsi, la précision mesure la qualité du système, c'est-à-dire le nombre d’informations extraites correctement par rapport au nombre d’informations extraites. Le rappel lui mesure la couverture du système, c'est-à-dire le nombre d’informations correctement extraites par rapport au nombre d’informations correctes présentes dans le corpus. Enfin, la F-mesure permet de disposer d’une évaluation globale du système en combinant précision et rappel.

L’apport des conférences MUC a été considérable ; aussi bien en termes d’identification des problèmes à prendre en compte (linguistique, représentation des connaissances, acquisition de ressources, travail sur corpus…) qu’en termes de méthodes et de techniques pour les résoudre.

13 Le programme TIPSTER. http://www-nlpir.nist.gov/related_projects/tipster/overv.htm 14 Defence Advanced Research Projects Agency

Page 46: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 36

Les textes servant de support à l’évaluation provenaient de différents domaines. Les premières conférences ont porté sur l'extraction d'information à partir des messages militaires, par contre ce thème a été développé dans les conférences ultérieures pour couvrir les rapports de presse. Divers systèmes d’extraction d’information ont été testés sur différents types de textes : récits d’attentats (MUC-3 et MUC-4), annonces de produits (MUC-5), annonces financières concernant les prises de participation des entreprises (MUC-6), etc. Les systèmes en compétition devaient remplir un ou plusieurs formulaires fixés à l’avance en fonction du domaine. Par exemple, pour les annonces financières, ils devaient extraire les différentes sociétés (acheteurs, vendeurs, achetées), la date, le lieu et le montant de la transaction financière, etc.

Le Tableau 2.1 résume les différents contenus de textes traités dans chaque conférence.

(MUC 1, 1987) et (MUC-2, 1989) ont traité et analysé les rapports d'opérations tactiques navales.

(MUC3, 1991) et (MUC4, 1992) l'objectif était d'analyser des textes journalistiques traitant du terrorisme en Amérique Latine, afin d’extraire, des dépêches d’agence de presse, le maximum d’information sur des actes terroristes.

(MUC5, 1995) ont traité un corpus de nature économique pour extraire des

informations de type fusion, rachat, et création d’entreprises internationales et la fabrication de circuits électroniques.

(MUC 6,1996) une suite de MUC 5, a traité les changements de dirigeants à la tête des entreprises.

(MUC7, 1998) s’est intéressée à l’analyse de textes journalistiques rapportant des crashs d’avion et de tirs de missiles.

Tableau 2.1-Les conférences MUC

2.3. Les tâches de l’extraction d’information Les composants trouvés dans les systèmes d'EI d’aujourd'hui reflètent largement les

tâches définies dans ces conférences. Les tâches de la dernière conférence, MUC-7, en 1998 (les plus difficiles dans la série) ont été les suivantes :

- reconnaissance des entités nommées, - détection de la coréférence, - reconnaissance des éléments du formulaire, - reconnaissance des relations, - reconnaissance des scénarios («scenario template»).

Page 47: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 37

Dans cette thèse, nous nous limitons à la première tâche de l’EI : la reconnaissance des entités nommées. Dans la section 2.4, nous présenterons un état des lieux de la reconnaissance des entités nommées.

2.3.1 Reconnaissance des entités nommées Cette tâche consiste à repérer toutes les formes linguistiques bien identifiées, à l’instar

des noms propres de personnes, d’organisations, de lieux, etc. mais aussi les expressions temporelles (dates, durées,…), les quantités (monétaires, unités de mesures, pourcentages,…) et à leur affecter une étiquette sémantique choisie dans une liste prédéfinie.

2.3.2 Coréférence Cette tâche consiste à repérer les groupes nominaux et les pronoms personnels co-

référents et à les baliser dans les textes. Par exemple, dans «En 1963, Warda El-Djazairia épouse Djamel Kesri, un des fondateurs de l’ancienne sécurité militaire. Après son exil en Égypte, elle se rendait de moins en moins à son domicile à Alger.», la résolution des coréférences devrait relier «Elle» à «Warda El-Djazairia».

2.3.3 Attributs Cette tâche, qui repose sur les deux tâches précédentes, consiste à associer des

informations (descriptions, informations complémentaires) aux entités reconnues. Elle associe en fait de l’information descriptive, généralement sous la forme de groupes nominaux, aux entités précédemment identifiées. Cette information descriptive correspond à un attribut de l’entité concernée.

2.3.4 Relation La reconnaissance des relations s’attache à identifier un certain nombre de relations, le

plus souvent binaires, entre les entités extraites précédemment. Ainsi, dans l’exemple précédent, cette tâche permet de repérer une relation de mariage entre les entités personnes «Warda El-Djazairia» et «Djamel Kesri».

2.3.5 Scénario Cette tâche relie entre les entités et les relations précédemment reconnues des

descriptions d’évènement relatif au domaine étudié. Les différents traits complémentaires, telles que la localisation spatiale et temporelle sont également associés. La reconnaissance des scénarios est une tâche particulièrement difficile. Elle dépend des résultats des étapes précédentes et possède donc un score plus faible, dépendant de la composition de leurs résultats.

Page 48: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 38

2.4. Reconnaissance des entités nommées : un état des lieux Depuis les conférences MUC, la recherche des entités nommées est une tâche à part

entière du TAL. Une introduction à ce domaine peut être trouvée dans (Ehrmann, 2008) et un état de l’art sur les différents systèmes de reconnaissance des entités nommées se trouve dans (Nadeau & Sekine, 2007). Comme indiqué dans les travaux de (Ehrmann, 2008) et (Nadeau, 2007), la tâche de reconnaissance d’entités nommées (REN) s’intéresse à un certain nombre d’unités lexicales particulières, que sont les noms de personnes, les noms d’organisation et les noms de lieux, les dates, les unités monétaires et les pourcentages (voir Figure 2.1). Son objectif est double : il s’agit, d’une part, de localiser ces unités dans un texte, et, d’autre part, de les catégoriser en fonction de types sémantiques prédéfinis.

Historiquement, cette tâche a été appliquée sur des corpus journalistiques mais aujourd’hui elle est également appliquée sur d’autres types de corpus portant sur des domaines plus spécifiques. Ceux de la biologie et de la médecine sont par exemple fort demandeurs de ce genre d’analyse, la reconnaissance des noms de gènes, de protéines ou de maladies aidant au traitement de l’importante quantité d’information produite par ces communautés.

2.4.1 Typologie des entités nommées C’est ainsi à l’occasion d’une refonte de la tâche d’extraction d’information (MUC-7)

qu’apparaît la tâche de reconnaissance des entités nommées. L’intérêt pour ce type de noms s’explique par le fait qu’ils sont présents dans tous types de textes, quel que soit le domaine. Ils constituent ainsi un point de passage obligé pour tout système cherchant à rendre compte de l’information contenue dans un texte.

Figure 2.1-Exemples d’entités nommées (MUC-7)

Il existe un grand nombre de typologies des entités nommées. Citons tout d’abord la

plus célèbre, celle de la tâche de reconnaissance des entités nommées de la conférence MUC 7 (Chinchor, 1998), qui comporte différents types répartis en trois classes :

- ENAMEX : pour les noms d’entités correspondant à des noms de personnes, d’organisations et de lieux. Les sous-types sont : personne, organisation et location.

Page 49: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 39

- TIMEX : pour les expressions temporelles. Les sous-types sont : date, heure et période.

- NUMEX : pour les expressions numériques, de monnaie et de pourcentage. Les sous-types sont : mesures physiques, expressions monétaires et pourcentage.

La hiérarchie proposée dans la Figure 2.2 comporte ainsi, neuf types de base, mais cette hiérarchie a souvent besoin d'être étendue pour couvrir de nouveaux besoins. En effet, les entités prises en compte par les systèmes de reconnaissance développés dans le cadre des conférences MUC ne considèrent pas toute la palette des entités intéressantes en traitement automatique du langage naturel: les noms de médias, d’évènements, de maladie,… n’y sont pas représentés.

Figure 2.2-Typologie des entités nommées

Dans (Paik et al. , 1997) nous trouvons une autre classification des entités, réalisée à partir d’une étude du Wall Street Journal qui comporte 30 catégories divisées en 9 classes, dont les 8 premières couvrent 89 % des entités nommées du corpus d’étude :

- Géographique : villes, ports, aéroports, îles, départements, provinces, pays, continents, régions, fleuves, autres noms géographiques;

- Appartenance : religions, nationalités;

- Organisation : entreprises, types d’entreprises, institutions, organisations;

- Humain : personnes, fonctions;

- Document : documents;

- Équipement : logiciels, matériels, machines;

- Scientifique : maladies, médicaments;

- Temporelle : dates et heures;

- Divers : autres noms d’entités nommées.

Page 50: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 40

2.4.2 Applications L’extraction des entités nommées peut se situer dans une chaîne de traitement

automatique à différents endroits mais se situe néanmoins dans les premières étapes du traitement. Elle constitue une étape préliminaire à d’autres applications. On peut effectuer cette extraction comme une première étape en manipulant un texte brut ou la réaliser juste après un étiquetage morphosyntaxique. Nous introduisons ci-dessous les applications majeures qui nécessitent un repérage des entités nommées (Ehrmann, 2008).

2.4.2.1 Prétraitement pour un étiquetage morphosyntaxique

L’étiquetage des parties du discours d’un texte est source d’erreurs dues à la multiplicité des catégories grammaticales possibles pour un mot et aux nombreux mots inconnus, notamment les noms propres. Les résultats des étiqueteurs morphosyntaxiques doivent souvent être validés par la main ce qui est long et fastidieux. Un repérage des entités nommées permettrait de limiter les erreurs et ainsi de rendre plus rapide les corrections. Par exemple, il est utile de savoir que le point dans « Inc. » ne constitue pas un séparateur puisqu’il est partie intégrante d’une entité de type organisation.

2.4.2.2 Résolution anaphorique

Une autre application du TAL bénéficiant de la reconnaissance des entités nommées est la résolution de coréférence, ou le traitement des chaînes anaphoriques. Dans un texte, les référents ou objets du monde dont il est question sont évoqués le plus souvent via diverses expressions référentielles. Ces dernières peuvent être des noms propres « F. Barigou », des descriptions définies complètes ou incomplètes « L’enseignante », ou encore de simples pronoms « elle ». Grouper des expressions référant à une même entité correspond à la résolution de coréférence et les systèmes automatiques réalisant une telle opération comportent très souvent un module de reconnaissance des entités nommées.

Dans « Ali achète un nouvel ordinateur. Il fonctionne avec une vitesse de 1.60GHZ » le fait de savoir que « Ali » est une entité de type personne interdit le rattachement de « il » à cette entité.

2.4.2.3 Extraction et recherche d’information

Dans ce cadre, l’extraction des entités nommées met en avant les éléments qui permettront de cerner de quoi traite le document considéré. Il s’agit de repérer les acteurs (personne, entreprise, etc.) les lieux et les repères temporels. L’extraction d’information consiste en la mise en relation de ces éléments afin d’extraire les liens qui régissent les entités nommées. Le repérage des entités nommées est une étape incontournable à une telle tâche.

Page 51: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 41

2.4.2.4 Traduction automatique

Un système de traduction automatique permet de traduire un document original en langue source en un document final en langue cible. Considérons la traduction suivante, réalisée par le traducteur Google 15 :

- Texte source (en anglais): “London was an American writer.” - Texte cible (en français) : «Londres était un auteur américain.»

Ici, l’entité « London » a été traduite avec le nom de la capitale « Londres », ce qui n’est pas correct. Cette mauvaise traduction aurait pu être évitée si la séquence «London» avait été reconnue comme une entité de type personne. Un module de reconnaissance des entités nommées peut donc soutenir des systèmes de traduction automatique.

2.4.2.5 Veille stratégique et économique et l’aide à la décision

Dans le cadre de la veille stratégique et économique et l’aide à la décision, le repérage des entités nommées permet de repérer rapidement les noms de produits, d’entreprises ou de dirigeants qui apparaissent dans des textes (Poibeau, 1999), (Bouhafs, 2004). Étant donné la masse grandissante d’informations présentes sur le Web, ce repérage permet un classement rapide des documents ou la mise en évidence textuelle de ces informations.

2.4.2.6 Anonymisation

Elle correspond à l’identification et à la neutralisation de références confidentielles dans un document ou un ensemble de documents (Medlock, 2006). Le besoin d’anonymisation peut être motivé par la nécessité d’échanger ou de travailler réellement sur des données comportant des éléments confidentiels (cours de médecine pouvant s’appuyer sur des cas réels) ou par la nécessité d’appliquer des processus de TAL pour extraire des informations ou connaissances à partir d’une base textuelle. Ces éléments confidentiels correspondent la plupart du temps à des entités nommées comme les noms de personnes, de lieux, des dates, etc.

2.4.3 Approches pour la reconnaissance des EN L’intérêt et le bénéfice de la reconnaissance d’entités nommées ayant ainsi été détaillés,

il est temps d’en considérer la mise en œuvre et d’examiner les méthodes permettant de reconnaître ces unités dans les textes.

Deux approches principales émergent: l'extraction basée sur des techniques linguistiques (ou symbolique) d'un côté et les systèmes statistiques à base d'apprentissage de l'autre. Celles-ci se basent, de façon commune, sur des prétraitements linguistiques

15 http://translate.google.dz/

Page 52: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 42

«classiques» comme le découpage en mots, la lemmatisation, l'analyse morphologique ou syntaxique.

La première approche exploite les avancées en TAL et repose principalement sur l'utilisation de grammaires formelles construites par la main d'un expert-linguiste. Les prétraitements cités plus haut servent de base à la construction de règles et patrons linguistiques qui définissent les contextes d'apparition de telle entité ou relation. Notons ici l'importance particulière accordée à l'analyse syntaxique dans le repérage et le typage des relations et des évènements.

FUNES (Coates-Stephens, 1992), FASTUS (Hobbs, et al., 1997), PNF (McDonald, 1993), LaSIE (Gaizauskas et al., 1995), Nominator (Wacholder et al., 1997) sont parmi les premiers systèmes utilisant l’approche symbolique pour l’extraction des EN.

La seconde approche utilise des techniques statistiques pour « apprendre » des régularités sur de larges corpus de textes où les entités-cibles ont été préalablement annotées. Ces méthodes d'apprentissage exploitent des caractéristiques textuelles linguistiques issues des prétraitements précédemment évoqués. L'application de méthodes d'apprentissage automatiques à la REN a été expérimentée à l'aide de modèles à maximum d'entropie (Borthwick et al. , 1998), de HMM (Favre et al. , 2005) de CRF (McCallum, 2003), (Zidouni et al., 2009) de SVM (Nadeau, 2007) ou encore les techniques de «bootstrapping» et de « clustering » (Ireson & Ciravegna, 2005). Ces modèles sont assez performants et assez peu couteux à élaborer, à partir du moment où l'on dispose de corpus d'apprentissage. Néanmoins, ils permettent difficilement d'enrichir une base de connaissances. Les systèmes comme Alembic (Aberdeen, et al., 1996) et MENE (Borthwick et al. , 1998) se basent sur l’application des méthodes d’apprentissage automatique.

Ces dernières années, un nouveau type d'approche tend à se généraliser : ce sont les méthodes hybrides (Béchet et al. , 2011). Les limites de chacune des approches que nous venons de mentionner ont amené les acteurs du domaine à associer les techniques existantes pour augmenter les performances de leurs outils. En effet, un certain nombre de problèmes en extraction d'information constitue un réel frein à la commercialisation des systèmes existants. Tout d'abord, la plupart des solutions sont développées pour un domaine ou un genre de texte particulier et voient leurs performances décroître rapidement face à un texte différent de ce point de vue. Le même problème survient lorsque les outils sont développés à partir de corpus très homogènes (sur la forme ou le contenu) et que ceux-ci sont réutilisés sur d'autres corpus de natures plus variées. Ces limites concernent à la fois les méthodes symboliques et statistiques et nécessitent une réadaptation constante des techniques. Les approches à base de règles linguistiques, elles, souffrent également du coût de leur développement manuel et de la nécessité d'une expertise en linguistique pour pouvoir les modifier et les adapter. Pour tenter de résoudre cela, les experts se penchent actuellement vers des méthodes d'apprentissage

Page 53: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 43

automatique de patrons linguistiques. Pour finir, les approches statistiques nécessitent, lors de la phase d'apprentissage, une grande quantité de textes pré-annotés et, ces données n'étant pas toujours disponibles, cela constitue une réelle contrainte. Des recherches sont menées dans ce sens avec notamment l'utilisation d'un apprentissage dit «semi-supervisé», qui vise à améliorer les performances en combinant les données étiquetées et non-étiquetées.

2.4.4 Mesures d’évaluation L’évaluation d’un système de reconnaissance d’entités nommées a pour objectif de

mesurer l’écart entre une annotation de référence (faite par un expert) et l’annotation résultante d’un système de reconnaissance. Traditionnellement, l’évaluation repose sur le calcul d’un ensemble de métriques. Ces calculs permettent d’évaluer la proportion des erreurs commises par le système par rapport au résultat idéal. Les métriques utilisées sont :

Le rappel (R) : est une évaluation de la couverture du système. Il mesure la quantité de

réponses pertinentes d’un système par rapport au nombre de réponses idéales.

'

'

Nombre d entités correctes détectéesR

Nombre d entités manuellement identifiées=

La précision (P) : est une évaluation du bruit du système. Elle mesure la proportion des

réponses correctes parmi l’ensemble des réponses fournies par le système.

'

'

Nombre d entités correctes détectéesP

Nombre d entités détectées=

La F-mesure (F) : est une métrique qui permet de combiner en une seule valeur les

mesures de précision et de rappel de manière à pénaliser les trop grandes inégalités entre

ces deux mesures.

2 P RF

P R

× ×=+

2.5 Conclusion L’objectif de ce chapitre est de faire un tour d’horizon sur l’extraction d’information, et

en particulier l’extraction des entités nommées qui constitue un de nos objectifs dans ce travail de thèse.

Nous avons vu que les entités peuvent être assimilées aux noms propres. Toutefois, dès l'apparition du terme (concomitant des premières conférences en extraction d'information dans

Page 54: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Reconnaissance des entités nommées 44

les années 1980), les dates, les données monétaires et d'autres éléments chiffrés sont ajoutés à la liste. Le terme prend un tour de plus en plus applicatif : il peut s'agir de noms de gènes et de protéines pour une application de biologie, de noms de maladies et de pathologies en médecine (Embarek & Ferret, 2008), (Aronson, 2001), (Rindfleisch et al., 2000). La notion d'entité est alors clairement équivalente à un élément atomique de sens pertinent pour une application donnée. La notion d'entité n'est donc pas une notion générique mais dépend largement du modèle de l'application.

La reconnaissance des EN fait appel à deux approches concurrentes ou complémentaires dans des systèmes hybrides, comme (Béchet et al. , 2011), celles centrées sur les données et les techniques d’apprentissage, d’une part, et celles, symboliques, à base de règles, d’autre part. D’après certaines campagnes comme Ester216, il semble que les approches symboliques sont pour le moment celles qui donnent les meilleurs résultats... surtout si on a les moyens de développer des ressources lexicales et syntaxiques d’envergure, ce qui est la technique que nous utilisons aussi dans cette thèse.

16 http ://www.afcp-parole.org/ester/

Page 55: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

3333.... Catégorisation de textesCatégorisation de textesCatégorisation de textesCatégorisation de textes : : : : Automate cellulaire et KAutomate cellulaire et KAutomate cellulaire et KAutomate cellulaire et K----voisins voisins voisins voisins les plus prochesles plus prochesles plus prochesles plus proches (CA(CA(CA(CA----kNN)kNN)kNN)kNN)

Dans le courant de l’apprentissage automatique, différents types de classificateurs

ont été mis au point, toujours dans le but d’atteindre un degré maximal de précision et d’efficacité, chacun ayant ses avantages et ses inconvénients. Parmi la panoplie de classificateurs utilisés dans la CT, nous nous intéressons à l’algorithme des k-voisins les plus proches nommé par la suite kNN.

Ce dernier introduit par Fix et Hodges en 1957 (Fix & Hodges, 1989) est devenu

l'un des algorithmes les plus populaires dans la catégorisation de textes. Il est robuste et placé parmi les meilleurs algorithmes. En 1999, Yang considérait cet algorithme comme l'une des approches les plus conseillées parmi plus de dix approches pour la catégorisation de textes (Yang, 1999), (Yang & Liu, 1999). Le chercheur Sébastiani le recommandait, vu qu’il est simple et comparable à la meilleure approche SVM (Sebastiani, 2002). En plus de ses bonnes performances, il est très facile à comprendre et à mettre en œuvre.

Toutefois, il présente certaines limites:

- Coût mémoire élevé : il faut stocker l'ensemble d’apprentissage en entier pour la classification d’un nouveau document,

Page 56: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 46

- Coût élevé de calcul: il doit explorer l'ensemble d'apprentissage pour classer un nouveau document.

- Et enfin une faible tolérance au bruit, car il considère toutes les instances comme pertinentes même lorsque l'ensemble d'apprentissage est bruité ou non équilibré.

Face à ces problèmes, nous proposons d’adopter une nouvelle stratégie de codage des documents d’apprentissage pour la sélection des instances pertinentes utiles à la classification d’un nouveau cas. Nous proposons un modèle booléen pour :

- représenter les données textuelles et;

- sélectionner les instances pertinentes.

Nous utilisons la machine cellulaire CASI17 (Atmani & Beldjilali, 2007) pour construire ce modèle.

Les documents d’apprentissage étant représentés par ce modèle booléen, le classement d’un nouveau document consiste à chercher les voisins les plus proches non pas à partir de l’ensemble entier d’apprentissage, mais seulement à partir d'un sous-ensemble sélectionné par la machine cellulaire. Avec ce modèle, nous pouvons faire face aux exigences de temps de classification.

Nous avons envisagé deux contributions. Premièrement, nous proposons une amélioration de l’algorithme classique des K-plus proches voisins pour la classification des textes. Deuxièmement, nous examinons la performance de ce nouvel algorithme pour différents corpus. Avant de détailler notre proposition, nous allons tout d’abord rappeler le principe de fonctionnement de l’algorithme kNN et présenter quelques travaux ayant contribué pour son amélioration.

3.1 Algorithme des k plus proches voisins L'algorithme des k-plus proches voisins, traduction de k-nearest neighbor (kNN) en

anglais, est une méthode d’apprentissage à base d’instances. Il ne comporte pas de phase d’apprentissage en tant que telle. Les documents faisant partie de l’ensemble d’apprentissage sont seulement enregistrés. Lorsqu’un nouveau document à classer arrive, il est comparé aux documents d’apprentissage à l’aide d’une mesure de similarité. Ses k plus proches voisins sont alors considérés : on observe leur catégorie et celle qui revient le plus parmi les voisins est affectée au document à classer. C’est là une version de base de l’algorithme que l’on peut raffiner.

17 Pour alléger ce chapitre, nous avons décrit le principe de cette machine dans l’annexe A

Page 57: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 47

L'algorithme 1 ci-après décrit les différentes étapes pour classer un nouveau document avec kNN en utilisant une mesure de similarité (ex. cosinus) pour sélectionner ses voisins les plus proches et le vote majoritaire pour calculer sa classe.

Algorithme 1 - Classification avec kNN Paramètre : k : nombre de voisins, σ : une mesure de similarité

Données : 1 2{ , , }ND d d d= L ensemble de documents d’apprentissage

étiquetés avec 1 2{ , , }C

C c c c= L catégories.

Soit iduur

la représentation vectorielle de id i=1,N

Soit Qur

la représentation vectorielle du nouveau document Q

Soit Nk(Q) l’ensemble des k plus proches voisins

1. Pour chaque iduur

2. Calculer ( , )id Qσuur ur

3. Fin pour

4. Nk(Q)= max ( ( , ))d Di kArg d Qiσ∈

uur ur

5. Pour chaque kc dans C

6. Calculer son score dans Nk(Q)

7. ( )

1si d est de classe c( ) ( , ) ; ( , )

0 sinoni k

k i k i kd N Qi k

score c y d c avec y d c∈

= =

8. Fin pour

9. Retourner la classe avec le meilleur score

3.1.1 Choix de k La valeur de k est un des paramètres à déterminer lors de l'utilisation de ce type de

méthode. La valeur que l'on choisit pour k va être plus critique, plus déterminante en rapport avec la performance du classificateur (Figure 3.1). On peut se permettre de considérer un plus grand nombre de voisins, sachant que plus ils diffèrent du document à classer, moins ils ont d'impact sur la prise de décision. Cependant, il demeure nécessaire de limiter le nombre de voisins pour s'en tenir à un temps de calcul raisonnable.

L'emploi de k voisins, au lieu d'un seul, assure une plus grande robustesse à la prédiction. Classiquement, dans le cas où la variable à prédire comporte deux étiquettes, ce paramètre k est une valeur impaire afin d'avoir une majorité plus facilement décidable.

Page 58: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA

Figure 3.1 - Le choix de ««noir» dans la classe « rond

3.1.2 Mesure de similaritéUne des caractéristiques fondamentales de ce type de classificateur est l'utilisation

d'une mesure de similarité entre les documents. Les textes étant représentés sous forme vectorielle, donc comme des points dans un espace à abord penser à déterminer les voisins les plus proches en calculant la entre ces points. Une autre façonsimilarité cosinusoïdale.raisons :

– Elle permet de comparer des textes de longueurs différentes en normalisant leur vecteur.

– Elle met l'accent plutôt sur la présence de mots que sur l'absence de mots. (La présence de mots est probablement plus représentative que l'absence de mots).

Comme il a déjà été mentionné, le classificateur d'entraînement en tant que telle. La seule opération préalable est le stockage des exemples d'entraînement. La plus grosse part defournie au moment de la classification.

Une des caractéristiques de l'apprentissage à base d'instances est qu'il n'y a pas de construction d'une description explicite de la fonction à apprendre (dans notre l'appartenance à une catégorie). L'avantage est qu'on n'estime pas qu'une seule fois la fonction pour tout l'espace, mais on l'estime plutôt localement et différemment pour chaque nouvelle instance.

: CA-kNN

hoix de « k » influence la décision : pour k = 5, la décision est de classer l’objet rond». Pour k = 9, la décision est de le classer en tant que «croix

Mesure de similarité caractéristiques fondamentales de ce type de classificateur est l'utilisation

d'une mesure de similarité entre les documents. Les textes étant représentés sous forme vectorielle, donc comme des points dans un espace à M dimensions.

d penser à déterminer les voisins les plus proches en calculant la Une autre façon de calculer la similarité des documents

. Celle-ci est préférable en classification de

Elle permet de comparer des textes de longueurs différentes en normalisant leur

Elle met l'accent plutôt sur la présence de mots que sur l'absence de mots. (La présence de mots est probablement plus représentative de la catégorie du texte que l'absence de mots).

Comme il a déjà été mentionné, le classificateur kNN n'implique pas de phase d'entraînement en tant que telle. La seule opération préalable est le stockage des exemples d'entraînement. La plus grosse part de l'effort requis en termes de temps de calcul est

au moment de la classification.

Une des caractéristiques de l'apprentissage à base d'instances est qu'il n'y a pas de construction d'une description explicite de la fonction à apprendre (dans notre l'appartenance à une catégorie). L'avantage est qu'on n'estime pas qu'une seule fois la fonction pour tout l'espace, mais on l'estime plutôt localement et différemment pour chaque

48

» influence la décision : pour k = 5, la décision est de classer l’objet ». Pour k = 9, la décision est de le classer en tant que «croix»

caractéristiques fondamentales de ce type de classificateur est l'utilisation d'une mesure de similarité entre les documents. Les textes étant représentés sous forme

dimensions. On peut au premier d penser à déterminer les voisins les plus proches en calculant la distance euclidienne

de calculer la similarité des documents est de calculer la est préférable en classification de textes pour plusieurs

Elle permet de comparer des textes de longueurs différentes en normalisant leur

Elle met l'accent plutôt sur la présence de mots que sur l'absence de mots. (La de la catégorie du texte

n'implique pas de phase d'entraînement en tant que telle. La seule opération préalable est le stockage des exemples

l'effort requis en termes de temps de calcul est

Une des caractéristiques de l'apprentissage à base d'instances est qu'il n'y a pas de construction d'une description explicite de la fonction à apprendre (dans notre cas, l'appartenance à une catégorie). L'avantage est qu'on n'estime pas qu'une seule fois la fonction pour tout l'espace, mais on l'estime plutôt localement et différemment pour chaque

Page 59: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 49

3.1.3 Mise en place de la méthode La méthode ne nécessite pas de phase d'apprentissage. Le modèle est constitué de

trois éléments :

1) l'échantillon d'apprentissage,

2) la mesure de similarité (ou de distance),

3) la méthode de combinaison des voisins.

L'efficacité de la méthode dépend de ces trois éléments. Il faut choisir l'échantillon, c'est-à-dire les attributs pertinents pour la tâche de classification considérée et l'ensemble des instances. Il faut veiller à disposer d'un nombre assez grand d'instances par rapport au nombre d'attributs et à ce que chacune des catégories soit bien représentée dans l'échantillon choisi.

3.2 Travaux similaires Différentes solutions ont été proposées pour réduire la complexité de calcul et de

stockage mémoire. Comme indiqué dans (Bhatia & SSCS, 2010), nous distinguons les méthodes de sélection d’instances et les méthodes de réduction du temps de calcul. Les premières visent à réduire le nombre d’exemples dans la base d’apprentissage par certaines techniques d'édition en éliminant certains exemples qui sont redondant dans un certain sens (Chidananda & Krishna, 1979), (Gates, 1972). Les deuxièmes méthodes accélèrent la procédure de recherche lors de la classification par la mise en structures bien organisées de l’ensemble d’apprentissage (Liu et al., 2006), (Sproull, 1991). Cependant, pour des dimensions très importantes, l’espace requis croit d’une manière exponentielle.

Pour résoudre le problème des corpus de textes non équilibrés, nous trouvons diverses études. Par exemple, dans (Tan, 2005), on propose l’algorithme des voisins-pondérés «WkNN» Au lieu d'équilibrer les données d'entraînement, son algorithme attribue un grand poids pour les voisins de classes peu nombreuses, et attribue un faible poids pour les voisins contenues dans des catégories importantes.

3.2.1 Sélection des instances Ce type de méthode s’intéresse à surmonter le problème de limitation de mémoire en

réduisant les instances d’apprentissage en un petit sous-ensemble (Miloud-Aouidat & Baba-Ali, 2011). Les instances répétées qui n’ajoutent pas d’informations supplémentaires et celles qui n’affectent pas le résultat sont éliminées. Le classifieur, alors, utilise uniquement le nouveau sous-ensemble. Du point de vue de leur objectif, ces méthodes de sélection peuvent être divisées en deux catégories: les méthodes d'édition et les méthodes de condensation.

Page 60: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 50

Les méthodes d'édition visent à supprimer les instances bruitées et évitent les chevauchements possibles entre les régions des différentes classes. Généralement, ces types de méthodes ex. ENN et RENN (Wilson , 1972), all K-NN (Tomek, 1976), n’entrainent pas des réductions importantes dans la taille, mais produisent des groupes d’instances homogènes qui conduisent à des résultats optimaux de classification (Wilson & Martinez, 2000).

D'autre part, les méthodes de condensation, ex. CNN (Hart, 1968), SNN (Ritter et al. , 1975), IB1 ~ IB5 (Aha et al., 1991), DROP1 ~ DROP5 et DEL (Wilson & Martinez, 2000), essayent de trouver une réduction significative de l'ensemble des instances de telle façon que les résultats de classification avec kNN soient aussi proches que possible de ceux obtenus en utilisant tous les cas originaux.

Nous pouvons dire que depuis les travaux de Hart et Wilson au cours des années 60-70, de nombreuses techniques de sélection des instances ont été proposées. Mais celles-ci s'attachent essentiellement à préserver le taux de bonne prédiction, ce qui conduit souvent à évaluer la qualité d'une instance en étudiant les effets de sa suppression sur la prédiction. La conséquence en est un taux d'élimination assez faible, pour un coût de calcul en général élevé. Autrement dit, la recherche d'un compromis entre une bonne prédiction fiable et une sélection drastique dans un temps raisonnable n'a pas totalement aboutit.

3.2.2 Accélération du temps de recherche des voisins Ces méthodes visent à regrouper les descripteurs et à les englober dans des cellules

faciles à manipuler (hiérarchie). Cela permet d’éviter de considérer tous les descripteurs (ou attributs) dans la base d’apprentissage lors d’une recherche en considérant seulement les groupes ou les paquets les plus pertinents et donc on travaille seulement avec les descripteurs dans les paquets sélectionnés. Nous trouvons deux types de techniques de création des cellules : le partitionnement des données et le partitionnement de l’espace.

La technique de partitionnement des données crée des cellules en se basant sur la distribution des descripteurs et leur proximité relative dans l’espace. Dans cette catégorie, on trouve les techniques de la famille R-tree (Guttman, 1984) et X-tree (Berchtold et al. , 1996). Le principe de cette famille est la hiérarchie d’hyper-rectangles englobant et non-disjoints correspondant à la distribution des données par un arbre équilibré, les données étant au niveau des feuilles.

À l’égard des techniques de partitionnement de l’espace, on divise directement l’espace multidimensionnel en cellules plus ou moins complexes et régulières. Ces techniques sont dérivées du k-d-tree (Bentley, 1997) qui est un arbre binaire multidimensionnel consistant pour chaque niveau de l'arbre à partitionner l'espace en deux sous espaces successivement selon chaque dimension.

Page 61: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 51

Avec ces techniques d'indexation, on peut observer que les volumes et les surfaces augmentent de manière exponentielle avec la dimension de l'espace, ce qui conduit à une forte augmentation du temps de réponse des algorithmes de recherche. Au-delà d'une certaine dimension, un parcours séquentiel de l'espace devient même plus performant qu'un parcours d'index. Une autre observation révèle que le nombre de cellules obtenues par partitionnement de l'espace croît exponentiellement avec la dimension. Elle porte généralement le nom de phénomène de l'espace vide qui indique que, plus la dimension est grande, plus le nombre de cellules vides, est important.

L'analyse quantitative faite par Weber et ses collègues (Weber et al. , 1998) sur des données suivant une distribution uniforme, montre ainsi qu'à partir d'une dimension moyenne de 10, un parcours exhaustif est plus rapide qu'un parcours d'index tels que le X-tree ou le R*-tree.

3.3 Approche proposée Dans cette thèse, nous proposons une nouvelle formalisation du problème de la

classification des textes avec l’algorithme kNN, dont l’objectif est d’améliorer ses performances de classification. L’idée sous-jacente (voir Figure 3.2 ) est, au lieu de faire participer toutes les instances d’apprentissage (Figure 3.2-a) pour la recherche des k-voisins d’un nouveau document ce qui va augmenter le temps de calcul, l’espace mémoire et le bruit, nous sélectionnons un sous-ensemble d’instances (Figure 3.2-b) pour réaliser cette tâche. Le sous ensemble est censé être réduit et représentatif pour la classification.

La recherche des k-voisins implique toutes les instances d’apprentissage

La recherche des k-voisins implique seulement un sous-ensemble réduit (à l’intérieur du cercle).

nouvelle instance à classer

b. a.

Figure 3.2- Exemple illustratif pour un problème à deux dimensions.

Nous transformons ce problème de sélection d’instances en un problème de manipulation de fonctions booléennes. Ce lien entre le domaine de classification et l’algèbre de Boole sera formalisé par l’utilisation de la machine cellulaire CASI (Atmani & Beldjilali,

Page 62: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 52

2007). Dans cette approche, l’automate cellulaire est paramétré par un facteur de sélection qui va permettre, premièrement, de filtrer toutes les instances pouvant produire du bruit pendant le processus de classification, et deuxièmement, d’assurer la convergence de l’algorithme en un temps de calcul intéressant.

Ce processus de sélection consiste à ne retenir parmi l’ensemble d’apprentissage que les instances pertinentes pour la classification d’une nouvelle instance. Nous montrons que l’élimination des instances non pertinentes de la base d’apprentissage améliore de manière significative le classifieur kNN. Le principal enjeu ici est de savoir comment juger qu'un document est pertinent ou non pertinent pour une nouvelle instance.

L’idée de cette recherche se base sur les observations suivantes:

- Le nombre de termes en commun entre le document à classer et celui de l'apprentissage est un paramètre intéressant pour déterminer les documents pertinents qui seront impliqués dans le calcul des plus proches voisins.

- La similarité entre les documents est sensible au «nombre» de termes en commun. Au fur et à mesure que ce nombre augmente les documents deviennent plus semblables.

Dans notre cas, les documents non pertinents sont ceux dont le nombre total des termes d’index en commun avec le nouveau document est en dessous d'un certain seuil. Dans cette optique, un document est considéré comme un voisin candidat s’il contient une proportion importante de termes communs avec la nouvelle instance. La détermination de cette proportion de termes sera décrite dans la section 3.3.2.

Classe

Documents d’apprentissage

Nouveau document

Sélection des Instances

Classifieur kNN

CASI

Représentation Booléenne

Figure 3.3-Diagramme de flux du système CA-kNN

Comme illustré dans la Figure 3.3 , et contrairement à la méthode kNN traditionnelle la nouvelle approche que nous proposons appelée par la suite CA-kNN utilise la machine

Page 63: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 53

cellulaire CASI (Atmani & Beldjilali, 2007) tout d'abord pour représenter les instances d’apprentissage («Représentation Booléenne») et d'autre part pour extraire les documents pertinents («Sélection des Instances») pendant la classification. Les sections suivantes vont décrire les trois modules de CA-kNN: processus de représentation des documents d’apprentissage, processus de sélection et processus de classification.

3.3.1 Représentation booléenne des instances Nous proposons une nouvelle stratégie de représentation des documents

d’apprentissage; ces derniers vont être encodés dans une structure cellulaire.

L'ensemble d'apprentissage est tout d'abord prétraité pour construire l'index inversé. Nous distinguons quatre étapes :

1. établir une liste initiale de termes en effectuant une segmentation de texte en mots;

2. éliminer les mots inutiles en utilisant une liste prédéfinie de mots vides;

3. utiliser une variante de l'algorithme de Porter18 pour effectuer la racinisation des différents mots retenus;

4. pondérer les termes pour chaque document.

Puisque trop de termes sont généralement extraits, certains d'entre eux devraient être sélectionnés comme des caractéristiques représentatives. Dans le chapitre 1, nous avons cité plusieurs méthodes de sélection. Dans ce travail, les meilleurs termes (ou caractéristiques) sont sélectionnés par le gain informationnel. Les autres méthodes de sélection seront utilisées dans nos recherches futures. Une fois l'index inversé construit et réduit, nous procédons à l'encodage des documents selon la stratégie proposée.

Dans la suite de ce chapitre, nous considérons l'ensemble d'apprentissage représenté par le modèle d'espace vectoriel du Tableau 3.1.

Differential Extract Index Matrix Class = c d1 0 1 1 1 1 d2 0 1 0 0 0 d3 0 1 1 0 1 d4 1 0 0 1 0 d5 1 0 0 0 0 d6 1 0 0 1 0

Tableau 3.1-Représentation vectorielle d’un ensemble de six documents avec quatre termes d’index et une pondération binaire.

La machine cellulaire CASI a été revue et certains changements ont été mis en place. Nous avons défini trois couches d'automates finis au lieu de deux (voir Tableau 3.2) et nous

18 http://tartarus.org/~martin/PorterStemmer/

Page 64: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 54

avons modifié la définition des deux fonctions de transition δfact et δrule (voir section § 3.3.2). Nous avons nommée cette machine CAIRS («Cellular Automaton for Instance Representation and Selection»). Nous trouvons dans cette machine les composants suivants :

– La couche «CELTERM » composée de M cellules (M étant la taille du Vocabulaire), représente la base du vocabulaire (termes d'index). Les états des cellules se composent de trois parties : ET, IT, et ST étant l’entrée, l’état interne et la sortie. Initialement, toutes les entrées des différentes cellules sont passives (ET = 0).

– La couche «CELDOC » composée de N cellules (N étant le nombre de documents d’apprentissage) représente la base des documents. Cette base contient les identifiants des documents d’apprentissage. Les états des cellules se composent de trois parties : ED, ID19 et SD étant l’entrée, l’état interne et la sortie. Initialement, toutes les entrées des cellules dans cette couche sont passives (ED = 0).

– La couche «CELRULE» composée de M règles, représente la base de règles. Elle indique la présence du terme dans les documents d’apprentissage. Pour chaque

terme jt appartenant au vocabulaire, nous associons une règle jR ; elle nous

indique dans quel (s) document (s) le terme se retrouve. Les états des cellules se composent de trois parties; ER, IR et SR étant l’entrée, l’état interne et la sortie.

Selon l'exemple du Tableau 3.1, nous avons quatre règles20.

1. R1: if (term= “differential”) then d4, d5, d6 2. R2: if (term= “extract”) then d1, d2, d3 3. R3: if (term=”index”) then d1, d3 4. R4: if (term=”matrix”) then d1, d4, d6

Par exemple, la règle R1 nous indique que le mot «differential» se trouve dans les

documents d4, d5 et d6.

19 Dans le cas d’une catégorisation binaire, cet état est utilisé pour caractériser la classe du document :=1(si oui) 0(sinon) 20 le nombre de règles correspond au nombre de termes d’index

Page 65: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 55

Term ET IT ST differential 0 1 0 exact 0 1 0 index 0 1 0 matrix 0 1 0

Doc ED ID SD d1 0 1 0 d2 0 1 0 d3 0 1 0 d4 0 1 0 d5 0 1 0 d6 0 1 0

Rule ER IR SR R1 0 1 1 R2 0 1 1 R3 0 1 1 R4 0 1 1

CELTERM Layer CELDOC Layer CELRULE Layer

Tableau 3.2-Nouvel encodage des documents d’apprentissage

IM R1 R2 R3 R4

differential 1 0 0 0

exact 0 1 0 0

index 0 0 1 0

matrix 0 0 0 0

OM R1 R2 R3 R4

d1 0 1 1 1

d2 0 1 0 0

d3 0 1 1 0

d4 1 0 0 1

d5 1 0 0 0

d6 1 0 0 1

IM matrix

OM matrix

Tableau 3.3-Matrices d’entrée et de sortie

Les termes sont liés à leurs documents à l’aide de deux matrices; IM (Input Matrix)

et OM (Output matrix). La matrice IM est de dimension M××××M, tandis que la matrice OM

est de dimension N ×××× M (voir Tableau 3.3). Nous définissons ces deux matrices comme suit :

Page 66: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 56

1. Relation d’entrée : IM

{ } { }/ ; 1, , / ; 1,( ) ( , ) 1 ( , ) 0

j jt term term CELTERM j M r R R CELRULE j Mj jif t is a premise of r then IM t r else IM t r∀ ∈ ∈ = ∀ ∈ ∈ =

= =

2. Relation de sortie : OM

{ } { }/ ; 1, , / ; 1,( ) ( , ) 1 ( , ) 0

i id d d CELDOC i N r R R CELRULE j Mj jif d is a conclusion of r then OM d r else OM d r∀ ∈ ∈ = ∀ ∈ ∈ =

= =

Nous observons que dans le Tableau 3.3 la matrice OM constitue la matrice document×termes avec une pondération binaire. Chaque ligne représente le vecteur caractéristique du document d’apprentissage et chaque colonne indique l’ensemble des documents (sortie de Rj) contenant le terme tj (entrée de Rj). Par exemple, le terme «differential», qui est l'entrée de la règle R1 dans la matrice IM, se trouve dans les documents d4, d5 et d6 (la sortie de R1 dans la matrice OM).

La Figure 3.4 illustre la structure du nouvel automate CAIRS pour la représentation et la sélection des instances d’apprentissage.

Input Vicinity

Documents layer Rules layer Terms layer

CELTERM CELDOC CELRULE

IM OM

Ouput Vicinity

Figure 3.4-Automate CAIRS pour la représentation et la sélection des instances.

3.3.2 Sélection des instances Avant de procéder à la classification d’une nouvelle instance, nous utilisons le

moteur d'inférence cellulaire de CAIRS pour déterminer parmi l’ensemble des documents d’apprentissage ceux qui sont pertinents pour participer dans la classification de cette nouvelle instance.

Page 67: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 57

Ce processus que nous appelons sélection des instances nous permettra de déterminer la contribution de chaque instance d’apprentissage pour la classification d’un nouveau document.

Cette sélection découle de l’hypothèse suivante : « Le document d’apprentissage ayant un plus grand nombre de termes communs avec le document à classer est plus pertinent, celui-ci aura plus d'impact sur la performance de classification.»

Avant de décrire plus en détail ce processus de sélection, nous allons tout d'abord

donner quelques définitions.

Notations et Définitions

- Nous définissons l’ensemble { }1 2, ,..., MV t t t= comme étant l’ensemble des termes du

vocabulaire retenu pendant la phase de prétraitement et sélection des termes, avec V M=

- Nous définissons l’ensemble { }1 1 2 2( , ), ( , ),..., ( , )N ND d c d c d c= comme étant l’ensemble des

N documents d’apprentissage étiquetés avec { }1 2,, PiC C c cc ensemble des catégories∈ = L

- Nous considérons { }1 2' , ' , ...Q t t= le nouveau document non étiqueté pour lequel il faut

déterminer sa classe (appelée aussi nouvelle instance) et TNT le nombre total des termes

du vocabulaire V trouvés dans Q.

- Nous définissons un seuil ( )T η donné en équation (3.1);

( ) 1; 2TN T

T avecη ηη

= + ≥

(3.1)

- Pour toute instance d Di ∈ , nous définissons le paramètre ( )TC di donné en équation

(3.2):

( )TC d NombreTotal de termes communs avec Qi = (3.2)

- Nous définissons la pertinence d’un document d’apprentissage par rapport à Q comme

suit: un document id D∈ est pertinent s’il satisfait la condition donnée en (3.3):

( ) ( )T C d Ti η≥ (3.3)

Page 68: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 58

Processus de sélection

Algorithme 2- sélection des instances Paramètre ηηηη; Entrée

Q nouvelle instance CELTERM, CELDOC, CELRULE, IM, OM

Sortie sous-ensemble E ⊂ D

1. A=φ; E= φ; 2. Calculer T( η) 3. Initialiser CELTERM 4. Pour chaque terme d’index t dans Q faire; 5. ET(t)=1 6. Fin Pour 7. Appliquer δfact •δrule

8. Pour chaque d dans CELDOC faire 9. SI ED(d)=1 Alors 10. A=A ∪{d} 11. Calculer TC(d)= (OM(d) AND (ET) T) 12. SI TC(d) ≥T( η) Alors 13. E=E ∪{d} 14. Fin SI 15. Fin SI 16. Fin Pour 17. Sortie sous-ensemble E

Comme illustré dans l’algorithme 2, la sélection des instances se fait en deux étapes. Tout d'abord, la couche CELTERM est initialisée par activation des états «ET» des cellules correspondant aux termes du vocabulaire V et appartenant à la nouvelle instance Q. Ensuite, l'inférence cellulaire est exécutée par application de la fonction booléenne globale

δfact•δrule.

Cette opération va nous permettre de sélectionner de l’ensemble d’apprentissage D que les instances partageant au moins un terme commun avec Q. Pour ce faire, nous avons apporté des modifications aux deux fonctions booléennes δfact et δrule. Nous les avons redéfinies comme suit :

1) δδδδfact = ( ), , , , , ( , , , , , )TET IT ST ER IR SR ET IT ET ER IM ET IR SR

→ + ×

(3.4)

2) δδδδrule = ( ) ( ), , , , , ( , , , , , )ED ID SD ER IR SR ED OM ER ID SD ER IR ER→ + ×

(3.5)

Après application de ces deux fonctions nous obtenons un nouvel ensemble réduit

de documents d’apprentissage. Nous appelons cette ensemble A, avec A D≤ . Cet

ensemble est constitué de tous les documents de la couche CELDOC, dont l'état ED devient

actif après exécution de δfact•δrule.

{ }( ) 1A d D avec ED di i= ∈ =

(3.6)

Page 69: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 59

Selon l’équation (3.2), chaque document id de l'ensemble A se voit attribuer une

valeur ( )iTC d . Cette valeur correspond au nombre total de cellules actives obtenues par le

produit booléen21 du vecteur "ET" de la couche CELTERM avec le vecteur OMT du

document id .

Et selon l’équation (3.3), tout document d’apprentissage id A∈ , dont le ( )iTC d est

inférieur au seuil ( )T η est rejeté de l’ensemble final et ne peut être utilisé dans le

processus de classification. Les documents restants forment l'ensemble E.

{ }( ) ( ) ;E d A avec TC d T E Diiη= ∈ ≥ << (3.7)

Exemple illustratif

Nous considérons l’encodage des documents d’apprentissage donné dans les Tableau 3.2 et Tableau 3.3. Et nous considérons le nouveau document Q à classer contenant les termes: {index, extract}. Le processus de sélection des documents d’apprentissage est détaillé dans le Tableau 3.4.

Term 1 Differential 2 Extract 3 Index 4 Matrix

ET IT ST

0 1 0 1 1 0 1 1 0 0 1 0

Document

1 d1 2 d2 3 d3 4 d4 5 d5 6 d6

ED ID SD

1 1 0 1 1 0 1 1 0 0 1 0 0 1 0 0 1 0

2 : Rechercher documents

A= {d1, d2, d3}

OM(d1) AND (ET)T= (0, 1,1, 0)� TC(d1)= 2 OM(d2) AND (ET)T = (0, 1, 0, 0)�TC(d2)=1 OM(d3) AND (ET)T=(0, 1, 1, 0) � TC(d3)=2

3 : Sélectionner documents

E= {d1, d3} si ηηηη=2

D= {d1, d2, d3, d4, d5, d6} 1 : Initialiser CELTERM

Tableau 3.4-Exemple illustratif du processus de sélection des instances

21 Opérateur AND

Page 70: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 60

Les états de la couche CELTERM doivent être initialisés avec les termes du vocabulaire présents dans Q. Pour cet exemple, les états ET des cellules "index" et "extract" sont mis à 1 (voir le Tableau 3.4(1)). Après cela, l'inférence δfait•δrègle sera exécutée pour extraire dans un premier temps tous les documents qui partagent au moins un terme avec Q (i.e. L’ensemble A). Dans cet exemple, les documents que nous conservons pour l’étape suivante sont d1, d2 et d3; leurs états ED sont actifs (= 1); par contre les documents d4, d5 et

d6 sont ignorées (voir le Tableau 3.4(2)). Et dans un deuxième temps, le seuil T(η) est appliqué afin de réduire davantage les données d’apprentissage et obtenir l'ensemble E. Si,

par exemple, nous fixons le seuil à 12

TNT +

(dans ce cas T (η = 2) correspond à 2

12 +

=

2), nous rejetons tous les documents qui ne satisfont pas cette condition. Le classement de Q sera effectué uniquement avec d1 et d3, d2 est également supprimé de l'ensemble final des documents d’apprentissage (Tableau 3.4(3)).

3.3.3 Classification Après la phase de sélection des instances d’apprentissage pouvant participer à la

classification d’un nouveau document, nous utilisons l’algorithme kNN avec l’ensemble d’apprentissage E comme suit:

1. Si k> |E| alors l’ensemble E constitue les plus proches voisins aller à 7

2. Sinon

3. Pour chaque document id E∈ calculer sa similarité 22 avec le nouveau document Q,

4. Trier les documents selon leurs scores de similarité

5. Choisissez les k plus proches voisins de Q,

6. Fin si

7. Calculer les scores pour chaque catégorie23

8. Attribuer à Q la classe majoritaire.

L’algorithme 3 résume les principales étapes de la méthode CA-kNN.

22 Dans nos expériences, nous avons utilisé la distance euclidienne et la similarité cosinus. 23 Le calcul des scores se fait par vote majoritaire ou vote pondéré, dans ce cas le calcul de similarité est réalisé

même lorsque k>|E|

Page 71: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 61

Contrairement à la méthode classique kNN qui utilise l’ensemble d’apprentissage en

entier pour classer un nouveau document, CA-kNN procède par une étape de sélection des

instances pour récupérer celles qui vérifient la condition énoncée en 3.3.

Algorithme 3- Méthode CA-kNN : cas du vote majoritaire avec distance euclidienne

Paramètres : k nombre de voisins, η pour la sélection des documents

eD : mesure de distance euclidienne

Données : Représentation booléenne de l’ensemble d’apprentiss age D

Ensemble des catégories 1 2{ , , }C

C c c c= L Q une nouvelle instance Soit Nk(Q) l’ensemble des k plus proches voisins de Q

1. Calculer T( η)

2. Calculer l’ensemble E avec le moteur d’inférence de CAIRS

3. chaque document d dans E vérifie TC(d) ≥T( η)

4. Si |E| ≤ k alors Nk(Q)=E

5. Sinon

6. Charger la représentation vectorielle Eur

de l’ensemble E

7. Pour chaque document dur

dans Eur

8. Calculer ( , )e iD d Quur uur

9. Fin pour

10. Trier et sélectionner les k-plus proches voisins :

11. Nk(Q)= min { ( , )}d E e kArg D d Q∈

ur ur

12. Fin Si

13. Pour chaque kc dans C

14. Calculer son score dans l’ensemble Nk(Q)

15. Fin pour

16. Affecter à Q la classe ayant le meilleur score

Dans l’algorithme 3, nous remarquons que le choix des k plus proches voisins se fait

avec l’ensemble E qui est censé être représentatif et en même temps constitue un minimum

d’instances par rapport à l’ensemble initial D. L’approche adoptée permet de gagner en

compression ce qui conduit à améliorer les temps de classification. Avec N instances

d’apprentissage de dimension M, théoriquement, La méthode kNN classique nécessite

O(kMN) pour la classification d’une nouvelle instance ; O(M) pour calculer la similarité

Page 72: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 62

(ou la distance) pour une instance; O(N) pour trier les N documents et O(k) pour calculer les

scores de chaque catégorie.

Dans notre cas, nous considérons le temps de sélection des instances plus le temps

de classification de la nouvelle instance. Cette instance est exécutée en un temps O(kM|E|).

Sachant que |E| << |D| ce temps de classification va être très réduit en plus si l’ensemble E

est de taille inférieur à k, la complexité est de l’ordre de O(k) qui est négligeable par

rapport à O(kMN).

3.4. Études expérimentales et Résultats Dans cette section, nous allons montrer à travers un ensemble d’expériences que

l’approche CA-kNN permet de sélectionner un minimum d’instances sans que la performance prédictive du système n’en soit affectée.

Dans le contexte de la catégorisation de textes, nous avons entrepris plusieurs expériences avec plusieurs corpus.

3.4.1 Corpus Ling-spam LingSpam est librement disponible et a été utilisé dans de nombreuses études

(Androutsopoulos et al. , 2000), (Sakkis et al. , 2001), (Sakkis et al. , 2003), (Zhang et al., 2004). Il se compose de 2412 e-mails légitimes et 481 spam. Dans ce corpus la classe des e-mails légitimes est plus grande que celle des spam. Les spam ne représentent que 16% de l'ensemble des données.

3.4.1.1 Mesures de performances et méthodologie

Dans le cas du corpus LingSpam, nous mesurons plusieurs indicateurs de performance de classification (§1.6): le rappel de la classe spam (SR), la précision de la classe spam (SP), la F-mesure de la classe spam (F1) et, enfin, l’exactitude (A) (voir équations 3.8, 3.11).

Nous considérons les notations suivantes :

- N(LL) : le nombre d’emails légitimes classés légitimes (vrai négatifs),

- N(SS) : le nombre de spam classés spam (vrai positifs)

- N(LS): le nombre d’emails légitimes classés Spam (faux positifs) et

- N(SL) le nombre d’emails spam classes légitimes (faux négatifs),

Alors nous avons :

Page 73: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 63

( )(3 .8 )

( ) ( )

N SSSP

N SS N L S=

+

( )(3.9)

( ) ( )

N SSSR

N SS N SL=

+ 2

1 (3.10)SP SR

FSP SR

× ×=+

( ) ( )(3 .11)

( ) ( ) ( ) ( )

N SS N LLA

N SS N L L N SL N L S

+=+ + +

En outre, nous avons mesuré le taux des Vrai positifs (TPR) qui est le nombre de messages de spam correctement détectés, divisé par le nombre total de spam (indiqué dans l'équation 3.12). Nous avons aussi mesuré le taux des faux positifs (FPR), qui est le nombre de messages légitimes classés comme spam, divisé par le nombre total de courriels légitimes (indiqué dans l'équation 3.13) et le taux du coût total (TCR)24, qui est le nombre total de spam divisé par la somme du nombre des e-mails légitimes considérés comme des spam et le nombre de spam classés comme légitimes (indiqué dans l'équation 3.14). Des valeurs plus importantes du TCR indiquent une meilleure performance.

( )(3.12)

( ) ( )

N SSTPR

N SS N SL=

+

( )(3 .13)

( ) ( )

N LSFPR

N LS N LL=

+

( ) ( )(3 .14 )

( ) ( )

N SS N SLT C R

N L S N SL

+=+

Pour le prétraitement, nous avons effectué un stemming de Porter, utilisé une stop-list, et à l’aide de la méthode de sélection gain informationnel, nous avons réduit le vocabulaire puis pondéré les termes retenus avec une pondération binaire. Nous avons utilisé la distance euclidienne pour la recherche des k voisins (équation 3.15) et appliqué le vote majoritaire pour déterminer la classe du nouveau courriel (3.16).

2( , ) ( ( ) ( )) ;

( ) : ; ( ) :

i t t it V

t t i i

eD Q d p Q p d

p Q le poids du terme t dans Q p d le poids du terme t dans d D

= −

∑ (3.15)

{ , }

( , )

1si d est de classe c( , )

0 sinon

k i

i kk i

d kNNi ck spam légitime

c ArgMax y c d

y c d

∈ ∈

=

=

∑ (3.16)

Nous avons effectué nos expériences par validation-croisée en divisant aléatoirement le corpus en 10 parties égales, l’apprentissage est réalisé sur 9 parties, le test sur la 10ème. Les résultats présentés par la suite sont la moyenne des résultats obtenus sur les 10 ensembles de validation-croisée.

24Nous considérons TCR avec λ =1

Page 74: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 64

3.4.1.2 Sélection des instances d’apprentissage

Pour prédire la catégorie d’un document Q de l’ensemble de test avec la méthode CA-kNN, nous sélectionnons tout d’abord le sous ensemble E des instances d’apprentissage avec l'algorithme 2 décrit dans (§ 3.3.2).

Dans ces expériences, nous considérons η=2. Le taux moyen des instances sélectionnées et des instances rejetées de l’ensemble d’apprentissage en fonction de la taille du vocabulaire est présenté dans la Figure 3.5. Nous constatons que l'algorithme proposé pour la sélection des instances a une grande capacité de réduction des données d’apprentissage. Il réduit l’ensemble d’apprentissage jusqu'à 40% lorsque la taille du vocabulaire est égale à 50 termes et jusqu'à 20% lorsque celle-ci dépasse 200 termes.

Figure 3.5- Réduction des instances d’apprentissage en fonction de la taille du vocabulaire dans le cas de η=2.

Malgré cette réduction drastique des données d’apprentissage, nous allons montrer dans les expériences suivantes que ce processus ne dégrade pas les performances de classification mais au contraire une amélioration est constatée par rapport à la méthode traditionnelle k-plus proches voisins.

3.4.1.3 Impact de la réduction des termes et le seuil k sur la performance de CA-kNN

Dans ces expériences nous étudions et analysons l’impact de la taille du vocabulaire et le seuil k sur la performance de CA-kNN. Nous avons mené plusieurs expériences avec plusieurs configurations, en variant la taille du voisinage (k) de 1 à 33, et en fournissant au classifieur les m meilleurs termes sélectionnés avec le gain informationnel (IG).

Nous avons fait varier m de 50 à 100 par pas de 50 et de 100 à 500 par pas de 100. Les figures 3.6 et 3.7 illustrent les courbes de performance de l'algorithme proposé avec

η=2 sur les données LingSpam.

Comme on peut le voir sur les deux figures suivantes, l’exactitude et la F1-mesure ont les meilleurs résultats avec des valeurs inférieures de k (entre 3 et 7) et des valeurs plus

Page 75: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 65

élevées de m. Lorsque k augmente, il ya une faible diminution des performances. Nous avons constaté que notre algorithme est bon en terme d'exactitude (99%) et F1-mesure (95,99%), lorsque k prend la valeur 5 et m prend la valeur 500.

Figure 3.6-La mesure F1 en fonction du seuil k et le nombre de termes

Figure 3.7-L’exactitude en fonction du seuil k et le nombre de termes

3.4.1.4 Comparaison des performances

Nous avons également mis en œuvre l’algorithme kNN pour pouvoir le comparer avec CA-kNN. Nous avons construit une représentation vectorielle en utilisant la pondération binaire et la distance euclidienne pour sélectionner les voisins les plus proches.

Le Tableau 3.5 représente les configurations ayant donné les meilleures performances pour les deux cas CA-kNN et kNN. Les expériences montrent que la méthode traditionnelle

Page 76: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 66

kNN atteint sa meilleure performance lorsque k est égal à 13 avec un nombre de termes égal à 50 par contre CA-kNN atteint sa meilleure performance lorsque k = 5 et m = 500.

D'après les résultats du Tableau 3.5, nous constatons que la méthode CA-kNN améliore de manière significative les performances de classification, à l'exception de la précision du spam qui est légèrement inférieur.

CA-kNN permet d’obtenir un plus grand rappel de spam (97,1%), une plus grande mesure F1 (95,99%), et une plus grande exactitude (99,0%). Le TCR obtenu montre une différence significative entre notre méthode CA-kNN et la méthode traditionnelle. CA-kNN atteint un ratio de 12,59 qui est plus important comparativement à celui de kNN (3,64).

Meilleures configurations de kNN et performances correspondantes K M SR(%) SP(%) F1(%) A(%) TCR 13 50 73,39 98,88 84,25 95,05 3,64

Meilleures configurations of CA-kNN et performances correspondantes K M SR(%) SP(%) F1(%) A(%) TCR 5 500 97,1 94,9 95,99 99,0 12,59

Tableau 3.5-Performance de CA-kNN et kNN avec les meilleures configurations sur LingSpam

Les Figures 3.8, 3.9 et 3.10 représentent respectivement la F1-mesure, l’exactitude et le

TCR pour les deux techniques CA-kNN et kNN. Nous observons que les meilleurs résultats

sont obtenus avec 50 termes dans le cas de kNN et 500 termes dans le cas de CA-kNN. Nous

observons que quel que soientt les valeurs prises par K, notre méthode est meilleure que kNN.

Il est clair que la sélection d’un sous ensemble de documents d’apprentissage pour la

classification d’une nouvelle instance a permis d’obtenir de meilleures performances de

classification.

Page 77: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 67

Figure 3.8 - La F1-mesure dans le cas de CA-kNN et kNN

Figure 3.9- L’exactitude dans le cas de CA-kNN et kNN

Figure 3.10 -Le TCR dans le cas de CA-kNN et kNN

3.4.1.5 Comparaison avec des travaux publiés

Pour évaluer la contribution de l'algorithme proposé pour le filtrage de spam (Subramaniam et al. , 2010), nous comparons dans un premier temps, la méthode CA-kNN avec d’autres solutions que nous avons présentées dans (Barigou et al., 2011a), (Barigou et al., 2011b), (Barigou et al., 2012c) et dans un deuxième temps nous la comparons avec les meilleurs résultats déclarés et publiés dans (Androutsopoulos et al. , 2000), (Sakkis et al., 2001), (Schneider, 2003), (Cormack & Lynam, 2007) et (Santos et al. , 2012).

Le Tableau 3.6 souligne davantage la performance de la méthode CA-kNN (Barigou et al., 2012d) par rapport aux travaux que nous avons entrepris dans le contexte de filtrage de spam. Les résultats indiquent une amélioration des performances avec CA-kNN. Bien que la précision soit légèrement en dessous de celle de SPAMAUT (Barigou et al. , 2011a),

Page 78: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 68

(Barigou et al., 2011b) et 3CA-1NB (Barigou et al., 2012b), (Barigou et al., 2012c), il est clair que l’exactitude, le rappel et la F1-mesure sont supérieurs à ceux de référence.

Méthode SP SR A F1

SPAMAUT 98,1 85,3 97,1 90,6 3CA-1NB 98,2 89,2 98,0 94,0 CA-kNN 94,9 97,1 99,0 95,99

Tableau 3.6-Performance de classification de CA-kNN comparée avec SPAMAUT et 3CA-1NB

Dans le tableau 3.7, nous comparons CA-kNN avec d’autres méthodes de filtrage. Nous n’avons retenu dans cette comparaison que les travaux utilisant le corpus LingSpam. Nous donnons les meilleurs résultats déclarés pour l’exactitude, le taux des vrais positifs et le taux des faux positifs. K se réfère à la taille du voisinage pour le classifieur kNN, m est le

nombre de termes utilisés pour représenter les emails et lambda (λ) détermine la rigueur du critère pour classer un message comme spam.

Modèle Configuration A (%) TPR FPR (Androutsopoulos et al. , 2000) λ=1

λ=9 λ=999

97,06 96,33 94,19

0,83 0,78 0,65

0,08 0,08 0

(Sakkis et al., 2001) K=5, λ=1, m=100 K=3,λ=9 and m=200 K=7,λ=1 and m=300 K=3,λ=9 and m=100

98,06 97,20 84,89 97,30

0,92 0,84 0,90 0,85

0,01 0,01 0,16 0,01

(Schneider, 2003) Bernoulli mv-MI mn-MI dmn-MI TF-MI DTF-MI

98,00 98,86 98,06 85,52 98,79 98,48

0,89 0,96 0,93 0,17 0,96 0,95

0,01 0,01 0,01 0,01 0,01 0,01

(Cormack & Lynam, 2007) SpamAssassin BogoFilter SpamProb CRM 114

84,1 90,1 94,8 81,5

0,04 0,40 0,69 88,8

0 0 0 0,45

(Santos et al. , 2012) Bayesian Network Random Forest

N=10

99,26 98,72

0,97 0,94

0,00 0,00

CA-kNN K=5, m=500 99,00 0,97 0,00

Tableau 3.7- Comparaison de CA-kNN avec des résultats publiés sur LingSpam.

Les meilleurs résultats obtenus par (Androutsopoulos et al., 2000b), (Sakkis et al., 2001), (Schneider, 2003), (Cormack & Lynam, 2007) et (Santos et al. , 2012) sont comparés avec ceux de la méthode CA-kNN. D’après le Tableau 3.7, les résultats indiquent une meilleure performance lors de la classification avec CA-kNN.

Page 79: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 69

Par rapport aux travaux de (Androutsopoulos et al., 2000), (Sakkis et al., 2001), (Schneider, 2003), (Cormack & Lynam, 2007) les résultats indiquent une amélioration des performances. Par rapport à (Santos et al., 2012), les résultats montrent une très légère différence dans l’exactitude. On note que les auteurs dans (Santos et al., 2012) intègrent des informations sémantiques dans la représentation vectorielle ce qui nécessite plus de traitement et d'espace de stockage. En revanche, sans aucune information sémantique, et en utilisant uniquement un modèle booléen très simple nous obtenons des résultats plus intéressants avec un stockage mémoire plus réduit.

3.4.2 Corpus Reuters et 20-NewsGroups

Pour ces deux corpus, nous avons utilisé la version fournie par Ana Cardoso25 :

- Reuters Reuters existe en plusieurs versions, il y a des versions qui traient 91 catégories, d’autres

qui traitent 52 catégories, nous avons fait les expériences avec la version R8, avec 8 catégories, il faut noter que les catégories « earn » et la catégorie « acq » occupent la plus grande partie du corpus.

Catégorie % catégorie Nombre de docs Acq 30% 2292 Crude 4% 374 Earn 51% 3923 Grain 1% 51 Interest 3% 271 money-fx 3% 293 Ship 1% 144 Trade 4% 326 Total 7674

Tableau 3.8-Répartition des catégories dans Reuters 8

- 20News-Groups

Le corpus 20News-Groups traite 20 catégories, chaque catégorie représente 5% du corpus, le Tableau 3.9 représente le contenu du corpus en détail;

Catégorie % catégorie Nombre de docs alt.atheism 5% 799 comp.graphics 5% 973

25 http://web.ist.itl.pt/~acardoso/datasets

Page 80: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 70

comp.os.ms-windows.misc 5% 966 comp.sys.ibm.pc.hardware 5% 982 comp.sys.mac.hardware 5% 963 comp.windows.x 5% 985 misc.forsale 5% 975 rec.autos 5% 989 rec.motorcycles 5% 996 rec.sport.baseball 5% 994 rec.sport.hockey 5% 999 sci.crypt 5% 991 sci.electronics 5% 984 sci.med 5% 990 sci.space 5% 987 soc.religion.christian 5% 996 talk.politics.guns 5% 909 talk.politics.mideast 5% 940 talk.politics.misc 5% 775 talk.religion.misc 5% 628

Total 18828

Tableau 3.9-Répartition des catégories dans 20NewsGroups

3.4.2.1. Méthodologie d’évaluation

Dans le cas du corpus Reuters, les expériences sont réalisées avec 70% du corpus pour l’entrainement soit 5483 documents et 30% pour le test.

Dans le cas du corpus 20NewsGroups, les expériences sont réalisées avec 80% du corpus pour l’entrainement soit 16899 documents et 20% pour le test.

Pour les deux corpus, nous avons pondéré les termes avec la mesure TFC (voir équation 1.3 chapitre 1), et calculé la similarité avec la mesure cosinus (équation 3.17). Le score pour

chaque catégorie kc est calculé par un vote majoritaire pondéré par la similarité des documents

de cette classe (équation 3.18). ( ) ( )

( , )2 2( ) ( )

p Q p dt t it Vsim Q di

p Q p dt itt V t V

×∑∈

=×∑ ∑

∈ ∈

(3.17)

)( ( , ) ( , )

( , ) 1

0 s in o n

sco re c s im Q d y d ci ik kdi kN N

y d c s i d es t d e c la sse ci ik k

= ×∑∈

=

(3.18)

Les différentes expériences ont été réalisées en faisant varier les paramètres η et k et le nombre de termes du vocabulaire.

Page 81: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 71

On évalue la méthode de sélection d’instances selon trois axes : la performance prédictive (i.e. le taux de bonne classification en termes de précision, rappel, exactitude et F-mesure), le taux de compression (i.e. le taux de réduction de l’ensemble d’apprentissage) et le temps de classification.

Nous avons calculé, pour chaque classe la précision, le rappel, l’exactitude, la F-mesure et l’erreur. La précision, le rappel, l’exactitude, la F-mesure et l’erreur par rapport à toutes les classes, notés respectivement P, R, A, F et E sont calculés à travers une moyenne des résultats obtenus pour chaque catégorie.

3.4.2.2. Résultats expérimentaux

Le taux de compressions du corpus Reuters est reporté dans la Figure 3.11. Nous avons fait varier le paramètre η et le nombre de termes retenus pendant l’indexation.

Le taux de compression augmente avec le nombre de termes à l’exception du nombre 300 où nous constatons une légère chute. Ce taux de compression est plus grand

avec des valeurs plus petites du paramètre η, ce qui est logique avec les équations 3.1 et 3.3.

Avec des valeurs plus petites de η, le seuil T(η) est plus grand ce qui va réduire encore l’ensemble de documents vérifiant l’équation 3.3.

En général, nous constatons qu’en moyenne ce taux varie entre 87% et 93% pour

η=2, 79% et 86% pour η=3, 74% et 79% pour η=3, 67% et 73% pour η=5.

Figure 3.11-Taux de compression des documents d’apprentissage du corpus Reuters en fonction de η et du nombre de termes.

Nous avons étudié les performances de classification en faisant varier le nombre de termes et le paramètre η. Les résultats indiquent que les meilleures performances sont

obtenues lorsque η=5 avec 600 termes dans le cas de Reuters et 700 termes dans le cas de 20NewsGroups.

Page 82: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 72

K A(%) E(%) R(%) P(%) F(%) Temps Méthode

K=1

98,23 1,76 86,48 84,42 85,89 483 CA-kNN

98,01 1,98 83,23 83,12 83,24 1392 KNN

K=5 98,63 1,36 88,66 89,10 88,88 492 CA-kNN

98,40 1,59 83,06 87,00 84,98 1442 KNN

K=10 98,81 1,18 86,82 91,13 88,92 510 CA-kNN 98,42 1,57 82,99 86,27 84,60 1743 KNN

K=21 98,87 1,12 89,23 92,27 90,73 532 CA-kNN

98,53 1,46 83,38 88,75 85,98 1748 KNN

K=30 98,94 1,05 89,48 93,28 91,34 570 CA-kNN 98,70 1,29 85,12 92,17 88,50 1753 KNN

K=60 98,90 1,09 88,58 92,72 90,61 572 CA-kNN

98,69 1,30 85,12 93,02 88,90 1768 KNN

K=100 98,79 1,20 80,81 91,88 85,99 575 CA-kNN 98,70 1,29 83,76 93,66 88,43 1788 KNN

K=200 98,64 1,35 77,65 90,68 83,66 588 CA-kNN

98,53 1,46 76,24 92,35 83,53 1830 KNN

Tableau 3.10- Résultats de classification de 2191 documents Reuters en fonction du seuil K avec η=5

K A (%) E (%) R (%) P(%) F(%) Temps Méthode

K=1 97,89 2,10 78,70 78,76 78,73 1037 CA-kNN

97,59 2,40 75,82 76,10 75,96 5275 KNN

K=5 97,93 2,06 78,66 78,99 78,83 1097 CA-kNN

97,74 2,25 76,76 77,13 76,95 5424 KNN

K=10 97,88 2,11 78,18 78,93 78,55 2040 CA-kNN 97,64 2,35 75,78 76,45 76,12 5585 KNN

K=18 97,61 2,38 75,40 75,76 75,58 2044 CA-kNN

97,33 2,66 72,77 73,27 73,02 5724 KNN

K=30 97,70 2,29 76,06 77,47 76,76 2058 CA-kNN 97,30 2,69 72,16 72,99 72,57 6450 KNN

K=60 97,49 2,50 73,91 74,96 74,43 2062 CA-kNN

97,19 2,80 71,19 71,76 71,48 6734 KNN

K=100 97,59 2,40 74,86 77,56 76,19 2084 CA-kNN 97,31 2,68 72,08 73,15 72,61 8356 KNN

K=200 97,52 2,47 74,04 77,21 75,59 2095 CA-kNN

97,24 2,75 71,20 72,80 71,99 10623 KNN

Tableau 3.11- Résultats de classification de 1929 documents de 20NG en fonction du seuil k

Page 83: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 73

Le Tableau 3.10 regroupe les résultats de performance obtenus pour le corpus Reuters et le Tableau 3.11 ceux de 20Newsgroups avec la méthode classique kNN et la méthode CA-kNN dans le cas de η=5.

Nous en dégageons deux résultats : - Le premier concerne l’efficacité de notre approche; la qualité de prédiction est

meilleure que celle du classifieur kNN alors que l’approche utilise un minimum d’instances d’apprentissage (27,22% contre 100% pour le corpus Reuters et 12% pour le corpus 20NG ) sans que la performance prédictive n’en soit affectée. Les meilleurs résultats sont obtenus avec k=30 dans le cas du corpus Reuters et k=5 pour le corpus 20Newsgroups. Nous avons obtenu une macro-F1-mesure égale à 91,34% pour le premier corpus et 78,83% pour le deuxième corpus.

- Le deuxième concerne la réduction du temps de classification (mesuré en secondes)

obtenue grâce à la réduction drastique des instances d’apprentissage (72,78% pour Reuters et 88% pour 20NG). Les tableaux 3.10 et 3.11 montrent que l’écart entre les résultats avant et après application de la sélection sont suffisamment significatifs : par exemple, dans le Tableau 3.10, lorsque k=1 nous observons que la méthode CA-kNN a besoin de 483 secondes (environ 8 minutes) pour classer 2191 documents du corpus Reuters alors que la méthode kNN nécessite 1392 secondes (23 minutes) soit un écart de 15 minutes.

Les Figures 3.12 et 3.13 montrent bien l’intérêt de la méthode CA-kNN pour la réduction du temps de classification. Nous observons dans ces figures la contribution de la méthode CA-kNN pour l’accélération du temps de classification.

Comparée à la méthode kNN, il est clair que CA-kNN améliore les performances de classification avec moins de temps de classification. Les écarts du coût temps de classification entre kNN et CA-kNN deviennent de plus en plus significatifs dans le corpus 20NewsGroups, ceci est dû à la taille de ce corpus. Plus le nombre de documents d’apprentissage est grand, plus le cout de la méthode kNN augmente puisqu’elle implique tous ces documents dans la catégorisation d’une nouvelle instance, à l’inverse la méthode CA-kNN reste toujours plus rapide et plus performante.

Page 84: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 74

Figure 3.12-Variation du temps de classification en fonction du seuil K dans le cas du corpus Reuters

Figure 3.13-Variation du temps de classification en fonction du seuil k dans le cas du corpus 20NG

Ces résultats très intéressants sont obtenus grâce à la réduction de l’ensemble d’apprentissage avant la recherche des k plus proches voisins. Rappelons que la réduction est en moyenne égale à 88% sur 20 NewsGroups, et 73% sur Reuters lorsque η=5.

Pour mieux voir l’impact de cette réduction sur les couts temps nous donnons un extrait des résultats de la catégorisation de l’ensemble test du corpus Reuters dans le Tableau 3.12.

Prenons, par exemple, le document identifié par «001900» de l’ensemble des documents de test Reuters, nous constatons clairement que la réduction du nombre de documents d’apprentissage est très importante, CA-kNN a retenu que 39 documents parmi 5483 pour la recherche des k voisins qui vont participer dans la prédiction de sa classe, alors que la méthode traditionnelle utilise tout l’ensemble d’apprentissage soit 5483 instances pour classer ce document, ceci explique pourquoi la méthode proposée a pris 1/16 moins de temps que le kNN classique pour catégoriser ce texte.

Document

Nombre de doc. retenus Temps de classification (µs) CA-kNN kNN CA-kNN KNN

001900 39 5483 45651,27 734752,99 001746 2190 5483 365763,91 770345,89 001038 2790 5483 479076,68 764007,28 000380 79 5483 48350,38 773454,72

Tableau 3.12-Un extrait des résultats de classification pour le corpus Reuters

Page 85: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Catégorisation de textes : CA-kNN 75

Pour ce document si le seuil k est supérieur à 39, nous n’avons pas besoin de chercher ses voisins ; l’ensemble des 39 documents sélectionnés forment l’ensemble des plus proches voisins ; ce qui va réduire encore le temps de calcul. Par exemple, dans le cas d’un vote majoritaire, nous n’avons pas besoin de calculer la similarité et trier les scores pour déterminer les k premiers voisins. Nous calculons tout simplement la classe majoritaire de ces 39 documents.

3.5. Discussion et Conclusion Dans cette étude, nous avons proposé une nouvelle approche pour améliorer les

performances du classifieur des K plus proches voisins. Nous l’avons nommé CA-kNN. Contrairement à la méthode kNN qui fait participer tout le corpus d’apprentissage pour la recherche des voisins les plus proches, l’idée de cette nouvelle solution se base sur la pertinence des documents d’apprentissage pour la classification des nouvelles instances. Dans notre cas nous n’allons pas faire participer tout l’ensemble d’apprentissage pour classifier une nouvelle instance mais seulement un sous ensemble vérifiant la condition de pertinence.

Les expériences sur différents corpus comme LingSpam, Reuters, et 20NewsGroups ont montré que notre méthode est compétitive en termes de performance prédictive, tout en sélectionnant un minimum d’instances.

En utilisant le modèle cellulaire de l’automate CAIRS pour représenter les documents d’apprentissage et pour sélectionner les instances pertinentes pour la classification, nous avons montré que notre méthode améliore non seulement la classification, mais aussi accélère le temps de cette classification.

Nos principales contributions dans ce travail peuvent être résumées ainsi :

1. Nous proposons et développons une technique de classification qui améliore les performances de classification de l’algorithme kNN tout en réduisant le temps de classification;

2. En se basant sur l’automate cellulaire CAIRS, nous proposons un moteur d'inférence cellulaire qui nous permet de sélectionner rapidement de la base d’apprentissage les documents pertinents pour la classification; La manipulation des variables booléennes est très rapide, ce qui explique la rapidité de CA-KNN lors du processus de sélection;

3. Nous améliorons les performances de classification kNN en sélectionnant les documents pertinents. CA-KNN améliore la précision, le rappel, l’exactitude et diminue le taux d’erreur en plus de l’amélioration des temps de classification.

Page 86: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

4444.... Extraction d’informationExtraction d’informationExtraction d’informationExtraction d’information

médicalemédicalemédicalemédicale : CAMNEE: CAMNEE: CAMNEE: CAMNEE

Nous avons vu dans le chapitre 2 que le but des travaux en extraction

d’information est de développer des méthodes et des outils visant à extraire automatiquement des informations à partir de textes écrits en langue naturelle. Parmi la variété d’écrits, Nous avons fait le choix d’axer cette étude sur le domaine médical, en travaillant sur des documents spécifiques, les comptes rendus hospitaliers.

Une quantité importante d'informations concernant l'histoire médicale des patients

se trouve sous forme de comptes rendus insérés dans des dossiers médicaux. Le compte rendu hospitalier (CRH) représente une source de connaissances très utiles dans plusieurs applications comme la recherche d’information, la prise de décision, les études épidémiologiques et la fouille de données. Mais, le fait que ces comptes rendus se présentent sous forme de textes en langage libre, et non de données informatiques structurées, empêche l'accès direct à ces informations. Ainsi, un système efficace pour extraire des informations structurées peut fortement contribuer au développement de ces applications.

Notre intérêt qui porte sur l’extraction des entités nommées et leurs propriétés, est

principalement motivé par la conviction qu'elle peut être fructueusement appliquée à la littérature médicale, en particulier les comptes rendus hospitaliers qui intègrent un nombre important d’information. Ces entités représentent des patients, des maladies, des symptômes ou encore des médicaments.

Il ya trois raisons principales pour lesquelles nous avons jugé important d’extraire

ce type d’entités à partir des CRH.

Page 87: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 77

Tout d'abord, nous savons que ces rapports représentent une source de connaissances précieuses qui peut être utilisée dans plusieurs applications, comme la recherche d'information, l’aide à la décision, l'analyse statistique, et la fouille de données. Mais les textes des CRH sont difficiles à analyser en raison de leur grand volume et leur nature non structurée.

Deuxièmement, nous pensons qu'un tel système pour extraire ces entités peut être très utile pour ces applications. Il permettra aux chercheurs d'accéder à l'information requise, et permettra aussi de réduire le temps pour la prise de décision au sujet des patients.

Troisièmement, la plupart des travaux sur l'extraction d'entités nommées ont été faits pour la langue anglaise. Les recherches sur le langage médical français sont encore dans les phases initiales.

Pour toutes ces raisons, nous proposons une approche originale pour faire de l’extraction à partir des CRH écrits en français. Nous proposons la machine cellulaire CASI (Atmani & Beldjilali, 2007) pour extraire les entités nommées et leurs propriétés. Nous étudions dans ce chapitre comment nous avons adapté cette machine pour réaliser ce type d’extraction.

Notre objectif dans cette étude est donc d’apporter une contribution au problème de l’extraction d’information à partir des comptes rendus hospitaliers écrits en français. Dans ce but, nous avons d’abord dégagé et examiné l’ensemble des caractéristiques linguistiques de ce type de texte. Ensuite, nous avons cherché à comprendre et à analyser les techniques existantes d’extraction d’information vis-à-vis de tels textes. La méthode d’extraction CAMNEE («Cellular Automata for Medical Named Entity Extraction») que nous avons développée est le résultat de cette démarche.

L’originalité du travail réside dans la proposition de la machine cellulaire CASI, d’une part, comme un modèle booléen pour la représentation des règles d’extraction des informations médicales, et, d’autre part, comme un moteur d’inférence booléen pour l’extraction des informations médicales à partir des comptes rendus hospitaliers. Les résultats de cette étude sont publiés dans (Barigou et al., 2012e).

Nous présentons tout d’abord les travaux similaires existant dans ce domaine, ensuite nous entamons la description de notre démarche pour l’extraction des entités et son évaluation.

4.1. Travaux similaires Le domaine médical constitue l’un des domaines de spécialité les plus importants

et les plus traités depuis l’essor de l’informatique. Il se caractérise par une terminologie riche et complexe qui ne cesse en outre de croître du fait des évolutions rapides des

Page 88: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 78

recherches qui y sont menées. Cette terminologie se révèle d’une utilité prépondérante dans le traitement de l’information médicale, contribuant comme source de connaissances pour de nombreux travaux consacrés principalement au traitement automatique de la langue médicale (Zweigenbaum, 2009).

La richesse et la complexité du vocabulaire médical ont conduit depuis de nombreuses années au développement d’un ensemble important de ressources terminologiques et lexicales telles que le MeSH 26 ou l’UMLS27 . Ces ressources ont été constituées dans le but d’une part, de normaliser la terminologie médicale et d’autre part, de faciliter l’accès à l’information médicale, l’utilisation de ces ressources permet d’identifier plus facilement dans les textes les termes médicaux.

La reconnaissance des entités nommées a suscité l'intérêt de nombreux chercheurs, beaucoup de travaux de recherches ont été publiés sur cette technologie (Chau et al, 2002). Bien que la plupart du temps testé sur des entités générales comme les noms de personnes, de lieux, d’organisations, de dates, d’heures, et d’expressions numériques (Knirsch et al., 1999), elle a également été utilisée avec des résultats prometteurs, dans des textes médicaux et biomédicaux pour extraire des entités telles que les noms de gènes, de protéines, des maladies et des symptômes. La REN a été appliquée aux dossiers médicaux et autres documents cliniques, tels que les rapports de radiologie et de mammographie. Les auteurs dans (Meystre et al. , 2008) nous présentent une revue des recherches récentes sur l'extraction d'information à partir des rapports médicaux.

Dans le domaine biomédical, la majorité des travaux existants ont été axées sur la détection des gènes et des protéines, par exemple dans le système ABgene (Tanabe & Wilbur, 2002) on appliquait des règles fondées sur des caractéristiques lexico-syntaxiques aidant à mieux cerner le contexte dans lequel les noms de gènes sont utilisés. Dans le système EDGAR (Rindfleisch et al. , 2000) on extrait les noms de médicaments, des gènes et les relations pouvant exister entre ces deux types d’entités.

Dans le cas des approches à base de règles, nous constatons qu’il ya eu un gros effort dans le traitement des rapports cliniques. Beaucoup de systèmes utilisant le TAL ont été développés, y compris MedLEE (Friedman et al., 1994), SymTex (Haug et al. , 1997), et MetaMap (Aronson, 2001).

Le système MedLEE (Friedman et al. , 1994) a été utilisé d’une part par (Knirsch et al. , 1999) sur les dossiers des patients pour identifier ceux atteints de la tuberculose. Et d’autre part, par (Jain & Friedman, 1997) pour identifier les patients atteints du cancer du sein. Les chercheurs utilisent des techniques du traitement automatique du langage naturel

26 http://www.nlm.nih.gov/mesh/ 27 http://www.nlm.nih.gov/databases/umls.html

Page 89: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 79

pour extraire les entités utiles à partir des rapports de radiologie et de mammographie pour identifier les patients atteints. Une approche similaire a été utilisée dans (Chapman et al. , 2004), cette fois-ci, pour la détection automatique de la fièvre à partir des rapports cliniques et donc la possibilité de détecter l'existence des maladies infectieuses chez les patients concernés. MedLEE fut aussi combiné avec un système de traduction automatique pour détecter des résultats anormaux dans les rapports de radiologie portugais (Castilla et al., 2007).

Dans (Shadow & MacDonald, 2003), les auteurs présentent une approche basée sur le système MetaMap pour l'extraction des entités médicales appartenant à 20 classes différentes à partir des rapports médicaux pathologistes. Une autre approche utilisant ce même système avec un algorithme de détection de la négation NegEx est proposée dans (Meystre et al. , 2008). On a obtenu un rappel de 89,9% et 75,5% de précision pour l'extraction des problèmes médicaux.

Embarek et Ferret dans (Embarek & Ferret, 2008), proposent une approche reposant sur les motifs linguistiques pour l'extraction des entités médicales appartenant à cinq classes: maladie, traitement, médicament, test, et symptôme.

Une partie de la recherche actuelle en EI médicale se concentre sur l'extraction des noms de médicaments prescrits. Les travaux de recherche les plus représentatifs comprennent ceux de (Chhieng et al., 2007), (Levin et al., 2007) et (Xu et al. , 2010).

Chhieng et ses collègues (2007) identifient les noms de médicaments dans les notices cliniques en utilisant l’appariement entre chaînes de caractères. Ils ont rapporté une précision de 83%. Par contre Levin et ses collègues (2007) ont développé un système efficace à base de règles pour extraire les noms de médicaments à partir des rapports d'anesthésie. Les noms extraits sont traduits dans la norme RxNorm. Leur système a atteint une sensibilité de 92,2% et une spécificité de 95,7%.

Récemment, Xu et al. (2010) ont développé MedEx, un système fondé sur des règles pour extraire des informations sur les médicaments prescrits à partir des résumés médicaux. Ces informations concernent les noms de médicaments, les posologies, la fréquence et la durée de consommation. Ils ont rapporté une F-mesure de 90%.

Les systèmes récents s’orientent vers l’utilisation des méthodes d'apprentissage machine. Par exemple le classificateur développé par (Sibanda et al. , 2006) emploie des machines à vecteurs de support pour attribuer des catégories sémantiques à chaque entité dans les rapports cliniques.

Dans (Clark et al., 2008), on a développé un système hybride pour l’extraction d'information médicale. Leur système combine un moteur d'extraction à base de règles avec un algorithme d’apprentissage automatique pour identifier et catégoriser les références aux patients qui fument en analysant les rapports cliniques.

Page 90: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 80

Le véritable défi en EI médicale date en fait des années 2006, en effet, les plus grands efforts pour développer et évaluer les systèmes d'extraction d'information à partir des textes cliniques ont été réalisés dans le cadre du défi i2b2 depuis 2006.

Un corpus de 502 comptes rendus médicaux anonymisés a été créée par Uzuner et al. (2008). La tâche de ce défi était d'utiliser les comptes rendus médicaux pour classer chaque patient comme nouveau fumeur, ancien fumeur, ou non fumeur. Le meilleur système performant a été développé par Clark et al. (2008).

Dans le cadre du défi i2b2 2010, les auteurs (Jiang et al., 2011) ont mis en œuvre un système à base d’apprentissage pour la reconnaissance des entités nommées dans les textes cliniques et systématiquement, ils ont évalué les contributions de différents types de caractéristiques et algorithmes d’apprentissage en utilisant un corpus d'apprentissage de 349 notes cliniques annotées. En se basant sur les résultats obtenus avec ce système, les auteurs ont élaboré un nouveau système hybride intégrant deux modules d’extraction complémentaires le premier à base de règles et le deuxième à base d’apprentissage. Sur un corpus de test de 477 comptes rendus médicaux, ils ont obtenu une F1-mesure de 0,8391 pour l'extraction des différents concepts.

4.2 Approche cellulaire pour l’extraction des entités nommées

Nous abordons dans cette section l’exploitation de l’automate cellulaire pour l’extraction des entités nommées. Notre Système extrait des entités à partir des comptes rendus hospitaliers28 et leur affecte des catégories (comme patient, maladie, médicament,..). Il se base sur une approche linguistique qui utilise un ensemble de règles que nous avons développées dans (Barigou et al., 2011d).

28 fournis par le service des maladies infectieuses

Page 91: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale

Figure 4.1- Du texte non struc

Dans ce travail, nous nous intéressons à l’extraction des entités nommées

4.1) à partir des comptestructurées. Cette base avons citées en introduction

Nous proposons pour la première fois l’utilisation de l’automate cellulaire(Atmani & Beldjilali, 2007)hospitaliers sous forme d’entitétemps, comme un modèle de représentation des connaissances et dans un deuxième tempscomme un moteur d’infdédié à cette tâche d’extraction est composé de deux mcharge de la construction de la base de connaissance booléenne basée sur le principe de l’automate cellulaire. Le second utilise reconnaitre les entités nommées.

Notre contribution adopte la démarche suivante

partir des CRH rédigés en langage naturel libre

Extraction d’information médicale : CAMNEE

Formulaire Id Fichier: Patient

Maladie

Symptôme

Bilan

Médicament

Du texte non structuré vers des informations structurées

Dans ce travail, nous nous intéressons à l’extraction des entités nommées comptes rendu hospitaliers pour alimenter une base de données

peut être utilisée par la suite dans différentes applications que nouen introduction.

ous proposons pour la première fois l’utilisation de l’automate cellulaire(Atmani & Beldjilali, 2007) pour extraire le contenu sémantique des comptes rendus

sous forme d’entités nommées. Nous utilisons cet automate,modèle de représentation des connaissances et dans un deuxième temps

moteur d’inférence pour l’extraction des entités. Pour ce faire, cette tâche d’extraction est composé de deux modules ( Figure

charge de la construction de la base de connaissance booléenne basée sur le principe de l’automate cellulaire. Le second utilise le moteur d’inférence de cet automate pour reconnaitre les entités nommées.

ion adopte la démarche suivante pour extraire les entités nommées à

CRH rédigés en langage naturel libre:

81

Id ID ID-005 c\ reports\CRH_N5.txt Nom: Aissati Prénom: Lyla Age : 35 ans Lieu: Oran Nom : Brucellose CIM10: A23 Date Cons. : 25/09/2009

Syndrome suderoalgique, sueur profuse nocturne, fièvre élevée … Nom : FNS GB 3700, Ly 1.7x103/mm3, PN1.9x 103/mm3 …

Nom: Gentamicine 16g Durée: 10j Nom: Doxycycline 100g Dosage: 2cp/j

Dans ce travail, nous nous intéressons à l’extraction des entités nommées (Figure une base de données

peut être utilisée par la suite dans différentes applications que nous

ous proposons pour la première fois l’utilisation de l’automate cellulaire CASI pour extraire le contenu sémantique des comptes rendus

cet automate, dans un premier modèle de représentation des connaissances et dans un deuxième temps,

Pour ce faire, le système Figure 4.2). Le premier se

charge de la construction de la base de connaissance booléenne basée sur le principe de le moteur d’inférence de cet automate pour

our extraire les entités nommées à

Page 92: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 82

1- Construction des règles d’extraction

a) Collecte d’un ensemble de Comptes rendus auprès du service des maladies

infectieuses.

b) Construction des règles pour la reconnaissance des entités nommées.

c) Modélisation booléenne des règles de production.

2- Extraction des entités nommées et leurs propriétés

a) Analyse linguistique des comptes rendus médicaux pour l’extraction des

termes avec leurs propriétés morphosyntaxiques et sémantiques.

b) Inférence booléenne pour classer les termes dans les différentes classes

(personne, date, symptôme, maladie, …).

Construction de la base de connaissances

Inférence Booléenne

Compte rendu

Extraction des Syntagmes Nominaux

Liste des SN

Inférence booléenne pour

Prédire la classe du SN

Patient ? Maladie ? Autres

Règles

Transformation Représentation booléenne

CELFACT, CELRULE,

RE, RS

Figure 4.2-Architecture du système CAMNEE

4.2.1 Construction du corpus Le développement d'un système d'extraction d'entités nommées nécessite, au

préalable, de rassembler un nombre suffisant de textes qui serviront non seulement de corpus d'observation et d’analyse (pour construire les règles) mais également de corpus de test (extraction des entités).

Pour couvrir le domaine de recherche, il nous a fallu recueillir des comptes rendus hospitaliers en version papier29 et constituer un corpus exploitable pour la création de notre système. Ces CRH ont été récolté du service des maladies infectieuses30.

29 la version électronique n’existe pas 30 des hôpitaux d’Oran et d’El Bayad

Page 93: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 83

Les médecins rédigent un compte rendu pour chaque patient admis en service des maladies infectieuses. C’est un résumé du dossier médical du patient malade. Il est destiné à permettre à chaque médecin consultant le dossier d’avoir une idée sur l’évolution de la maladie à travers des étapes du traitement de ce patient. Le texte du CRH est descriptif et se présente sous la forme d’un récit.

L’étude d’un ensemble de CRH nous a permis de dégager les faits suivants :

1. Aucun logiciel n’est utilisé pour la rédaction et l’archivage des rapports médicaux. Le médecin rédige sur papier un CRH pour chaque patient admis en service.

2. Le texte du CRH est descriptif et se présente sous forme d’un récit. Il est destiné à permettre à chaque médecin consultant d’avoir une idée de l’évolution de la maladie à travers les étapes du traitement du patient.

3. Les informations sont données dans un ordre chronologique organisées

autour de sections : - Identification et motif de l’hospitalisation, - Historique, - Diagnostic, - Bilan, - Traitement et Évolution.

4. Les sections sont de tailles différentes, mais la forme de rédaction du CRH

reste la même.

Nous avons pu constituer une base de comptes rendus médicaux saisis, corrigés et normalisés manuellement. Nous l’avons répartie en deux parties; la première est utilisée pour la construction des règles qui vont être par la suite modélisées selon le principe booléen de la machine cellulaire CASI et la deuxième partie du corpus est utilisée pour évaluer le système d’extraction.

4.2.2 Construction des règles Nous avons réalisé et expérimenté l’outil MedIX (Barigou et al., 2011d) pour

l’extraction des entités nommées des CRH. MedIX utilise l’approche à base de règles que nous avons étudiée et proposée pour la première fois dans (Barigou et al., 2010). L’ensemble de ces règles utilise des listes de noms propres, de déclencheurs et des indices qui sont les contextes gauches de l’entité.

Nous avons établi un ensemble de règles pour extraire des entités telles que personne (le patient) avec ses propriétés nom, prénom, origine, adresse, et âge.

Page 94: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 84

L’ensemble des entités retenues pour la conception des règles est le suivant :

1- Personne (Nom et prénom du malade) 2- Information de localisation du malade (ville, région, adresse) 3- Information temporelle (date de consultation, durée de traitement) 4- Information numérique (ex : dosage, âge) 5- Nom des maladies 6- Signes/symptôme, Bilan

L’étude préalable sur le corpus des CRH des patients du service des maladies

infectieuses nous a permis dans un premier temps de recenser les différentes entités qu’il faut extraire. Et dans un deuxième temps d’étudier la structure syntaxique de chaque type d’entité nommée. En effet, nous avons constaté que la plupart de ces entités nommées sont des termes (ou syntagmes nominaux SN) composés de plusieurs mots.

La reconnaissance de ces termes est de notre point de vue un préalable à l’extraction des entités nommées. Pour cela, nous nous basons sur leurs caractéristiques linguistiques qui sont d’une part les catégories grammaticales des mots qui les composent et d’autre part les règles syntaxiques de leur agencement. Dans le Tableau 4.1, nous présentons sous forme de séquence grammaticale31, quelques SN que nous rencontrons le plus souvent dans un CRH.

Terme Séquence grammaticale32 Patiente Aissati lyla NOM + NAM +NAM 35 ans NUM +NOM El Bayadh NAM Syndrôme suderoalgique NOM + ADJ Gentamicine 16g NAM + NUM + ABR

Tableau 4.1-Structure syntaxique des différentes entités présentes dans le CRH

Pour classer ces termes dans les différentes classes retenues et suite à une analyse linguistique, nous avons utilisé quatre informations pour décrire les termes: 1. Information morphosyntaxique des mots composants le terme.

2. Information sémantique des mots composant le terme (si elle est disponible).

3. Voisinage du terme (les deux mots qui le précèdent)

4. Taille du terme (nombre de mots qui le composent)

Chaque terme est représenté par un vecteur de mots qui le composent complété par les deux premiers mots de son voisinage gauche. Par exemple le terme «patiente Aissati Lyla» extrait du CRH de la Figure 4.1 reçoit la représentation suivante:

31 Étiquetage fait par l’outil Treetagger (voir annexe B) 32 Voir annexe B pour la définition de chaque catégorie

Page 95: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 85

Voisinage

Les mots du terme

Informations syntaxique

Information sémantique

Longueur du terme

*** Patiente NOM déclencheur-personne 3 La Aissati NAM *** Lyla NAM Nom propre

Tableau 4.2-Représentation d’un terme Pour pouvoir établir les règles d’extraction, nous avons noté pour chaque entité

rencontrée dans le CRH, sa classe et sa structure syntaxique. Un exemple de cette analyse est présenté dans le Tableau 4.3.

Entité nommée

Structure Exemple

Personne Age Date Lieu Nom de Maladie Symptômes Bilan Médicament

NAM + NAM ou [NAM] + NUM + NOM Jour/mois /année NAM NOM NAM + ADJ NAM + PRP + NOM NOM + ADJ* + KON ? + PRP ? + DET ? + NOM* + ADJ* NAM + NUM + unité NAM + dosage + fréquence

Farse Ayonb Mohamed 22 ans 12/12/2011 Oran Brucellose Tuberculose pulmonaire Méningite à méningocoques Sueur profuse noctune

Altération de l’état général Créatinémie 9.67 g/l

Doxycyline gl 100 mg 2cp/j

Tableau 4.3-Exemple de quelques entités nommées rencontrées dans le CRH

Ressources Utilisées

Nous avons réuni les éléments suivants : 1. une liste de concepts médicaux, nous avons réalisé une base de données de concepts

médicaux. Notre principale source est la SNOMED33 .

2. Une liste de Villes du territoire Algérien.

3. Une liste de prénoms de personnes.

4. Une liste de déclencheurs est établie pour chaque type d’entité34

33 Systemized Nomenclature of MEDecine 34 par exemple le mot «patiente», est considéré comme un indice gauche permettant de reconnaître le nom et le prénom du

patient qui est une entité de type personne.

Page 96: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 86

Nous avons établi un ensemble de règles pour chaque section (Barigou et al., 2011d). Par exemple, dans la section identification du CRH, nous avons établi des règles nommées «person rules» pour extraire l'entité patient et toutes ses propriétés. Dans la section traitement, des règles nommées «medication rules» ont été écrites pour extraire les médicaments prescrits avec le dosage et la durée du traitement.

Les informations extraites sont sauvegardées dans une base de données structurée, elles peuvent être interrogées ou utilisées pour d'autres applications. Ci-dessous, nous donnons quelques règles simples pour extraire les entités.

- Règle 1 IF (Person Trigger and NAM and NAM) THEN person;

- Règle2 IF (NAM and Person Name) THEN person;

- Règle 3 IF (NUM and Date) and (first neighbor = “de”) and (second neighbor

= “âgé “) THEN age;

- Règle 4 IF (NAM) and (size ≤2) and (first neighbor = “à”) and (second

neighbor = “demeurant”) THEN city.

Par exemple, dans la règle 1, le terme est une entité de type personne si son premier

mot figure dans la liste des déclencheurs de personne, son deuxième et troisième mots

sont étiquetés nom propre par l’analyseur morphologique TreeTagger.

4.2.3 Modélisation booléenne des règles Notre motivation de modéliser les règles selon le principe booléen adopté par la

machine cellulaire CASI (Atmani & Beldjilali, 2007) est de réduire la complexité de stockage de ces règles et aussi le temps de réponse pendant leur utilisation.

Comme illustré dans la Figure 4.2, nous adoptons la démarche suivante : codage puis production des règles booléennes. Ainsi, les règles que nous avons définies auparavant (Barigou et al. , 2011d) sont prétraitées et transformées pour générer des règles booléennes équivalentes.

A. Codage

Nous présentons dans cette section la codification adoptée au niveau de la machine cellulaire, relative aux différentes informations exploitées dans l’extraction d’entités nommées. Le Tableau 4.4 présente quelques variables qui décrivent un terme utilisées dans les règles d’extraction.

Page 97: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 87

Variables Descriptives Notation Valeurs

Information sémantique du premier mot du syntagme (Semantic Information of Word1)

SIW1 = 0 (déclencheur personne); = 1 (déclencheur de lieu) ; = 2 ville) …

Information sémantique du deuxième mot du syntagme (Semantic Information of Word2)

SIW2 =0 (prénom) ; =1 (date), …

Catégorie morphosyntaxique du premier mot du syntagme (Part Of Speech of word1)

POS1

=0 (NAM) ; =1 (NOM) ; =2 (NUM) ;

Catégorie morphosyntaxique du deuxième mot du syntagme (Part Of Speech of word2)

POS2 =0 (NAM) ; =1 (NOM) ; =2 (ADJ)

Catégorie morphosyntaxique du troisième mot du syntagme (Part of speech of word3)

POS3 =0 (NAM) =1(ADJ), …

Nombre de mots dans le syntagme (Term Size) TS >2 ;

≤2 ;

Premier voisin à gauche (First neighbor-1 on the left)

LN1 =0 (« à ») ; =1(« de ») ; =2(« pour ») ;

Deuxième voisin à gauche (Second neighbor-2 on the left)

LN2 =0 (« demeurant ») ; =1 (âgé) ; =2 (« admis ») ;

Type de l’entité (entity Class) C Person (personne) Disease (maladie), Drug (médicament), …

Tableau 4.4-Codage des variables pour la modélisation booléenne des règles

B. Représentation booléenne

Les règles décrites en (§4.3.2) sont transformées selon le codage donné dans le tableau ci-dessus pour être représentées par les couches CELFACT et CELRULE.

Pour illustrer cette représentation, nous allons considérer que notre base de connaissances est constituée seulement des deux règles R1 et R3 donnée dans la section (§4.3.2). Voici la nouvelle écriture après transformation

Page 98: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 88

Règle 1: IF (SIW1= =0) and (POS2= =0) and (POS3= =0) THEN person

Règle 3: IF (LN1= = «de») and (LN2= «âgé») and (POS1==2) and (SIW2==1) THEN age

La construction booléenne de la base de connaissance selon le modèle CASI suit les principes suivants:

1. Chaque prémisse ou conclusion d'une règle est représentée par une cellule

dans la couche CELFACT.

2. La valeur 0 initialise les états EF et SF de chaque cellule de CELFACT.

3. Toute règle dans la base originale constitue une cellule de la couche

CELRULE.

4. La valeur 0 initialise l’état ER de chaque cellule de CELRULE.

5. La valeur 1 initialise l’état SR de chaque cellule de CELRULE

6. Pour chaque fait (f), appartenant à CELFACT et pour chaque règle (r) dans

CELRULE, si (f) est une prémisse de (r) alors RE [f, r]=1 sinon 0.

7. Pour chaque fait (f) appartenant à CELFACT et pour chaque règle (r) dans

CELRULE, si (f) est une conclusion de (r) alors RS [f, r] = 1 sinon 0.

Ainsi, nos deux règles R1 et R3 vont être représentées dans l’automate cellulaire CASI35 comme illustré dans le Tableau 4.5.

35 Dans ce travail, les deux états IF, IR représentant l’état interne des cellules de CELFACT et CELRULE

respectivement, ne sont pas utilisés.

Page 99: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 89

CELFACT SIW1=0

SIW1=2

SIW2=1

POS1=2

POS2=0

POS3=0

LN1=”à”

LN2=”âgé”

C=Person

C=Age

EF SF

0 0

0 0

0 0

0 0

0 0

0 0

0 0

0 0

0 0

0 0

CELRULE R1

R3

ER SR

0 1

0 1

RE R1 R3 SIW1=0 1 0 SIW1=2 0 0 SIW2=1 0 1 POS1=2 0 1 POS2=0 1 0 POS3=0 1 0 LN1=”de” 0 1 LN2=”âgé” 0 1 C=Person 0 0

C=Age 0 0

RS R1 R3 SIW1=0 0 0 SIW1=2 0 0 SIW2=1 0 0 POS1=2 0 0 POS2=0 0 0 POS3=0 0 0 LN1=”de” 0 0 LN2=”âgé” 0 0 C=Person 1 0

C=Age 0 1

Tableau 4.5-Représentation booléenne de (R1, R3) selon le modèle CASI

4.2.4 Extraction d’information médicale Selon l’architecture présentée en Figure 4.2, nous devons tout d’abord extraire les

termes du CRH ensuite lancer l’inférence booléenne pour déterminer la classe de chaque

terme.

4.2.4.1 Extraction des termes

Dans cette étape le CRH passe par deux traitements différents : (1) une analyse morphosyntaxique et (2) une reconnaissance des groupes nominaux.

Page 100: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 90

a) Analyse morphosyntaxique

L’analyse morphosyntaxique est une analyse qui prend en entrée les mots trouvés dans le texte avec leurs formes fléchies et fournit en sortie leurs lemmes accompagnés de leurs valeurs grammaticales. Dans cette étude, nous avons utilisé l’outil TreeTagger36 pour réaliser cette analyse.

Soit le texte : « Il s’agit de la patiente Aissati Lyla» ; son analyse par l’outil

TreeTagger donne le résultat illustré dans le tableau suivant :

Mot Catégorie Lemme Il s’ agit de la patiente Aissati Lyla

PRO :PER PRO :PER VER :pres PRP DET :ART NOM NAM NAM

Il se agir de la

patient Aissati

Lyla

Tableau 4.6-Résultat de l’analyse morphosyntaxique de «il s’agit de la patiente Aissati Lyla»

b) Reconnaissance des termes

Un terme (ou groupe nominal) est un ensemble de mots qui s’organisent auteur d’un nom. Dans le texte «il s’agit de la patiente Fifi Aicha» ; la séquence de mots «patiente Fifi Aicha» constitue un groupe nominal.

L’analyse commence donc par appliquer un ensemble de règles syntaxiques pour localiser tous les groupes nominaux présents dans les différentes sections du compte rendu médical. Un filtrage est ensuite appliqué pour favoriser les GN les plus longs. A titre d’exemple, dans l’extrait : «méningite à liquide claire » le système reconnaît « méningite », « méningite à liquide », et « méningite à liquide claire » comme étant des GN. Après filtrage, seulement « méningite à liquide claire » sera retenu.

4.2.4.2 Inférence booléenne

Nous allons expliquer le principe de l’inférence booléenne pour la reconnaissance des entités nommées en considérant la base de connaissances booléenne construite auparavant (Tableau 4.5) avec le syntagme nominal «patiente Aissati Lyla» .

36 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

Page 101: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 91

Rappelons tout d’abord le fonctionnement du moteur d’inférence de la machine cellulaire : il se compose de trois phases : initialisation, filtrage et exécution.

a) Initialisation Avant de lancer le moteur d'inférence CIE (annexe A), nous devons tout d’abord

initialiser la couche CELFACT avec toutes les informations relatives à un terme pour

lequel nous désirons déterminer son type.

Dans le cas du syntagme nominal "patiente Aissati Lyla" les cellules suivantes sont

initialisées; leur état EF devient égal à 1 (Tableau 4.7).

- Patiente (est un déclencheur personne) � EF( SIW1=0)=1

- Aissati (est un NAM) �EF(POS2=0)=1

- Lyla (est un NAM) � EF(POS3=0)=1

CELFACT SIW1=0 SIW1=2 SIW2=1 POS1=2 POS2=0 POS3=0 LN1=”à” LN2=”âgé” C=Person C=Age

EF SF 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0

Tableau 4.7-Initialisation de CELFACT

b) Filtrage

La phase de filtrage est réalisée par la fonction de transition δfact. Par application de cette fonction, seuls les faits établis peuvent participer à l’étape de filtrage, le SF (sortie des faits) reçoit la valeur initiale de EF (entrée des faits).

Le ER (entrée des règles) est obtenu selon la règle ER=ER + ( ��� ×××× EF). Le moteur

cellulaire compare la partie déclencheuse des règles par rapport à l’ensemble des faits établis. Dans notre cas, c’est la règle R1 qui est candidate son ER reçoit la valeur 1.

CELFACT SIW1=0 SIW1=2

EF SF SF 1 1 0 0

CELRULE R1 R3

ER SR 1 1 0 1

Page 102: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 92

SIW2=1 POS1=2 POS2=0 POS3=0 LN1=”à”

LN2=”âgé” C=Person C=Age

0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0

Tableau 4.8-Phase de filtrage : Règle R1 est active son ER devient =1

c) Exécution

Cette phase consiste à exécuter la fonction δrule. Cette étape permet d’exécuter une règle ou plusieurs devant être effectivement déclenchées, dans notre cas c’est seulement la règle R1 qui a été sélectionnée et donc sa sortie SR reçoit la valeur 0 comme présenté dans le Tableau 4.9. Le fait conclusion de cette règle (personne) est établi dans la base de fait par EF= EF + (RS××××ER).

CELRULE R1 R3

ER SR 1 0 0 1

CELFACT SIW1=0 SIW1=2 SIW2=1 POS1=2 POS2=0 POS3=0 LN1=”à”

N2=”âgé” C=Person C=Age

EF SF 1 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 1 0 0

Tableau 4.9-Exécution des règles actives : exécution de R1

4.2.5 Anonymisation L’anonymisation des identités des personnes figurant dans des fichiers informatisés,

en particulier lorsqu’ils contiennent des informations sensibles pouvant porter atteinte à la vie privée, est une préoccupation actuelle (Berman, 2002). Dans (Abou El-Kalam et al., 2004) un éventail des techniques d’anonymisation pouvant exister dans le domaine médical est décrit avec les avantages et les faiblesses de chaque solution.

Page 103: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 93

Dans notre cas, nous avons utilisé l’algorithme SHA-137 pour générer un code unique pour chaque patient présent dans un compte rendu hospitalier. Cette étape d’anonymisation va nous garantir l’impossibilité pour d’autres utilisateurs (ou services) de déterminer l’identité des patients malades.

L’algorithme ci-dessous décrit brièvement le principe de cette anonymisation.

Algorithme : Anonymisation Entrée : identité du patient Table d’identification Sortie : code unique pour ce patient 1. Consulter la table pour vérifier s’il s’agit d’un

nouveau patient ou non 2. Si le patient existe déjà Alors récupérer son code 3. Sinon 4. Calculer son code avec SHA-1 5. Ajouter ce nouveau patient dans la table identifica tion 6. Fin Si 7. Remplacer le nom et le prénom dans le CRH par ce co de

4.2.6 Alimentation de la base de données L’extraction des entités ne peut être entièrement automatique : les informations

doivent être validées avant leur insertion dans la base de données. La présence d’un expert

(le médecin spécialiste) facilite cette tâche de validation, ce dernier peut décider des

informations qu’il faut retenir pour un patient donné et celles qu’il faut ignorer. La

modélisation du schéma de cette base de données est proposée dans la Figure 4.3. Pour

alimenter cette base, nous avons établi une liste de requêtes pour chaque CRH analysé.

37 http://fr.wikipedia.org/wiki/SHA-1

Page 104: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 94

Figure 4.3-Diagramme de classe UML de la base de données Patients

4.3 Expérimentation et discussion Dans cette section, nous décrivons les données et les mesures utilisées pour

évaluer notre approche et examiner les résultats des expériences.

4.3.1 Corpus : CRH Nous avons utilisé des CRH des patients admis en 2009/2010 dans le service des

maladies infectieuses de l'hôpital universitaire d'Oran (Algérie). Nous avons analysé 50 rapports cliniques pour construire la base de connaissances, et nous avons conservé 15 rapports pour évaluer le système d’extraction CAMNEE.

Nous avons annoté les rapports de test. Et nous avons identifié 348 entités différentes. Pour chacune d’elle, nous avons enregistré la classe (personne, maladie, symptôme, etc.). La Figure 4.44 résume les diverses entités présentes dans les rapports de test.

Page 105: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 95

Figure 4.4-Répartition des différentes entités présentes dans les CRH de test

4.3.2 Mesures Ce sont des mesures standard pour l'évaluation de la capacité du système à détecter les

entités nommées. Trois indicateurs ont été utilisés pour chaque type d’entité afin de mesurer

la performance du système CAMNEE: la précision, le rappel et le F-score. Ils sont définis

comme suit :

CNEprécision

CNE INE=

+;

CNERappel

CNE NNE=

+;

2 Préc

Pré

ision RappelF score

cision Rappel

× ×− =+

Où - CNE (Correct Named Entity): correspond au nombre d’entités nommées identifiées

correctement - INE (Incorrect Named Entity): correspond au nombre de termes identifiés

incorrectement comme entités; - NNE (Non identified Named Entities): correspond au nombre d’entités nommées non

identifiées.

Nous avons ensuite calculé la précision globale, le rappel global et le F-score global en calculant la moyenne de ces mesures pour l’ensemble des classes.

Page 106: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 96

4.3.3 Résultats expérimentaux

Figure 4.5-Performance du système CAMNEE

La Figure 4.5 montre la précision, le rappel et le F-score pour chaque classe.

L'analyse des résultats nous a permis de mieux comprendre les raisons de la baisse de la

performance, en particulier le rappel pour certains types d’entités. Ce faible taux du rappel

est dû principalement à la couverture insuffisante de notre ensemble de règles. Le système

ne reconnaît pas toutes les entités car il ne dispose pas de règles suffisantes pour les

identifier. Ce cas a été particulièrement apparent pour les entités de type symptômes,

examen clinique et maladie.

Globalement, le système effectue une bonne extraction. Sur 348 entités, il détecte

278, manque 70 (faux négatifs), et identifie 28 entités par erreur (faux positifs). Cela

donne une précision globale de 92% et un rappel global de 89%.

Ces résultats sont très intéressants mais doivent être vérifiés dans une collection de

rapports cliniques plus consistante. Le système CAMNEE repose sur une bibliothèque de

règles et un lexique de noms propres pour identifier les entités. Heureusement, le lexique

et les règles sont à la fois flexibles, et peuvent être facilement adaptés pour mieux extraire

les entités nommées manquantes.

Page 107: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 97

4.4 Conclusion Dans ce travail, nous nous sommes intéressés à l’extraction des entités nommées

dans un domaine de spécialité. Nous avons développé un système de détection et de typage d’entités fondé sur une classification cellulaire à base de l’automate CASI, qui obtient un F-score d’environ 90,5%.

Notre motivation à adopter le principe des automates cellulaires pour cette tâche de classification est d’exploiter ses avantages du point de vue représentation des connaissances et du point de vue recherche de la classe des entités.

Cette modélisation booléenne nous offre les avantages suivants :

- La représentation de la connaissance ainsi que son contrôle sont simples, sous formes de matrices binaires exigeant un prétraitement minimal.

- La simplicité de l’implémentation des fonctions de transitions qui sont robustes et de faible complexité (calcul booléen).

- La recherche d’une classe pour une entité se traduit par l’exécution d’un seul cycle du moteur cellulaire.

Il a été démontré dans (Atmani & Beldjilali, 2007) que cette nouvelle représentation booléenne permet de réduire la quantité de stockage et le temps d’exécution. En effet, cela est dûe à l’utilisation de la représentation booléenne des matrices RE et RS, et à la multiplication booléenne employée par les fonctions de transition δfact et δrule. Les matrices booléennes peuvent être exprimées sous forme de deux vecteurs de plusieurs séquences binaires. L’espace mémoire requis pour stocker ces matrices est de l’ordre de O(q), quand on utilise q séquences de r bits.

L’approche que nous proposons possède la capacité de prendre en compte une base de connaissance initiale sous forme de règles symboliques et de la transformer selon le modèle booléen de la machine cellulaire CASI. Dans la perspective d’une amélioration des performances de cette nouvelle solution, nous prévoyons l’ajout de connaissances par apprentissage puisque CASI permet de faire de l’induction à partir des données. Cette hybridation fera l’objet d’une évaluation des performances dans un travail futur.

Nous proposons donc comme perspective d’augmenter le taux d’extraction des entités nommées par une acquisition automatique et booléenne des règles de classification. Ce que nous allons baptiser « vers une extraction des entités nommées guidée par fouille de données ». Donc par opposition à d’autres approches cette hybridation va nous offrir plusieurs avantages. Le premier avantage est que cette solution peut combiner les deux types d’apprentissages à savoir l’apprentissage inductif (comptes rendus médicaux) et l’apprentissage déductif (ensemble de règles de classification). Ceci facilite la construction des

Page 108: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Extraction d’information médicale : CAMNEE 98

prototypes et l’interprétation des résultats par l’utilisateur. Le deuxième avantage est que cette méthode est explicative dans la mesure où elle est susceptible de donner une argumentation compréhensible de ses résultats.

Page 109: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

ConclusionConclusionConclusionConclusion généralegénéralegénéralegénérale et perspectiveset perspectiveset perspectiveset perspectives

Le sujet de cette thèse traite deux tâches de la fouille de textes : la catégorisation de textes et l’extraction des entités nommées.

Dans le cas de la catégorisation de textes, nous avons proposé et développé une méthode, nommée CA-kNN, capable de surmonter les défauts du classifieur kNN. L’objectif de cette contribution est de sélectionner un minimum d’instances pour la classification avec kNN sans que la performance prédictive ne soit affectée.

La partie la plus intéressante au niveau de la recherche est la proposition de l’automate cellulaire comme un support pour le classifieur kNN ; premièrement, l’automate cellulaire est un moyen de représentation des données d’apprentissage et deuxièmement, il est considéré comme un outil de recherche et d’extraction des documents les plus pertinents pour la classification.

Les performances de classification avec CA-kNN sont évaluées avec trois corpus différents : LingSpam, Reuters et 20NewsGroups et comparées avec le kNN traditionnel.

En utilisant le principe booléen de l’automate CASI pour la représentation des documents d’apprentissage et la sélection des documents pertinents pour la classification, nous avons montré dans le cas du Corpus LinSpam que notre méthode améliore non seulement le filtrage de spam mais aussi surpasse celles de certains travaux déjà publiés.

Nos principales contributions dans ce travail sont résumées comme suit :

- Nous proposons et développons une technique de classification qui améliore les performances de l'algorithme kNN classique tout en réduisant le temps de classification;

- En se basant sur l’automate cellulaire CASI, nous proposons un moteur d'inférence cellulaire qui nous permet de sélectionner de la base d’apprentissage les instances pertinentes pour la classification;

- Nous améliorons les performances de classification kNN en sélectionnant uniquement les documents pertinents ;

Page 110: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Conclusion Générale & perspectives 100

- Et enfin, nous évaluons cet algorithme pour le filtrage de spam et la catégorisation

de textes d’une manière générale.

Nous envisageons de travailler par la suite sur la notion de pertinence des documents pour améliorer la sélection des instances par la machine CAIRS. Le modèle que nous avons proposé pour la représentation et la sélection des documents pertinents se base sur l’utilisation du mot (dans notre cas sa racine). Nous considérons ce mot comme étant l’unique représentant d’une signification unique. Autrement dit, il est supposé qu’il ya une correspondance de type 1 :1 entre mots et sens. Mais en réalité, un mot peut avoir plusieurs sens, et un sens peut être exprimé par des mots différents. Donc, l’utilisation des mots pour représenter le contenu des documents pose deux problèmes :

(a) L’ambigüité sémantique des mots, implique que des documents non pertinents, contenant les mêmes mots que le nouveau document à classer, sont sélectionnés par l’automate, et ceci peut augmenter le bruit.

(b) La disparité des mots se réfère à des mots lexicalement différents mais portant un même sens. Ceci implique que des documents, pourtant pertinents, ne partageant pas des mots avec le nouveau document ne sont pas sélectionnés par l’automate. Et ceci peut augmenter le silence.

Pour un nouveau document Q pour lequel il faut déterminer sa catégorie, afin de traiter la correspondance entre mots et sens, nous proposons de faire deux extensions,

(1) étendre l’ensemble des mots de Q en considérant les mots qui lui sont liés (mots co-occurrents);

(2) reconnaître les sens des mots représentant le document Q en utilisant des ressources sémantiques (thésaurus, ontologie,…).

La première extension va nous permettre d’élargir le champ de sélection des documents pertinents par l’automate cellulaire ce qui va permettre de diminuer le silence.

La deuxième extension va nous permettre pendant la sélection des instances de rejeter les documents qui partagent les mêmes mots mais qui sont de sens différents. Ce qui va diminuer le bruit.

Deux réflexions nous semblent importantes dans cette perspective :

- quels mots (ou termes) du document Q doit-on utiliser pour l’étendre?

- et quels mots doit-on utiliser pour désambigüiser les sens?

Page 111: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Conclusion Générale & perspectives 101

Dans le cas de l’extraction des entités nommées, nous avons développé le système CAMNEE capable d’extraire des entités nommées et leurs propriétés à partir des CRH. Ce système qui intègre l’automate cellulaire nous permet de fournir :

a) un modèle booléen pour représenter les règles d’extraction et

b) un moteur d’inférence booléen pour le typage des entités.

Les résultats d’évaluation du système CAMNEE sur une collection de comptes

rendus médicaux sont très satisfaisants. Nous avons obtenu un taux de précision et un taux de rappel égaux à 92% et 89% respectivement. Cependant, ce travail nécessite toujours des améliorations selon plusieurs directions :

a) acquérir d’autres CRH pour évaluer la qualité d’extraction d’une manière plus concise;

b) compléter les ressources utilisées dans CAMNEE, en particulier les

ressources des maladies, symptômes et médicaments;

c) faire participer des spécialistes du domaine médical dans l’annotation

manuelle des CRH pour éviter toute erreur de marquage.

Cette étude peut être aussi poursuivie en considérant la tâche d’identification de relations ce qui nécessiterait d’intégrer dans notre système la détection de la présence d’une relation entre deux entités, en l’occurrence des concepts médicaux, et la catégorisation de cette relation éventuelle selon des catégories prédéfinies.

Et comme perspectives à long terme, il serait intéressant d’intégrer CAMNEE dans

une application réelle comme la recherche d’information médicale ou la fouille de données.

Page 112: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie Aberdeen, J., Burger, J., Day, D., Hirschman, L., Palmer, D., Robinson, P., et al. (1996).

MITRE: description of the Alembic system used for MUC-6. TIPSTER '96: Proceedings of a workshop on held. Vienna, Virginia: Association for Computational Linguistics .

Abou El-Kalam, A., Deswarte, Y., Trouessin, G., & Cordonnier, E. (2004). Gestion des

données médicales anonymisées : problèmes et solutions. 2ème Conférence francophone en gestion et ingénierie des systèmes hospitaliers (GISEH’04).

Aghdam, M., Ghasem-Aghaee, N., & Basiri, M. E. (2009). Text feature selection using ant

colony optimization . Expert Systems with Applications , 36, 6843–6853. Aha, D., Kibler, D., & Albert, M. (1991). Instance-based learning algorithms. Machine

Learning, 6, 37-66. Androutsopoulos, I., Koutsias, J., Chandrinos, K. V., & Spyropoulos, C. D. (2000). An

Evaluation of Naive Bayesian Networks. In Proceeding of of the Workshop on Machine Learning in the New Information Age, (pp. 9-17). Barcelona, Spain.

Aronson, A. R. (2001). Effective mapping of biomedical text to the UMLS Metathesaurus:

the MetaMap program . American Medical Informatics Association Annual Symposium, AMIA’01, (pp. 17-21). Washington, DC, USA.

Atmani, B., & Beldjilali, B. (2007). Knowledge Discovery in Database : Induction Graph

and Cellular Automaton. Computing and Informatics Journa , 26, 171-197.

Baker, L. D., & McCallum, A. K. (1998). Distributionnal clustering of words for text

classification. Proceeding of the 21st annual international ACM SIGIR conference on research and development in information retreival, (pp. 96-103). New York, USA.

Barigou, F., Atmani, B., & Beldjilali, B. (2010). Extraction Automatique des Entités

Nommées à partir des Comptes Rendus Médicaux Textuels. Colloque sur l'Optimisation et les Systèmes d'Information, COSI'2010. Ouargla, Algérie.

Barigou, F., Atmani, B., & Beldjilali, B. (2012e). Using a cellular automaton to extract

medical information from clinical reports. Journal of Information Processing Systems , 8 (1), 67-84.

Barigou, F., Barigou, N., & Atmani, B. (2012c). Combining Classifiers for spam detection. Dans Springer-Verlag Berlin Heidelberg 2012 (Éd.), CCIS2012, Vol. 293, Part 3 International Conference on Networked Digital Technologies, (pp. 78-89). Dubai, UAE.

Barigou, F., Barigou, N., & Atmani, B. (2012b). Spam Detection System Combining

Cellular Automata and Naive Bayes Classifier. The Fourth edition of the International Conference on Web and Information Technologies (ICWIT'12), (pp. 250-260). Sidi Bel Abbes, Algeria.

Page 113: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 103

Barigou, F., Beldjilali, B., & Atmani, B. (2012d). Improving KNN spam based filter. The

Mediterranean Journal of Computers and Networks , 8 (1), 21-29. Barigou, F., Beldjilali, B., & Atmani, B. (2011d). MEDIX: Medical Information eXtraction

from clinical Reports. International Conference on Communication, Computing and Control Application, (pp. 488-494). Hammamet, Tunisia.

Barigou, N., & Barigou, F. (2011a). Un Automate Cellulaire pour la détection de spam.

organisé à la 11ème conférence francophone "Extraction et Gestion de Connaissances" EGC (pp. 25-28). Brest, France: Atelier "Data Mining, Applications, Cas d'Etudes et Success Stories.

Barigou, N., Barigou, F., & Atmani, B. (2011b). A Boolean model for spam detection.

Proceedings of the International Conference on Communication, Computing and Control Applications, (pp. 450-455). Hammamat, Tunisia.

Barigou, N., Barigou, F., & Atmani, B. (2012a). Voting Multiple Classifiers Decisions for

spam detection. International Conference on Information Technology and e-Services. ICITeS'2012. Sousse, Tunisia.

Bayes, T. (1763). An Essay towards solving a Problem in the Doctrine of Chances (Vol.

53). Philosophical Transactions of the Royal Society of London. Béchet, N., Sagot, B., & Stern, R. (2011). Coopération de méthodes statistiques et

symboliques pour l’adaptation non supervisée d’un système d’ étiquetage en entités nommées. Traitement Automatique du Langage Naturel (TALN).

Béchet, N. (2009). Extraction et regroupement de descripteurs morpho-syntaxiques pour

des processus de Fouille de Textes. Thèse de doctorat, Université de MontPellier II. Benamara, F., Cesarano, C., Picariello, A., Reforgiato, D., & Subrahmanian, V. S. (2007).

"Sentiment Analysis : Adjectives and Adverbs are better than Adjectives alone". actes de IADIS Applied Computing. ACM, (pp. 203–206). Colorado, U.S.A.

Bentley, J. (1997). Multidimensional binary search in database applications. IEEE

Transactions on Software Engineering , 4 (5), 333-340. Berchtold, S., Keim, A., & Kriegel, H. (1996). The X-tree: An index structure for High-

Dimensional Data. Dans M. Kaufmann (Éd.), Proceedings of the 22nd International Conference on Very Large Databases, (pp. 28-39). San Francisco, USA.

Berman, J. (2002). Confidentiality isues for medical data miners. Artificial Intelligence in

Medicine , 26 (1-2), 25-36.

Page 114: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 104

Bhatia, N., & SSCS, V. (2010). Survey of nearest neighbor techniques. International Journal of computer science and information security , 8 (2), 302-305.

Borthwick, A., Sterling, J., Agichtein, E., & Grishman, R. (1998). Nyu:Description of the

mene named entity system as used in muc-7. Proceedings of the Seventh Message Understanding Conference (MUC-7).

Bouhafs, H. (2004). Utilisation de la méthode d'exploration contextuelle pour une

extraction d'information sur le web dédiées à la veille: réalisation du système informatique javaveille. Thèse PhD, Université Paris IV-Surbonne.

Brank, J., & Grobelnik, M. (2002). interaction of feature selection methods and linear

classification models. Proceeding of the ICML-02 Workshop on text learning.

Caruana, R., & Niculescu-Mizil, A. (2006). An empirical comparison of supervised

learning algorithms. Proceedings of the 23rd international conference on Machine learning.

Chapman, W., Dowling, J., & Wagner, M. (2004). Fever Detection from Free-text Clinical

Records for Biosurveillance. Journal of Biomedical Informatics , 37 (2), 120-127. Chau, M., Xu, J., & Chen, H. (2002). Extracting Meaningful Entities from Police Narrative

Reports. Proceeding of the National Conference for Digital Government Research, (pp. 271-275).

Chhieng, D., Day, T., Gordon, G., & Hicks, J. (2007). Use of natural language

programming to extract medication from unstructured electronic medical records. American Medical Informatics Association Annual Symposium, AMIA'07 .

Chidananda, K., & Krishna, G. (1979). The condensed nearest neighbor rule using the

concept of mutual nearest neighbor . IEEE Trans. Information Theory , IT (25), 488-490. Chinchor, N. (1998). Overview of MUC-7. Message Understanding Conference

Proceedings. Clark, C., Good, K., Jezierny, L., Macpherson, M., Wilson, B., & Chajewska, U. (2008).

Identifying smokers with a medical extraction system. American Medical Informatics Association Annual Symposium, AMIA’08.

Coates-Stephens, S. (1992). The Analysis and Acquisition of Proper Names for the

Understanding of Free Text. Computers and the Humanities , 26 (5-6), 441-456. Cormack, G. V., & Lynam, T. R. (2007). Online supervised spam filter evaluation. ACM

Transactions on Information System, 25(3), 1-31.

Page 115: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 105

Crampes, M., Ranwez, S., & Plantié, M. (2000). Ontology-Supported and Ontology-Driven Conceptual Navigation on the World Wide Web. Proceedings of HyperText 2000, ACM HT2000, (pp. 191-199). Texas, USA.

Deerwester, S., Dumais, S., Landauer, T., Furnas, G., & Harshman, R. (1990). Indexing by

latent semantic analysis. Journal of the American Society of Information Science , 416 (6), 391-407.

Delany, S. J., Cunningham, P., Tsymbal, A., & Coyle, L. (2005). A case based technique

for tracking concept drift in spam filtering. Knowledge-Based Systems. , 18 (4-5), 187-195.

Dhillon, I. S., & Modha, D. S. (2001). Concept Decompositions for Large Sparse Text Data

Using Clustering. Machine Learning , 42 (1), 143-175. Dumais, S. T., Platt, J., Heckerman, D., & Sahami, M. (1998). Inductive learning

algorithms and representations for text categorization. 7th ACM International Conference on Information and Knowledge Management. CIKM-98, (pp. 148–155).

Ehrmann, M. (2008). Les entités nommées. De la linguistique au TAL:Statut théorique et

méthodes de désambiguïsation. Thèse de doctorat: Linguistique théorique, descriptive et automatique, Université PARIS 7.

Embarek, M., & Ferret, O. (2008). Learning patterns for building resources about semantic

relations in the medical domain. Proceedings of the International Conference on Language Resources and Evaluation, LREC’08. Marrakech, Morocco.

Favre, B., Béchet, F., & Nocera, P. (2005). Robust named entity extraction from large

spoken archives. HLT/EMNLP'05. Fernanda, C. M., Matwin, S., & Sebstiani, F. (2000). Statistical Phrases in Automated Text

Catagorization. Technical report, Centre national de la recherche scientifique, Paris, France.

Fidelia, I. (2007). Fouiile de textes: méthodes, outils et applications. (E. Lavoisier, Éd.)

Paris. Fix, E., & Hodges, J. (1989). Discriminatory Analysis. Nonparametric Discrimination:

Consistency Properties . International Statistical Review , 57 (3), 238-247. Forman, G. (2003). An extensive empirical study of feature selection metrics for text

classification. Journal of Machine Learning Research , 3, 1289–1305.

Page 116: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 106

Friedman, C., Alderson, P., Austin, J., Cimino, J., & Johnson, S. (1994). A general natural language text processor for clinical radiology. Journal of the American Medical Informatics Association , 1 (2), 161-174.

Fuhr, N., Hartmann, S., Knorz, G., & Schwantner, M. (1991). AIR/X : a rule-based

multistage indexing system for large subject fields, (pp. 606-623). Fürnkranz, J. (1998). A study using N-gram features for Text Categorization. Technical

report OEFAI-TR-98-30, Austrian Research Institute for Artificial Intelligence, Austria.

Gaizauskas, R., Humphreys, K., Cunningham, H., & Wilks, Y. (1995). Description of the

LaSIE system as used for MUC-6. MUC6 '95 Proceedings of the 6th conference on Message understanding, (pp. 207-220). USA.

Gates, W. (1972). Reduced Nearest Neighbor Rule. IEEE Transactions on Information

Theory , 18 (3), 431-433. Graham, P. (2002). A plan for spam. Consulté le Décembre 30, 2011, sur

www.paulgraham.com/spam.html Grishman, R., & Sundheim, B. (1996). Message understanding conference-6 : a brief

history. Proceedings of the 16th conference on Computational linguistics, (pp. 466–471). Morristown, NJ, USA.

Guttman, A. (1984). R-tree : A dynamic index structure for spatial searching. Proceedings

of the ACM SIGMOD International Conference on Management of Data, (pp. 47-57). New York, NY, USA.

Harish, B. S., Guru, D. S., & Manjunath, S. (2010). Representation and classification of

text documents: a brief review. IJCA Special Issue on “Recent Trends in Image Processing and Pattern Recognition , 2, 110-119.

Hart, P. E. (1968). The condensed nearest neighbour rule. IEEE Transactions on

Information Theory , 18 (5), 515–516. Haug, P., Christensen, L., Gundersen, M., Clemons, B., Koehler, S., & Bauer, K. (1997). A

natural language parsing system for encoding admitting diagnoses. American Medical Informatics Association Annual Symposium, AMIA 97 , pp. 814-818.

Hayes, P., & Weinstein, S.P. (1990). CONSTRUE/TIS: A system for content-based

indexing of a database of news stories. Proceeding of the Second Conference on Innovative Applications of Artificial intelligence, IAAI-90, (pp. 320–326). Washington, USA, 1990.

Page 117: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 107

Hayes, P., Andersen, P., Nirenburg, I., & Schmandt, L. (1990). Tcs : a shell for content-based text categorization. Proceedings of the Sixth IEEE Conference on Artificial Intelligence Applications, CAIA-90, (pp. 320–326).

Herbrich, R. (2001). Learning Kernel Classifiers: Theory and Algorithms. (M.-H. I.

Editions, Éd.) School of Computer Science carnegie Melton University: MIT Press. Hobbs, J., Appelt, D., Bear, J., Israel, D., Kameyama, M., Stickel, M., et al. (1997).

FASTUS: A cascaded finite-state transducer for extracting information from natural-language text (éd. Finite-State Language Processing). (E. Roche, & S. Yves, Éds.) London.

Ireson, N., & Ciravegna, F. (2005). The Evaluation of Machine Learning for Information

Extraction. Proceedings of Dagstuhl Seminar Machine Learning for the semantic web. Jain, N., & Friedman, C. (1997). Identification of Findings Suspicious for Breast Cancer

Based on Natural Language Processing of Mammogram Reports. Proceedings of the Fall AMIA Conference, (pp. 829-833). Philadelphia, USA, 1997.

Jalam, R., & Teytaut, O. (2001). Identification de la langue et catégorisation de textes

basées sur les n-grammes. Extraction de Connaissance et Apprentissage, 1 (1-2), 227-238.

Jiang, M., Chen, Y., Liu, M., Rosenbloom, T., Mani, S., & Denny, J. (2011). A study of

machine-learning-based approaches to extract clinical entities and their assertions from discharge summaries. Journal of the American Medical Informatics Association, JAMIA'2011, 18(5), 601-606 .

Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with

Many Relevant Features. Proceedings of the ECML-98, 10th European Conference on Machine Learning. 1398, pp. 137-142. Springer Verlag.

Johannes, F., Mitchell, T., & Rilo, E. (1998). A case Study in Using Linguistic Phrases for

Text Categorization on the WWW. Proceeding of the 1st AAAI Workshop on learning for text categorization, (pp. 5-12). Madison, US.

Kazama, J., Makino, T., Ohta, Y., & Tsujii., J. (2002). Tuning Support Vector Machines for

Biomedical Named Entity Recognition. Proceeding of the Work-shop on Natural Language Processing in the Bio-medical Domain (at ACL’2002), (pp. 1-8).

Knirsch, C. A., Jain, N., Pablos-Mendez, A., Friedman, C., & Hripcsak, G. (1999).

Respiratory Isolation of Tuberculosis Patients Using Clinical Guidelines and an Automated Clinical Decision Support System. Journal Infection Control and Hospital Epidemiology , 19 (2), 94-100.

Page 118: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 108

Kohomban, U. S., & Lee, W. S. (2007). Optimizing Classifier Performance in Word Sense Disambiguation by Redefining Sense Classe. Actes de IJCAI , pp. 1635-1640.

Langley, P., Iba, W., & Thomas, K. (1992). An analysis of Bayesian classifiers.

Proceedings of the Tenth National Conference of Artificial Intelligence (pp. 223-228). AAAI Press.

Laporte, E. (2000). Mots et niveau lexical. Dans E. Laporte, (pp. 25-49). Hermes. Levin, M., Krol, M., Doshi, A., & Reich, D. (2007). Extraction and mapping of drug names

from free text to a standardized nomenclature. Annual Symposium Proceeding, (pp. 438-442).

Lewis, D. (1991). Representation and Learning in Information Retrieval. Technical Report

UMCS-093, Department of Computer Science, University of Massachusetts, Amherst, MA.

Lewis, D. (1992). An evaluation of phrasal and clustered representations on a text

categorization task. Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval, pages (pp. 37-50). New York, USA: ACM Press.

Lewis, D. (1992). Feature selection and feature extraction for text categorization.

Proceedings of a Workshop on Speech and Natural Language, (pp. 212-217). San Mateo.

Lewis, D., & Ringuette, M. (1994). Comparation of two learning algorithms for text

categorization. Proceedings of the Third Annual Symposium on Document Analysis and Information Retrieval.

Lewis, D., Schapire, R. E., Callan, J. P., & Papka, R. (1996). Training algorithms for linear

text classifiers. Proceedings of the 19th Annual International Conference on Research and Development in Information Retrieval, (pp. 298-306).

Liu, T., Moore, A. W., & Gray, A. (2006). New Algorithms for Efficient High Dimensional

Non-Parametric Classification. Journal of Machine Learning Research , 7, 1135-1158. Lovins, J. (1968). Development of a stemming algorithm. Mechanical Translation and

Computational Linguistics, 11 (1-2), 22-31.

Manning, C. D., Raghavan, P., & Schtze, H. (2008). Introduction to Information Retrieval.

Livre, Cambridge University Press, New York, USA. Maron, M. (1961). Automatic Indexing: An Experimental Inquiry. Journal of the

Association for Computing Machinery , 8 (3), 404–417.

Page 119: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 109

Massand, B., Linoff, G., & Waltz, D. (1992). Classifying news stories using memory based

reasonning. SIGIR-92 Proceeding of the 15th annual international ACM SIGIR conference on research and development in information retreival, (pp. 59-65). NewYork, USA.

McCallum, A. (2003). Efficiently inducing features of conditional random fields.

Conference on Uncertainty in Artificial Intelligence, (pp. 403-410). McCallum, A., Rosenfeld, R., Mitchel, T., & Ng., A. (1998). Imroving text classification

by shrinkagein a hierarchy of classes. Dans J. W. Shavliv (Éd.), 15th International Conference on Machine Learning., (pp. 359-367). Madison, US.

McDonald, D. (1993). internal and external evidence in the identification and semantic

categorization of proper names. Proceedings of the SINGLEX workshop on "Acquisition of Lexical Knowledge from Text", (pp. 32-43).

Medlock, B. (2006). An introduction to NLP-based textual anonymisation. Proceedings of

5th International Conference on Language ressources and evaluation. Genes, Italie. Meystre, S., Savova, G., & Kipper-Schuler, J. (2008). Extracting Information from Textual

Documents in the Electronic Health Record: A Review of Recent Research. Yearbook of Medical Informatics , pp.138-154.

Miloud-Aouidat, A., & Baba-Ali, A. R. (2011). Survey of Nearest Neighbor Condensing

Techniques. International Journal of Advanced Computer Science and Applications, 2 (11), 59-64.

Mitchell, M. (1997). Machine Learning. School of Computer Science carnegie Melton

University: International Edition. Moulinier, I. (1997). Feature selection : a useful preprocessing step. Dans J. Furner, & D.

Harper (Éd.), BCSIRSG-97, Proceeding of the 19th Annual Colloquium of the British Computer Society Information Retrieval Specialist Group, Aberdeen, UK.

Moulinier, I., & Ganascia, J. G. (1996). Applying an existing machine learning algorithm to

text categorization. Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing , 343–354.

Nadeau, D. (2007). Semi-Supervised Named Entity Recognition : Learning to Recognize

100 Entity Types with Little Supervision. Ph. D. thesis, University of Ottawa, Canada. Nadeau, D., & Sekine, S. (2007). A survey of named entity recognition and classification.

Linguisticae Investigationes journal, 30 (1), 3-26.

Page 120: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 110

Neumayer, R., Mayer, R., & Norvag, K. (2011). Combination of Feature Selection Methods for Text Categorisation. The 33 rd European Conference on Information Retreival.

Nidhi, & Gupta, V. (2011). Recent Trends in Text Classification Techniques. International

Journal of Computer Applications, 35 (6), 45-51. Niharika, S., Sneha Latha, V., & Lavanya, D. (2012). A survey on text categorization.

International Journal of Computer Trends and Technology , 3 (1), 39-45.

Ogura, H., Amano, H., & Kondo, M. (2009). Feature selection with a measure of deviations

from Poisson in text categorization. Expert Systems with Applications , 36, 6826–6832. Paik, W., Liddy, E., Yu, E., & Mckeenna, M. (1997). Categorizing and Standardazing

Proper Nouns for efficient information Retrieval. Corpus Proceedings of the 5th Conference on Applied Natural Language Processing, (pp. 190-193). Washington DC, USA.

Pereira, F., Tishby, N., & Lee, L. (1993). Distributional clustering of english words.

Proceeding of the 31st annual meeting on association for computationnal linguistics., (pp. 183-190). Morristown, USA.

Poibeau, T. (2003). Extraction automatique d'information. Du texte brut au web

sémantique. Paris: Hermès. Poibeau, T. (1999). Le repérage des entités nommées, un enjeu pour les systèmes de veille.

actes du colloque terminologie et Intelligence Artificielle (TIA'99). Nantes. Porter, M. F. (1980). An algorithm for sufix stripping. Program 14(3), 130-137, (Morgan

Kaufmann Publishers, Éd.) Poudat, C., Cleuziou, G., & Clavier, V. (2006). Catégorisation de textes en domaines et

genres. Complémentarité des indexations lexicale et morphosyntaxique. (Lavoisier-Hermes), 61–76.

Quinlan, R. (1986). Induction of Decision Trees. Machine Learning , 1, 81-106. Quinlan, R. (1993). C4.5: Programs for machine learning, Morgan Kaufmann Éd.

Rahmoun, A., & Elberrichi, Z. (2007). Experimenting N-gram in Text Categorization.

International Arab Journal of Information Technology , 4 (4), 377-385. Rijsbergen, C. J. (1979). Information Retrieval. London: Butterworth.

Page 121: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 111

Rindfleisch, T. C., Tanabe, L., & Weinstein, J. N. (2000). EDGAR: Extraction of Drugs, Genes and Relations from the Biomedical Literature. Proceeding Pacific Symposium on Biocomputing.

Ritter, G., Woodruff, H., Lowry, S., & Isenhour, T. (1975). An Algorithm for a Selective

Nearest Neighbor Decision Rule. IEEE Transactions on Information Theory , IT-21, 665-669.

Rocchio, J. (1971). Relevance feedback in information retreival. Dans The SMART

Retrieval System: Experiments in Automatic Document Processing. Chapter 14, (Prentice-Hall Inc) 313-323.

Rossler, M. (2004). Adapting an NER-System for German to the Biomedical Domain.

Proceedings of the Joint Workshop on Natural Language Processing in Biomedicine. Sakkis, G., Androutsopoulos, I., Paliouras, G., & Karkaletsis, V. (2003). A memory based

approach to anti spam filtering for mailing lists. Information Retrieval. , 6 (1), 49-73. Sakkis, I., Androutsopoulos, G., Paliouras, V., & Karkaletsis, C. (2001). Stacking

classifiers for anti-spam filtering of e-mail. Proceedings of 6th Conference on Empirical Methods in Natural Language Processing , 44-50.

Salton, G. (1971). The SMART Retrieval System. Experiments in Automatic Document

Processing. Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing.

Communication of the ACM , 18 (11), 613-620. Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retreival.

Information Processing and Management , 24 (5), 513-523. Salzberg, S. (1997). On comparing classifiers: Pitfalls to avoid and a recommended

approach. Datamining and Knowledge discovery , 1 (3), 317-328. Santos, I., Laorden, C., Sanz, B., & Bringas, P. G. (2012). Enhanced Topic-based Vector

Space Model for semantics-aware spam filtering. (eTVSM). Expert Systems With Applications , 39 (1), 437-444.

Sccuy, P., & Mineanu, G. W. (2005). Beyoned TFIDF weighting for text Categorization in

the Vector Space Model. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI 2005), (pp. 1130-1135).

Schapire, R. E., & Singer, Y. (2000). BoosTexter: A boosting-based system for text

categorization. Machine Learning , 39 (2), 135-168.

Page 122: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 112

Schapire, R. E. (1999). Theoretical views of boosting. Proceedings of the Fourth European Conference, (pp. 1-10).

Schapire, R. E., Singer, Y., & Singhal, A. (1998). Boosting and Rocchio applied to text

filtering. Dans W. B. Croft, B. Moffat, R. Wilkinson, & J. Zobel (Éd.), Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval,, (pp. 215–223). New York, US.

Schmid, H. (1994). Probabilistic Part-of-Speech Tagging Using Decision Trees.

Proceedings of International Conference on New Methods in Language Processing. Manchester, UK.

Schneider, K. M. (2003). A comparison of event models for naive Bayes anti-spam email

filtering. In Proceeding of the 10th conference of the European chapter of the association for computational linguistics.

Sebastiani, F. (2002). Machine learning in automated text categorization . ACM computing

surveys , 34 (1), 1-47. Sebastiani, F. (2006). Classification of text, automatic. (K. Brown, Éd.) The Encyclopedia

of Language and Linguistics , 14, pp. 457-462. Segal, R., Markowitz, T., & Arnold, W. (2006). Fast uncertainty sampling for labeling

large e-mail corpora. Proceedings of the third conf on email and anti-spam. Settles, B. (2004). Biomedical Named Entity Recognition Using Conditional Random

Fields and Rich Feature Sets. COLING 2004 International Joint Workshop on Natural Language Processing in Biomedicine and its Applications.

Shadow, G., & MacDonald, C. (2003). Extracting structured information from free text

pathology reports. AMIA Annual Symposium Proceeding,. Washington, DC. Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical

Journal . Sibanda, T., He, T., Szolovits, P., & Uzuner, O. (2006). Syntactically-informed semantic

category recognition in discharge summaries. Proceedings of the Fall Symposium of the American Medical Informatics Association. Washington, DC.

Sproull, R. F. (1991). Refinements to Nearest Neighbor Searching. Algorithmica, NewYork,

6, 579-589. Subramaniam, T., Jalab, H., & Taga, A. Y. (2010). Overview of textual anti-spam filtering

techniques. International Journal of the Physical Sciences , 5(12), 1869-1882.

Page 123: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 113

Tan, S. (2005). Neighbor-weighted k-nearest neighbors for unbalanced text corpus. Expert systems with applications , 28, 667-67.

Tanabe, L., & Wilbur, W. J. (2002). Tagging Gene and Protein Names in Biomedical Text.

Bioinformatics , 18 (8), 1124-1132. Thompson, P. (2001). Automatic categorization of case law. 8th International Conference

on Artificial Intelligence & Law, (pp. 70-77). Tomek, I. (1976). An experiment with the edited nearestneighbor rule. IEEE Transactions

on Systems, Man, and Cybernetics , 6 (6), 448–452. Tzeras, K., & Hartmann, S. (1993). Automatic indexing based on Bayesian inference

networks. 16th ACM International Conference on Research and Development in Information Retrieval, (pp. 22-34).

Uzuner, O., Goldstein, I., Luo, Y., & Kohane, I. (2008). Identifying Patient Smoking Status

from Medical Discharge Records. Journal of the American Medical Informatics Association , 15 (1), 14-24.

Valdivia, M., Vega, G., & Lopez, U. (2003). LVQ for tex categorization using multilingual

linguistic resource. Neurocomputing , 55, 665-679. Vapnik, V. (1998). Support vector machines, reproducing kernel hilbert spaces and the

gacv. Dans J. W. Sons (Éd.), Proceedings of the 1997 NIPS Workshop on Support Vector Machines. New York: MIT Press.

Wacholder, N., Ravin, Y., & Choi, M. (1997). Disambiguation of proper names in text.

Proceedings of the 17th Annual ACM-SIGIR Conference, (pp. 202-208). Washington. Weber, R., Schek, H., & Blott, S. (1998). A quantitative analysis and performance study for

similarity search methods in high-dimensional spaces. 24th International Conference on Very Large Databases. New york, NY, USA.

Wei, C. P., Chen, H. C., & Cheng, T. H. (2008). Effective spam filtering: A single class

learning and ensemble approach. Decision Support Systems. , 45 (3), 491-503. Weiner, D. E., Pedersen, J. O., & Weigend, A. S. (1995). A neural network approach to

topic spotting. 4th Annual Symposium on Document Analysis and Information Retrieval. SDAIR , 24, 317–332.

Wilson, D. (1972). Asymptotic properties of nearest neighneighbor rules using edited data.

IEEE Transactions on Systems, Man, and Cybernetics , 2 (3), 408–421.

Page 124: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Bibliographie 114

Wilson, D., & Martinez, R. (2000). Reduction techniques for instance-based learning algorithms . Machine Learning , 38 (3), 257–286.

Xu, H., Stenner, S., Doan, S., Johnson, K., Waitman, L., & De, J. (2010). MedEx: a

medication information extraction system for clinical narratives. ournal of American Medical Informatics Association , 17 (1), 19-24.

Yang, Y. (1999). An evaluation of statistical approaches to text categorization. information

retrieval , 1 (1-2), 67-88. Yang, Y., & Liu, X. (1999). A re-examination of text categorization methods. Proceedings

of the 22nd Annual International Conference on Research and Development in Information Retrieval (SIGIR), (pp. 42-49).

Yang, Y., & Pedersen, J. (1997). A comparative study on feature selection in text

categorization. Proceedings of ICML-97, 14th International Conference on Machine Learning, (pp. 412-420).

Youn, E., & Jeong, M. K. (2009). Class dependent feature scaling method using naive

Bayes classifier for text datamining. Pattern Recognition Letters. Zhang, L., Zhu, J., & Yao, T. (2004). An evaluation of statistical spam filtering techniques.

ACM Transactions on Asian Language Information Processing , 3 (4), 243-269. Zidouni, A., Glotin, H., & Quafafou, M. (2009). Recherche d'entités nommées dans les

journaux radiophoniques par contextes hiérarchique et syntaxique. CORIA'09, (pp. 421-432).

Zighed, D. A., & Rakotomalala, R. (2000). Graphe d’induction: Apprentissage et data

mining. Hermès. Zighed, D. A., Auray, J., & Duru, G. (1992). SIPINA : Méthode et logiciel. Lacassagne,

1992. Zweigenbaum, P. (2009). Knowledge and reasoning for medical question-answering.

Proceedings of the 2009 Workshop on Knowledge and Reasoning for Answering Questions (KRAQ 2009). Singapore.

Page 125: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe A: Cellular Automaton CASICellular Automaton CASICellular Automaton CASICellular Automaton CASICASI (Cellular Automata for Symbolic Induction) is a cellular method of

generation representation and a means to optimize induction graphs generated froof learning examples. This Cellular connected only with its neighbors (subset of cells). All cells obey in parallel to the same rule, which is called the “local transition function”transformation of the system.

As illustrated in Fig.1, CASI is composed of three modules: COG (Cellular Optimization and Generation), CIE (Cellular Inference Engine), Validation). 1. COG module:

Using a cellular automaton and cooperating with an induction graph (SIPINA method), COG module willof finite automata represent the knowledge that is generated.2. CV module:

After the rules have been generated by the SIPINA method, which has been coupled along with the CASI machine, validation of this knowledge could be done using the CV module.

Cellular Automaton CASICellular Automaton CASICellular Automaton CASICellular Automaton CASICASI (Cellular Automata for Symbolic Induction) is a cellular method of

generation representation and a means to optimize induction graphs generated fro. This Cellular system is organized into cells where each cell is

connected only with its neighbors (subset of cells). All cells obey in parallel to the same rule, which is called the “local transition function”. This results in an overall transformation of the system.

illustrated in Fig.1, CASI is composed of three modules: COG (Cellular and Generation), CIE (Cellular Inference Engine),

Using a cellular automaton and cooperating with an induction graph (SIPINA method), COG module will extract new knowledge from training data. Two finite layers of finite automata represent the knowledge that is generated.

After the rules have been generated by the SIPINA method, which has been CASI machine, validation of this knowledge could be done using

Cellular Automaton CASICellular Automaton CASICellular Automaton CASICellular Automaton CASI CASI (Cellular Automata for Symbolic Induction) is a cellular method of

generation representation and a means to optimize induction graphs generated from a set system is organized into cells where each cell is

connected only with its neighbors (subset of cells). All cells obey in parallel to the same This results in an overall

illustrated in Fig.1, CASI is composed of three modules: COG (Cellular and Generation), CIE (Cellular Inference Engine), and CV (Cellular

Using a cellular automaton and cooperating with an induction graph (SIPINA tract new knowledge from training data. Two finite layers

After the rules have been generated by the SIPINA method, which has been CASI machine, validation of this knowledge could be done using

Page 126: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe A 116

3. CIE module:

In this work, we are interested by the CIE component. The authors in (Atmani & Beldjilali, 2007) consider CIE as a cellular automaton that is made of two finite arbitrary long layers of finite state machines (cells) that are all identical.

The operation of the system is synchronous, and the state of each cell at time t+1 depends only on the state of its vicinity cells, and on its own state at time t.

This module, which is the core of the CASI machine, simulates the functioning of the basic cycle of an inference engine by using two finite layers of finite automata. The first layer, called CELFACT, is for representing the fact base, and the second layer, called CELRULE, is for representing the rule base. In each layer, the content of a cell determines whether and how it participates in each inference step. At every step, a cell can be active or passive, and can take part in the inference or not. The states of cells are composed of two parts: EF,IF and SF, and ER, IR and SR, which are the input, internal state and output parts of the CELFACT cells, and of the CELRULE cells, respectively.

Any cell i in the CELFACT layer with input EF(i) = 1 is regarded as representing an established fact. If EF(i) = 0, the represented fact has to be established. Any cell j of the CELRULE layer with input ER(j) = 0 is regarded as a candidate rule. When ER(j) = 1, the rule should not take part in the inference.

Two incidence matrices called RE and RS define the neighborhood of cells. They represent the facts input relation respectively and the facts output relation. They are used in forward chaining.

The input relation, noted iREj, is formulated as follows: if (fact i ∈ Premise of rule j) then iREj =1 else iREj = 0.

The output relation, noted iRSj, is formulated as follows: if (fact i ∈ Conclusion of rule j) then iRSj =1 else iRSj =0.

In order to illustrate the cellular inference engine, let us consider the set of rules generated by ML SIPINA (see Table 1). Table 2 shows how the automaton layers CELFACT and CELRULE represent the knowledge base.

Table 1. An example of a knowledge base

R1 if (A and B) then C R2 if (F and D) then A R3 if (D and E) then B R4 if (B and D) then F R5 if (E and F) then D R6 if (E and F) then B

Table 2. Cellular representation of a knowledge base. We have seven facts and seven rules.

CELFACT EF IF SF A 0 1 0 B 0 1 0 C 0 1 0 D 0 1 0 E 0 1 0 F 0 1 0 G 0 1 0

CELRULE ER IF SR R1 0 1 1 R2 0 1 1 R3 0 1 1 R4 0 1 1 R5 0 1 1 R6 0 1 1 R7 0 1 1

Page 127: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe A 117

Finally, since there are l cells in the layer CELFACT, the EF , IF and SF will be considered as l-dimensional vectors (EF,IF, SF ∈{0, 1}l). Similarly, since there are r cells in the layer CELRULE, the ER, IR and SR will be considered as r-dimensional vectors (ER,IR, SR ∈{0, 1}r). Fig. 2 shows the general outline of the cellular automaton.

As illustrated in Table 3, the neighborhood in CIE is defined by the incidence matrices of input (RE) and output (RS).

A goal fact, which is the basic cycle of an inference engine in forward chaining, traditionally operates as follows:

1. Search for applicable rules (evaluation and selection). 2. Choose one of these rules for example R (filtering). 3. Apply and add the conclusion part of R to the fact base (execution).

The cycle is repeated until the goal fact is added to the fact base, or stops when no rule is applicable.

The cellular automaton dynamics implements the CIE component as a cycle of an inference engine made up of two local transitions functions δfact (equation 1) and δrule

(equation 2), where δfact corresponds to the evaluation, selection, and filtering phases

and δrule corresponds to the execution phase.

Table 3. Input and output incidence matrices.

RE R1 R2 R3 R4 R5 R6 R7 A 1 B 1 1 1 C D 1 1 1 E 1 1 1 F 1 1 1 1 G

RS R1 R2 R3 R4 R5 R6 R7 A 1 B 1 1 C 1 D 1 E F 1 G 1

Fig. 2. Cellular Automaton for systems inference

Page 128: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe A 118

a) ( , , , , , ) ( , , , ( ), , )fact TEEF IF SF ER IR SR EF IF EF ER R EF IR SRδ → + × (1)

After applying this function we have:

b) rule( , , , , , ) ( ( ), , , , , )SEF IF SF ER IR SR EF R ER IF SF ER IR ERδ → + × (2)

After applying this function, we have:

Where is the transposed matrix of RE and is the negation of ER

We consider G0 as the initial cellular automaton configuration (see Table 4) and the

∆=δrule◦δfact, as a global transition function: ∆(G0) = G1 where δfact(G0) = (G’0) and

δrule(G’0)= G1 Let G = {G0, G1, . . .,Gq} be the configuration set of the cellular automaton. The

automaton evolution in discrete time steps from one generation to the next and is defined by the configuration sequence G0, G1…Gq, where Gi+1 =∆(Gi).

As an example, let us try first to establish fact C with the knowledge base from

Table 1 where D and E are initial facts (D, E ∈ fact base). Initially, all the cell inputs in the CELFACT layer are passive (EF = 0), except

those representing the initial facts (EF(1) = 1) (see Table 4). Using the cellular automaton principle, Table 5 presents the two layers, CELFACT and CELRULE, after evaluating,

selecting, and filtering them in the synchronous mode with the first transition law, δfact.

After the application of the second transition law, δrule, we obtain the configuration G1, as shown in Table 6.

; ; ( )T

EEF EF SF EF ER ER R EF and SR SR= = = + × =

( ); ;SEF EF R ER SF SF ER ER and SR ER= + × = = =

TER ER

Table 4: Initial cellular automaton configuration: G0. The EF of D and E are set to 1 CELFACT A B C D E F G

IF SF

0 1 0 0 1 0 0 1 0 1 1 0 1 1 0 0 1 0 0 1 0

CELRULE R1 R2 R3 R4 R5 R6 R7

ER IR SR 0 1 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 1

Table 5: Configuration obtained with δfact

CELFACT A B C D E F G

EF IF SF 0 1 0 0 1 0 0 1 0 1 1 1 1 1 1 0 1 0 0 1 0

CELRULE R1 R2 R3 R4 R5 R6 R7

ER IR SR 0 1 1 0 1 1 1 1 1 0 1 1 0 1 1 0 1 1 0 1 1

Page 129: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe A 119

δfact and δrule will be executed in parallel until goal

C is reached or no rule is applicable. At the end we have the final configuration, as shown in Table 7.

Table 6: Configuration G1 = ∆(G0) obtained with δfact • δrule(G0)

CELFACT A B C D E F G

EF IF SF 0 1 0 1 1 0 0 1 0 1 1 1 1 1 1 0 1 0 0 1 0

CELRULE R1 R2 R3 R4 R5 R6 R7

ER IR SR 0 1 1 0 1 1 1 1 0 0 1 1 0 1 1 0 1 1 0 1 1

Table 7: Final configuration G= {G0, G1, G2, G3, G4}. Fact C is established, its EF is set to 1 CELFACT A B C D E F G

EF IF SF 1 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 1 0 0 0

CELRULE R1 R2 R3 R4 R5 R6 R7

ER IR SR 1 1 0 1 1 0 1 1 0 1 1 0 0 1 1 0 1 1 0 1

Page 130: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe B:French TreeTagger PartFrench TreeTagger PartFrench TreeTagger PartFrench TreeTagger Part----ofofofof----Speech TagsSpeech TagsSpeech TagsSpeech Tags

ABR abreviation

ADJ adjective

ADV adverb

DET:ART article

DET:POS possessive pronoun (ma, ta, ...)

INT interjection

KON conjunction

NAM proper name

NOM noun

NUM numeral

PRO pronoun

PRO:DEM demonstrative pronoun

PRO:IND indefinite pronoun

PRO:PER personal pronoun

PRO:POS possessive pronoun (mien, tien, ...)

PRO:REL relative pronoun

PRP preposition

PRP:det preposition plus article (au,du,aux,des)

PUN punctuation

SYM symbol

VER:cond verb conditional

VER:futu verb futur

VER:impe verb imperative

VER:impf verb imperfect

VER:infi verb infinitive

VER:pper verb past participle

VER:ppre verb present participle

VER:pres verb present

VER:simp verb simple past

VER:subi verb subjunctive imperfect

VER:subp verb subjunctive present

Page 131: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe C

Annexe C : Quelques diagrammes UMLQuelques diagrammes UMLQuelques diagrammes UMLQuelques diagrammes UMLC.1 Diagramme de classe

Quelques diagrammes UMLQuelques diagrammes UMLQuelques diagrammes UMLQuelques diagrammes UML C.1 Diagramme de classe des données

121

Page 132: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe C

C.2 Diagramme de séquence pour l’i

Diagramme de séquence pour l’indexation et la réduction de l’index

122

réduction de l’index

Page 133: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe C

C.3 Diagramme de séquence de la catégorisation

C.3 Diagramme de séquence de la catégorisation

123

Page 134: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Annexe C

C.4 Diagramme d’état de l’application

C.4 Diagramme d’état de l’application

124

Page 135: DEPARTEMENT D DEPARTEMENT D'INFORMATIQUE THESE ...

Titre : CONTRIBUTION À LA CATÉGORISATION DE TEXTES ET À L’EXTRACTION D’ INFORMATION

Résumé : Les travaux de cette thèse s’articulent autour de deux axes : (1) la classification par apprentissage supervisé pour la catégorisation de textes et (2) l’extraction des entités nommées à partir des comptes rendus médicaux. Dans notre première contribution nous proposons une nouvelle démarche pour la classification de textes avec la méthode des K-plus proches voisins. Notre objectif, dans ce travail, est l’amélioration des performances de cette méthode. Au lieu de faire participer l’ensemble des instances d’apprentissage pour classifier un nouveau document ce qui va augmenter le temps de calcul, l’espace mémoire et le bruit, nous proposons l’utilisation de l’automate cellulaire CASI pour (i) la représentation des données textuelles et (ii) la sélection optimale des instances devant participer dans la classification d’un nouveau document. Cet automate est paramétré par un facteur de sélection qui va permettre, premièrement, d’éliminer toutes les instances pouvant produire du bruit pendant le processus de classification, et deuxièmement, d’assurer la convergence de l’algorithme en un temps de calcul intéressant. Dans notre deuxième contribution, nous nous intéressons à l’extraction d’information à partir des comptes rendus hospitaliers. Nous proposons l’utilisation de l’automate cellulaire pour extraire le contenu sémantique des comptes rendus médicaux sous forme d’entités nommées. L’automate cellulaire CASI est utilisé dans un premier temps pour (i) représenter les règles d’extraction et dans un deuxième temps pour (ii) localiser et typer (catégoriser) les entités présentes dans le compte rendu hospitalier. Notre motivation à adopter ce principe de la modélisation booléenne pour cette tâche d’extraction est double: d’une part optimiser le stockage et, d’autre part réduire le temps de réponse pour la reconnaissance des entités. Les performances des deux contributions sont vérifiées à travers des expériences, les résultats obtenus sont encourageants. Mots clés : fouille de textes, catégorisation de textes, extraction d’information, sélection des termes, traitement linguistique, représentation vectorielle des données textuelles, apprentissage automatique, entités nommées, règles d’extraction, automate cellulaire.

Title: CONTRIBUTION TO TEXT CATEGORIZATION AND INFORMATION EXTRACTION

Abstract:

The thesis is organized around two axes: supervised learning for text categorization and named entities extraction from medical reports. The first axis aims to propose a new approach for text classification using K-nearest neighbours technique; our goal is to improve the performance of that technique. Instead of involving all training instances to classify a new document which will increase the computation time, memory space and noise, we propose the use of the cellular automaton CASI, for (i) the textual data representation and (ii) the optimal selection of training instances to be involved in classifying a new document. This automaton is parameterized by a selection factor that will allow, first, to filter all the instances that can produce noise during the classification process, and secondly, to ensure the convergence of the algorithm in an interesting computation time. The second axis of this thesis is to extract information from clinical reports. We propose the cellular automaton CASI to extract the semantic content of medical reports in the form of named entities. The cellular automaton CASI is used initially to (i) represent the named entities extraction rules and a second time to (ii) categorize entities found in clinical reports. Our motivation for adopting this principle of Boolean modeling for the extraction task is twofold: firstly optimize storage and, secondly reduce the response time for the named entities recognition. The performance of the two proposed contributions is verified through a set of experiences, the results are encouraging.

Key words: Text mining, text categorization, information extraction, attributes selection, vector space model, machine learning, named entities, extraction rules, cellular automaton.